ES2727567T3 - Procedimiento y dispositivo para la generación de imágenes multivista en tiempo real - Google Patents

Procedimiento y dispositivo para la generación de imágenes multivista en tiempo real Download PDF

Info

Publication number
ES2727567T3
ES2727567T3 ES07856161T ES07856161T ES2727567T3 ES 2727567 T3 ES2727567 T3 ES 2727567T3 ES 07856161 T ES07856161 T ES 07856161T ES 07856161 T ES07856161 T ES 07856161T ES 2727567 T3 ES2727567 T3 ES 2727567T3
Authority
ES
Spain
Prior art keywords
image
stereo image
images
stereo
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07856161T
Other languages
English (en)
Inventor
Rolf-Dieter Naske
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Psholix AG
Original Assignee
Psholix AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Psholix AG filed Critical Psholix AG
Application granted granted Critical
Publication of ES2727567T3 publication Critical patent/ES2727567T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators

Abstract

Procedimiento para la generacion en tiempo real de m > 0 imagenes sinteticas como perspectivas virtuales adicionales a partir de una imagen estereo recibida de una secuencia de imagenes estereo con dos o mas imagenes parciales cada una de ellas de la misma escena, que se tomaron en el mismo momento desde perspectivas distintas, en donde la imagen estereo recibida se escala al tamano de procesamiento G(t), que describe la resolucion de la imagen estereo, para obtener una imagen estereo escalada, caracterizado por que en un detector de constancia (2) se identifican areas de imagen en una o dos o mas imagenes parciales de la imagen estereo escalada, que se diferencian en menos de un valor ε que ha de ser fijado, cada una de ellas de la misma area de imagen de la misma imagen parcial de la imagen estereo escalada previamente, almacenandose para cada pixel (i, j) la informacion K(i, j) = 1, si el pixel ha cambiado, en caso contrario, se almacena la informacion K(i, j) = 0, en donde para los pixeles con K (i, j) = 0 se adoptan los valores del mapa de disparidades, calculados con la imagen parcial anterior, de los pixeles correspondientes, calculandose la disparidad solo para los pixeles (i, j), para los que se almaceno la informacion K(i, j) = 1, y a partir de las imagenes parciales y de las disparidades adoptadas y las disparidades calculadas se generan m > 0 imagenes sinteticas como perspectivas virtuales adicionales y, al final de cada generacion de las m imagenes sinteticas, una unidad de control (6) mide el tiempo de procesamiento y lo compara con los valores de destino predefinidos, modificandose mediante procedimientos de estimacion automaticos uno o varios parametros de control que comprenden al menos el tamano de procesamiento G(t) y/o la cantidad de las caracteristicas de los pixeles, utilizadas para la estimacion de disparidades y descritas por los vectores de caracteristica FL y FR, de tal forma que el tamano de procesamiento G(t) y el numero de caracteristicas de los pixeles permiten la generacion de m imagenes sinteticas en el tiempo de procesamiento predefinido como valor de destino para la imagen estereo siguiente de la secuencia de imagenes estereo.

Description

DESCRIPCIÓN
Procedimiento y dispositivo para la generación de imágenes multivista en tiempo real
Objetivo
Las pantallas autoestereoscópicas en las que se representan simultáneamente varias perspectivas y de esta manera se permite simultáneamente a muchos observadores en diferentes posiciones de observación observar sin medios auxiliares ópticos una imagen tridimensional adquieren cada vez mayor importancia desde hace algunos años. El número de perspectivas representadas simultáneamente varía generalmente entre 4 y 32. Sin embargo, en el futuro también puede ser mayor.
La cantidad de perspectivas que se visualizan simultáneamente y que generalmente también se tomaron en el mismo momento se designarán como imagen multivista en lo sucesivo.
Contemplando el proceso de producción completo desde la toma con la cámara estéreo, pasando por la transmisión codificada, hasta la representación en la pantalla autoestereoscópica, resultan diferentes requisitos y condiciones marco:
• Durante la toma, la cámara debe ser fácil de llevar y de manejar. Por lo tanto, debe ser ligera y estar dotada sólo de pocos objetivos (por ejemplo, sólo 2).
• Durante la transmisión, se debe enviar la menor cantidad posible de perspectivas, para que pueda ser máxima la resolución para cada perspectiva.
• En la representación debe visualizarse la mayor cantidad posible de perspectivas, para que resulte la mayor cantidad posible de posiciones de observación óptimas.
Estos requisitos llevan a la conclusión de que sería lo más conveniente generar la mayor cantidad posible de perspectivas en el lugar de la representación. Adicionalmente, se debe tener en cuenta que la capacidad de diferentes dispositivos no obstante conduzca a un tiempo de procesamiento que sea más corto que el tiempo entre dos imágenes estéreo. Por lo tanto, este es el objetivo de la patente presentada.
Estado de la técnica
Para la transmisión de imágenes estéreo, en el marco de la organización MPEG se despidió ya en 1996 un llamado “Multiview-Profile” (MVP) (perfil multivista) que permite codificar de forma consistente y transmitir más de una posición de cámara. En la práctica, por las razones mencionadas anteriormente, esto se usará generalmente para 2 posiciones de cámara.
Pero además del perfil multivista de MPEG que ganará importancia en el ámbito de las transmisiones digitales, también son relevantes aquellos formatos, generalmente analógicos, que resultaron por razones históricas. A este respecto, cabe mencionar por ejemplo “Field-Sequential”, “ Interlaced”, “Over/Under” o “Side-by-Side” del ámbito de las grabadoras de vídeo. En estos casos, no existe ningún mapa de disparidades que se pueda tomar como fuente de información.
En el documento CA2212069 (ref. 4) se presenta un procedimiento en el que mediante la optimización de mínimos cuadrados de bloques de referencia en el área de búsqueda se encuentra una disparidad óptima. Este procedimiento se usa para la codificación de secuencias de imágenes estéreo. Sin embargo, se aplica sólo en los valores de luminancia de la imagen. Los parámetros de una transformación afín deben compensar adicionalmente posibles diferencias en la calibración de los cabezales de cámara. Dado que el procedimiento presentado fue desarrollado especialmente para una codificación y descodificación óptimas de secuencias de imágenes estéreo, existe una estrecha relación con los procedimientos de codificación MPEG.
En el documento CA2553473 (ref. 5), a partir de una secuencia de imágenes monoscópica, mediante el análisis de los cantos se genera un mapa de profundidades, mediante el que, junto a la imagen original, se sintetiza una imagen estéreo. Dado que, sin embargo, no existe información relativa a ensombrecimientos y a los contenidos de imagen pertenecientes, este procedimiento no es aceptable aquí para una generación ópticamente correcta de imágenes multivista.
En el documento US2007/0104276A1 (ref. 6) se presentan un procedimiento y un sistema basados en el estándar de un perfil multivista de MPEG. Se procede de tal forma que para una imagen de referencia (por ejemplo, la imagen izquierda) se calculan vectores de disparidad para todas las demás imágenes parciales de la imagen multivista. Sobre la base de la imagen de referencia y de los vectores de disparidad se reconstruyen las imágenes parciales y se determina en una norma discrecional la diferencia / correlación entre la imagen parcial original y la imagen parcial reconstruida. El error de reconstrucción se usa para la definición de una estructura de estimación.
En el documento WO2007/035054A1 (ref. 7) se presenta un procedimiento de codificación que sirve para codificar y descodificar de la manera más efectiva posible una imagen multivista de varias cámaras. Aquí, la disparidad no se calcula par todos los bloques. La disparidad de bloques no calculados se crea mediante la interpolación sobre la base de una lista de referencias perteneciente. De esta manera, no es necesario calcular la disparidad para todos los bloques. Los procedimientos de interpolación lineales o bidimensionales cúbicos se aplican para estimar la disparidad para bloques no calculados.
En el documento US2005/0185048A1 (ref. 8) se genera una perspectiva intermedia, de tal forma que en la perspectiva intermedia se define un bloque y dicho bloque se desplaza por una disparidad al mismo tiempo en la imagen derecha y la imagen izquierda, hasta que sea mínimo el importe absoluto de la suma de los valores de píxel. El píxel de la perspectiva intermedia se fija como valor medio (de forma generalizada, “transición gradual”) de los valores de píxel mínimos encontrados de la imagen izquierda y la imagen derecha).
RUI NABESHIMA Y COL.: “Frame Rate Stabilization by Variable Resolution Shape Reconstruction for On-Une Free-Viewpoint Video Generation”, COMPUTER VISION - ACCV 2006 LECTURE NOTES IN COMPUTER SCIENCE; LNc S, SPRINGER, BERLIN, tomo 3852, 1 de enero de 2005 (2005-01-01), páginas 81 a 90, da a conocer un procedimiento para la transmisión estable de objetos representados por un modelo 3D, pudiendo generar cada receptor una imagen estéreo desde una ubicación que puede determinarse individualmente. Se varía la resolución del modelo 3D para garantizar una transmisión continua. La publicación citada anteriormente no se refiere a un procedimiento para la generación y la reproducción de imágenes estéreo en forma de píxeles.
En J. Schmidt, H. Niemann y col. (ref. 9), para una imagen estéreo recibida se calculan los dos mapas de disparidad izquierdo y derecho. Esto se realiza usando la norma de importe mediante el cálculo de las disparidades entre dmín y dmáx y el almacenamiento de los valores en un campo acumulador para cada píxel de cada línea. Dado que se supone que las imágenes están rectificadas, esto es admisible y reduce el tiempo de procesamiento. Se invierte un gran esfuerzo para llenar “agujeros” y establecer una seguridad de asignación y consistencia. Sin embargo, los resultados experimentales indicados demuestran que para una imagen del tamaño de 720x576 en el mejor de los casos se requiere un tiempo de procesamiento de 155 ms para los mapas de disparidades. Pero con un tamaño de imagen recibido de por ejemplo 1920x1080 y 50 imágenes por segundo, como se usa en la televisión HDTV actual, están disponibles sólo como máximo 15 ms para el cálculo del mapa de disparidades. Por lo tanto, el procedimiento propuesto tendría que acelerarse en más del factor 10.
En los procedimientos y dispositivos presentados aquí, a partir de una imagen estéreo con al menos 2 perspectivas han de generarse perspectivas virtuales adicionales (generalmente 8 y más), bajo la condición de que el tiempo para el proceso de generación total sea menor que la tasa de imágenes predefinida y de que al mismo tiempo sea máxima la calidad de imágenes multivista.
La invención se caracteriza por el objeto de las reivindicaciones 1 y 3. Formas de realización preferibles son objeto de la reivindicación subordinada 2.
No se presupone que ya exista un mapa de disparidades. Sin embargo, en caso de existir, puede tomarse como ayuda para aumentar la velocidad de procedimiento.
Generalmente, por una parte, se identifican las áreas de imagen que no han cambiado entre dos imágenes estéreo de la secuencia de imágenes. En estas áreas, bajo la condición previa de que no hayan cambiado los parámetros geométricos de los objetivos de la cámara estéreo, tampoco puede haber cambiado el mapa de disparidades correspondiente.
Por otra parte, mediante una medición de tiempo permanente durante el procesamiento se adaptan permanentemente los parámetros de procesamiento, de manera que la calidad siempre es máxima.
De esta manera, resulta un procedimiento adaptivo, capaz de reaccionar también a fluctuaciones de solicitación del dispositivo de hardware en el que se basa.
Descripción de los dibujos
La figura 1 es un diagrama de bloques de los diferentes pasos de procedimiento y la relación entre estos.
La figura 2 muestra el principio básico de la codificación multivista en el marco del estándar MPEG.
La figura 3 muestra en una línea del mapa de disparidades cómo a los píxeles asignables de la imagen estéreo izquierda se asignan los píxeles derechos. Los ensombrecimientos a la derecha se visualizan mediante un -1 en el campo correspondiente de la imagen parcial izquierda. Los ensombrecimientos a la izquierda resultan por saltos en la asignación a los píxeles derechos.
La figura 4 muestra a modo de ejemplo cómo puede ser una estructura de hardware con varias unidades de procesamiento.
La figura 5 muestra un diagrama de flujo para la generación de imágenes multivista en tiempo real.
Descripción detallada del procedimiento
Cada generación de imagen multivista en tiempo real comienza con la recepción de una imagen estéreo en un formato estéreo determinado. La imagen estéreo se compone de dos imágenes parciales de la misma escena que se tomaron en el mismo momento desde perspectivas distintas. Puede tener cualquier tamaño. Los tamaños de imagen actuales llegan hasta dos veces HDTV (1920x1080).
La imagen estéreo recibida se divide en una imagen parcial izquierda L y una imagen parcial derecha R y se escala a un tamaño G(t) determinado. El tamaño G(t) es el tamaño de procesamiento. En función del rendimiento y el grado de utilización de la estructura de hardware usada puede variar el tiempo de G(t). Al final de cada generación de imagen multivista en tiempo real se mide el tiempo de procesamiento y G(t) o se aumenta o se reduce.
Un valor inicial para G(t) se pone durante el inicio del procedimiento. Después de aprox. 2 a 3 generaciones de imagen multivista en tiempo real, G(t) se ha ajustado de forma automática / adaptiva a un valor óptimo. La escalada es realizada por el llamado compresor (1).
Tras la compresión al tamaño de procesamiento correcto se buscan las zonas que no han cambiado entre la imagen actual L(1) o R(1) y la imagen anterior L(0) o R(0). Para ello, la imagen se divide en bloques del mismo tamaño (por ejemplo, 16x16) y cada bloque se compara con el mismo bloque en la imagen anterior. Si la diferencia está por debajo de una barrera £, todos los píxeles del bloque se marcan como inalterados. La similitud puede referirse a valores de gris, valores de rojo / amarillo / azul u otros valores. Para el cálculo de la similitud pueden usarse tanto medidas de distancia como medidas de correlación. Este reconocimiento de las áreas inalteradas puede realizarse tanto en la imagen izquierda como en la imagen derecha. Para simplificar la siguiente representación, de ahora en adelante se partirá, sin limitación de la validez general, de que la detección de constancia se realiza en la imagen izquierda.
La identificación de los bloques constantes es realizada por el llamado detector de constancia (2). En la imagen parcial izquierda pueden marcarse por ejemplo píxeles para los que hay una disparidad, es decir que también existen en la imagen derecha, o aquellos que a causa de un ensombrecimiento a la derecha no están presentes en la imagen parcial derecha. Si la detección de constancia se realiza en la imagen parcial derecha, resultan píxeles con disparidad o ensombrecimientos a la izquierda.
El resultado del detector de constancia se suministra al extractor de características (3). Para píxeles no marcados como constantes se calculan ahora las características necesarias. Para píxeles que se marcaron como constantes, las características se calcularon ya durante la generación previa de imagen multivista en tiempo real.
Esta extracción de características se realiza para ambas imágenes L(1) y R(1): Las áreas grandes constantes reducen significativamente el tiempo de procesamiento.
El resultado de la extracción de características se almacena en las memorias Fl y Fr para las imágenes parciales izquierda y derecha. Dado que las memorias de características Fl y Fr igualmente tienen el tamaño G(t), las nuevas características calculadas para los píxeles simplemente se escriben en la misma posición. Los píxeles constantes mantienen automáticamente sus vectores de características, siempre que no se modificara el tamaño G(t) en el paso anterior.
Como características pueden usarse por ejemplo los valores de rojo / amarillo / azul, valores de canto o valores de homogeneidad. Se puede usar cualquier procedimiento de extracción de características que asigne una característica a un píxel.
Las memorias Fl y Fr están a disposición del analizador de imágenes (4). La función del analizador de imágenes es crear el mapa de disparidades. Para este cálculo se aplican por ejemplo procedimientos de la programación dinámica en las distintas líneas de las imágenes parciales izquierda y derecha para la determinación de la asignación óptima.
Sin embargo, una aplicación en las líneas sólo es admisible si la imagen estéreo se encuentra en la forma estéreo normal. Si no es el caso, esto se puede conseguir o bien mediante una transformación lineal hacia adelante o atrás, o bien, mediante la aplicación de procedimientos de estimación de disparidad modificados que se orientan por ejemplo por las epipolares. Para simplificar la representación, en lo sucesivo se parte de la forma estéreo normal. Dado que este paso es uno de los pasos parciales que más tiempo requieren, aquí hay que prestar especial atención a una reducción del tiempo de procesamiento. Por lo tanto, también en este paso está disponible el resultado de la detección de constancia. El analizador de imágenes tiene para cada píxel la información
Figure imgf000005_0001
Para todos los píxeles (i, j) para los que K (i, j) = 0, se puede aplicar la disparidad DP (0, i, j) según DP (1, i, j). DP (1, i, j) es la matriz de las disparidades en el momento actual.
Generalmente, para el cálculo de similitud se toma un entorno alrededor de los píxeles (i, j) con el vector de características FL (i, j). El entorno puede ser un rectángulo o estar limitado por propiedades geométricas como por ejemplo cantos. Como medida de similitud se ofrece cualquier norma como por ejemplo Euklid, importe absoluto o correlación. Además, se pueden ponderar adicionalmente características en la norma, habiendo sido leídos los pesos durante el inicio del procedimiento.
Las disparidades constantes de una línea pueden conducir a una tarea de optimización con restricciones, de tal forma que la disparidad se calcula sólo para aquellos píxeles (i, j), para los que k (i, j) = 1, o conducir por ejemplo a una tarea de optimización segmentada dinámica, realizándose la optimización siempre sólo en el segmento, para el que todos los K (i, j) = 1.
El valor DP (1, i, ju) con el menor j de un segmento, de tal forma que K (i, j u) = 0, se toma como punto inicial izquierdo del segmento. El valor DP (1, i, jo) con el mayor j del segmento, de manera que K (i, jo) = 0, se toma como valor final derecho del segmento.
Por lo tanto, una optimización dinámica se realiza sólo en los segmentos de ju a jo. Dentro de una línea evidentemente pueden resultar varios segmentos. La matriz DP (1, i, j) queda definida entonces de la siguiente manera:
f\* , si el punto de imagen (i, j) de la imagen parcial
izquierda se asigna al punto de imagen (i, j),
-1, si el punto de imagen (i, j) es un ensombrecimiento a la
Figure imgf000005_0002
derecha.
Los ensombrecimientos a la izquierda se pueden reconocer en DP(1) por el hecho de que hay una laguna entre DP(1, i, j) y DP(1, i, j+1). Una línea de DP(1) está representada en la figura 3.
Mediante el análisis de imágenes se crea la matriz DP(1).
El sintetizador de imágenes (5) usa ahora el mapa de disparidades DP(1) así como las imágenes parciales L(1) y R(1) y las copia después de l(1) y l(n). Sólo las perspectivas virtuales l(2) a l(n-1) se generan.
El sintetizador de imágenes realiza prácticamente un viaje virtual de la cámara de L(1) a R(1) con n-2 puntos de parda, si la imagen multivista debe contener n perspectivas. n > 2 puede ser modificado en cualquier momento por el observador.
Para todos los (i, j) de la imagen parcial izquierda se procede de la siguiente manera:
Si DP(1, i, j) = j*, se calcula Aj*: = (j* - j) / (n-1).
El viaje virtual de cámara significa para un píxel L(1, i , j) que se pone
l (k, i, j Aj*(k-1)): = L(1, i, j), k = 1,...n
El área de un ensombrecimiento a la derecha, en la que es válido DP (1, i, j) = -1, se va ocultando lentamente durante dicho viaje de cámara, hasta dejar de existir en l(n).
Como contrapartida se va visualizando lentamente un ensombrecimiento a la izquierda que se caracteriza porque es válido |DP(1, i, j) - DP(1, i, j+1)| > 1.
Si para un píxel L(1, i, j) hay una asignación j*, con ello todavía no queda garantizado que sea válido L(1, i, j) = R(1, i, j*). Esto puede estar causado por ejemplo por un ruido o una calibración de cámara distintos. En este caso, durante el viaje virtual de la cámara puede realizarse adicionalmente una transición gradual de L(1, i, j) a R(1, i, j*), de manera que quede garantizado l(n, i, f) = R(1, i, f).
Si por errores de redondeo en el cálculo j Aj*(k-1) ocurre que en una perspectiva multivista no se pusieron algunos píxeles, estos puntos erróneos se insertan por interpolación geométrica de los puntos marginales puestos.
Una vez finalizada la síntesis de imagen, la imagen multivista está disponible con n perspectivas para la representación en la pantalla.
La unidad de control (6) mide el tiempo At que ha transcurrido desde la entrada de la imagen estéreo. Para cada formato de vídeo se conoce la frecuencia de imágenes (PAL = 50 Hz, NTSC = 60 Hz, HDTV = 100 Hz).
Si el tiempo de cálculo At total es mayor que el tiempo entre dos imágenes estéreo, la unidad de control modifica los parámetros de procesamiento. Para ello, la unidad de control tiene dos posibilidades:
1. No se calculan algunas características de los vectores de características Fl y Fr, por ejemplo una medida de homogeneidad.
2. Se reduce el tamaño de procesamiento G(t). De esta manera se reduce la resolución.
Si, por otra parte, el tiempo de cálculo At es significativamente menor que el tiempo entre la recepción de dos imágenes estéreo, la unidad de control puede aumentar la resolución o añadir características adicionales para mejorar la calidad. Tras la modificación de los parámetros de control, para las siguientes 3 a 4 mediciones de tiempo se suspende una modificación, para que los nuevos parámetros de control puedan repercutir en los pasos de procedimiento.
En total, el sistema global se adapta siempre de forma dinámica y adaptiva al grado de utilización del hardware. Todos los pasos parciales están concebidos de tal forma que pueden ser realizados por varias unidades de procesamiento presentes paralelamente (“Multi-Core”). Esto está representado en la figura 4.
Todos los pasos de procesamiento están representados en la figura 5 como diagrama de flujo.
En otra forma de realización, el detector de constancia que debe localizar los bloques constantes se combina con un procedimiento de codificación MPEG.
En diversos procedimientos de codificación MPEG se identifican también bloques (generalmente del tamaño de 16x16) que no han cambiado. Estos bloques no se transmiten. Por lo tanto, un procedimiento integrado podría adoptar esta información, o la información adicional, de una “enhancement-layer” (capa de mejora) y procesarla para los pasos de procesamiento siguientes.
Referencias
1. Documento US2006/01616138A1 y solicitudes posteriores, “Method and System for Synthesizing Multiview Videos”, 30.11.2005, Jun Xin Quincy
2. Documento EP1175104B1 y solicitudes posteriores, “Stereoscopic Image Disparity Measuring System”, 15.6.2001, Jeong, Hong y col.
3. Documento US6,847,728B2, “Dynamic Depth Recovery from Multiple Synchronized Video Streams”, 9.12.2002, Hai Tao y col.
4. Documento CA2212069, “Optimal Disparity Estimation for Stereoscopic Video Coding”, 6.8.1996, Chen, Xuemin y col.
5. Documento US2007/0024614A1, “Generating a Depth Map from a Two-dimensional Source Image for Stereoscopic and Multiview Imaging”, 25.7.2006, Wa James Tam y col.
6. Documento US2007/0104276A1, “Method and Apparatus for Encoding Multiview Video”, 6.11.2006, Ha, Tae-Hyeun
7. Documento WO2007/035054A1, “Method of Estimating Disparity Vector, and Method for Encoding and Decoding Multi-View Moving Picture using the Disparity Vector Estimation Method”, 22.9.2005, Ha, Tae-Hyeun 8. Documento US2005/0185048A1, “3-D Display System, Apparatus, and Method for Reconstructing Intermediate-View Video”, 27.1.2005, Ha, Tae-Hyeun
9. J. Schmidt, H. Niemann y col., “Dense Disparity Maps in Real-Time with an Application to Augmented Reality”, Proc. Of the Sixth IEEE Workshop on Applications for Computer Vision (WACS'02), ISBN 0-7695-1858-3/02

Claims (3)

REIVINDICACIONES
1. Procedimiento para la generación en tiempo real de m > 0 imágenes sintéticas como perspectivas virtuales adicionales a partir de una imagen estéreo recibida de una secuencia de imágenes estéreo con dos o más imágenes parciales cada una de ellas de la misma escena, que se tomaron en el mismo momento desde perspectivas distintas,
en donde la imagen estéreo recibida se escala al tamaño de procesamiento G(t), que describe la resolución de la imagen estéreo, para obtener una imagen estéreo escalada, caracterizado por que
en un detector de constancia (2) se identifican áreas de imagen en una o dos o más imágenes parciales de la imagen estéreo escalada, que se diferencian en menos de un valor £ que ha de ser fijado, cada una de ellas de la misma área de imagen de la misma imagen parcial de la imagen estéreo escalada previamente, almacenándose para cada píxel (i, j) la información K(i, j) = 1, si el píxel ha cambiado, en caso contrario, se almacena la información K(i, j) = 0,
en donde para los píxeles con K (i, j) = 0 se adoptan los valores del mapa de disparidades, calculados con la imagen parcial anterior, de los píxeles correspondientes, calculándose la disparidad sólo para los píxeles (i, j), para los que se almacenó la información K(i, j) = 1, y
a partir de las imágenes parciales y de las disparidades adoptadas y las disparidades calculadas se generan m > 0 imágenes sintéticas como perspectivas virtuales adicionales y, al final de cada generación de las m imágenes sintéticas, una unidad de control (6) mide el tiempo de procesamiento y lo compara con los valores de destino predefinidos, modificándose mediante procedimientos de estimación automáticos uno o varios parámetros de control que comprenden al menos el tamaño de procesamiento G(t) y/o la cantidad de las características de los píxeles, utilizadas para la estimación de disparidades y descritas por los vectores de característica Fl y Fr, de tal forma que el tamaño de procesamiento G(t) y el número de características de los píxeles permiten la generación de m imágenes sintéticas en el tiempo de procesamiento predefinido como valor de destino para la imagen estéreo siguiente de la secuencia de imágenes estéreo.
2. Procedimiento según la reivindicación 1, en el que el detector de constancia (2) que localiza bloques constantes en la imagen estéreo recibida está combinado con un procedimiento de codificación MPEG, siendo los bloques constantes las áreas de imagen que se diferencian de la misma imagen parcial de la imagen estéreo anterior en menos de un valor £ que ha de ser definido.
3. Dispositivo para la ejecución del procedimiento según una de las reivindicaciones anteriores, con un compresor (1) para la adaptación del tamaño de imagen recibido, que describe la resolución de la imagen estéreo recibida, al tamaño de procesamiento G(t), el detector de constancia (2) para la identificación de las áreas de imagen constantes, un extractor de características (3) para el cálculo de las características de los píxeles, un analizador de imágenes (4) para el cálculo de las disparidades, un sintetizador de imágenes (5) para la generación de m imágenes sintéticas, así como la unidad de control (6) que ajusta los parámetros de control de tal forma que el cálculo de las m imágenes sintéticas ha finalizado antes de que se haya recibido una imagen estéreo nueva.
ES07856161T 2007-12-27 2007-12-27 Procedimiento y dispositivo para la generación de imágenes multivista en tiempo real Active ES2727567T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/DE2007/002326 WO2009082990A1 (de) 2007-12-27 2007-12-27 Verfahren und vorrichtung zur echtzeit-multiview-erzeugung

Publications (1)

Publication Number Publication Date
ES2727567T3 true ES2727567T3 (es) 2019-10-17

Family

ID=39714233

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07856161T Active ES2727567T3 (es) 2007-12-27 2007-12-27 Procedimiento y dispositivo para la generación de imágenes multivista en tiempo real

Country Status (6)

Country Link
US (1) US8736669B2 (es)
EP (1) EP2229784B1 (es)
DE (1) DE112007003762A5 (es)
ES (1) ES2727567T3 (es)
PL (1) PL2229784T3 (es)
WO (1) WO2009082990A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200937313A (en) * 2008-02-18 2009-09-01 Univ Nat Chiao Tung Method and system for increasing license plate detection efficiency in successively inputting image
JP2012134885A (ja) * 2010-12-22 2012-07-12 Sony Corp 画像処理装置及び画像処理方法
DE102011008886A1 (de) * 2011-01-19 2012-07-19 Sterrix Technologies UG (haftungsbeschränkt) Verfahren und Vorrichtung zur Stereobasis-Erweiterung von stereoskopischen Bildern und Bildfolgen
CN102413353B (zh) * 2011-12-28 2014-02-19 清华大学 立体视频编码过程的多视点视频和深度图的码率分配方法
US9648347B1 (en) * 2012-06-14 2017-05-09 Pixelworks, Inc. Disparity postprocessing and interpolation for motion estimation and motion correction
KR101966920B1 (ko) * 2012-07-10 2019-04-08 삼성전자주식회사 다시점 영상의 시차 정보를 이용하여 영상의 움직임을 추정하는 방법 및 장치
JP5526199B2 (ja) * 2012-08-22 2014-06-18 株式会社東芝 文書分類装置および文書分類処理プログラム
US10212240B2 (en) * 2015-04-22 2019-02-19 Samsung Electronics Co., Ltd. Method for tracking content and electronic device using the same
JP6922369B2 (ja) * 2017-04-14 2021-08-18 富士通株式会社 視点選択支援プログラム、視点選択支援方法及び視点選択支援装置
EP3528496A1 (en) * 2018-02-16 2019-08-21 Ultra-D Coöperatief U.A. Overscan for 3d display

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2693221B2 (ja) * 1989-04-28 1997-12-24 池上通信機株式会社 立体映像信号変換装置
US6445814B2 (en) * 1996-07-01 2002-09-03 Canon Kabushiki Kaisha Three-dimensional information processing apparatus and method
US5652616A (en) 1996-08-06 1997-07-29 General Instrument Corporation Of Delaware Optimal disparity estimation for stereoscopic video coding
JP3771973B2 (ja) * 1996-09-26 2006-05-10 オリンパス株式会社 立体映像表示装置
AUPO894497A0 (en) * 1997-09-02 1997-09-25 Xenotech Research Pty Ltd Image processing method and apparatus
KR100374784B1 (ko) 2000-07-19 2003-03-04 학교법인 포항공과대학교 실시간 입체 영상 정합 시스템
US6847728B2 (en) * 2002-12-09 2005-01-25 Sarnoff Corporation Dynamic depth recovery from multiple synchronized video streams
KR100517517B1 (ko) * 2004-02-20 2005-09-28 삼성전자주식회사 중간 시점 영상 합성 방법 및 그를 적용한 3d 디스플레이장치
US7728877B2 (en) * 2004-12-17 2010-06-01 Mitsubishi Electric Research Laboratories, Inc. Method and system for synthesizing multiview videos
CA2553473A1 (en) 2005-07-26 2007-01-26 Wa James Tam Generating a depth map from a tw0-dimensional source image for stereoscopic and multiview imaging
WO2007035054A1 (en) 2005-09-22 2007-03-29 Samsung Electronics Co., Ltd. Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method
US8644386B2 (en) * 2005-09-22 2014-02-04 Samsung Electronics Co., Ltd. Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method
KR100667830B1 (ko) * 2005-11-05 2007-01-11 삼성전자주식회사 다시점 동영상을 부호화하는 방법 및 장치
CN101322418B (zh) * 2005-12-02 2010-09-01 皇家飞利浦电子股份有限公司 图像信号的深度相关的滤波
KR101506217B1 (ko) * 2008-01-31 2015-03-26 삼성전자주식회사 스테레오스코픽 영상의 부분 데이터 구간 재생을 위한스테레오스코픽 영상 데이터스트림 생성 방법과 장치, 및스테레오스코픽 영상의 부분 데이터 구간 재생 방법과 장치

Also Published As

Publication number Publication date
PL2229784T3 (pl) 2019-10-31
DE112007003762A5 (de) 2010-11-25
EP2229784B1 (de) 2019-02-27
US8736669B2 (en) 2014-05-27
WO2009082990A1 (de) 2009-07-09
US20110025822A1 (en) 2011-02-03
EP2229784A1 (de) 2010-09-22

Similar Documents

Publication Publication Date Title
ES2727567T3 (es) Procedimiento y dispositivo para la generación de imágenes multivista en tiempo real
US9451232B2 (en) Representation and coding of multi-view images using tapestry encoding
CN1956555B (zh) 三维图像处理设备和方法
US10499033B2 (en) Apparatus, a method and a computer program for coding and rendering volumetric video
US20110298898A1 (en) Three dimensional image generating system and method accomodating multi-view imaging
US10158838B2 (en) Methods and arrangements for supporting view synthesis
CN108886598A (zh) 全景立体视频系统的压缩方法和装置
US20110058021A1 (en) Rendering multiview content in a 3d video system
JP2011511532A (ja) 2d画像データを立体画像データに変換する方法およびシステム
KR20160135660A (ko) 헤드 마운트 디스플레이를 위한 입체 영상을 제공하는 방법 및 장치
WO2012042998A1 (ja) 画像処理装置、画像処理方法、プログラム及び記録媒体
US20150249839A1 (en) Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, picture decoding program, and recording media
CN105681805A (zh) 视频编码、解码方法及其帧间预测方法和装置
Tang et al. A universal optical flow based real-time low-latency omnidirectional stereo video system
WO2015115946A1 (en) Methods for encoding and decoding three-dimensional video content
Selmanovic et al. Enabling stereoscopic high dynamic range video
KR20110025083A (ko) 입체 영상 시스템에서 입체 영상 디스플레이 장치 및 방법
JP4815004B2 (ja) 多視点画像符号化装置
JPWO2015056712A1 (ja) 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム
CN104463958A (zh) 基于视差图融合的三维超分辨率方法
KR101920113B1 (ko) 임의시점 영상생성 방법 및 시스템
Knorr et al. Super-resolution stereo-and multi-view synthesis from monocular video sequences
JP2014071870A (ja) 仮想視点画像合成装置、仮想視点画像合成方法及び仮想視点画像合成プログラム
JP7336871B2 (ja) 全天周映像処理装置及びプログラム
Barenbrug et al. Robust image, depth, and occlusion generation from uncalibrated stereo