ES2446165A2 - Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes - Google Patents

Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes Download PDF

Info

Publication number
ES2446165A2
ES2446165A2 ES201331307A ES201331307A ES2446165A2 ES 2446165 A2 ES2446165 A2 ES 2446165A2 ES 201331307 A ES201331307 A ES 201331307A ES 201331307 A ES201331307 A ES 201331307A ES 2446165 A2 ES2446165 A2 ES 2446165A2
Authority
ES
Spain
Prior art keywords
image
depth
images
composite
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
ES201331307A
Other languages
English (en)
Other versions
ES2446165R1 (es
ES2446165B1 (es
Inventor
Paolo D'Amato
Giovanni Ballocca
Fedor Bushlanov
Alexey Polyakov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sisvel SpA
Original Assignee
Sisvel SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sisvel SpA filed Critical Sisvel SpA
Publication of ES2446165A2 publication Critical patent/ES2446165A2/es
Publication of ES2446165R1 publication Critical patent/ES2446165R1/es
Application granted granted Critical
Publication of ES2446165B1 publication Critical patent/ES2446165B1/es
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0077Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes. El procedimiento para generar dicho flujo comprende imágenes compuestas (C) con información sobre una imagen derecha (R) y una imagen izquierda (L), y un mapa de profundidad. Se seleccionan píxeles de la imagen derecha e izquierda, y se introducen en una imagen compuesta (C) de dicho flujo, estando previsto introducir todos los píxeles de las imágenes derecha e izquierda en la imagen compuesta (C) dejando una de ellas sin cambiar y descomponiendo la otra en regiones (R1, R2, R3) con píxeles, que se introducen en esa región de la imagen compuesta que no está ocupada por píxeles de las imágenes derecha e izquierda. La invención se refiere también a un procedimiento para reconstruir las imágenes derecha e izquierda empezando por una imagen compuesta, y a dispositivos que permiten implementar dichos procedimientos.

Description

Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes.
Campo de la invención
La presente invención se refiere a la generación, almacenamiento, transmisión, recepción y reproducción de flujos de vídeo estereoscópicos, es decir flujos de vídeo que, cuando se procesan apropiadamente en un dispositivo de visualización, producen secuencias de imágenes que se perciben por un espectador como tridimensionales.
Antecedentes de la técnica
Tal como se conoce, la percepción de tridimensionalidad puede obtenerse reproduciendo dos imágenes, una para el ojo derecho del espectador y la otra para el ojo izquierdo del espectador.
Por tanto un flujo de vídeo estereoscópico transporta información sobre dos secuencias de imágenes, correspondientes a las perspectivas derecha e izquierda de un objeto o una escena. Un flujo de este tipo también puede transportar información complementaria.
La solicitud de patente internacional PCT/IB2010/055918, publicada el 30 de junio de 2011 como WO 2011/077343A1, describe un procedimiento de multiplexación de imágenes izquierda/derecha y un procedimiento de demultiplexación (así como dispositivos relacionados) que permiten conservar el equilibrio entre resolución horizontal y vertical, ofreciendo así ventajas sobre las técnicas conocidas tales como “de lado a lado” y “encima y debajo”.
Según dicho procedimiento de multiplexación, los píxeles de la primera imagen (por ejemplo la imagen izquierda) se introducen en la imagen compuesta sin cambiar, mientras que la segunda imagen se divide en regiones cuyos píxeles están dispuestos en áreas libres de la imagen compuesta, tal como se muestra en la figura 1, que muestra el caso en el que dos denominadas imágenes a 720p se introducen en un fotograma contenedor de 1080p.
En la recepción, se reconstruye la imagen dividida en regiones y a continuación se envía a la pantalla. Por ejemplo, se conocen pantallas que funcionan según el denominado principio de “fotograma alterno”, es decir que muestran las dos imágenes L y R en sucesión temporal. Para la visión estereoscópica, deben llevarse las denominadas gafas “activas”, es decir gafas que, sincronizadas con la sucesión de imágenes L y R, tapan una lente y mantienen la lente del otro ojo abierta, de modo que cada ojo sólo puede ver la imagen prevista para él.
Se conoce que la visión estereoscópica a través de tales pantallas puede resultar molesta para algunos espectadores, para los que sería deseable ofrecer la posibilidad de variar (disminuir) la profundidad de las imágenes para adaptarlas a sus preferencias subjetivas y al tamaño de la pantalla. Para ello, es necesario proporcionar, dentro de la pantalla, una síntesis de imágenes intermedias entre las que se transmiten, que a continuación se visualizarán en el lugar de las imágenes transmitidas en realidad. Una reconstrucción de este tipo puede realizarse, utilizando las técnicas conocidas, si están disponibles uno o más mapas de profundidad asociados con las imágenes transmitidas.
Además, recientemente han empezado a aparecer en el mercado las denominadas pantallas autoestereoscópicas, que no requieren la utilización de gafas. Además tales pantallas llevan a cabo una síntesis de imágenes no transmitidas, y requieren por tanto al menos un mapa de profundidad que proporcione la información necesaria para tal síntesis.
Por tanto se ha vuelto necesario introducir un nuevo formato para generar, transportar y reconstruir flujos estereoscópicos, formato que puede utilizarse para dispositivos de recepción y reproducción 2D tradicionales y para dispositivos de recepción y reproducción 3D estereoscópicos de dos vistas actuales (con o sin ajuste de profundidad), así como para dispositivos autoestereoscópicos futuros que utilizan más de dos vistas, mientras que al mismo tiempo conservan la mayor compatibilidad del formato con las infraestructuras y dispositivos de producción y distribución de flujo de vídeo actualmente en uso.
Breve descripción de la invención
Por tanto, el objetivo de la presente invención es proponer un procedimiento para generar, transmitir y recibir imágenes estereoscópicas, y dispositivos relacionados, previstos para cumplir con los requisitos descritos anteriormente.
La invención se refiere a un procedimiento y un dispositivo para multiplexar las dos imágenes relativas a las perspectivas derecha e izquierda (denominadas posteriormente en la presente memoria imagen derecha e imagen izquierda), así como uno o más mapas de profundidad, dentro de un único fotograma compuesto.
La invención se refiere también a un procedimiento y un dispositivo para demultipelxar dicha imagen compuesta, es decir para extraer de la misma las imágenes derecha e izquierda y el/los mapa(s) de profundidad introducidos por el dispositivo de multiplexación.
Tal como puede observarse en la figura 1a, relativa a la solicitud de patente internacional mencionada anteriormente (el denominado “formato de baldosa”), en la imagen compuesta existe una región no utilizada (C5) cuyas dimensiones son la mitad, tanto horizontalmente como verticalmente, de las de las dos imágenes L y R. Según una posible realización de la invención, puede introducirse al menos un mapa de profundidad (DM) en dicha región no utilizada, tal como se muestra en la figura 1b.
Un mapa de profundidad relativo a una imagen x ha de entenderse como una imagen en escala de grises en la que cada píxel presenta un valor de luminancia que es proporcional a la profundidad, es decir la coordenada “z”, del propio píxel, suponiendo por convención que el valor z=0 corresponde a la posición sobre la pantalla, y los valores positivos de z corresponden a píxeles colocados por detrás de la pantalla, mientras que los valores negativos corresponden a píxeles colocados por delante de la pantalla. Puesto que la región no utilizada de la imagen compuesta presenta unas dimensiones horizontal y vertical que son la mitad de las dimensiones de las imágenes L y R, en una realización de la presente invención es posible introducir en tal región un mapa de profundidad (relativo a una de las dos imágenes L y R) que presenta una resolución horizontal y vertical igual a la mitad de la imagen correspondiente. Se ha observado que una pérdida de resolución de este tipo no es perjudicial porque, dada la inexactitud con la que en general pueden calcularse o medirse los mapas de profundidad, es preferible someter los mapas de resolución completa a operaciones de submuestreo realizando interpolaciones entre los valores de píxel, donde tales operaciones pueden reducir la componente de ruido, dando como resultado imágenes reconstruidas de calidad superior.
Según otras realizaciones de la invención, es posible introducir dos mapas de profundidad en dicha región no utilizada (C5).
La solicitud de patente internacional mencionada anteriormente también describe otras formas de multiplexación y demultiplexación de las imágenes estereoscópicas L y R, a las que también puede aplicarse el procedimiento de la presente invención, aunque de manera menos eficaz debido a que el espacio que se deja disponible para introducir el mapa de profundidad es menor. Por consiguiente, habrá una reducción adicional de la resolución de dicho mapa. Mientras se encuentren todavía dentro de los principios generales de la presente invención, tales implementaciones alternativas no se describirán en la presente memoria.
Un objetivo particular de la presente invención es proporcionar un procedimiento para generar, transmitir y recibir imágenes estereoscópicas, y dispositivos relacionados, tal como se expone en las reivindicaciones adjuntas, que son una parte integral de la presente descripción.
Breve descripción de los dibujos
A partir de la siguiente descripción de algunas realizaciones de la misma resultarán más evidentes los objetivos y ventajas adicionales de la presente invención que se proporcionan a modo de ejemplo no limitativo con referencia a los dibujos adjuntos, en los que:
la figura 1a muestra el fotograma compuesto en el formato de la técnica anterior (formato de baldosa);
la figura 1b muestra un ejemplo de un fotograma compuesto según la presente invención;
la figura 2 muestra un diagrama de bloques de un dispositivo para multiplexar la imagen derecha, la imagen izquierda y un mapa de profundidad en una imagen compuesta;
la figura 3 es un diagrama de flujo de un procedimiento ejecutado por el dispositivo de la figura 2;
la figura 4 muestra una forma posible de desensamblar una imagen que va a introducirse en una imagen compuesta;
la figura 5 muestra un diagrama de bloques de un dispositivo para extraer la imagen izquierda, la imagen derecha y un mapa de profundidad del fotograma compuesto;
la figura 6 es un diagrama de flujo de un procedimiento ejecutado por el dispositivo de la figura 5.
Descripción detallada de la invención
La figura 2 muestra un diagrama de bloques de un dispositivo 100 para generar un flujo de vídeo estereoscópico 101 con al menos un mapa de profundidad, según las variantes de la invención.
En la figura 2, el dispositivo 100 recibe dos secuencias de imágenes 102 y 103, por ejemplo dos flujos de vídeo respectivamente previstos para el ojo izquierdo (L) y para el ojo derecho (R), así como una secuencia de mapas de profundidad 106 relativa al contenido tridimensional asociado con el flujo de vídeo estereoscópico.
El mapa de profundidad de la secuencia 106 puede estar asociado con una de las dos imágenes derecha e izquierda que pertenecen respectivamente a las secuencias 102 y 103, o puede crearse como una interpolación entre los mapas de profundidad para las imágenes derecha e izquierda, es decir en relación con un punto de vista intermedio de la escena.
En esta primera realización, que se describirá a continuación, el mapa de profundidad se genera a través de uno cualquiera de los algoritmos ya conocidos en la materia, que están basados, por ejemplo, en una comparación entre una imagen derecha y una imagen izquierda, y que devuelven una matriz (es decir el mapa de profundidad), cuyo tamaño es igual a los píxeles de una de las dos imágenes comparadas, y cuyos elementos presentan un valor que es proporcional a la profundidad de cada píxel de dicha imagen. Otra técnica de generación de mapa de profundidad se basa en medir la distancia del objeto en la escena desde el par de cámaras de vídeo que están filmando la escena: esta distancia puede medirse fácilmente por medio de un láser. En el caso de flujos de vídeo artificiales generados con la ayuda de ordenadores electrónicos, las cámaras de vídeo son virtuales, porque consisten en dos puntos de vista de una determinada escena creada artificialmente mediante un ordenador. En tal caso, los mapas de profundidad se generan mediante el ordenador y son muy precisos.
Como alternativa al ejemplo de la figura 2, los mapas de profundidad de la secuencia 106 pueden generarse dentro del dispositivo 100. En este caso, el dispositivo 100, en lugar de recibir la secuencia de mapas de profundidad del exterior, comprende un módulo adecuado (no mostrado en el dibujo) en el que se introducen las imágenes L y R de las secuencias 102 y 103 y que a continuación calcula los mapas de profundidad correspondientes.
El dispositivo 100 permite implementar un procedimiento para multiplexar dos imágenes de las dos secuencias 102 y 103 y el mapa de profundidad de la secuencia 106.
Para implementar el procedimiento para multiplexar las imágenes derecha e izquierda y el mapa de profundidad, el dispositivo 100 comprende un módulo desensamblador 104 para descomponer una imagen de entrada (la imagen derecha en el ejemplo de la figura 1b) en una pluralidad de subimágenes, correspondiendo cada una a una región de la imagen recibida, un módulo de submuestreo y filtrado 107 para procesar el mapa de profundidad, y un módulo ensamblador 105 que puede introducir los píxeles de imágenes recibidas, incluyendo el mapa de profundidad, en una única imagen compuesta que va a proporcionarse en su salida. Si no es necesario un procesamiento de lasecuencia 106, puede omitirse el módulo 107. Éste puede ser el caso, por ejemplo, cuando el mapa de profundidad se genera por láser y presenta, desde el principio, una resolución inferior a la de las imágenes L y R.
A continuación con referencia a la figura 3 se describirá un ejemplo de un procedimiento de multiplexación implementado por el dispositivo 100.
El procedimiento comienza en la etapa 200. Posteriormente (etapa 201), una de las dos imágenes de entrada (derecha o izquierda) se descompone en una pluralidad de regiones, tal como se muestra en la figura 4. En el ejemplo de la figura 4, la imagen desensamblada es un fotograma R de un flujo de vídeo a 720p, es decir un formato progresivo con una resolución de 1280 x 720 píxeles.
El fotograma R de la figura 4 procede del flujo de vídeo 103 que lleva las imágenes previstas para el ojo derecho, y se desensambla en tres regiones R1, R2 y R3, preferiblemente de forma rectangular.
El desensamblaje de la imagen R se obtiene dividiéndola en dos partes del mismo tamaño y posteriormente subdividiendo una de estas partes en dos partes del mismo tamaño.
La región R1 presenta un tamaño de 640x720 píxeles y se obtiene tomando todos los primeros 640 píxeles de cada fila. La región R2 presenta un tamaño de 640x360 píxeles y se obtiene tomando los píxeles desde 641 hasta 1280 de las primeras 360 filas. La región R3 presenta un tamaño de 640x360 píxeles y se obtiene tomando los píxeles restantes de la imagen R, es decir los píxeles desde 641 hasta 1280 de las últimas 360 filas.
En el ejemplo de la figura 2, la etapa de desensamblar la imagen R se lleva a cabo mediante el módulo 104, que recibe una imagen de entrada R (en este caso el fotograma R) y emite tres subimágenes (es decir tres grupos de píxeles) correspondientes a las tres regiones R1, R2 y R3.
Posteriormente (etapas 202, 203 y 204) se construye la imagen compuesta C, que comprende la información relativa tanto a las imágenes derecha e izquierda como al mapa de profundidad recibido; en el ejemplo descrito en la presente memoria, dicha imagen compuesta C es un fotograma del flujo de vídeo estereoscópico de salida, y por tanto también se denomina fotograma contenedor.
En primer lugar (etapa 202), la imagen de entrada recibida por el dispositivo 100 y no desensamblada por el dispositivo 105 (la imagen izquierda L en el ejemplo de la figura 2) se introduce sin cambiar en un área no dividida dentro de un fotograma contenedor, que está dimensionado para incluir todos los píxeles de ambas imágenes de entrada. Por ejemplo, si las imágenes de entrada presentan un tamaño de 1280x720 píxeles, entonces un fotograma contenedor adecuado para contener ambas será un fotograma de 1920x1080 píxeles, por ejemplo un fotograma de un flujo de vídeo del tipo a 1080p (formato progresivo con 1920 x 1080 píxeles).
En el ejemplo de la figura 1, la imagen izquierda L se introduce en el fotograma contenedor C y se coloca en la esquina izquierda superior. Esto se obtiene copiando los 1280x720 píxeles de la imagen L en un área C1 que consiste en los primeros 1280 píxeles de las primeras 720 filas del fotograma contenedor C.
En la próxima etapa 203, la imagen desensamblada en la etapa 201 mediante el módulo 104 se introduce en el fotograma contenedor. Esto se consigue mediante el módulo 105 copiando los píxeles de la imagen desensamblada en el fotograma contenedor C en las áreas del mismo que no se han ocupado por la imagen L, es decir áreas externas al área C1.
Para alcanzar la mejor compresión posible y reducir la generación de artefactos cuando se descomprime el flujo de vídeo, los píxeles de las subimágenes emitidas mediante el módulo 104 se copian conservando las relaciones espaciales respectivas. En otras palabras, las regiones R1, R2 y R3 se copian en áreas respectivas del fotograma C sin sufrir ninguna deformación, exclusivamente por medio de operaciones de translación.
Un ejemplo del fotograma contenedor C emitido mediante el módulo 105 se muestra en la figura 1b.
La región R1 se copia en los últimos 640 píxeles de las primeras 720 filas (área C2), es decir junto a la imagen L copiada anteriormente.
Las regiones R2 y R3 se copian debajo del área C1, es decir respectivamente en las áreas C3 y C4, que comprenden respectivamente los primeros 640 píxeles y los siguientes 640 píxeles de las últimas 360 filas.
Las operaciones para introducir las imágenes L y R en el fotograma contenedor no implican ninguna alteración del equilibrio entre la resolución horizontal y vertical.
La técnica descrita anteriormente para introducir imágenes L y R en el fotograma contenedor C se definirá posteriormente en la presente memoria como tipo formato de baldosa.
En los píxeles libres del fotograma C, es decir en el área C5, se introduce en el módulo 105, en forma de imagen, el mapa de profundidad (DM) relativo al par estereoscópico L y R (etapa 204). Antes de la etapa 204, el mapa de profundidad DM puede submuestrearse, filtrarse o procesarse adicionalmente mediante el módulo 107.
El mapa de profundidad se codifica preferiblemente como una imagen en escala de grises, cuyo contenido de información puede transportarse por tanto sólo mediante la señal de luminancia; las crominancias no se utilizan y, por ejemplo pueden ser nulas; esto permite obtener una compresión eficaz del fotograma contenedor C.
En una realización preferida, el mapa de profundidad DM presenta una resolución de 640 x 360 píxeles, correspondientes a un submuestreo de 4 a 1 (o decimación) del mapa de profundidad original que presenta una resolución de 1280 x 720 píxeles, coincidente con la de las imágenes L y R. Cada píxel del mapa submuestreado DM corresponde a una región de 2 x 2 píxeles del mapa original. La operación de submuestreo se lleva a cabo normalmente utilizando procedimientos que se conocen en sí mismos en la materia.
Por tanto, posteriormente el fotograma C obtenido se comprime y transmite o se guarda en un medio de almacenamiento (por ejemplo un DVD). Por este motivo, se proporcionan unos medios de compresión que están adaptados para comprimir una imagen o una señal de vídeo, junto con unos medios para registrar y/o transmitir la imagen o señal de vídeo comprimida.
La figura 5 muestra un diagrama de bloques de un receptor 1100 que descomprime el fotograma contenedor recibido (si se comprime), reconstruye las dos imágenes derecha e izquierda, y las pone a disposición de un dispositivo de visualización (por ejemplo un receptor de televisión) que permite disfrutar de los contenidos en 3D. El receptor 1100 puede ser un módulo decodificador o un receptor integrado en un receptor de televisión.
Las mismas observaciones hechas para el receptor 1100 también son aplicables a un lector de imágenes almacenadas (por ejemplo un lector de DVD) que lee un fotograma contenedor (posiblemente comprimido) y lo procesa para obtener un par de fotogramas correspondientes a las imágenes derecha e izquierda introducidas en el fotograma contenedor (posiblemente comprimido) leído por el lector.
En referencia de nuevo a la figura 5, el receptor recibe (por medio de cable o antena) un flujo de vídeo estereoscópico comprimido 1101 y lo descomprime por medio de un módulo de descompresión 1102, obteniendo así un flujo de vídeo que comprende una secuencia de fotogramas C’ correspondientes a los fotogramas C. En el caso de un canal ideal o si los fotogramas contenedores se leen a partir de una memoria masiva o un medio de datos (Blu-ray, CD, DVD), los fotogramas C’ corresponden a los fotogramas contenedores C que llevan la información sobre las imágenes derecha e izquierda y el mapa de profundidad, excepto cualquier artefacto introducido por el proceso de compresión.
Estos fotogramas C’ se suministren entonces a un módulo de reconstrucción 1103, que ejecuta un procedimiento de reconstrucción de imagen y extracción de mapa de profundidad tal como se describe a continuación con referencia a la figura 6.
Resulta evidente que, si el flujo de vídeo no se comprime, puede omitirse el módulo de descompresión 1102 y la señal de vídeo puede suministrarse directamente al módulo de reconstrucción 1103.
El proceso de reconstrucción comienza en la etapa 1300, cuando se recibe el fotograma contenedor descomprimido C’.
El módulo de reconstrucción 1103 extrae (etapa 1301) la imagen izquierda L copiando los primeros 720x1080 píxeles contiguos del fotograma descomprimido en un nuevo fotograma que es menor que el fotograma contenedor, por ejemplo un fotograma de un flujo a 720p. Por tanto, la imagen L reconstruida se envía a la salida del receptor 1100 (etapa 1302).
El término “píxeles contiguos” se refiere a píxeles de una imagen sin cambiar que pertenecen a un área no dividida del fotograma.
Posteriormente, el procedimiento prevé la extracción de la imagen derecha R a partir del fotograma contenedor C’.
La etapa de extraer la imagen derecha (véase también la figura 4) comienza copiando (etapa 1303) el área R1 presente en el fotograma C’. En más detalle, los píxeles de las 640 columnas de R1 se copian en las primeras 640 columnas correspondientes del nuevo fotograma que representa la imagen reconstruida Rsalida. Posteriormente, se extrae R2 (etapa 1304). A partir del fotograma descomprimido C’ (que, como se dijo anteriormente, corresponde al fotograma C de la figura 1b), se seleccionan los píxeles del área C3 (correspondiente a la región fuente R2). En este momento, las 640 columnas de píxeles se copian en las columnas libres adyacentes a las recién copiadas a partir de R1.
En cuanto a R3 (etapa 1305), se extraen los píxeles de la región C4 del fotograma C’ y se copian en la última columna libre en la esquina izquierda inferior del fotograma reconstruido.
En este momento, la imagen derecha Rsalida se ha reconstruido totalmente y puede emitirse (etapa 1306).
Finalmente, el módulo de reconstrucción 1103 extrae (etapa 1307) el mapa de profundidad copiando en un área de memoria los valores de luminancia de los últimos 640 x 320 píxeles del fotograma contenedor descomprimido C’, correspondiente al área C5. El contenido de dicho área de memoria se emite al receptor 1100 (etapa 1302) y se utilizará por la pantalla para generar imágenes interpoladas no transmitidas en el flujo de vídeo estereoscópico. Por tanto, se completa el proceso para reconstruir las imágenes derecha e izquierda y el mapa de profundidad contenido en el fotograma contenedor C’ (etapa 1309). Dicho proceso se repite para cada fotograma del flujo de vídeo recibido por el receptor 1100, de modo que la salida consistirá en dos flujos de vídeo 1104 y 1105 para la imagen derecha y para la imagen izquierda, respectivamente, y un flujo de vídeo 1106 correspondiente al mapa de profundidad.
El proceso descrito anteriormente para reconstruir las imágenes derecha e izquierda y el mapa de profundidad para la síntesis de imagen se basa en la suposición de que el demultiplexador 1100 conoce cómo se construyó el fotograma contenedor C y por tanto puede extraer las imágenes derecha e izquierda y el mapa de profundidad de síntesis.
Por supuesto, esto es posible si el procedimiento de multiplexación está normalizado.
Para tener en cuenta el hecho de que el fotograma contenedor puede generarse según uno cualquiera de los procedimientos que utilizan la solución que es el contenido de las reivindicaciones adjuntas, el demultiplexador utiliza preferiblemente información de señalización contenida en forma de metadatos en una región predefinida de la imagen compuesta o en el flujo de vídeo, que identifica el tipo de flujo de vídeo que se genera para conocer cómo desempaquetar el contenido de la imagen compuesta y cómo reconstruir las imágenes derecha e izquierda y el mapa de profundidad para la síntesis de imágenes estereoscópicas complementarias.
Tras haber decodificado la señalización, el demultiplexador conocerá la posición de la imagen sin cambiar (por ejemplo la imagen izquierda en los ejemplos descritos anteriormente), así como las posiciones de las regiones en las que se desensambló la otra imagen (por ejemplo la imagen derecha en los ejemplos descritos anteriormente) y la posición del mapa de profundidad.
Con esta información, el demultiplexador puede extraer la imagen sin cambiar (por ejemplo la imagen izquierda) y el mapa de profundidad y reconstruir la imagen desensamblada (por ejemplo la imagen derecha).
Aunque la presente invención se ha ilustrado hasta ahora con referencia a algunas realizaciones preferidas y ventajosas, queda claro que no se limita a tales realizaciones y que pueden realizarse muchos cambios en la misma por un experto en la materia que quiera combinar en una imagen compuesta dos imágenes relativas a dos perspectivas diferentes (derecha e izquierda) de un objeto o una escena y el mapa de profundidad asociado.
En una posible variante, por ejemplo, en lugar de introducir en el fotograma compuesto C el mapa de profundidad relativo a una de las dos imágenes, se introduce un denominado “mapa de disparidad” o “mapa de desplazamiento”. Bajo las hipótesis adecuadas (filmar con cámaras de vídeo equipadas con una óptica idéntica), puede derivarse fácilmente un mapa de este tipo del mapa de profundidad, con el que puede relacionarse fácilmente. Si las dos imágenes derecha e izquierda se visualizan superpuestas en la misma pantalla y no se utilizan gafas para separarlas, uno puede darse cuenta fácilmente de que para obtener una imagen de la otra es necesario mover los objetos una determinada cantidad. Con más precisión, para obtener la imagen derecha empezando por la imagen izquierda es necesario mover los objetos situados por detrás de la pantalla hacia la derecha una cantidad que aumenta con la profundidad a la que se ubican tales objetos. Los objetos que se ubican exactamente en la pantalla no tienen que moverse, mientras que los objetos ubicados delante de la pantalla tienen que moverse a la izquierda una cantidad que aumenta en función de la distancia de la pantalla.
En las condiciones mencionadas anteriormente, entre la profundidad P y la disparidad D existe una relación del siguiente tipo:
D = I*P/(P+P0)
en la que I es la distancia interocular y P0 es la distancia del espectador con respecto a la pantalla. Debe observarse que, cuando P tiende a infinito, D tenderá a I, y para P=0 (objetos ubicados en la pantalla) D será igual a 0.
Por supuesto, para reconstruir una imagen intermedia entre la imagen izquierda y la derecha, es posible adoptar el mismo procedimiento descrito anteriormente, pero los valores de disparidad tendrán que multiplicarse por un coeficiente c entre 0 y 1, que es una función de la distancia del punto de vista intermedio desde el punto de vista de la imagen de referencia (la izquierda en este caso).
Debe observarse que, cuando la imagen derecha se reconstruye empezando por la izquierda según la descripción anterior, o cuando se reconstruye una imagen intermedia, algunas áreas se dejan al descubierto, que corresponden a los píxeles de objetos presentes en la imagen derecha pero no en la imagen izquierda, puesto que se ensombrecen por otros objetos situados por delante (las denominadas “oclusiones”).
Para realizar una reconstrucción completa de una imagen intermedia, sería necesario por tanto tener disponibles las imágenes derecha e izquierda así como los mapas de profundidad o disparidad. De hecho, de esta manera, las áreas vacías (ocluidas) pueden rellenarse tomando los píxeles correspondientes de la otra imagen y moviéndolos una cantidad igual a la disparidad relativa multiplicada por el coeficiente 1 – c.
Tal como puede entenderse a partir de la descripción anterior, otra variante posible de la invención puede requerir la entrada de dos mapas de profundidad o disparidad, en lugar de uno. Tales mapas, que se refieren respectivamente a la imagen izquierda y a la imagen derecha, pueden introducirse en el mismo espacio en el que se introdujo un único mapa en el caso anterior, utilizando técnicas de empaquetado de fotogramas conocidas tales como, por ejemplo, de lado a lado o encima y debajo. En el primer caso se divide adicionalmente por dos la resolución horizontal de ambos mapas, mientras que en el último caso se divide por dos la resolución vertical. También es posible utilizar una variante adicional de la técnica de empaquetado de fotogramas definida anteriormente como “formato de baldosa”.
Los procedimientos para introducir los dos mapas en el lado de generación y para extraer los dos mapas en el lado de recepción pueden derivarse fácilmente de los descritos con referencia al caso de mapa único, con variaciones obvias bien conocidas para los expertos en la materia.
Por supuesto, la señalización presente en el flujo de vídeo también debe poder distinguir la presencia de uno o dos mapas. Por consiguiente, dicha señalización debe contener información adaptada para permitir distinguir entre al menos dos de los siguientes tipos de fotogramas compuestos:
1) fotograma compuesto de tipo formato de baldosa sin mapas de profundidad o disparidad (caso de la figura 1a);
2) fotograma compuesto de tipo formato de baldosa con un mapa de profundidad o disparidad (caso de la figura 1b);
y posiblemente también:
3) fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad o disparidad en configuración encima y debajo;
4) fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad o disparidad en configuración de lado a lado;
5) fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad o disparidad en configuración de formato de baldosa.
El receptor comprende preferiblemente uno o más bloques de procesamiento adaptados para llevar a cabo una o más de las siguientes operaciones, basándose en la información de señalización:
-
reconocer el tipo de fotograma que se recibe, con el fin de reconstruir apropiadamente las dos imágenes derecha e izquierda del contenido de vídeo tridimensional, tal como se describió anteriormente;
-
reconocer la presencia de uno o dos mapas de profundidad o disparidad y el tipo de configuración de los
mismos;
-
si existen dos mapas de profundidad o disparidad, obtener cada uno de los dos mapas;
-
realizar, sobre los mapas de profundidad o disparidad, operaciones adaptadas para llevar las dimensiones de los mapas a valores iguales a los de las imágenes del contenido de vídeo. Estas operaciones pueden ser, por ejemplo, de un tipo inverso al submuestreo, por ejemplo operaciones de interpolación.
Otras variantes pueden referirse a la implementación física de la invención. Por ejemplo, los módulos electrónicos que implementan los dispositivos descritos anteriormente, en particular el dispositivo 100 y el receptor 1100, pueden subdividirse y distribuirse de manera diversa; además, pueden proporcionarse en forma de módulos de hardware o como algoritmos de software implementados por un procesador, en particular un procesador de vídeo equipado con áreas de memoria adecuadas para almacenar temporalmente los fotogramas de entrada recibidos. Por tanto, estos módulos pueden ejecutar en paralelo o en serie una o más de las etapas de procesamiento de vídeo de los procedimientos de multiplexación y demultiplexación de imágenes según la presente invención. También resulta evidente que, aunque las realizaciones preferidas se refieren a multiplexar dos flujos de vídeo a 720p en un flujo de vídeo a 1080p, también pueden utilizarse otros formatos.
Es obvio que el orden en el que se ejecutan los procedimientos de multiplexación y demultiplexación mostrados en las figuras 3 y 6 es meramente a modo de ejemplo: puede modificarse por cualquier motivo, sin cambiar la esencia del procedimiento.
La invención tampoco está limitada a un tipo particular de disposición de la imagen compuesta, puesto que diferentes soluciones para generar la imagen compuesta pueden ofrecer ventajas y/o desventajas específicas.
La invención, con todas sus variantes, propone un formato universal para generar, transportar y reproducir los contenidos en 3D en cualquier tipo de pantalla actual o futura.
En el caso de un dispositivo reproducción en 2D, el procesador de vídeo del dispositivo de reproducción descartará simplemente las imágenes R y los mapas de profundidad (DM o DM1 y DM2) que pueden estar presentes en la salida del receptor 1100 y visualizará, sujeto a ajuste a escala, sólo la secuencia de imágenes L en un dispositivo de visualización asociado.
Lo mismo se aplica al caso de un dispositivo de reproducción en 3D en el que el usuario ha activado el modo de visualización en 2D.
Un dispositivo de reproducción en 3D en el que se ha activado el modo de visualización en 3D puede mostrar dos comportamientos diferentes, dependiendo de si la profundidad de la escena puede ajustarse (disminuirse) o no. En el primer caso, el procesador de vídeo utilizará las dos secuencias de imágenes L y R para generar el efecto tridimensional. En el último caso, el procesador de vídeo utilizará los mapas de profundidad (uno o dos) incluidos en los fotogramas compuestos C’ asociados con cada par de imágenes estereoscópicas R y L para generar vistas intermedias entre L y R, obteniendo así imágenes tridimensionales que presentan una profundidad variable, inferior a la alcanzable desde L y R.
El último caso se representa mediante reproductores autoestereoscópicos, que necesitan un número muy grande de vistas (unas pocas decenas) para generar el efecto tridimensional para espectadores colocados en puntos diferentes en el espacio delante de la pantalla. En este caso, el procesador de vídeo utilizará los mapas de profundidad (uno o dos) incluidos en los fotogramas compuestos C’, junto con las propias imágenes L y R, para sintetizar una serie de otras imágenes. Delante de la pantalla existen varias lentes o barreras, de manera que en cualquier punto en el espacio en el que es posible la visión estereoscópica, el espectador percibirá sólo un par de dichas imágenes.
Por tanto el procesador de vídeo del dispositivo de reproducción puede comprender unos medios adaptados para enviar a la pantalla dos secuencias de imágenes, consistiendo al menos una de ellas en imágenes sintetizadas empezando por al menos una de las vistas transmitidas y por al menos un mapa de profundidad. En este caso, también comprende preferiblemente unos medios adaptados para dar al espectador la posibilidad de elegir secuencias de imágenes relativas a puntos de vista más o menos próximos, para variar la percepción de profundidad.
El procesador de vídeo del dispositivo de reproducción también puede comprender unos medios adaptados para generar imágenes adicionales correspondientes a unas vistas adicionales, de modo que los espectadores colocados en puntos diferentes en el espacio pueden ver secuencias de imágenes diferentes a través de una pantalla autoestereoscópica asociada.
Ninguno de los formatos propuestos hasta ahora ofrece tal flexibilidad y amplitud de utilización, mientras que al mismo tiempo garantizan todavía una muy buena calidad de reproducción en términos de equilibrio de la resolución horizontal y vertical y de la asignación de resolución apropiada a las imágenes estereoscópicas y a los mapas de profundidad asociados.
Las operaciones de reconstrucción descritas anteriormente pueden tener lugar parcialmente en el dispositivo receptor y parcialmente en el dispositivo de pantalla.
La presente invención puede realizarse ventajosamente al menos parcialmente a través de programas de ordenador que comprenden unos medios de codificación para implementar una o más etapas de los procedimientos descritos 5 anteriormente, cuando tales programas se ejecutan mediante un ordenador. Por tanto se entiende que el alcance de protección se extiende a dichos programas de ordenador así como a unos medios legibles por ordenador que comprenden unos mensajes registrados, comprendiendo dichos medios legibles por ordenador unos medios de codificación de programa para implementar una o más etapas de los procedimientos descritos anteriormente, cuando dichos programas se ejecutan por un ordenador. El ejemplo de realización descrito anteriormente puede
10 estar sujeto a variaciones sin apartarse del alcance de protección de la presente invención, incluyendo todos los diseños equivalentes conocidos para un experto en la materia.
Sin embargo los elementos y características que se muestran en las diversas realizaciones preferidas pueden combinarse entre sí sin apartarse del alcance de protección de la presente invención.
A partir de la descripción anterior, los expertos en la materia podrán producir el objeto de la invención sin introducir 15 ningún detalle de implementación adicional.

Claims (30)

  1. REIVINDICACIONES
    1. Procedimiento para generar un flujo de vídeo estereoscópico (101) que comprende imágenes compuestas (C), comprendiendo dichas imágenes compuestas (C) información sobre una imagen derecha (R) y una imagen izquierda
    (L) de un contenido de vídeo tridimensional, en el que
    se seleccionan píxeles de dicha imagen derecha (R) y píxeles de dicha imagen izquierda (L), y
    se introducen dichos píxeles seleccionados en una imagen compuesta (C) de dicho flujo de vídeo estereoscópico,
    estando el procedimiento caracterizado porque todos los píxeles de dicha imagen derecha (R) y todos los píxeles de dicha imagen izquierda (L) se introducen en dicha imagen compuesta (C) dejando una de dichas dos imágenes sin cambiar, descomponiendo la otra en varias regiones (R1, R2, R3) que presentan un área total igual a la de dicha otra imagen (R), e introduciendo dichas regiones en dicha imagen compuesta (C),
    en el que dicha imagen compuesta (C) presenta dimensiones superiores a las necesarias para introducir todos los píxeles de dichas imagen izquierda (L) e imagen derecha (R),
    y en el que, en los píxeles de la imagen compuesta (C) que permanecen después de dicha entrada, se introduce al menos un mapa de profundidad o disparidad (DM) que se refiere a la profundidad o disparidad de los píxeles de dicho contenido de vídeo tridimensional, estando dichos mapas destinados a reconstruir, en la recepción, las imágenes que no se transmiten en dicho flujo estereoscópico.
  2. 2.
    Procedimiento según la reivindicación 1, en el que dicho al menos un mapa de profundidad o disparidad (DM) está codificado como una imagen en escala de grises.
  3. 3.
    Procedimiento según la reivindicación 2, en el que el contenido de información de vídeo de dicho al menos un mapa de profundidad o disparidad se transporta mediante una única señal de luminancia, sin utilizar señales de crominancia.
  4. 4.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho al menos un mapa de profundidad o disparidad (DM) presenta una resolución inferior a una versión original del mismo, siendo la resolución de este último igual a la de dicha imagen izquierda (L) e imagen derecha (R).
  5. 5.
    Procedimiento según la reivindicación 4, en el que dicho al menos un mapa de profundidad o disparidad (DM) se obtiene sometiendo dicho mapa de profundidad original a un submuestreo de 4 a 1.
  6. 6.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho al menos un mapa de profundidad o disparidad (DM) es un mapa de profundidad o disparidad asociado con una de las dos imágenes derecha (R) o izquierda (L), o asociado con un punto de vista intermedio entre L y R.
  7. 7.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho al menos un mapa de profundidad o disparidad (DM) comprende un mapa de profundidad o disparidad asociado con una imagen derecha
    (R) y un mapa de profundidad o disparidad asociado con una imagen izquierda (L).
  8. 8. Procedimiento según la reivindicación 7, en el que dichos mapas de profundidad o disparidad asociados con una imagen derecha (R) y una imagen izquierda (L) se introducen en dichos píxeles restantes de la imagen compuesta
    (C) por medio de técnicas de empaquetado de fotogramas.
  9. 9. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que, si dicho número de regiones es tres, dichas regiones se obtienen a través de las etapas siguientes:
    -
    dividir dicha otra imagen (R) en dos partes que presentan la misma dimensión horizontal (R1, R2, R3);
    -
    dividir una de dichas dos partes (R2, R3) en dos partes que presentan la misma dimensión vertical (R2, R3).
  10. 10.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la información de señalización que identifica el tipo de flujo de vídeo generado se introduce como metadatos en dicha imagen compuesta (C) o dicho flujo de vídeo estereoscópico.
  11. 11.
    Procedimiento según la reivindicación 10, en el que dicha información de señalización está adaptada de modo que permita distinguir entre al menos dos de los siguientes tipos de fotogramas compuestos:
    -
    fotograma compuesto de tipo formato de baldosa sin mapas de profundidad;
    -
    fotograma compuesto de tipo formato de baldosa con un mapa de profundidad;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de lado a lado;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración encima y debajo;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de formato de baldosa.
  12. 12.
    Dispositivo para generar un flujo de vídeo estereoscópico (101) que comprende imágenes compuestas (C), comprendiendo dichas imágenes compuestas (C) información sobre una imagen derecha (R), una imagen izquierda (L), caracterizado porque comprende unos medios para implementar las etapas del procedimiento según cualquiera de las reivindicaciones anteriores.
  13. 13.
    Procedimiento para reconstruir al menos un par de imágenes de un flujo de vídeo estereoscópico empezando por una imagen compuesta (C), caracterizado porque dicha imagen compuesta (C) comprende información sobre una imagen derecha (R), una imagen izquierda (L), y porque dicho procedimiento comprende las etapas siguientes:
    -
    generar una primera imagen de dichas imágenes derecha (R) e izquierda (L) copiando un único grupo de píxeles contiguos a partir de una primera región (C1) de dicha imagen compuesta,
    -
    generar la imagen restante de dichas imágenes derecha (R) e izquierda (L) copiando otros grupos de píxeles contiguos a partir de varias regiones distintas (C2, C3, C4) de dicha imagen compuesta, siendo dichas varias regiones distintas diferentes de dicha primera región (C1);
    -
    generar al menos un mapa de profundidad o disparidad (DM) copiando al menos un grupo de píxeles contiguos a partir de una región adicional (C5) de dicha imagen compuesta, diferente de dicha primera región y de dichas varias regiones distintas.
  14. 14.
    Procedimiento según la reivindicación 13, en el que, si dichas varias regiones son tres:
    - una (C2) de dichas regiones de la imagen compuesta (C) presenta la misma dimensión vertical que dicha primera región (C1) y la mitad de su dimensión horizontal;
    - las dos restantes (C3, C4) de dichas regiones de la imagen compuesta (C) presentan iguales dimensiones horizontal y vertical, y la mitad de la dimensión vertical de dicha primera región (C1).
  15. 15.
    Procedimiento según la reivindicación 13, en el que dicho al menos un mapa de profundidad o disparidad (DM) se genera empezando por una imagen en escala de grises derivada de una señal de luminancia contenida en los píxeles contiguos de dicha región adicional (C5).
  16. 16.
    Procedimiento según la reivindicación 15, que comprende la etapa de aumentar las dimensiones horizontal y vertical de dicho al menos un mapa de profundidad o disparidad (DM) hasta una dimensión igual a la de dichas imágenes derecha (R) e izquierda (L).
  17. 17.
    Procedimiento según la reivindicación 13, que comprende la etapa de obtener, a partir de dicha imagen compuesta (C) o a partir del flujo de vídeo, información de señalización adaptada para reconocer el tipo de flujo de vídeo que se genera.
  18. 18.
    Procedimiento según la reivindicación 17, en el que dicha información de señalización está adaptada de modo que permita distinguir entre al menos dos de los siguientes tipos de fotogramas compuestos:
    -
    fotograma compuesto de tipo formato de baldosa sin mapas de profundidad;
    -
    fotograma compuesto de tipo formato de baldosa con un mapa de profundidad;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de lado a lado;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración encima y debajo;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de formato de baldosa.
  19. 19.
    Dispositivo para reconstruir al menos un par de imágenes de un flujo de vídeo estereoscópico empezando por una imagen compuesta (C), caracterizado porque dicha imagen compuesta (C) comprende información sobre una imagen derecha (R), una imagen izquierda (L), y porque dicho dispositivo comprende:
    -
    unos medios para generar una primera imagen de dichas imágenes derecha (R) e izquierda (L) copiando un único grupo de píxeles contiguos a partir de una primera región (C1) de dicha imagen compuesta,
    -
    unos medios para generar la imagen restante de dichas imágenes derecha (R) e izquierda (L) copiando otros
    grupos de píxeles contiguos a partir de varias regiones distintas (C2, C3, C4) de dicha imagen compuesta, siendo dichas varias regiones distintas diferentes de dicha primera región (C1);
    -
    unos medios para generar al menos un mapa de profundidad o disparidad (DM) copiando al menos un grupo de píxeles contiguos a partir de una región adicional (C5) de dicha imagen compuesta, diferente de dicha primera región y de dichas varias regiones distintas.
  20. 20. Dispositivo según la reivindicación 19, en el que, si dichas varias regiones son tres:
    -
    una (C2) de dichas regiones de la imagen compuesta (C) presenta la misma dimensión vertical que dicha primera región (C1) y la mitad de su dimensión horizontal;
    -
    las dos restantes (C3, C4) de dichas regiones de la imagen compuesta (C) presentan iguales dimensiones horizontal y vertical, y la mitad de la dimensión vertical de dicha primera región (C1).
  21. 21.
    Dispositivo según la reivindicación 19, en el que dichos medios para generar al menos un mapa de profundidad o disparidad (DM) utilizan una imagen en escala de grises derivada de una señal de luminancia contenida en los píxeles contiguos de dicha región adicional (C5).
  22. 22.
    Dispositivo según la reivindicación 21, que comprende unos medios para aumentar las dimensiones horizontal y vertical de dicho al menos un mapa de profundidad o disparidad (DM) hasta una dimensión igual a la de dichas imágenes derecha (R) e izquierda (L).
  23. 23.
    Dispositivo según la reivindicación 19, que comprende unos medios adaptados para reconocer el tipo de flujo de vídeo que se recibe basándose en la información de señalización que identifica dicho tipo de flujo, contenida en dicha imagen compuesta (C) o en dicho flujo de vídeo.
  24. 24.
    Dispositivo según la reivindicación 23, en el que dicha información de señalización permite distinguir entre al menos dos de los siguientes tipos de fotogramas compuestos:
    -
    fotograma compuesto de tipo formato de baldosa sin mapas de profundidad;
    -
    fotograma compuesto de tipo formato de baldosa con un mapa de profundidad;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de lado a lado;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración encima y debajo;
    -
    fotograma compuesto de tipo formato de baldosa con dos mapas de profundidad en configuración de formato de baldosa.
  25. 25.
    Dispositivo según la reivindicación 24, que comprende unos medios que, basándose en dicha información útil para distinguir un tipo de fotograma compuesto, están adaptados para emitir:
    - sólo dicha primera imagen de dichas imágenes derecha (R) e izquierda (L); o
    -
    dicha primera y dicha segunda de dichas imágenes derecha (R) e izquierda (L); o
    -
    dicha primera y dicha segunda de dichas imágenes derecha (R) e izquierda (L) y dicho al menos un mapa de profundidad o disparidad (DM).
  26. 26.
    Dispositivo según la reivindicación 23, que comprende unos medios adaptados para llevar a cabo una o más de las siguientes operaciones, basándose en dicha información de señalización:
    -
    reconocer el tipo de fotograma que se recibe, con el fin de reconstruir apropiadamente las dos imágenes derecha e izquierda del contenido de vídeo tridimensional;
    -
    reconocer la presencia de uno o dos mapas de profundidad o disparidad y el tipo de configuración de los mismos;
    - en el caso de dos mapas de profundidad o disparidad, obtener cada uno de los dos mapas;
    - realizar, sobre dichos mapas de profundidad o disparidad, operaciones adaptadas para llevar las dimensiones de los mapas a valores iguales a los de las imágenes del contenido de vídeo.
  27. 27.
    Dispositivo según la reivindicación 19, que comprende unos medios diseñados para generar imágenes adicionales correspondientes a unas vistas adicionales empezando por dichas imágenes derecha (R) e izquierda (L) y utilizando dichos mapas de profundidad.
  28. 28.
    Dispositivo según la reivindicación 27, que comprende unos medios adaptados para visualizar dos secuencias de imágenes, de las cuales al menos una comprende imágenes sintetizadas empezando desde al menos una de las vistas transmitidas y desde al menos un mapa de profundidad.
  29. 29.
    Dispositivo según la reivindicación 28, que comprende unos medios adaptados para dar al espectador la
    5 posibilidad de elegir secuencias de imágenes relativas a puntos de vista más o menos próximos, para variar la percepción de profundidad.
  30. 30. Dispositivo según la reivindicación 27, que comprende una pantalla autoestereoscópica, y que comprende unos medios adaptados para utilizar dichas imágenes adicionales correspondientes a vistas adicionales para permitir que los espectadores colocados en puntos diferentes en el espacio vean secuencias de imágenes diferentes.
    10 31. Flujo de vídeo estereoscópico (1101) caracterizado porque comprende al menos una imagen compuesta (C) generada por medio del procedimiento según cualquiera de las reivindicaciones 1 a 11.
ES201331307A 2012-09-06 2013-09-05 Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes Expired - Fee Related ES2446165B1 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
RU2012138174/08A RU2012138174A (ru) 2012-09-06 2012-09-06 Способ компоновки формата цифрового стереоскопического видеопотока 3dz tile format
RU2012138174 2012-09-06
PCT/IB2013/051782 WO2014037822A1 (en) 2012-09-06 2013-03-06 Method for generating, transmitting and receiving stereoscopic images and relating devices
IB13051782IB 2013-03-06

Publications (3)

Publication Number Publication Date
ES2446165A2 true ES2446165A2 (es) 2014-03-06
ES2446165R1 ES2446165R1 (es) 2014-07-11
ES2446165B1 ES2446165B1 (es) 2015-03-23

Family

ID=48182965

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201331307A Expired - Fee Related ES2446165B1 (es) 2012-09-06 2013-09-05 Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes

Country Status (16)

Country Link
US (1) US9723290B2 (es)
JP (1) JP2015534745A (es)
KR (1) KR20150053774A (es)
CN (1) CN104604222B (es)
AT (1) AT513369A3 (es)
CH (1) CH706886A2 (es)
DE (1) DE102013217826A1 (es)
ES (1) ES2446165B1 (es)
FR (2) FR2995165B1 (es)
GB (1) GB2507844B (es)
IT (1) ITTO20130679A1 (es)
NL (1) NL2011349C2 (es)
PL (1) PL405234A1 (es)
RU (1) RU2012138174A (es)
TW (1) TWI511525B (es)
WO (1) WO2014037822A1 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11277598B2 (en) * 2009-07-14 2022-03-15 Cable Television Laboratories, Inc. Systems and methods for network-based media processing
US9978341B2 (en) * 2014-12-23 2018-05-22 Mediatek Inc. Visual data processing method and visual data processing system which can perform a process operation according to a gazing point
WO2017008125A1 (en) 2015-07-15 2017-01-19 Blinxel Pty Ltd "system and method for image processing"
CN108140259B (zh) * 2015-08-18 2022-06-14 奇跃公司 虚拟和增强现实系统和方法
CN112868224B (zh) 2019-04-01 2023-08-29 谷歌有限责任公司 捕获和编辑动态深度图像的方法、装置和存储介质
US11127115B2 (en) 2019-12-13 2021-09-21 NextVPU (Shanghai) Co., Ltd. Determination of disparity

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003235940A1 (en) * 2002-04-25 2003-11-10 Sharp Kabushiki Kaisha Image encodder, image decoder, record medium, and image recorder
WO2004093467A1 (ja) * 2003-04-17 2004-10-28 Sharp Kabushiki Kaisha 3次元画像作成装置、3次元画像再生装置、3次元画像処理装置、3次元画像処理プログラムおよびそのプログラムを記録した記録媒体
US8487982B2 (en) * 2007-06-07 2013-07-16 Reald Inc. Stereoplexing for film and video applications
EP3007440A1 (en) * 2007-12-20 2016-04-13 Koninklijke Philips N.V. Image encoding method for stereoscopic rendering
KR100950046B1 (ko) * 2008-04-10 2010-03-29 포항공과대학교 산학협력단 무안경식 3차원 입체 tv를 위한 고속 다시점 3차원 입체영상 합성 장치 및 방법
CN102017628B (zh) * 2008-04-25 2013-10-09 汤姆逊许可证公司 深度信号的编码
CN101668219B (zh) * 2008-09-02 2012-05-23 华为终端有限公司 3d视频通信方法、发送设备和系统
CN104768031B (zh) * 2009-01-26 2018-02-09 汤姆森特许公司 用于视频解码的装置
WO2011039990A1 (ja) * 2009-10-02 2011-04-07 パナソニック株式会社 立体視映像を再生することができる再生装置、集積回路、再生方法、プログラム
IT1397591B1 (it) * 2009-12-21 2013-01-16 Sisvel Technology Srl Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.
US9571811B2 (en) * 2010-07-28 2017-02-14 S.I.Sv.El. Societa' Italiana Per Lo Sviluppo Dell'elettronica S.P.A. Method and device for multiplexing and demultiplexing composite images relating to a three-dimensional content
IT1401367B1 (it) * 2010-07-28 2013-07-18 Sisvel Technology Srl Metodo per combinare immagini riferentesi ad un contenuto tridimensionale.
CN103098478A (zh) * 2010-08-16 2013-05-08 富士胶片株式会社 图像处理设备、图像处理方法、图像处理程序、以及记录介质
EP2426635A1 (en) * 2010-09-01 2012-03-07 Thomson Licensing Method for watermarking free view video with blind watermark detection
IT1402995B1 (it) * 2010-11-12 2013-09-27 Sisvel Technology Srl Metodo di elaborazione di un contenuto video tridimensionale e relativo apparato
DE112011103496T5 (de) * 2010-11-15 2013-08-29 Lg Electronics Inc. Verfahren zum Umwandeln eines Einzelbildformats und Vorrichtung zur Benutzung dieses Verfahrens
IT1404059B1 (it) * 2011-02-14 2013-11-08 Sisvel Technology Srl Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.

Also Published As

Publication number Publication date
AT513369A2 (de) 2014-03-15
NL2011349C2 (en) 2014-05-08
NL2011349A (en) 2014-03-10
KR20150053774A (ko) 2015-05-18
GB201314206D0 (en) 2013-09-25
FR3002104B1 (fr) 2017-06-16
RU2012138174A (ru) 2014-03-27
US9723290B2 (en) 2017-08-01
TW201415864A (zh) 2014-04-16
PL405234A1 (pl) 2014-03-17
US20150215599A1 (en) 2015-07-30
CH706886A2 (it) 2014-03-14
GB2507844B (en) 2017-07-19
ES2446165R1 (es) 2014-07-11
TWI511525B (zh) 2015-12-01
ES2446165B1 (es) 2015-03-23
ITTO20130679A1 (it) 2014-03-07
FR2995165A1 (fr) 2014-03-07
JP2015534745A (ja) 2015-12-03
GB2507844A (en) 2014-05-14
FR2995165B1 (fr) 2017-12-29
CN104604222A (zh) 2015-05-06
AT513369A3 (de) 2018-08-15
FR3002104A1 (fr) 2014-08-15
CN104604222B (zh) 2017-03-29
DE102013217826A1 (de) 2014-03-06
WO2014037822A1 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
US9549163B2 (en) Method for combining images relating to a three-dimensional content
JP6266761B2 (ja) マルチビューレンダリング装置とともに使用するためのビデオデータ信号の符号化方法
ES2602091T3 (es) Intercambio combinado de datos de imagen y relacionados
US20170318276A1 (en) Broadcast receiver and video data processing method thereof
ES2927481T3 (es) Manejo de subtítulos en dispositivo de visualización en 3D
JP6644979B2 (ja) 3次元ビデオストリームに属する画像のカラーコンポーネントを用いることにより、深度マップを生成、格納、送信、受信および再生する方法およびデバイス
ES2599858T3 (es) Codificación eficaz de múltiples vistas
ES2446165A2 (es) Procedimiento para generar un flujo de vídeo estereoscópico, procedimiento para reconstruir imágenes, dispositivos y flujo de vídeo correspondientes
ES2558315T3 (es) Método para generar, transmitir y recibir imágenes estereoscópicas, y dispositivos correspondientes
KR20070041745A (ko) 비디오 정보를 전송하기 위한 시스템 및 방법
US9596446B2 (en) Method of encoding a video data signal for use with a multi-view stereoscopic display device
US9571811B2 (en) Method and device for multiplexing and demultiplexing composite images relating to a three-dimensional content
ITTO20110439A1 (it) Method for generating, transmitting and receiving stereoscopic images, and related devices
KR101289269B1 (ko) 영상 시스템에서 영상 디스플레이 장치 및 방법
JP2012134885A (ja) 画像処理装置及び画像処理方法
JP2011077599A (ja) 送信装置、受信装置、通信システム及びプログラム
Vetro 3D in the Home: Mass Market or Niche?

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2446165

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20150323

FD2A Announcement of lapse in spain

Effective date: 20210929