ES2676055T3 - Receptor de imagen eficaz para múltiples vistas - Google Patents

Receptor de imagen eficaz para múltiples vistas Download PDF

Info

Publication number
ES2676055T3
ES2676055T3 ES16176807.2T ES16176807T ES2676055T3 ES 2676055 T3 ES2676055 T3 ES 2676055T3 ES 16176807 T ES16176807 T ES 16176807T ES 2676055 T3 ES2676055 T3 ES 2676055T3
Authority
ES
Spain
Prior art keywords
image
objects
pixels
image signal
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16176807.2T
Other languages
English (en)
Other versions
ES2676055T5 (es
Inventor
Wilhelmus H. A. Bruls
Christiaan Varekamp
Ralph Braspenning
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38470538&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2676055(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Application granted granted Critical
Publication of ES2676055T3 publication Critical patent/ES2676055T3/es
Publication of ES2676055T5 publication Critical patent/ES2676055T5/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Abstract

Un receptor de señal de imagen (400), que comprende: - medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101); - medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y - medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda, caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Receptor de imagen eficaz para múltiples vistas
La invención se refiere a un método de codificación de múltiples vistas de una imagen en una señal de imagen, tal como por ejemplo una señal de televisión comprimida de acuerdo con una de las normas MPEG.
La invención también se refiere a: un aparato para generar una señal de este tipo, un receptor para recibir una señal de este tipo, un método de extracción de la información codificada de la señal, de tal manera que puede usarse para generar las múltiples vistas, y la propia señal codificada eficazmente.
En la actualidad se está trabajando en la estandarización de la codificación de la información de imágenes tridimensionales. Existen varias formas de representar un objeto tridimensional, por ejemplo, como un conjunto de vóxels (por ejemplo, popular en una pantalla de datos médicos o una inspección de componentes industriales), o como una serie de imágenes de vistas capturadas desde diferentes direcciones y destinadas a verse desde diferentes direcciones, por ejemplo, por los dos ojos de un solo espectador o por diversos espectadores, o un espectador en movimiento, etc.
Un formato popular es el formato de izquierda/derecha, en el que se captura un fotograma por una cámara de la izquierda y se captura un fotograma por la cámara de la derecha. Estos fotogramas pueden visualizarse en diferentes pantallas, por ejemplo, el fotograma de la izquierda puede mostrarse durante un primer conjunto de instancias de tiempo, y el fotograma de la derecha durante un segundo conjunto entrelazado de instancias de tiempo, estando los ojos izquierdo y derecho del espectador bloqueados de manera sincronizada con la visualización por unas gafas de obturación. Un proyector con unos medios de polarización es otro ejemplo de una pantalla capaz de generar una impresión tridimensional de una escena, al menos de reproducir parte de la información tridimensional de la escena, es decir, lo que aproximadamente se ve como en una dirección determinada (es decir, en estéreo).
Diferentes calidades de aproximación de la escena pueden emplearse, por ejemplo, la escena 3D puede representarse como un conjunto de capas planas una detrás de la otra. Sin embargo, estas diferentes calidades pueden codificarse por los formatos existentes.
Otra pantalla popular es la pantalla auto estereoscópica. Esta pantalla se forma, por ejemplo, colocando una pantalla LCD detrás de un conjunto de lentes, de tal manera que un grupo de píxeles se proyecta hacia una región en el espacio por una lente respectiva. De esta manera se genera un número de conos en el espacio que de dos en dos contienen imágenes izquierda y derecha para un ojo izquierdo y derecho, de manera que sin necesidad de gafas un usuario puede colocarse el mismo en un número de regiones en el espacio, y percibir 3D. Sin embargo, los datos de estos grupos de píxeles tienen que generarse a partir de las imágenes izquierda y derecha. Otra opción es que un usuario puede ver un objeto desde una serie de direcciones intermedias entre la vista izquierda y derecha de la codificación estéreo, vistas intermedias que pueden generarse calculando un campo de disparidad entre el fotograma de la izquierda y el de la derecha, y, posteriormente, interpolarlas. El documento WO 02/097733 describe una representación de este tipo de imágenes en 3D de múltiples ángulos mediante una imagen normal, una imagen de profundidad, y las imágenes adicionales que corresponden a diferentes puntos de vista.
Es una desventaja de la codificación a izquierda/derecha de la técnica anterior que se requieran muchos datos para obtener las vistas intermedias, y que aun así se obtengan resultados algo decepcionantes. Es difícil calcular un campo de disparidad precisamente coincidente, que dé lugar a artefactos en las interpolaciones, tales como unas partes de un fondo que se pega a un objeto en primer plano.
Un deseo que llevó a las siguientes realizaciones tecnológicas presentadas en el presente documento era tener una forma de codificación que pueda llevar a resultados relativamente precisos al convertir a diferentes formatos, tal como a un conjunto de vistas con vistas intermedias y que sin embargo no comprenda una cantidad excesiva de datos.
Estos requisitos se cumplen al menos parcialmente mediante un receptor de señal de imagen de acuerdo con la invención que comprende medios dispuestos para extraer desde una señal de imagen tridimensional una imagen izquierda de los valores de píxel que representa uno o más objetos capturados por una cámara izquierda; medios dispuestos para extraer desde la señal de imagen tridimensional un mapa que comprende, para los conjuntos de píxeles respectivos de los valores respectivos de la imagen izquierda que representan una posición tridimensional en el espacio de una región del uno o más objetos representados por el conjunto respectivo de píxeles; y medios dispuestos para extraer de la señal de imagen tridimensional una representación parcial de una imagen derecha de valores de píxel que representan uno o más objetos capturados por una cámara derecha en una ubicación diferente a la de la cámara izquierda, comprendiendo la representación parcial al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos presentes en la imagen derecha y no en la imagen izquierda, y comprendiendo la señal de imagen tridimensional para la imagen derecha solo una parte de la imagen derecha.
5
10
15
20
25
30
35
40
45
50
55
60
65
Tales requisitos también se cumplen al menos parcialmente mediante un método de codificación de información de imágenes de dos vistas en una señal de imagen tridimensional que comprende:
- añadir a la señal de imagen una imagen izquierda de los valores de píxel que representan uno o más objetos capturados por una cámara izquierda;
- añadir a la señal de imagen un mapa que comprende para respectivos conjuntos de píxeles, valores respectivos de la imagen izquierda que representan una posición tridimensional en el espacio de una región del uno o más objetos representados por el conjunto de píxeles; y
- añadir a la señal de imagen una representación parcial de una imagen derecha de valores de píxel que representa el uno o más objetos capturados por la cámara derecha, comprendiendo la representación parcial al menos la mayoría de los píxeles que representan regiones del uno o más objetos no visibles para la cámara izquierda;
y una señal obtenida por el método o un aparato que permite la realización del método.
Los inventores se han dado cuenta de que si uno entiende que por razones de calidad es mejor añadir a las imágenes a izquierda y derecha un mapa que contiene la información sobre la estructura tridimensional de la escena, lo que representa al menos esta parte de la información de escena tridimensional que se requiere para permitir la aplicación específica (con la calidad deseada), puede concebirse un formato de codificación interesante. Para la interpolación de vistas, el mapa puede ser, por ejemplo, un mapa de disparidad segmentado con precisión, los vectores de disparidad que llevarán a una buena interpolación de las vistas intermedias. Es importante observar que este mapa puede ajustarse de manera óptima en el lado de la creación/transmisión de acuerdo con su uso en el lado receptor, es decir, por ejemplo, de acuerdo con cómo se simule el entorno tridimensional en la pantalla, lo que significa que tendrá normalmente propiedades diferentes que cuando se usa para predecir de manera óptima las regiones de píxeles en la vista a izquierda y derecha.
El mapa puede, por ejemplo, ajustarse, o incluso crearse, por un operador humano, que puede obtener una vista previa a su lado como se comportaría una serie de pantallas previstas al recibir la señal. Hoy en día, y en el futuro incluso más aún, una parte del contenido ya se genera por ordenador, tal como por ejemplo un modelo tridimensional de un dinosaurio, o unas gráficas superpuestas, lo que significa que no es demasiado problemático crearlos al menos para las regiones que contienen este tipo de mapas de disparidad precisos de píxel de objetos hechos por el hombre, o mapas de profundidad, o mapas similares.
Esto es realmente cierto para las aplicaciones de juegos, en las que, por ejemplo, un usuario puede moverse ligeramente en comparación con la escena, y puede ver la escena de manera diferente, pero en un futuro próximo la invención también puede llegar a ser importante para la televisión 3D, capturada con dos cámaras, o incluso generada sobre la base de, por ejemplo, el paralaje de movimiento. Ya un número creciente de estudios (por ejemplo, la BBC) están usando, por ejemplo, los entornos virtuales para las noticias.
Este mapa puede codificarse con poca sobrecarga de datos, por ejemplo, como una imagen de valores de gris, comprimidos de acuerdo con la norma MPEG-2, y añadidos a la imagen a izquierda/derecha (o imágenes durante diversos instantes de tiempo de vídeo en movimiento) ya en la señal.
Teniendo este mapa, sin embargo, los inventores se dieron cuenta, que permite una reducción adicional de la cantidad de datos, debido a que una parte de la escena se imagina por ambas cámaras. Aunque la información de píxel puede ser útil para la interpolación bidireccional (por ejemplo, pueden mitigarse las reflexiones especulares hacia una de las cámaras), de hecho, no tanta información importante estará presente en las partes doblemente codificadas. Por lo tanto, al tener disponible el mapa, puede determinarse qué partes de la segunda imagen (por ejemplo, la imagen de la derecha) necesitan codificarse (y transmitirse), y qué partes son menos relevantes para la aplicación específica. Y en el lado del receptor puede realizarse una reconstrucción de buena calidad de los datos que faltan.
Por ejemplo, en una simple aproximación de escena (captura), con un objeto con una cara esencialmente plana hacia las cámaras (que puede colocarse en paralelo o en un pequeño ángulo hacia la escena), y no demasiado cerca, la parte que falta en la primera imagen (a la izquierda), que se captura en la segunda imagen (a la derecha) se compone de los píxeles de un objeto de fondo (por ejemplo, los elementos de la escena en el infinito).
Una realización interesante implica la codificación de un segundo mapa de disparidad o de profundidad parcial, o similar. Por ejemplo, este mapa de profundidad parcial contendrá sustancialmente los valores de profundidad de la región que no podía imaginarse por la primera cámara. A partir de estos datos de profundidad, a continuación, puede deducirse en el lado receptor qué parte no cubierta pertenece a un objeto en primer plano que tiene una primera profundidad (indicada por 130 en la figura 1), y qué parte pertenece al fondo (132). Esto puede permitir mejores estrategias de interpolación, por ejemplo, la cantidad de estiramiento y relleno de los huecos puede ajustarse de manera fina, una representación pseudo-perspectiva de una oreja puede representarse en la imagen intermedia en lugar de solo en los píxeles de fondo, etc. Otro ejemplo es que la distorsión trapezoidal de las cámaras anguladas puede codificarse en este segundo mapa para la compensación del lado del receptor.
5
10
15
20
25
30
35
40
45
50
55
60
65
En el caso de una deformación trapezoidal procedente de una captura con cámaras convergentes (por lo general ligeramente), habrá, en general, una disparidad vertical en adición a una horizontal. Esta componente vertical puede codificarse vectorialmente, o en un segundo mapa, como ya se ha previsto, por ejemplo, en las propuestas "auxiliary data representation" del subgrupo MPEG-4 Video-3DAV (por ejemplo, ISO/IEC JTC1/SC29/wG11 documentos. MPEG2005/12603, 12602, 12600, 12595). Los componentes de la disparidad pueden mapearse a las señales de luminancia y/o crominancia de un fotograma auxiliar, por ejemplo, la disparidad horizontal puede mapearse con una alta resolución a la luminancia, y las disparidades verticales pueden mapearse con un esquema a uno o dos componentes de crominancia (de tal manera que algunos de los datos están en la U y por una fracción de matemática como gran parte de los datos adicionales en la V).
Las ventajas de un formato a izquierda + derecha + "profundidad" parcial sobre, por ejemplo, una primera codificación a una vista central + "profundidad" + datos de oclusión son las siguientes. Al transformar los datos de oclusión para la vista central, en lugar de almacenarlos en una vista de captura de cámara original, se lleva al procesamiento a inexactitudes (en particular si el mapa(s) de profundidad se obtiene de manera automática y de menor calidad/consistencia, teniendo imperfecciones temporales y espaciales), y por lo tanto una ineficacia de codificación. Además, en el cálculo de una visión intermedia otras inexactitudes vendrán en la parte superior de la misma.
Estos y otros aspectos del método y el aparato de acuerdo con la invención serán evidentes a partir de y se aclararán con referencia a las implementaciones y las realizaciones descritas a continuación en el presente documento, y con referencia a los dibujos adjuntos, que sirven únicamente como ilustraciones específicas no limitativas que ejemplifican el concepto más general, y en las que los guiones se usan para indicar que un componente es opcional, no siendo necesariamente esenciales los componentes sin guiones.
En los dibujos:
la figura 1 ilustra esquemáticamente la captura de una escena con al menos dos cámaras;
la figura 2 ilustra esquemáticamente varias opciones de la codificación de los datos requeridos en la señal de
imagen;
la figura 3 ilustra esquemáticamente un aparato a modo de ejemplo para generar la señal de imagen; y la figura 4 ilustra esquemáticamente un aparato de recepción a modo de ejemplo capaz de usar la señal.
La figura 1 muestra una primera cámara 101 que captura una primera imagen de una escena que comprende un objeto cercano 110 y un objeto lejano 112. Su campo de visión está delimitado por las líneas 103 y 104. Su vista del fondo está ocluida por el objeto más cercano, es decir, la región 132 en el lado izquierdo de la tangente 120 no es visible. Sin embargo, una segunda cámara 102 es capaz de capturar una parte de esta región 132, en una segunda imagen, que puede, por razones de simplicidad, considerarse y llamarse la imagen de la derecha (pero esto no debería interpretarse como más estrecho que el que se ha capturado algo más a la derecha del otro fotograma). La segunda cámara también es capaz de capturar una parte adicional 130 del objeto más cercano 110.
La figura 2 muestra simbólicamente que estas imágenes capturadas se verán como un conjunto de píxeles. La señal de imagen 200 puede tener, por ejemplo, un formato de codificación prescrito de JPEG y contener un fotograma codificado de la escena, o puede ser una grabación de película codificada MPEG-4. En este último caso los datos 3D 210 comprenden la información necesaria para la reconstrucción de la escena en un instante temporal específico.
La imagen 220 es la imagen de la izquierda capturada por la primera cámara, que comprende un objeto más cercano 110 y un fondo 112.
El mapa 222 es un mapa que comprende toda la información relativa a cómo los objetos se colocan en su espacio tridimensional, que comprende, al menos, la información necesaria para la reproducción de un número de vistas necesarias (estática o dinámicamente, por ejemplo, en una interacción con un usuario en movimiento en un juego) en una pantalla. Varias de estas representaciones son posibles, por ejemplo, pueden ser un mapa de profundidad, que comprende por ejemplo una distancia ortogonal aproximada (por ejemplo, el promedio sobre todas las regiones de objeto) al centro de la cámara del objeto en el fondo, en sus posiciones de dos dimensiones como se percibe por la primera cámara, o pueden ser una disparidad o un paralaje, o solo un componente horizontal de la disparidad.
La profundidad y el paralaje etc. pueden relacionarse entre sí matemáticamente.
Este mapa de profundidad puede ser, por ejemplo, un píxel preciso o puede tener un solo valor para cada bloque de 8x8 píxeles, y puede codificarse, por ejemplo, como una imagen.
Una información adicional puede añadirse al mapa de profundidad (que puede comprender unos escalares o tuplas por conjunto de píxeles, incluyendo posiblemente un conjunto de solo un único píxel), tales como por ejemplo los datos de exactitud (en cómo de fiable es una cierta parte del mapa de profundidad) determinados sobre la base del algoritmo de coincidencia para obtenerlo.
5
10
15
20
25
30
35
40
45
50
55
60
65
La estructura de datos parcial 223 (una parte de la imagen de la derecha 224) comprende la información de los píxeles (por ejemplo, la luminancia solamente, o el color, o cualquier otra representación usual, tal como, por ejemplo, un modelo de textura, capaz de generar píxeles en una región) del fondo que pueden verse solamente por la segunda cámara (adyacente al objeto 225 más cercano cambiado de paralaje). Esta región parcial codificada o al menos los datos necesarios para obtener los valores de píxel en una parte de una gran región codificada formada de acuerdo con un algoritmo de generación de parches de imagen puede ser algo menor que la actual región deocluida capturada en la imagen de la derecha, en el caso de que la aplicación del lado del receptor pueda tolerar algunos píxeles perdidos, por ejemplo, generándoles con una simple extrapolación, estiramiento, etc.
La región codificada también puede ser mayor (por ejemplo, hasta el doble de la anchura y un tamaño de búfer similar añadido en la dirección vertical). Esto puede ser interesante, por ejemplo, en el caso de duda acerca de la exactitud de la forma cuando se obtiene automáticamente, o en el caso de que por alguna razón pueda desearse la interpolación bidireccional.
También puede ser por razones de codificación. Puede ser más barato codificar bloques enteros, y uno puede beneficiarse de los píxeles extra-codificados, mientras que la codificación de forma compleja puede ser costosa. Al respecto en el lado de transmisión, un análisis (semi-) automático o manual puede realizarse en los datos de la imagen de la derecha, lo que se propone como una salida de una etapa de obtención anterior para ser útil además a los datos de la imagen de la izquierda. Por ejemplo, uno puede mirar las propiedades de píxel para identificar un reflejo especular, y decidir codificar una región de píxeles que componen la reflexión en ambas imágenes.
También puede analizarse la forma de las diferentes regiones mediante un análisis morfológico, en particular, puede determinarse el tamaño o la anchura de la región. Las regiones pequeñas pueden implicar una sobrecarga de codificación considerable, pero a menudo pueden aproximarse en el lado receptor con poca o ninguna información. Por lo tanto, las regiones pequeñas pueden omitirse de la segunda imagen parcial. Esto puede estar bajo el control de un operador humano, que comprueba el efecto de cada eliminación.
La forma (de abarque o exacta) de la región puede, por ejemplo, codificarse con aproximación poligonal o una caja delimitadora, y los valores de píxel interior (textura) pueden codificarse directamente, o por los coeficientes de una representación de transformación lineal sobre la forma, u otro modelo matemático. Además, pueden indicarse las partes que no necesitan codificarse/transmitirse.
La representación parcial puede mapearse (por ejemplo, un simple desplazamiento en las líneas de corte, una transformación, o un corte en los sub-bloques que se vuelve a apilar de acuerdo con un orden predeterminado) sobre los datos de imagen o de usuario (por ejemplo, un modelo de regeneración) no usado para la primera imagen.
Si la primera imagen con el acompañamiento del mapa de profundidad es una imagen central, puede haber unas segundas imágenes parciales para cada lado, es decir, a una cierta distancia angular (línea de base) entre las que pueden interpolarse.
La primera cámara puede representar imágenes de un fondo y la segunda cámara puede representar imágenes del fondo con, por ejemplo, un lector de noticias que cubre parte de la misma, por ejemplo, desde el mismo punto vista a una hora diferente, es decir, las cámaras no necesitan ser cámaras reales presentes simultáneamente en un momento determinado, sino más bien, por ejemplo, una de las vistas puede descargarse, por ejemplo, desde un almacenamiento de fotogramas.
Opcionalmente, al menos para la parte alrededor de las regiones de objetos no cubiertas representadas por imágenes en la segunda imagen puede añadirse un segundo mapa de profundidad 239 (una parte del mapa de profundidad total 240), o una representación similar a la señal. Este mapa de profundidad puede comprender un límite entre un objeto cercano y lejano. Con esta información, el lado de recepción puede añadir durante la interpolación los diferentes píxeles a las capas de objetos/profundidad correctas.
También, pueden añadirse unos datos adicionales 230 a la señal, por ejemplo, en campos propietarios tales como información sobre la separación o en general de la composición tridimensional de los objetos en la escena. La indicación puede ser tan simple como una línea que siga un límite de objeto de escena representada por imágenes (si, por ejemplo, el mapa de profundidad no es suficiente o lo suficientemente preciso por sí mismo para demarcar los objetos), o incluso algo tan complicado como una malla metálica (por ejemplo, de la estructura de profundidad local en las partes deocluidas) o una información obtenida de la misma.
También pueden incluirse la información de posición de cámara y la información de intervalo de escena, permitiendo que el lado de recepción haga reconstrucciones más avanzadas de las múltiples vistas (al menos dos).
La figura 3 muestra un aparato 310 para generar la señal de imagen. Por lo general será un CI o una parte de un CI, o un procesador con software apropiado. El aparato puede estar comprendido en un aparato más grande tal como un aparato de autoría dedicado en un estudio, y puede conectarse a un ordenador, o puede estar comprendido en un ordenador. En la realización a modo de ejemplo, una primera cámara 301 y una segunda cámara 302 están
5
10
15
20
25
30
35
40
45
50
55
60
65
conectadas a la entrada del aparato 310. Cada cámara tiene un telémetro (308 resp. 309), que puede usar por ejemplo un haz láser o una rejilla proyectada, etc.
En el aparato existe una unidad de estimación de disparidad 312 que está dispuesta para determinar las disparidades entre al menos dos imágenes, al menos teniendo en cuenta la geometría del objeto (usando la información del mapa de profundidad). Se conocen diferentes técnicas de estimación de disparidad a partir de la técnica anterior, por ejemplo, por medio de una suma de las diferencias absolutas de los valores de píxel en los bloques relacionados.
Está dispuesto para determinar al menos qué regiones están presentes en solo una de las imágenes y cuales están presentes en ambas, pero, además, puede tener unidades que sean capaces de aplicar los criterios de correspondencia a las regiones de los píxeles.
También puede haber una unidad de mapa de profundidad 314 capaz de generar y/o analizar y/o del refinar los mapas de profundidad (o una representación similar como un mapa de disparidad) o determinados por la unidad de estimación de disparidad 312, o extraídos de la señal de cámara introducida que contiene unos datos de intervalo de ejemplo. Puede comprender opcionalmente una unidad de representación 316, que puede generar, por ejemplo, vistas intermedias de tal manera que un artista de estudio puede comprobar el impacto de cualquier modificación y/o codificación más eficaz. Esto se realiza mediante la unidad de interfaz de usuario 318, lo que puede permitir, por ejemplo, que el usuario cambie los valores en la representación parcial 223, o cambie su forma (por ejemplo, haciendo que sea más grande o más pequeña). El usuario también puede modificar el mapa 222. Al respecto, puede conectarse una pantalla 335 y un medio de entrada de usuario. El aparato es capaz de transmitir la señal de imagen finalmente compuesta a una red 330 a través de los medios de transmisión y composición de señales 339, que un experto en la materia puede encontrar para la red apropiada (por ejemplo, la conversión a una señal de televisión implica una conversión ascendente a una frecuencia de transmisión, la transmisión a Internet implica una paquetización, puede haber más unidades de protección de errores, etc.).
La red presentada no debería interpretarse como limitativa, y está destinada también a comprender, por ejemplo, la transmisión a una unidad de memoria o medio de almacenamiento a través de una red interna de aparato tal como un bus.
La figura 4 muestra un receptor a modo de ejemplo 400, que puede ser de nuevo, por ejemplo, (una parte de) un CI, y que comprende medios para extraer la información relevante de la señal de imagen que puede recibirse de la red 330, al menos:
- medios (402) dispuestos para extraer la primera imagen (220) de los valores de píxel que representan uno o más objetos (110, 112) capturados por una primera cámara (101);
- medios (404) dispuestos para extraer de la señal de imagen (200) el mapa, por ejemplo, un mapa de profundidad que corresponde a las posiciones de objeto de la primera imagen; y
- medios (406) dispuestos para extraer la representación parcial (223) de la segunda imagen (224) de los valores de píxel que representan el uno o más objetos (110, 112) capturados por una segunda cámara (102).
Por supuesto, pueden estar presentes medios adicionales, ya que el receptor (y el método de extracción) puede duplicar cualquiera de las realizaciones posibles para la generación, por lo que pueden ser, por ejemplo, medios para extraer los datos adicionales, tales como la indicación de la frontera entre dos objetos.
Esta información extraída se transmite a un regenerador de imágenes, que puede generar, por ejemplo, una imagen completa a izquierda y derecha. Una unidad de representación de imágenes 412 puede generar, por ejemplo, una vista intermedia (por ejemplo, mediante una interpolación mono- o bidireccional, o cualquier otro algoritmo conocido), o las señales necesarias para dos vistas (estéreo) en una pantalla autoestereoscópica. En función del tipo de visualización en 3D y cómo se representa en realidad el 3D, estas dos unidades pueden realizarse en diferentes combinaciones.
El receptor puede normalmente conectarse a o estar comprendido en una pantalla 3D 415, que puede reproducir al menos dos vistas, o la señal(s) regenerada puede almacenarse en un dispositivo de memoria 420, por ejemplo, un escritor de disco 422, o en una memoria de estado sólido, etc.
Los componentes algorítmicos desvelados en este texto pueden realizarse en la práctica (por completo o en parte) como hardware (por ejemplo, las partes de un CI de aplicación específica) o como software que se ejecuta en un procesador de señal digital especial o un procesador genérico, etc.
Bajo un producto de programa informático debería entenderse cualquier realización física de un conjunto de comandos que permiten a un procesador genérico o de propósito especial, después de una serie de etapas de carga (que pueden incluir etapas de conversión intermedias, como la traducción a un lenguaje intermedio, y a un lenguaje de procesador final) obtener los comandos en el procesador, para ejecutar cualquiera de las funciones características de una invención. En particular, el producto de programa informático puede realizarse como datos en
un portador tal como, por ejemplo, un disco o una cinta, datos presentes en una memoria, datos que viajan a través de una conexión de red cableada o inalámbrica, o un código de programa en papel. Aparte del código de programa, los datos de características requeridos para el programa también pueden realizarse como un producto de programa informático.
5
Algunas de las etapas necesarias para el funcionamiento del método pueden estar ya presentes en la funcionalidad del procesador en lugar de descritas en el producto de programa informático, tales como las etapas de entrada y de salida de datos.
10 Debería observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invención. Además de las combinaciones de los elementos de la invención como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinación de los elementos puede realizarse en un único elemento dedicado.
15 Cualquier signo de referencia entre paréntesis en la reivindicación no está destinado a limitar la reivindicación. La palabra "comprende" no excluye la presencia de elementos o aspectos no mencionados en una reivindicación. La palabra "un" o "una" precediendo un elemento no excluye la presencia de una pluralidad de tales elementos.

Claims (10)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un receptor de señal de imagen (400), que comprende:
    - medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);
    - medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    - medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda,
    caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha.
  2. 2. Un receptor de señal de imagen (400), que comprende:
    - medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);
    - medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    - medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial
    (223) de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha,
    caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220), y por la señal de imagen tridimensional (200) que comprende para la imagen izquierda (224) solo una parte (223) de la imagen izquierda.
  3. 3. Un método para extraer información de imagen de dos vistas desde una señal de imagen tridimensional (200) que comprende:
    - extraer desde la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);
    - extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    - extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha
    (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda,
    caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha.
  4. 4. Un método para extraer información de imagen de dos vistas desde una señal de imagen tridimensional (200) que comprende:
    - extraer desde la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);
    - extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    - extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha, caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220), y por la señal de imagen tridimensional (200) que comprende para la imagen izquierda (224) solo una parte (223) de la imagen izquierda.
  5. 5. Un método para codificar información de imagen de dos vistas en una señal de imagen tridimensional (200) que comprende:
    - añadir a la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);
    - añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    - proporcionar una imagen derecha (224) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda;
    - determinar qué regiones están presentes en la imagen derecha (224) y no en la imagen izquierda (220) en respuesta a las disparidades entre la imagen izquierda (220) y la imagen derecha (224); y estando el método caracterizado por comprender:
    - añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen derecha (224), comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles de las regiones determinadas, y especificando regiones de la imagen derecha (224) que no necesitan ser codificadas.
  6. 6. Un método para codificar información de imagen de dos vistas en una señal de imagen tridimensional (200) que comprende:
    - añadir a la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);
    - añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos, que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    - proporcionar una imagen izquierda (224) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha;
    - determinar qué regiones están presentes en la imagen izquierda (224) y no en la imagen derecha (220) en respuesta a las disparidades entre la imagen derecha (220) y la imagen izquierda (224); y estando el método caracterizado el método por comprender:
    - añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen izquierda (224), comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles de las regiones determinadas, y especificando regiones de la imagen izquierda (224) que no necesitan ser codificadas.
  7. 7. Un aparato (310) para generar una codificación en una señal de imagen tridimensional (200) de información de imagen de dos vistas que comprende:
    - medios (340) dispuestos para añadir a la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);
    - medios (341) dispuestos para añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    - medios dispuestos para proporcionar una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda;
    - medios dispuestos para determinar al menos qué regiones están presentes en la imagen derecha y no en la imagen izquierda (220) en respuesta a las disparidades entre la imagen izquierda (220) y la imagen derecha (224);
    y estando el aparato caracterizado por comprender:
    - medios (342) dispuestos para añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen derecha (224), comprendiendo la representación parcial (223) al menos información de la mayoría
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    de los píxeles de las regiones, y especificando regiones de la imagen derecha (224) que no necesitan ser codificadas.
  8. 8. Un aparato (310) para generar una codificación en una señal de imagen tridimensional (200) de información de imagen de dos vistas que comprende:
    - medios (340) dispuestos para añadir a la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);
    - medios (341) dispuestos para añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y
    - medios dispuestos para proporcionar una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha;
    - medios dispuestos para determinar al menos qué regiones están presentes en la imagen izquierda y no en la imagen derecha (220) en respuesta a las disparidades entre la imagen derecha (220) y la imagen izquierda (224);
    y estando el aparato caracterizado por comprender:
    - medios (342) dispuestos para añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen izquierda (224), comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles de las regiones, y especificando regiones de la imagen izquierda (224) que no necesitan ser codificadas.
  9. 9. Una señal de imagen tridimensional (200) que comprende:
    - una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);
    - un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y caracterizado por comprender:
    - una representación parcial (223) de solo una parte de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda, comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220).
  10. 10. Una señal de imagen tridimensional (200) que comprende:
    - una imagen derecha (220) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara derecha (102);
    - un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y caracterizado por comprender:
    - una representación parcial (223) de solo una parte de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (102) en una ubicación diferente a la de la cámara derecha, comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220).
ES16176807T 2006-03-31 2007-03-23 Receptor de imagen eficaz para múltiples vistas Active ES2676055T5 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06112096 2006-03-31
EP06112096 2006-03-31

Publications (2)

Publication Number Publication Date
ES2676055T3 true ES2676055T3 (es) 2018-07-16
ES2676055T5 ES2676055T5 (es) 2022-08-03

Family

ID=38470538

Family Applications (2)

Application Number Title Priority Date Filing Date
ES07735242.5T Active ES2599858T3 (es) 2006-03-31 2007-03-23 Codificación eficaz de múltiples vistas
ES16176807T Active ES2676055T5 (es) 2006-03-31 2007-03-23 Receptor de imagen eficaz para múltiples vistas

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES07735242.5T Active ES2599858T3 (es) 2006-03-31 2007-03-23 Codificación eficaz de múltiples vistas

Country Status (10)

Country Link
US (1) US9986258B2 (es)
EP (2) EP3104603B2 (es)
JP (1) JP5317955B2 (es)
KR (1) KR101340911B1 (es)
CN (1) CN101416520B (es)
ES (2) ES2599858T3 (es)
PL (1) PL2005757T3 (es)
RU (1) RU2431938C2 (es)
TR (1) TR201810139T4 (es)
WO (1) WO2007113725A2 (es)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101388265B1 (ko) * 2007-06-11 2014-04-22 삼성전자주식회사 2d 영상 미디어 표준을 기반으로 3d 입체영상 파일을생성 및 재생하기 위한 시스템 및 방법
KR101387212B1 (ko) * 2007-06-12 2014-04-21 삼성전자주식회사 2d 영상 미디어 표준을 기반으로 3d 입체영상 파일을생성 및 재생하기 위한 시스템 및 방법
WO2009032255A2 (en) * 2007-09-04 2009-03-12 The Regents Of The University Of California Hierarchical motion vector processing method, software and devices
KR101362647B1 (ko) * 2007-09-07 2014-02-12 삼성전자주식회사 2d 영상을 포함하는 3d 입체영상 파일을 생성 및재생하기 위한 시스템 및 방법
KR101591085B1 (ko) * 2008-05-19 2016-02-02 삼성전자주식회사 영상 파일 생성 및 재생 장치 및 방법
CN106101682B (zh) * 2008-07-24 2019-02-22 皇家飞利浦电子股份有限公司 通用3-d画面格式
PL2332340T3 (pl) * 2008-10-10 2016-05-31 Koninklijke Philips Nv Sposób przetwarzania informacji o paralaksie zawartej w sygnale
TWI542190B (zh) * 2008-11-04 2016-07-11 皇家飛利浦電子股份有限公司 編碼三維影像信號的方法及系統、經編碼之三維影像信號、解碼三維影像信號的方法及系統
EP2197217A1 (en) * 2008-12-15 2010-06-16 Koninklijke Philips Electronics N.V. Image based 3D video format
CA2745392C (en) * 2008-12-18 2016-07-12 Lg Electronics Inc. Method for 3d image signal processing and image display for implementing the same
MY158823A (en) * 2008-12-19 2016-11-15 Koninl Philips Electronics Nv Method and device for overlaying 3d graphics over 3d video
US8798158B2 (en) * 2009-03-11 2014-08-05 Industry Academic Cooperation Foundation Of Kyung Hee University Method and apparatus for block-based depth map coding and 3D video coding method using the same
EP2425626A2 (en) 2009-05-01 2012-03-07 Thomson Licensing Inter-layer dependency information for 3dv
WO2011033673A1 (ja) * 2009-09-18 2011-03-24 株式会社 東芝 画像処理装置
JP5494283B2 (ja) * 2010-06-24 2014-05-14 ソニー株式会社 立体表示装置及び立体表示装置の制御方法
WO2012036902A1 (en) 2010-09-14 2012-03-22 Thomson Licensing Compression methods and apparatus for occlusion data
KR20120055991A (ko) * 2010-11-24 2012-06-01 삼성전자주식회사 영상처리장치 및 그 제어방법
KR101814798B1 (ko) * 2011-01-26 2018-01-04 삼성전자주식회사 입체영상 처리 장치 및 방법
EP2761878B1 (en) 2011-09-29 2020-04-08 Dolby Laboratories Licensing Corporation Representation and coding of multi-view images using tapestry encoding
WO2013112796A1 (en) * 2012-01-25 2013-08-01 Lumenco, Llc Conversion of a digital stereo image into multiple views with parallax for 3d viewing without glasses
KR20130094905A (ko) * 2012-02-17 2013-08-27 삼성전자주식회사 디스플레이장치 및 그 입체감 조정방법
RU2490819C1 (ru) * 2012-02-29 2013-08-20 Сергей Александрович Соболев Способ получения стереоскопических телевизионных изображений с автоматическим измерением предметного пространства в реальном времени
EP2880624B1 (en) * 2012-03-26 2019-05-08 Koninklijke Philips N.V. Brightness region-based apparatuses and methods for hdr image encoding and decoding
US9225962B2 (en) * 2012-07-16 2015-12-29 Cisco Technology, Inc. Stereo matching for 3D encoding and quality assessment
CN103634587A (zh) * 2012-08-22 2014-03-12 联想(北京)有限公司 图像处理方法、装置及电子设备
US9596446B2 (en) * 2013-02-06 2017-03-14 Koninklijke Philips N.V. Method of encoding a video data signal for use with a multi-view stereoscopic display device
EP3273686A1 (en) 2016-07-21 2018-01-24 Thomson Licensing A method for generating layered depth data of a scene
US9972122B1 (en) 2016-12-20 2018-05-15 Canon Kabushiki Kaisha Method and system for rendering an object in a virtual view
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10484667B2 (en) * 2017-10-31 2019-11-19 Sony Corporation Generating 3D depth map using parallax
US10549186B2 (en) 2018-06-26 2020-02-04 Sony Interactive Entertainment Inc. Multipoint SLAM capture
RU2767775C1 (ru) * 2018-07-11 2022-03-21 ИНТЕРДИДЖИТАЛ ВиСи ХОЛДИНГЗ, ИНК. Обработка облака точек
US10893299B2 (en) 2018-07-31 2021-01-12 Intel Corporation Surface normal vector processing mechanism
US10819968B2 (en) * 2018-07-31 2020-10-27 Intel Corporation Neural network based patch blending for immersive video
US11178373B2 (en) 2018-07-31 2021-11-16 Intel Corporation Adaptive resolution of point cloud and viewpoint prediction for video streaming in computing environments
US10762394B2 (en) 2018-07-31 2020-09-01 Intel Corporation System and method for 3D blob classification and transmission
US11212506B2 (en) 2018-07-31 2021-12-28 Intel Corporation Reduced rendering of six-degree of freedom video
US10887574B2 (en) 2018-07-31 2021-01-05 Intel Corporation Selective packing of patches for immersive video
RU2690757C1 (ru) * 2018-08-21 2019-06-05 Самсунг Электроникс Ко., Лтд. Система синтеза промежуточных видов светового поля и способ ее функционирования
US11057631B2 (en) 2018-10-10 2021-07-06 Intel Corporation Point cloud coding standard conformance definition in computing environments
US11957974B2 (en) 2020-02-10 2024-04-16 Intel Corporation System architecture for cloud gaming

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61144191A (ja) * 1984-12-17 1986-07-01 Nippon Hoso Kyokai <Nhk> 立体テレビジョン画像伝送方法
GB8626527D0 (en) 1986-11-06 1986-12-10 British Broadcasting Corp 3d video transmission
JPH06265322A (ja) 1993-03-11 1994-09-20 Canon Inc 複数画像からの視差検出方法
JPH0715748A (ja) 1993-06-24 1995-01-17 Canon Inc 画像記録再生装置
JP3826236B2 (ja) * 1995-05-08 2006-09-27 松下電器産業株式会社 中間像生成方法、中間像生成装置、視差推定方法、及び画像伝送表示装置
JPH099294A (ja) 1995-06-14 1997-01-10 Eriko Shimizu 立体画像情報構成方式
JP3769850B2 (ja) 1996-12-26 2006-04-26 松下電器産業株式会社 中間視点画像生成方法および視差推定方法および画像伝送方法
US6163337A (en) 1996-04-05 2000-12-19 Matsushita Electric Industrial Co., Ltd. Multi-view point image transmission method and multi-view point image display method
US6175652B1 (en) * 1997-12-31 2001-01-16 Cognex Corporation Machine vision system for analyzing features based on multiple object images
WO2002097733A2 (en) 2001-05-29 2002-12-05 Koninklijke Philips Electronics N.V. Video communication signal for 3d image
KR100433625B1 (ko) * 2001-11-17 2004-06-02 학교법인 포항공과대학교 스테레오 카메라의 두영상과 양안차도를 이용한 다시점영상 합성 장치
AU2002952873A0 (en) 2002-11-25 2002-12-12 Dynamic Digital Depth Research Pty Ltd Image encoding system
KR100751422B1 (ko) 2002-12-27 2007-08-23 한국전자통신연구원 스테레오스코픽 비디오 부호화 및 복호화 방법, 부호화 및복호화 장치
US7512250B2 (en) * 2004-11-24 2009-03-31 Siemens Corporate Research, Inc. System and method for fast illumination-invariant background subtraction using two views
GB2474602A (en) * 2008-06-12 2011-04-20 Spandan Choudury A non-virtual-3d-video/photo generator rendering relative physical proportions of image in display medium and hence also of the display medium itself

Also Published As

Publication number Publication date
EP2005757A2 (en) 2008-12-24
JP5317955B2 (ja) 2013-10-16
US9986258B2 (en) 2018-05-29
KR101340911B1 (ko) 2013-12-13
EP3104603B1 (en) 2018-05-16
ES2599858T3 (es) 2017-02-03
TR201810139T4 (tr) 2018-08-27
CN101416520A (zh) 2009-04-22
ES2676055T5 (es) 2022-08-03
KR20090007384A (ko) 2009-01-16
CN101416520B (zh) 2011-12-14
EP3104603A1 (en) 2016-12-14
WO2007113725A2 (en) 2007-10-11
RU2431938C2 (ru) 2011-10-20
RU2008143205A (ru) 2010-05-10
JP2009531927A (ja) 2009-09-03
EP3104603B2 (en) 2022-06-08
EP2005757B1 (en) 2016-08-24
PL2005757T3 (pl) 2017-02-28
US20100231689A1 (en) 2010-09-16
WO2007113725A3 (en) 2008-03-27

Similar Documents

Publication Publication Date Title
ES2676055T3 (es) Receptor de imagen eficaz para múltiples vistas
JP5654138B2 (ja) 3dヒューマンマシンインターフェースのためのハイブリッドリアリティ
Muller et al. Reliability-based generation and view synthesis in layered depth video
JP5544361B2 (ja) 三次元ビデオ信号を符号化するための方法及びシステム、三次元ビデオ信号を符号化するための符号器、三次元ビデオ信号を復号するための方法及びシステム、三次元ビデオ信号を復号するための復号器、およびコンピュータ・プログラム
JP5243612B2 (ja) 中間画像合成およびマルチビューデータ信号抽出
EP2761878B1 (en) Representation and coding of multi-view images using tapestry encoding
US9031356B2 (en) Applying perceptually correct 3D film noise
US7660472B2 (en) System and method for managing stereoscopic viewing
JP4489610B2 (ja) 立体視可能な表示装置および方法
US20090284584A1 (en) Image processing device
JP5291755B2 (ja) 立体視画像生成方法および立体視画像生成システム
US20150215600A1 (en) Methods and arrangements for supporting view synthesis
KR20170140187A (ko) 깊이 정보를 이용한 완전 시차 압축 광 필드 합성을 위한 방법
Schmeing et al. Depth image based rendering: A faithful approach for the disocclusion problem
Winkler et al. Stereo/multiview picture quality: Overview and recent advances
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
JPWO2013069171A1 (ja) 画像処理装置、及び画像処理方法
US9866813B2 (en) Autostereo tapestry representation
WO2011094164A1 (en) Image enhancement system using area information
Zhang et al. DIBR-based conversion from monoscopic to stereoscopic and multi-view video
Hallpike The role of ocula in stereo post production
Le Feuvre et al. Graphics Composition for Multiview Displays
WO2013186881A1 (ja) 立体視画像生成方法および立体視画像生成システム