ES2676055T3

ES2676055T3 - Receptor de imagen eficaz para múltiples vistas

Info

Publication number: ES2676055T3
Application number: ES16176807.2T
Authority: ES
Inventors: Wilhelmus H. A. Bruls; Christiaan Varekamp; Ralph Braspenning
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-03-31
Filing date: 2007-03-23
Publication date: 2018-07-16
Anticipated expiration: 2027-03-23
Also published as: EP2005757A2; JP5317955B2; US9986258B2; KR101340911B1; EP3104603B1; ES2599858T3; TR201810139T4; CN101416520A; ES2676055T5; KR20090007384A; CN101416520B; EP3104603A1; WO2007113725A2; RU2431938C2; RU2008143205A; JP2009531927A; EP3104603B2; EP2005757B1; PL2005757T3; US20100231689A1

Abstract

Un receptor de señal de imagen (400), que comprende: - medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101); - medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y - medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda, caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Receptor de imagen eficaz para múltiples vistas

La invención se refiere a un método de codificación de múltiples vistas de una imagen en una señal de imagen, tal como por ejemplo una señal de televisión comprimida de acuerdo con una de las normas MPEG.

La invención también se refiere a: un aparato para generar una señal de este tipo, un receptor para recibir una señal de este tipo, un método de extracción de la información codificada de la señal, de tal manera que puede usarse para generar las múltiples vistas, y la propia señal codificada eficazmente.

En la actualidad se está trabajando en la estandarización de la codificación de la información de imágenes tridimensionales. Existen varias formas de representar un objeto tridimensional, por ejemplo, como un conjunto de vóxels (por ejemplo, popular en una pantalla de datos médicos o una inspección de componentes industriales), o como una serie de imágenes de vistas capturadas desde diferentes direcciones y destinadas a verse desde diferentes direcciones, por ejemplo, por los dos ojos de un solo espectador o por diversos espectadores, o un espectador en movimiento, etc.

Un formato popular es el formato de izquierda/derecha, en el que se captura un fotograma por una cámara de la izquierda y se captura un fotograma por la cámara de la derecha. Estos fotogramas pueden visualizarse en diferentes pantallas, por ejemplo, el fotograma de la izquierda puede mostrarse durante un primer conjunto de instancias de tiempo, y el fotograma de la derecha durante un segundo conjunto entrelazado de instancias de tiempo, estando los ojos izquierdo y derecho del espectador bloqueados de manera sincronizada con la visualización por unas gafas de obturación. Un proyector con unos medios de polarización es otro ejemplo de una pantalla capaz de generar una impresión tridimensional de una escena, al menos de reproducir parte de la información tridimensional de la escena, es decir, lo que aproximadamente se ve como en una dirección determinada (es decir, en estéreo).

Diferentes calidades de aproximación de la escena pueden emplearse, por ejemplo, la escena 3D puede representarse como un conjunto de capas planas una detrás de la otra. Sin embargo, estas diferentes calidades pueden codificarse por los formatos existentes.

Otra pantalla popular es la pantalla auto estereoscópica. Esta pantalla se forma, por ejemplo, colocando una pantalla LCD detrás de un conjunto de lentes, de tal manera que un grupo de píxeles se proyecta hacia una región en el espacio por una lente respectiva. De esta manera se genera un número de conos en el espacio que de dos en dos contienen imágenes izquierda y derecha para un ojo izquierdo y derecho, de manera que sin necesidad de gafas un usuario puede colocarse el mismo en un número de regiones en el espacio, y percibir 3D. Sin embargo, los datos de estos grupos de píxeles tienen que generarse a partir de las imágenes izquierda y derecha. Otra opción es que un usuario puede ver un objeto desde una serie de direcciones intermedias entre la vista izquierda y derecha de la codificación estéreo, vistas intermedias que pueden generarse calculando un campo de disparidad entre el fotograma de la izquierda y el de la derecha, y, posteriormente, interpolarlas. El documento WO 02/097733 describe una representación de este tipo de imágenes en 3D de múltiples ángulos mediante una imagen normal, una imagen de profundidad, y las imágenes adicionales que corresponden a diferentes puntos de vista.

Es una desventaja de la codificación a izquierda/derecha de la técnica anterior que se requieran muchos datos para obtener las vistas intermedias, y que aun así se obtengan resultados algo decepcionantes. Es difícil calcular un campo de disparidad precisamente coincidente, que dé lugar a artefactos en las interpolaciones, tales como unas partes de un fondo que se pega a un objeto en primer plano.

Un deseo que llevó a las siguientes realizaciones tecnológicas presentadas en el presente documento era tener una forma de codificación que pueda llevar a resultados relativamente precisos al convertir a diferentes formatos, tal como a un conjunto de vistas con vistas intermedias y que sin embargo no comprenda una cantidad excesiva de datos.

Estos requisitos se cumplen al menos parcialmente mediante un receptor de señal de imagen de acuerdo con la invención que comprende medios dispuestos para extraer desde una señal de imagen tridimensional una imagen izquierda de los valores de píxel que representa uno o más objetos capturados por una cámara izquierda; medios dispuestos para extraer desde la señal de imagen tridimensional un mapa que comprende, para los conjuntos de píxeles respectivos de los valores respectivos de la imagen izquierda que representan una posición tridimensional en el espacio de una región del uno o más objetos representados por el conjunto respectivo de píxeles; y medios dispuestos para extraer de la señal de imagen tridimensional una representación parcial de una imagen derecha de valores de píxel que representan uno o más objetos capturados por una cámara derecha en una ubicación diferente a la de la cámara izquierda, comprendiendo la representación parcial al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos presentes en la imagen derecha y no en la imagen izquierda, y comprendiendo la señal de imagen tridimensional para la imagen derecha solo una parte de la imagen derecha.

5

10

15

20

25

30

35

40

45

50

55

60

65

Tales requisitos también se cumplen al menos parcialmente mediante un método de codificación de información de imágenes de dos vistas en una señal de imagen tridimensional que comprende:

- añadir a la señal de imagen una imagen izquierda de los valores de píxel que representan uno o más objetos capturados por una cámara izquierda;

- añadir a la señal de imagen un mapa que comprende para respectivos conjuntos de píxeles, valores respectivos de la imagen izquierda que representan una posición tridimensional en el espacio de una región del uno o más objetos representados por el conjunto de píxeles; y

- añadir a la señal de imagen una representación parcial de una imagen derecha de valores de píxel que representa el uno o más objetos capturados por la cámara derecha, comprendiendo la representación parcial al menos la mayoría de los píxeles que representan regiones del uno o más objetos no visibles para la cámara izquierda;

y una señal obtenida por el método o un aparato que permite la realización del método.

Los inventores se han dado cuenta de que si uno entiende que por razones de calidad es mejor añadir a las imágenes a izquierda y derecha un mapa que contiene la información sobre la estructura tridimensional de la escena, lo que representa al menos esta parte de la información de escena tridimensional que se requiere para permitir la aplicación específica (con la calidad deseada), puede concebirse un formato de codificación interesante. Para la interpolación de vistas, el mapa puede ser, por ejemplo, un mapa de disparidad segmentado con precisión, los vectores de disparidad que llevarán a una buena interpolación de las vistas intermedias. Es importante observar que este mapa puede ajustarse de manera óptima en el lado de la creación/transmisión de acuerdo con su uso en el lado receptor, es decir, por ejemplo, de acuerdo con cómo se simule el entorno tridimensional en la pantalla, lo que significa que tendrá normalmente propiedades diferentes que cuando se usa para predecir de manera óptima las regiones de píxeles en la vista a izquierda y derecha.

El mapa puede, por ejemplo, ajustarse, o incluso crearse, por un operador humano, que puede obtener una vista previa a su lado como se comportaría una serie de pantallas previstas al recibir la señal. Hoy en día, y en el futuro incluso más aún, una parte del contenido ya se genera por ordenador, tal como por ejemplo un modelo tridimensional de un dinosaurio, o unas gráficas superpuestas, lo que significa que no es demasiado problemático crearlos al menos para las regiones que contienen este tipo de mapas de disparidad precisos de píxel de objetos hechos por el hombre, o mapas de profundidad, o mapas similares.

Esto es realmente cierto para las aplicaciones de juegos, en las que, por ejemplo, un usuario puede moverse ligeramente en comparación con la escena, y puede ver la escena de manera diferente, pero en un futuro próximo la invención también puede llegar a ser importante para la televisión 3D, capturada con dos cámaras, o incluso generada sobre la base de, por ejemplo, el paralaje de movimiento. Ya un número creciente de estudios (por ejemplo, la BBC) están usando, por ejemplo, los entornos virtuales para las noticias.

Este mapa puede codificarse con poca sobrecarga de datos, por ejemplo, como una imagen de valores de gris, comprimidos de acuerdo con la norma MPEG-2, y añadidos a la imagen a izquierda/derecha (o imágenes durante diversos instantes de tiempo de vídeo en movimiento) ya en la señal.

Teniendo este mapa, sin embargo, los inventores se dieron cuenta, que permite una reducción adicional de la cantidad de datos, debido a que una parte de la escena se imagina por ambas cámaras. Aunque la información de píxel puede ser útil para la interpolación bidireccional (por ejemplo, pueden mitigarse las reflexiones especulares hacia una de las cámaras), de hecho, no tanta información importante estará presente en las partes doblemente codificadas. Por lo tanto, al tener disponible el mapa, puede determinarse qué partes de la segunda imagen (por ejemplo, la imagen de la derecha) necesitan codificarse (y transmitirse), y qué partes son menos relevantes para la aplicación específica. Y en el lado del receptor puede realizarse una reconstrucción de buena calidad de los datos que faltan.

Por ejemplo, en una simple aproximación de escena (captura), con un objeto con una cara esencialmente plana hacia las cámaras (que puede colocarse en paralelo o en un pequeño ángulo hacia la escena), y no demasiado cerca, la parte que falta en la primera imagen (a la izquierda), que se captura en la segunda imagen (a la derecha) se compone de los píxeles de un objeto de fondo (por ejemplo, los elementos de la escena en el infinito).

Una realización interesante implica la codificación de un segundo mapa de disparidad o de profundidad parcial, o similar. Por ejemplo, este mapa de profundidad parcial contendrá sustancialmente los valores de profundidad de la región que no podía imaginarse por la primera cámara. A partir de estos datos de profundidad, a continuación, puede deducirse en el lado receptor qué parte no cubierta pertenece a un objeto en primer plano que tiene una primera profundidad (indicada por 130 en la figura 1), y qué parte pertenece al fondo (132). Esto puede permitir mejores estrategias de interpolación, por ejemplo, la cantidad de estiramiento y relleno de los huecos puede ajustarse de manera fina, una representación pseudo-perspectiva de una oreja puede representarse en la imagen intermedia en lugar de solo en los píxeles de fondo, etc. Otro ejemplo es que la distorsión trapezoidal de las cámaras anguladas puede codificarse en este segundo mapa para la compensación del lado del receptor.

5

10

15

20

25

30

35

40

45

50

55

60

65

En el caso de una deformación trapezoidal procedente de una captura con cámaras convergentes (por lo general ligeramente), habrá, en general, una disparidad vertical en adición a una horizontal. Esta componente vertical puede codificarse vectorialmente, o en un segundo mapa, como ya se ha previsto, por ejemplo, en las propuestas "auxiliary data representation" del subgrupo MPEG-4 Video-3DAV (por ejemplo, ISO/IEC JTC1/SC29/wG11 documentos. MPEG2005/12603, 12602, 12600, 12595). Los componentes de la disparidad pueden mapearse a las señales de luminancia y/o crominancia de un fotograma auxiliar, por ejemplo, la disparidad horizontal puede mapearse con una alta resolución a la luminancia, y las disparidades verticales pueden mapearse con un esquema a uno o dos componentes de crominancia (de tal manera que algunos de los datos están en la U y por una fracción de matemática como gran parte de los datos adicionales en la V).

Las ventajas de un formato a izquierda + derecha + "profundidad" parcial sobre, por ejemplo, una primera codificación a una vista central + "profundidad" + datos de oclusión son las siguientes. Al transformar los datos de oclusión para la vista central, en lugar de almacenarlos en una vista de captura de cámara original, se lleva al procesamiento a inexactitudes (en particular si el mapa(s) de profundidad se obtiene de manera automática y de menor calidad/consistencia, teniendo imperfecciones temporales y espaciales), y por lo tanto una ineficacia de codificación. Además, en el cálculo de una visión intermedia otras inexactitudes vendrán en la parte superior de la misma.

Estos y otros aspectos del método y el aparato de acuerdo con la invención serán evidentes a partir de y se aclararán con referencia a las implementaciones y las realizaciones descritas a continuación en el presente documento, y con referencia a los dibujos adjuntos, que sirven únicamente como ilustraciones específicas no limitativas que ejemplifican el concepto más general, y en las que los guiones se usan para indicar que un componente es opcional, no siendo necesariamente esenciales los componentes sin guiones.

En los dibujos:

la figura 1 ilustra esquemáticamente la captura de una escena con al menos dos cámaras;

la figura 2 ilustra esquemáticamente varias opciones de la codificación de los datos requeridos en la señal de

imagen;

la figura 3 ilustra esquemáticamente un aparato a modo de ejemplo para generar la señal de imagen; y la figura 4 ilustra esquemáticamente un aparato de recepción a modo de ejemplo capaz de usar la señal.

La figura 1 muestra una primera cámara 101 que captura una primera imagen de una escena que comprende un objeto cercano 110 y un objeto lejano 112. Su campo de visión está delimitado por las líneas 103 y 104. Su vista del fondo está ocluida por el objeto más cercano, es decir, la región 132 en el lado izquierdo de la tangente 120 no es visible. Sin embargo, una segunda cámara 102 es capaz de capturar una parte de esta región 132, en una segunda imagen, que puede, por razones de simplicidad, considerarse y llamarse la imagen de la derecha (pero esto no debería interpretarse como más estrecho que el que se ha capturado algo más a la derecha del otro fotograma). La segunda cámara también es capaz de capturar una parte adicional 130 del objeto más cercano 110.

La figura 2 muestra simbólicamente que estas imágenes capturadas se verán como un conjunto de píxeles. La señal de imagen 200 puede tener, por ejemplo, un formato de codificación prescrito de JPEG y contener un fotograma codificado de la escena, o puede ser una grabación de película codificada MPEG-4. En este último caso los datos 3D 210 comprenden la información necesaria para la reconstrucción de la escena en un instante temporal específico.

La imagen 220 es la imagen de la izquierda capturada por la primera cámara, que comprende un objeto más cercano 110 y un fondo 112.

El mapa 222 es un mapa que comprende toda la información relativa a cómo los objetos se colocan en su espacio tridimensional, que comprende, al menos, la información necesaria para la reproducción de un número de vistas necesarias (estática o dinámicamente, por ejemplo, en una interacción con un usuario en movimiento en un juego) en una pantalla. Varias de estas representaciones son posibles, por ejemplo, pueden ser un mapa de profundidad, que comprende por ejemplo una distancia ortogonal aproximada (por ejemplo, el promedio sobre todas las regiones de objeto) al centro de la cámara del objeto en el fondo, en sus posiciones de dos dimensiones como se percibe por la primera cámara, o pueden ser una disparidad o un paralaje, o solo un componente horizontal de la disparidad.

La profundidad y el paralaje etc. pueden relacionarse entre sí matemáticamente.

Este mapa de profundidad puede ser, por ejemplo, un píxel preciso o puede tener un solo valor para cada bloque de 8x8 píxeles, y puede codificarse, por ejemplo, como una imagen.

Una información adicional puede añadirse al mapa de profundidad (que puede comprender unos escalares o tuplas por conjunto de píxeles, incluyendo posiblemente un conjunto de solo un único píxel), tales como por ejemplo los datos de exactitud (en cómo de fiable es una cierta parte del mapa de profundidad) determinados sobre la base del algoritmo de coincidencia para obtenerlo.

5

10

15

20

25

30

35

40

45

50

55

60

65

La estructura de datos parcial 223 (una parte de la imagen de la derecha 224) comprende la información de los píxeles (por ejemplo, la luminancia solamente, o el color, o cualquier otra representación usual, tal como, por ejemplo, un modelo de textura, capaz de generar píxeles en una región) del fondo que pueden verse solamente por la segunda cámara (adyacente al objeto 225 más cercano cambiado de paralaje). Esta región parcial codificada o al menos los datos necesarios para obtener los valores de píxel en una parte de una gran región codificada formada de acuerdo con un algoritmo de generación de parches de imagen puede ser algo menor que la actual región deocluida capturada en la imagen de la derecha, en el caso de que la aplicación del lado del receptor pueda tolerar algunos píxeles perdidos, por ejemplo, generándoles con una simple extrapolación, estiramiento, etc.

La región codificada también puede ser mayor (por ejemplo, hasta el doble de la anchura y un tamaño de búfer similar añadido en la dirección vertical). Esto puede ser interesante, por ejemplo, en el caso de duda acerca de la exactitud de la forma cuando se obtiene automáticamente, o en el caso de que por alguna razón pueda desearse la interpolación bidireccional.

También puede ser por razones de codificación. Puede ser más barato codificar bloques enteros, y uno puede beneficiarse de los píxeles extra-codificados, mientras que la codificación de forma compleja puede ser costosa. Al respecto en el lado de transmisión, un análisis (semi-) automático o manual puede realizarse en los datos de la imagen de la derecha, lo que se propone como una salida de una etapa de obtención anterior para ser útil además a los datos de la imagen de la izquierda. Por ejemplo, uno puede mirar las propiedades de píxel para identificar un reflejo especular, y decidir codificar una región de píxeles que componen la reflexión en ambas imágenes.

También puede analizarse la forma de las diferentes regiones mediante un análisis morfológico, en particular, puede determinarse el tamaño o la anchura de la región. Las regiones pequeñas pueden implicar una sobrecarga de codificación considerable, pero a menudo pueden aproximarse en el lado receptor con poca o ninguna información. Por lo tanto, las regiones pequeñas pueden omitirse de la segunda imagen parcial. Esto puede estar bajo el control de un operador humano, que comprueba el efecto de cada eliminación.

La forma (de abarque o exacta) de la región puede, por ejemplo, codificarse con aproximación poligonal o una caja delimitadora, y los valores de píxel interior (textura) pueden codificarse directamente, o por los coeficientes de una representación de transformación lineal sobre la forma, u otro modelo matemático. Además, pueden indicarse las partes que no necesitan codificarse/transmitirse.

La representación parcial puede mapearse (por ejemplo, un simple desplazamiento en las líneas de corte, una transformación, o un corte en los sub-bloques que se vuelve a apilar de acuerdo con un orden predeterminado) sobre los datos de imagen o de usuario (por ejemplo, un modelo de regeneración) no usado para la primera imagen.

Si la primera imagen con el acompañamiento del mapa de profundidad es una imagen central, puede haber unas segundas imágenes parciales para cada lado, es decir, a una cierta distancia angular (línea de base) entre las que pueden interpolarse.

La primera cámara puede representar imágenes de un fondo y la segunda cámara puede representar imágenes del fondo con, por ejemplo, un lector de noticias que cubre parte de la misma, por ejemplo, desde el mismo punto vista a una hora diferente, es decir, las cámaras no necesitan ser cámaras reales presentes simultáneamente en un momento determinado, sino más bien, por ejemplo, una de las vistas puede descargarse, por ejemplo, desde un almacenamiento de fotogramas.

Opcionalmente, al menos para la parte alrededor de las regiones de objetos no cubiertas representadas por imágenes en la segunda imagen puede añadirse un segundo mapa de profundidad 239 (una parte del mapa de profundidad total 240), o una representación similar a la señal. Este mapa de profundidad puede comprender un límite entre un objeto cercano y lejano. Con esta información, el lado de recepción puede añadir durante la interpolación los diferentes píxeles a las capas de objetos/profundidad correctas.

También, pueden añadirse unos datos adicionales 230 a la señal, por ejemplo, en campos propietarios tales como información sobre la separación o en general de la composición tridimensional de los objetos en la escena. La indicación puede ser tan simple como una línea que siga un límite de objeto de escena representada por imágenes (si, por ejemplo, el mapa de profundidad no es suficiente o lo suficientemente preciso por sí mismo para demarcar los objetos), o incluso algo tan complicado como una malla metálica (por ejemplo, de la estructura de profundidad local en las partes deocluidas) o una información obtenida de la misma.

También pueden incluirse la información de posición de cámara y la información de intervalo de escena, permitiendo que el lado de recepción haga reconstrucciones más avanzadas de las múltiples vistas (al menos dos).

La figura 3 muestra un aparato 310 para generar la señal de imagen. Por lo general será un CI o una parte de un CI, o un procesador con software apropiado. El aparato puede estar comprendido en un aparato más grande tal como un aparato de autoría dedicado en un estudio, y puede conectarse a un ordenador, o puede estar comprendido en un ordenador. En la realización a modo de ejemplo, una primera cámara 301 y una segunda cámara 302 están

5

10

15

20

25

30

35

40

45

50

55

60

65

conectadas a la entrada del aparato 310. Cada cámara tiene un telémetro (308 resp. 309), que puede usar por ejemplo un haz láser o una rejilla proyectada, etc.

En el aparato existe una unidad de estimación de disparidad 312 que está dispuesta para determinar las disparidades entre al menos dos imágenes, al menos teniendo en cuenta la geometría del objeto (usando la información del mapa de profundidad). Se conocen diferentes técnicas de estimación de disparidad a partir de la técnica anterior, por ejemplo, por medio de una suma de las diferencias absolutas de los valores de píxel en los bloques relacionados.

Está dispuesto para determinar al menos qué regiones están presentes en solo una de las imágenes y cuales están presentes en ambas, pero, además, puede tener unidades que sean capaces de aplicar los criterios de correspondencia a las regiones de los píxeles.

También puede haber una unidad de mapa de profundidad 314 capaz de generar y/o analizar y/o del refinar los mapas de profundidad (o una representación similar como un mapa de disparidad) o determinados por la unidad de estimación de disparidad 312, o extraídos de la señal de cámara introducida que contiene unos datos de intervalo de ejemplo. Puede comprender opcionalmente una unidad de representación 316, que puede generar, por ejemplo, vistas intermedias de tal manera que un artista de estudio puede comprobar el impacto de cualquier modificación y/o codificación más eficaz. Esto se realiza mediante la unidad de interfaz de usuario 318, lo que puede permitir, por ejemplo, que el usuario cambie los valores en la representación parcial 223, o cambie su forma (por ejemplo, haciendo que sea más grande o más pequeña). El usuario también puede modificar el mapa 222. Al respecto, puede conectarse una pantalla 335 y un medio de entrada de usuario. El aparato es capaz de transmitir la señal de imagen finalmente compuesta a una red 330 a través de los medios de transmisión y composición de señales 339, que un experto en la materia puede encontrar para la red apropiada (por ejemplo, la conversión a una señal de televisión implica una conversión ascendente a una frecuencia de transmisión, la transmisión a Internet implica una paquetización, puede haber más unidades de protección de errores, etc.).

La red presentada no debería interpretarse como limitativa, y está destinada también a comprender, por ejemplo, la transmisión a una unidad de memoria o medio de almacenamiento a través de una red interna de aparato tal como un bus.

La figura 4 muestra un receptor a modo de ejemplo 400, que puede ser de nuevo, por ejemplo, (una parte de) un CI, y que comprende medios para extraer la información relevante de la señal de imagen que puede recibirse de la red 330, al menos:

- medios (402) dispuestos para extraer la primera imagen (220) de los valores de píxel que representan uno o más objetos (110, 112) capturados por una primera cámara (101);

- medios (404) dispuestos para extraer de la señal de imagen (200) el mapa, por ejemplo, un mapa de profundidad que corresponde a las posiciones de objeto de la primera imagen; y

- medios (406) dispuestos para extraer la representación parcial (223) de la segunda imagen (224) de los valores de píxel que representan el uno o más objetos (110, 112) capturados por una segunda cámara (102).

Por supuesto, pueden estar presentes medios adicionales, ya que el receptor (y el método de extracción) puede duplicar cualquiera de las realizaciones posibles para la generación, por lo que pueden ser, por ejemplo, medios para extraer los datos adicionales, tales como la indicación de la frontera entre dos objetos.

Esta información extraída se transmite a un regenerador de imágenes, que puede generar, por ejemplo, una imagen completa a izquierda y derecha. Una unidad de representación de imágenes 412 puede generar, por ejemplo, una vista intermedia (por ejemplo, mediante una interpolación mono- o bidireccional, o cualquier otro algoritmo conocido), o las señales necesarias para dos vistas (estéreo) en una pantalla autoestereoscópica. En función del tipo de visualización en 3D y cómo se representa en realidad el 3D, estas dos unidades pueden realizarse en diferentes combinaciones.

El receptor puede normalmente conectarse a o estar comprendido en una pantalla 3D 415, que puede reproducir al menos dos vistas, o la señal(s) regenerada puede almacenarse en un dispositivo de memoria 420, por ejemplo, un escritor de disco 422, o en una memoria de estado sólido, etc.

Los componentes algorítmicos desvelados en este texto pueden realizarse en la práctica (por completo o en parte) como hardware (por ejemplo, las partes de un CI de aplicación específica) o como software que se ejecuta en un procesador de señal digital especial o un procesador genérico, etc.

Bajo un producto de programa informático debería entenderse cualquier realización física de un conjunto de comandos que permiten a un procesador genérico o de propósito especial, después de una serie de etapas de carga (que pueden incluir etapas de conversión intermedias, como la traducción a un lenguaje intermedio, y a un lenguaje de procesador final) obtener los comandos en el procesador, para ejecutar cualquiera de las funciones características de una invención. En particular, el producto de programa informático puede realizarse como datos en

un portador tal como, por ejemplo, un disco o una cinta, datos presentes en una memoria, datos que viajan a través de una conexión de red cableada o inalámbrica, o un código de programa en papel. Aparte del código de programa, los datos de características requeridos para el programa también pueden realizarse como un producto de programa informático.

5

Algunas de las etapas necesarias para el funcionamiento del método pueden estar ya presentes en la funcionalidad del procesador en lugar de descritas en el producto de programa informático, tales como las etapas de entrada y de salida de datos.

10 Debería observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invención. Además de las combinaciones de los elementos de la invención como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinación de los elementos puede realizarse en un único elemento dedicado.

15 Cualquier signo de referencia entre paréntesis en la reivindicación no está destinado a limitar la reivindicación. La palabra "comprende" no excluye la presencia de elementos o aspectos no mencionados en una reivindicación. La palabra "un" o "una" precediendo un elemento no excluye la presencia de una pluralidad de tales elementos.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un receptor de señal de imagen (400), que comprende:

- medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);

- medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

- medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda,

caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha.
2. Un receptor de señal de imagen (400), que comprende:

- medios (402) dispuestos para extraer desde una señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);

- medios (404) dispuestos para extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

- medios (406) dispuestos para extraer desde la señal de imagen tridimensional (200) una representación parcial

(223) de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha,

caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220), y por la señal de imagen tridimensional (200) que comprende para la imagen izquierda (224) solo una parte (223) de la imagen izquierda.
3. Un método para extraer información de imagen de dos vistas desde una señal de imagen tridimensional (200) que comprende:

- extraer desde la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);

- extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

- extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen derecha

(224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda,

caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220), y por la señal de imagen tridimensional (200) que comprende para la imagen derecha (224) solo una parte (223) de la imagen derecha.
4. Un método para extraer información de imagen de dos vistas desde una señal de imagen tridimensional (200) que comprende:

- extraer desde la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);

- extraer desde la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

5

10

15

20

25

30

35

40

45

50

55

60

65

- extraer desde la señal de imagen tridimensional (200) una representación parcial (223) de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha, caracterizado por la representación parcial (223) que comprende al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220), y por la señal de imagen tridimensional (200) que comprende para la imagen izquierda (224) solo una parte (223) de la imagen izquierda.
5. Un método para codificar información de imagen de dos vistas en una señal de imagen tridimensional (200) que comprende:

- añadir a la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);

- añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

- proporcionar una imagen derecha (224) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda;

- determinar qué regiones están presentes en la imagen derecha (224) y no en la imagen izquierda (220) en respuesta a las disparidades entre la imagen izquierda (220) y la imagen derecha (224); y estando el método caracterizado por comprender:

- añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen derecha (224), comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles de las regiones determinadas, y especificando regiones de la imagen derecha (224) que no necesitan ser codificadas.
6. Un método para codificar información de imagen de dos vistas en una señal de imagen tridimensional (200) que comprende:

- añadir a la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);

- añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos, que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

- proporcionar una imagen izquierda (224) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha;

- determinar qué regiones están presentes en la imagen izquierda (224) y no en la imagen derecha (220) en respuesta a las disparidades entre la imagen derecha (220) y la imagen izquierda (224); y estando el método caracterizado el método por comprender:

- añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen izquierda (224), comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles de las regiones determinadas, y especificando regiones de la imagen izquierda (224) que no necesitan ser codificadas.
7. Un aparato (310) para generar una codificación en una señal de imagen tridimensional (200) de información de imagen de dos vistas que comprende:

- medios (340) dispuestos para añadir a la señal de imagen tridimensional (200) una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);

- medios (341) dispuestos para añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

- medios dispuestos para proporcionar una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda;

- medios dispuestos para determinar al menos qué regiones están presentes en la imagen derecha y no en la imagen izquierda (220) en respuesta a las disparidades entre la imagen izquierda (220) y la imagen derecha (224);

y estando el aparato caracterizado por comprender:

- medios (342) dispuestos para añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen derecha (224), comprendiendo la representación parcial (223) al menos información de la mayoría

5

10

15

20

25

30

35

40

45

50

de los píxeles de las regiones, y especificando regiones de la imagen derecha (224) que no necesitan ser codificadas.
8. Un aparato (310) para generar una codificación en una señal de imagen tridimensional (200) de información de imagen de dos vistas que comprende:

- medios (340) dispuestos para añadir a la señal de imagen tridimensional (200) una imagen derecha (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102);

- medios (341) dispuestos para añadir a la señal de imagen tridimensional (200) un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y

- medios dispuestos para proporcionar una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101) en una ubicación diferente a la de la cámara derecha;

- medios dispuestos para determinar al menos qué regiones están presentes en la imagen izquierda y no en la imagen derecha (220) en respuesta a las disparidades entre la imagen derecha (220) y la imagen izquierda (224);

y estando el aparato caracterizado por comprender:

- medios (342) dispuestos para añadir a la señal de imagen tridimensional (200) una representación parcial (223) de la imagen izquierda (224), comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles de las regiones, y especificando regiones de la imagen izquierda (224) que no necesitan ser codificadas.
9. Una señal de imagen tridimensional (200) que comprende:

- una imagen izquierda (220) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (101);

- un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen izquierda (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y caracterizado por comprender:

- una representación parcial (223) de solo una parte de una imagen derecha (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara derecha (102) en una ubicación diferente a la de la cámara izquierda, comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen derecha y no en la imagen izquierda (220).
10. Una señal de imagen tridimensional (200) que comprende:

- una imagen derecha (220) de valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una cámara derecha (102);

- un mapa (222) que comprende para los respectivos conjuntos de píxeles de la imagen derecha (220) valores respectivos que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el respectivo conjunto de píxeles; y caracterizado por comprender:

- una representación parcial (223) de solo una parte de una imagen izquierda (224) de valores de píxel que representan uno o más objetos (110, 112) capturados por una cámara izquierda (102) en una ubicación diferente a la de la cámara derecha, comprendiendo la representación parcial (223) al menos información de la mayoría de los píxeles que representan regiones del uno o más objetos (110, 112) presentes en la imagen izquierda y no en la imagen derecha (220).