ES2303057T3

ES2303057T3 - Procedimiento para la transmision comprimida de datos de imagenes para una representacion tridimensional de escenas y objetos.

Info

Publication number: ES2303057T3
Application number: ES04715242T
Authority: ES
Inventors: Gerd Mossakowski
Original assignee: T Mobile Deutschland GmbH
Current assignee: Telekom Deutschland GmbH
Priority date: 2003-02-27
Filing date: 2004-02-27
Publication date: 2008-08-01
Anticipated expiration: 2024-02-27
Also published as: US7212662B2; DE502004006411D1; PT1600008E; WO2004077838A1; NO20045566L; US20060274951A1; NO336560B1; DK1600008T3; WO2004077838B1; CY1108082T1; EP1600008A1; SI1600008T1; ATE388584T1; EP1600008B1

Abstract

Procedimiento adecuado para la transmisión comprimida de datos de imagen para una representación tridimensional de escenas y objetos, (a) en el que cada escena o cada objeto se graba desde al menos dos perspectivas; (b) que usa una transmisión de datos de video según el procedimiento de la transmisión priorizada de píxeles, (b1) en el que los datos de video de cada imagen se fijan por medio de grupos de píxeles individuales, (b2) en el que cada grupo de píxeles presenta un valor de posición dentro de las posiciones de un conjunto de imágenes y al menos un valor de píxel asignado, (b3) en el que el tamaño del conjunto de imágenes está definido por medio de la altura h y de la anchura b de una imagen de video, dada en puntos de imagen o píxeles, (b4) en el que para cada grupo de píxeles de las imágenes sucesivas se determina un valor de prioridad, determinando para ello las diferencias de un píxel de referencia que determina el valor de posición del grupo de píxeles respecto al resto de píxeles del grupo de píxeles, (b5) y después de cada determinación de un nuevo valor de prioridad se ordenan los valores de prioridad de los grupos de píxeles en una lista de prioridades según el tamaño por orden descendente y se transmiten de modo preferente para grupos de píxeles con la mayor prioridad actual sus valores de posición y valores de píxel; caracterizado por medio de (c) el uso de un procedimiento para la transmisión de datos adicionales dentro del procedimiento mencionado de transmisión de datos de video, (c1) en el que los datos adicionales, del mismo modo que los datos de video, presentan valores de posición y valores de píxel asignados y los valores de posición y los valores de píxel de los datos adicionales se transmiten conjuntamente con los datos de video, (c2) en el que los valores de posición de los datos adicionales están asignados a una región de offset del conjunto de imágenes, (c3) y en el que la región de offset contiene exclusivamente valores de posición que no son parte del conjunto de imágenes mencionado, (d) en el que los datos conforman una primera perspectiva de datos de video reales y los datos de al menos otra perspectiva conforman los datos adicionales mencionados, (d1) en el que los valores de posición de los datos adicionales están dispuestos en la región de offset mencionada, (d2) y en el que para las posiciones dentro del conjunto de imágenes se transmite un mayor número de grupos de píxeles que para posiciones en la región de offset; (e)y en el que los valores de píxel de grupos de píxeles no transmitidos de la región de offset, se calculan a partir de grupos de píxeles ya transmitidos del conjunto de imágenes en la parte de recepción.

Description

Procedimiento para la transmisión comprimida de datos de imágenes para una representación tridimensional de escenas y objetos.

La presente invención se refiere a un procedimiento para la transmisión comprimida de datos de imágenes para una representación tridimensional de escenas y objetos.

La invención se basa en un procedimiento para la transmisión de datos adicionales dentro de una transmisión de datos de vídeo entre un emisor y un receptor según el procedimiento de la transmisión priorizada de píxeles, tal y como se describe en el siguiente párrafo. Los datos de vídeo se componen de un gran número de imágenes individuales. Cada imagen define un conjunto de imágenes de puntos de imagen (píxeles). Los datos de vídeo de cada imagen se clasifican en grupos de píxeles individuales, presentando cada grupo de píxeles un valor de posición dentro del conjunto de imágenes y al menos un valor de píxel. El tamaño mínimo del conjunto de imágenes está definido por medio de la altura h y de la anchura b de una imagen de vídeo, dada en puntos de imagen. En la transmisión de los datos adicionales se usan valores de posición que no aparecen en los propios datos de vídeo, sino que están asignados a una región de offset del conjunto de imágenes.

La transmisión propiamente dicha de los datos de imágenes se basa en un procedimiento para la compresión y descompresión de datos de imágenes y de vídeo por medio de grupos de píxeles de priorización, tal y como se describe en el documento DE10113880A1. El documento DE101 13880A1 da a conocer un procedimiento para la compresión y descompresión de datos de vídeo que se componen de un conjunto de puntos de imagen (píxeles) individuales, en el que cada píxel presenta un valor de píxel que se modifica temporalmente, que describe la información de color o de claridad del píxel. A cada píxel se le asigna una prioridad y se coloca el píxel de modo correspondiente a su priorización en un conjunto de prioridades. Este conjunto contiene en cada instante los valores de píxel ordenados según la priorización. De modo correspondiente a la priorización se transmiten y/o se almacenan estos píxeles y los valores de píxel usados para el cálculo de la priorización. Un píxel recibe una prioridad elevada cuando las diferencias con sus píxeles contiguos son muy grandes. Para la reconstrucción se representan los valores de píxel actuales en la pantalla. Los píxeles que todavía no han sido transmitidos se calculan a partir de los píxeles que ya han sido transmitidos. De acuerdo con las características de la reivindicación 1, el documento DE10113880A1 da a conocer por tanto un procedimiento adecuado para la transmisión comprimida de datos de imagen usando una transmisión de datos de vídeo según el procedimiento de la transmisión priorizada de píxeles, en el que los datos de vídeo de cada imagen son fijados por medio de grupos de píxeles individuales y cada grupo de píxeles presenta un valor de posición dentro de las posiciones de un conjunto de imágenes y al menos un valor de píxel asignado, en el que el tamaño del conjunto de imágenes está definido por medio de la altura h y de la anchura b de una imagen de vídeo, dada en puntos de imagen o píxeles, y en el que para cada grupo de píxeles de las imágenes consecutivas se determina un valor de prioridad y de modo preferente para grupos de píxeles de la mayor prioridad se transmiten sus valores de posición y los valores de píxel.

El artículo de Serge Simon "Generalized Run-Length Coding for SNR-scalable Image Compression", en Proceedings of EUSIPCO-94, 7th European Signal Processing Conference, septiembre de 1994, XP008007229, páginas 560-563 propone, dentro del tema de codificación por longitud de series generalizada, transmitir los píxeles más importantes de una imagen de modo preferente, según la ordenación previa de los píxeles según su prioridad.

El documento US6191808B1 da a conocer procedimientos para la representación estereoscópica de imágenes. En particular, se propone interpolar una representación de una imagen intermedia dependiente de la posición del observador a partir de un gran número de perspectivas de imagen existentes/generadas de parejas de imágenes.

El artículo de Forman, M. y col. "Compression of Integral 3D TV Pictures", Intl. Conference on Image Processing and its Applications, London, Nr. 410, 4 de julio de 1995, páginas 584-588, XP000613545 y la publicación WO9710675A1 se refieren a la compresión de imágenes fijas 3D y de imágenes en movimiento 3D. Debido a la posibilidad de aprovechar la fuerte correlación entre imágenes continuas, es decir, imágenes de perspectivas de grabación contiguas, se espera un mayor factor de compresión. Para la compresión de segundas o de otras perspectivas de una imagen en 3D se propone DPCM, para la codificación de intraperspectiva se propone 2D-DCT. Para las imágenes en movimiento 3D se propone sustituir 2D-DCT por 3D-DCT. Como alternativa a ello se propone comprimir las componentes de movimiento por medio de compensación de movimiento. En la decodificación se puede reconstruir entonces de modo correspondiente la imagen de una perspectiva a partir de los datos codificados de esta perspectiva y de los datos de una perspectiva decodificada previamente.

El documento US-A-6055274 muestra un procedimiento similar a las dos publicaciones mencionadas en último lugar. A diferencia de los últimos documentos, se efectúa una estimación de movimiento entre perspectivas contiguas y, basándose en eso, una codificación compensada de movimiento (predictiva-diferencial) para cada perspectiva dentro de una imagen 3D. La codificación compensada de movimiento se corresponde con el procedimiento usado de modo conocido en la codificación de compresión de señales de vídeo digitales (imágenes consecutivas).

La publicación EP0588410A1 da a conocer, a su vez, un procedimiento para la compresión de datos de vídeo estereoscópicos, según la cual, por ejemplo, los datos de una perspectiva de imagen izquierda son sometidos del modo conocido mencionado anteriormente a una codificación de compresión predictiva-diferencial compensada de movimiento. La codificación de los datos de la perspectiva derecha de la imagen se realiza de modo correspondiente, si bien, dependiendo de la correlación entre la perspectiva izquierda y la derecha, dado el caso, se lleva a cabo una codificación predictiva de la perspectiva derecha completa o parcialmente basándose en datos de la perspectiva izquierda. En la codificación se reconstruye de modo correspondiente la perspectiva derecha completamente, parcialmente o no se reconstruye en absoluto por medio de datos de la perspectiva izquierda.

El documento US6441844B1 muestra otro ejemplo para la codificación de compresión de datos de vídeo estereoscópicos aprovechando la correlación entre las imágenes parciales izquierdas y derechas y usando imágenes diferenciales y compensación de movimiento.

En el artículo de Marshall, S. y col. "Application of Image Contours to three Aspects of Image Processing: Compression, Shape Recognition and Stereopsis", IEE Proceedings-1, Solid State and Electron Devices, Vol. 139, Nº 1, febrero de 1992, XP000292350, páginas 1-8, se propone llevar a cabo una compresión y un almacenamiento de datos de imágenes a partir de los contornos de la imagen.

El documento US-A-5864640 da a conocer un procedimiento para el escaneado óptico de objetos tridimensionales, representándose el objeto escaneado en forma de valores de posición y de color.

Otro procedimiento similar se conoce del documento US20020159628A1, en el que, en este caso, el objeto registrado se define en forma de datos de contorno y datos de textura.

Fundamentalmente se conocen dos procedimientos diferentes para la transmisión de escenas y objetos tridimensionales.

Por un lado se conoce el hecho de grabar una escena o un objeto desde diferentes perspectivas de la cámara y transmitir estos datos. En el otro procedimiento se modelan y se almacenan y/o transmiten los objetos o escenas con la ayuda de modelos de rejilla. Las rejillas conforman entonces los extremos de envoltura de los objetos o escenas individuales. La posición de las rejillas en el espacio tridimensional se determina por medio de puntos de rejilla. Las superficies entre los puntos de rejilla se llenan por medio de texturas que, en la mayoría de los casos, se transmiten separadas de la estructura de rejilla. Este procedimiento se emplea fundamentalmente en el campo de los juegos de ordenador, en los que se generan objetos artificiales con la ayuda del ordenador. La ventaja reside en la posibilidad de representar los objetos/escenas en diferentes estados (por ejemplo, ángulo de observación, iluminación por medio de diferentes iluminaciones). En el caso de objetos naturales (por ejemplo personas reales, plantas), sin embargo, hasta ahora no es posible transformar éstos en tiempo real en un modelo de rejilla correspondiente.

Por esta razón, hoy en día, para grabaciones naturales, por regla general, se lleva a cabo una transmisión según el primer procedimiento con la ayuda de diferentes perspectivas de la cámara. La persona puede ver espacialmente haciendo para ello que perciba una escena al mismo tiempo con los dos ojos. En este caso, los ojos perciben la misma escena ligeramente diferente. El cerebro humano genera a partir de estas percepciones diferentes una imagen espacial. En este hecho también se basan, entre otros, las películas 3D, haciendo que en su observación, la persona reciba en el ojo izquierdo y en el derecho una imagen (ligeramente) diferente. Las realizaciones prácticas son, por ejemplo, gafas que pueden filtrar o bien los colores (rojo/verde) o la polarización de la luz (horizontal/vertical) de las imágenes correspondientes para el ojo izquierdo y derecho. Las imágenes que se han de transmitir para el ojo se diferencian, por regla general, sólo mínimamente. En particular, en el caso de aristas de objetos se pone de manifiesto una diferencia de este tipo. Se puede aprovechar esta circunstancia en el presente procedimiento de transmisión. Por razones de simplicidad, en lo sucesivo se designa la información de imagen recibida por el ojo izquierdo como Imagen 1, y la información de imagen percibida por el ojo derecho como Imagen 2.

El objetivo de la invención reside en el hecho de modificar una transmisión de datos de vídeo según el procedimiento de la transmisión priorizada de píxeles según el documento DE 101 13 880 A1 de tal manera que se haga posible una transmisión comprimida de objetos y escenas tridimensionales o estereoscópicos a través de sistemas de transmisión de banda estrecha, como por ejemplo GSM/UMTS, y una reconstrucción a continuación de los datos de imágenes transmitidos.

Este objetivo se soluciona según la invención por medio de las características de la reivindicación 1.

El procedimiento conforme a la invención se puede usar de modo ventajoso para la transmisión y procesado de objetos y escenas tridimensionales, haciendo que cada escena/cada objeto se grabe desde al menos dos perspectivas, en el que se asigna una perspectiva al conjunto de imágenes real y al menos otra perspectiva a una región de offset del conjunto de imágenes. A partir del conjunto de imágenes se transmite un número mayor de grupos de píxeles que desde la región de offset, calculándose los píxeles de los grupos de píxeles que falten de la región de offset a partir de los grupos de píxeles ya transmitidos del conjunto de imágenes.

Preferentemente, para la perspectiva transmitida en el conjunto de imágenes se transmiten tanto grupos de píxeles con mayor prioridad como grupos de píxeles con menor prioridad y para la perspectiva transmitida en la región de offset únicamente grupos de píxeles de mayor prioridad.

A continuación se explica un ejemplo de realización de la invención.

Una escena es grabada por al menos dos cámaras. Se usa una cámara como cámara principal. Ésta podría ser una cámara panorámica y definirse, por ejemplo, como imagen 1. La cámara principal llenaría ahora una primera región de la imagen (píxeles 0 ... 512) de modo correspondiente a la figura 1. En la transmisión no sólo se transmitirían los grupos de píxeles de alta prioridad, sino también grupos de píxeles de baja prioridad, para conseguir una imagen con la mejor calidad posible. La(s) otra(s) cámara(s) graba(n), por ejemplo, la segunda región de la imagen (píxeles 513 ... 1024). Para esta segunda región de la imagen, por regla general, sólo es necesario transmitir pocos grupos de píxeles de alta prioridad, ya que los grupos de píxeles que todavía no se han transmitido se pueden calcular, entre otro, con la ayuda de los datos de la primera región de la imagen.

Un ejemplo pone esto de manifiesto. Se graba una escena con un coche que, por ejemplo, lleva un texto publicitario. El coche con el texto publicitario se transmite de forma nítida en la primera región de la imagen. Para la segunda región de la imagen es entonces suficiente transmitir sólo grupos de píxeles singulares de la imagen, de manera que se describa de modo unívoco la posición del coche en la imagen 2. Se puede prescindir de la transmisión de los grupos de píxeles para la imagen 2, que mostrarían la inscripción publicitaria, ya que estos se pueden reconstruir a partir de la relación con la imagen 1. Con ello se produciría para la segunda región de la imagen una tasa de compresión aún mucho mayor que para la primera región de la imagen.

En caso de que se usen más de dos grabadoras de imagen, es posible, por ejemplo, llevar a cabo transmisiones tridimensionales precisas. Existen aplicaciones para ello, entre otras, en la industria cinematográfica o en la técnica médica para la transmisión de material de imágenes en 3D como, por ejemplo, rayos X o imágenes de resonancia magnética nuclear.

Una característica fundamental de la invención, debido a ello, es la reducción de datos que se puede conseguir en la transmisión de la segunda o de otra imagen. La invención comprende, sin embargo, otras ventajas, que se han de relacionar con la posibilidad de la transmisión/procesado tridimensional.

De este modo, dentro de valores de posición no determinados para la transmisión de datos de imagen propiamente dicha, de modo similar a como pueden ser necesarios para el cambio de escenas, se puede realizar una transmisión de las propiedades de la cámara, como por ejemplo las posiciones de las cámaras entre sí, las distancias focales usadas, la velocidad propia de las cámaras en el empleo en vehículos o aviones, etc.

Para la determinación de las propiedades de los objetos representados por medio de los datos de imagen se puede llevar a cabo una correlación de datos de imagen determinados de las perspectivas individuales.

Los valores correlatos se pueden usar para determinar la posición, tamaño, velocidad y forma de objetos de un modo sencillo de manera unívoca. De este modo, por ejemplo, se puede determinar la conformación mecánica de las superficies de sustentación de un avión en diferentes maniobras de vuelo. En el campo médico se podría usar esto para la comprobación del movimiento de diferentes grupos de músculos y vasos.

Los valores correlatos, por otro lado, se pueden usar para generar de modo sencillo una imagen o un vídeo cuya perspectiva esté entre las perspectivas grabadas realmente (posiciones de la cámara). Un ejemplo puede poner esto de manifiesto. La imagen 1 es la cámara principal y está orientada a un jarrón. La imagen 2 es grabada por otra cámara, que graba el jarrón con un ángulo de 20 grados referido a la cámara principal. Con la ayuda de los valores obtenidos por medio de correlación y el conocimiento de las diferentes posiciones de la cámara se puede generar una imagen de modo artificial que muestra el jarrón desde el ángulo de vista de una cámara imaginaria, que está desplazada, por ejemplo, sólo 10 grados respecto a la cámara principal, sin que deba existir en sí una cámara de este tipo. Esta información se puede usar entonces de un modo sencillo para enriquecer las grabaciones naturales con informaciones artificiales. Los escenarios de aplicación podrían ser la inclusión artificial de informaciones adicionales; en un partido de fútbol, por ejemplo, una línea que muestra si determinados jugadores se encuentran en fuera de juego.

La correlación de los datos de imagen de diferentes perspectivas se basa en las siguientes consideraciones. De modo correspondiente al procedimiento que se extrae de la solicitud de patente alemana DE 101 13 880 A1 se conforman grupos de píxeles de priorización. Los puntos de las esquinas de los objetos resultan, por regla general, como los de mayores valores de prioridad. En caso de que, por ejemplo, la posición relativa de los cinco grupos de píxeles de mayor prioridad entre sí sea similar a la posición relativa de los cinco grupos de píxeles de mayor prioridad de la segunda posición de cámara, entonces se puede asumir que se ha registrado el mismo objeto. Se pueden ignorar las desviaciones individuales en tanto que los grupos de píxeles que permanezcan presenten una correlación entre sí correspondiente buena. A partir de una correlación correspondientemente buena se pueden determinar ahora las desviaciones del mismo objeto en los diferentes conjuntos de imágenes de las diferentes cámaras con una precisión de píxeles. En caso de que haya pues informaciones adicionales como, por ejemplo, posiciones de cámara, puntos de referencia comunes, etc., entonces se pueden determinar tamaños exactos por medio de cálculos geométricos sencillos. En el caso de una transmisión de vídeo, teniendo en cuenta los componentes temporales también se puede llevar a cabo una determinación de la velocidad de los objetos de la imagen. Por medio del uso de la transmisión priorizada de píxeles, el número de las correlaciones necesarias es fundamentalmente menor que en el caso de que se hubieran de correlacionar todos los puntos de imagen de una imagen con todos los puntos de imagen de la otra imagen, tal y como es completamente usual en los procedimientos convencionales. El procedimiento aquí descrito reduce la potencia de cálculo para la correlación de los datos de imágenes de un modo considerable, de manera que el procedimiento presentado también se
puede emplear bien en aparatos móviles, es decir, aparatos con una potencia de cálculo relativamente reducida.

Claims

1. Procedimiento adecuado para la transmisión comprimida de datos de imagen para una representación tridimensional de escenas y objetos,

(a) en el que cada escena o cada objeto se graba desde al menos dos perspectivas;

(b) que usa una transmisión de datos de vídeo según el procedimiento de la transmisión priorizada de píxeles,

(b1): en el que los datos de vídeo de cada imagen se fijan por medio de grupos de píxeles individuales,

(b2): en el que cada grupo de píxeles presenta un valor de posición dentro de las posiciones de un conjunto de imágenes y al menos un valor de píxel asignado,

(b3): en el que el tamaño del conjunto de imágenes está definido por medio de la altura h y de la anchura b de una imagen de vídeo, dada en puntos de imagen o píxeles,

(b4): en el que para cada grupo de píxeles de las imágenes sucesivas se determina un valor de prioridad, determinando para ello las diferencias de un píxel de referencia que determina el valor de posición del grupo de píxeles respecto al resto de píxeles del grupo de píxeles,

(b5): y después de cada determinación de un nuevo valor de prioridad se ordenan los valores de prioridad de los grupos de píxeles en una lista de prioridades según el tamaño por orden descendente y se transmiten de modo preferente para grupos de píxeles con la mayor prioridad actual sus valores de posición y valores de píxel;

caracterizado por medio de

(c) el uso de un procedimiento para la transmisión de datos adicionales dentro del procedimiento mencionado de transmisión de datos de vídeo,

(c1): en el que los datos adicionales, del mismo modo que los datos de vídeo, presentan valores de posición y valores de píxel asignados y los valores de posición y los valores de píxel de los datos adicionales se transmiten conjuntamente con los datos de vídeo,

(c2): en el que los valores de posición de los datos adicionales están asignados a una región de offset del conjunto de imágenes,

(c3): y en el que la región de offset contiene exclusivamente valores de posición que no son parte del conjunto de imágenes mencionado,

(d) en el que los datos conforman una primera perspectiva de datos de vídeo reales y los datos de al menos otra perspectiva conforman los datos adicionales mencionados,

(d1): en el que los valores de posición de los datos adicionales están dispuestos en la región de offset mencionada,

(d2): y en el que para las posiciones dentro del conjunto de imágenes se transmite un mayor número de grupos de píxeles que para posiciones en la región de offset;

(e) y en el que los valores de píxel de grupos de píxeles no transmitidos de la región de offset, se calculan a partir de grupos de píxeles ya transmitidos del conjunto de imágenes en la parte de recepción.

2. Procedimiento según la reivindicación 1, caracterizado porque para la perspectiva transmitida en el conjunto de imágenes se transmiten tanto grupos de píxeles con mayor prioridad como grupos de píxeles con menor prioridad, y para la perspectiva transmitida en la región de offset se transmiten únicamente grupos de píxeles con mayor prioridad.

3. Procedimiento según la reivindicación 1 ó 2, caracterizado porque para la determinación de propiedades de los objetos representados por medio de los datos de imagen se lleva a cabo una correlación de determinados datos de imagen de las perspectivas individuales.

4. Procedimiento según la reivindicación 3, caracterizado porque a partir de los datos de imagen correlatos se determina la posición, tamaño, velocidad o conformación de objetos.

5. Procedimiento según la reivindicación 3, caracterizado porque a partir de los datos de imagen correlatos se generan datos de imagen para otras perspectivas (posiciones de cámara).