ES2927481T3

ES2927481T3 - Manejo de subtítulos en dispositivo de visualización en 3D

Info

Publication number: ES2927481T3
Application number: ES18196588T
Authority: ES
Inventors: Philip Newton; Dennis Bolio; Francesco Scalori; Gerardus Vanderheijden; Doveren Henricus Van; Haan Wiebe De; Hendrik Moll
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-07-25
Filing date: 2009-07-17
Publication date: 2022-11-07
Anticipated expiration: 2029-07-17
Also published as: EP2362671A1; RU2517402C2; CN102137270A; AU2009275163A1; KR20110053431A; US20110292189A1; US8508582B2; BRPI0911014B1; CN102106153A; MY158412A; EP2308240A1; RU2011106942A; US20110128351A1; JP5792064B2; PL3454549T3; BRPI0911014A2; EP3454549B1; US9979902B2; WO2010010499A1; AU2009275163B2

Abstract

Un método para crear una señal de imagen tridimensional comprende recibir un primer componente de imagen, recibir un segundo componente para crear una imagen tridimensional en combinación con el primer componente de imagen, recibir un componente de texto para incluirlo en la imagen tridimensional, recibir un componente de datos que comprende información de ubicación que describe la ubicación del componente de texto dentro de la imagen tridimensional y crea una señal de imagen tridimensional que comprende el primer componente de imagen, el segundo componente, el componente de texto y el componente de datos. La señal se representa mediante la representación de una imagen tridimensional a partir del primer componente de imagen y el segundo componente, la representación incluye la representación del componente de texto en la imagen tridimensional, la representación del componente de texto incluye el ajuste de los parámetros tridimensionales de los tres -imagen dimensional en la ubicación del componente de texto renderizado. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Manejo de subtítulos en dispositivo de visualización en 3D

Campo de la invención

La presente invención se refiere a la creación y renderización de una señal de imagen tridimensional (3D). En una realización, la invención proporciona un posicionamiento óptimo automático de los subtítulos en una un dispositivo de visualización en 3D que atenúa la fatiga del espectador.

Antecedentes de la invención

Actualmente hay un renacimiento en el interés por la televisión 3D, esto está relacionado con los avances recientes en la tecnología de visualización que permiten una buena reproducción de video en 3D para múltiples espectadores. Una de ellas es el dispositivo de visualización lenticular 3D autoestereoscópica, pero también existen otros tipos de dispositivos de visualización, como los dispositivos de visualización basados en barrera autoestereoscópica y los dispositivos de visualización estéreo multiplexados en el tiempo en base a tecnología de retroproyección. Por lo general, estos tipos de pantalla utilizan uno de los dos formatos de video básicos como entrada para crear una impresión 3D para el espectador. Los dispositivos de visualización basados en estéreo usan entrelazado secuencial en el tiempo y anteojos para visualizar dos vistas separadas, una para cada ojo y, por lo tanto, esperan video estéreo como entrada. Ejemplos de estos son los dispositivos de visualización estéreo basados en retroproyección multiplexados en el tiempo y este tipo de sistema también se utiliza en el cine 3D. La principal alternativa a esto son los dispositivos de visualización autoestereoscópica multivista, que no requieren anteojos y a menudo usan un formato de entrada conocido como imagen profundidad como entrada para generar una impresión 3D. Puede encontrar más información sobre la tecnología de visualización 3D en el capítulo 13 de "3D video communication -Algorithms, concepts and real time systems in human centered communication" por Oliver Shreer y otros. (Wiley 2005).

El formato de video estéreo es sencillo ya que proporciona dos imágenes, una para cada ojo. Por lo general, estas dos imágenes se intercalan, ya sea espacialmente o de manera secuencial en el tiempo, y luego se alimentan al dispositivo de visualización. El formato alternativo llamado imagen profundidad es diferente, ya que es una combinación de una imagen 2D con un formato llamado "profundidad" o mapa de disparidad. Esta es típicamente una imagen en escala de grises, por lo que el valor de la escala de grises de un píxel indica la cantidad de disparidad (o profundidad en el caso de un mapa de profundidad) para el píxel correspondiente en la imagen 2D asociada. El dispositivo de visualización cuando renderiza la imagen en 3D utiliza el mapa de disparidad o profundidad para calcular las vistas adicionales tomando la imagen 2D como entrada. Esto se puede hacer de varias maneras, en la forma más simple se trata de desplazar píxeles hacia la izquierda o hacia la derecha dependiendo del valor de disparidad asociado a esos píxeles. El documento titulado "Depth image based rendering, compression and transmission for a new approach on 3d TV" de Christoph Fen ofrece una visión general de la tecnología.

Un problema con los dispositivos de visualización en 3D estéreo autoestereoscópicas y (basados en secuencias de tiempo) es lo que se conoce como desajuste de acomodación-convergencia. Este es un problema en el que los ojos del espectador convergen en la ubicación virtual de los objetos que se muestran, mientras que al mismo tiempo los ojos se acomodan (para ver la imagen nítida) en la superficie de la propia pantalla. Este desajuste puede causar dolores de cabeza y otros síntomas asociados con el mareo por movimiento. Además, cualquier diferencia geométrica (especialmente cualquier paralaje vertical), así como eléctrica (brillo, contraste, etc.) entre las vistas para los ojos izquierdo y derecho puede causar fatiga visual. Sin embargo, si la cantidad de disparidad se mantiene pequeña, es decir, menos de un grado, estos problemas son menos graves y los usuarios pueden ver el contenido sin problemas significativos. Ver "Two factors in visual fatigue caused by stereoscopic HDTV images", Sumio Yano y otros. Dispositivos de visualización 2004 páginas 141 a 150 Elsevier, para más detalles.

Similar a los problemas anteriores es que puede ocurrir un problema cuando el dispositivo de reproducción muestra texto como subtítulos o subtítulos ocultos. Si el texto no se coloca correctamente en la pantalla, lo que depende del tipo y la configuración del dispositivo de visualización, el texto puede aparecer borroso, por ejemplo, debido a la diafonía entre las vistas del ojo izquierdo y derecho, y el espectador puede sentirse cansado. También se da el caso de que la borrosidad puede afectar a la legibilidad del texto. De acuerdo con E. Legge (ver "Psychophysics of Reading: I. Normal Vision", Gordon E. Legge y otros Vision Research, Vol 25, No.2, páginas 239 a 252, 1985) la lectura se ve afectada si el ancho de banda del texto es inferior a dos ciclos por carácter. La borrosidad es un problema con los dispositivos de visualización autoestereoscópica, ya que normalmente se sacrifica la resolución para generar múltiples vistas, y para los dispositivos de visualización estéreo en general hay un problema con una separación subóptima entre las dos vistas, lo que puede aumentar la borrosidad de la imagen. Además, de acuerdo con Yano (mencionado anteriormente), el movimiento de profundidad aumenta la fatiga visual.

Otro problema que se prevé es que los espectadores pueden ajustar la cantidad de disparidad y la posición relativa del plano de profundidad en un televisor 3D (a través, por ejemplo, de algunos botones en su control remoto). Estos ajustes significan que el texto puede volverse borroso, ya que se aleja de una posición neutra de profundidad, o aumenta en "profundidad" de tal manera que causa fatiga visual.

La publicación de solicitud de patente de los Estados Unidos de América US 2005/0140676 divulga un procedimiento para visualizar datos de texto de varios niveles en un mapa tridimensional. En el sistema descrito en esta Publicación, se muestra un mapa tridimensional en una pantalla, y se muestran datos de texto con diferentes niveles de densidad de acuerdo con las distancias desde un punto de vista del mapa tridimensional mostrado hasta los nodos donde se visualizarán los datos de texto, mejorando así la legibilidad de los datos de texto. Además, es posible visualizar los datos de texto ajustando localmente la densidad de los datos de texto en la pantalla. El mapa tridimensional se visualiza en la pantalla de un panel de visualización convirtiendo los datos del mapa con coordenadas bidimensionales en aquellos con coordenadas tridimensionales por medio de un procedimiento de proyección en perspectiva. Los datos de texto que se visualizarán junto con el mapa tridimensional se convierten en los de un sistema de coordenadas tridimensional con un origen definido por el punto de vista del mapa tridimensional. Los datos de texto convertidos se proyectan en un plano bidimensional para convertirlos en aquellos con coordenadas de pantalla. Luego, se clasifican las distancias desde el punto de vista del mapa tridimensional desplegado hasta los nodos donde se desplegarán los datos de texto. Las distancias clasificadas se determinan para los datos de texto convertidos con las coordenadas de la pantalla. Los datos de texto de los niveles correspondientes a las distancias determinadas se muestran en el dispositivo de visualización del panel de visualización en el que se muestra el mapa tridimensional.

Si bien en el contexto de la representación de un mapa tridimensional en un dispositivo de visualización bidimensional, el manejo de los datos de texto de acuerdo con esta publicación se ubica y se escala de manera significativa para el usuario, no aborda ninguno de los problemas identificados anteriormente, relacionados con la visualización de texto en un dispositivo de visualización tridimensional.

El documento JP 2004-274125 describe la generación de señales 3D. Un multiplexor multiplexa dos componentes de imagen y datos de caracteres, que se superpondrán en el extremo receptor.

El documento EP 0905988 describe un aparato de imágenes en 3D, que recibe dos señales de imágenes en 3D, por ejemplo, vídeo y datos de caracteres, cuya segunda señal debe superponerse. Se adquiere un valor de profundidad máxima a partir de la primera señal. El paralaje de la segunda señal se controla para que sea anterior a la primera señal.

El documento WO2008/038205 describe la visualización de señales 3D combinada con la información del menú. El intervalo de profundidad de visualización 3D se subdivide en subintervalos para visualizar señales 3D diferentes respectivas.

El documento WO2006/111893 describe la visualización de video en 3D combinado con información de texto. Además del en 3D combinado, se puede proporcionar un mapa de indicadores superpuestos. El mapa indica si un píxel son datos superpuestos. Los píxeles superpuestos se pueden colocar a una profundidad seleccionada en el dispositivo de visualización en 3D.

Sumario de la invención

Por lo tanto, el objeto de la invención es mejorar la técnica conocida. De acuerdo con un primer aspecto de la presente invención, se proporciona un procedimiento de renderización de una señal de imagen tridimensional, como se define en la reivindicación 1.

De acuerdo con un segundo aspecto de la presente invención, se proporciona un dispositivo para renderizar una señal de imagen tridimensional como se define en la reivindicación 8.

De acuerdo con un tercer aspecto de la presente invención se proporciona un producto de programa informático de acuerdo con la reivindicación 9.

Gracias a la invención, es posible mejorar la legibilidad del texto, como los subtítulos en un dispositivo de visualización en 3D. La legibilidad mejorada en base al hecho de que se envían parámetros adicionales al dispositivo de visualización en 3D de manera que el dispositivo de visualización puede tratar la parte de la imagen que contiene los subtítulos de manera diferente al resto de la imagen. El dispositivo de visualización puede garantizar que los subtítulos se posicionen automáticamente de la mejor manera con respecto a la profundidad, nitidez y legibilidad general del texto. La aplicación de la invención es aplicable a sistemas tales como un reproductor de discos Blu-Ray y un reproductor de DVD o HD-DVD que está conectado a un dispositivo de visualización en 3D y que muestra contenido 3D y subtítulos asociados. Estará claro para el experto en la materia que la señal de imagen puede obtenerse además parcial o completamente a través de una red digital, tal como Internet o una intranet.

El texto, especialmente los subtítulos, debe visualizarse dentro de un intervalo limitado de profundidad desde la pantalla y no debe cambiar en profundidad durante toda la presentación. Si la profundidad del texto debe permanecer constante, esto también plantea un problema para el posicionamiento, ya que la profundidad del video puede variar y, por lo tanto, podría ocluir partes del texto durante ciertas escenas. Para resumir, se deben tener en cuenta los siguientes factores al visualizar subtítulos o subtítulos ocultos en un dispositivo de visualización estereoscópica 3D, la cantidad de disparidad debe ser inferior a un grado, el ancho de banda del texto debe permanecer por encima de dos ciclos por carácter, el texto debe permanecer a una profundidad constante en relación con la pantalla, y el texto no debe quedar oscurecido por los objetos de video.

Estas condiciones pueden cumplirse mediante el sistema mejorado de acuerdo con la invención. Se puede controlar la cantidad de disparidad ajustando la parte de un mapa de "profundidad" que se relaciona con la ubicación de los subtítulos o subtítulos ocultos. Algunos dispositivos de visualización requieren una entrada estéreo, en esos casos será más difícil controlar la cantidad de disparidad en el reproductor, pero aún es posible.

Para cumplir con las restricciones de ancho de banda, el jugador debe asegurarse de que la resolución del texto sea lo suficientemente alta, que las imágenes fantasma se mantengan al mínimo y que la velocidad del texto en movimiento no sea demasiado alta. Para cumplir con estos factores, el dispositivo de reproducción debe enviar los subtítulos o subtítulos ocultos en una resolución que sea suficiente para la visualización, y debe ajustar la profundidad de modo que se minimice el efecto fantasma. Esto normalmente significa que la profundidad del texto debe mantenerse neutral (lo más cerca posible de la pantalla). Sin embargo, esto puede causar un problema ya que partes del video pueden ocluir partes del texto a medida que la profundidad del video cambia dinámicamente. Esto se soluciona ajustando dinámicamente la profundidad del texto para garantizar que permanezca al frente. Sin embargo, esto significa que el texto variaría en profundidad, lo que de acuerdo con Yano puede causar fatiga visual. Al transmitir la información sobre la ubicación del texto y ajustar los parámetros 3D de la imagen en 3D en la ubicación del texto, se superan estos problemas.

Aunque preferentemente la profundidad del texto debe fijarse durante períodos de tiempo más largos, se pueden permitir variaciones, por ejemplo, para lograr efectos 3D particulares.

Ventajosamente, la etapa de crear una señal de imagen tridimensional comprende incluir el componente de texto en el primer componente de imagen. El componente de texto (por ejemplo, un subtítulo) se puede incluir directamente en el primer componente de imagen y no es necesario transferirlo como un componente separado. El aparato receptor que va a reproducir la imagen en 3D aún puede controlar los parámetros de visualización 3D en la región del subtítulo, incluso si ese subtítulo está incrustado en el primer componente de imagen de la señal.

Preferentemente, la etapa de crear una señal de imagen tridimensional comprende crear un único cuadro de imagen que comprende el primer componente de imagen, el segundo componente, el componente de texto y el componente de datos. Todos los componentes de la señal se pueden combinar en un solo cuadro de imagen, con los diferentes componentes de la señal ocupando diferentes partes del cuadro de imagen. Este es un procedimiento conveniente para combinar los elementos que componen la señal y se puede utilizar para aprovechar los estándares existentes, como HDTV, que admiten una resolución de cuadro relativamente alta. Un componente como el componente de datos, que define la ubicación del componente de texto dentro de la última señal, se puede incluir en un encabezado del cuadro de imagen, en lugar de dentro de los datos de imagen reales del cuadro.

Idealmente, la etapa de crear una señal de imagen tridimensional comprende incluir información de fondo para cada uno del primer componente de imagen y el segundo componente. La calidad del resultado final se puede mejorar si la salida del dispositivo de renderizado también contiene información de fondo. Esto permite ajustar el posicionamiento de los subtítulos, en base a los datos de la información de fondo, para colocar los subtítulos en la parte del área de visualización 3D que tiene una cantidad de interés relativamente baja.

Preferentemente, la etapa de ajustar los parámetros tridimensionales de la imagen tridimensional en la ubicación del componente de texto presentado comprende reducir la profundidad percibida de la imagen tridimensional en la ubicación del texto presentado. El dispositivo de renderizado puede ajustar la profundidad percibida de la imagen en 3D en la ubicación de los subtítulos anulando la profundidad solicitada, por ejemplo, como se indica en un mapa de profundidad. En la región específica del dispositivo de visualización en 3D que contendrá realmente los subtítulos, entonces se puede reducir la profundidad percibida del contenido visualizado, para atenuar cualquier tensión en los ojos del espectador.

Ventajosamente, la etapa de ajustar los parámetros tridimensionales de la imagen tridimensional en la ubicación del componente de texto renderizado comprende reducir el número de vistas de la imagen tridimensional en la ubicación del texto renderizado. Al reducir el número de vistas que muestra el dispositivo de visualización en 3D, se pueden reducir las imágenes superpuestas o borrosas del texto. Además, en un dispositivo de visualización lenticular con una configuración de lente conmutable localmente, las lentes se pueden apagar en la parte del dispositivo de visualización donde se encuentran los subtítulos. Esto puede dar como resultado que se visualice una imagen más clara en la parte de la imagen en 3D que contiene los subtítulos, con la correspondiente disminución de la tensión ejercida sobre los ojos del espectador.

Idealmente, la etapa de ajustar los parámetros tridimensionales de la imagen tridimensional en la ubicación del componente de texto renderizado comprende mantener la disparidad de la imagen tridimensional por debajo de un umbral predeterminado en la ubicación del texto renderizado. Se puede establecer un umbral específico, como un grado, como límite en la cantidad de disparidad permitida en la región de la imagen en 3D que contiene los subtítulos. Esto ayudará al espectador a percibir los subtítulos sin forzar demasiado la vista, ya que la reducción de la disparidad hará que la visualización sea más cómoda para el espectador del dispositivo de visualización en 3D. Breve descripción de las figuras

Las realizaciones de la presente invención se describirán ahora, a manera de ejemplo solamente, con referencia a los dibujos acompañantes, en los cuales los números son usados para indicar elementos o funciones:

La Figura 1 es un diagrama esquemático que ilustra la creación de la imagen en 3D,

La Figura 2 es un diagrama esquemático de un sistema de reproducción 3D,

La Figura 3 es un diagrama esquemático que muestra el contenido y el flujo de datos en el sistema de reproducción 3D.

La Figura 4 es un diagrama esquemático de un dispositivo de reproducción del sistema de reproducción 3D. La Figura 5 es un diagrama esquemático que muestra el uso de planos para crear una salida,

La Figura 6 es un diagrama esquemático de la señal de imagen en 3D,

La Figura 7 es un diagrama esquemático de una señal de imagen en 3D mejorada.

La Figura 8 es un diagrama esquemático de otra señal de imagen en 3D mejorada.

La Figura 9 es un diagrama esquemático, similar a la Figura 4, de una segunda realización de un dispositivo de reproducción, y

La Figura 10 es un diagrama esquemático de texto colocado en una imagen en 3D.

Descripción detallada

La creación de una imagen tridimensional se ilustra esquemáticamente en la Figura 1. Esencialmente, ya sea que el dispositivo de visualización de renderizado final sea autoestereoscópico o se ejecute en pares estéreo (lo que requiere que el usuario use anteojos especiales), el procedimiento es el mismo. Se proporcionan un primer componente de imagen 10 y un segundo componente 12 para crear una imagen tridimensional 14. El segundo componente 12 en combinación con el primer componente de imagen 10 se procesan juntos para generar la salida final 14. En todos los sistemas, el primer componente de imagen 10 es un cuadro de imagen bidimensional convencional de cualquier estándar adecuado. En el sistema de pares estéreo, el segundo componente 12 es también una imagen, y en los sistemas autoseteroscópicos, el segundo componente 12 es un mapa de profundidad o un mapa de disparidad.

Es importante entender que la salida final 14 no es necesariamente un solo cuadro. Por ejemplo, en el sistema de pares estéreo (donde la imagen 10 es para el ojo izquierdo y la imagen 12 es para el ojo derecho), estos dos componentes 10 y 12 pueden visualizarse secuencialmente. En los sistemas autoseteroscópicos no secuenciales en el tiempo, la imagen 10 y el mapa de profundidad 12 se utilizan para crear múltiples vistas similares a partir de la imagen 10, utilizándose el mapa de profundidad para generar los cambios en la imagen 10 necesarios para realizar las vistas individuales. Estas vistas luego se fusionan en un solo cuadro 14. Por ejemplo, el último dispositivo de visualización de renderizado puede controlarse para visualizar cuatro vistas individuales, todas generadas a partir de la misma imagen 10. Estas vistas luego se unen en tiras, cada una con una resolución que es una cuarta parte de la resolución del dispositivo de visualización.

El primer componente de imagen 10 puede comprender, por ejemplo, una matriz bidimensional de elementos de píxeles/una imagen que comprende, por ejemplo, información RGB o YUV, que representa una vista de una escena, como sería el caso del contenido de vista estéreo, contenido multivista o contenido de imagen profundidad. Como se mencionó anteriormente, el segundo componente 12 puede ser una matriz bidimensional de elementos de píxeles/una imagen. En el caso de contenido de vista estéreo o contenido de vista múltiple, esta puede ser una vista adicional de la misma escena, mientras que en el caso de contenido de imagen profundidad, esto podría ser el llamado mapa de disparidad/profundidad que comprende información de disparidad o profundidad. La salida de imagen 14 puede comprender una señal de imagen de video, por ejemplo, utilizando múltiples cuadros que representan una o más escenas a lo largo del tiempo.

La Figura 2 ilustra un sistema de reproducción en 3D, donde se proporciona un disco 16 que lleva los componentes primero y segundo 10 y 12 para una película en 3D, por ejemplo. El disco 16 podría ser un DVD estándar Blu-Ray, por ejemplo. El disco 16 es reproducido por un dispositivo de reproducción 18, como un reproductor de DVD Blu-Ray. Se usa una interfaz de video 20 para comunicar los componentes 10 y 12 a una televisión 3D 22. El televisor 22 incluye una etapa de renderización 24, que está procesando los componentes 10 y 12 en tiempo real para generar la salida 3D 14 (según la Figura 1 discutida anteriormente). El usuario 26 está mirando el dispositivo de visualización de renderizado 22 y puede proporcionar configuraciones de usuario 28 al dispositivo 22, a través de una interfaz de usuario adecuada y un dispositivo de control remoto (no mostrado).

En tales sistemas, el uso de subtítulos (o incluso cualquier texto como menús) es compatible con el dispositivo de reproducción 18. Por ejemplo, es convencional que el disco 16 incluya subtítulos tales como subtítulos en un idioma extranjero dentro de las secciones de datos de la información almacenada en el disco 16. Estos pueden ser seleccionados por el usuario a través de un menú en pantalla, antes de que comience la reproducción del contenido real de la película en el disco 16. Estos subtítulos son luego visualizados por el dispositivo de visualización 22, superponiéndose al contenido 3D que se ha renderizado. Como se discutió anteriormente, en la revisión de la técnica anterior, en muchas situaciones, la visualización de subtítulos en un sistema de visualización en 3D puede causar tensión y cansancio en la vista del espectador. El sistema de la presente invención proporciona un procedimiento para mostrar los subtítulos (o incluso cualquier texto) de tal manera que se mejoren los problemas de la técnica anterior.

La solución provista es permitir que el dispositivo de visualización 22 identifique el texto (por ejemplo, subtítulos) en el flujo de video entrante y así tratar el texto de manera diferente al resto de la señal de video. El dispositivo de visualización 22 podría, por ejemplo, garantizar que el texto permanezca frente al video, o comprimir y empujar hacia atrás la profundidad de la señal de video para garantizar que el texto no sobresalga (como se describe en la publicación de solicitud de patente internacional WO 2008/038205). Además, el dispositivo de visualización 22 puede proporcionar una sección de la pantalla que está específicamente diseñada para mostrar texto, ya sea por ser conmutable, tener una configuración de lente diferente (en el caso de un dispositivo de visualización lenticular), por admitir menos vistas, por ejemplo. Dado que la legibilidad del texto en un dispositivo de visualización autoestereoscópica en 3D es un problema que es casi inherente a la tecnología de visualización autoestereoscópica, existe la expectativa de mejoras adicionales, actualmente imprevistas, en el dispositivo de visualización que podrían beneficiarse de poder identificar los subtítulos en la señal de video entrante.

Una forma de enviar el texto de los subtítulos por separado al dispositivo de visualización es transmitir el texto como información de subtítulos ocultos que se incluye en la línea 21 del video analógico para NTSC, utilizado en Europa (PAL) para Ceefax o Teletexto. Sin embargo, la información de subtítulos actualmente no es compatible cuando se transmite video de alta definición a través de HDMI. Actualmente, para resolver esto, los dispositivos de reproducción, como los reproductores de discos DVD o Blu-Ray, decodifican la información de los subtítulos ocultos que se encuentran en el flujo MPEG y la superponen sobre el video antes de transmitirla al dispositivo de visualización. Por lo tanto, para utilizar esta solución sería necesario ampliar la memoria descriptiva HDMI para incluir la transmisión de información de subtítulos. Quedará claro para el experto en la técnica que lo anterior también puede aplicarse a otras interfaces de visualización digital.

Otra solución es proporcionar un enlace de comunicación bidireccional entre el dispositivo de reproducción 18 y el dispositivo de visualización 22, de modo que cuando el usuario ajusta los ajustes de profundidad en el dispositivo de visualización 22, el dispositivo de reproducción 18 es informado de este cambio. Como resultado, el dispositivo de reproducción 18 puede ajustar el posicionamiento de los subtítulos. La realización preferente es permitir que el dispositivo de reproducción 18 maneje el posicionamiento y la superposición de los subtítulos en el video y para indicar al dispositivo de visualización 22 que hay subtítulos presentes y dónde se encuentran los subtítulos. El dispositivo de visualización 22 puede entonces asegurarse de que el valor de "profundidad" asociado con los subtítulos se asigna a una profundidad que es la más óptima para ese dispositivo de visualización en particular 22 y la configuración de usuario asociada 28. Esto tiene la ventaja añadida de que el dispositivo de visualización 22 no requiere un descodificador de subtítulos o subtítulos en la etapa de reproducción.

En una realización, la mejora del sistema se logra mediante el cual el dispositivo reproductor 18, como se muestra en la Figura 2, ajusta la posición de los subtítulos, de modo que el texto esté delante del video, mientras mantiene la cantidad de disparidad por debajo de un grado. Preferentemente, el dispositivo reproductor 18 inserta en el flujo de salida información de metadatos que identifica al dispositivo de visualización 22 si y dónde se encuentran los subtítulos con respecto a la posición x, y y z ("profundidad") en el volumen de proyección del dispositivo de visualización. En este caso, la etapa de reproducción 24 en el dispositivo de visualización 22 ajusta el posicionamiento de los subtítulos en el volumen de proyección del dispositivo de visualización, en función de la información de metadatos antes mencionada y de la configuración preferida del usuario 28 (con respecto a la cantidad de disparidad y la posición relativa), mientras se mantiene el posicionamiento de modo que las imágenes fantasma se mantengan al mínimo y la cantidad de disparidad se mantenga por debajo de un grado. Además, el dispositivo de visualización 22, si está equipada, coloca los subtítulos en una parte especial de la superficie del dispositivo de visualización que se puede cambiar entre 2D y 3D, o que admite menos imágenes fantasma y una resolución óptica más alta (por ejemplo, admite menos vistas, o una cantidad limitada de disparidad).

En una realización, el componente de texto 30 es sustancialmente plano, y/o cuando un intervalo de profundidad está asociado con el texto 30, ese intervalo de profundidad está limitado por un umbral, de modo que la disparidad entre las vistas respectivas se limita a un intervalo específico, que puede ser un intervalo predeterminado, como por ejemplo uno o dos píxeles. En una realización preferente en la que el componente de texto 30 es sustancialmente plano, el componente de texto es un componente de texto basado en texto en lugar de un componente de texto basado en mapa de bits; permitiendo así una representación particularmente compacta del componente de texto 30.

El flujo de contenido y datos en el sistema de la Figura 2 se ilustra en la Figura 3. El disco 16 contiene el primer componente de imagen 10 y el segundo componente 12, más el componente de texto 30, que son subtítulos. El dispositivo de reproducción 18 recibe una instrucción de usuario 32, que indica que el usuario desea que se muestren los subtítulos 30 junto con la película en 3D que está a punto de ver. El dispositivo de reproducción 18 proporciona los componentes 10 y 12, con los subtítulos 30 y un componente de datos 34 que comprende información de ubicación que describe la ubicación del componente de texto 30 dentro de la última imagen en 3D 14, al renderizador 24. El dispositivo de reproducción incluye un receptor para recibir los diversos componentes de sus respectivas fuentes y un multiplexor para combinar estos cuatro elementos 10, 12, 30 y 34 en una señal de imagen tridimensional 36, que es recibida por el renderizador 24.

La información de subtítulos 34 se puede enviar al renderizador 24 por separado de los datos de imagen 10 y 12, es decir, quizás no en un área de imagen activa sino en un encabezado, o en islas de datos, o en una parte del cuadro que no contiene datos de imagen. Por ejemplo, puede ser que se envíe un flujo de video al doble de la velocidad de cuadro normal, donde un cuadro contiene los datos de imagen 10 y 12 y el otro cuadro contiene información de profundidad (opcionalmente también incluye desoclusión) y también contiene un área especial para los subtítulos 30 y la información de posición 34.

Luego, el renderizador 24 está dispuesto para renderizar la imagen tridimensional 14 a partir del primer componente de imagen 10 y el segundo componente 12, la renderización (incluida la renderización del componente de texto 30 en la imagen tridimensional 14), la renderización del componente de texto 30, incluido el ajuste de uno o más parámetros tridimensionales de la imagen tridimensional 14 en la ubicación del componente de texto renderizado 30. El propio componente de texto 30 puede quedar totalmente inalterado por los ajustes realizados por el renderizador 24. El factor importante es que el renderizador ajustará los parámetros de las partes de la imagen 14 que se muestran en la ubicación del texto 30. Esto comprende reducir la profundidad percibida de la imagen en 3D en esta área de la imagen 14, o puede comprender reducir el número de vistas (en un dispositivo de visualización autoestereoscópica) o una combinación de dos o más ajustes. También es posible que el renderizador 24 incluya no solo cambiar la profundidad del área donde se visualizarán los subtítulos 30, sino también incluir un desplazamiento, para mover todo el intervalo de profundidad hacia adelante o hacia atrás. Este desplazamiento se puede controlar por separado para los subtítulos 30 del resto de los datos de imagen 14.

En la realización que usa un dispositivo de visualización autoestereoscópica, el segundo componente 12 comprende un mapa de profundidad, y el procedimiento de renderizar la imagen en 3D 14 puede comprender además escalar el segundo componente 12 antes de renderizar la imagen tridimensional 14, para permitir la colocación del componente de texto 30 en la ubicación especificada por el componente de datos 34. En este caso, el renderizador puede recibir además un componente de recomendación que comprende una escala recomendada del segundo componente 12, de manera que la información de ubicación puede permanecer igual para múltiples imágenes consecutivas. Como resultado del uso de este componente de recomendación, es posible maximizar la profundidad de la escena cuando los subtítulos/gráficos están desactivados y cuando los subtítulos/gráficos están activados, para utilizar un componente de escala predeterminado sintonizado con la señal de la imagen, para renderizar el contenido, incluidos los subtítulos/gráficos.

En la Figura 4 se muestra un ejemplo de un dispositivo de reproducción 18, que es un decodificador de disco Blu-Ray 18 que muestra la decodificación y el uso de planos de presentación. Una unidad de ROM 38 recibe el disco 16 y lee el contenido que el componente 40 demodula y decodifica. Un conjunto de memorias intermedias paralelas 42 almacena diferentes componentes de la señal decodificada, y estos pasan a través de un conjunto de decodificadores paralelos 44 para proporcionar la salida que visualizará el dispositivo de visualización 22, siendo el video estándar 46 y el contenido superpuesto 48 (siendo subtítulos y menús, etc.).

En el sistema Blu-Ray, los subtítulos del disco pueden estar basados en mapas de bits o en base a texto y fuentes relacionadas y, además, el reproductor 18 proporciona soporte para información de subtítulos ocultos. Técnicamente, ambos sistemas son algo similares, aunque los subtítulos a menudo brindan más información y se brindan específicamente para personas con discapacidad auditiva. Tanto los subtítulos basados en texto como los subtítulos basados en mapas de bits y cerrados se decodifican y presentan en uno de los planos de presentación en el disco Blu-Ray. La Figura 4 muestra el decodificador 18 y los planos, mostrando un ejemplo de texto combinado con video. El texto siempre se presenta en el plano de gráficos de presentación (PG); este plano se superpone en el dispositivo de reproducción 18 sobre el vídeo (planos) y se presenta como una presentación combinada en la salida. La Figura 5 muestra un ejemplo de una presentación combinada 50. Esta salida 50 se construye a partir de un plano de película principal 52, un plano de presentación 54 y un plano interactivo 56. La salida 50, como se muestra en la Figura 5, se envía al dispositivo de visualización 22 a través de la interfaz de video 20 (como se muestra en la Figura 2). En la realización preferente, el dispositivo de reproducción 18 es capaz de enviar información adicional al dispositivo de visualización 22 que contiene los datos 3D 34, además de la salida 50. Esto permite que el dispositivo de visualización en 3D 22 muestre una representación 3D de la salida combinada de video, texto y gráficos del dispositivo de reproducción 18.

La Figura 6 muestra un ejemplo de tal salida combinada para enviar al dispositivo de visualización en 3D 22. El sistema 3D que se utiliza es un ejemplo de salida de imagen y profundidad. El primer componente de imagen 10 y el segundo componente 12 (que es un mapa de profundidad) se combinarán para generar la imagen en 3D mediante el dispositivo de visualización 22. El componente de texto 30 está incluido dentro del primer componente 10 y, de hecho, todo el contenido (los tres componentes 10, 12 y 30) se puede construir como un único cuadro de alta definición.

La Figura 7 muestra la adición de un encabezado que indica la ubicación de los subtítulos 30. El encabezado comprende un componente de datos 34 que comprende información de ubicación 58 que describe la ubicación del componente de texto dentro de la imagen tridimensional, que aquí se muestra como coordenadas x e y, aunque el componente z también estará presente en virtud del contenido del mapa de profundidad 12. El encabezado permite que el último dispositivo de renderizado realice ajustes en la salida 3D para tener en cuenta la presencia de los subtítulos 30.

Los parámetros adicionales que se transmiten pueden estar contenidos en el encabezado sobre los datos de la imagen, como se describe en "3D interface Specifications- white paper", Soluciones 3D de Philips, http://www.business-sites.philips.com/assets/Downloadablefile/Philips-3D-Interface-White-Paper-13725.pdf, en consonancia con la publicación de solicitud de patente internacional WO 2006/137000A1, o por ejemplo en la isla de datos del estándar HDMI. Estos parámetros consisten en una indicación de si los subtítulos están presentes y su ubicación en el video de entrada, como se muestra en la Figura 7. El dispositivo de visualización 22 puede entonces garantizar que la disparidad de la parte de la imagen situada en esta posición no exceda más allá de un grado y permanezca constante, incluso si el usuario, a través de un comando de entrada, aumenta la cantidad de disparidad mostrada por el dispositivo de visualización 22.

La calidad del resultado final puede mejorarse si la salida del reproductor 18 también contiene información de oclusión o de fondo. Esto se muestra en la Figura 8. Para evitar artefactos, los subtítulos 30 deberían estar situados fuera de la parte más activa de la imagen, por ejemplo, en la parte superior o inferior. La Figura 8 muestra un formato de salida de imagen, profundidad y fondo. Se proporcionan componentes de fondo 60 y 62 para el primer componente de imagen 10 y el segundo componente 12, respectivamente.

La ubicación de los subtítulos 30 dentro de la imagen final 14 puede incluir una referencia a la ubicación Z de los subtítulos. Por ejemplo, es posible ampliar el modelo del decodificador de subtítulos de texto del disco Blu-Ray y la información de composición asociada (específicamente el conjunto de estilos de diálogo, sección 9.15.4.2.2) con una posición Z de modo que el autor del contenido original pueda indicar en qué parte del espacio de proyección en dirección Z del dispositivo de visualización en 3D, se deben colocar los subtítulos. En el estándar de disco Blu-Ray se define un decodificador de subtítulos de texto y un flujo relacionado. El decodificador de subtítulos de texto se define en la sección 8.9 y consta de varios elementos de procesamiento y búferes. La Figura 9 muestra una imagen simplificada del modelo del decodificador, ampliado para manejar imágenes en 3D con un componente de texto asociado, como un subtítulo 30.

La Figura 9 muestra un modelo decodificador de subtítulos de texto en 3D. Los segmentos de subtítulos de texto de izquierda a derecha ingresan al decodificador 18 donde son procesados y decodificados por el procesador de flujo de texto 64. Los datos de texto decodificados se colocan en el búfer de diálogo 66, mientras que la información de composición de subtítulos de texto decodificado se coloca en el búfer de composición 72. Un controlador 74 interpreta la información de composición y la aplica al texto después de que el renderizador de texto 68 lo haya renderizado (usando un archivo de fuente 80) y coloca el resultado en los búferes de mapa de bits 70. En la etapa final, el reproductor 18 compone las imágenes de mapa de bits en los planos de gráficos apropiados. La entrada del usuario 78 también es recibida por el controlador 78, lo que puede afectar, por ejemplo, a los parámetros de profundidad del dispositivo de visualización.

Además de los subtítulos basados en texto, Blu-ray Disc (BD) también admite subtítulos en base a imágenes de mapa de bits, los llamados gráficos de presentación (PG). Asimismo, la posición Z de los subtítulos PG debe especificarse en el disco, preferentemente cerca de la información de posición X,Y ya definida. Como estos últimos se almacenan en la estructura composer_object(), es lógico ampliar esto con la posición Z de los subtítulos, por ejemplo, utilizando los bits reservados que comienzan en el bit de desplazamiento 26. El término componente de texto, como se usa en toda la presente solicitud, se usa para referirse a subtítulos basados en texto y/o tales imágenes de mapas de bits.

El decodificador 18 se ha ampliado con una memoria intermedia de mapa de bits adicional 76 que contiene el mapa de profundidad o disparidad que indica en qué lugar de la dirección Z debe ubicarse el subtítulo de texto 30. La información de profundidad o disparidad puede estar contenida en el conjunto de estilos de diálogo como se define en la memoria descriptiva de Blu-Ray. Un procedimiento para lograr esto es que el conjunto de estilos de diálogo se amplíe con un region_depth_position. El region_depth_position es un campo de 8 bits con valores entre 0 y 255, pero en el futuro esto puede ampliarse. El controlador 74 determina los valores de píxel del mapa de disparidad o profundidad correctos en base al valor del campo region_depth_position. La traducción de este valor a un valor de color para el mapa de profundidad o disparidad depende de los metadatos 3D que se transportan en el campo 3D_metadata en la lista de reproducción o que se transportan en la tabla de mapa de programa MPEG-2 (ISO/lEc 13818-1). La sintaxis de esta información está definida por MPEG en ISO/IEC 23002-3.

La posición Z de los subtítulos 30 luego se proporciona al renderizador 24, que puede tener en cuenta la posición Z de los subtítulos 30, al renderizar la imagen en 3D 14, para visualizarla mediante el dispositivo de visualización en 3D 22. La Figura 10 muestra un ejemplo de un espacio 3D con el posicionamiento de la profundidad mediante el uso del campo region_depth_position. La imagen 14 incluye el subtítulo 30, que se sitúa en el plano 82. El plano 82 indica la posición en el espacio a profundidad cero, las otras líneas indican las tres direcciones x, y y z en el espacio 3D.

Además de haber incluido una región de profundidad para indicar la región en el espacio donde deben colocarse los subtítulos, también es posible ir más allá agregando una profundidad separada para el propio texto 30, y especificar la región no como un plano sino como como un cubo en el espacio. Esto podría hacerse, por ejemplo, extendiendo los campos de posición de región en el estilo de diálogo establecido con una posición de profundidad de región y una longitud de profundidad de región. Se puede hacer lo mismo con las posiciones de los cuadros de texto que indican la ubicación exacta del texto dentro de la región.

El archivo de fuente 80 se puede usar para incluir un estilo de fuente en relieve, ya que se ha demostrado que esto mejora la legibilidad del texto resultante en 3D. Los estilos de fuente se describen en la Tabla 9-75 de la memoria descriptiva de Blu-Ray, alternativamente, el campo de grosor del contorno de la fuente se usa por este motivo, como se describe en la tabla 9-76 de la memoria descriptiva de Blu-Ray. Ambas tablas tienen campos reservados al final que podrían usarse para este propósito. El estilo de fuente en relieve tendría el valor 0x08 en la tabla 9-75 y el grosor del contorno de la fuente en relieve sería el valor 0x04 en la tabla 9-76.

Ventajosamente, la ubicación Z para subtítulos basados en texto y basados en PG es la misma y solo necesita almacenarse una vez por transmisión (es decir, por idioma de subtítulo). Está claro para el experto en la técnica que existen muchas ubicaciones alternativas en el disco BD para almacenar esta ubicación Z compartida de subtítulos. A continuación, se describen ejemplos de dichas ubicaciones alternativas.

El recurso de internet http://www.bluraydisc.com/Assets/Downloadablefile/2b_bdrom_audiovisualapplication_030 5-12955-15269.pdf, incorporado aquí como referencia, contiene más información básica sobre el formato BD y las estructuras en el formato al que se hace referencia a continuación.

La ubicación Z compartida de los subtítulos podría, por ejemplo, almacenarse en una nueva tabla definida como datos de extensión de la lista de reproducción. La lista de reproducción en la memoria descriptiva BD es una lista que indica una secuencia de elementos de contenido audiovisual que juntos forman la presentación de un título, como una película. Esta estructura de lista de reproducción proporciona un mecanismo para futuras extensiones a través de sus datos de extensión. La ubicación "Z" del plano de subtítulos (plano PG) para los diversos flujos de idioma se puede incluir allí en una nueva tabla llamada tabla offset_metadata. La tabla 1 muestra los detalles de esta tabla.

Además, en el caso de que una lista de reproducción contenga elementos de reproducción que permitan la reproducción de datos de video estereoscópico de múltiples ángulos, la ubicación "Z" para la superposición de gráficos, como subtítulos, puede ser diferente para cada clip de video estereoscópico de múltiples ángulos. Por lo tanto, offset_metadata también debe permitir diferentes ubicaciones "Z" para cada clip de video estereoscópico de múltiples ángulos al que se hace referencia en PlayItem. En tal caso, la tabla offset_metadata contiene diferentes ubicaciones "Z" para la superposición de subtítulos para cada videoclip estereoscópico de múltiples ángulos. A continuación, se puede hacer referencia a estas ubicaciones "Z" diferentes con un identificador para cada clip de vídeo multiángulo que requiera una ubicación "Z" diferente para la superposición de subtítulos. La tabla 2 muestra un ejemplo de cómo se puede ampliar la tabla 1 para admitir diferentes ubicaciones "Z" para diferentes clips de vídeo estereoscópicos multiángulo. Las referencias StreamID y AngleID en las tablas 1 y 2 sirven como identificadores únicos de un flujo elemental respectivamente en el disco (con contenido de subtítulos) y un videoclip estereoscópico de (múltiples) ángulos.

En lugar de utilizar datos de extensión, también es posible definir una nueva estructura de tabla PlayList específicamente para la reproducción de secuencias 3D e incluir allí los parámetros de ubicación "Z". Los problemas con la reproducción en reproductores heredados pueden evitarse proporcionando una nueva tabla de índice (una lista de títulos seleccionables por el usuario) en el disco o utilizando los datos de extensión de la tabla de índice que enumera los títulos reproducibles solo por un reproductor habilitado para 3D.

Alternativamente, si la información debe proporcionarse en una tabla existente en PlayList, entonces puede incluirse en STN_Table_SS(). Esta es una tabla que enumera los flujos de video y gráficos asociados a un PlayItem. Por PlayItem, contiene un bucle con información de codificación de flujo (atributos) para cada flujo de subtítulos de texto y mapa de bits. Proponemos incluir la información de ubicación "Z" en el mismo bucle que la información de atributo de flujo.

Un problema con el uso de PlayList para almacenar los parámetros "Z" para cada transmisión de subtítulos es la duplicación de datos. Varias listas de reproducción pueden hacer referencia a los mismos flujos de subtítulos. Esta limitación se puede superar al incluir los metadatos de ubicación "Z" en el archivo de información del clip. El archivo de información del clip enumera los metadatos relacionados con el flujo de transporte MPEG que contiene el contenido de A/V y los flujos de subtítulos. El archivo de información de Clip se puede ampliar con una tabla similar a la que se propone para los datos de extensión de PlayList. Sin embargo, como el archivo de información de fragmentos está asociado a un flujo de transporte MPEG, enumera los Flujos Elementales de subtítulos por identificador de paquete (PID). Por lo tanto, proponemos que se proporcionen los metadatos de ubicación "Z" para cada lista de PID que indique el PID de un flujo de subtítulos.

Alternativamente, en lugar de definir una nueva tabla en los datos de extensión, la ubicación "Z" se almacena en la tabla ProgramInfo en el archivo de información del clip. La tabla Programlnfo proporciona una lista de flujos elementales que juntos forman una presentación de contenido A/V. Contiene información similar a la tabla PMT definida en los sistemas MPEG ISO/IEC 13818-1. Proponemos que para cada transmisión elemental que contenga información de subtítulos proporcionemos metadatos de ubicación "Z". Los metadatos se pueden incluir en el mismo ProgramInfo o en una subtabla de la tabla ProgramInfo, la tabla StreamCodingInfo. Proporciona detalles sobre la codificación y los códigos de idioma para el flujo de subtítulos presente en el flujo de transporte. La tabla StreamCodingInfo también tiene algunos campos reservados, proponemos usar estos campos reservados para llevar los parámetros de posición "Z" asociados al flujo de subtítulos para un código de idioma en particular.

Si se requiere que la ubicación "Z" cambie cada pocos segundos, se debe usar la tabla CPI() en el archivo de información del clip. La información CPI es una tabla que enumera los puntos de entrada a los flujos de video para reproducción engañosa. Las listas de puntos de entrada podrían ampliarse con un parámetro de ubicación "Z" que indica por punto de entrada la ubicación en "profundidad" de donde superponer cualquier gráfico, como subtítulos.

Alternativamente, si la información de ubicación "Z" es precisa en el cuadro, entonces debería incluirse en los mensajes SEI del flujo de video dependiente. Los SEI (mensajes de signos) son paquetes integrados en un flujo elemental MPEG que transportan parámetros que pueden ser utilizados por un decodificador para ayudar a decodificar el contenido. MPEG también permite incrustar mensajes SEI de datos de usuario privados; estos serán ignorados por los decodificadores estándar, pero pueden ser utilizados por un decodificador modificado. Se puede definir un mensaje SEI de datos de usuario para llevar la ubicación "Z" de cualquier superposición que deba superponerse sobre el video, como los subtítulos. Para proporcionar la información "Z" por flujo (idioma), proponemos enumerar los valores "Z" para todos los flujos de subtítulos proporcionados en el disco

Tabla 1, ejemplo de una tabla para almacenar metadatos desplazados.

Quedará claro para el experto en la técnica que los pasos de etapas tales como la reproducción de imágenes en 3D o las etapas de multiplexación pueden implementarse en una amplia variedad de plataformas de procesamiento. Estas plataformas de procesamiento pueden variar desde circuitos dedicados y/o dispositivos semiconductores, dispositivos lógicos programables, procesadores de señales digitales o incluso procesadores de propósito general. Del mismo modo, también se pueden utilizar con ventaja implementaciones combinadas de software y hardware. Si bien la invención se ha ilustrado y descrito en detalle en los dibujos y la descripción anterior, dicha ilustración y descripción deben considerarse ilustrativas o ejemplares y no restrictivas; la invención no se limita a las realizaciones divulgadas. La invención se define mediante las reivindicaciones adjuntas.

Tabla 2, ejemplo de una tabla para almacenar metadatos de desplazamiento ampliados con diferentes metadatos de ubicación de subtítulos "Z" por segmento de video estereoscópico multiángulo

Otras variaciones a las realizaciones divulgadas pueden entenderse y efectuarse por aquellos expertos en la técnica en la práctica de la invención reivindicada, a partir de un estudio de los dibujos, la divulgación, y las reivindicaciones adjuntas. En las reivindicaciones, la palabra "que comprende" no excluye otros elementos o etapas, y el artículo indefinido "un" o "una" no excluyen una pluralidad. Un único procesador u otra unidad pueden cumplir las funciones de diversos elementos mencionados en las reivindicaciones. El mero hecho de que ciertas medidas se enumeran en las reivindicaciones dependientes mutuamente diferentes no indica que una combinación de estas medidas no pueda usarse como ventaja. Un programa informático puede almacenarse/distribuirse en un medio adecuado, como un medio de almacenamiento óptico o un medio de estado sólido proporcionado junto con o como parte de otro hardware, pero también puede distribuirse en otras formas, como a través de Internet u otros sistemas de telecomunicaciones por cable o inalámbricos. Cualquier signo de referencia en las reivindicaciones no debe interpretarse como limitante del ámbito.

Claims

REIVINDICACIONES

1. Un procedimiento para renderizar una señal de imagen tridimensional que comprende:

- recibir una señal de imagen tridimensional que comprende un primer componente, un segundo componente para crear una imagen tridimensional en combinación con el primer componente, un componente de texto para incluir en la imagen tridimensional y un componente de datos que comprende información de ubicación que describe un área dentro de la imagen tridimensional en la que se va a visualizar el componente de texto, siendo el primer componente un cuadro de imagen bidimensional y siendo el segundo componente uno de un mapa de profundidad o un mapa de disparidad,

- renderizar una imagen tridimensional a partir del primer componente de imagen y el segundo componente, incluyendo el renderizado renderizar el componente de texto en la imagen tridimensional,

en el que la renderización del componente de texto comprende ajustar los parámetros tridimensionales de la imagen tridimensional en el área de la imagen tridimensional donde se va a visualizar el componente de texto, que comprende reducir la profundidad percibida de la imagen tridimensional en el área donde se visualizará el componente de texto.

2. Un procedimiento de acuerdo con la reivindicación 1, en el que ajustar los parámetros tridimensionales comprende anular una profundidad solicitada establecida en el mapa de profundidad o el mapa de disparidad.

3. Un procedimiento de acuerdo con la reivindicación 1 o 2, en el que los parámetros tridimensionales se ajustan en el área de la imagen tridimensional en la que se va a visualizar el componente de texto de acuerdo con la información de ubicación, en el que la información de ubicación comprende coordenadas x (x1, x2) y coordenadas y (y1, y2) que describen el área donde se visualizará el componente de texto.

4. Un procedimiento de acuerdo con cualquiera de las reivindicaciones anteriores, en el que la etapa de ajustar los parámetros tridimensionales del área comprende reducir el número de vistas de la imagen tridimensional en el área.

5. Un procedimiento de acuerdo con cualquiera de las reivindicaciones anteriores, en el que la etapa de ajustar los parámetros tridimensionales del área comprende mantener la disparidad del área por debajo de un umbral predeterminado.

6. Un procedimiento de acuerdo con cualquiera de las reivindicaciones anteriores, en el que la etapa de ajustar los parámetros tridimensionales del área comprende incluir un desplazamiento para mover el intervalo de profundidad del área hacia adelante o hacia atrás.

7. Un procedimiento de acuerdo con la reivindicación 6, en el que la etapa de ajustar los parámetros tridimensionales del área comprende controlar el desplazamiento del componente de texto por separado de los datos de imagen en el área.

8. Un dispositivo para generar una señal de imagen tridimensional que comprende:

- un receptor (18) dispuesto para recibir una señal de imagen tridimensional que comprende un primer componente, un segundo componente para crear una imagen tridimensional en combinación con el primer componente, un componente de texto para incluir en la imagen tridimensional, y un componente de datos que comprende información de ubicación que describe un área dentro de la imagen tridimensional en la que se visualizará el componente de texto, siendo el primer componente un cuadro de imagen bidimensional y siendo el segundo componente uno de un mapa de profundidad o un mapa de disparidad,

- un renderizador (24) dispuesto para renderizar una imagen tridimensional a partir del primer componente de imagen y el segundo componente, la renderización incluye renderizar el componente de texto en la imagen tridimensional,

9. Un producto de programa informático para renderizar una señal de imagen tridimensional, comprendiendo el producto instrucciones para implementar un procedimiento de acuerdo con cualquiera de las reivindicaciones 1 a 7 cuando se ejecuta en un dispositivo informático.

10. Un producto de programa informático de acuerdo con la reivindicación 9 almacenado en un medio de legible por ordenador.