ES2670663T3 - Datos auxiliares en difusión de vídeo en 3D - Google Patents

Datos auxiliares en difusión de vídeo en 3D Download PDF

Info

Publication number
ES2670663T3
ES2670663T3 ES11743369.8T ES11743369T ES2670663T3 ES 2670663 T3 ES2670663 T3 ES 2670663T3 ES 11743369 T ES11743369 T ES 11743369T ES 2670663 T3 ES2670663 T3 ES 2670663T3
Authority
ES
Spain
Prior art keywords
data
auxiliary
video
disparity
auxiliary data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11743369.8T
Other languages
English (en)
Inventor
Philip Steven Newton
Robert Albertus Brondijk
Wiebe De Haan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP10169203A external-priority patent/EP2408211A1/en
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Application granted granted Critical
Publication of ES2670663T3 publication Critical patent/ES2670663T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Abstract

Método de procesamiento de información de vídeo tridimensional [3D] para generar un flujo de transporte de datos para la transferencia de la información de vídeo en 3D compatible con una cadena de distribución de vídeo en 2D predefinida, - comprendiendo la información de vídeo en 3D datos de vídeo en 3D y datos auxiliares, comprendiendo los datos de vídeo en 3D al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D, estando dispuestos los datos auxiliares para visualización en un área de superposición en los datos de vídeo en 3D, comprendiendo el método - disponer los datos de vídeo en 3D de la vista izquierda y la vista derecha en un fotograma en 2D para datos de vídeo principal en una disposición principal, - proporcionar una versión en 2D de los datos auxiliares y datos de disparidad auxiliares indicativos de la disparidad a aplicarse a la versión en 2D de datos auxiliares cuando se superponen en la vista izquierda y la vista derecha y disponer los datos auxiliares de la versión en 2D en un flujo de datos auxiliar, - proporcionar datos de control que comprenden parámetros para un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares, - ensamblar el flujo de transporte de datos que incluye los datos de vídeo en 3D en la disposición principal, el flujo de datos auxiliar, los datos de disparidad auxiliares y los datos de control, caracterizado por que el método comprende adicionalmente - proporcionar una vista izquierda auxiliar y una vista derecha auxiliar de los datos auxiliares a superponerse en la vista izquierda y la vista derecha de los datos de vídeo en 3D, - disponer los datos auxiliares de la vista izquierda auxiliar y la vista derecha auxiliar en un fotograma en 2D para datos auxiliares en una disposición auxiliar que corresponde a la disposición principal, - disponer los datos auxiliares de la disposición auxiliar en un flujo de datos auxiliar adicional, e - incluir, en el flujo de transporte, el flujo de datos auxiliar adicional y un indicador de formato de disparidad indicativo del flujo de datos auxiliar adicional.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Datos auxiliares en difusión de vídeo en 3D Campo de la invención
La invención se refiere a un método de procesamiento de información de vídeo tridimensional [3D] para generar un flujo de transporte de datos para la transferencia de la información de vídeo en 3D compatible con una cadena de distribución de vídeo en 2D predefinida, comprendiendo la información de vídeo en 3D datos de vídeo en 3D y datos auxiliares,
comprendiendo los datos de vídeo en 3D al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D, estando dispuestos los datos auxiliares para visualización en un área de superposición en los datos de vídeo en 3D, comprendiendo el método
- disponer los datos de vídeo en 3D de la vista izquierda y la vista derecha en un fotograma en 2D para datos de vídeo principal en una disposición principal,
- proporcionar datos de control que comprenden parámetros para un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares,
- ensamblar el flujo de transporte de datos que incluye los datos de vídeo en 3D en la disposición principal, los datos auxiliares y los datos de control.
La invención se refiere adicionalmente a un dispositivo para procesar información de vídeo en 3D, una señal para transferir información de vídeo en 3D, y un receptor para procesar información de vídeo tridimensional [3D].
La invención se refiere al campo de difusión de vídeo en 3D. Un número creciente de producciones de la industria del entretenimiento tienen como objetivo los cines de películas en 3D. Estas producciones usan un formato de dos vistas (una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D), principalmente pretendidas para visualización asistida por gafas. Existe interés de la industria para proporcionar estas producciones en 3D al hogar. También, los difusores han empezado la transmisión experimental de contenido en 3D, especialmente en eventos deportivos en directo. Actualmente, se está adaptando una norma para difusión de vídeo digital (DVB) para transferir contenido estereoscópico. El formato que se usará, ciertamente en la etapa temprana, será el formato estéreo comúnmente usado que comprende al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D, formateándose los datos de ambas vistas en un fotograma de vídeo en 2D, por ejemplo en una disposición lado a lado (SBS) o de arriba a abajo (TB). Los fotogramas en 2D, que contienen las vistas izquierda y derecha en 3D, se transmiten y reciben mediante canales de vídeo existentes (2D).
Los sistemas y dispositivos para generar datos de vídeo en 2D son conocidos, por ejemplo servidores de vídeo, estudios de difusión o dispositivos de autoría. Actualmente se requieren dispositivos de vídeo en 3D similares para proporcionar datos de imagen en 3D, y se están proponiendo dispositivos de vídeo en 3D complementarios para representar los datos de vídeo en 3D, como decodificadores de salón que procesan señales de vídeo en 3D recibidas. El dispositivo de vídeo en 3D puede acoplarse a un dispositivo de visualización como un conjunto de TV o monitor para transferir los datos de vídeo en 3D mediante una interfaz adecuada, preferentemente una interfaz digital de alta velocidad como HDMI. La pantalla 3D también puede estar integrada con el dispositivo de vídeo en 3D, por ejemplo una televisión (TV) que tiene una sección de recepción y una pantalla de 3D.
Antecedentes de la invención
La norma pública internacional ISO/IEC 14496-10 "Information technology - Coding of audio-visual objects - Part 10: Advanced Video Coding", quinta edición , describe codificación digital de información de vídeo, por ejemplo para difusión de vídeo digital (DVB). Los datos de vídeo definen el contenido del vídeo principal a visualizarse. Los datos auxiliares definen cualquier otro dato que pueda visualizarse en combinación con los datos de vídeo principal, tal como los datos gráficos o subtítulos. La norma, y documentos relacionados adicionales, también definen datos de control para indicar parámetros a un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares, y ensamble un flujo de transporte de datos que incluye los datos de vídeo, los datos auxiliares y los datos de control para transmisión. La norma AVC es un ejemplo; por ejemplo puede usarse vídeo MPEG-2, también para alta definición, como se describe en ISO/IEC 13818-2, codificación genérica de instantáneas en movimiento e información de audio asociada: vídeo.
Para posibilitar la codificación y transferencia datos de vídeo en 3D se están adaptando las normas anteriores. En particular, se ha propuesto definir un sistema para indicar que se transmita la información de vídeo en 3D mediante canales de vídeo en 2D, formateados en un fotograma de vídeo en 2D, por ejemplo en dicha disposición lado a lado (SBS) o de arriba a abajo (TB). Por lo tanto, los datos de vídeo en 3D tienen al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D, y los datos auxiliares están dispuestos para visualización en un área de superposición en los datos de vídeo en 3D. Los datos de vídeo en 3D de la vista izquierda y la vista derecha están formateados en un fotograma en 2D para datos de
5
10
15
20
25
30
35
40
45
50
55
60
65
vídeo principal de acuerdo con el formato de transmisión en 2D en una disposición principal. Por ejemplo, en una modificación para la norma ISO anterior, se ha propuesto ampliar los mensajes de datos de control, denominados mensajes de información de mejora complementaria (SEI), definiendo un nuevo mensaje de SEI que indica intercalación espacial de las vistas izquierda y derecha de datos de vídeo en el fotograma de vídeo en 2D para uso como entrega de vídeo estereoscópico. La intercalación espacial puede decirse, por ejemplo, disposición lado a lado (SBS) o de arriba a abajo (TB), o una intercalación de tablero de damas.
El documento WO 2009/078678 describe un formato de datos estereoscópico basado en MPEG4. El formato define datos de vídeo y datos de texto a superponerse. En una primera realización se incluye un nodo de texto en un descriptor de escena. La primera realización define campos de cadena izquierda y de cadena derecha, que tienen dos textos que corresponden a los puntos de vista izquierdo y derecho.
Adicionalmente, en una segunda realización se incluye un nodo de texto diferente en un descriptor de escena. La segunda realización define un único campo de cadena estereoscópica y datos de disparidad, que tienen un texto idénticamente usado tanto para los puntos de vista izquierdo como derecho.
El documento WO2010/064853 describe un sistema de visualización de subtítulos en 3D. El sistema define datos de vídeo y datos de texto (subtítulos) para superponerse. Los datos de subtítulos en 2D están incluidos en el flujo de bits mientras también se incluyen datos de disparidad de subtítulos y un descriptor de servicio que indica si el subtítulo es en 3D.
El documento US 2010/0142924 describe un sistema de reproducción para realizar reproducción estereoscópica. Un flujo de vídeo en 3D a reproducirse puede contener flujos de subtítulos, por ejemplo un flujo de subtítulo de vista izquierda y un flujo de subtítulo de vista derecha. Después de decodificar el flujo de subtítulos izquierdo y derecho se almacenan (superponen) en los respectivos planos de imagen de ojo izquierdo y derecho.
Sumario de la invención
La transferencia de información de vídeo en 3D propuesta mediante un canal de vídeo en 2D posibilita que los datos de vídeo principal se transfieran en 3D. Sin embargo, cualesquiera datos auxiliares, como subtítulos, también deben transferirse, por ejemplo, usando la norma de DVB para subtitulado: ETSI EN 300 743 - Difusión de vídeo digital (DVB); Sistemas de subtitulado. Se ha de observar que tales datos auxiliares se transfieren de manera separada, por ejemplo en un flujo de datos auxiliar en un flujo de transporte. Un ejemplo de un flujo de transporte de este tipo, al que se hace referencia por DVB, se define en la norma: ISO/IEC 13818-1, codificación genérica de instantáneas en movimiento e información de audio asociada: sistemas. La superposición de datos auxiliares, normalmente basada en un ajuste seleccionado por el usuario, se aloja en el extremo de recepción. Puede considerarse formatear los datos auxiliares en una disposición auxiliar similar al vídeo principal, por ejemplo también en un SBS. Sin embargo, tal formato puede dar como resultado dificultades o coste adicional en el receptor.
Es un objeto de la invención proporcionar un sistema para transferir información de vídeo en 3D que incluye datos auxiliares que evita dificultades y coste adicional en el receptor.
Para este fin, de acuerdo con un primer aspecto de la invención, se proporciona un método como se define en la reivindicación 1
Para este fin, de acuerdo con aspectos adicionales de la invención, se proporciona un dispositivo como se define en la reivindicación 12
También, se proporciona una señal como se define en la reivindicación 13.
También, se proporciona un receptor como se define en la reivindicación 14
También, un producto de programa informático para procesar información de vídeo en 3D, puede operarse para provocar que un procesador realice el método como se ha definido anteriormente.
Los datos de control pueden comprender tanto datos de control que indican el formateado de vídeo (SBS, TB, etc.), como datos de control que contienen la disparidad para los datos auxiliares. Las medidas tienen el efecto de que los datos auxiliares se transfieren en una disposición auxiliar que corresponde a la disposición del vídeo principal. Además de lo mismo, los datos auxiliares se transfieren simultáneamente también en una versión en 2D en combinación con datos de disparidad auxiliares indicativos de la disparidad a aplicarse a la versión en 2D de datos auxiliares cuando se superponen en la vista izquierda y la vista derecha. Dicha transmisión dual de datos auxiliares posibilita que cualquier receptor recupere el conjunto de datos auxiliares que facilita representación en 3D fácil de la combinación de vídeo principal y datos auxiliares. Ventajosamente se posibilita que tanto los dispositivos de recepción en 2D heredados como los dispositivos de recepción en 3D novedosos operen de manera eficaz basándose en la transmisión dual de datos auxiliares. Además, aunque la calidad de las vistas auxiliares empaquetadas en la disposición auxiliar puede limitarse debido a la resolución reducida de dicho empaquetamiento,
5
10
15
20
25
30
35
40
45
50
55
60
65
se posibilita una alta calidad para representar la información auxiliar debido a la presencia de datos de disparidad auxiliares y la versión en 2D, que tiene la resolución completa.
La invención también está basada en el siguiente reconocimiento. Aunque se amplía al sistema de transmisión en 2D existente para 3D empaquetando los fotogramas de vídeo principal de la vista izquierda y derecha en un único fotograma en 2D, puede parecer que es una solución similar para datos auxiliares, es decir usando una disposición auxiliar similar a los datos de vídeo principal, por ejemplo lado a lado. Los inventores han observado que esta disposición puede manejarse por arquitecturas de procesamiento de vídeo comunes, que procesan el vídeo principal entrante decodificando en primer lugar el vídeo principal y datos auxiliares, y a continuación solapándolos. La señal se trata como una señal en 2D hasta ese punto, y posteriormente se escala hasta la resolución de pantalla requerida para visualización. En el caso de que las vistas en 3D estén dispuestas en el fotograma en 2D, se modifica la etapa de escalamiento. Una visualización secuencial de los fotogramas izquierdo y derecho se supone que se observa mediante gafas de obturador para el respectivo ojo. En primer lugar se toma la parte de la vista izquierda, por ejemplo la mitad izquierda del fotograma en SBS, se sobremuestrea a la resolución de pantalla y se visualiza. A continuación se toma la parte de la vista derecha, por ejemplo la mitad derecha del fotograma en SBS, se sobremuestrea a la resolución de la pantalla y se visualiza. En la práctica, la arquitectura puede estar presente, cuando se usa un decodificador de salón (STB) en 2D heredado y una TV en 3D. El decodificador de salón genera en primer lugar los datos de visualización a visualizarse, por ejemplo a transferirse mediante una interfaz digital como HDMI. La TV en 3D recibe los datos de visualización, que aún están en formato SBS. El STB solapará los datos auxiliares de SBS en el vídeo principal de SBS; la TV en 3D separará la vista izquierda y la vista derecha, teniendo ambas los respectivos datos auxiliares superpuestos.
Sin embargo los inventores han observado que, en otros receptores en 3D, puede estar presente una arquitectura diferente. Los datos de vídeo principal se analizan en primer lugar, y cuando una vista izquierda y derecha están dispuestas en un formato de fotograma en 2D, tales datos de vídeo se recuperan en primer lugar desde el fotograma en 2D y se separan, y posteriormente se (re-)escalan para regenerar la vista izquierda y derecha completas. Un flujo seleccionado de datos auxiliares puede a continuación superponerse en las vistas izquierda y derecha. Usando los datos auxiliares en la disposición auxiliar ahora requiere etapas adicionales como seleccionar la parte respectiva y sobreescalar los datos auxiliares. Sin embargo, la versión en 2D de los datos auxiliares, que tiene la resolución completa, está directamente superpuesta sin ningún escalamiento adicional. Los mismos datos auxiliares se superponen tanto en las vistas izquierda como derecha, diferenciándose únicamente en la posición horizontal en una cantidad predefinida, denominada disparidad. La disparidad da como resultado una posición de profundidad correspondiente de los datos auxiliares. El valor de la disparidad a aplicarse cuando se superpone la versión en 2D de los datos auxiliares está directamente disponible mediante los datos de disparidad auxiliares, que también están incluidos en el flujo de transporte. Ventajosamente la disparidad aplicada puede ajustarse adicionalmente basándose en el tamaño de pantalla, distancia de visualización o parámetros o preferencias de visualización adicionales. Se proporciona una explicación detallada de los problemas de diversos entornos de procesamiento en la representación de los datos de vídeo en 3D y datos auxiliares a continuación con referencia a las Figuras 2 a 4.
Analizando las diversas arquitecturas de procesamiento de vídeo los inventores han observado que parece haber problemas para manejar el 2D y formato de disparidad en arquitecturas que superponen en primer lugar los datos auxiliares y posteriormente aplican recuperación de las vistas desde el fotograma en 2D y escalamiento. Tiene que añadirse una etapa adicional de solapamiento en tales arquitecturas, que requiere hardware y/o software de procesamiento adicional. Adicionalmente, la disposición auxiliar da como resultado una resolución inferior para los datos auxiliares. Los inventores han investigado los efectos de tal resolución reducida, que pareció ser más visible para datos auxiliares, como objetos gráficos o subtítulos, mientras el vídeo principal en 3D se ve menos obstaculizado por una resolución reducida. La solución propuesta, es decir cambiar el sistema de transmisión incluyendo los datos auxiliares tanto en la disposición auxiliar como en la versión en 2D con datos de disparidad auxiliares en el flujo de transporte, elimina de manera conveniente los diversos problemas y desventajas en las arquitecturas de procesamiento de vídeo usadas en la práctica, mientras permite en muchos casos una mejora de dispositivos de procesamiento en 2D mediante actualización de software.
Finalmente puede observarse que ampliar la cantidad de datos a transferirse mediante el flujo de transporte añadiendo una segunda versión de los mismos datos auxiliares puede considerarse contrario para el sentido común, pero, sin embargo, es aceptable en vista de la cantidad relativamente pequeña de datos adicionales y las ventajas sustanciales en alojar diversas arquitecturas de receptor para superponer de manera eficaz datos auxiliares en vídeo en 3D.
En una realización del sistema para transferir información de vídeo en 3D, los datos de control incluyen un indicador de formato en 3D de acuerdo con una extensión en 3D del formato de transmisión en 2D, indicativo de dicha disposición de los datos de vídeo en 3D de la vista izquierda y la vista derecha en el fotograma en 2D. Esto tiene la ventaja de que un receptor tiene conocimiento directamente de la presencia y formato de los datos de vídeo en 3D en el fotograma en 2D.
En una realización del sistema la disposición auxiliar se indica únicamente por el indicador de formato en 3D indicativo de la disposición principal. Se ha de observar que el flujo de datos auxiliar está formateado realmente de
5
10
15
20
25
30
35
40
45
50
55
60
65
manera diferente de un flujo de datos auxiliar, 2D, normal mientras que no haya señalización adicional o modificada que indique la diferencia. Esto es ventajoso, puesto que cualquier componente en 2D heredado en el canal de transferencia de vídeo no tendrá conocimiento de la diferencia, y normalmente pasará o procesará los datos auxiliares. Adicionalmente, los receptores novedosos de acuerdo con la invención actual pueden alojar datos auxiliares en 3D basándose en la detección de la disposición de los datos de vídeo principal y aplicando una disposición correspondiente en los datos auxiliares.
En una realización del sistema los datos de disparidad auxiliares comprenden datos de disparidad de región para al menos una región en el área de superposición indicativos de la disparidad de los datos auxiliares en la respectiva región cuando se superponen en la vista izquierda y la vista derecha. Esto tiene la ventaja de que los datos de disparidad para una región se transfieren de manera eficaz.
En una realización del sistema el flujo de datos auxiliar comprende objetos, objetos que definen datos de píxeles de objetos gráficos a superponerse, y el flujo de datos auxiliar y el flujo de datos auxiliar adicional comprenden referencias a los mismos objetos para compartir los respectivos mismos objetos entre la vista izquierda auxiliar, la vista derecha auxiliar y/o la versión en 2D de los datos auxiliares. Los objetos definen los datos de píxel real, es decir una representación de bajo nivel de datos gráficos a superponerse. Los datos de píxel real requieren una parte relativamente grande de los datos auxiliares totales. Los inventores han observado que, aunque han de combinarse una vista izquierda y derecha de los subtítulos en la disposición auxiliar, los mismos objetos pueden usarse en ambas vistas mientras se mantienen las restricciones de la norma de DVB. En ampliaciones adicionales de la norma u otros sistemas, los objetos pueden usarse también para la versión en 2D, puesto que los contenidos de la versión en 2D son iguales al conjunto dispuesto de la vista izquierda y derecha auxiliar. En ese caso los objetos pueden escalarse para adaptarse tanto a la versión en 2D como a las vistas izquierda y derecha auxiliares. Ventajosamente la capacidad de transferencia de datos adicionales requerida para el flujo de datos auxiliar adicional es relativamente pequeña, puesto que los objetos se comparten y tienen que transmitirse únicamente una vez para una respectiva superposición gráfica.
Se proporcionan realizaciones preferidas adicionales del dispositivo y método de acuerdo con la invención en las reivindicaciones adjuntas. Las características definidas en las reivindicaciones dependientes para un método o dispositivo particular se aplican de manera correspondiente a otros dispositivos o métodos.
Breve descripción de los dibujos
Estos y otros aspectos de la invención serán evidentes y se aclararán adicionalmente con referencia a las realizaciones descritas a modo de ejemplo en la siguiente descripción y con referencia a los dibujos adjuntos, en los que
La Figura 1A muestra un sistema para transferir información de vídeo tridimensional (3D),
La Figura 1B muestra datos de vídeo en 3D y datos auxiliares,
La Figura 2 muestra un sistema de procesamiento de vídeo en un dispositivo de recepción,
La Figura 3 muestra disposiciones de vídeo en 3D y datos auxiliares,
La Figura 4 muestra procesamiento de una disposición auxiliar,
La Figura 5 muestra una estructura de composición de página,
La Figura 6 muestra (una parte de) un descriptor de componente,
La Figura 7 muestra una estructura de definición de visualización,
La Figura 8 muestra una estructura de composición de región,
La Figura 9 muestra un tipo de segmento para el descriptor de disparidad estereoscópica,
La Figura 10 muestra un paquete de datos de flujo elemental empaquetado (PES) que define disparidad, y La Figura 11 muestra valores de identificador de datos para paquetes de PES. Las figuras son puramente esquemáticas y no están dibujadas a escala.
En las figuras, los elementos que corresponden a elementos ya descritos tienen los mismos números de referencia.
Descripción detallada de las realizaciones
La Figura 1A muestra un sistema para transferir información de vídeo tridimensional (3D). El sistema tiene un transmisor 100, que proporciona una señal 104 a transmitirse mediante una red de difusión 130. Un receptor 110 recibe la señal desde la red de difusión en una entrada 111 de una unidad de entrada 112. El receptor proporciona datos de visualización 114 a un dispositivo de visualización en 3D 120, por ejemplo una TV en 3D o sistema de proyección en 3D. El receptor puede ser un dispositivo separado como un decodificador de salón (STB) o receptor de satélite. Como alternativa, el receptor 110 y la visualización en 3D 120 se combinan en un único dispositivo, como una TV en 3D digital que tiene un sintonizador digital y un procesador en 3D integrado.
El sistema está dispuesto para transferir la información de vídeo en 3D 105, que incluye datos de vídeo en 3D y datos auxiliares. Los datos de vídeo en 3D, por ejemplo proporcionados en la entrada principal 101 del receptor 100, comprenden al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un
5
10
15
20
25
30
35
40
45
50
55
60
65
espectador para generar un efecto en 3D. Los datos auxiliares, por ejemplo proporcionados en la entrada auxiliar 102 del receptor 100, están dispuestos para visualización en un área de superposición en los datos de vídeo en 3D, tal como subtítulos. Se observa que pueden incluirse múltiples flujos de datos auxiliares.
El sistema, en el lado del transmisor, aloja las siguientes funciones. Las funciones pueden implementarse en un procesador de vídeo 103 en el transmisor, pero pueden realizarse también en un sistema de autoría basándose en programas informáticos especializados.
El vídeo principal se procesa disponiendo los datos de vídeo en 3D de la vista izquierda y la vista derecha en un fotograma en 2d para datos de vídeo principal de acuerdo con un formato de transmisión en 2D en una disposición principal. Tal empaquetamiento de vídeo en 3D en un fotograma en 2D se denomina normalmente empaquetamiento de fotogramas. De acuerdo con la norma de transmisión aplicable, el sistema proporciona datos de control para indicar parámetros a un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares. Finalmente se ensambla un flujo de transporte de datos en una señal 104 que incluye los datos de vídeo en 3D en la disposición principal, los datos auxiliares y los datos de control para transmisión mediante la red de difusión 130.
El sistema implica adicionalmente proporcionar una vista izquierda auxiliar y una vista derecha auxiliar de los datos auxiliares a superponerse en la vista izquierda y la vista derecha de los datos de vídeo en 3D, y disponer los datos auxiliares de la vista izquierda auxiliar y la vista derecha auxiliar en un flujo de datos auxiliar de acuerdo con el formato de transmisión en 2D en una disposición auxiliar que corresponde a la disposición principal. El flujo de datos auxiliar está incluido en el flujo de transporte como se ha indicado anteriormente.
En una realización, la disposición auxiliar, por ejemplo subtítulos en la vista izquierda auxiliar y una vista derecha auxiliar lado a lado, se adapta en el espacio de datos disponible para los subtítulos. En DVB por medio de un segmento de definición de visualización puede establecerse la configuración de visualización. Hay 3 opciones para usar subtítulos de DVB en un servicio HD total:
a) La resolución de gráficos es 720x576 y se convierte de manera ascendente a resolución HD total del servicio.
b) La resolución de gráficos es 720x576 y se sitúa en el centro del vídeo de HD total.
c) La resolución de gráficos es 1920x1080, la misma que la resolución del servicio de HD.
En a) una vista únicamente tiene 360 píxeles para un subtítulo, puesto que la pantalla tiene que dividirse en dos mitades. Los 360 píxeles se extienden a través de la anchura de la pantalla sobrescalando, por lo tanto la resolución es relativamente baja. Para DVB la opción b da como resultado que los subtítulos estén únicamente en una pequeña sección de las vistas izquierda y derecha (menos de la mitad). Opción c) está bien como tal. Sin embargo, se enumeran restricciones adicionales, tales como una región para visualización real de 720 píxeles de máximo a usarse, y únicamente una región está permitida en una línea horizontal (no hay regiones cerca unas de las otras). Sin embargo, al menos una o ambas restricciones pueden mejorarse, para alojar subtítulos de SbS a superponerse en vídeo principal de SbS en un nivel de calidad mejorado después de una mejora de firmware si fuera necesario.
Además, una versión en 2D de los datos auxiliares y datos de disparidad auxiliares, indicativos de la disparidad a aplicarse a la versión en 2D de datos auxiliares cuando se superponen en la vista izquierda y la vista derecha, también están incluidos en el flujo de transporte. Por lo tanto se incluye una segunda versión de los mismos datos auxiliares, por ejemplo dispuesta en un flujo de datos auxiliar adicional separado. Se observa que, ventajosamente, el flujo de datos auxiliar adicional puede cumplir con el formato de transmisión en 2D, para no perturbar a los receptores en 2D heredados que también reciben la señal. Sin embargo, los datos de disparidad auxiliares pueden almacenarse en diversas localizaciones en estructuras de datos disponibles en el flujo de transporte, como se explica a continuación. Finalmente, el flujo de datos auxiliar adicional, los datos de disparidad auxiliares y un indicador de formato de disparidad se incluyen en el flujo de transporte. El indicador de formato de disparidad es indicativo del flujo de datos auxiliar adicional, por ejemplo indicando la presencia y el formato específico de los datos auxiliares en el flujo de datos auxiliar adicional.
La señal 104 para transferir la información de vídeo en 3D 105 como se ha descrito anteriormente se transfiere mediante una red de difusión 130, por ejemplo una red de transmisión de TV pública, una red de satélite, Internet, etc. En la señal un flujo de transporte representa la información de vídeo en 3D 105. Los datos de vídeo en 3D de la vista izquierda y la vista derecha en un fotograma en 2D para datos de vídeo principal están dispuestos de acuerdo con un formato de transmisión en 2D como DVB en una disposición principal. Para ello el formato de transmisión en 2D puede ampliarse añadiendo una definición de la estructura de datos usada para la información de vídeo en 3D, y correspondientes datos de control para indicar parámetros a un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares. El flujo de transporte de datos incluye los datos de vídeo en 3D en la disposición principal, los datos auxiliares y los datos de control para transmisión. La señal comprende adicionalmente la vista izquierda y derecha auxiliares y una versión en 2D de los datos auxiliares y datos de disparidad auxiliares como se ha descrito anteriormente. Los datos auxiliares de la vista izquierda auxiliar y la vista derecha auxiliar se empaquetan en un flujo de datos auxiliar de acuerdo con el formato de transmisión en 2D en una disposición auxiliar que corresponde a la disposición principal, y los datos auxiliares de la versión en 2D se
5
10
15
20
25
30
35
40
45
50
55
60
65
empaquetan en un flujo de datos auxiliar adicional. El flujo de transporte contiene el flujo de datos auxiliar adicional, los datos de disparidad auxiliares y un indicador de formato de disparidad indicativo del flujo de datos auxiliar adicional.
El receptor 110 tiene la unidad de entrada 112 para recibir la señal desde la red de difusión como se ha descrito anteriormente. El flujo de transporte se recupera y acopla a un procesador de vídeo 113 para recuperar los datos auxiliares desde el flujo de datos auxiliar adicional, mientras se descartan los datos auxiliares en la disposición auxiliar proporcionada en el flujo de datos auxiliar. El procesador de vídeo genera adicionalmente datos de superposición para visualizar en el área de superposición en los datos de vídeo en 3D basándose en la versión en 2D de los datos auxiliares y los datos de disparidad auxiliares, como se explica a continuación en detalle.
La Figura 1B muestra datos de vídeo en 3D y datos auxiliares. Los datos de vídeo tienen una vista izquierda 150 y una vista derecha 151. Ambas vistas se muestran teniendo una superposición de información auxiliar. La vista izquierda tiene datos auxiliares 160, un subtítulo que dice rojo y verde mostrado en una posición de inicio horizontal X, y la vista derecha tiene datos auxiliares 161, es decir el mismo subtítulo mostrado en una posición de inicio horizontal X-n. El valor n representa una disparidad entre la versión izquierda y derecha del subtítulo. La Figura muestra una imagen estereoscópica, como una representación de un fotograma estéreo en una película con un subtítulo en 2D compuesto en la parte superior del vídeo mientras que se aplica la compensación horizontal n para establecer la profundidad del subtítulo
Una de las plataformas de entrega de contenido principales para difundir vídeo estereoscópico son los canales de televisión digital comunes, en este documento denominados adicionalmente Difusión de Vídeo Digital (DVB). DVB se aplica a diversas normas para terrestre, cable, satélite y móvil para transporte y señalización asociada de audio/vídeo, gráficos (subtítulos, etc.) y aplicaciones interactivas (aplicaciones Java de HTML/XML). Los avances actuales en la tecnología de visualización hacen posible introducir vídeo en 3D para una audiencia de mercado masivo. Por lo tanto para posibilitar la distribución amplia de contenido en 3D las normas de DVB deberían ampliarse para permitir la difusión de contenido en 3D.
El contenido en 3D requiere significativamente más almacenamiento, ancho de banda y procesamiento en comparación con contenido en 2D. Puesto que estas soluciones se están investigando para proporcionar una experiencia en 3D con un mínimo de coste adicional y que sea compatible con la base de instalación actual de decodificadores de salón (STB). Una de las soluciones que se está investigando es ampliar los decodificadores de salón avanzados existentes para permitirles reproducir 3D por fotograma empaquetando la vista izquierda y derecha de una imagen estereoscópica en un fotograma en 2D.
El vídeo estereoscópico también requiere datos auxiliares estereoscópicos como subtítulos. En este documento se usarán subtítulos como un ejemplo de datos auxiliares. Los datos auxiliares pueden ser adicionalmente cualquier tipo de datos gráficos adicionales a superponerse en el vídeo principal. La superposición de los subtítulos en el vídeo estéreo requiere cuidado especial al decidir dónde situar los subtítulos en dirección horizontal, vertical y de profundidad en la parte superior del vídeo. Si no se hace apropiadamente la superposición de subtítulo puede interferir con el vídeo de fondo que provoca artefactos visuales y crea indicios de profundidad que entran en conflicto en los bordes de los subtítulos. Esto puede tener lugar cuando la profundidad de los subtítulos es menor que la profundidad del vídeo en la localización del subtítulo. El subtítulo oculta partes del vídeo de modo que el cerebro espera que el subtítulo esté delante del vídeo. Adicionalmente puesto que el subtítulo se copia en la parte superior del vídeo parece como si el subtítulo perforara el vídeo creando artefactos en los bordes del subtítulo.
La colocación correcta de los subtítulos puede hacerse cambiando la disparidad de las imágenes izquierda y derecha de un subtítulo estereoscópico y asegurando que esta disparidad o "profundidad" esté más cerca del espectador que la profundidad del vídeo. Una desventaja de ajustar la disparidad de los subtítulos de esta manera es que requiere procesamiento de las imágenes durante la autoría y que requiere el uso de subtítulos estereoscópicos, esto dobla el ancho de banda y procesamiento en el dispositivo de reproducción.
Un enfoque alternativo es usar subtítulos 2D y copiar el subtítulo en ambas de la parte superior de la imagen izquierda y derecha del vídeo estereoscópico. Esto funciona copiando el subtítulo a través de la parte de la imagen izquierda del vídeo estereoscópico y moviéndolo en una dirección horizontal antes de copiarlo en la parte de la imagen derecha del vídeo estereoscópico. La cantidad de desplazamiento horizontal de los objetos entre la vista izquierda y derecha, normalmente denominado disparidad, determina la profundidad del subtítulo y este valor debería ser superior a la disparidad del vídeo en la localización de los subtítulos.
Un problema con implementar subtítulos estereoscópicos para sistemas basados en DVB es la compatibilidad con la cadena de distribución de vídeo en 2D existente. Una opción es usar subtítulos estereoscópicos que usan el mismo formato de empaquetamiento que el vídeo, por ejemplo de arriba a abajo, lado a lado, etc. Tal empaquetamiento se denomina la disposición auxiliar en este documento.
La Figura 2 muestra un sistema de procesamiento de vídeo en un dispositivo de recepción. El dispositivo puede ser, por ejemplo, un conjunto de TV digital o un decodificador de salón. Una unidad de entrada 201 comprende un
5
10
15
20
25
30
35
40
45
50
55
60
65
demodulador para recibir la señal de difusión de vídeo, por ejemplo desde una red de cable, una antena parabólica, etc. El demodulador recupera el flujo de transporte desde la señal de entrada, que se acopla a una unidad de demultiplexor 202, que también puede incluir un desaleatorizador, para recuperar los diversos flujos de datos y datos de control desde el flujo de transporte. Los flujos de datos se acoplan a un decodificador principal 203 para decodificar los datos de vídeo y de audio, y a un decodificador auxiliar 204 para decodificar datos auxiliares y datos de control. Los decodificadores y elementos adicionales se acoplan mediante un bus de sistema 209 a una unidad de procesamiento central (CPU), un procesador de gráficos 206, una memoria 207, y una etapa de salida 208, por ejemplo de acuerdo con HDMI, o LVDS etc.
En algunas implementaciones la tubería de procesamiento de vídeo y subtítulos son diferentes y separados. Las operaciones de procesamiento y alto ancho de banda tales como procesamiento de decodificación de A/V y gráficos (operaciones de filtro, etc.) se hacen en un ASIC especializado mientras que el procesamiento de información de bajo ancho de banda tal como los subtítulos se hace por un procesador de fin general de baja potencia. Los subtítulos y el vídeo no se combinan hasta el final de la tubería de procesamiento.
Puesto que en algunas implementaciones varios de los bloques en la Figura 200 se combinan en una única unidad de hardware pueden tener lugar algunos problemas imprevistos con el alojamiento de subtítulos en combinación con vídeo en 3D.
Si no hubiera señalización para los subtítulos y los subtítulos están en 2D entonces el dispositivo de reproducción supondría que los subtítulos deberían copiarse tanto en el lado izquierdo como derecho del vídeo, en un caso de este tipo el subtítulo se localizará en la profundidad de pantalla y puede interferir con el vídeo estéreo si el vídeo estéreo en la localización de los subtítulos sale de la pantalla. Se propone usar subtítulos estereoscópicos con una disparidad apropiada entre el subtítulo izquierdo y derecho de manera que los subtítulos estéreo parecen delante del vídeo. Para los subtítulos se usará el mismo método de empaquetamiento que el usado para el vídeo para hacer posible transmitir el subtítulo en la cadena de distribución existente para 2D. Como se ha indicado anteriormente, los datos auxiliares se empaquetan en una disposición auxiliar que corresponde a la disposición principal de los datos de vídeo en 3D.
La Figura 3 muestra disposiciones de vídeo en 3D y datos auxiliares. La Figura muestra una vista izquierda 301 y una vista derecha 302 de vídeo estereoscópico. Las vistas 301, 302 se submuestrean en dirección horizontal en el 50 % para adaptarse en un fotograma en 2D 303. El método de empaquetamiento de la disposición principal se denomina lado a lado (SBS). También son posibles otras disposiciones como de Arriba a Abajo o en tablero de damas. La misma disposición se aplica a los subtítulos en una vista izquierda 304 y una vista derecha 305, que da como resultado la disposición auxiliar 306. Ambas disposiciones principal y auxiliar se transmiten a continuación a un dispositivo de recepción, por ejemplo un dispositivo de reproducción como un decodificador de salón o una TV con receptor integrado.
En una realización del dispositivo de reproducción con un receptor integrado tal como una TV habilitada para 3D, la arquitectura de procesador de vídeo puede ser de acuerdo con la Figura 2, en el que el bloque 206 y 203 están integrados en un ASIC. En primer lugar se analiza un funcionamiento incorrecto de tal realización sin aplicar la invención. En el ASIC el fotograma de vídeo de SBS 307 se dividirá en una parte izquierda 308 y una parte derecha (no mostrado). En primer lugar la parte izquierda se copia y sobreescala de vuelta a su tamaño original 309 antes de que se copie en una memoria intermedia de fotogramas. En la realización los subtítulos se procesarán por el bloque 205, la CPU y se copiarán en la memoria intermedia de fotograma en la parte superior del vídeo. El resultado erróneo 310 para el fotograma izquierdo se muestra en la figura, puesto que el escalamiento y el procesamiento se realizan en el vídeo antes de que se añadan los subtítulos, el subtítulo de SBS izquierdo combinado y derecho combinado terminan ambos en el fotograma izquierdo. Lo mismo puede ocurrir para el fotograma derecho.
Para evitar el resultado erróneo anterior, se proporciona una realización del dispositivo de reproducción con un orden de procesamiento modificado. Los subtítulos de SBS deben copiarse en el vídeo de SBS antes de las partes de imagen izquierda - y derecha del vídeo de SBS y los subtítulos se copian a una memoria intermedia de fotograma y se escalan de vuelta al tamaño original.
La Figura 4 muestra el procesamiento de una disposición auxiliar. La Figura proporciona una representación del procesamiento usando el orden de procesamiento modificado anterior. En primer lugar se muestra el vídeo en la disposición principal 401 según se decodifica por el decodificador de A/V 203, que se copia en una memoria de fotograma. El subtítulo en la disposición auxiliar 404 se decodifica por el decodificador de datos 204 y posteriormente por la CPU 205 copiado en la imagen de vídeo en la memoria de fotograma. A continuación, para el fotograma izquierdo de la salida estereoscópica, el procesador de gráficos 206 copia la parte izquierda del vídeo y subtítulo combinados de la memoria de fotograma, como se indica por el rectángulo 402. A continuación el procesador de gráficos 206 escala dicha parte izquierda hasta su tamaño original y copia el resultado en la memoria intermedia de fotogramas de salida. Se muestra la vista izquierda resultante 403.
Se observa que la calidad de los subtítulos en la salida está limitada como puede observarse en la vista izquierda 403. Esto tiene sentido ya que los subtítulos tienen que sub-muestrearse al 50 % antes de que se transmitan y
5
10
15
20
25
30
35
40
45
50
55
60
65
sobreescalen al tamaño normal en el dispositivo de reproducción. Además, en el dispositivo de reproducción comúnmente disponible no es sencillo cambiar el orden de etapas de procesamiento para permitir que se procesen los subtítulos junto con el video, ya que el ancho de banda del bus de sistema 209 puede no ser suficientemente alto para soportar el copiado frecuente de los datos de imagen de vídeo a y desde el ASIC a la memoria. Por lo tanto, aunque esta configuración proporciona subtítulos correctos, puede no ser satisfactoria en cada situación.
Los anteriores problemas tienen lugar debido a las diferencias en la manera en la que se procesan los subtítulos y vídeo en diferentes dispositivos de reproducción. Para alojar subtítulos mejorados y procesamiento eficaz, se propone no usar únicamente el subtítulo estereoscópico en la disposición auxiliar, sino proporcionar adicionalmente un subtítulo en 2D y señalizar el flujo de manera que el dispositivo de reproducción pueda determinar cómo componer el subtítulo en la parte superior del vídeo estéreo sin los artefactos producidos por conflictos de profundidad.
En sistemas prácticos, como sistemas de DVB, hay varias maneras para transmitir gráficos o texto tales como subtítulos. El más común es usar la norma de subtítulos de DVB (ETSI EN 300 743) o datos adicionales como se describe en el Perfil de Difusión MHEG-5 (Grupo de Expertos en Multimedia e Hipermedia; ETSI ES 202 184), otros enfoques pueden usar Teletexto. Los parámetros de señalización pueden transmitirse como se define en la norma DVB-SI (Especificación de DVB para información de servicio; ETSI EN 300 468). Tales sistemas requieren una solución para indicar cómo superponer gráficos, tales como subtítulos en el vídeo estereoscópico de una manera que no requiera cambios a plataformas de hardware existentes de dispositivos de reproducción compatibles con DVB. En la sección a continuación se analizan diversas opciones para señalizar formato de los datos auxiliares y la disparidad auxiliar.
En un decodificador de salón o TV compatible con DVB los subtítulos se manejan de manera separada del vídeo por un procesador de potencia inferior de fin general que también se preocupa de la detección e interpretación de los parámetros de señalización según se transmiten. Por lo tanto la solución adecuada es llevar la señalización de disparidad dentro del flujo de subtítulo o en la señalización de subtítulo a diferencia de señalizar en el flujo de vídeo elemental.
La norma de subtítulo de DVB define tres tipos de información de señalización denominados segmentos para señalizar la situación de objetos de texto o gráficos. El segmento de definición de visualización señaliza el tamaño de visualización pretendido. La composición de página señaliza cómo se sitúan el texto y gráficos en el fotograma de vídeo. Un segmento de composición de región divide el fotograma en dos regiones no solapantes. Los objetos que contienen texto o gráficos pueden usarse y volverse a usar en diferentes páginas y regiones.
Puesto que en subtítulos de DVB las regiones pueden localizarse en diferentes posiciones en un fotograma la disparidad por región para los gráficos o texto en esa región puede ser diferente. En una realización la disparidad auxiliar se transfiere por región, por ejemplo como un parámetro de compensación. Lo siguiente describe opciones para hacer esto de una manera compatible.
La cantidad de compensación requerida puede ser una disparidad bastante limitada entre la imagen izquierda y la imagen derecha de 100 píxeles que normalmente será suficiente. Ya que el desplazamiento puede hacerse simétricamente el campo que mantiene la disparidad únicamente necesita indicar la mitad del desplazamiento de píxel. Por lo que 6 bits deberían ser suficientes para la mayoría de los fines.
La Figura 5 muestra una estructura de composición de página. La Figura muestra una tabla que representa la estructura de composición de página 50 en una secuencia de campos. Se indica el tipo de segmento y longitud de segmento, y la página para la que se aplica la estructura en el campo page_id. En una realización la presencia de datos de disparidad se indica en un campo adicional reservado A 51.
En una realización los datos de disparidad auxiliares comprenden datos de disparidad de región para al menos una región en el área de superposición indicativos de la disparidad de los datos auxiliares en la respectiva región cuando se superponen en la vista izquierda y la vista derecha. La tabla en la Figura 5 muestra una definición para un número de regiones en un bucle While. Para cada región se proporciona una identificación en el campo Region_id, y la posición en los campos de dirección horizontal y vertical.
En una realización el flujo de datos auxiliar comprende la estructura de composición de página 50 que define una composición de una página de datos auxiliares a visualizarse en el área de superposición. La estructura de composición de página 50 tiene al menos una definición de región 53, que define una localización y los datos de disparidad de región de una respectiva región.
Mirando al segmento de definición de visualización en la Figura 7 y al segmento de composición de región en la Figura 8 observamos únicamente un pequeño número de bits disponible, no suficientes para indicar de manera precisa un campo de disparidad. En el segmento de composición de página mostrado en la Figura 5 sin embargo, hay un bucle por región, definiendo el bucle una secuencia de definiciones de región 53. En este bucle para cada región hay 8 bits reservados en el campo reservado B 52. Los 8 bits son suficientes para indicar la disparidad o
5
10
15
20
25
30
35
40
45
50
55
60
65
compensación aplicada para esa región. El valor de la disparidad auxiliar se indica en el campo adicional reservado B 52. En este campo Subtitle_disparity puede representarse por 0-127 para una disparidad positiva (vista izquierda de desplazamiento a la izquierda y vista derecha a la derecha), y 128-255 para disparidad negativa (vista izquierda de desplazamiento a la derecha y vista derecha a la izquierda).
Además de recibir la disparidad de subtítulo el dispositivo de reproducción debe poder reconocer qué flujo de subtítulo lleva datos de disparidad. En una realización en DVB se usa una tabla de mapa de programa (DVB Especificación para Información de Servicio; ETSI EN 300 468). La tabla de mapa de programa o PMT define qué flujos son parte del programa en la difusión. La PMT también incluye un denominado "descriptor de componente" para describir los diversos flujos de manera que el dispositivo de reproducción tiene conocimiento de qué datos están presentes en cada flujo.
La Figura 6 muestra (una parte de) un descriptor de componente. La Figura muestra una tabla de descriptor de componente 60 que define los contenidos de un flujo. El campo de contenido de flujo identifica el tipo de datos, por ejemplo 0 para vídeo, 1 para audio y 2 para datos de subtítulo. El component_type 61 indica el formato, en el caso de subtítulos indica qué clase de subtítulos, por ejemplo subtítulos para una pantalla 21:9 o subtítulos pretendidos para problemas de audición. Una lista completa de valores puede hallarse en la tabla 26 de la ETSI EN 300 468. Se ha de incluir un nuevo valor de tipo de componente, por ejemplo 0x14, para indicar que un flujo de subtítulo lleva datos de disparidad. Por lo tanto, en el flujo de transporte, se incluye el flujo de datos auxiliar adicional, mientras que el nuevo valor de tipo de componente proporciona un indicador de formato de disparidad indicativo del flujo de datos auxiliar adicional. Se observa que el indicador de formato de disparidad puede proporcionarse como alternativa de una manera diferente, ya sea añadiendo o adjuntando respectivos datos de control en el flujo de transporte.
En una realización los datos de control del flujo de transporte incluyen un indicador de formato en 3D de acuerdo con una extensión en 3D del formato de transmisión en 2D. El indicador de formato en 3D es indicativo de dicha disposición principal de los datos de vídeo en 3D de la vista izquierda y la vista derecha en el fotograma en 2D. Un ejemplo de una norma de transmisión en 2D es la norma ISO/IEC 14496-10 anteriormente mencionada. En una modificación A el indicador de formato en 3D puede añadirse a la norma, por ejemplo en un nuevo mensaje de información de mejora complementaria (SEI) que indica la intercalación espacial. El indicador de formato en 3D puede definir adicionalmente el formato de la información auxiliar.
En una realización adicional la disposición auxiliar se indica únicamente por el indicador de formato en 3D indicativo de la disposición principal. Por lo tanto no hay información de control adicional incluida en el flujo de transporte que indica explícitamente la disposición auxiliar, distinta del indicador de formato en 3D que define básicamente la disposición principal. El receptor tiene que suponer que la información auxiliar debe tener la disposición auxiliar que corresponde a la disposición principal, cuando no está presente indicador adicional.
Obsérvese que un dispositivo de reproducción no apto para 3D existente no reconocerá el nuevo tipo de componente como se define en la Figura 6 y por lo tanto usará el flujo de subtítulo en 2D y el vídeo en 2D. Por lo tanto si el vídeo y subtítulo se formatean como de lado a lado o de arriba abajo entonces esto funcionará en un dispositivo heredado de este tipo, por ejemplo un decodificador de salón apto para HD existente conectado a una TV en 3D. El STB superpondrá correctamente los subtítulos, mientras que la TV en 3D dividirá la imagen, y sobreescalará las vistas izquierda y derecha.
La Figura 7 muestra una estructura de definición de visualización. La Figura muestra una tabla que representa la estructura de definición de visualización 70 en una secuencia de campos. Se indica el tipo de segmento y longitud de segmento, y la página para la que se aplica la estructura en el campo page_id. La estructura define el área de superposición para una página de datos auxiliares, según se define en los campos display_window, que definen una posición del área de superposición. Únicamente están disponibles unos pocos bits para indicar la disposición de datos auxiliares en un campo reservado 71.
En una alternativa se define un campo adicional en el segmento de definición de visualización. En la realización el flujo de datos auxiliar comprende la estructura de definición de visualización 70. En el campo adicional se definen los datos de disparidad auxiliares que se aplican al área de superposición.
La Figura 8 muestra una estructura de composición de región. La Figura muestra una tabla de segmento de composición de región que representa la estructura de composición de región 80 en una secuencia de campos. Se indica el tipo de segmento y longitud de segmento, y la página para la que se aplica la estructura en el campo page_id. En un número de campos están disponibles bits para indicar la disposición de datos auxiliares, en particular 3 bits en un campo reservado-1 81, 2 bits en un campo reservado-2 82, 2 bits en un campo reservado-3 83, y 4 bits en un campo reservado-4 84.
Para definir el formato de disparidad en el segmento de composición de región, el segmento de composición de región mostrado en la Figura 8 tiene 4 bits reservados por objeto como se define en una secuencia de definiciones de objeto 85 en la parte inferior, teniendo cada objeto un campo reservado-4. Esto por sí mismo puede ser suficiente
5
10
15
20
25
30
35
40
45
50
55
60
para indicar una disparidad. Sin embargo, como alternativa, estos podrían usarse para indicar la compensación o disparidad por objeto con relación a la posición de la región, en precisión de píxel.
En el resto de la tabla de segmento de composición de región 80 hay algunos otros campos reservados. Estos otros campos reservados 81, 82, 83 podrían usarse para indicar la compensación por región. Esto podría ser menos preciso en por ejemplo precisión de doble píxel usando los 3 bits reservados en el campo 81, mientras que 2 bits en el campo 82 indican el signo de la compensación y los 2 bits en el campo 83 indican que el segmento de región contiene campos de compensación.
Otra realización alternativa es definir un nuevo tipo de segmento, el descriptor de disparidad estereoscópica. Con un nuevo tipo de segmento no estamos limitados a usar campos reservados.
La Figura 9 muestra un tipo de segmento para el descriptor de disparidad estereoscópica. La Figura muestra una tabla 90. El nuevo tipo de segmento, denominado un segmento de disparidad, tiene campos correspondientes (tal como se conoce a partir de ETSI EN 300 743) como otros segmentos como se muestra en las Figuras 7 y 8. En un primer nuevo campo 91 se proporciona un valor de disparidad de subtítulo. Subtitle_disparity puede indicarse por 0127 para disparidad positiva (desplazar la vista izquierda a la izquierda y la vista derecha a la derecha), y 128-255 para disparidad negativa (desplazar la vista izquierda a la derecha y vista derecha a la izquierda). En nuevos campos adicionales puede proporcionarse otro valor de disparidad, como un segundo nuevo campo 92 para la disparidad de datos de visualización en pantalla.
La OSD_disparity puede usar la misma definición que disparidad de subtítulo, pero puede usarse por el autor de contenido como una pista para que el dispositivo de reproducción determine dónde situar cualquier OSD. Los valores 0 y FF pueden indicar que no están presentes datos auxiliares.
En una realización adicional, se analizará el manejo de visualizaciones en pantalla (OSD). Durante operación normal, un receptor puede tener que visualizar alguna clase de mensaje de visualización en pantalla (OSD) para el usuario en respuesta a un evento provocado por cualquiera del usuario, el sistema CI, o desde el canal de difusión. Durante una transmisión en 3D, visualizar esa misma OSD en la profundidad de pantalla incorrecta puede provocar que no sea legible. Durante una transmisión en 3D es esencial que el receptor tenga conocimiento de qué profundidad situar una OSD y si no puede hallarse profundidad adecuada, el receptor puede compensar todo el vídeo "hacia atrás" o conmutar a 2D. La información que un receptor necesita acerca de la transmisión es el "volumen" de la instantánea en 3D, que puede expresarse en términos de disparidad "min y max". La disparidad "máxima" es la distancia lejos del usuario, un número positivo grande, y la disparidad "mínima" es la distancia hacia el usuario, un número negativo grande. La disparidad mínima puede usarse por el receptor para asegurar que su OSD está incluso más cerca al usuario. Sin embargo, si se hace demasiado cerca, la disparidad máxima puede usarse de modo que el receptor puede elegir desplazar el vídeo entero hacia atrás, detrás de la pantalla. Sin embargo, un receptor nunca puede desplazar el vídeo más allá del "infinito" por lo que, en ese caso, el receptor puede elegir conmutar el vídeo a 2D. En la elección de dónde comunicar la disparidad min y max, pueden tenerse en cuenta las capacidades del difusor. Un difusor, ciertamente durante transmisiones en directo, nunca puede transmitir en tiempo real, la disparidad min y max exacta de la transmisión, ya que esta cambia muy rápido. También, a partir de experimentos, es conocido que la OSD debería también no cambiar disparidad rápidamente, especialmente si únicamente comunica un mensaje que es constante para varios minutos. Basándose en las capacidades y capacidad de legibilidad de los difusores, un lugar lógico para la disparidad min y max se encuentra en la EIT o, si el servicio es siempre 3D, en la SDT. La EIT es el lugar apropiado si cualquiera del servicio conmuta entre 2D y 3D o si los eventos pueden cambiar enormemente los intervalos de disparidad. La SDT es un mejor lugar, si el servicio es siempre 3D y el difusor se mantiene a sí mismo en ciertos límites de disparidad. La PMT también es una posible localización, únicamente si el servicio no es siempre 3D, pero si cambia, cambia después de muchos eventos; básicamente durante cambios de "tipo de flujo", que provocan una actualización de versión de PMT.
En el presente documento proporcionamos una implementación detallada de la realización para manejar la visualización de OSD. Se observa que estas mediciones para implementar el manejo de OSD pueden tomarse independientemente del manejo de subtítulo. En el caso donde un receptor desee superponer información de visualización en pantalla en la parte superior de 3D estereoscópico de manera apropiada, necesita información acerca del intervalo de profundidad del vídeo en 3D. Este descriptor identifica el intervalo de profundidad mediante desplazamientos de píxel. Los desplazamientos de píxel, identificados en este punto, junto con la resolución de vídeo, definen el recinto volumétrico del vídeo durante el evento en el que está contenido este descriptor. Con la información volumétrica del vídeo, un receptor puede elegir un número de maneras para visualizar de manera apropiada la información de OSD. Puede desplazar todo el vídeo hacia atrás, detrás de la pantalla antes de visualizar la OSD delante. Puede determinar también que el volumen es demasiado grande y necesita ir a 2D. Puede determinar también que el volumen es lo suficientemente pequeño justamente para colocar la OSD al frente sin efectuar la profundidad del vídeo.
5
10
15
20
25
30
35
40
45
50
55
Sintaxis
Tamaño Tipo
video depth range descriptor() {
descriptor_tag (opcional)
8 uimsbf
descriptor_length (opcional)
8 uimsbf
descriptor_tag_extension (opcional)
8 uimsbf
maximum horizontal shift
4 uimsbf
minimum horizontal shift }
8 tcimsbf
Los campos relevantes son Maximum_horizontal_shift identifica el desplazamiento horizontal más grande, que corresponde a lo "más lejos", mientras que minimum_horizontal_shift identifica el desplazamiento horizontal más pequeño que corresponde al objeto "más cercano".
Por ejemplo, los valores de desplazamiento horizontal indican un desplazamiento horizontal en número de píxeles en la dirección horizontal en cada vista. Un valor de cero significa que no se aplica desplazamiento. En caso de que el valor de desplazamiento horizontal sea negativo, todos los píxeles identificados se desplazan a la derecha en la vista izquierda y a la izquierda en la vista derecha. En el caso de que el valor de desplazamiento horizontal sea positivo, todos los píxeles identificados se desplazan a la izquierda en la vista izquierda y a la derecha en la vista derecha. El tamaño de un píxel es uno de la anchura de visualización horizontal de píxeles, según se identifica en el nivel de PES por el vídeo. Sin embargo pueden considerarse otras unidades (por ejemplo, porcentaje de tamaño de pantalla).
Volviendo a las realizaciones que describen segmentos de disparidad, en una realización adicional el segmento de disparidad se aplica para transportar disparidad de subtítulo, es decir en un flujo de datos de vídeo que tiene el subtítulo en 2D con datos de disparidad auxiliares, que puede o no combinarse proporcionando la disposición auxiliar de los mismos subtítulos. Debido a que un segmento de disparidad de este tipo se encuentra en el flujo elemental empaquetado (PES), pueden transmitirse muchos diferentes por segundo. Como alternativa, los segmentos de disparidad podrían contener una lista de disparidades con información de temporización relacionada implícita o explícita con relación a la temporización de inicio. Ventajosamente se consigue un control de la disparidad muy dinámico. Como se muestra en la Figura 9, el segmento de disparidad contendrá información de disparidad adecuada y puede contener adicionalmente disparidad de OSD. El segmento podría extenderse también para identificar la disparidad de regiones y/u objetos específicos. En un segmento de disparidad de este tipo se identifican regiones mediante el respectivo region_id. El page_id de la región real ha de ser igual al page_id del nuevo segmento de disparidad. Adicionalmente, en el segmento extendido se identifican objetos mediante el respectivo object_id. En el segmento de disparidad extendido podría haber listas de objetos y regiones, cada uno con su disparidad preferida. Para el comportamiento dinámico de la disposición auxiliar de la posición de profundidad, puede conseguirse actualizando region_composition_segments con nuevos valores de las posiciones horizontales de los objetos, debido a que la posición horizontal corresponde a disparidad.
La ventaja del comportamiento dinámico es que la disparidad (profundidad) de los subtítulos puede actualizarse en una base fotograma a fotograma. Esto es útil por las siguientes razones. Los conflictos de profundidad entre vídeo y subtítulos deberían evitarse ya que realmente duele. Sin embargo, poner subtítulos demasiado delante de la pantalla para evitar cualquier posible conflicto es extremadamente poco cómodo para el espectador. Por lo tanto, los inventores han observado la necesidad de que los subtítulos se muevan atrás y adelante suavemente. También, mientras se ve una película, los ojos del espectador cambian entre el personaje que habla y los subtítulos. Es difícil cambiar hacia atrás y delante si el subtítulo está a una profundidad diferente que la del personaje. Por lo que, es mejor poner los subtítulos a la misma profundidad que el personaje (si es posible mientras se intenta evitar conflictos de profundidad). Pero el personaje puede moverse de la posición de profundidad, por lo que los subtítulos deberían moverse con él.
En una realización el flujo de datos auxiliar comprende una estructura de composición de región que define una composición de una región en una página de datos auxiliares a visualizarse en el área de superposición, la estructura de composición de región comprende una secuencia de estructuras de objeto, que define una posición de un objeto gráfico, e incluyendo las estructuras de objeto un objeto de disparidad que comprende los datos de disparidad auxiliares.
El nuevo object_type se define para llevar los datos de disparidad. En DVB los subtítulos los datos de píxel para el subtítulo se llevan en object_data_fragments. La norma 2D soporta objetos de mapa de bits o de personaje. Esto podría ampliarse para 3D con un nuevo objeto que únicamente lleva datos de disparidad. La sección de datos del objeto puede consistir en un único byte para indicar la disparidad de la página asociada y regiones o un mapa de bits completo que describe la disparidad por píxel de una región asociada o incluso un objeto.
En una realización el flujo de datos auxiliar comprende objetos, objetos que definen datos de píxel de objetos gráficos a superponer, por ejemplo como se ha definido anteriormente. El flujo de datos auxiliar y el flujo de datos auxiliar adicional ahora usan referencias a los mismos objetos para compartir los respectivos mismos objetos entre la
5
10
15
20
25
30
35
40
45
50
vista izquierda auxiliar, la vista derecha auxiliar y/o la versión en 2D de los datos auxiliares. Las referencias pueden aplicarse al otro flujo, por ejemplo proporcionan información de direccionamiento relativa que referencia la página correspondiente del otro flujo. Como alternativa ambos flujos pueden combinarse en un único flujo multiplexado.
La señalización en el DVB-flujo de subtítulo para indicar una compensación o disparidad de los subtítulos es una solución adecuada pero tiene la desventaja de que no proporciona directamente señalización de disparidad para MHEG o teletexto, ambos de los cuales pueden usarse también para subtítulos.
La Figura 10 muestra un paquete de datos de flujo elemental empaquetado (PES) que define disparidad. La Figura muestra una tabla 95 que representa un paquete de PES. Como tal, el paquete de datos de flujo elemental empaquetado (PES) se define en ISO/IEC 13818-1. En una realización alternativa proponemos definir un nuevo paquete de datos de PES, señalizado de manera separada en la PMT que define la disparidad por fotograma de vídeo o indicación de tiempo de presentación (PTS), por ejemplo como se indica en el campo adicional 96. Basándose en este descriptor el dispositivo de reproducción puede determinar cuánta compensación aplicar al subtítulo o a los objetos de gráficos.
El campo Video_min_disparity puede tener un valor de 0-255 para indicar la disparidad negativa del vídeo en PTS de este paquete de PES (desplazamiento del fotograma izquierdo a la derecha, y del fotograma derecho a la izquierda). Un campo Data_identifier 97 puede indicar el nuevo tipo de paquete de PES. Un nuevo valor puede asignarse para el identificador de datos en uno de los campos reservados para indicar "descriptor de señalización de disparidad".
La Figura 11 muestra valores de identificador de datos para paquetes de PES. La Figura muestra una tabla 98 que tiene valores que indican diversos tipos de paquetes de PES. El valor de identificador de datos es un valor de 8 bits que identifica el tipo de datos llevados en un paquete de PES. Se ha de añadir un nuevo valor para indicar "descriptor de señalización de disparidad".
Se ha de observar que la invención puede implementarse en hardware y/o software, usando componentes programables. Un método para implementar la invención tiene las etapas que corresponden a las funciones definidas para el sistema según se describen con referencia a la Figura 1.
Aunque la invención se ha explicado principalmente por realizaciones usando difusión mediante DVB, la invención también es adecuada para cualquier distribución de vídeo mediante un canal digital, por ejemplo mediante la internet.
Se apreciará que la descripción anterior por claridad ha descrito realizaciones de la invención con referencia a diferentes unidades funcionales y procesadores. Sin embargo, será evidente que cualquier distribución adecuada de funcionalidad entre diferentes unidades funcionales o procesadores puede usarse sin desviarse de la invención. Por ejemplo, la funcionalidad ilustrada para realizarse por unidades separadas, procesadores o controladores puede realizarse por el mismo procesador o controladores. Por lo tanto, las referencias a unidades funcionales específicas se han de observar únicamente como referencias a medios adecuados para proporcionar la funcionalidad descrita en lugar de indicativas de una estructura u organización lógica o física estricta. La invención puede implementarse en cualquier forma adecuada incluyendo hardware, software, firmware o cualquier combinación de estos.
Se observa, que en este documento la expresión 'que comprende' no excluye la presencia de otros elementos o etapas a los enumerados y la palabra 'un' o 'una' que precede un elemento no excluye la presencia de una pluralidad de tales elementos, que cualquier signo de referencia no limita el alcance de las reivindicaciones, que la invención puede implementarse por medio de tanto hardware como software, y que varios 'medios' o 'unidades' pueden representarse por el mismo elemento de hardware o software, y un procesador puede cumplir la función de una o más unidades, posiblemente en cooperación con elementos de hardware. Además, la invención no está limitada a las realizaciones, y la invención radica en cada una y toda característica novedosa o combinación de características anteriormente descritas o indicadas en las reivindicaciones dependientes mutuamente diferentes.

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Método de procesamiento de información de vídeo tridimensional [3D] para generar un flujo de transporte de datos para la transferencia de la información de vídeo en 3D compatible con una cadena de distribución de vídeo en 2D predefinida,
    - comprendiendo la información de vídeo en 3D datos de vídeo en 3D y datos auxiliares,
    comprendiendo los datos de vídeo en 3D al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D,
    estando dispuestos los datos auxiliares para visualización en un área de superposición en los datos de vídeo en 3D, comprendiendo el método
    - disponer los datos de vídeo en 3D de la vista izquierda y la vista derecha en un fotograma en 2D para datos de vídeo principal en una disposición principal,
    - proporcionar una versión en 2D de los datos auxiliares y datos de disparidad auxiliares indicativos de la disparidad a aplicarse a la versión en 2D de datos auxiliares cuando se superponen en la vista izquierda y la vista derecha y disponer los datos auxiliares de la versión en 2D en un flujo de datos auxiliar,
    - proporcionar datos de control que comprenden parámetros para un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares,
    - ensamblar el flujo de transporte de datos que incluye los datos de vídeo en 3D en la disposición principal, el flujo de datos auxiliar, los datos de disparidad auxiliares y los datos de control,
    caracterizado por que el método comprende adicionalmente
    - proporcionar una vista izquierda auxiliar y una vista derecha auxiliar de los datos auxiliares a superponerse en la vista izquierda y la vista derecha de los datos de vídeo en 3D,
    - disponer los datos auxiliares de la vista izquierda auxiliar y la vista derecha auxiliar en un fotograma en 2D para datos auxiliares en una disposición auxiliar que corresponde a la disposición principal,
    - disponer los datos auxiliares de la disposición auxiliar en un flujo de datos auxiliar adicional, e
    - incluir, en el flujo de transporte, el flujo de datos auxiliar adicional y un indicador de formato de disparidad
    indicativo del flujo de datos auxiliar adicional.
  2. 2. Método de acuerdo con la reivindicación 1, en el que los datos de control incluyen un indicador de formato en 3D, indicativo de la disposición principal de los datos de vídeo en 3D de la vista izquierda y la vista derecha en el fotograma en 2D.
  3. 3. Método de acuerdo con la reivindicación 2, en el que la disposición auxiliar se indica únicamente por el indicador de formato en 3D indicativo de la disposición principal.
  4. 4. Método de acuerdo con la reivindicación 1, en el que los datos de disparidad auxiliares comprenden datos de disparidad de región para al menos una región en el área de superposición indicativos de la disparidad de los datos auxiliares en la respectiva región cuando se superponen en la vista izquierda y la vista derecha.
  5. 5. Método de acuerdo con la reivindicación 4, en el que el flujo de datos auxiliar comprende una estructura de
    composición de página que define una composición de una página de datos auxiliares a visualizarse en el área de
    superposición, comprendiendo la estructura de composición de página al menos una definición de región, que define una localización y los datos de disparidad de región de una respectiva región.
  6. 6. Método de acuerdo con la reivindicación 4, en el que el flujo de datos auxiliar comprende una estructura de composición de región que define una composición de una región en una página de datos auxiliares, comprendiendo la estructura de composición de región los datos de disparidad de región de la región.
  7. 7. Método de acuerdo con la reivindicación 1, en el que el flujo de datos auxiliar comprende una estructura de composición de región que define una composición de una región en una página de datos auxiliares a visualizarse en el área de superposición, la estructura de composición de región comprende una secuencia de estructuras de objeto, que define una posición de un objeto gráfico, e incluyendo las estructuras de objeto un objeto de disparidad que comprende los datos de disparidad auxiliares, o el flujo de datos auxiliar comprende una definición de visualización, que define el área de superposición para una página de datos auxiliares, definiendo la definición de visualización una posición del área de superposición y los datos de disparidad auxiliares.
  8. 8. Método de acuerdo con la reivindicación 1, en el que el flujo de datos auxiliar comprende objetos, objetos que definen datos de píxel de objetos gráficos a superponerse, y el flujo de datos auxiliar y el flujo de datos auxiliar adicional comprenden referencias a los mismos objetos para compartir los respectivos mismos objetos entre la vista izquierda auxiliar, la vista derecha auxiliar y/o la versión en 2D de los datos auxiliares.
  9. 9. Método de acuerdo con la reivindicación 1, en el que el flujo de datos de transporte comprende un tipo de segmento adicional, comprendiendo el tipo de segmento adicional un descriptor de disparidad estereoscópico que comprende los datos de disparidad auxiliares.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
  10. 10. Método de acuerdo con la reivindicación 1, en el que el flujo de datos de transporte comprende paquetes de datos de flujo elemental empaquetado [PES] que comprenden los datos de disparidad auxiliares.
  11. 11. Método de acuerdo con la reivindicación 1, en el que los datos auxiliares comprenden subtítulos.
  12. 12. Dispositivo (100) para procesar información de vídeo tridimensional [3D] para generar un flujo de transporte de datos para la transferencia de la información de vídeo en 3D compatible con una cadena de distribución de vídeo en 2D predefinida,
    - comprendiendo la información de vídeo en 3D datos de vídeo en 3D y datos auxiliares,
    comprendiendo los datos de vídeo en 3D al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D,
    estando dispuestos los datos auxiliares para visualización en un área de superposición en los datos de vídeo en 3D, comprendiendo el dispositivo un procesador de vídeo (103) para
    - disponer los datos de vídeo en 3D de la vista izquierda y la vista derecha en un fotograma en 2D para datos de vídeo principal en una disposición principal,
    - proporcionar una versión en 2D de los datos auxiliares y datos de disparidad auxiliares indicativos de la disparidad a aplicarse a la versión en 2D de datos auxiliares cuando se superponen en la vista izquierda y la vista derecha y disponer los datos auxiliares de la versión en 2D en un flujo de datos auxiliar,
    - proporcionar datos de control que comprenden parámetros para un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares,
    - ensamblar el flujo de transporte de datos que incluye los datos de vídeo en 3D en la disposición principal, el flujo de datos auxiliar, los datos de disparidad auxiliares y los datos de control,
    caracterizado por que el procesador de vídeo está dispuesto adicionalmente para
    - proporcionar una vista izquierda auxiliar y una vista derecha auxiliar de los datos auxiliares a superponerse en la vista izquierda y la vista derecha de los datos de vídeo en 3D,
    - disponer los datos auxiliares de la vista izquierda auxiliar y la vista derecha auxiliar en un fotograma en 2D para datos auxiliares en una disposición auxiliar que corresponde a la disposición principal,
    - disponer los datos auxiliares de la disposición auxiliar en un flujo de datos auxiliar adicional, e
    - incluir, en el flujo de transporte, el flujo de datos auxiliar adicional y un indicador de formato de disparidad indicativo del flujo de datos auxiliar adicional.
  13. 13. Señal para transmitir información de vídeo tridimensional [3D],
    - comprendiendo la información de vídeo en 3D datos de vídeo en 3D y datos auxiliares,
    comprendiendo los datos de vídeo en 3D al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D,
    estando dispuestos los datos auxiliares para visualización en un área de superposición en los datos de vídeo en 3D, comprendiendo la señal
    - los datos de vídeo en 3D de la vista izquierda y la vista derecha en un fotograma en 2D para datos de vídeo principal en una disposición principal,
    - una versión en 2d de los datos auxiliares y datos de disparidad auxiliares indicativos de la disparidad a aplicarse a la versión en 2D de datos auxiliares cuando se superponen en la vista izquierda y la vista derecha y disponer los datos auxiliares de la versión en 2D en un flujo de datos auxiliar,
    - comprendiendo los datos de control parámetros para un receptor para posibilitar que el receptor reproduzca los datos de vídeo principal y superponga los datos auxiliares, y
    - un flujo de transporte de datos que incluye los datos de vídeo en 3D en la disposición principal, los datos auxiliares y los datos de control para transmisión compatible con una cadena de distribución de vídeo en 2D predefinida,
    caracterizado por que la señal comprende adicionalmente
    - una vista izquierda auxiliar y una vista derecha auxiliar de los datos auxiliares a superponerse en la vista izquierda y la vista derecha de los datos de vídeo en 3D,
    - los datos auxiliares de la vista izquierda auxiliar y la vista derecha auxiliar en un fotograma en 2D para datos auxiliares en una disposición auxiliar que corresponde a la disposición principal,
    - los datos auxiliares de la disposición auxiliar en un flujo de datos auxiliar adicional,
    - y, en el flujo de transporte, el flujo de datos auxiliar adicional, y un indicador de formato de disparidad indicativo del flujo de datos auxiliar adicional.
  14. 14. Receptor (110) para procesar información de vídeo tridimensional [3D] desde un flujo de transporte compatible con una cadena de distribución de vídeo en 2D predefinida,
    - comprendiendo la información de vídeo en 3D datos de vídeo en 3D y datos auxiliares,
    comprendiendo los datos de vídeo en 3D al menos una vista izquierda y una vista derecha a visualizarse para los respectivos ojos de un espectador para generar un efecto en 3D,
    estando dispuestos los datos auxiliares para visualización en un área de superposición en los datos de vídeo en 3D, caracterizado por que el receptor comprende
    - una unidad de entrada (112) para recibir la señal (111) como se define en la reivindicación 13, y
    - un procesador de vídeo (113) para
    recuperar los datos auxiliares desde el flujo de datos auxiliar, mientras descarta los datos auxiliares en la disposición auxiliar proporcionados en el flujo de datos auxiliar adicional, y generar datos de superposición para 5 visualizar en el área de superposición en los datos de vídeo en 3D basándose en la versión en 2D de los datos
    auxiliares y los datos de disparidad auxiliares.
  15. 15. Producto de programa informático para procesar información de vídeo tridimensional [3D], programa que es operativo para provocar que un procesador realice el método de acuerdo con una cualquiera de las reivindicaciones 10 1 a 11.
ES11743369.8T 2010-07-12 2011-07-06 Datos auxiliares en difusión de vídeo en 3D Active ES2670663T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP10169203 2010-07-12
EP10169203A EP2408211A1 (en) 2010-07-12 2010-07-12 Auxiliary data in 3D video broadcast
EP10188536 2010-10-22
EP10188536 2010-10-22
PCT/IB2011/052993 WO2012007876A1 (en) 2010-07-12 2011-07-06 Auxiliary data in 3d video broadcast

Publications (1)

Publication Number Publication Date
ES2670663T3 true ES2670663T3 (es) 2018-05-31

Family

ID=44501769

Family Applications (1)

Application Number Title Priority Date Filing Date
ES11743369.8T Active ES2670663T3 (es) 2010-07-12 2011-07-06 Datos auxiliares en difusión de vídeo en 3D

Country Status (11)

Country Link
US (1) US9986220B2 (es)
EP (1) EP2594079B1 (es)
JP (1) JP5960133B2 (es)
KR (1) KR101819736B1 (es)
CN (1) CN103026713B (es)
BR (1) BR112013000580B1 (es)
ES (1) ES2670663T3 (es)
MX (1) MX2013000348A (es)
RU (1) RU2589307C2 (es)
TW (1) TWI568239B (es)
WO (1) WO2012007876A1 (es)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102484729B (zh) * 2009-04-07 2016-08-24 Lg电子株式会社 广播发送器、广播接收器及其3d视频数据处理方法
JP2013066075A (ja) * 2011-09-01 2013-04-11 Sony Corp 送信装置、送信方法および受信装置
EP2806644A1 (en) * 2012-01-18 2014-11-26 Panasonic Corporation Transmission device, video display device, transmission method, video processing method, video processing program, and integrated circuit
CN104137537B (zh) * 2012-02-27 2016-12-14 索尼公司 图像处理装置及图像处理方法
WO2013152784A1 (en) * 2012-04-10 2013-10-17 Huawei Technologies Co., Ltd. Method and apparatus for providing a display position of a display object and for displaying a display object in a three-dimensional scene
US9544566B2 (en) * 2012-12-14 2017-01-10 Qualcomm Incorporated Disparity vector derivation
US9716737B2 (en) * 2013-05-08 2017-07-25 Qualcomm Incorporated Video streaming in a wireless communication system
JP6281126B2 (ja) 2013-07-26 2018-02-21 パナソニックIpマネジメント株式会社 映像受信装置、付加情報表示方法および付加情報表示システム
WO2015033501A1 (ja) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
US9906843B2 (en) 2013-09-04 2018-02-27 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method, and display system for providing additional information to be superimposed on displayed image
EP3125567B1 (en) * 2014-03-26 2019-09-04 Panasonic Intellectual Property Management Co., Ltd. Video receiving device, video recognition method, and supplementary information display system
JP6340558B2 (ja) 2014-03-26 2018-06-13 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
WO2016009637A1 (ja) 2014-07-17 2016-01-21 パナソニックIpマネジメント株式会社 認識データ生成装置、画像認識装置および認識データ生成方法
JP6432047B2 (ja) 2014-08-21 2018-12-05 パナソニックIpマネジメント株式会社 コンテンツ認識装置およびコンテンツ認識方法
JP2016081553A (ja) * 2014-10-17 2016-05-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 記録媒体、再生方法、および再生装置
CN106412718A (zh) * 2016-09-18 2017-02-15 乐视控股(北京)有限公司 一种字幕在3d空间中的渲染方法及其装置
CN108881877B (zh) * 2017-05-12 2020-07-24 京东方科技集团股份有限公司 显示处理装置及其显示处理方法以及显示装置
US11012657B2 (en) * 2018-06-08 2021-05-18 Lg Electronics Inc. Method for processing overlay in 360-degree video system and apparatus for the same
KR20220121574A (ko) * 2021-02-25 2022-09-01 삼성전자주식회사 Ar/vr 환경을 제공하는 전자 장치 및 그 운용 방법
US11743440B2 (en) 2021-04-19 2023-08-29 Apple Inc. Transmission and consumption of multiple image subframes via superframe

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI278834B (en) * 2003-07-07 2007-04-11 Samsung Electronics Co Ltd Information storage medium storing multi angle data, and recording method and reproducing apparatus thereof
US7650036B2 (en) * 2003-10-16 2010-01-19 Sharp Laboratories Of America, Inc. System and method for three-dimensional video coding
JP2009135686A (ja) * 2007-11-29 2009-06-18 Mitsubishi Electric Corp 立体映像記録方法、立体映像記録媒体、立体映像再生方法、立体映像記録装置、立体映像再生装置
KR100955578B1 (ko) 2007-12-18 2010-04-30 한국전자통신연구원 스테레오스코픽 콘텐츠 장면 재생 방법 및 그 장치
US8335425B2 (en) * 2008-11-18 2012-12-18 Panasonic Corporation Playback apparatus, playback method, and program for performing stereoscopic playback
EP2374280A1 (en) 2008-11-24 2011-10-12 Koninklijke Philips Electronics N.V. Combining 3d video and auxiliary data
EP2356820B1 (en) 2008-12-02 2017-07-19 LG Electronics Inc. 3d caption display method and 3d display apparatus for implementing the same
WO2010076846A1 (ja) * 2008-12-29 2010-07-08 パナソニック株式会社 記録媒体、再生装置、及び集積回路
CN102292993B (zh) * 2009-01-20 2015-05-13 Lg电子株式会社 三维字幕显示方法以及用于实现该方法的三维显示装置
WO2010095381A1 (ja) * 2009-02-20 2010-08-26 パナソニック株式会社 記録媒体、再生装置、集積回路
US8723927B2 (en) * 2009-03-31 2014-05-13 Daniel Rosen Subtitling stereographic imagery
KR20110018261A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 텍스트 서브타이틀 데이터 처리 방법 및 재생 장치
CN102577403B (zh) * 2009-10-13 2015-04-29 Lg电子株式会社 广播接收机及其3d视频数据处理方法
JP5480915B2 (ja) * 2009-12-28 2014-04-23 パナソニック株式会社 表示装置と方法、記録媒体、送信装置と方法、及び再生装置と方法
CN102845067B (zh) * 2010-04-01 2016-04-20 汤姆森许可贸易公司 三维(3d)呈现中的字幕
WO2011122914A2 (ko) * 2010-04-02 2011-10-06 삼성전자 주식회사 2차원 컨텐트와 3차원 컨텐트를 제공하기 위한 디지털 방송 컨텐트 전송 방법 및 그 장치, 디지털 방송 컨텐트 수신 방법 및 그 장치
US9055281B2 (en) * 2010-05-20 2015-06-09 Samsung Electronics Co., Ltd. Source device and sink device and method of transmitting and receiving multimedia service and related data
KR20130108075A (ko) * 2010-05-30 2013-10-02 엘지전자 주식회사 3d 서브타이틀을 위한 디지털 방송 신호를 프로세싱하고 수신하는 방법 및 장치

Also Published As

Publication number Publication date
WO2012007876A1 (en) 2012-01-19
MX2013000348A (es) 2013-03-08
EP2594079A1 (en) 2013-05-22
TW201223246A (en) 2012-06-01
US20130106999A1 (en) 2013-05-02
RU2013105715A (ru) 2014-08-20
JP2013540374A (ja) 2013-10-31
US9986220B2 (en) 2018-05-29
BR112013000580A2 (pt) 2016-07-05
CN103026713A (zh) 2013-04-03
KR101819736B1 (ko) 2018-02-28
EP2594079B1 (en) 2018-03-21
TWI568239B (zh) 2017-01-21
BR112013000580B1 (pt) 2022-03-29
RU2589307C2 (ru) 2016-07-10
CN103026713B (zh) 2016-02-24
KR20130135828A (ko) 2013-12-11
JP5960133B2 (ja) 2016-08-02

Similar Documents

Publication Publication Date Title
ES2670663T3 (es) Datos auxiliares en difusión de vídeo en 3D
US8878913B2 (en) Extended command stream for closed caption disparity
JP6266761B2 (ja) マルチビューレンダリング装置とともに使用するためのビデオデータ信号の符号化方法
US20160065935A1 (en) Method for processing three dimensional (3d) video signal and digital broadcast receiver for performing the method
US20110292175A1 (en) Broadcast receiver and 3d subtitle data processing method thereof
RU2633385C2 (ru) Передающее устройство, способ передачи, приемное устройство, способ приема и способ отображения приема
KR20140040151A (ko) 3D (3-dimensional) 방송 서비스를 위한 방송 신호 처리 방법 및 장치
US20140078248A1 (en) Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
WO2013031549A1 (ja) 送信装置、送信方法および受信装置
WO2013018490A1 (ja) 送信装置、送信方法および受信装置
EP2408211A1 (en) Auxiliary data in 3D video broadcast
CN103053166A (zh) 立体图像数据发送设备、立体图像数据发送方法和立体图像数据接收设备
US20140307051A1 (en) Broadcast receiver and 3d subtitle data processing method thereof
US20130188015A1 (en) Transmitting apparatus, transmitting method, and receiving apparatus
US9872008B2 (en) Display device and video transmission device, method, program, and integrated circuit for displaying text or graphics positioned over 3D video at varying depths/degrees
US20120300029A1 (en) Video processing device, transmission device, stereoscopic video viewing system, video processing method, video processing program and integrated circuit