ES2856077T3

ES2856077T3 - Método para generar y decodificar un vídeo digital y dispositivos de generación y decodificación relacionados

Info

Publication number: ES2856077T3
Application number: ES13812125T
Authority: ES
Inventors: Marco Arena; Giovanni Ballocca; Paola Sunna
Original assignee: S I Sv El Soc It Per Lo Sviluppo Dellelettronica SpA; Rai Radiotelevisione Italiana SpA; Sisvel SpA
Current assignee: S I Sv El Soc It Per Lo Sviluppo Dellelettronica SpA; Rai Radiotelevisione Italiana SpA; Sisvel SpA
Priority date: 2012-10-15
Filing date: 2013-10-14
Publication date: 2021-09-27
Anticipated expiration: 2033-10-14
Also published as: ITTO20120901A1; EP2907306A1; KR20150074040A; TW201419874A; HUE052945T2; US9961324B2; AR093026A1; DK2907306T3; TWI555383B; CN104813657A; US20150281669A1; JP7028398B2; EP2907306B1; CN104813657B; KR102126813B1; JP2015535148A; WO2014060937A1; PL2907306T3; SI2907306T1; JP2018050327A

Abstract

Un método para generar un flujo de vídeo digital en un generador de flujo de vídeo que comprende una unidad de recepción de flujo de vídeo y un codificador de vídeo, en donde el generador de flujo de vídeo genera un flujo de vídeo contenedor que contiene una pluralidad de regiones codificadas independientemente, comprendiendo el método: recibir por dicha unidad de recepción de flujo de vídeo tres o más flujos de vídeo componentes desde una pluralidad de fuentes de vídeo; correlacionar por dicho codificador de vídeo dichos tres o más flujos de vídeo componentes con tres o más regiones independientemente decodificables; introducir por dicho codificador de vídeo una señal que indica una presencia de correspondientes tres o más regiones independientemente decodificables; introducir por dicho codificador de vídeo una señalización que indica una asociación entre cada uno de dichos tres o más flujos de vídeo componentes y cada una de dichas tres o más regiones independientemente decodificables, con lo que cualquiera de dichos tres o más flujos de vídeo componentes puede asociarse con cualquiera de dichas tres o más regiones independientemente decodificables de una forma independiente, y emitir por dicho codificador de vídeo un flujo de vídeo digital que comprende dicha señal, dicha señalización y dicho flujo de vídeo contenedor.

Description

DESCRIPCIÓN

Método para generar y decodificar un vídeo digital y dispositivos de generación y decodificación relacionados

La presente invención se refiere a un método para generar y decodificar un flujo de vídeo digital.

La presente invención también se refiere a un dispositivo para generar un flujo de vídeo digital y a un dispositivo para decodificar un flujo de vídeo digital.

La codificación y distribución de flujos de vídeo independientes que representan diferentes vistas del mismo evento o de un mosaico de servicios multimedia (vídeo multivista - Vídeo de Visualización Gratuita) se han conocido desde hace tiempo. La distribución de tales vídeos multivista a usuarios requiere habitualmente la codificación de un número de flujos de vídeo independientes que coinciden con el número de vistas generadas.

Un método de codificación y decodificación de esta clase se describe, por ejemplo, en el documento "ISO/IEC 13818 1: 2000 (E) - Information technology - Generic coding of moving pictures and associated audio information: Systems", o en el documento "ISO/IEC 1449610 Information technology - Coding of audio-visual objects Part 10: Advanced Video Coding" y en el correspondiente documento "ITU-T H.264 - Advanced video coding for generic audiovisual services", en lo sucesivo denominado especificación H.264/AVC.

El documento de patente europea EP 1524859 describe sistemas y métodos para recibir y codificar vídeo en 3D. El método de recepción comprende: aceptar un flujo de bits con un fotograma de vídeo actual codificado con dos campos entrelazados, en una norma MPEG-2, MPEG-4 o H.264; decodificar un fotograma actual campo superior; decodificar un fotograma actual campo inferior; y presentar los campos superior e inferior decodificados como una imagen de fotogramas en 3D. En algunos aspectos, el método presenta los campos superior e inferior decodificados como una imagen de visualización estéreo. En otros aspectos, el método acepta comandos de selección en 2D en respuesta a un desencadenante tal como recibir un mensaje de información de perfeccionamiento complementaria (SEI), un análisis de capacidades de visualización, selección manual o configuración de sistema de recepción. A continuación, se decodifica únicamente uno de los campos entrelazados de fotograma actuales y se presenta una imagen de fotograma en 2D.

El documento WO 2009/136681 describe un método de codificación de una imagen, se proporcionan un método de decodificación de una imagen y un aparato para visualizar una imagen. El método de codificación de una imagen incluye correlacionar respectivamente una pluralidad de primeras imágenes con una pluralidad de grupos de sectores; y codificar los grupos de sectores. Por lo tanto, es posible generar un único flujo de bits y mejorar la eficiencia de codificación/decodificación.

Los métodos de codificación en uso en la actualidad tienen varios inconvenientes, tales como: la necesidad de usar un número de codificadores de vídeo igual al número de componentes de vídeo a distribuir; la difícil sincronización mutua entre los flujos de vídeo que se distribuyen y entre los flujos de vídeo y los correspondientes flujos de vídeo; la banda aumentada requerida para transportar los flujos de vídeo, debido a la necesidad de replicar elementos de señalización similares requeridos para decodificar cada flujo independiente. Por otra parte, los correspondientes métodos de decodificación requieren el uso de múltiples decodificadores para decodificar y visualizar dos o más vistas que se transmiten, conduciendo a una mayor complejidad y coste de la arquitectura de los terminales de usuario.

También se conoce que puede usarse un único flujo de vídeo para distribuir múltiples vistas independientes, como es el caso, por ejemplo, de los así denominados servicios de "mosaico", en donde el fotograma individual está constituido por n fotogramas extraídos de vídeos independientes y se compone en una imagen, o por los dos vídeos componentes de un par estereoscópico en 3D compuesto de un único fotograma (la así denominada "Disposición de Empaquetamiento de Fotogramas" o "formato de compatibilidad de fotograma"). Tales vídeos compuestos se comprimen habitualmente usando una cualquiera de las técnicas de compresión disponibles, tales como, por ejemplo, MPEG-2, H.264/AVC, HEVC. Tales técnicas de compresión no proporcionan ninguna herramienta que permita que un decodificador de conformidad con la especificación decodifique independientemente uno o más de los flujos de vídeo componentes. Se han desarrollado métodos que permiten que un decodificador en 2D extraiga del vídeo decodificado únicamente una de las dos vistas componentes del par estereoscópico, pero estos métodos se basan en el uso de una señalización adecuada que permite que el decodificador, una vez que todo el fotograma contenedor se ha decodificado, corte y visualice un área de fotograma que contiene únicamente una de las dos vistas.

En la actualidad es imposible decodificar el vídeo de tal forma para habilitar que un decodificador (tras la selección de usuario o debido a recursos computacionales o de almacenamiento limitados) decodifique únicamente un subconjunto elegido de todo el fotograma. Por ejemplo, no es posible codificar un vídeo que contiene una de las Disposiciones de Empaquetamiento de Fotogramas anteriormente mencionadas de tal manera que un decodificador en 2D, que no está interesado en ambas imágenes que forman el par estereoscópico, puede decodificar y visualizar únicamente la región que corresponde a una de las dos vistas (p. ej. la izquierda).

Esto implica desperdiciar recursos computacionales y energéticos. Se ha de observar que este problema se experimenta especialmente en el campo de los terminales móviles, en el que cualquier utilización indebida de recursos computaciones puede acortar drásticamente la duración de la batería.

Adicionalmente, puede usarse un decodificador en un dispositivo tal como un decodificador de salón o una pasarela inteligente, a la que puede conectarse uno o más visualizadores, sin tener necesariamente características homogéneas. Consideremos, por ejemplo, el caso de una pasarela inteligente que recibe un flujo de vídeo codificado desde una red de distribución (p. ej. una red IP o una red de difusión) o que lee el flujo de un dispositivo de almacenamiento. Una pluralidad de visualizadores pueden conectarse a dicha pasarela inteligente, a través de cables y/o conexiones inalámbricas, que pueden tener diferentes características (p. ej. visualizador HD o tableta). En un caso de este tipo, el decodificador debería ser capaz de adaptar el vídeo decodificado a las características del visualizador o visualizadores a servir: si solo se conecta un visualizador con menor resolución que el vídeo decodificado al decodificador, este último debería ser capaz de decodificar únicamente esa parte del vídeo que es más relevante para el terminal implicado.

Además, las técnicas actuales únicamente permiten identificar automáticamente uno de los flujos de vídeo componentes (como el ejemplo del par estereoscópico anterior), de modo que es imposible indicar expresamente al decodificador la presencia del uno o más flujos de vídeo componentes adicionales. Se impone, por lo tanto, una elección "por defecto" en el decodificador con menos recursos, y no pueden indicarse la presencia de contenidos alternativos.

Además, la posibilidad de codificar un único flujo de vídeo, además de permitir escalar la utilización de recursos computacionales durante el proceso de decodificación, también permite codificar un único flujo de vídeo para servir, de acuerdo con diferentes modelos de servicio, a terminales caracterizados por diferente disponibilidad en términos de recursos de almacenamiento y computacionales. Por ejemplo, es concebible codificar la composición de 4 vídeos HD (1920x1080 píxeles) como un único flujo de vídeo 4K (3840x2160 píxeles): de un vídeo de este tipo, un decodificador con recursos computacionales limitados podría decodificar un subconjunto que contiene solo uno de los componentes de HD; como alternativa, un decodificador más potente podría decodificar todo el vídeo 4K y, por ejemplo, visualizar todo el mosaico de contenidos.

Un objeto de la presente invención es definir un método de codificación que permite codificar en un único flujo de vídeo contenedor uno o más diferentes flujos de vídeo componentes, de modo que al menos uno de los últimos puede decodificarse independientemente de los otros.

Otro objeto de la presente invención es especificar un método de decodificación que permite que uno o más flujos de vídeo componentes se codifiquen independientemente de un único flujo de vídeo contenedor a través del uso de un único decodificador.

Un objeto adicional de la presente invención es proporcionar un codificador que codifica un flujo de vídeo contenedor formado de múltiples flujos de vídeo componentes, para permitir que uno o más flujos de vídeo componentes se decodifiquen independientemente.

Es otro objeto más de la presente invención proporcionar un decodificador que decodifica independientemente al menos uno de una pluralidad de flujos de vídeo componentes codificados como un único flujo de vídeo contenedor.

La invención se define en las reivindicaciones.

Estos y aspectos adicionales de la presente invención serán más evidentes a partir de la siguiente descripción, que ilustrará algunas realizaciones de la misma con referencia a los dibujos adjuntos, en donde:

- La Figura 1 muestra una imagen a codificar particionada en grupos de macrobloques ("sectores") de acuerdo con la especificación H.264/AVC;

- La Figura 2 muestra una imagen a codificar particionada en "losas" de acuerdo con la especificación HEVC;

- La Figura 3 muestra un ejemplo de composición de cuatro flujos de vídeo en 2D independientes en un único flujo de vídeo;

- La Figura 4 muestra la composición de dos flujos de vídeo estereoscópicos independientes, en forma de pares de vídeo en 2D, en un único flujo de vídeo;

- La Figura 5 muestra un proceso para decodificar selectivamente una de las dos imágenes que constituyen el par estereoscópico, codificadas como un único flujo de vídeo;

- La Figura 6 muestra una composición de un flujo de vídeo estereoscópico y los mapas de profundidad asociados en un único flujo de vídeo contenedor;

- La Figura 7 muestra una composición de un flujo de vídeo en 2D y un flujo de vídeo estereoscópico en un único flujo de vídeo contenedor;

- La Figura 8 es un diagrama de bloques del proceso para componer y codificar el flujo de vídeo generado por la composición de n flujos de vídeo independientes;

- La Figura 9 muestra un ejemplo de un método para decodificar un flujo de vídeo generado por el aparato de codificación descrito en la Figura 8;

- La Figura 10 muestra un método adicional para decodificar un flujo de vídeo generado por un aparato de codificación de acuerdo con la Figura 8;

- Las Figuras 11 y 11 bis muestran la composición de dos vistas de un flujo de vídeo estereoscópico en un único flujo de vídeo contenedor;

- La Figura 12 es una tabla que describe una estructura de una señalización a introducir en un flujo de vídeo codificado;

- La Figura 13 es una tabla que contiene posibles valores de un parámetro de la estructura de la Figura 12;

- Las Figuras 14a-14d muestran una tabla con modificaciones a la sintaxis del PPS de la norma HEVC, que se requieren para introducir la señalización de la Figura 12;

- Las Figuras 15a-15f muestran una tabla con modificaciones a la sintaxis del SPS de la norma HEVC, que se requieren para introducir la señalización de la Figura 12.

Las normas de codificación de vídeo existentes, así como aquellas en definición en la actualidad, ofrecen la posibilidad de particionar las imágenes que constituyen flujos de vídeo digitales para el propósito de optimizar los procesos de codificación y decodificación. Como se muestra en la Figura 1, la especificación H.264/AVC permite crear grupos de macrobloques, en donde las imágenes a codificar se subdividen en diferentes tipos de grupos, llamados sectores, que se codifican, a continuación, independientemente unos de otros. Por ejemplo, como se muestra en la Figura 1 con respecto a la subdivisión denominada "Tipo 2", los macrobloques pueden agruparse en sectores que tienen una forma arbitraria, para permitir que la calidad del vídeo codificado se varíe selectivamente como una función de la posición de cualquier "región de interés".

En su lugar, la Figura 2 muestra un nuevo tipo de subdivisión de imágenes, denominado "losa", que se ha introducido en la especificación de la nueva norma de ITU/ISO/IEC HEVC (Codificación de Vídeo de Alta Eficiencia). Este tipo de subdivisión, basándose en la estructura de sectores ya existente en la especificación H.264/AVC, se ha introducido para permitir la paralelización de los procesos de codificación y decodificación: dispersión creciente y menores costes de procesadores gráficos paralelos (las así denominadas GPU, Unidades de Procesamiento Gráfico), que están ahora disponibles incluso en terminales móviles tales como teléfonos y tabletas de PC, han fomentado la introducción de herramientas de soporte de paralelización que permiten que los formatos de imagen se lleven a resoluciones muy altas incluso en terminales que habitualmente tienen recursos computacionales limitados.

La especificación HEVC ha definido losas de tal forma para permitir que las imágenes que constituyen el flujo de vídeo se segmenten en regiones y para hacer la decodificación de las mismas mutualmente independiente. El proceso de decodificación, sin embargo, incluso cuando se paraleliza, aún se efectúa para toda la imagen únicamente, y los segmentos no pueden usarse independientemente unos de otros.

Como se ha mencionado anteriormente en los párrafos anteriores, sería útil poder particionar el flujo de vídeo de tal manera que diferentes terminales pueden decidir, automáticamente o después de instrucciones recibidas desde el usuario, qué partes del vídeo deberían decodificarse y enviarse al visualizador para su visualización.

Las Figuras 3, 4, 6 y 7 ilustran diferentes escenarios de utilización en los que esta clase de particionamiento podría resultar útil.

La Figura 3 muestra un flujo de vídeo contenedor que, por ejemplo, puede estar en el formato 4K (3840x2160 píxeles) y puede contener cuatro vídeos HD independentes (1920x1080 píxeles). Un usuario equipado con un decodificador 4K puede decodificar y visualizar todo el vídeo, mientras un usuario equipado con un decodificador menos potente puede limitar la decodificación a un único flujo HD a la vez.

La Figura 4 muestra el transporte, como un único flujo de vídeo contenedor, de dos flujos de vídeo estereoscópicos (en forma de dos pares de vídeo Izquierdo y Derecho independientes), p. ej. representando dos vistas estereoscópicas diferentes del mismo evento, a partir del cual el usuario puede elegir la vista preferida sin tener necesariamente que decodificar todo el fotograma (con implicaciones obvias en términos de consumo de energía).

La Figura 5 muestra la composición de un vídeo estereoscópico y los mapas de profundidad asociados en un único flujo de vídeo. En este caso, un decodificador de un aparato de televisión estereoscópico puede decodificar únicamente la parte relacionada con las dos imágenes del par estereoscópico, ubicadas en la mitad superior de la imagen; la parte inferior, por lo tanto, no se decodificará. En su lugar, un decodificador de un aparato de televisión auto estereoscópico que usa una técnica 2D+Z bien conocida (construcción de vistas sintéticas a partir de una única imagen más el mapa de entrada asociado) podría, por ejemplo, decodificar únicamente la mitad izquierda de la imagen, mientras que el decodificador de un decodificador auto estereoscópico más sofisticado puede usar ambas vistas y ambos mapas de profundidad para sintetizar las vistas intermedias.

La Figura 7 muestra la composición de un vídeo en 2D de resolución doble (p. ej. previstos para un visualizador en formato 21:9), ubicado en la mitad superior de la imagen, y la correspondiente vista estereoscópica en formato colindante en la región inferior.

La estructura de losa descrita en la especificación HEVC no es suficiente para permitir que un decodificador reconozca y decodifique apropiadamente el contenido transportado por el contenedor video. Este problema puede resolverse introduciendo un nivel adecuado de señalización que describe qué contenido se está transportando en cada una de las regiones independientemente decodificables y cómo proceder para decodificar apropiadamente y visualizar el mismo.

Al menos pueden preverse dos diferentes escenarios. En el primero, es necesario indicar la asociación entre los contenidos individuales y al menos una de las losas en las que la imagen se ha desensamblado, y es posible reensamblar en un flujo de vídeo coherente (por ejemplo, como se muestra en la Figura 11, un flujo de vídeo estereoscópico podría subdividirse en dos losas y, mientras un decodificador en 2D debe ser informado acerca de la posibilidad de decodificar una única losa, un decodificador en 3D podría no adoptar ninguna estrategia específica y decodificar todo el flujo). En el segundo escenario, en su lugar, se indica la asociación entre los contenidos individuales y cada una de las losas en las que la imagen se ha desensamblado, y es posible reensamblar en un flujo de vídeo coherente (por ejemplo, un flujo de vídeo estereoscópico puede subdividirse en dos losas y, mientras un decodificador en 2D debe ser informado acerca de la posibilidad de decodificar una única losa, un decodificador en 3D debe ser informado acerca de la necesidad de decodificar todo el flujo).

La solución propuesta proporciona la introducción de un descriptor que indica, para al menos una de las losas, una o más características específicas: por ejemplo, debe ser posible señalizar si el contenido es uno en 2D o, en el caso de un contenido estereoscópico, el tipo de disposición de empaquetamiento de fotogramas del mismo. Adicionalmente, es deseable indicar cualquier "relación" (decodificación y/o visualización conjuntas) entre losas; el identificador de vista (a usar, por ejemplo, en el caso de contenidos multivista) y un mensaje que indica si la vista en cuestión en la vista derecha o la vista izquierda de un par estereoscópico, o un mapa de profundidad. A modo de ejemplo, la solución se ilustra como un pseudocódigo en la tabla de la Figura 12, que describe la estructura de la señalización a introducir en el flujo de vídeo codificado usando las estructuras de datos ya empleados en las especificaciones H.264/AVC y HEVC. Sin embargo, es posible adoptar estructuras de señalización análogas que permiten que el contenido de una o más losas se describa de tal forma para permitir que un decodificador decodifique las mismas apropiadamente.

Frame_packing_arrangement_type es un índice que podría corresponder, por ejemplo, a los valores comúnmente usados en las especificaciones MPEG2, H.264/AVC o SMPTE, que cataloga los formatos de vídeo estereoscópico usado y conocidos.

Tile_content_relationship_bitmask es una máscara de bits que describe inequívocamente, para cada losa, su asociación con las otras losas en las que se ha subdividido el flujo de vídeo codificado.

Content_interpretation_type proporciona la información necesaria para interpretar el contenido de cada losa. En la tabla de la Figura 13 se especifica un ejemplo.

Con referencia al caso anterior, en donde un vídeo estereoscópico se codifica como dos losas, para asegurar la decodificación de solo una vista por un decodificador en 2D la siguiente información se asociará con la losa 0:

^oframe_packing_arrangement_type[0] = 3

^otile_content_relationship_bitmask[0] = 11

^oview_id[0] = 0

^ocontent_interpretation_type[0] = 2

Se ha de observar que este tipo de señalización podría usarse junto con o en lugar de otras herramientas, tales como, por ejemplo, el rectángulo de recorte. La técnica de rectángulo de recorte, de acuerdo con la cual es obligatorio recortar la parte del fotograma decodificado dentro de un rectángulo señalizado por medio de metadatos adecuados, ya se usa comúnmente para hacer "compatible con 3D" un flujo de vídeo estereoscópico en forma de una de las disposiciones de empaquetamiento de fotogramas que requieren que se introduzca el par estereoscópico en un único fotograma. La Figura 11 bis ilustra, por ejemplo, un fotograma que contiene la así denominada disposición de empaquetamiento de fotogramas "colindante", en donde se contiene únicamente la vista izquierda (la gris en la Figura) en el rectángulo de recorte. Sin la partición de losas, un decodificador en 2D debería decodificar todo el fotograma, a continuación aplicar el recorte y descartar la vista derecha (la blanca en la Figura 11 bis). Usando el método de la invención, es posible en su lugar codificar y señalizar las dos vistas como losas separadas, permitiendo de este modo que un decodificador en 2D decodifique solo el área contenida en el rectángulo de recorte.

Suponiendo, por ejemplo, que el flujo de vídeo se ha dividido en cuatro losas, como se muestra en la Figura 4, la relación entre las losas debería describirse mediante los siguientes valores:

^oframe_packing_arrangement_type[0] = 3

^oframe_packing_arrangement_type[1] =3

^oframe_packing_arrangement_type[2] = 3

^oframe_packing_arrangement_type[3] = 3

^otile_content_relationship_bitmask[0] = 1100

^otile_content_relationship_bitmask[1 ] = 1100

^otile_content_relationship_bitmask[2] = 0011

^otile_content_relationship_bitmask[3] = 0011

^oview_id[0] = 0

^oview_id[1] = 0

^oview_id[2] = 1

^oview_id[3] = 1

^ocontent_interpretation_type[0] = 2

^ocontent_interpretation_type[1] = 1

^ocontent_interpretation_type[2] = 2

^ocontent_interpretation_type[3] = 1

Esta señalización indica al decodificador que las losas 0 y 1 pertenecen al mismo contenido de vídeo en 3D (tile_content_relationship_bitmask = 1100) en colindante (frame_packing_arrangement_type = 3). El valor de tile_content_relationship_bitmask permite que el decodificador conozca que las dos vistas (que pertenecen al mismo par estereoscópico porque view_id de la losa = 0 para ambas losas) se contienen en diferentes losas (y por lo tanto, en este caso, a máxima resolución). Content_interpretation_type permite entender que la losa 0 corresponde a la vista izquierda, mientras la losa 1 corresponde a la vista derecha.

Las mismas consideraciones son aplicables a las losas 1 y 2.

La disposición de la Figura 6, en su lugar, se describe por la siguiente señalización:

^oframe_packing_arrangement_type[0] = 3

^oframe_packing_arrangement_type[1] = 3

^oframe_packing_arrangement_type[2] = 6

^oframe_packing_arrangement_type[3] = 6

^otile_content_relationship_bitmask[0] = 1111

^otile_content_relationship_bitmask[1 ] =1111

^otile_content_relationship_bitmask[2] = 1010

^otile_content_relationship_bitmask[3] = 0101

^oview_id[0] = 1

^oview_id[1] = 1

^ocontent_interpretation_type[0] = 2

^ocontent_interpretation_type[1] = 1

^ocontent_interpretation_type[2] = 5

^ocontent_interpretation_type[3] = 5

A diferencia de la Figura 4, tile_content_relationship_bitmask es 1111 para las losas 0 y 1. Esto significa que existe una relación entre todas las losas. En particular, las losas 2 y 3 son contenidos en 2D (frame_packing_arrangement_type = 6) que contienen un mapa de profundidad (content_interpretation_type = 5) asociados respectivamente con la losa 0 (tile_content_relationship_bitmask = 1010) y con la losa 1 (tile_content_relationship_bitmask = 0101)

En la sintaxis de la especificación HEVC, este tipo de señalización podría codificarse fácilmente como un mensaje de SEI (Información de Perfeccionamiento Complementaria): información de aplicación que, sin alterar los mecanismos de codificación y decodificación básicos, permite la construcción de funciones adicionales con respecto no únicamente de la decodificación, sino también el siguiente proceso de visualización. Como una alternativa, la misma señalización podría introducirse en el conjunto de parámetros de instantánea (PPS), un elemento de sintaxis que contiene información necesaria para decodificar un conjunto de datos correspondiente a un fotograma. La tabla de las Figuras 14a-14d incluye, destacado en negrita, las modificaciones, en forma de pseudocódigo, que necesitan hacerse a la sintaxis del p Ps de la norma HEVC para introducir la señalización anteriormente mencionada.

Una generalización adicional podría proporcionar la introducción de la señalización en el conjunto de parámetros de secuencia (SPS): un elemento de sintaxis que contiene información necesaria para decodificar un conjunto de datos que corresponde a una secuencia consecutiva de fotogramas.

La tabla de las Figuras 15a-15f incluye, destacado en negrita, las modificaciones, en forma de pseudocódigo, que necesitan hacerse a la sintaxis del SPS de HEVC para introducir la señalización anteriormente mencionada, en donde multiservice_flag es una variable que informa acerca de la presencia de múltiples servicios dentro de cada losa y num_tile es el número de losas dentro de un fotograma.

La Figura 5 ilustra el proceso de decodificación de losa selectivo. El flujo de vídeo contiene un par de vistas estereoscópicas, codificadas en dos losas separadas.

Estas últimas se describen por la misma señalización usada para representar el contenido de la Figura 4 (en este caso, sin embargo, el número total de losas es 2).

La Figura 8 es un diagrama de bloques de un aparato o un grupo de aparatos que pueden implementar la técnica de codificación de la presente invención. N contenidos de vídeo S¹- Sⁿse introducen en un "compositor de fuentes". El "compositor de fuentes" puede ser un componente separado o puede integrarse como una etapa de introducción de un codificador adecuado. El compositor de fuentes compone el flujo de vídeo contenedor que transporta los N flujos de vídeo componentes, y a continuación emite el mismo hacia un codificador. El compositor de fuentes puede añadir opcionalmente la señalización requerida para describir al codificador el formato de los flujos de vídeo componentes y sus posiciones dentro del flujo de vídeo contenedor.

Un codificador recibe el flujo de vídeo contenedor, construye las losas de tal forma para correlacionar las mismas con la estructura de los únicos flujos de vídeo componentes, genera la señalización que describe las losas, la estructura de los flujos de vídeo componentes y sus relaciones, y comprime el flujo de vídeo contenedor. Si el "compositor de fuentes" no genera automáticamente la señalización que describe los flujos de vídeo componentes, el codificador puede programarse manualmente por el operador. El flujo de vídeo comprimido emitido por el codificador puede decodificarse, a continuación, de diferentes formas, es decir, seleccionando partes independientes dependiendo de las características funcionales y/o recursos computacionales del decodificador y/o del visualizador al que se conecta. El audio de cada flujo de vídeo componente puede transportarse de acuerdo con las especificaciones de la parte de Capa de Sistema adoptada para su transporte.

Un decodificador en 2D analiza el flujo de bits, encuentra la señalización de las dos losas que contiene las dos vistas, y decide decodificar una única losa, visualizando únicamente una imagen compatible con un visualizador en 2D. Un decodificador en 3D, en su lugar, decodificará ambas losas y procederá con la visualización estereoscópica en un visualizador en 3D.

De manera similar, la Figura 9 muestra un decodificador que, cuando se conecta al visualizador, negocia las características (p. ej. la resolución) del vídeo a visualizar y decide por consiguiente, de una manera autónoma, qué parte del flujo de vídeo tiene que decodificarse. Esta decisión también podría dictarse mediante la intervención manual de un usuario: por ejemplo, en el caso en el que el vídeo que se transmite es un vídeo estereoscópico codificado en dos losas, y suponiendo que el usuario, aunque equipado con un aparato de televisión en 3D, quiere sin embargo ver ese contenido en formato en 2D (una decisión de este tipo puede manifestarse presionando una tecla de control remoto específica), el decodificador puede adoptar una estrategia de decodificación diferente que la que habría adaptado automáticamente mientras negocia el mejor formato de visualización con el aparato de televisión.

La Figura 10 muestra, en su lugar, el caso en donde el decodificador está ubicado dentro de una pasarela que recibe el flujo codificado y debe servir a terminales heterogéneos, caracterizados por la posibilidad de soportar diferentes formatos del contenido de vídeo (p. ej. algunos dispositivos pueden tener la capacidad de visualizar contenidos estereoscópicos, mientras, al mismo tiempo, otros dispositivos podrían tener únicamente un visualizador en 2D). La pasarela automáticamente negocia con o recibe instrucciones de configuración desde cada dispositivo, y a continuación decodifica una o más partes del contenido introducido de tal forma para adaptar las mismas a las características de cada dispositivo de petición.

Por lo tanto, la presente invención se refiere a un método para generar un flujo de vídeo iniciando desde una pluralidad de secuencias de fotogramas de vídeo en 2D y/o 3D, en donde un generador de flujo de vídeo compone en un fotograma de vídeo contenedor fotogramas de vídeo que proceden de N diferentes fuentes S¹, S², S³, Sⁿ. Posteriormente, un codificador codifica el único flujo de vídeo emitido de fotogramas de vídeo contenedores introduciendo en el mismo una señalización adaptada para indicar la estructura de los fotogramas de vídeo contenedores.

La invención también se refiere a un método para regenerar un flujo de vídeo que comprende una secuencia de fotogramas contenedores, comprendiendo cada uno una pluralidad de fotogramas de vídeo en 2D y/o 3D que proceden de N diferentes fuentes S¹, S², S³, S^n.Un decodificador lee una señalización adaptada para indicar la estructura de los fotogramas de vídeo contenedores, y regenera una pluralidad de flujos de vídeo extrayendo al menos uno o un subconjunto de la pluralidad de fotogramas de vídeo decodificando únicamente aquellas porciones de los fotogramas de vídeo contenedores que comprenden aquellos fotogramas de vídeo de la pluralidad de fotogramas de vídeo en 2D y/o 3D de los flujos de vídeo que se han seleccionado para su visualización.

Claims

REIVINDICACIONES

1. Un método para generar un flujo de vídeo digital en un generador de flujo de vídeo que comprende una unidad de recepción de flujo de vídeo y un codificador de vídeo, en donde el generador de flujo de vídeo genera un flujo de vídeo contenedor que contiene una pluralidad de regiones codificadas independientemente, comprendiendo el método: recibir por dicha unidad de recepción de flujo de vídeo tres o más flujos de vídeo componentes desde una pluralidad de fuentes de vídeo;

correlacionar por dicho codificador de vídeo dichos tres o más flujos de vídeo componentes con tres o más regiones independientemente decodificables;

introducir por dicho codificador de vídeo una señal que indica una presencia de correspondientes tres o más regiones independientemente decodificables;

introducir por dicho codificador de vídeo una señalización que indica una asociación entre cada uno de dichos tres o más flujos de vídeo componentes y cada una de dichas tres o más regiones independientemente decodificables, con lo que cualquiera de dichos tres o más flujos de vídeo componentes puede asociarse con cualquiera de dichas tres o más regiones independientemente decodificables de una forma independiente, y

emitir por dicho codificador de vídeo un flujo de vídeo digital que comprende dicha señal, dicha señalización y dicho flujo de vídeo contenedor.

2. El método según la reivindicación 1, que comprende adicionalmente introducir por dicho codificador de vídeo un descriptor en dicho flujo de vídeo digital que indica un tipo de contenido de dichos tres o más flujos de vídeo componentes.

3. El método de acuerdo con una de las reivindicaciones 1 o 2, en donde cada una de las tres o más regiones independientemente decodificables se codifica por dicho codificador de vídeo como una losa.

4. El método según las reivindicaciones 1 o 2, en donde una técnica de codificación empleada por dicho codificador de vídeo es H.264/AVC, Codificación de Vídeo Avanzada, o HEVC, Codificación de Vídeo de Alta Eficiencia.

5. El método según una cualquiera de las reivindicaciones precedentes, en donde la señalización introducida por dicho codificador de vídeo en el flujo de vídeo digital que indica la asociación entre los tres o más flujos de vídeo componentes y las tres o más regiones independientemente decodificables y un descriptor que indica un tipo de contenido de los tres o más flujos de vídeo componentes son un mensaje de SEI, Información de Perfeccionamiento Complementaria.

6. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en donde la señalización que indica la asociación entre los tres o más flujos de vídeo componentes y las tres o más regiones independientemente decodificables y un descriptor que indica un tipo de contenido de los tres o más flujos de vídeo componentes se introducen por dicho codificador de vídeo en una señalización de SPS, Conjunto de Parámetros de Secuencia, o en una señalización de PPS, Conjunto de Parámetros de Instantánea.

7. El método según una cualquiera de las reivindicaciones precedentes, en donde la señalización introducida por dicho codificador de vídeo en el flujo de vídeo digital que indica la asociación entre los tres o más flujos de vídeo componentes y las tres o más regiones independientemente decodificables incluye una máscara de bits.

8. El método según una cualquiera de las reivindicaciones precedentes, en donde los tres o más flujos de vídeo componentes incluyen uno o más de los siguientes formatos:

- uno o más pares de vídeo estereoscópico;

- flujos de vídeo y mapas de profundidad;

- uno o más flujos de vídeo en el formato de disposición de empaquetamiento de fotogramas;

- mosaico de vídeos independientes.

9. Un dispositivo para generar un flujo de vídeo digital que comprende un flujo de vídeo contenedor que contiene una pluralidad de regiones codificadas independientemente, comprendiendo el dispositivo una unidad de recepción de flujo de vídeo y un codificador de vídeo, estando la unidad de recepción de flujo de vídeo configurada para

recibir tres o más flujos de vídeo componentes desde una pluralidad de fuentes de vídeo;

y estando el codificador de vídeo configurado para

correlacionar dichos tres o más flujos de vídeo componentes con tres o más regiones independientemente decodificables;

introducir una señal que indica una presencia de correspondientes tres o más regiones independientemente decodificables;

introducir una señalización que indica una asociación entre cada uno de dichos tres o más flujos de vídeo componentes y cada una de dichas tres o más regiones independientemente decodificables, con lo que cualquiera de dichos tres o más flujos de vídeo componentes puede asociarse con cualquiera de dichas tres o más regiones independientemente decodificables de una forma independiente, y

emitir un flujo de vídeo digital que comprende dicha señal, dicha señalización y dicho flujo de vídeo contenedor.

10. Un método para decodificar un flujo de vídeo digital codificado que incluye tres o más flujos de vídeo componentes en un decodificador de vídeo que comprende un decodificador de señalización y un decodificador de datos de vídeo, comprendiendo el método:

leer por dicho decodificador de señalización una señal que indica una presencia de tres o más regiones independientemente decodificables;

leer por dicho decodificador de señalización una señalización comprendida en dicho flujo de vídeo digital que indica una asociación entre cada uno de dichos tres o más flujos de vídeo componentes y cada una de dichas tres o más regiones independientemente decodificables, en donde dichos tres o más flujos de vídeo componentes se originan por una pluralidad de fuentes de vídeo y en donde cualquiera de dichos tres o más flujos de vídeo componentes puede asociarse con cualquiera de dichas tres o más regiones independientemente decodificables de una forma independiente;

leer por dicho decodificador de señalización un descriptor comprendido en dicho flujo de vídeo digital que indica un tipo de contenido de cada una de las tres o más regiones independientemente decodificables;

seleccionar por una unidad de selección para decodificar un conjunto de las tres o más regiones independientemente decodificables indicadas por dicha señalización o por dicho descriptor, y

decodificar dicho conjunto seleccionado de regiones independientemente decodificables por dicho decodificador de vídeo y emitir el flujo de vídeo decodificado obtenido por dicho decodificador de datos de vídeo para su visualización.

11. El método de decodificación según la reivindicación 10, en donde dicho decodificador de vídeo selecciona una o más de las tres o más regiones independientemente decodificables basándose en una evaluación de sus propios recursos computacionales.

12. El método de decodificación de acuerdo con una cualquiera de las reivindicaciones 10 a 11, en donde una o más de las tres o más regiones independientemente decodificables están disponibles para su visualización en un único visualizador o para su visualización en múltiples dispositivos heterogéneos.

13. Un método de decodificación de acuerdo con una cualquiera de las reivindicaciones 10 a 12, en donde la selección de la una o más regiones independientemente decodificables a decodificar se determina por una señal de control, en donde la señal de control se genera automáticamente como resultado del proceso de negociación del formato de visualización con uno o más visualizadores, o en donde la señal de control se genera como resultado del proceso de selección manual del formato de visualización por un usuario.

14. Un dispositivo de decodificación para decodificar un flujo de vídeo digital que incluye tres o más flujos de vídeo componentes y configurado para leer una señal que indica una presencia de tres o más regiones independientemente decodificables, comprendiendo el dispositivo de decodificación:

un decodificador de señalización configurado para leer una señalización comprendida en dicho flujo de vídeo digital que indica una asociación entre los tres o más flujos de vídeo componentes y las tres o más regiones independientemente decodificables y configurado para leer un descriptor comprendido en dicho flujo de vídeo digital que indica un tipo de contenido de cada una de las tres o más regiones independientemente decodificables, en donde dichos tres o más flujos de vídeo componentes se originan por una pluralidad de fuentes de vídeo y en donde cualquiera de dichos tres o más flujos de vídeo componentes puede asociarse con cualquiera de dichas tres o más regiones independientemente decodificables de una forma independiente,

un decodificador de datos de vídeo configurado para decodificar datos de vídeo comprendidos en dicho flujo de vídeo digital de acuerdo con una estrategia de decodificación, y

una unidad de selección configurada para seleccionar para decodificar por dicho decodificador de datos de vídeo un conjunto de dichas tres o más regiones independientemente decodificables indicadas por dicha señalización o por dicho descriptor,

en donde el decodificador de datos de vídeo está configurado para decodificar dicho conjunto de regiones independientemente decodificables seleccionadas por la unidad de selección, y para emitir un flujo de vídeo digital codificado que comprende dicho conjunto de regiones independientemente decodificables seleccionadas.

15. El dispositivo de decodificación según la reivindicación 14, en donde dicha unidad de selección está configurada adicionalmente para seleccionar automática o manualmente para su visualización en un dispositivo de visualización asociado a dicho dispositivo de decodificación dicho conjunto de las regiones independientemente decodificables decodificadas por dicho dispositivo de decodificación.

16. El dispositivo de decodificación según la reivindicación 14, en donde dicha unidad de selección está configurada adicionalmente para seleccionar, por medio de un proceso de negociación con un dispositivo de visualización asociado a dicho dispositivo de decodificación, un formato de visualización que comprende dicho conjunto de regiones independientemente decodificables decodificadas por dicho dispositivo de decodificación.