FR2828054A1

FR2828054A1 - Procede et dispositif de codage d'une scene

Info

Publication number: FR2828054A1
Application number: FR0110086A
Authority: FR
Inventors: Paul Kerbiriou; Gwenael Kervella; Laurent Blonde; Michel Kerdranvat
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2001-07-27
Filing date: 2001-07-27
Publication date: 2003-01-31
Anticipated expiration: 2021-07-27
Also published as: EP1433333A1; WO2003013146A1; JP2004537931A; FR2828054B1; US20040258148A1

Abstract

Le procédé de codage d'une scène composée d'objets dont les textures sont définies à partir d'images ou parties d'images provenant de différentes sources vidéo (11 ,... 1 n ) est caractérisé en ce qu'il comporte les étapes : - de composition spatiale (2) d'une image en dimensionnant et positionnant sur une image, les dites images ou parties d'images provenant des différentes sources vidéo, pour obtenir une image composée, - de codage (3) de l'image composée,- de calcul et codage de données auxiliaires (4) comprenant des informations relatives à la composition de l'image composée et des informations relatives aux textures des objets.

Description

L'invention concerne un procédé et un dispositif de codage et de décodage d'une scène composée d'objets dont les textures proviennent de différentes sources vidéo.

De plus en plus d'applications multimedia nécessitent l'exploitation d'informations vidéo en un même instant.

Les systèmes de diffusion multimédia sont généralement basés sur la transmission d'informations vidéo, soit par l'intermédiaire de flux élémentaires séparés, soit par l'intermédiaire d'un flux de transport multiplexant les différents flux élémentaires, soit une combinaison des deux. Ces informations vidéo sont reçues par un terminal ou récepteur constitué d'un ensemble de décodeurs élémentaires réalisant simultanément le décodage de chacun des flux élémentaires reçus ou démultiplexés. L'image finale est composée à partir des informations décodées. C'est par exemple le cas de la transmission de flux de données vidéo codées MPEG 4.

Ce type de système avancé multimédia tente d'offrir une grande souplesse à l'utilisateur final en lui proposant des possibilités de composition de plusieurs flux et d'interactivité au niveau du terminal. Le surplus de traitement est en fait assez important si l'on considère la chaîne complète, de la génération des flux simples à la restitution d'une image finale. 1\ concerne tous les niveaux de la chaîne : codage, ajout des éléments de synchronisation inter flux et paquétisation, multiplexage, démultiplexage, prise en compte des éléments de synchronisation inter flux et dépaquétisation, décodage.

Au lieu d'avoir une seule image vidéo, il faut transmettre tous les éléments qui composeront l'image finale, chacun dans un flux élémentaire.

C'est le système de composition, à la réception, qui fabrique l'image finale de la scène à visualiser en fonction des informations définies par le créateur de contenu. Une grande complexité de gestion au niveau système ou au niveau traitement (préparation du contexte et des données, présentation des résultats...) est donc générée.

D'autres systèmes sont basés sur la génération de mosaïques d'images en post-production, c'est à dire avant leur transmission. C'est par exemple le cas pour des services tels que les guides de programmes.

L'image ainsi obtenue est codée et diffusée, par exemple au standard MPEG2.

Les premiers systèmes imposent donc la gestion de nombreux flux de données aussi bien au niveau émission que réception. Il n'est pas possible de réaliser de manière simple, une composition locale ou"scène"à partir de plusieurs vidéos. Des dispositifs coûteux tels que décodeurs et une gestion complexe de ces décodeurs doivent être mis en place pour l'exploitation de ces flux. Le nombre de décodeurs peut être fonction des différents types de codages exploités pour les données reçues correspondant à chacun des flux mais également du nombre d'objets vidéo pouvant composer la scène. Le temps de traitement des signaux reçus, du fait d'une gestion centralisée des décodeurs, n'est pas optimisé. La gestion et traitement des images obtenues, du fait de leur multitude, sont complexes.

Quant à la technique de mosaïque d'image sur laquelle sont basés les autres systèmes, elle offre peu de possibilités de composition et d'interaction au niveau du terminal et conduit à une trop grande rigidité.

L'invention a pour but de pallier les inconvénients précités.

Elle a pour objet un procédé de codage d'une scène composée d'objets dont les textures sont définies à partir d'images ou parties d'images provenant de différentes sources vidéo, caractérisé en ce qu'il comporte les étapes : - de composition spatiale d'une image en dimensionnant et positionnant sur une image, les dites images ou parties d'images provenant des différentes sources vidéo, pour obtenir une image composée, - de codage de l'image composée, - de calcul et codage de données auxiliaires comprenant des informations relatives à la composition de l'image composée et des informations relatives aux textures des objets.

Selon une mise en oeuvre particulière, l'image composée est obtenue par multiplexage spatial des images ou parties d'images.

Selon une mise en oeuvre particulière, les sources vidéo à partir desquelles sont sélectionnés les images ou parties d'images composant une même image composée, ont les mêmes normes de codage. L'image composée peut comporter également une image fixe ne provenant pas d'une source vidéo.

Selon une mise en oeuvre particulière, le dimensionnement est une réduction de taille obtenue par sous-échantillonnage.

Selon une mise en oeuvre particulière, l'image composée est codée selon la norme MPEG 4 et les informations relatives à la composition de l'image sont les coordonnées de textures.

L'invention concerne également un procédé de décodage d'une scène composée d'objets, codée à partir d'une image vidéo composée regroupant des images ou parties d'images de différentes sources vidéo et à partir de données auxiliaires qui sont des informations de composition de l'image vidéo composée et des informations relatives aux textures des objets, caractérisé en ce qu'il effectue les étapes de : - décodage de l'image vidéo pour obtenir une image décodée - décodage des données auxiliaires, - extraction de textures de l'image décodée à partir des données auxiliaires de composition de l'image, - plaquage des textures sur des objets de la scène à partir des données auxiliaires relatives aux textures.

Selon une mise en oeuvre particulière, le procédé est caractérisé en ce que l'extraction des textures est effectuée par démultiplexage spatial de l'image décodée.

Selon une mise en oeuvre particulière, le procédé est caractérisé en ce qu'une texture est traitée par suréchantillonnage et interpolation spatiale pour obtenir la texture à afficher dans l'image finale visualisant la scène.

L'invention concerne également un dispositif de codage d'une scène composée d'objets dont les textures sont définies à partir d'images ou parties d'images provenant de différentes sources vidéo, caractérisé en ce qu'il comprend : - un circuit de montage vidéo recevant les différentes sources vidéo pour dimensionner et positionner sur une image, des images ou parties d'images provenant de ces sources vidéo, pour réaliser une image composée, - un circuit de génération de données auxiliaires relié au circuit de montage vidéo pour fournir des informations relatives à la composition de l'image composée et des informations relatives aux textures des objets, - un circuit de codage de l'image composée, - un circuit de codage des données auxiliaires.

L'invention concerne également un dispositif de décodage d'une scène composée d'objets, codée à partir d'une image vidéo composée regroupant des images ou parties d'images provenant de différentes sources vidéo et à partir de données auxiliaires qui sont des informations de composition de l'image vidéo composée et des informations relatives aux textures des objets, caractérisé en ce qu'il comporte : - un circuit de décodage de l'image vidéo composée pour obtenir une image décodée, - un circuit de décodage des données auxiliaires - un circuit de traitement recevant les données auxiliaires et l'image décodée pour extraire des textures de l'image décodée à partir des données auxiliaires de composition de l'image et pour plaquer des textures sur des objets de la scène à partir des données auxiliaires relatives aux textures.

L'idée de l'invention est de regrouper, sur une image, des éléments ou éléments de texture qui sont des images ou parties d'images provenant de différentes sources vidéo et nécessaires à la construction de la scène à visualiser, de manière à"transporter"ces informations vidéo sur une seule image ou un nombre limité d'images. Une composition spatiale de ces éléments est donc réalisée et c'est l'image composée globale obtenue qui est codée au lieu d'un codage séparé de chaque image vidéo provenant des sources vidéo. Une scène globale dont la construction nécessite habituellement plusieurs flux vidéo peut être construite à partir d'un nombre plus limité de flux vidéo et même à partir d'un seul flux vidéo transmettant l'image composée.

Grâce à l'émission d'une image composée de manière simple et la transmission de données associées décrivant à la fois cette composition et la construction de la scène finale, les circuits de décodage sont simplifiés et la construction de la scène réalisée de manière plus souple.

En prenant un exemple simple, si au lieu de coder et de transmettre séparément 4 images au format QCIF (acronyme de l'expression anglaise
Quarter Common lntermediate Format), c'est à dire de coder et de transmettre sur un flux élémentaire chacune des 4 images au format QCIF, on ne transmet qu'une seule image au format CIF (Common Intermediate
Format) regroupant ces quatre images, le traitement au niveau du codage et

du décodage est simplifié et plus rapide, pour des images de complexité de codage identique.

A la réception, l'image n'est pas simplement présentée. Elle est recomposée en utilisant des informations de composition transmises. Cela permet de présenter à l'utilisateur une image moins figée, incluant potentiellement une animation résultant de la composition, et de lui offrir une interactivité plus poussée, chaque objet recomposé pouvant être actif.

La gestion au niveau du récepteur est simplifiée, les données à transmettre peuvent être davantage comprimées du fait du regroupement de données vidéo sur une image, le nombre de circuits nécessaires au décodage est réduit. L'optimisation du nombre de flux permet de minimiser les ressources nécessaires par rapport au contenu transmis.

D'autres particularités et avantages de l'invention apparaîtront clairement dans la description suivante donnée à titre d'exemple non limitatif et faite en regard des figures annexées qui représentent : - la figure 1 un dispositif de codage selon l'invention, - la figure 2 un récepteur selon l'invention, - la figure 3 un exemple de scène composite.

La figure 1 représente un dispositif de codage selon l'invention. Les circuits 11 à 1n symbolisent la génération des différents signaux vidéos disponibles au codeur pour le codage d'une scène à visualiser par le récepteur. Ces signaux sont transmis à un circuit de composition 2 qui a pour fonction de composer une image globale à partir de celles correspondant aux signaux reçus. L'image globale obtenue est appelée image composée ou mosaïque. Cette composition est définie à partir d'informations échangées avec un circuit de génération de données auxiliaires 4. Il s'agit des informations de composition permettant de définir l'image composée et ainsi d'extraire, au récepteur, les différents éléments ou sous-images composant cette image, par exemple des informations de position et de forme dans l'image telles que les coordonnées des sommets de rectangles si les éléments constituant l'image transmise sont de forme rectangulaire ou des descripteurs de forme. Ces informations de composition permettent d'extraire des textures et il est ainsi possible de définir une bibliothèque de textures pour la composition de la scène finale.

Ces données auxiliaires sont relatives à l'image composée par le circuit 2 mais également à l'image finale représentant la scène à visualiser au récepteur. 1\ s'agit alors d'informations graphiques, par exemple relatives aux formes géométriques, aux apparences, à la composition de la scène permettant de configurer une scène représentée par l'image finale. Ces informations définissent les éléments à associer aux objets graphiques pour le plaquage des textures. Elles définissent également les interactivités possibles permettant de reconfigurer l'image finale à partir de ces interactivités...

La composition de l'image à transmettre peut être optimisée en fonction des textures nécessaires à la construction de la scène finale.

L'image composée générée par le circuit de composition 2 est transmise à un circuit de codage 3 qui réalise un codage de cette image. Il s'agit par exemple d'un codage de type MPEG de l'image globale alors découpée en macroblocs. Des limitations peuvent être prévues pour l'estimation de mouvement en réduisant les fenêtres de recherches à la dimension des sous-images ou à l'intérieur des zones dans lesquelles sont positionnés les éléments d'une image à l'autre, ceci afin d'imposer aux vecteurs mouvement de pointer dans la même sous-image ou zone de codage de l'élément. Les données auxiliaires provenant du circuit 4 sont transmises à un circuit de codage 5 qui réalise un codage de ces données.

Les sorties des circuits de codage 3 et 5 sont transmises aux entrées d'un circuit de multiplexage 6 qui effectue un multiplexage des données reçues, c'est à dire des données vidéo relatives à l'image composée et des données auxiliaires. La sortie du circuit de multiplexage est transmise à l'entrée d'un circuit de transmission 7 pour la transmission des données multiplexées.

L'image composée est réalisée à partir d'images ou parties d'image de formes quelconques extraites de sources vidéo mais peut également contenir des images fixes ou, d'une manière générale, tout type de représentation. Selon le nombre de sous-images à transmettre, une ou plusieurs images composées peuvent être réalisées pour un même instant, c'est à dire pour une image finale de la scène. Dans le cas où les signaux vidéo exploitent des standards différents, ces signaux peuvent être regroupés par standard du même type pour la composition d'une image composée. Par exemple, une première composition est réalisée à partir de tous les éléments à coder selon la norme MPEG-2, une deuxième

composition à partir de tous les éléments à coder selon la norme MPEG-4, une autre à partir des éléments à coder selon la norme JPEG ou GIF images ou autre, de telle sorte que l'on émette un seul flux par type de codage et 1 ou par type de média.

L'image composée peut-être une mosaïque régulière constituée par exemple de rectangles ou sous-images de même taille ou bien une mosaïque irrégulière. Le flux auxiliaire transmet les données correspondant à la composition de la mosaïque.

Le circuit de composition peut effectuer la composition de l'image globale à partir de rectangles englobant ou fenêtres de limitation définissant les éléments. Ainsi un choix des éléments nécessaires à la scène finale est effectué par le compositeur. Ces éléments sont extraits d'images à disposition du compositeur provenant de différents flux vidéo. Une composition spatiale est ensuite réalisée à partir des éléments sélectionnés en les "plaçant" sur une image globale constituant une seule vidéo. Les informations relatives au positionnement de ces différents éléments, coordonnées, dimensions, etc., sont transmises au circuit de génération de données auxiliaires qui les traitent pour les transmettre sur le flux.

Le circuit de composition est du domaine connu. Il s'agit par exemple d'un outil de montage vidéo professionnel, du type"Adobe première" (Adobe est une marque déposée). Grâce à un tel circuit, des objets peuvent être extraits des sources vidéo, par exemple en sélectionnant des parties d'images, les images de ces objets peuvent être redimensionnées et positionnées sur une image globale. Un multiplexage spatial est par exemple effectué pour obtenir l'image composée.

Les moyens de construction d'une scène, à partir desquels est générée une partie des données auxiliaires, sont également du domaine connu. Par exemple, la norme MPEG4 fait appel au langage VRML (Virtual Reality Modeling Language) ou plus précisément au langage binaire BIFS (Blnary Format for Scenes) qui permet de définir la présentation d'une scène, de la changer, de l'actualiser. La description BIFS d'une scène permet de modifier les propriétés des objets et de définir leur comportement conditionnel. Elle suit une structure hiérarchique qui est une description arborescente.

Les données nécessaires à la description d'une scène concernent, entre autres, les règles de construction, les règles d'animation pour un objet,

les règles d'interactivité pour un autre objet... Elles décrivent le scénario final. Une partie ou la totalité de ces données constitue les données auxiliaires pour la construction de la scène.

La figure 2 représente un récepteur pour un tel flux de données codé.

Le signal reçu à l'entrée du récepteur 8 est transmis à un démultiplexeur 9 qui sépare le flux vidéo des données auxiliaires. Le flux vidéo est transmis à un circuit de décodage vidéo 10 qui décode l'image globale telle qu'elle a été composée au niveau du codeur. Les données auxiliaires en sortie du démultiplexeur 9 sont transmises à un circuit de décodage 11 qui réalise un décodage des données auxiliaires. Enfin un circuit de traitement 12 traite les données vidéo et les données auxiliaires provenant respectivement des circuits 10 et 11 pour extraire les éléments, les textures nécessaires à la scène, puis construire cette scène, l'image représentant celle-ci étant alors transmise à l'afficheur 13. Soit les éléments constituant l'image composée sont systématiquement extraits de l'image pour être exploités ou non, soit les informations de construction de la scène finale désignent les éléments nécessaires à la construction de cette scène finale, les informations de recomposition extrayant alors ces seuls éléments de l'image composée.

Les éléments sont extraits, par exemple, par démultiplexage spatial.

Ils sont redimensionnés, si nécessaire, par suréchantillonnage et interpolation spatiale.

Les informations de construction permettent donc de ne sélectionner qu'une partie des éléments constituant l'image composée. Elles permettent également d'autoriser l'utilisateur à "naviguer" dans la scène construite afin de visualiser des objets l'intéressant. Les informations de navigation provenant de l'utilisateur sont par exemple transmises en une entrée du circuit 12 (non représentée sur la figure) qui modifie la composition de la scène en conséquence.

Bien évidemment, les textures transportées par l'image composée peuvent ne pas être exploitées directement dans la scène. Elles peuvent, par exemple, être mémorisées par le récepteur pour une exploitation en temps décalé ou pour la constitution d'une bibliothèque utilisée pour la construction de la scène.

Une application de l'invention concerne la transmission des données vidéo au standard MPEG4 correspondant à plusieurs programmes

à partir d'un seul flux vidéo ou plus généralement l'optimisation du nombre de flux dans une configuration MPEG4, par exemple pour une application guide de programmes. Si, dans une configuration classique MPEG-4, il est nécessaire de transmettre autant de flux que de vidéos pouvant être visualisées au niveau du terminal, le procédé décrit permet d'envoyer une image globale contenant plusieurs vidéos et d'utiliser les coordonnées de texture pour construire une nouvelle scène à l'arrivée.

La figure 3 représente un exemple de scène composite construite à partir d'éléments d'une image composée. L'image globale 14, aussi appelée texture composite, est composée de plusieurs sous-images ou éléments ou sous-textures 15,16, 17,18, 19. L'image 20, en bas de la figure, correspond à la scène à visualiser. Le positionnement des objets pour construire cette scène correspond à l'image graphique 21 qui représente les objets graphiques.

Dans le cas d'un codage MPEG-4 et selon l'art antérieur, chaque vidéo ou image fixe correspondant aux éléments 15 à 19 est transmise dans un flux vidéo ou d'image fixe. Les données graphiques sont transmises dans le flux graphique.

Dans notre invention, une image globale est composée à partir des images relatives aux différentes vidéo ou images fixes pour former l'image composée 14 représentée en haut de la figure. Cette image globale est codée. Des données auxiliaires relatives à la composition de l'image globale et définissant les formes géométriques (seulement deux formes 22 et 23 sont représentées sur la figure) sont transmises en parallèle permettant de séparer les éléments. Les coordonnées de texture aux sommets, lorsque ces champs sont exploités, permettent de texturer ces formes à partir de l'image composée. Des données auxiliaires relatives à la construction de la scène et définissant l'image graphique 21 sont transmises.

Dans le cas d'un codage MPEG-4 de l'image composée et selon l'invention, l'image texture composite est transmise sur le flux vidéo. Les éléments sont codés comme objets vidéo et leurs formes géométrique 22,23 et coordonnées de texture aux sommets (dans l'image composée ou la texture composite) sont transmises sur le flux graphique. Les coordonnées de texture sont les informations de composition de l'image composée.

Le flux qui est transmis peut être codé au standard MPEG-2 et dans ce cas, il est possible d'exploiter les fonctionnalités des circuits de plateformes existantes intégrant les récepteurs.

Dans le cas d'une plate-forme pouvant décoder plus d'un programme MPEG-2 à un instant donné, des éléments complétant les programmes principaux peuvent être transmis sur un flux vidéo annexe MPEG-2 ou MPEG-4. Ce flux peut contenir plusieurs éléments visuels tels que des logos, des bannières publicitaires, animés ou non, qui peuvent être recombinés avec l'un ou l'autre des programmes diffusés, au choix du diffuseur. Ces éléments peuvent également être affichés en fonction des préférences ou du profil de l'utilisateur. Une interaction associée peut être prévue. Deux circuits de décodage sont exploités, un pour le programme, un pour l'image composée et les données auxiliaires. Un multiplexage spatial est alors possible du programme en cours de diffusion avec des informations supplémentaires provenant de l'image composée.

Un seul flux vidéo annexe peut être utilisé pour un bouquet de programme, pour compléter plusieurs programmes ou plusieurs profils d'utilisateurs.

Claims

REVENDICATIONS 1 Procédé de codage d'une scène composée d'objets dont les textures sont définies à partir d'images ou parties d'images provenant de différentes sources vidéo (11,... 1n), caractérisé en ce qu'il comporte les étapes : - de composition spatiale (2) d'une image en dimensionnant et positionnant sur une image, les dites images ou parties d'images provenant des différentes sources vidéo, pour obtenir une image composée, - de codage (3) de l'image composée, - de calcul et codage de données auxiliaires (4) comprenant des informations relatives à la composition de l'image composée et des informations relatives aux textures des objets.
2 Procédé selon la revendication 1, caractérisé en ce que l'image composée est obtenue par multiplexage spatial des images ou parties d'images.
3 Procédé selon la revendication 1, caractérisé en ce que les sources vidéo à partir desquelles sont sélectionnés les images ou parties d'images composant une même image composée, ont les mêmes normes de codage.
4 Procédé selon la revendication 1, caractérisé en ce que l'image composée comporte également une image fixe ne provenant pas d'une source vidéo.
5 Procédé selon la revendication 1, caractérisé en ce que le dimensionnement est une réduction de taille obtenue par sous- échantillonnage.
6 Procédé selon la revendication 1, caractérisé en ce que l'image composée est codée selon la norme MPEG 4 et en ce que les informations relatives à la composition de l'image sont les coordonnées de textures.
7 Procédé de décodage d'une scène composée d'objets, codée à partir d'une image vidéo composée regroupant des images ou parties d'images de

<Desc/Clms Page number 12>

différentes sources vidéo et à partir de données auxiliaires qui sont des informations de composition de l'image vidéo composée et des informations relatives aux textures des objets, caractérisé en ce qu'il effectue les étapes de : - décodage de l'image vidéo (10) pour obtenir une image décodée - décodage des données auxiliaires (11), - extraction (12) de textures de l'image décodée à partir des données auxiliaires de composition de l'image, - plaquage des textures (12) sur des objets de la scène à partir des données auxiliaires relatives aux textures.
8 Procédé de décodage selon la revendication 7, caractérisé en ce que l'extraction des textures est effectuée par démultiplexage spatial de l'image décodée.
9 Procédé de décodage selon la revendication 7, caractérisé en ce qu'une texture est traitée par suréchantillonnage et interpolation spatiale pour obtenir la texture à afficher dans l'image finale visualisant la scène.
10 Dispositif de codage d'une scène composée d'objets dont les textures sont définies à partir d'images ou parties d'images provenant de différentes sources vidéo (11,... 1n), caractérisé en ce qu'il comprend : - un circuit de montage vidéo (2) recevant les différentes sources vidéo pour dimensionner et positionner sur une image, des images ou parties d'images provenant de ces sources vidéo, pour réaliser une image composée, - un circuit de génération de données auxiliaires (4) relié au circuit de montage vidéo (2) pour fournir des informations relatives à la composition de l'image composée et des informations relatives aux textures des objets, - un circuit de codage (3) de l'image composée, - un circuit de codage (5) des données auxiliaires.
11 Dispositif de décodage d'une scène composée d'objets, codée à partir d'une image vidéo composée regroupant des images ou parties d'images provenant de différentes sources vidéo et à partir de données auxiliaires qui sont des informations de composition de l'image vidéo composée et des

<Desc/Clms Page number 13>

informations relatives aux textures des objets, caractérisé en ce qu'il comporte : - un circuit de décodage de l'image vidéo composée pour obtenir une image décodée (10), - un circuit de décodage des données auxiliaires (11) - un circuit de traitement (12) recevant les données auxiliaires et l'image décodée pour extraire des textures de l'image décodée à partir des données auxiliaires de composition de l'image et pour plaquer des textures sur des objets de la scène à partir des données auxiliaires relatives aux textures.