FR2874292A1

FR2874292A1 - Procede de mise en forme de trames d'une sequence video

Info

Publication number: FR2874292A1
Application number: FR0408802A
Authority: FR
Inventors: Bergot Catherine Lamy; Cyril Bergeron
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2004-08-10
Filing date: 2004-08-10
Publication date: 2006-02-17
Anticipated expiration: 2024-08-10
Also published as: US20090052550A1; FR2874292B1; EP1779669A1; JP4654244B2; WO2006015979A1; JP2008509617A; US8284846B2

Abstract

Méthode et dispositif pour mettre en forme de trames d'une séquence vidéo ou groupement d'images GOP comportant au moins les étapes suivantes : utiliser une table de mélange adaptée pouro arranger les trames d'importance la plus élevée régulièrement en laissant des intervalles entre elles,o remplir les intervalles par des trames de moindre importance, eto coder la nouvelle séquence ainsi obtenue.

Description

L'invention concerne un procédé de mise en forme de trames d'une séquence

vidéo afin d'obtenir de la granularité (en anglo-saxon

scalibity) temporelle.

Dans la suite de la description, on désigne sous le terme granularité la capacité d'un flux vidéo à être décodé au choix avec une finesse plus ou moins importante. De manière indifférente, on emploie le mot trame ou image pour désigner un même objet.

L'invention s'applique par exemple dans le contexte du standard H. 264/MPEG-4 AVC.

Granularité dans un standard vidéo.

Un flux de données compressées selon une méthode assurant la granularité, ou en anglo-saxon a scalable compressed bit-stream , contient plusieurs sous-ensembles imbriqués. Chacun de ces sous-ensembles représente le contenu vidéo initial pour une résolution spatiale particulière (conduisant à des variations de la taille de l'image), une résolution temporelle (conduisant à des variations de débit de trame vidéo) ou une résolution en qualité visuelle (conduisant à des variations des paramètres de quantification). Chacun de ces sous ensembles est supposé correspondre à une compression efficace de l'information qu'elle contient. La figure 1 schématise un exemple de granularité temporelle.

Les intérêts de la granularité sont multiples. Avec la granularité, il est possible de répondre à différents besoins ou capacités sans nécessiter une réévaluation des conditions de transmission à chaque instant. En particulier, du point de vue du codeur, l'intérêt est que la vidéo peut être compressée une seule fois, pour être utilisée plus tard à différents débits; du point de vue du fournisseur de services, l'intérêt réside dans la possibilité de commuter à un débit différent selon les capacités de largeur de bande du lien, et du point de vue de l'utilisateur, l'intérêt réside dans le fait que ce dernier peut facilement changer ses exigences et sa demande en temps réel pour l'adapter aux besoins courants. Dans un contexte de communication sans fil, où la largeur de bande et le débit utile disponible peuvent changer rapidement du fait des conditions de transmission de canal, du réseau existant pour la transmission et de la présence possible des autres utilisateurs et des interférences, la capacité d'offrir de la granularité est en train de devenir une propriété importante.

H.264/MPEG-4 AVC Les études au niveau du groupe des experts de codage vidéo (VCEG) de l'ITU-T ont commencé en 1999 pour établir un nouveau standard vidéo capable d'offrir une compression plus efficace que les solutions existantes, tout en présentant un niveau de complexité raisonnable pour son implémentation et finalement être facilement utilisable pour des applications réseau, en particulier les réseaux sans fil et internet. Le consortium MPEG a proposé au groupe des experts VCEG de créer un partenariat pour établir un standard commun, désigné sous le nom H.264 ou MPEG-4 AVC (codage vidéo avancé). La version finale du document ITU JVT-G050 spécifie seulement les aspects du codage vidéo.

A l'heure actuelle, les principales applications de la norme H.264 sont: ^ les services duplex temps-réel de la voix, par exemple la vidéoconférence sur des réseaux câblés ou sans fil (tel que l'UMTS Universal Mobile Telecommunication system), avec un débit inférieur à 1 Mb/s et un faible délai d'attente; ^ les services vidéo de bonne qualité et de qualité élevée pour la transmission en diffusion ( streaming ) satellite, xDLS, ou DVD, où le débit est compris entre 1 et 8 Mb/s et le délai d'attente peut être important; ^ les flux de qualité plus faible pour des services vidéo avec un débit plus faible telles que les applications Internet (avec un débit inférieur à 2Mb/s et un délai d'attente qui peut être important).

La figure 2 représente les trois profils définis par le standard H.264 et les outils principaux implémentés pour chaque profil: ^ Le profil de base ou en anglo-saxon Baseline, qui est particulièrement bien adapté à la vidéoconférence, la vidéo sur IP et les applications de mobilité. Il intègre seulement le codage par les trames ou segments I (Infra) et P (prédites) et quelques outils de protection d'erreurs.

^ Le profil principal ou en anglo-saxon Main qui est adapté à la télévision et à la diffusion vidéo ou Broadcasting et des applications avec délai d'attente important. Il intègre en particulier un mode entrelacé (pour les applications télé), des trames B, le codage entropie arithmétique.

^ Le profil étendu ou "X" (en anglo-saxon extended ) qui est adapté au streaming sur différents canaux, en particulier les canaux sans fil.

II intègre en particulier des solutions adaptives en débit et des outils de protection d'erreurs.

Le standard H.264 bien qu'apparaissant intéressant et apte à remplacer d'autres standards plus connus présente quelques inconvénients majeurs lorsqu'il est utilisé dans des applications à canal variable: il ne comprend en effet pas de capacité de granularité , mis à part l'emploi éventuel des trames B dans le profil principal ou le profil étendu pour de la granularité temporelle.

Numérotation des trames et ordre de décodage Il existe actuellement deux solutions de numérotation des trames vidéo dans le standard H264/MPEG-4 AVC.

La première solution, qui repose sur des numéro de trame ou en anglosaxon frame_num correspond à l'ordre de décodage des unités d'accès dans le flux. Ce paramètre est décodé à partir de chaque en-tête d'un segment d'image et augmente dans l'ordre de décodage des unités d'accès. Il n'indique pas nécessairement l'ordre d'affichage final que le décodeur utilisera.

La seconde solution désignée habituellement par le terme POC pour numéro d'apparition de l'image ou en anglo-saxon Picture Order Count correspond à l'ordre d'affichage des trames décodées (ou champs) qui sera utilisé par le décodeur. Elle est obtenue comme suit: o Chaque trame codée est associée à deux paramètres POC correspondant respectivement à un numéro d'apparition champ haut et à un numéro d'apparition champ bas désignés en anglo-saxon topfieldordercnt et bottomfieldordercnt , o Chaque champ codé est associé à un paramètre POC , appelé pour un champ supérieur topfieldordercnt et pour un champ inférieur bottomfieldordercnt .

La différence entre les deux paramètres numéro d'apparition haut top order count et pour le numéro d'apparition bas bottom order count est donnée par le paramètre delta_POC bottom qui par défaut est égal à zéro. En pratique, avec des modes non entrelacés, la différence Delta_Poc_bottom est égale à zéro.

Le standard actuel H.264 permet d'obtenir la valeur POC pour trois types: - type 0: le paramètre POC est envoyé explicitement dans chaque partie d'en-tête, - type 1: le paramètre POC dépend de l'ordre de décodage (frame_num) et des incréments indiqués dans la séquence des paramètres de réglage, avec une différence envoyée seulement si il n'y a pas de changement espéré dans l'ordre, - type 2: l'ordre d'affichage est le même que l'ordre de décodage.

Le procédé selon l'invention modifie notamment la valeur du paramètre POC, il utilise donc le type O. Pour les 2 autres types (1 et 2), l'ordre d'affichage est directement ou indirectement dérivé par le numéro de trame ou frame_num .

Dans le cas du standard, le paramètre TopFieldOrderCnt 5 (TopFOC) de type 0 est obtenu comme suit: TopFieldOrderCount = POCMsb+POCLsb où les lettres Msb correspondent au bit le plus significatif et les lettres Lsb au bit le moins significatif, où POCLsb est envoyé dans chaque en-tête d'une sous partie ou segment de l'image et où le paramètre POCMsb est incrémenté lorsque le paramètre POCLsb atteint sa valeur maximum.

Un exemple de résultat d'arrangement pour l'ordre d'affichage obtenu par réarrangement du POC est donné dans la table 1 ################################################# #N trame#Type#POC_lsb#TopFOC#ordre d'apparition# ################################################# # 0 # I# 2 # 2# 2 # # 1 # P# 3 # 3# 3 # # 2 # P# 1 # 1# 1 # # 3 # P# 4 # 4# 4 # # 4 # P# 0 # 0# 0 # # 5 # I# 0 # 0# 5 # # 6 # P# 3 # 3# 8 # # 7 # P# 1 # 1# 6 # # 8 # P# 2 # 2# 7 # # 9 # I# 0 # 0# 9 # ####################################################### Référence multiple et éloignée Contrairement aux standards précédents de codage vidéo qui étaient utilisés en mode simple référence, c'est-à-dire où la prédiction d'apparition est faite uniquement en utilisant une image précédente donnée, le standard H.264 permet d'utiliser jusqu'à 32 trames différentes comme références pour chaque segment P (ou en anglo-saxon P- slice) et jusqu'à 64 trames différentes pour chaque segment B (ou B-slice) . Les images qui sont codées et décodées, et disponibles pour servir de références sont mémorisées dans une mémoire contenant les images décodées (DPB en anglo-saxon decoded picture buffer). Elles sont référencées soit comme une image à référence proche mieux connue sous l'expression short term reference picture , indexée en fonction du PicOrderCount, ou comme une image à référence éloignée, mieux connue sous l'expression long term reference picture , indexée en fonction du compteur d'image de référence éloignées LongTermPicNum. Lorsque la mémoire DPB est pleine, seul le terme à référence proche le plus ancien est retiré de la mémoire. Les références Long term ne sont pas éliminées, excepté par une commande explicite dans le flux de bits.

L'invention concerne une méthode pour mettre en forme des trames 15 d'une séquence vidéo ou groupement d'images GOP caractérisée en ce qu'elle comporte au moins les étapes suivantes: utiliser une table de mélange adaptée pour o arranger les trames d'importance la plus élevée régulièrement en laissant des intervalles entre elles, o remplir les intervalles par des trames de moindre importance, et o coder la nouvelle séquence ainsi obtenue.

L'invention présente notamment comme avantage d'être entièrement compatible avec le standard H.264/MPEG-4 AVC. Le standard H.264 peut utiliser le mode de granularité temporelle proposé sans avoir à adapter des fonctionnalités actuellement standardisées, et ce pour tous les profils définis, en particulier pour le profil de base. En utilisant la présente invention, un codeur H.264 offrira les performances de granularité temporelle à des coûts réduits ou sans coût en terme de redondance en comparaison avec un flux de données ne pouvant offrir de granularité mieux connu sous 7 l'expression codestream non scalable .

D'autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture de la description qui suit d'un exemple donné à titre illustratif et nullement limitatif annexé des figures qui représentent: o La figure 1 une illustration de la granularité temporelle, o La figure 2 les profils existants du standard H.264, o Les figures 3, 4 et 5 trois variantes de mise en oeuvre du procédé, o Les figures 6, 7 deux exemples d'un cas de groupement d'images comprenant 7 trames, o La figure 8 une comparaison du rendement visuel obtenu avec des procédés selon l'art antérieur ou avec le procédé selon l'invention, o Les figures 9, 10 et 11 des exemples d'application de la méthode pour des groupements d'images de taille différente.

L'invention repose notamment sur l'utilisation des deux systèmes de numérotation des trames proposés par le standard H.264, le premier pour coder efficacement les données et le deuxième pour transmettre les données selon le niveau de raffinement dans la séquence vidéo. Le principe consiste notamment à mélanger les trames, en réarrangeant les trames les plus importantes (trames qui seront décodées pour les débits les plus faibles) de manière régulière et à remplir les intervalles entre les trames les plus importantes avec les trames de moindre importance (trames qui seront décodées seulement avec les trames de débit le plus élevé) et à coder cette nouvelle séquence comme si c'était une séquence classique. Ce mode de mélange permet en premier d'obtenir une granularité temporelle et une prédiction récursive sans requérir à l'utilisation de trames B et en second de positionner les trames de référence de façon régulière dans la séquence (incluant la première trame intra). Ceci peut conduire à un gain de compression et un gain de restitution visuelle ou en anglo-saxon rendering dans le cas de masquage ou en anglo-saxon concealment , comme les trames sont systématiquement plus proches que leur référence.

Granularité temporelle à travers le réarrangement de la trame Comme mentionné ci-dessus, un algorithme de codage vidéo avec granularité temporelle permet l'extraction par le décodeur vidéo de séquences à différentes résolutions temporelles à partir d'un flux binaire initial. Pour permettre une telle granularité , comme illustré à la figure 1 dans un groupe d'images ou GOP, on définit plusieurs niveaux d'importance correspondant chacun à un nombre de trames consécutives qui peuvent être décodées comme un groupe indépendamment du reste de la séquence vidéo.

Sur la figure 1, trois niveaux d'importance sont représentés, le niveau de base avec un flux de données à faible débit, un premier niveau de raffinement avec trois trames ou images à débit moyen, un second niveau de raffinement pour des trames à débit élevé.

La granularité temporelle est ainsi obtenue en décodant un nombre plus ou moins important de sous-ensembles du GOP. En pratique, si les niveaux d'importance variables sont distribués dans le temps de manière égale ou sensiblement égale, la granularité temporelle naturelle conduit à associer le débit d'images avec le nombre de sous-ensembles décodés.

Le procédé selon l'invention consiste notamment à introduire la caractéristique de granularité temporelle pour un flux de données codées selon une méthode qui ne permet pas a priori d'obtenir de la granularité (en anglo-saxon a priori non scalable codestream ) en réarrangeant les trames dans un groupement d'images GOP de façon telle qu'elles soient distribuées aussi régulièrement que possible. Les trames les plus importantes (qui correspondront aux trames décodées du débit le plus faible) sont distribuées régulièrement (au sens temporel) dans la trame. Les espaces ainsi formés entre ces trames, reçoivent les trames de moindre importance. Les trames dites de moins grande importance correspondent à celles qui sont dans les différents niveaux de raffinement. Par niveau d'importance on désigne ici des trames qui par exemple peuvent être codées avec un niveau de précision plus faible (correspondant notamment à des paramètres de quantification plus élevés).

La séquence ainsi réordonnée peut ensuite être codée de façon classique, par exemple par un codeur de type H.264/MPEG-4 AVC et décodée ensuite par le décodeur du même standard.

Une distribution régulière possible peut correspondre au positionnement de la trame intra ou trame I au milieu du groupement d'images et à une répartition régulière des autres trames prédites ou trames P. Une compatibilité totale ou quasi totale est obtenue du côté décodeur en forçant le codeur à utiliser comme valeurs POC l'ordre de 15 décodage initial.

Différentes variantes de mise en oeuvre de la méthode selon l'invention peuvent être réalisées, dont trois sont données à titre illustratif et nullement limitatif. Elles sont schématisées aux figures 3, 4 et 5.

La figure 3 schématise une variante où l'opération de réarrangement des trames est appliquée directement sur la séquence vidéo à l'aide de moyens d'entrelacement II ou 1 précédent le codeur H.264. Par exemple, sur cette figure le groupe comporte 7 images numérotées 1, 2, 3, 4, 5, 6 et 7 (séquence SI) qui sont réordonnées après la première étape d'entrelacement en une séquence S2 = 4, 2, 6, 1, 3, 5 et 7 correspondant sur la figure à la renumérotation A, B, C, D, E, F, G. Le codeur H.264 code cette séquence S2, par exemple entre prenant comme trame Infra A et en prédisant les 6 autres au moyen de trames P correspondant à B,..., G. Le codeur reçoit aussi des informations de la table de réarrangement ou d'entrelacement utilisée, pour permettre l'insertion de l'ordre de décodage correct dans les champs POC. Le flux de code H 264 transmis est totalement compatible avec le standard et directement décodé par tout décodeur 2 compatible avec le standard H264/MPEG-4-AVC. Cette version présente comme avantage d'être mise en oeuvre directement avec un décodeur H.264 avec une modification mineure du codeur.

La figure 4 représente une autre variante de réalisation où l'opération de réarrangement des trames est appliquée directement sur une séquence vidéo SI =1, 2, 3, 4, 5, 6 et 7 avec des moyens d'entrelacement 5 pour donner une séquence S2 = 4, 2, 6, 1, 3, 5 et 7. La séquence S2 est codée par un codeur vidéo 6 par exemple de type H.264 qui n'est pas modifié en fonctionnement normal. Le flux codé S'2 est ensuite transmis par le canal 4 et décodé par tout décodeur vidéo standard 7. Après décodage, la séquence passe par des moyens de désentrelacement 8 afin de retrouver la séquence initiale S1. Cette variante de mise en oeuvre présente comme avantage d'être applicable à tout codeur vidéo, mais l'inconvénient de nécessiter une modification du côté émetteur et du côté récepteur par l'insertion d'un dispositif d'entrelacement et de désentrelacement.

La figure 5 schématise une autre variante de mise en oeuvre où l'opération de réarrangement des trames est effectuée sur la séquence vidéo à coder au sein d'un codeur modifié 9 adapté pour effectuer l'opération d'entrelacement et qui connaît la table de mélange utilisée. Le codeur H. 264 ainsi modifié effectue le codage de la séquence vidéo SI. Lors de l'opération de codage, selon l'ordre spécifié par la table de mélange, l'ordre de décodage initial est inséré dans les champs POC. La séquence codée est reçue après transmission par le canal de transmission avant d'être décodée par tout décodeur 10 compatible avec le standard H264/MPEG4-AVC, qui utilisera les informations contenues dans les champs POC de la séquence vidéo transmise pour remettre les données dans l'ordre initial. Cette variante présente l'avantage d'être transparente vis à vis de la source vidéo et le décodeur vidéo, et d'être applicable à tout codeur de type H.264 qui peut être adapté à effectuer les opérations d'entrelacement au niveau groupement d'images.

La figure 6 représente un exemple de mise en oeuvre pour un groupement d'images ou GOP comprenant 7 trames désignées par leurs références temporelles initiales {1, 2, 3, 4, 5, 6, 7). Le principe de l'opération de mélange est de distribuer de manière appropriée les trames afin que le procédé de codage adopté soit performant. Pratiquement, en considérant que toutes les trames Ti précédant une trame donnée Td peuvent être utilisées comme référence pour cette trame considérée, l'intérêt est de construire le diagramme de réarrangement des trames de manière régulière, par exemple avec la première image de référence (nécessairement codée en intra) au milieu du GOP. On place ensuite au milieu des deux sous-trames situées de part et d'autre de la trame Intra le second niveau de référence et ainsi de suite.

De cette façon, la première trame codée correspond nécessairement à une 15 trame I ou Intra, mais n'est pas nécessairement la première trame du groupement d'images.

Pour les trames d'importance les plus élevées (premier niveau d'importance), l'efficacité de codage n'est pas optimal, puisque la séparation entre la trame de prédiction et la trame de référence dans l'ordre initial du GOP peut être plus grand. Ceci peut être compensé par le fait que les trames les plus tardives devraient offrir un meilleur niveau de compression, puisqu'elles sont plus proches de la trame Intra (diminution de la distance séparant la trame de référence et la trame prédite). Dans le cas où l'on souhaite absolument utiliser une trame Intra comme première image décodée, le réarrangement des trames selon la figure 7 peut aisément être adopté.

La figure 8 représente un exemple de performances pour le rendement visuel total obtenues avec un procédé selon l'art antérieur (courbe en pointillés) et en mettant en oeuvre le procédé selon l'invention (courbe en traits pleins) pour un groupement de 7 trames. Ces résultats correspondent à l'étude de l'évolution de la mesure objective de rendu visuel ou PSNR (Peak Signal to Noise Ratio) pour un groupe d'images de sept trames. L'image considérée est la séquence 'Foreman' de référence fournie par l'ITU-T à un taux de rafraîchissement de 15 trames/s avec pour cible un débit global de 64 kbits/s. Dans le premier cas (courbe en traits pointillés), on trouve l'évolution de PSNR obtenue sur les sept trames par un codage/décodage H.264 classique, correspondent à un ordre IPPPPPP avec un paramètre de quantification QP égal à 31 pour la trame Intra et à 34 pour les trames prédites, ce qui donne un débit final de 63, 98 kbits/s. La seconde courbe (en traits pleins) montre l'évolution de PSNR pour les sept trames obtenues avec application de l'invention selon la table de mélange donnée par la Figure 6. Les trois niveaux ont été codés respectivement avec les paramètres de quantification suivants: QP=31 pour le premier niveau (trame I), QP=33 pour le niveau de raffinement 1 (trames P) et QP=38 pour le niveau de raffinement 2, ce qui a permis d'obtenir un débit final de 63,03kbits/s. Comme prévu, on observe sur cette seconde courbe que les trois trames les plus importantes ont des valeurs de PSNR meilleures que celles des quatre autres trames (correspondant au second niveau de raffinement), mais aussi que cela est obtenu sans dégradation du PSNR moyen de la séquence puisque cette seconde séquence présente un PSNR moyen de 33,54 dB contre 33,42 dB pour la séquence classique, alors que cette séquence classique a un débit légèrement supérieur. Le procédé décrit dans l'invention offre donc de la granularité temporelle sans coût (voire avec gain), soit en terme de débit, soit en terme de dégradation de la qualité visuelle.

La figure 9 représente la généralisation de la méthode pour des groupements d'images ou GOP de taille différentes. En pratique, on peut mettre en oeuvre la méthode de la façon suivante: o Choisir la première trame de référence Intra comme le milieu du 30 groupement d'images ou GOP et les parties restantes comprenant plusieurs trames comme des sousgroupements d'images ou sous-GOP, o pour chaque sous-GOP répéter les étapes suivantes: prendre comme trame de référence le milieu du sous groupement d'images GOP et définir 2 sous groupements d'images restants comme les parties restantes. Le milieu d'un groupement d'images est par exemple défini à partir de la partie entière de la valeur (taille du GOP+ 1)/2, c'est-à-dire comme le nombre entier égal ou le plus proche inférieur à (taille du GOP+1)/2.

La figure 9 donne l'exemple pour un groupement d'images de 15 trames et la figure 10 pour un groupement d'images de 12 trames.

Sans sortir du cadre de l'invention, il est possible de généraliser cette approche et de définir un diagramme de mélange correspondant à une division du rendement entre chaque niveau de raffinement par une valeur n différente de 2. Ceci amène à placer la première trame Intra à un endroit autre que le milieu du groupement d'images. Dans ce cas, on a un premier niveau qui sera à n-1 images réparties régulièrement, avec la trame I une de ces n-1 images (par exemple la première), et le reste correspondant à des images prédites. Ces n-2 images prédites qui apparaissent au premier niveau de scalabilité ont le même niveau d'importance que la trame I (elles font partie des " trames d'importance la plus élevée ".On procède ainsi de suite pour les niveaux suivants, pour lesquels le nombre de trames de référence de trames à chaque niveau est choisi égal à n-1, conduisant à une valeur moyenne mi = partie entière de la valeur E [i(taille du GOP+1)/n] pour i=1,...,n-1.

La figure 10 représente un exemple pour une division du rendement cible n=3 entre chaque niveau.

Dans l'exemple, la première trame (7-A) est l'Intra alors que les 19 autres trames sont des trames prédites de type P. La méthode selon l'invention est utilisable par exemple dans les applications suivantes: o le cas où un décodeur vidéo n'est pas capable de décoder avec un débit suffisant le flux de code qu'il reçoit et choisit de présenter seulement une version dégradée à un débit plus faible, o le cas où le codeur est informé que la largeur de bande disponible initialement est réduite et qu'il lui faut agir en fonction, soit en sacrifiant certaines des dernières images, soit en réduisant la qualité visuelle de ces dernières images, dernières images qui se trouve être les moins importantes par construction grâce à l'invention.

Claims

REVENDICATIONS

1 Méthode pour mettre en forme de trames d'une séquence vidéo ou 5 groupement d'images GOP caractérisée en ce qu'elle comporte au moins les étapes suivantes: utiliser une table de mélange adaptée pour o arranger les trames d'importance la plus élevée régulièrement en laissant des intervalles entre elles, o remplir les intervalles par des trames de moindre importance, et o coder la nouvelle séquence ainsi obtenue.

2 Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange des trames est effectuée avant l'étape de codage et la table de mélange est transmise au codeur pour insérer l'ordre de décodage dans les trames.

3 Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange des trames est effectuée avant l'étape de codage et en ce que le flux de données codées est transmis à un décodeur vidéo puis à un désentrelaceur pour obtenir le groupement d'images initial.

4 Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange des trames et de codage se font simultanément.

Méthode selon la revendication 1 caractérisée en ce que l'étape de mélange comporte au moins les étapes suivantes: o choisir la première trame Infra comme milieu d'un groupement d'images et les parties restantes comme des sous-groupements 30 d'images, o pour chaque sous- groupement d'images, répéter les étapes suivantes: prendre comme trame de référence le milieu d'un sous groupement d'images GOP et définir 2 sous groupements d'images restants; le milieu d'un groupement d'images étant défini à partir de la partie entière de la valeur (taille du GOP+1)/2, comme le nombre entier égal ou le plus proche inférieur à la partie entière de (taille du GOP+1)12.

6 Utilisation de la méthode selon l'une des revendications 1 à 5 au codage H.264/MPEG-4 AVC.

7 Dispositif de mise en forme de trames d'une séquence vidéo ou groupement d'images caractérisé en ce qu'il comporte au moins les éléments suivants: o un entrelaceur (1) adapté pour arranger les trames d'importance les plus élevées régulièrement en laissant des intervalles entre elles et remplir ces intervalles avec des trames de moindre importance, o un codeur (2) comportant la table de mélange utilisée, le codeur étant adapté à insérer l'ordre de décodage dans les trames.

8 Dispositif de codage décodage caractérisé en ce qu'il comporte un dispositif selon la revendication 7 et un décodeur vidéo (3).

9 Dispositif de mise en forme de trames d'une séquence vidéo comportant au moins les éléments suivants: o un entrelaceur (5) adapté pour arranger les trames d'importance les plus élevées régulièrement en laissant des intervalles entre elles et remplir ces intervalles avec des trames de moindre importance, o un codeur vidéo (6) adapté à coder la séquence obtenue par l'étape précédente.

Dispositif de codage décodage caractérisé en ce qu'il comporte un dispositif de mise en forme selon la revendication 8 et un décodeur vidéo (7) pour décoder la séquence après transmission par un canal, et un désentrelaceur (8) adapté à retrouver la séquence initiale.

11 Dispositif de mise en forme de trames vidéo ou de groupements d'images caractérisé en ce qu'il comporte au moins un codeur (9) adapté pour arranger les trames d'importance les plus élevées régulièrement en laissant des intervalles et à remplir ces intervalles avec des trames de moindre importance, et à insérer l'ordre de décodage dans les trames.

12 Dispositif selon l'une des revendications 7 à 11 caractérisé en ce que le codeur ou le décodeur est de type H.264/MPEG-4 AVC.