EP2036356A1

EP2036356A1 - Procede de codage en mode trame ou bitrame

Info

Publication number: EP2036356A1
Application number: EP07786845A
Authority: EP
Inventors: Philippe Guillotel; Dominique Thoreau; Julien Haddad
Original assignee: Thomson Licensing SAS
Current assignee: THOMSON LICENSING
Priority date: 2006-06-30
Filing date: 2007-06-26
Publication date: 2009-03-18
Also published as: CN101485207A; JP5148605B2; US20090304079A1; FR2903271A1; WO2008000737A1; US8428132B2; CN101485207B; JP2009542145A

Abstract

Le procédé comporte les étapes suivantes : - calcul de l'activité spatiale de chaque macrobloc et de l'activité temporelle entre les macroblocs constituant un groupe de macroblocs en mode trame, - calcul d'un indice d'activité relative du groupe qui est une fonction croissante de l'activité temporelle et une fonction décroissante de l'activité spatiale du groupe, - comparaison (10) de l'indice d'activité relative du groupe à un seuil prédéfini pour le définir comme groupe avec activité (11), - codage de l'image en mode trame ou bitrame (15, 16) en fonction du nombre de groupes de macroblocs détectés avec activité (14) par rapport au nombre de groupes de macroblocs dans l'image. Les applications concernent la compression de données, en particulier le standard H 264.

Description

PROCEDE DE CODAGE EN MODE TRAME OU BITRAME.

L'invention concerne un procédé et un dispositif de codage d'une image en mode trame ou bitrame, le mode bitrame pouvant exploiter localement dans l'image, pour un groupe de macroblocs, le mode trame.

La vidéo entrelacée est le format le plus utilisé pour la télévision. Une image bitrame ou « frame » en anglais se compose de deux trames paire et impaire aussi appelées haute et basse, «top field » et « bottom field» en anglais, qui représentent respectivement les lignes paires et impaires de l'image. La trame haute et la trame basse étant acquises à deux instants différents, certaines images d'une séquence présentent des artefacts d'entrelacement dus à un mouvement entre les deux acquisitions.

Pour mieux supporter ce format, le standard MPEG 4 ou H264 permet de coder une image selon trois mode différents : « bitrame »,

« trame », « MBAFF » selon l'acronyme de l'expression anglaise « Macro

Block Adaptive Field Frame ». En mode bitrame, l'image est codée telle quelle, en mode trame, les deux trames sont codés séparément. Le mode

MBAFF peut être utilisé en addition du mode bitrame pour améliorer ce mode en permettant de séparer localement les trames de l'image.

La figure 1 représente un groupe de macroblocs d'une image ou SuperMacroBloc SMB constitué de deux macroblocs MB verticaux, codé en mode trame ou en mode bitrame. Le codage du supermacrobloc en mode bitrame consiste à coder des macroblocs référencés 1 et 2 constitués chacun d'une alternance de lignes d'une première et d'une deuxième trame. Le codage du supermacrobloc en mode trame consiste à coder des macroblocs référencés 3 et 4 constitués chacun d'une succession de lignes appartenant respectivement à la première et à la deuxième trame. La figure 2 représente une image référencée 5 pour laquelle un balayage image est effectué par paire de macroblocs ou supermacrobloc référencé 6 permettant ce choix de codage en local.

Se pose donc le problème de la sélection du mode, mode de codage trame ou bitrame pour l'image et, pour le mode de codage bitrame de l'image, mode de codage trame ou bitrame des supermacroblocs de l'image, qui permet d'optimiser la compression d'un point de vue débit/qualité de l'image.

Deux types de solutions existent actuellement pour résoudre ce problème, celles qui reposent sur un critère a posteriori et celles qui reposent sur un critère a priori.

Dans le cadre d'un algorithme a posteriori, le codage s'effectue en deux passes, une en mode trame et l'autre en mode bitrame ou bitrame + MBAFF. Le codeur mémorise alors les résultats obtenus après chacune des passes puis les compare à l'aide d'une fonction d'optimisation basée sur un compromis débit/qualité de l'image. L'inconvénient de ce type de méthode est son coût en temps de calcul.

Plusieurs approches a priori existent:

Une première approche « à priori » est décrite dans le document intitulé « Fast décision on picture adaptive frame /field coding for H.264 », auteurs P. Yin, A. Tourapis, J. Boyce. L'algorithme décrit se propose de résoudre le problème dans le cas où le codeur a le choix entre les modes bitrame et trame uniquement. Il est basé sur l'hypothèse que les zones d'une image qui sont en mouvement sont très souvent mieux codées en mode trame qu'en mode bitrame.

L'idée principale est de détecter les supermacroblocs, constitués de 2 macroblocs verticaux, qui appartiennent à une région en mouvement, en utilisant le filtre de détection de mouvement présenté dans le document intitulé "A Robust Motion Détection and Estimation Filter For Video Signais", auteurs M. Latzel, J. K. Tsotsos, Proceedings of the 2003 SPIE Conf. on Image and Video Communication and Processing, Jan. 2003.

Si l'image est majoritairement composée de macroblocs « en mouvement », l'algorithme prend la décision de la coder en mode trame, en mode bitrame dans l'autre cas.

Le filtre détecteur de mouvement utilisé est donné par ses coefficients K_BP = [-1,2,-3,4,-3,2,-1] . Ce filtre est appliqué verticalement à l'image/(x, y), c'est à dire aux valeurs de luminance de l'image, pour, en sortie, donner l'image l_BP(χ, y) . Une image de masque est ensuite construite de la manière suivante:

s ^Siⁱnon l^Iβp(x'^y) ^{> Tl}

avec T1 , seuil prédéfini.

Un supermacrobloc est considéré en mouvement si les pixels x,y de ce supermacrobloc SMB sont tels que: ∑M(x, y) > T₂ x,yeSMB avec T2, seuil prédéfini.

Le ratio S de supermacroblocs en mouvement par rapport aux supermacroblocs dans l'image est alors calculé ainsi que la moyenne de la valeur absolue de la différence D en luminance entre l'image courante et sa référence.

La décision bitrame/trame est prise pour toute l'image, comme suit:

- si l'image est de type intra et si S<0,5, codage en mode bitrame sinon, codage en mode trame,

- sinon, si l'image est de type prédictif bidirectionnel et si S<0,6, codage en mode bitrame sinon, codage en mode trame

- sinon, si l'image est de type prédictif unidirectionnel, et si ((S>0,5) OU ((S>0,3 ET D>4,5) ET

(D<10,0))), codage en mode trame, sinon codage en mode bitrame.

Les termes en majuscules ET et OU sont les opérateurs logiques. Est également proposé dans le document une détermination automatique des différents seuils.

L'inconvénient de cette méthode est qu'elle n'est pas optimisée car elle ne tient pas compte de l'exploitation locale possible du mode trame ou bitrame. Elle n'est pas adaptée au mode MBAFF. Une autre approche est proposée dans la demande de brevet européenne publiée sous le numéro EP1494483 et intitulée « Video coder with control of GOP structure by spatial and temporal activity » déposée le 5 janvier 2005, inventeurs X. Ducloux, P Alexandre et L Noblet, dans laquelle est décrit un algorithme se basant cette fois sur un critère global. La comparaison de deux métriques calculées sur toute l'image permet la sélection bitrame/trame.

Les deux métriques sont les suivantes: Le gradient de luminance intra-trame est la somme des valeurs absolues des différences entre deux lignes consécutives et est calculé 16 lignes par 16 lignes dans la trame : j = 8k + 7 i=nbpels - 1

FLADIntra_n [k] = ∑ ∑ | FYn(i,2j) -FYn(i,2j + l) j = 8k i=0 où FY_n(i, j) représente la valeur de luminance du pixel de coordonnée horizontale i et de coordonnée verticale j de la k ième rangée de blocs 16x16 dans la trame n, l'indice k variant de k=0 à k= (nombre de lignes de la trame)/16 - 1.

Les gradients de luminance inter-trame sont donnés par la somme des valeurs absolues des différences entre pixels colocalisés de deux trames séparées par des périodes de 1T, 2T, xT et sont calculés 16 lignes par 16 lignes dans la trame :

j = 16k + 15 i=nbpels - 1

FLADInterlT_n[k] = ∑ ∑ | FYn(i, j) -FYn - l(i, j) j = 16k i=0

j = 16k + 15 i=nbpels - 1 FLADInter2T_n[k] = ∑ ∑ | FYn(i, j) -FYn - 2(i, j)

J = 16k i=0

j = 16k + 15 i=nbpels - 1

FLADInterxT_n[k] = ∑ ∑ | FYn(i, j) -FYn - x(i, j) j = 16k i=0 Les dénominations FLADIntra et FLADInter sont à rapprocher de l'expression anglaise FieLd Absolute Différence.

Les gradients globaux intra-trame FLADIntraSum_n et inter-trame FLADInterUn sont donnés, pour la trame n, par :

k = nblines /16 - 1

FLADIntraSum_n = ∑FLADIntra_n[k] k = 0

k = nblines /16 - 1

FLADInterlTSum_n = ∑ FLADInterlT_n [k] k = 0

En supposant que la trame n-1 soit la trame haute de l'image et n la trame basse, le critère de sélection est donné par l'activité spatiale:

1 + min (FLADInterlTSum^ , FLADInterlTSum_n ) 2 + 0.5 * max(picture _ size, (FLADIntraSum^ + FLADIntraSum_n ))

Si SPAct est supérieur à un seuil prédéfini, l'image est codée en mode trame, sinon l'image est codée en utilisant le mode bitrame + MBAFF.

Enfin, une troisième approche consiste à coder toutes les images B, de type prédictif bidirectionnel, en mode bitrame et les images P de type prédictif unidirectionnel en mode trame. Ce simple algorithme provient de la constatation que ce sont les modes les plus utilisés par l'algorithme a posteriori pour chaque type d'image.

Concernant cet art antérieur, le filtre détecteur de mouvement nécessite des traitements sur l'image complète, des calculs et mémorisation de masques. Les solutions de filtrage ne sont pas optimisées, en particulier pour le choix du mode de codage au niveau du macrobloc ou supermacrobloc.

De même, le calcul de gradients globaux ne permet pas d'optimiser la compression, le choix du mode de codage étant effectué pour l'image complète. La dernière solution, si elle est simple de mise en œuvre, n'est pas optimisée en terme de taux de compression, à qualité de restitution donnée.

Un des buts de l'invention est de pallier les inconvénients précités. L'invention a pour objet un procédé de codage d'images en mode trame ou bitrame, le mode bitrame image pouvant exploiter localement dans l'image, pour un groupe de macroblocs, le mode trame, caractérisé en ce qu'il comporte les étapes suivantes :

- calcul, pour un groupe de macroblocs en mode trame, des activités spatiales de chaque macrobloc le constituant et de l'activité temporelle entre les macroblocs de chaque trame le constituant,

- calcul d'un indice d'activité relative du groupe qui est une fonction croissante de l'activité temporelle et une fonction décroissante des activités spatiales calculées, - comparaison de l'indice d'activité relative du groupe à un seuil prédéfini pour le définir comme groupe avec activité,

- codage de l'image en mode trame ou bitrame en fonction du nombre de groupes de macroblocs détectés avec activité par rapport au nombre de groupes de macroblocs dans l'image.

Selon une mise en œuvre particulière, l'activité temporelle est une fonction du gradient inter-trame entre les macroblocs trames du groupe de macroblocs en mode trame et l'activité spatiale est une fonction du gradient intra-trame entre les lignes prises deux à deux de chacun des macroblocs trames du groupe de macroblocs en mode trame.

Selon une mise en œuvre particulière, l'indice d'activité est une fonction croissante du gradient inter-trame et une fonction décroissante de la somme des gradients intra-trame.

Selon une mise en œuvre particulière, le dit groupe de macroblocs est un supermacrobloc et le mode trame ou bitrame au niveau du groupe de macroblocs est le mode MBAFF, acronyme de l'anglais MacroBlock Adaptive Field Frame.

Selon une mise en œuvre particulière, l'activité relative a pour valeur : FLADInterMB K — -

1 + FLADIntraMB_n + FL ADMmMB_n-1

15 15 avec FLADInterMB = £ £ | FYn(i, j) -FYn - i(i, j) | , j=0 i=0

7 15

FLADIntraMB_n = £ £ | FYn(i,2j) -FYn(i,2j + 1) | , j=0 i=0

FY_n(i, j) représentant la valeur de luminance du pixel de coordonnée horizontale i et de coordonnée verticale j de la trame n du supermacrobloc.

Selon une mise en œuvre particulière, si le rapport du nombre de groupes de macroblocs déclarés avec activité sur le nombre total de groupes de macroblocs est supérieur à un seuil prédéterminé, l'image est codée en mode trame, l'image étant codée en mode bitrame MBAFF dans le cas contraire.

Selon une mise en œuvre particulière, le seuil prédéterminé est ¹A L'invention concerne également un dispositif pour la mise en œuvre du procédé, comprenant un circuit de préanalyse pour effectuer un algorithme de décision de codage, relié à un circuit de codage pour le codage proprement dit d'une image en mode trame ou bitrame, caractérisé en ce que le circuit de codage reçoit du circuit de préanalyse une information de codage en mode trame ou bitrame en fonction du nombre de groupes de macroblocs détectés avec activité, dans l'image.

L'invention, en adaptant la détection de mouvement ou d'activité aux entités de codage et aux modes de codage possible, c'est à dire au groupe de macroblocs et au mode trame et bitrame, et en améliorant cette détection, permet d'optimiser le choix du mode de codage trame ou bitrame pour l'image. La compression de données, ou la qualité de l'image pour un débit donné, est améliorée.

D'autres particularités et avantages de l'invention apparaîtront clairement dans la description suivante donnée à titre d'exemples non limitatifs et faite en regard des figures annexées qui représentent :

- la figure 1 , un groupe de macrobloc en mode bitrame et trame,

- la figure 2, un codage d'image utilisant le mode MBAFF,

- la figure 3, un algorithme de codage selon l'invention. Le principe consiste à utiliser la métrique gradient dans une approche locale. Il s'agit de détecter des supermacroblocs SMB de l'image répondant à un critère particulier relatif aux gradients. Une phase de

5 préanalyse permet de calculer leur ratio afin de décider du mode de codage bitrame/trame au niveau image.

Dans la suite de la description, on appellera activité spatiale ou complexité spatiale d'un bloc, une grandeur qui est directement liée à la 10 corrélation spatiale à l'intérieur de ce bloc. Lorsque la complexité spatiale est grande, la corrélation est faible et inversement. De même, la complexité temporelle est liée à la corrélation temporelle, en général entre deux blocs colocalisés d'images ou trames successives d'une séquence d'images.

15 Le fait d'exploiter l'activité spatiale verticale dans la trame pour la sélection du mode de codage des supermacroblocs permet de relativiser l'information de mouvement correspondant à la différence inter-trames. L'intérêt du codage MBAFF est en effet moindre s'il s'agit de zones homogènes en mouvement ou de zones texturées stables. Dans cette

20 situation, à savoir encodage de l'image en trames séparées ou en bi-trame avec la possibilité de MBAFF, l'essentiel est d'une part de prendre la décision judicieuse trame ou bi-trame et de pouvoir utiliser le codage MBAFF là où cela est nécessaire. Ainsi, si on considère la formulation précédente :

l + min(FLADInterlTSum_n_₁,FLADInterlTSum_n ) έ-d urACt — _{j j} rr

2 + 0.5 * maxφicture _ size, (FLADIntraSum^ + FLADIntraSum_n ))

on peut s'apercevoir que la valeur SPAct résulte d'un calcul global sur toute l'image, la décision trame/bi-trame étant prise par rapport à un seuil. En réalité, ce calcul global, de par le moyennage, a tendance à diluer les

30 mesures locales relatives aux paires de macroblocs. Comme cela est évoqué plus loin dans le document, l'invention propose dans un premier temps de prendre localement une décision, trame/bi-trame, et, dans un deuxième temps, d'en faire une analyse plus globale, cette analyse s'opérant à partir de l'ensemble des décisions locales. Des résultats de simulation, présentés

35 dans le document, montrent la pertinence de cette approche. La figure 3 représente un organigramme du procédé selon l'invention.

Les données relatives à une trame n-1 et à une trame n sont transmises à l'entrée de l'organigramme. Chaque supermacrobloc, constitué d'un macrobloc de la trame n-1 et d'un macrobloc de la trame n est traité successivement.

L'étape 7 effectue le calcul intra de FLADIntraMB_n correspondant à la différence en valeur absolue des lignes, prises deux à deux, à l'intérieur du macrobloc 16 x 16 de la trame n.

7 15

FLADIntraMB_n = £ £ | FYn(Uj) -FYn(Uj + 1) j=0 i=0

De même pour le calcul de FLADIntraMB_n-i correspondant au macrobloc 16 x 16 de la trame n-1 :

7 15 FLADMmMB_n._! = £ £ | FYn - i(i,2j) -FYn - i(i,2j + 1) j=0 i=0

FY_n(i, j) représente la valeur de luminance du pixel de coordonnée horizontale i et de coordonnée verticale j de la trame n du supermacrobloc. On suppose que la trame n-1 est la trame haute de l'image et n la trame basse de l'image du supermacrobloc. L'étape 8 effectue la calcul inter de FLADinterMB correspondant à la différence en valeur absolue entre le macrobloc de la trame n et celui de la trame n-1.

15 15

FLADinterMB = £ £ | FYn(i, j) -FYn - i(i, j) j=0 i=0

Pour chaque supermacrobloc constitué des lignes du macrobloc de la trame n et des lignes du macrobloc correspondant de la trame n-1 , le gradient vertical du bloc 16x32, lorsqu'il est en configuration bitrame, est comparé au gradient vertical du bloc 16x32 lorsqu'il est en configuration trame. L'étape 9 calcule ainsi le rapport R appelé indice d'activité relative:

FLADinterMB Iv — -

1 + FLADIntraMB_n + FL ADMmMB_n-1

D'une autre manière, le rapport R représente au numérateur le gradient de macroblocs trames 16 x 16 entre deux trames successives n-1 et n et au dénominateur la somme à 1 des gradients de macroblocs trames 16 x 16 entre lignes successives prises deux à deux, de la trame n et de la trame n-1.

L'étape suivante 10 compare cette valeur calculée R à un seuil T1 prédéfini, qui peut être déterminé de manière empirique. Si le rapport R est supérieur au seuil T1 , le supermacrobloc est considéré comme appartenant à une région en mouvement ou en activité et est appelé supermacrobloc avec activité.

Si R est supérieur au seuil T1 , une étape 11 incrémente un compteur NbMBtrame permettant de connaître le nombre de macroblocs de l'image répondant à cette condition.

Si R est inférieur au seuil T1 , l'étape suivante est l'étape 12 qui vérifie s'il s'agit du dernier supermacrobloc de l'image.

S'il ne s'agit pas du dernier supermacrobloc, l'étape 12 est rebouclée sur l'étape 7 par l'intermédiaire d'une étape 13 qui remplace le supermacrobloc courant par le supermacrobloc suivant selon le sens de balayage. S'il s'agit du dernier supermacrobloc, c'est à dire lorsque l'image a été entièrement traitée, l'étape suivante 14 compare la valeur NbMBtrame au nombre de macroblocs dans l'image divisé par deux. Si cette valeur est supérieure à ce nombre, c'est à dire si le ratio de supermacroblocs en mouvement aux supermacroblocs de l'image dépasse 50%, l'image est codée en mode trame, étape 15. Si cette valeur est inférieure ou égale, l'image est codée en mode bitrame, exploitant le mode MBAFF, étape 16.

L'algorithme mis en œuvre se base sur un critère a priori. Si, lors de la préanalyse, le nombre de macroblocs déclarés en mouvement, ou avec activité spatiale et temporelle, est supérieur à un seuil, dans l'exemple la moitié du nombre de macroblocs dans l'image, il est avantageux de forcer le codage de tous les macroblocs de l'image en mode trame, c'est à dire de coder l'image en mode trame. Dans le cas contraire, l'image est codée en mode bitrame, laissant le choix, pour le codage au niveau du supermacrobloc, au mode trame ou bitrame.

Le procédé selon l'invention a été comparé à ceux précédemment mentionnés, à savoir celui exploitant un algorithme du gradient et celui exploitant l'algorithme de codage des images P de type prédictif en mode trame et des images B de type bidirectionnelles en mode bitrame, sur quelques séquences usuelles connues pour être exploitées en tant que séquences de test pour la détermination de qualité d'un codage.

Les résultats sont donnés dans le tableau ci-dessous en comparant avec un algorithme a posteriori, qui est l'algorithme de référence donnant les meilleurs résultats.

Les chiffres indiqués représentent des pourcentages de perte en terme de débit/distorsion d'un algorithme par rapport au « meilleur » algorithme marqué d'une croix. Il s'agit du rapport des aires sous la courbe distorsion=f(débit). Cette manière de comparer des algorithmes de codage vidéo correspond à celle actuellemnt utilisée dans la communauté de la compression vidéo, plus connue sous le nom de la mesure « Bjontegaard » et décrite dans le document de Gisle Bjontegaard, "Calculation of average PSNR différences between RD curves", document VCEG-M33, ITU-T Video Coding Experts Group (VCEG) Meeting, April 2001.

Exception faite d'une seule séquence (bigdil), l'algorithme selon l'invention conduit à des résultats meilleurs ou au moins équivalent à celui du gradient.

L'invention concerne également un dispositif pour la mise en œuvre du procédé. Il comporte un circuit de préanalyse et un codeur proprement dit. Le circuit de préanalyse exploite l'algorithme de décision trame-bitrame précédemment décrit. L'information relative au mode de codage trame- bitrame est transmise au codeur pour la réalisation effective du codage de la séquence d'images.

Les exemples ont été donnés pour de macroblocs de taille 16 x 16. Bien entendu, l'invention s'applique à des macroblocs de taille quelconque. L'invention s'applique à tout type de standard exploitant le mode

MBAFF, en particulier le standard MPEG4 AVC ou H 264.

Claims

REVENDICATIONS

1. Procédé de codage d'images (5) en mode trame ou bitrame, le mode bitrame image (1 , 2) pouvant exploiter localement dans l'image, pour un groupe de macroblocs, le mode trame (3, 4), caractérisé en ce qu'il comporte les étapes suivantes :

- calcul d'un indice d'activité relative du groupe qui est une fonction croissante de l'activité temporelle et une fonction décroissante des activités spatiales calculées, - comparaison (10) de l'indice d'activité relative du groupe à un seuil prédéfini pour le définir comme groupe avec activité (11 ),

- codage de l'image en mode trame ou bitrame (15, 16) en fonction du nombre de groupes de macroblocs détectés avec activité (14) par rapport au nombre de groupes de macroblocs dans l'image.

2. Procédé selon la revendication 1 , caractérisé en ce que l'activité temporelle est une fonction du gradient inter-trame (8) entre les macroblocs trames du groupe de macroblocs en mode trame et en ce que l'activité spatiale est une fonction du gradient intra-trame (7) entre les lignes prises deux à deux de chacun des macroblocs trames du groupe de macroblocs en mode trame.

3. Procédé selon la revendication 2, caractérisé en ce que l'indice d'activité est une fonction croissante du gradient inter-trame et une fonction décroissante de la somme des gradients intra-trame.

4. Procédé selon la revendication 1 , caractérisé en ce que le dit groupe de macroblocs est un supermacrobloc et en ce que le mode trame ou bitrame au niveau du groupe de macroblocs est le mode MBAFF, acronyme de l'anglais MacroBlock Adaptive Field Frame.

5. Procédé selon la revendication 4, caractérisé en ce que l'activité relative a pour valeur :

FLADInterMB Iv — -

1 + FLADIntraMB_n + FL ADMmMB_n-1

15 15 avec FLADInterMB = £ £ | FYn(i, j) -FYn - i(i, j) | , j=0 i=0

7 15

FLADIntraMB_n = £ £ | FYn(i,2j) -FYn(i,2j + 1) | , j=0 i=0

6. Procédé selon la revendication 1 , caractérisé en ce que, si le rapport du nombre de groupes de macroblocs déclarés avec activité sur le nombre total de groupes de macroblocs est supérieur à un seuil prédéterminé (14), l'image est codée en mode trame (15), l'image étant codée en mode bitrame MBAFF (16) dans le cas contraire.

7. Procédé selon la revendication 6, caractérisé en ce que le seuil prédéterminé (14) est V₂.

8. Dispositif pour la mise en œuvre du procédé selon la revendication 1 , comprenant un circuit de préanalyse pour effectuer un algorithme de décision de codage, relié à un circuit de codage pour le codage proprement dit d'une image en mode trame ou bitrame, caractérisé en ce que le circuit de codage reçoit du circuit de préanalyse une information de codage en mode trame ou bitrame en fonction du nombre de groupes de macroblocs détectés avec activité, dans l'image.