FR3098071A1

FR3098071A1 - Procédé d’encodage et de décodage vidéo faible latence

Info

Publication number: FR3098071A1
Application number: FR1906920A
Authority: FR
Inventors: Jean-Marc Thiesse; David GOMMELET; Didier Nicholson
Original assignee: S A Vitec; SA Vitec
Current assignee: S A Vitec; SA Vitec
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2021-01-01

Abstract

L’invention concerne un procédé d’encodage d’une vidéo d’une séquence d’images pour obtenir un flux binaire vidéo comprenant des séquences binaires, le procédé comprenant : - La détermination d’une zone spatiale ZS d’une image I de la séquence d’image; - L’obtention d’une séquence binaire du flux binaire vidéo comprenant des données encodées représentatives d’un premier élément E de l’image I qui ne sont pas obtenues à partir d’élément d’autres images que l’image I, lesdites données encodées représentatives du premier élément E sont obtenues en remplaçant un deuxième élément E’ par un élément générique si le premier élément E est situé dans la zone spatiale ZS et que des données encodées représentatives du deuxième élément E’ de l’image I dépendent d’un élément d’une autre image de la séquence d’images que l’image I. Figure de l’abrégé : Figure 11

Description

Procédé d’encodage et de décodage vidéo faible latence

La présente invention concerne le domaine de la compression vidéo et plus spécifiquement les encodeurs et décodeurs vidéo.

L’invention concerne notamment les protocoles de compression vidéo intégrant les techniques dites « Intra Refresh », par exemple dans le standard HEVC ou H.264 et les futurs standards de compression MPEG, comme par exemple le VVC (H.266).

Dans les schémas de codage classique, les images d’un flux vidéo à encoder sont considérées selon une séquence d'encodage. Chaque image est divisée en groupe de pixels (également dénommé, ci-dessous, élément de l’image) eux aussi traités séquentiellement, par exemple en commençant en haut à gauche et en finissant en bas à droite de chaque image.

Ainsi, l'encodage d'une image du flux est effectué en divisant une matrice de pixels correspondant à l'image en plusieurs ensembles, par exemple des blocs de tailles fixes 16 x 16, 32 x 32,64 x 64 ou 128x128 pixels, et en encodant ces blocs de pixels selon une séquence de traitement donnée.

Le traitement (autrement appelé compression ou encore encodage) de données peut être réalisé selon deux types, le traitement dit « Intra », dans lequel le traitement est effectué sur des éléments d'une unique image, et d'autre part le traitement dit « Inter », dans lequel le traitement est effectué à partir d’images précédemment traitées.

Ainsi, l’encodage dit « Intra » d'un élément d’une image comprend une prédiction des pixels de l’élément effectuée uniquement à l'aide d’éléments de cette image précédemment encodés, auquel cas on parle de « prédiction Intra ». Dans le traitement dit « Inter », l’encodage d'un élément de l’image comprend une prédiction des pixels de l’élément effectuée à l'aide d’éléments issus d'images précédemment encodées, auquel cas on parle de « prédiction Inter ». Ces deux types d’encodage sont utilisés au sein de schémas de codage dits « hybrides », qui sont spécifiés dans les standards vidéo existants (MPEG2, H.264/AVC, HEVC, VP8, VP9, AV1) et sont décrits pour le codec HEVC (High Efficiency Video Coding) dans l'article intitulé « Overview of the High Efficiency Video Coding (HEVC) Standard », par Gary J. Sullivan et al., IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, No. 12, Dec. 2012.

Plus précisément, dans les standards HEVC, H.264/AVC et VVC (H.266) les blocs sont décodés à l’aide d’informations, relatives à des blocs précédemment décodés soit provenant de la même image (prédiction Intra) soit provenant d’au moins une autre image (prédiction Inter), combinées à des résidus de pixels. Ces résidus sont encodés après une étape de transformation (par exemple une transformation en cosinus discrète, DCT) et de quantification. Cette étape de quantification est réalisée sur la base d’un paramètre de quantification (QP), associé à chaque bloc et signalé dans le flux binaire vidéo. Plus le QP est élevé moins la quantité d’information de résidus de pixels est élevée, la qualité de reconstruction est alors moins bonne.

Dans le cadre d’un fonctionnement classique, la première image est codée uniquement à l’aide d’une prédiction spatiale, c’est-à-dire que chaque bloc de l’image est encodé uniquement sur la base des blocs présents dans la première image et plus précisément les blocs qui sont dans le voisinage du bloc en cours de traitement. Ces images seront nommées images Intra.

Les images suivantes sont encodées en alternant des images encodées en utilisant une prédiction temporelle (prédiction Inter) ou spatiale (prédiction Intra) et des images encodées en utilisant uniquement une prédiction spatiale. Par prédiction temporelle on entend que les blocs de l’image sont encodés en utilisant également des blocs appartenant à des images précédemment encodées. Les images encodées en utilisant une prédiction spatiale permettent notamment de réduire les erreurs persistantes dues à un codage temporel et de pouvoir démarrer le décodage du flux. On parle de rafraîchissement du flux vidéo. En effet, une erreur dans l’encodage ou le décodage d’un premier bloc sera transmise à tous blocs dont l’encodage ou le décodage utilise ce premier bloc. Sans image Intra, l’erreur peut se propager lors du décodage ou l’encodage des images suivantes. De plus, les images Intra permettent l’accès au flux c’est-à-dire le décodage du flux à un moment donné, par exemple lorsque le téléspectateur arrive sur une chaine de télévision.

Néanmoins, la quantité de bits résultant de l’encodage des images Intra est beaucoup plus importante que celle résultant de l’encodage des images Inter. Les images Intra représentent donc une quantité de bits significativement plus élevé que les images Inter. Les images Intra prennent alors un temps plus élevé de transmission qui peut s’étaler sur un temps correspondant à plusieurs images Inter. Ainsi, les images Intra de grandes tailles introduisent une latence importante.

Afin de réduire cette latence, des techniques dites d’« Intra refresh » ont été développées. Ces techniques consistent à répartir le poids des images Intra sur plusieurs images. Ainsi, chaque image a alors une zone Intra, dont les blocs sont encodés uniquement sur la base de blocs appartenant à ladite image, nommée ci-après zone Intra-refresh, et une zone Inter, dont l’encodage des blocs utilise également une prédiction temporelle. Les zones Intra-refresh définies pour encoder la séquence d’image permettent après une certaine période de temps d’avoir « rafraichit » l’intégralité de l’image vidéo, c’est-à-dire que pour tout pixel de la vidéo, au cours de cette période de temps, il y a une image de la séquence dont l’élément contenant ce pixel est encodé en Intra.

La figure 3 décrit une telle technique d’encodage d’une séquence d’image. ZI_iétant les zones Intra-refresh. Les zones D_iétant les zones non encore rafraichies au cours de la période de N images. Les zones C_iétant les zones déjà rafraichies au cours de cette période. On voit qu’à la fin de la période tous les pixels de l’image vidéo ont été rafraichis. Les zones C_iet D_ipeuvent contenir aussi bien des blocs dont l’encodage utilise une prédiction spatiale que des blocs dont l’encodage utilise une prédiction temporelle.

Le rafraichissement du flux vidéo se fait donc sur plusieurs images de la séquence. Ainsi, il est possible d’obtenir une taille uniforme des images encodées en appliquant un encodage avec des zones Intra-refresh de taille similaire pour chaque image.

Dans l’exemple de la figure 3 les zones Intra-refresh utilisées sont des colonnes, celles-ci se déplaçant de gauche à droite. Mais il est également possible d’utiliser des lignes ou toutes autres formes.

Bien que le gain en termes de latence soit conséquent, de tels procédés ne sont pas exempts de défauts.

Les techniques d’ « Intra refresh » pour s’assurer que des erreurs d’encodages ou de décodages ne se propagent lors du décodage ou l’encodage des images suivantes imposent des restrictions lors de l’encodage et du décodage des images contenant une zone Intra-refresh. En effet, bien que les éléments de la zone Intra-refresh d’une image soient encodés (respectivement décodés) en « Intra » (prédiction spatiale), ces éléments peuvent néanmoins être encodés (respectivement décodés) à partir d’éléments qui sont eux-mêmes encodés (respectivement décodés) en « Inter » (prédiction temporelle). Ainsi, une erreur d’encodage (respectivement de décodage) affectant l’élément d’une autre image à partir duquel l’élément encodé (respectivement décodé) en « Inter » est obtenu se propage à l’élément encodé (respectivement décodés) en « Intra ». Pour éviter un tel problème de mise en œuvre d’« Intra refresh », l’encodage (respectivement le décodage) de chaque élément encodé (respectivement décodé) en Intra d’une image peut être contraint, on parle en anglais de « Constrained Intra Prediction ».

Or, l’encodage contraint d’un élément à encodé en Intra est moins performant. En effet, cette technique remplace l’élément encodé en Inter à partir duquel est encodé l’élément encodé en Intra par un élément générique qui n’a pas de rapport avec l’image traitée. Ainsi, l’encodage de l’élément à encodé en Intra se fait sur la base d’un élément générique entrainant en moyenne des résidus plus importants.

Ainsi, ces techniques d’« Intra refresh » présentent notamment le défaut de complexifier l’encodage et le décodage de la vidéo et de réduire la performance de la compression.

La présente invention vient améliorer la situation. Plus généralement, l’invention vient améliorer la situation dans le contexte de l’encodage « hybride » qui souffre actuellement soit de la propagation d’erreurs d’encodage ou de décodage à travers les différentes images d’une vidéo soit d’une performance de compression réduite.

A cet effet, la présente invention propose un procédé d’encodage d’une séquence d’images pour obtenir un flux binaire vidéo comprenant des séquences binaires, le procédé comprenant :

La détermination d’une zone spatiale ZS d’une image I de la séquence d’image;

L’obtention d’une séquence binaire du flux binaire vidéo comprenant des données encodées représentatives d’un premier élément E de l’image I qui ne sont pas obtenues à partir d’élément d’autres images que l’image I, lesdites données encodées représentatives du premier élément E sont obtenues en remplaçant un élément E’ par un élément générique si le premier élément E est situé dans la zone spatiale ZS et que des données encodées représentatives du deuxième élément E’ de l’image I dépendent d’un élément d’une autre image de la séquence d’images que l’image I.

Cela permet d’éviter de propager une erreur d’encodage et/ou de décodage d’un élément d’une autre image que l’image I, via un élément E’ encodé en Inter, à l’encodage et/ou le décodage des éléments de la zone spatiale encodés en Intra. De plus, les éléments encodés en Intra selon ce procédé sont ceux compris dans la zone spatiale ZS, c’est-à-dire que tous les autres éléments encodés en Intra dans l’image I ne sont pas affectés. On obtient ainsi des performances de compression supérieures à celles obtenues lors de l’emploi des « Constrained Intra Prediction ».

De plus, l’encodeur et le décodeur peuvent encoder (respectivement décoder) en premier lieu les éléments situés dans la zone spatiale ZS, il est alors possible d’encoder (respectivement de décoder) des éléments de l’image situés en dehors de la zone spatiale ZS à partir d’éléments situés dans la zone spatiale ZS quand bien même les éléments situés en dehors de la zone spatiale auraient, suivant la séquence de traitement, été encodés (respectivement décodés) avant les éléments situés dans la zone spatiale, et n’auraient ainsi pas pu être encodés (respectivement décodés) à partir des éléments situés dans la zone spatiale ZS qui sont pourtant moins susceptibles de contenir des erreurs.

Par des données encodées représentatives d’un élément dépendant d’un autre élément il est entendu que si l’on change les valeurs de l’autre élément (c’est à dire les valeurs des pixels de cet élément) ou encore les données encodées représentatives de l’autre élément alors les données encodées représentatives de l’élément sont modifiées. Cette dépendance peut être directe ou indirecte. Le cas le plus simple est celui de la dépendance direct c’est-à-dire où les données encodées représentatives de l’élément sont obtenues à partir de l’autre élément, les données encodées dépendent alors directement de l’autre élément. Les données encodées représentatives de l’élément dépendent également de l’autre élément lorsque les données encodées représentatives de l’élément sont obtenues à partir d’un élément E₁dont les données encodées représentatives de cet élément E₁sont obtenues à partir d’un élément E₂dont les données encodées représentatives de cet élément E₂sont obtenues à partir d’un élément E₃[...] dont les données encodées représentatives de cet élément E_Nsont obtenues à partir de l’autre élément. Ainsi, une chaine de N éléments relie les données encodées représentatives de l’élément et l’autre élément.

Par éléments de l’image, on entend une unité de traitement dans un format de compression vidéo. Ces unités de traitement divisent ou découpent l’image en groupe de pixel, par exemple en blocs de tailles fixes de 16 x 16, 32 x 32,64 x 64 ou 128x128 pixels, qui peuvent eux-mêmes être divisées en sous-blocs. Les formats qui font usage de ces éléments sont par exemple les formats JPEG, H.261, MPEG-1, H.262/MPEG-2, H.263, MPEG-4, H.264/MPEG-4 AVC, H.265/HEVC et H.266/VVC ou encore les formats VP8, VP9, AV1. Ces éléments de l’image sont communément appelés des macro-blocs (MB) ou « coding tree unit » (CTU) décomposables en éléments encore appelés « coding unit » (CU) ou des « coding bloc » (CB).

Par données encodées représentatives d’un ou plusieurs éléments, il est entendu les données comprises dans une séquence binaire et donc dans le flux binaire vidéo qui sont obtenues par encodage du ou desdits éléments. Il s’agit des données relatives à un élément de l’image issu du traitement vidéo appliqué au flux vidéo ou à la séquence d’images. Ces données encodées comportent l’information sur la base de laquelle le décodeur décodera le flux vidéo encodé pour restituer l’élément de l’image.

Ces données encodées sont obtenues à partir de l’élément qu’elles représentent (par exemple, pour déterminer un résidu), mais également à partir d’autres éléments soit de l’image (prédiction Intra) soit d’autres images du flux vidéo (prédiction Inter). Autrement dit, les données encodées représentatives d’un premier élément sont obtenues à partir d’un deuxième élément lorsque le schéma d’encodage utilisé pour encoder le premier élément et qui est signalé dans les données encodées représentatives du premier élément vise ou indique d’utiliser le deuxième élément (c’est-à-dire les valeurs du deuxième élément une fois décodé) pour encoder le premier élément.

Par flux binaire vidéo, on entend le flux binaire résultant de l’encodage du flux vidéo. Par séquence binaire on entend la partie du flux binaire relatif à une image, c’est-à-dire comprenant les données encodées représentatives des éléments de cette image. Le flux binaire vidéo comprend la ou les séquences binaires.

Une séquence d’images est un flux vidéo.

La zone spatiale ZS de l’image I définit des éléments de l’image qui sont situés dans cette zone spatiale et des éléments qui sont situés en dehors de cette zone spatiale.

Les données encodées représentatives d’un élément de l’image I qui ne sont pas obtenues à partir d’un élément d’une autre image que l’image I correspondent aux données encodées représentatives d’un élément encodé au moyen d’une prédiction spatiale (encodées en Intra). Autrement dit, les données encodées représentatives de l’élément sont obtenues entre autres à partir d’éléments de l’image I (ou de leurs données encodées représentatives), mais jamais à partir d’éléments d’une autre image que I (ou de leurs données encodées représentatives).

Les protocoles de compression vidéo font appel à des éléments génériques (aussi appelées données génériques ou encore données par défaut) pour encoder certains éléments des images du flux vidéo. Par exemple, pour encoder les éléments qui se trouvent au bord de l’image et en particulier le premier élément de l’image à être encodé, un élément générique peut être utilisé pour pallier le manque d’éléments (voir l’absence d’élément) à partir duquel l’encodeur (respectivement le décodeur) peut encoder (respectivement décoder) ces éléments. L’encodeur réalise alors l’encodage (Intra ou Inter) en prenant en compte les éléments de l’image (si encodage intra) et des images de la séquence (si encodage inter) auxquels est adjoint l’élément générique.

L’invention peut faire appel aux mêmes éléments génériques, mais cette fois en remplacement d’un élément et non plus en plus. Ainsi, un élément de l’image qui pourrait comporter une erreur d’encodage ou qui pourrait propager une erreur d’encodage est remplacé par un élément générique pour déterminer les données encodées représentatives des éléments encodés en intra de la zone spatiale. Cela est particulièrement avantageux lorsque les éléments encodés en intra de la zone spatiale présente une importance particulière. Par exemple, lorsque la zone spatiale comporte des éléments (voir tous les éléments) d’une zone intra-refresh.

L’élément générique présente des valeurs des pixels de l’élément qui sont prédéfinies. Par exemple, des valeurs prédéfinies de luminosité (« luma ») ou encore des valeurs chromatiques (« chroma ») prédéfinies des pixels de l’élément. L’élément générique peut être connu de l’encodeur et du décodeur. Plus généralement on entend par élément générique un élément utilisé en remplacement d’un élément d’une image, l’élément générique est donc un élément différent de ceux des images de la séquence. L’élément générique peut être défini lors du paramétrage de l’encodeur/décodeur mais il peut aussi être généré en cours d’encodage/décodage. Ainsi, plusieurs éléments génériques différents peuvent être utilisés au cours du décodage/encodage d’une image de sorte notamment à réduire les résidus obtenus lors de l’encodage à partir d’éléments génériques.

La zone spatiale est déterminée pour une image de la séquence d’images. La zone spatiale peut être déterminée pour d’autres images de la séquence d’images. L’invention peut être mise en œuvre avec une zone spatiale pour une image ou plusieurs zones spatiales pour une même image. La zone spatiale ne recouvre pas l’image. Lorsque plusieurs zones spatiales sont déterminées, celles-ci peuvent recouvrir toute l’image.

Lorsque plusieurs zones spatiales sont déterminées ZS, ZS’,….ZS⁽ⁿ⁾, les données encodées représentatives du premier élément E sont obtenues en remplaçant un élément E’ par un élément générique si le premier élément E est situé dans une zone spatiale parmi la pluralité de zones spatiales et que des données encodées représentatives du deuxième élément E’ de l’image I dépendent d’un élément d’une autre image de la séquence d’images que l’image I.

La détermination de plusieurs zones spatiales (pour une même image I) permet de recouvrir avec plus de flexibilité l’image. Ainsi, si la zone de l’image (dite zone critique) pour laquelle les éléments encodés en intra présentant une importance particulière n’est pas dans une forme rectangulaire, cette zone critique pourra être recouverte par plusieurs zones spatiales recouvrant une surface de l’image plus petite que si l’on utilisait une unique zone spatiale. Cette flexibilité permet de réduire la surface totale des zones spatiales et ainsi d’obtenir des performances de compression supérieures pour l’encodage de la plupart des éléments situés en dehors de la zone critique. De plus, la détermination de plusieurs zones spatiales pour une même image I permet de recouvrir des zones disjointes ou non contiguës. Ainsi, deux zones spatiales parmi la pluralité de zones spatiales peuvent ne pas être contiguës, c’est-à-dire que parmi l’ensemble des couples d’éléments (E_ZS1,E_ZS2) appartenant respectivement à des première et deuxième zones spatiales parmi la pluralité de zones spatiales, aucun des couples n’est composé de deux éléments contiguës. Lorsqu’une zone spatiale de la pluralité de zones spatiales n’est contiguë (selon la définition ci-dessus) avec aucune autre zone spatiale de la pluralité de zones spatiales alors la zone spatiale est dite « isolée ». Dans le cadre de l’invention, toutes les configurations de plusieurs zones spatiales sont comprises notamment les configurations où la pluralité de zones spatiales comprend au moins une zone spatiale « isolée » et les configurations où la pluralité de zones spatiales ne comprend pas de zone spatiale « isolée ». Pour chacune de ces configurations il est également possible qu’au moins deux zones spatiales de la pluralité de zones spatiales se superposent ou encore que l’intersection des zones spatiales de la pluralité de zones spatiales soit deux à deux vide.

Les données encodées représentatives du premier élément si celui-ci est situé en dehors de la zone spatiale de l’image ou en dehors des zones spatiales de l’image (lorsqu’une pluralité de zones spatiales sont déterminées) sont obtenues au moins à partir de l’élément E’ si les données encodées représentatives du deuxième élément E’ de l’image I sont obtenues à partir d’un élément d’une autre image de la séquence d’images que l’image I.

Ainsi, en dehors de la zone spatiale ou de l’union des zones spatiales les éléments encodés en intra sont traités sans utiliser d’élément générique. L’emploi d’élément générique étant moins performant du point de vue de la compression, on obtient ainsi de meilleures performances de compression.

La zone spatiale (ou les zones spatiales) peut contenir des éléments encodés en inter. Ainsi, des données encodées représentatives d’un élément E’’ situé dans la zone spatiale ZS de l’image I sont obtenues au moins à partir d’un élément d’une autre image que l’image I.

Cela permet de déterminer une zone spatiale permettant d’inclure plusieurs éléments encodés en intra séparés par des éléments encodés en inter sans nécessairement employer plusieurs zones spatiales. Or, l’emploi d’une zone plus grande qui engloberait la même quantité d’éléments encodés en intra entraine des performances de compression meilleurs que l’emploi de plusieurs zones spatiales, puisque l’encodage des éléments à encoder en inter n’est pas affecté et que la signalisation est réduite lorsqu’une seule zone spatiale est utilisée.

Les éléments en dehors de la zone spatiale ou de l’union des zones spatiales de l’image peuvent comprendre avantageusement au moins un élément encodé en « inter ». Ainsi, les données encodées représentatives d’au moins un élément E’’’ de l’image I situé en dehors de la zone spatiale ou des zones spatiales de l’image sont obtenues au moins à partir d’un élément d’une autre image que l’image I.

Avantageusement, les données encodées représentatives d’au moins un élément encodé en intra et situé dans la zone spatiale ZS de l’image I (qui ne sont pas obtenues à partir d’élément d’autres images que l’image I) sont obtenues à partir d’un élément de l’image I dont les données encodées représentatives dépendent d’un élément d’une autre image que l’image I (situé dans la zone spatiale ZS, l’élément est alors l’élément E’’ ou situé en dehors de la zone spatiale ZS l’élément est alors l’élément E’’’). Ainsi, les données encodées représentatives de l’au moins un élément dépendent d’un élément d’une autre image que l’image I.

Avantageusement, la séquence binaire comprend des données encodées représentatives d’une information permettant de déterminer si le premier élément E est situé dans la zone spatiale ZS.

Par données encodées représentatives d’une information, il est entendu que l’information peut être retrouvée par décodage des données encodées représentatives de cette information.

Par exemple, la séquence binaire comprend des données encodées représentatives de la zone spatiale ZS. C’est-à-dire qu’une information représentative de la zone spatiale est encodée, cette information permet ensuite de déterminer la zone spatiale.

Avantageusement, les données encodées représentatives de la zone spatiale ZS sont au moins représentatives d’un coin de la zone spatiale ZS.

C’est-à-dire qu’une information représentative d’un coin de la zone spatiale ZS est encodée. L’information peut par exemple être les coordonnées spatiales d’un des coins (par exemple le coin de la zone spatiale en haut à gauche sur l’image). Il sera possible de déterminer la zone spatiale par exemple avec un rectangle d’une hauteur h et d’une largeur L dont le coin en haut à gauche est positionné sur la coordonnée spatiale déduite de l’information. La hauteur h et la largeur L peuvent être prédéterminées ou encodées dans les données encodées représentatives de la zone spatiale ZS.

Avantageusement, les données encodées représentatives de la zone spatiale ZS peuvent être représentatives d’une valeur d’un index, chaque valeur de l’index étant représentative d’une zone spatiale différente. C’est-à-dire qu’une information représentative d’une valeur de l’index est encodée.

Avantageusement, l’information permettant de déterminer si le premier élément E est situé dans la zone spatiale ZS comprend une information indiquant qu’un élément ou un groupe d’éléments de l’image I est situé dans la zone spatiale ZS.

Ainsi, cela permet de réduire la signalisation. En effet, lorsque le décodeur utilise l’information permettant de déterminer si un élément est ou non dans la zone spatiale ZS sans déterminer la zone spatiale ZS, par exemple, lorsque l’information signale pour chaque élément de l’image si celui-ci est dans la zone spatiale, alors la quantité d’information est importante, une information relative à un groupe d’éléments permet donc de réduire la quantité de signalisation par rapport à des informations relatives à chaque élément de ce groupe.

Dans le cas où plusieurs zones spatiales sont déterminées, il est possible d’utiliser pour chacune de ces zones spatiales une des méthodes précédemment mentionnées pour permettre de déterminer si oui ou non le premier élément E est situé dans la zone spatiale ZS.

Avantageusement, les données encodées représentatives de la zone spatiale ZS sont comprises dans une partie signalisation du flux binaire vidéo.

Cela permet de simplifier le décodage de ces données, et d’effectuer par exemple le décodage de ces données avant tout décodage de données encodées représentatives d’éléments.

Un deuxième aspect de l’invention concerne un procédé de décodage d’un flux binaire vidéo comprenant des séquences binaires, le procédé comprenant :

La détermination d’un premier élément d’une image restituée IR correspondant à un premier élément E d’une image I, ladite détermination étant obtenue à partir:

du décodage de données encodées représentatives du premier élément E de l’image I,

des éléments de l’image restituée IR correspondant à des éléments de l’image I en remplaçant un deuxième élément de l’image restituée IR correspondant à un deuxième élément E’ de l’image I par un élément générique si le premier élément E est situé dans une zone spatiale ZS et que le deuxième élément de l’image restituée IR dépend d’au moins un élément d’une autre image restituée IR’ que IR.

Par un élément de l’image restituée IR dépendant d’un autre élément il est entendu que si l’on change les valeurs de l’autre élément (c’est à dire les valeurs des pixels de l’autre élément) d’une image restituée alors les valeurs de l’élément de l’image restituée IR sont modifiées. Cette dépendance peut être directe ou indirecte. Le cas le plus simple est celui de la dépendance directe c’est-à-dire où l’élément de l’image restituée IR est déterminé à partir de l’autre élément, l’élément de l’image restituée IR dépend alors directement de l’autre élément. L’élément de l’image restituée IR dépend également de l’autre élément lorsque l’élément de l’image restituée IR est déterminé à partir d’un élément E₁de l’image restituée IR qui est lui-même déterminé à partir d’un élément E₂de l’image restituée IR [...] est déterminé à partir de l’élément E_Nde l’image restituée IR qui est lui-même déterminé à partir de l’autre élément. Ainsi, une chaine de N éléments de l’image restituée IR relie l’élément de l’image restituée IR avec l’autre élément.

Par image restituée on entend l’image obtenue après décodage des données encodées comprises dans la séquence binaire, c’est-à-dire la séquence binaire correspondant à l’image I. Autrement dit l’image restituée IR est l’image décodée obtenue par décodage des données encodées représentatives des éléments de l’image I de la séquence d’images.

Par détermination d’un élément de l’image restituée, on entend l’obtention des valeurs des pixels de l’élément de l’image restituée. La détermination d’un premier élément de l’image restituée se fait à partir d’un deuxième élément d’une image restituée lorsque le schéma d’encodage utilisé pour encoder le premier élément et qui est signalé dans les données encodées représentatives du premier élément vise ou indique d’utiliser le deuxième élément (c’est-à-dire les valeurs du deuxième élément une fois décodé) pour déterminer le premier élément.

L’élément d’une image restituée correspondant à un élément d’une image est un élément situé dans l’image restituée à la même position que l’élément de l’image. Inversement, l’élément d’une image correspondant à un élément d’une image restituée est un élément situé dans l’image à la même position que l’élément de l’image restituée. Par la suite les éléments d’une image et leurs éléments correspondants pourront ne pas être distingués et l’on pourra s’y référer simplement par élément.

Avantageusement, le premier élément de l’image restituée IR est déterminé à partir du deuxième élément E’, c’est-à-dire à partir de l’élément susceptible d’être remplacé par un élément générique. Autrement dit, le schéma d’encodage compris dans les données encodées représentatives du premier élément vise ou indique d’utiliser le deuxième élément E’ pour déterminer le premier élément.

Avantageusement, le procédé comprend en outre le décodage de données encodées représentatives d’une information permettant de déterminer si le premier élément E est situé dans la zone spatiale ZS. Ces données encodées représentatives de l’information peuvent être incluses dans les données encodées représentatives du premier élément E de l’image I ou être inclus dans une zone de signalisation propre.

Avantageusement, la détermination du premier élément de l’image restituée IR n’est pas obtenue à partir d’élément d’autres images restituées que IR.

Avantageusement, la détermination du premier élément de l’image restituée IR est obtenue à partir du deuxième élément de l’image IR correspondant au deuxième élément E’ de l’image I si le premier élément E est situé en dehors de la zone spatiale ZS et que la détermination de l’élément de l’image restituée IR correspondant au deuxième élément E’ est obtenu à partir d’au moins un élément d’une autre image restituée IR’ que IR.

Un troisième aspect de l’invention concerne un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie du procédé décrit ci-avant, lorsque ce programme est exécuté par un processeur.

Ce programme peut utiliser n’importe quel langage de programmation (par exemple, un langage-objet ou autre), et être sous la forme d’un code source interprétable, d’un code partiellement compilé ou d’un code totalement compilé.

Les figures 10 et 11 décrites en détail ci-après peuvent former l’organigramme de l’algorithme général d’un tel programme informatique.

Un quatrième aspect de l’invention concerne un dispositif d’encodage d’une séquence d’images pour obtenir un flux binaire vidéo comprenant des séquences binaires, le dispositif comprenant :

un processeur; et

un support informatique non transitoire comprenant des instructions qui lorsqu’elles sont exécutées par le processeur configure le dispositif pour:

déterminer une zone spatiale ZS d’une image I de la séquence d’image;
obtenir une séquence binaire du flux binaire vidéo comprenant des données encodées représentatives d’un premier élément E de l’image I qui ne sont pas obtenues à partir d’élément d’autres images que l’image I, lesdites données encodées représentatives du premier élément E sont obtenues en remplaçant un deuxième élément E’ par un élément générique si le premier élément E est situé dans la zone spatiale ZS et que des données encodées représentatives du deuxième élément E’ de l’image I dépendent d’un élément d’une autre image de la séquence d’images que l’image I.

Un cinquième aspect de l’invention concerne un dispositif Dispositif de décodage d’un flux binaire vidéo comprenant des séquences binaires, le dispositif comprenant :

un processeur; et

déterminer un premier élément d’une image restituée IR correspondant à un premier élément E d’une image I, ladite détermination étant obtenue à partir:
- du décodage de données encodées représentatives du premier élément E de l’image I,
- des éléments de l’image restituée IR correspondant à des éléments de l’image I en remplaçant un deuxième élément de l’image restituée IR correspondant à un deuxième élément E’ de l’image I par un élément générique si le premier élément E est situé dans une zone spatiale ZS et que le deuxième élément de l’image restituée IR dépend d’au moins un élément d’une autre image restituée IR’ que IR.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

Fig. 1

illustre l’encodage d’une séquence d’images.

Fig. 2

illustre la structure d’une séquence binaire selon un mode de réalisation de l’invention.

Fig. 3

illustre l’encodage d’une séquence d’images dans le cadre d’un encodage de type Intra-refresh selon un mode de réalisation de l’invention.

Fig. 4

illustre le recouvrement d’une zone intra-refresh par des zones spatiales selon un mode de réalisation de l’invention.

Fig. 5

Fig. 6

Fig. 7

illustre l’encodage d’une séquence d’images selon un mode de réalisation de l’invention.

Fig. 8

illustre le recouvrement d’une zone sensible par des zones spatiales selon un mode de réalisation de l’invention.

Fig. 9

Fig. 10

illustre les étapes de l’encodage selon un mode de réalisation de l’invention.

Fig. 11

illustre les étapes de décodage selon un mode de réalisation de l’invention.

Fig. 12

illustre un dispositif d’encodage vidéo et un dispositif de décodage vidéo selon un mode de réalisation de l’invention.

La figure 1 illustre l’encodage d’une séquence d’images.

Une séquence de N images I₁, I₂,…, I_Nest extraite d’un flux vidéo. Chacune de ces images est divisée en élément E de l’image, par exemple des macro-blocs, des blocs CTU, des CU, des CB, ou encore des blocs par exemple des blocs de 16 x 16, 32 x 32,64 x 64, 128 x128 ou 256x256 pixels. Les éléments ne sont représentés que dans l’image I₁et I₂, mais la structure des autres images est identique. Ces éléments sont plus généralement des unités de traitement qui peuvent être de formes et/ou de dimensions variables suivant les protocoles de traitement choisis. Chacune des images est ainsi partitionnée en éléments.

Ces images sont encodées les unes après les autres suivant la séquence d’encodage exposée, à savoir que l’image I₁est encodée, puis l’image I₂et ainsi de suite jusqu’à l’image I_N.

Chaque image est encodée selon une séquence de traitement des éléments, un cas classique de séquence d’encodage d’une image consiste à encoder les éléments de gauche à droite et de haut en bas, mais d’autres séquences de traitement peuvent être utilisées.

Chaque élément de chaque image est alors encodé soit en utilisant une prédiction spatiale, soit en utilisant une prédiction temporelle, en commençant par l’élément en haut à gauche de l’image. L’élément E_codest l’élément en cours d’encodage, les éléments grisés sont ceux précédemment encodés et les éléments blancs sont ceux restant à encoder.

L’élément E_codpeut être encodé en utilisant une prédiction spatiale ou temporelle. Encoder E_coden utilisant une prédiction spatiale consiste à n’utiliser que des éléments de l’image en cours d’encodage I₂pour encoder l’élément E_cod. Par exemple, pour encoder l’élément E_cod, les éléments grisés à sa gauche et au-dessus peuvent être utilisés, on dit alors que l’élément E_codest encodé à partir de ces éléments.

Encoder E_coden utilisant une prédiction temporelle consiste à également utiliser des éléments de l’image précédemment encodée pour encoder l’élément E_cod. Par exemple, pour encoder l’élément E_cod, l’élément de l’image I₁situé au même endroit que E_codpeut être utilisé, on dit alors que l’élément E_codest encodé à partir de cet élément.

Le résultat de l’encodage de l’élément E_codest des données encodées représentatives de l’élément E_cod. Par exemple, mode de prédiction parmi l’ensemble des modes de prédiction intra ou inter et un résidu.

Le résultat de l’encodage de l’ensemble des éléments d’une l’image est une séquence binaire. L’ensemble des séquences binaires forme le flux binaire vidéo.

Pour réduire la quantité des données encodées représentatives de chaque élément dans la séquence binaire, un ensemble de schémas d’encodages d’élément (comprenant par exemple, un ensemble de modes de prédiction : informations de mouvement pour la prédiction temporelle et modes Intra pour la prédiction spatiale) peut être indexé. Par exemple, l’un des schémas peut être l’utilisation du même élément de l’image précédente pour encoder, ou encore l’utilisation des 4 éléments contigus précédemment encodés. Ainsi, la séquence n’indique pas directement les éléments à partir desquels l’encodage est effectué, seul le numéro de l’index du schéma relatif à l’encodage de l’élément est inclus dans la séquence.

La structure des séquences binaires obtenues par encodage de chaque image est représentée à la figure 2. Chaque séquence se compose d’une partie signalisation générale et d’une partie comprenant les données encodées représentatives des éléments de l’image. Cette dernière partie peut comporter également des données de signalisation.

Dans un but de clarté et de concision de l’exposé, l’exemple que nous développons ci-dessous reprend le cadre du standard HEVC. La personne du métier pourra transposer l’invention dans tout standard comme décrit ci-dessus.

La partie de signalisation générale du standard HEVC se compose d’un champ (également appelé NAL) « Video Parameter Set » (VPS), d’un champ « Sequence Parameter Set » (SPS), et d’un champ « Picture Parameter Set » (PPS).

Le champ VPS comprend les informations relatives à la vidéo. Le champ VPS comprend par exemple une information concernant le « Profil », le « Level » et le « Tier » qui définissent des caractéristiques de décodage. Le champ peut également contenir une information relative à la taille de la mémoire tampon (bufferen anglais) appliquée pour le décodage.

Le champ SPS comprend les informations relatives à la séquence d’images considérée. Toutes les images de la séquence utilisent en principe le même SPS. Le champ SPS comprend notamment des informations relatives aux outils de codage utilisés, ou encore des paramètres importants décrivant les caractéristiques de la séquence encodée (par exemple la taille des images).

Le champ PPS comprend des informations relatives à chaque image, même si plusieurs images peuvent faire référence au même PPS afin de réduire la taille de la signalisation. Le PPS comprend notamment des informations supplémentaires relatives aux outils de codage utilisés dans la ou les images qui s’y réfèrent (par exemple le « constrained intra prediction »). Le PPS comprend également des paramètres de type paramètre de quantification d’initialisation, QP (initial quantization parameteren anglais). Ce paramètre sert de base commune pour le calcul des QP de l’ensemble des éléments des images.

La partie comprenant les données encodées représentatives des éléments de l’image dans HEVC est composée de plusieurs champs appelés tranches (slicesen anglais). Ces tranches regroupent les données encodées représentatives de plusieurs éléments par ordre d’encodage/décodage. Les tranches dépendent du type de prédictions utilisées pour encoder les éléments dont les données encodées sont incluses dans la tranche ainsi que d’autres caractéristiques de décodage.

Ainsi, dans la séquence binaire SB₂(correspondant à l’image I₂), la première tranche regroupe par exemple les données encodées représentatives des premier et deuxième éléments (numérotés dans l’ordre de la gauche vers la droite et du haut vers le bas). La deuxième tranche peut regrouper les données encodées représentatives des troisième et quatrième éléments. La troisième tranche peut regrouper tous les éléments du cinquième élément jusqu’au deuxième élément de la seconde ligne. La quatrième tranche peut regrouper les troisième et quatrième éléments de la deuxième ligne. La cinquième tranche peut regrouper tous les éléments du cinquième élément de la seconde ligne jusqu’au deuxième élément de la troisième ligne et ainsi de suite. Ce découpage est un découpage fin, qui prend en compte la structure particulière de l’image I₂relative à la présence de la zone « Intra refresh » comme cela est décrit dans la figure 3.

Dans cet exemple, les données encodées représentatives de l’élément E_coden cours d’encodage seront comprises dans la cinquième tranche.

Il est également possible d’avoir tous les éléments d’une même image dans une même tranche, ou encore d’avoir une tranche par ligne de l’image.

Dans un autre exemple, la séquence binaire SB₂comprend une première tranche qui peut regrouper les données encodées représentatives de tous les éléments du premier élément de la première ligne jusqu’au premier élément de l’avant-dernière ligne. La deuxième tranche peut regrouper les données encodées représentatives de tous les éléments du deuxième élément de l’avant-dernière ligne jusqu’à l’avant-dernier élément de l’avant-dernière ligne. La troisième tranche peut regrouper les données encodées représentatives de tous les éléments restants de l’image I₂. Ce découpage est particulièrement adapté pour prendre en compte la structure particulière de l’image I₂dans le contexte de la figure 7.

Dans cet exemple, les données encodées représentatives de l’élément E_coden cours d’encodage seront comprises dans la première tranche.

Les tranches contiennent également des données de signalisation qui comprennent notamment un identifiant de la tranche, une référence au PPS qui s’applique, le type de tranche, une valeur du paramètre de quantification de la tranche. Ces données de signalisation sont comprises dans l’entête de la tranche (Slice Headeren anglais).

La figure 3 décrit un mode de réalisation de l’invention dans le contexte d’un encodage effectué selon une technique d’ « intra refresh ». L’invention n’est pas limitée à un tel contexte comme nous le verrons ensuite.

L’encodage de la séquence d’image décrit à la figure 1 est entièrement valable dans le contexte de l’encodage effectué selon la technique d’ « Intra refresh » qui est décrit à la figure 3.

La séquence d’images I₁, I₂, …I_Nest encodée dans un mode intra-refresh, c’est-à-dire que pour chaque image I_il’encodeur impose une zone, dite zone intra-refresh ZI_i, dans laquelle les éléments sont encodés uniquement en utilisant une prédiction spatiale (encodés en intra). Chaque zone intra-refresh recouvre une partie différente de l’image, ainsi l’ensemble des zones Intra-refresh appliquées à une séquence d’images peuvent former un pavage des images. Ainsi, sur une période temporelle correspondant à N images, les pixels de l’image vidéo sont tous rafraichis, c’est-à-dire encodés au moins une fois en intra.

Les zones D_iétant les zones non encore rafraichies au cours de la période de N images. Les zones C_iétant les zones rafraichies au cours de cette période. On voit qu’à la fin de la période toute l’image est rafraichie. Par analogie avec les zones intra-refresh les zones C_iet D_ipourront également représenter des zones situées sur d’autres images que l’image I_iet l’image restituée IR_i.

Les zones Intra-refresh utilisées sont des colonnes, celles-ci sont appliquées de gauche à droite. Mais il est également possible d’utiliser d’autres recouvrements, ou avantageusement d’autres pavages, par exemple des zones Intra-refresh horizontales appliquées de haut en bas, ou des zones intra-refresh carrées appliquées en spirale.

Pour éviter que les données encodées représentatives des éléments de la zone Intra-refresh ZI_ide l’image I_isoient affectées par des erreurs d’encodage d’un élément d’une autre image que l’image I_ivia un élément encodé en Inter, la zone Intra-refresh ZI_iest incluse ou au moins partiellement recouverte par une ou plusieurs zones spatiales. Les données encodées représentatives des éléments contenus dans la ou les zones spatiales qui sont encodés en intra (ce qui est le cas de tous les éléments des zones Intra-refresh) ne dépendent alors plus d’éléments encodés en Inter. C’est-à-dire que les données encodées représentatives des éléments encodés en intra située dans les zones spatiales :

ne sont pas obtenues à partir d’éléments encodés en inter, c’est-à-dire que les données encodées représentatives des éléments encodés en intra situé dans les zones spatiales comprennent uniquement des schémas d’encodages renvoyant (c’est-à-dire visant ou indiquant) vers des éléments eux-mêmes encodés en Intra ;

ne sont pas obtenues à partir d’éléments encodés en Intra qui dépendent d’un élément encodé en Inter.

Autrement dit, les données encodées représentatives des éléments encodés en Intra situés dans les zones spatiales ne sont pas obtenues ni directement ni par itération d’encodage à partir d’un élément de l’image I_iencodé en Inter.

Ainsi, la zone intra-refresh ZI₂de l’image I₂est donc incluse ou au moins partiellement recouverte d’une ou plusieurs zones spatiales. Ceci est décrit avec les figures 4, 5 et 6 pour l’image I₂. Dans l’exemple de la figure 4 une seule zone spatiale ZS₁est utilisée pour recouvrir la zone Intra-refresh ZI₂, plus précisément ici la zone spatiale ZS₁est identique à la zone Intra-refresh ZI₂. Les éléments de la zone spatiale ZS₁sont donc tous encodés en intra, car inclus dans la zone Intra-refresh ZI₂, et les données encodées représentatives de ces éléments ne dépendent pas d’élément encodé en inter car ces éléments sont situés dans la zone spatiale ZS₁.

Dans l’exemple de la figure 5 trois zones spatiales ZS₁, ZS₂, ZS₃sont utilisées pour recouvrir la zone Intra-refresh ZI₂, plus précisément ici les trois zones spatiales ZS₁, ZS₂, ZS₃forment une partition de la zone intra-refresh ZI₂. Les éléments des zones spatiales ZS₁, ZS₂, ZS₃sont donc tous encodés en intra, car situés dans la zone Intra-refresh ZI₂, et les données encodées représentatives de ces éléments ne dépendent pas d’élément encodé en inter car ces éléments sont situés dans au moins l’une des zones spatiales ZS₁, ZS₂, ZS₃.

Dans l’exemple de la figure 6 trois zones spatiales ZS₁, ZS₂, ZS₃sont utilisées pour recouvrir la zone Intra-refresh ZI₂, plus précisément ici les trois zones spatiales ZS₁, ZS₂, ZS₃recouvrent entièrement la zone intra-refresh ZI₂. Ainsi, les données encodées représentatives des éléments de la zone intra-refresh ZI₂ne dépendent pas d’élément encodé en inter car ces éléments sont situés dans au moins l’une des zones spatiales ZS₁, ZS₂, ZS₃. Il est néanmoins possible que des éléments des zones spatiales ZS₁, ZS₂, ZS₃soient encodés en Inter, par exemple le cinquième élément de la première ligne n’est pas inclus dans la zone Intra-refresh de l’image I₂et pourrait être encodé en Inter. L’encodage des éléments des zones spatiales ZS₁, ZS₂, ZS₃encodée en Inter n’est pas affecté par le fait que ces éléments sont situés ou non dans une des zones spatiales ZS₁, ZS₂, ZS₃.

La figure 7 décrit un mode de réalisation de l’invention dans un contexte qui n’est pas nécessairement celui d’un encodage effectué selon une technique d’ « intra refresh ».

La séquence d’images I₁, I₂, …I_Nest encodée comme décrit à la figure 1. Dans chaque image I_iune zone dite sensible ZSe_iest définie. Dans l’exemple de la figure 7, les zones sensibles ZSe₁,…, ZSe_Nsont identiques pour toutes les images de la séquence I₁, I₂, …I_N. Les zones sensibles peuvent également être différentes.

Les zones sensibles peuvent correspondre par exemple à des zones des images qui affichent un contenu modifié avec une fréquence importante et nécessitant une netteté importante. Il peut par exemple s’agir d’une zone de sous-titre.

Ainsi, pour éviter que les données encodées représentatives des éléments de la zone sensible ZSe_ide l’image I_ine soient trop affectées par des erreurs d’encodage d’un élément d’une autre image que l’image I_ivia un élément encoder en Inter (ce qui pourrait introduire une perte de définition dans la zone sensible ZSe_i), la zone sensible ZSe_iest incluse ou au moins partiellement recouverte d’une ou plusieurs zones spatiales. Ceci est décrit avec les figures 8, et 9 pour l’image I₂. Dans l’exemple de la figure 8 une seule zone spatiale ZS₁est utilisée pour recouvrir la zone sensible ZSe₂, plus précisément ici la zone spatiale ZS₁est identique à la zone sensible ZSe₂. Ainsi, les données encodées représentatives des éléments de la zone sensible ZSe₂qui sont encodés en intra ne dépendent pas d’élément encodé en inter car ces éléments sont situés dans la zone spatiale ZS₁. L’encodage des éléments de la zone spatiale ZS₁encodée en Inter n’est pas affecté par le fait que ces éléments sont situés ou non dans la zone spatiale ZS₁.

Dans l’exemple de la figure 9 la zone sensible ZSe₂est partiellement recouverte par trois zones spatiales ZS₁, ZS₂, ZS₃, le deuxième élément et l’avant-dernier élément de l’avant-dernière ligne de l’image I₂étant en dehors des zones spatiales. À l’exception de ces deux éléments, les données encodées représentatives des éléments de la zone sensible ZSe₂qui sont encodés en intra ne dépendent pas d’élément encodé en inter car ces éléments sont situés dans l’une des trois zones spatiales ZS₁, ZS₂, ZS₃. L’encodage des éléments des zones spatiales ZS₁, ZS₂, ZS₃encodés en Inter n’est pas affecté par le fait que ces éléments sont situés ou non dans ces zones spatiales.

Par la suite nous exposerons plus en détail des modes de réalisation de l’invention s’appuyant à titre d’exemple sur le standard HEVC tel que précédemment décrit, ce standard étant adapté pour décrire l’invention.

Selon un mode de réalisation de l’invention, le champ PPS comprend des données encodées représentatives d’une information (autrement nommée signalisation activation) permettant de signaler si la méthode selon l’invention est ou non appliquée dans le cadre de l’image faisant référence au PPS en question. Cette donnée d’information pourra par exemple être codée sur un bit, la valeur « 1 » étant associée à l’application de la méthode et la valeur « 0 » étant associée au fait de ne pas appliquer la méthode.

Lorsque le PPS comporte des données encodées représentatives d’une information signalant que la méthode est appliquée dans le cadre de l’image, alors les tranches comprennent des données encodées représentatives d’une information permettant de déterminer si le premier élément E est situé ou non dans l’une des zones spatiales.

Les données encodées représentatives de l’information permettant de déterminer si le premier élément E est situé ou non dans l’une des zones spatiales peuvent être représentatives de la zone spatiale ou des zones spatiales. Ainsi, ces données encodées une fois décodées permettent de déterminer la ou les zones spatiales. Par exemple, les données encodées représentatives de la zone spatiale ZS sont au moins représentatives d’un coin de la zone spatiale ZS. Par exemple, une information représentative d’un coin de la zone spatiale ZS est encodée dans les tranches. L’information peut par exemple contenir les coordonnées spatiales d’un des coins (x ; y). L’information peut également contenir une hauteur h et une largeur L. À partir des coordonnées (x ; y ; h ; L) il est possible de déterminer une zone spatiale dont les quatre coins sont les points de coordonnées (x ;y), (x+L ; y), (x ; y-h) ; (x+L ; y-h) si les coordonnées (x ;y) correspondent au coin en haut à gauche de la zone spatiale. La norme peut définir que les coordonnées (x ; y) définissent un autre point de la zone spatiale, par exemple le coin en bas à gauche, en haut à droit ou en bas à droit de la zone spatiale ou encore le centre de la zone spatiale. Il est également possible que ces quatre paramètres (x ; y ; h ; L) ne soient pas signalés ou que partiellement signalés lorsque l’une ou plusieurs de ces informations sont prédéterminées et connues de l’encodeur comme du décodeur. Par exemple, il est possible de ne signaler que la coordonnée x et la largeur L et de considérer sur la base de ces informations que la zone spatiale est la bande verticale comprenant tous les points entre les droites X=x et X=x+L. Les données encodées représentatives de la zone spatiale ZS peuvent également être représentatives d’une valeur d’un index, chaque valeur de l’index étant représentative d’une zone spatiale différente.

Les coordonnées x, y, h et L pourront être remplacées par des coordonnées réduites x’, y’, h’, L’, c’est-à-dire qu’un ou plusieurs coefficients multiplicateurs λ_x, λ_y, λ_h, λ_L, prédéfinis pourront être utilisés pour obtenir les coordonnées x, y, h et L. Ainsi, on réduit la quantité de signalisation nécessaire pour signaler au décodeur les coordonnées d’une zone spatiale. Les données encodées représentatives de la zone spatiale ou des zones spatiales peuvent être comprises dans l’entête de la tranche. Lorsque plusieurs zones spatiales sont définies dans une même image alors l’entête des tranches concernées par l’une ou plusieurs zones spatiales peut comprendre des données encodées représentatives des informations détaillées ci-dessus relatives à chacune des zones spatiales pour laquelle elle est concernée.

L’information permettant de déterminer si le premier élément E est situé ou non dans l’une des zones spatiales peut également être une information indiquant qu’un élément ou un groupe d’éléments de l’image I est situé dans la zone spatiale ZS. Par exemple, les tranches comprennent pour chaque CTU des données encodées représentatives d’une information permettant de signaler si la méthode est ou non appliquée dans cette CTU, par exemple, cette information pourra être codée sur un bit, la valeur « 1 » étant associée à l’application de la méthode dans la CTU et la valeur « 0 » étant associée au fait de ne pas appliquer la méthode dans la CTU. Ensuite les tranches comprennent pour chaque CU inclus dans les CTU pour lesquelles la méthode est appliquée, des données encodées représentatives d’une information permettant de signaler si la CU est ou non dans l’une des zones spatiales de l’image. Par exemple, cette information pourra être codée sur un bit, la valeur « 1 » étant associée au fait que la CU est dans l’une des zones spatiales et la valeur « 0 » étant associée au fait que la CU n’est pas dans l’une des zones spatiales.

Les champs réservés pour les paramètres exposés dans la présente, en dehors du champ prévu pour la signalisation relative à l’application ou non de la méthode, peuvent être présent que lorsque la méthode est appliquée. Ainsi, lorsque la méthode n’est pas appliquée elle impacte peu la performance de l’encodage/décodage.

La figure 10 décrit les étapes mises en œuvre par l’encodeur selon un mode de réalisation de l’invention.

À une étape S10 l’encodeur détermine les paramètres de l’encodage de l’image I_ien cours d’encodage. À ce titre, l’encodeur détermine une ou plusieurs zones spatiales et notamment leur position dans l’image I_i. L’encodeur détermine également le découpage de l’image en tranches. L’encodeur en déduit une signalisation relative à l’image I_i, c’est-à-dire au niveau du PPS (signalisation activation : 1).

L’encodeur dispose les valeurs des différents éléments de signalisation dans le champ PPS.

À l’étape S11 l’encodeur détermine la signalisation comprise dans les tranches (par exemple au niveau de l’entête de tranche ou au niveau des CTU ou encore au niveau des CU) ainsi que les données encodées représentatives des éléments de chaque tranche.

Ainsi, l’encodeur sur la base de la détermination de la position des zones spatiales détermine la signalisation adéquate pour chaque tranche à encoder pour l’image I_i. Par exemple, l’entête de chaque tranche peut comporter les quadruplets (x ; y ; h ; L) ou encore des index lorsque la séquence binaire comprend des données encodées représentatives des zones spatiales et que des éléments de la tranche sont compris dans au moins une des zones spatiales. Lorsque l’encodeur signale qu’un élément ou un groupe d’éléments de l’image I_iest situé dans l’une des zones spatiales alors cette signalisation peut être comprise dans les données encodées représentatives de l’élément (par exemple CTU ou CU) ou du groupe d’éléments (par exemple groupe de CTUs ou groupe de CUs) ou encore dans une signalisation spécifique dans le « corps » de la tranche et non au niveau de l’entête de la tranche.

L’encodeur commence l’encodage du premier élément de la première tranche.

Par schéma d’encodage, il est ici considéré un ensemble de paramètres d’encodage d’élément permettant d’obtenir un résidu (c’est-à-dire la différence de valeur entre l’élément à encoder et l’élément prédicteur qui est ensuite transformé et quantifié). À savoir

la taille de partitionnement en blocs/éléments de prédiction ;

la transformée utilisée ;

un sous-type de mode de prédiction Inter (AMVP, Merge ou Skip dans HEVC par exemple) ;

des informations de mouvement (vecteur de mouvement, image de référence et index de prédiction dans HEVC) pour un élément encodé en Inter ;

un sous-mode Intra (33 directions angulaires et deux sous-modes supplémentaires, DC et Planar, dans HEVC) pour un élément encodé en Intra.

Le terme schéma d’encodage peut donc être associé à une pluralité d’index de signalisation (par exemple un index pour chaque paramètre) permettant de déduire le schéma utilisé.

Dans le cadre des figures 4, 5, 6, les deux premiers éléments n’étant pas dans une zone spatiale, l’encodeur sélectionne des schémas d’encodage de manière classique.

C’est-à-dire que l’encodeur détermine parmi les schémas d’encodages (et notamment parmi les modes de prédictions) permis pour l’élément à encoder celui entrainant le plus petit résidu. Pour cela l’encodeur peut calculer un élément prédictif pour chaque schéma d’encodage permis à partir des valeurs des éléments visés ou indiqués par le schéma d’encodage. Le schéma d’encodage permettant d’obtenir l’élément prédictif qui est le plus proche de l’élément à encoder (c’est-à-dire qui entraine le plus petit résidu) est choisi et signalé avec un paramètre de quantification permettant le calcul du résidu dans les données encodées représentatives de l’élément.

Une fois les données encodées représentatives du premier puis du deuxième élément obtenues, l’encodeur encode le troisième élément compris à la fois dans la zone intra-refresh et dans la zone spatiale ZS₁.

Comme précédemment, l’encodeur détermine parmi les schémas d’encodages permis pour l’élément à encoder celui entrainant le plus petit résidu. Puisque l’élément est encodé en Intra, seuls les schémas d’encodages comprenant les modes intra sont considérés. Toutefois, l’encodage diffère notamment du fait que lorsque l’encodeur calcul un élément prédictif pour chaque schéma d’encodage considéré, il remplace les valeurs des éléments visés (autrement dit les éléments indiqués) par le schéma d’encodage par des valeurs génériques (c’est-à-dire que l’encodeur remplace les éléments visés par des éléments génériques) lorsque les données encodées représentatives des éléments visés dépendent d’un élément encodé en Inter. Ainsi, le schéma d’encodage permettant d’obtenir l’élément prédictif qui est le plus proche de l’élément à encoder, vise soit un élément dont les données encodées ne dépendent pas d’un élément encodé en inter soit un élément dont les données encodées dépendent d’un élément encodé en Inter, mais dans ce cas l’élément visé n’est pas utilisé pour le calcul de l’élément prédictif au profit d’un élément générique. Ainsi, les données encodées représentatives de l’élément à encoder ne dépendent pas d’élément encodé en Inter.

De même que précédemment, le schéma d’encodage permettant d’obtenir l’élément prédictif qui est le plus proche de l’élément à encoder est signalé avec un paramètre de quantification permettant le calcul du résidu dans les données encodées représentatives de l’élément à encoder.

Le quatrième élément de la première ligne de l’image I₂est également inclus à la fois dans la zone intra-refresh et dans l’une des zones spatiales ZS₁, ZS₂, ZS₃, à savoir la zone spatiale ZS₁. L’encodage de cet élément se fait alors selon le même procédé que celui mis en œuvre pour encoder le troisième élément.

Le cinquième élément de la première ligne de l’image I₂est en dehors de la zone intra-refresh. Dans le cas des figures 4 et 5 cet élément est également en dehors des zones spatiales, il est alors encodé de la même manière que pour les premier et deuxième éléments. Dans le cas de la figure 6 cet élément est situé dans la zone spatiale ZS₁, il est donc encodé de la même manière que dans le cas des figures 4 et 5 si il s’agit d’un élément encodé en Inter et selon le même procédé que celui mis en œuvre pour encoder le troisième élément si il s’agit d’un élément encodé en intra.

Tous les éléments de l’image I₂sont ainsi encodés. Ceux qui sont encodés en intra et qui sont situés dans une des zones spatiales sont encodés selon le même procédé que celui mis en œuvre pour encoder le troisième et quatrième élément dont l’encodage a été décrit précédemment. Les éléments de l’image I₂qui ne sont soit pas encodés en intra ou soit pas situés dans une des zones spatiales sont encodés de la même manière que pour les premier et deuxième éléments.

La figure 11 illustre les étapes de décodage selon un mode de réalisation de l’invention.

À l’étape S20 le décodeur décode ou lit la signalisation générale incluse dans les champs VPS, SPS et PPS. À la lecture du champ PPS l’encodeur détermine la valeur de la signalisation activation. Si celle-ci est « 0 » alors le décodeur décode les tranches et éléments de l’image restituée IR en cours de décodage suivant les étapes classiques de décodage prévues par exemple dans le standard HEVC. Si la valeur de la signalisation activation est « 1 » alors l’encodeur poursuit le décodage tel que décrit ci-dessous.

À l’étape S21, le décodeur décode/lit les valeurs de la signalisation comprises dans l’entête de la première tranche. Si l’entête de la tranche comprend des informations représentatives des zones spatiales (comme décrit précédemment, par exemple comporte un ou plusieurs quadruplets (x ; y ; h ; L) ou encore un ou plusieurs index) de l’image alors le décodeur détermine ces zones spatiales.

À l’étape S22, le décodeur détermine si l’élément à décoder est ou non dans une des zones spatiales. Lorsque le décodeur a déterminé les zones spatiales à l’étape S21, le décodeur compare la position de l’élément à décoder au sein de l’image avec les zones spatiales déterminées. Lorsque le décodeur n’a pas déterminé les zones spatiales à l’étape S21 (par exemple, si aucune signalisation spécifique à l’invention n’est contenue dans l’entête de la tranche), le décodeur décode/lit la signalisation (si celle-ci est présente) indiquant que l’élément ou un groupe d’éléments auquel appartient l’élément est situé dans l’une des zones spatiales.

À l’étape S23.1, lorsque l’élément à décoder de l’image restituée est situé en dehors des zones spatiales déterminées ou qu’aucune signalisation n’indiquant que l’élément ou un groupe d’éléments auquel appartient l’élément est situé dans une zone spatiale, alors le décodeur décode les données encodées représentatives de l’élément en cours de décodage pour déterminer l’élément de l’image restituée (par exemple les valeurs des pixels de l’élément). La détermination de l’élément de l’image restituée (par exemple les valeurs des pixels de l’élément) se fait alors suivant les étapes classiques de décodage. À savoir que le décodeur détermine l’élément en cours de décodage à partir des éléments préalablement décodés indiqués (autrement dit visés) par le schéma d’encodage, du schéma d’encodage et du paramètre de quantification calculé pour l’élément (permettant le calcul d’un résidu).

À l’étape S23.2, lorsque l’élément en cours de décodage est situé dans l’une des zones spatiales déterminées ou qu’une signalisation indique que l’élément ou un groupe d’éléments auquel appartient l’élément est situé dans une zone spatiale, alors le décodeur décode les données encodées représentatives de l’élément en cours de décodage pour déterminer l’élément de l’image restituée (par exemple les valeurs des pixels de l’élément). Lorsque l’élément n’est pas encodé en intra, le décodage se fait de manière similaire à celui effectué à l’étape S23.1.

Lorsque l’élément est encodé en intra, c’est-à-dire que les données encodées représentatives de l’élément à décoder comportent un schéma d’encodage intra, alors un décodage spécifique est appliqué. En effet, si le schéma d’encodage indique un élément de l’image restituée IR préalablement décodé qui dépend d’au moins un élément encodé en inter (c’est-à-dire que l’élément de l’image restitué à décoder serait déterminé à partir de l’élément de IR qui dépend d’un élément encodé en inter dans le cas d’un décodage classique) alors les valeurs de l’élément indiqué (par exemple les valeurs des pixels de cet élément) ne sont pas utilisées pour calculer l’élément prédictif. L’élément prédictif sera alors obtenu à partir du schéma d’encodage (compris dans les données encodées) appliqué non pas sur l’élément que le schéma indique, mais sur un élément générique. La valeur du paramètre de quantification de l’élément inclus dans les données encodées permet ensuite de calculer un résidu. Ce résidu est ajouté aux valeurs de l’élément prédictif pour obtenir l’élément de l’image restituée (par exemple la valeur des pixels de l’élément).

À l’étape S24 le décodeur passe à l’élément suivant et recommence les étapes S22 et S23, jusqu’au décodage de l’ensemble des éléments de la tranche. Une fois l’ensemble des éléments de la tranche décodés, le décodeur passe à la tranche d’après en recommençant les étapes à partir de l’étape S21, jusqu’à ce que la tranche contenant les données encodées représentatives du dernier élément de l’image soit décodée.

La figure 12 illustre un dispositif d’encodage vidéo 11 et un dispositif de décodage vidéo 21 selon un mode de réalisation de l’invention.

Le dispositif d’encodage vidéo 11 comprend un circuit intégré 14 et une entrée de flux d’images vidéo 12 et une sortie de flux binaire vidéo 13. Le circuit intégré comprend une mémoire volatile 15, une mémoire non volatile 16 et un processeur. La mémoire non volatile 16 étant configurée pour stocker des instructions sous la forme d’un programme informatique dont l’exécution par le processeur 17 déclenche l’encodage du flux d’images vidéo, FIV, en flux binaire vidéo, FBV, par le circuit intégré 14, tel que décrit précédemment. La mémoire volatile 15 est configurée pour stocker au cours de l’encodage la liste des éléments dont les données encodées dépendent d’un élément encodé en inter, tout élément encodé à partir de ces éléments sera lui-même dépendant d’un élément encodé en inter et donc ajouté à la liste stocker dans la mémoire volatile 15.

Le dispositif de décodage vidéo 21 comprend un circuit intégré 24 et une entrée de flux binaire vidéo 22 et une sortie de flux d’image vidéo 23. Le circuit intégré 14 comprend une mémoire volatile 25, une mémoire non volatile 26 et un processeur. La mémoire non volatile 26 étant configurée pour stocker des instructions sous la forme d’un programme informatique dont l’exécution par le processeur 27 déclenche le décodage du flux binaire vidéo, FBV, en flux d’images restituées vidéo, FIRV, par le circuit intégré 24, telle que décrite précédemment. La mémoire volatile 25 est configurée pour stocker au cours du décodage la liste des éléments de l’image restituée IR qui dépendent d’un élément encodé en inter, ainsi tout élément de l’image restituée décodé à partir des éléments de la liste sera lui-même dépendant d’un élément encodé en inter et donc ajouté à la liste stocker dans la mémoire volatile 25.

Bien entendu, la présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d’exemples.

Claims

Procédé d’encodage d’une séquence d’images pour obtenir un flux binaire vidéo comprenant des séquences binaires, le procédé comprenant :
- La détermination d’une zone spatiale ZS d’une image I de la séquence d’image;
- L’obtention d’une séquence binaire du flux binaire vidéo comprenant des données encodées représentatives d’un premier élément E de l’image I qui ne sont pas obtenues à partir d’élément d’autres images que l’image I, lesdites données encodées représentatives du premier élément E sont obtenues en remplaçant un deuxième élément E’ par un élément générique si le premier élément E est situé dans la zone spatiale ZS et que des données encodées représentatives du deuxième élément E’ de l’image I dépendent d’un élément d’une autre image de la séquence d’images que l’image I.
Procédé selon la revendication 1, dans lequel les données encodées représentatives du premier élément E sont obtenues au moins à partir de l’élément E’ si le premier élément E est situé en dehors de la zone spatiale ZS et que des données encodées représentatives du deuxième élément E’ de l’image I sont obtenues à partir d’un élément d’une autre image de la séquence d’images que l’image I.
Procédé selon l’une des revendications précédentes, dans lequel des données encodées représentatives d’un élément E’’ situé dans la zone spatiale ZS de l’image I sont obtenues au moins à partir d’un élément d’une autre image que l’image I.
Procédé selon l’une des revendications précédentes, dans lequel des données encodées représentatives d’un élément E’’’ de l’image I situé en dehors de la zone spatiale ZS sont obtenues au moins à partir d’un élément d’une autre image que l’image I.
Procédé selon l’une des revendications précédentes, dans lequel la séquence binaire comprend des données encodées représentatives d’une information permettant de déterminer si le premier élément E est situé dans la zone spatiale ZS.
Procédé selon la revendication 5, dans lequel la séquence binaire comprend des données encodées représentatives de la zone spatiale ZS.
Procédé selon la revendication 6, dans lequel les données encodées représentatives de la zone spatiale ZS sont au moins représentatives d’un coin de la zone spatiale ZS.
Procédé selon l’une des revendications 5 à 7, dans lequel l’information permettant de déterminer si le premier élément E est situé dans la zone spatiale ZS comprend une information indiquant qu’un élément ou un groupe d’éléments de l’image I sont situés dans la zone spatiale ZS.
Procédé selon l’une des revendications 5 à 8, dans lequel les données encodées représentatives de la zone spatiale ZS sont comprises dans une partie signalisation du flux binaire vidéo.
procédé selon l’une des revendications précédentes comprenant en outre la détermination d’une pluralité de zones spatiales de l’image I comprenant au moins la zone spatiale ZSet dans lequel lesdites données encodées représentatives du premier élément E sont obtenues en remplaçant un élément E’ par un élément générique si le premier élément E est situé dans une zone spatiale parmi la pluralité de zones spatiales et que des données encodées représentatives du deuxième élément E’ de l’image I dépendent d’un élément d’une autre image de la séquence d’images que l’image I.
Procédé de décodage d’un flux binaire vidéo comprenant des séquences binaires, le procédé comprenant :
- La détermination d’un premier élément d’une image restituée IR correspondant à un premier élément E d’une image I, ladite détermination étant obtenue à partir:
- du décodage de données encodées représentatives du premier élément E de l’image I,
- des éléments de l’image restituée IR correspondant à des éléments de l’image I en remplaçant un deuxième élément de l’image restituée IR correspondant à un deuxième élément E’ de l’image I par un élément générique si le premier élément E est situé dans une zone spatiale ZS et que le deuxième élément de l’image restituée IR dépend d’au moins un élément d’une autre image restituée IR’ que IR.
Procédé selon la revendication 11, dans lequel la détermination du premier élément de l’image restituée IR n’est pas obtenu à partir d’élément d’autres images restituées que IR.
Procédé selon l’une des revendications 11 et 12, dans lequel la détermination du premier élément de l’image restituée IR est obtenue à partir du deuxième élément de l’image IR correspondant au deuxième élément E’ de l’image I si le premier élément E est situé en dehors de la zone spatiale ZS et que la détermination de l’élément de l’image restituée IR correspondant au deuxième élément E’ est obtenu à partir d’au moins un élément d’une autre image restituée IR’ que IR.
Produit programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 13, lorsque ce programme est exécuté par un processeur.
Dispositif d’encodage d’une séquence d’images pour obtenir un flux binaire vidéo comprenant des séquences binaires, le dispositif comprenant :
- un processeur; et
- un support informatique non transitoire comprenant des instructions qui lorsqu’elles sont exécutées par le processeur configure le dispositif pour:
- déterminer une zone spatiale ZS d’une image I de la séquence d’image;
- obtenir une séquence binaire du flux binaire vidéo comprenant des données encodées représentatives d’un premier élément E de l’image I qui ne sont pas obtenues à partir d’élément d’autres images que l’image I, lesdites données encodées représentatives du premier élément E sont obtenues en remplaçant un deuxième élément E’ par un élément générique si le premier élément E est situé dans la zone spatiale ZS et que des données encodées représentatives du deuxième élément E’ de l’image I dépendent d’un élément d’une autre image de la séquence d’images que l’image I.
Dispositif de décodage d’un flux binaire vidéo comprenant des séquences binaires, le dispositif comprenant :
- un processeur; et
- un support informatique non transitoire comprenant des instructions qui lorsqu’elles sont exécutées par le processeur configure le dispositif pour:
- déterminer un premier élément d’une image restituée IR correspondant à un premier élément E d’une image I, ladite détermination étant obtenue à partir:
- du décodage de données encodées représentatives du premier élément E de l’image I,
- des éléments de l’image restituée IR correspondant à des éléments de l’image I en remplaçant un deuxième élément de l’image restituée IR correspondant à un deuxième élément E’ de l’image I par un élément générique si le premier élément E est situé dans une zone spatiale ZS et que le deuxième élément de l’image restituée IR dépend d’au moins un élément d’une autre image restituée IR’ que IR.