EP4295574A1

EP4295574A1 - Prédiction pondérée d'image, codage et décodage d'image utilisant une telle prédiction pondérée

Info

Publication number: EP4295574A1
Application number: EP22710422.1A
Authority: EP
Inventors: Pierrick Philippe; Théo LADUNE
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2021-02-19
Filing date: 2022-02-15
Publication date: 2023-12-27
Also published as: CN116868565A; FR3120174A1; KR20230157312A; JP2024510095A; US20240073411A1; WO2022175625A1

Abstract

L'invention concerne un procédé de prédiction d'au moins un ensemble de pixels courant (B_c), mis en œuvre par un dispositif de prédiction, dans lequel ledit au moins un ensemble de pixels courant (B_c) est prédit à partir d'au moins un ensemble de pixels de référence (BR₀; BR₀, BR₁), à l'aide d'une fonction de pondération de prédiction de pixels, caractérisé en ce que ladite fonction de pondération de prédiction des pixels dudit au moins un ensemble de pixels courant (Bc) est associée à au moins une valeur de pondération calculée (P₂-P₃) à partir d'une analyse (P₁) d'au moins un ensemble de pixels de référence (BR₀; BR₀, BR₁).

Description

DESCRIPTION

Titre: Prédiction pondérée d’image, codage et décodage d’image utilisant une telle prédiction pondérée

Domaine de l'invention

La présente invention se rapporte de manière générale au domaine du traitement d'images, et plus précisément au codage et au décodage d'images numériques et de séquences d'images numériques.

Le codage/décodage d’images numériques s’applique notamment à des images issues d’au moins une séquence vidéo comprenant :

- des images issues d’une même caméra et se succédant temporellement (codage/décodage de type 2D),

- des images issues de différentes caméras orientées selon des vues différentes (codage/décodage de type 3D),

- des composantes de texture et de profondeur correspondantes (codage/décodage de type 3D),

- etc...

La présente invention s’applique de manière similaire au codage/décodage d’images de type 2D ou 3D.

L’invention peut notamment, mais non exclusivement, s’appliquer au codage vidéo mis en œuvre dans les codeurs vidéo actuels AVC, HEVC, WC et leurs extensions (MVC, 3D-AVC, MV-HEVC, 3D-HEVC, etc.), et au décodage correspondant.

Art antérieur

Les codeurs vidéo actuels (MPEG, AVC, HEVC, VVC, AV1,...) utilisent une représentation par blocs de la séquence vidéo. Les images sont découpées en blocs, lesquels sont susceptibles d’être redécoupés de façon récursive. Puis chaque bloc est codé par prédiction intra-images ou inter-images. Ainsi, certaines images sont codées par prédiction spatiale (prédiction intra, prédiction IBC (pour « Intra Block Copy » en anglais), d’autres images sont également codées par prédiction temporelle (prédiction inter) par rapport à une ou plusieurs images de référence codées-décodées, à l'aide d'une compensation en mouvement bien connue de l’homme de l’art. Un bloc de prédiction BP associé à un bloc en cours de codage est directement lié à au moins un bloc de référence BRo de l’image à laquelle appartient le bloc en cours de codage ou d’une image déjà décodée, appelée classiquement image de référence. Afin de faire correspondre le bloc de référence BRo au bloc en cours de codage, le bloc de référence BRo est déplacé pour chaque position spatiale (x,y) des pixels de celui-ci. Un bloc de référence compensé en mouvement BCo est alors obtenu. La relation entre le bloc de prédiction BP et le bloc de référence compensé en mouvement BCo s’exprime alors de la façon suivante :

BP(x, ) = (1 - w) * BC_Q(X, ) où w est un paramètre de pondération de la prédiction, qui vaut 0 la plupart du temps, mais qui peut être réglable comme expliqué ci-dessous.

Lorsque par exemple un bloc en cours de codage est prédit par rapport à deux blocs de référence BRo et BRi appartenant à une ou deux images de référence déjà décodées, les deux blocs de référence BRo et BRi sont compensés en mouvement, générant deux blocs de référence compensés en mouvement BCo et BCi, puis combinés par une pondération linéaire. Chaque pixel du bloc de prédiction BP est le résultat d’une pondération des pixels des deux blocs de référence compensés en mouvement BCo et BCi. Plus précisément, si par exemple, la prédiction est mise en œuvre ligne par ligne, et de la gauche vers la droite :

- le 1^er pixel en haut à gauche du bloc de prédiction BP est le résultat d’une pondération du 1^er pixel en haut à gauche du bloc de référence compensé en mouvement BCo et du 1^er pixel en haut à gauche du bloc de référence compensé en mouvement BCi,

- le 2^ème pixel, voisin du 1^er pixel sur la première ligne du bloc de prédiction BP, est le résultat d’une pondération du 2^ème pixel voisin du 1^er pixel sur la première ligne du bloc de référence compensé en mouvement BCo et du 2^ème pixel voisin du 1^er pixel sur la première ligne du bloc de référence compensé en mouvement BCi,

... ,

- le dernier pixel en bas à droite du bloc de prédiction BP est le résultat d’une pondération du dernier pixel en bas à droite du bloc de référence compensé en mouvement BCo et du dernier pixel en bas à droite du bloc de référence compensé en mouvement BCi. La pondération la plus fréquente, appliquée par défaut, est la demi-somme. A cet effet le bloc de prédiction BP est calculé selon la relation suivante :

BP(x,y ) = 0.5 * BC₀(x,y ) + 0.5 * BC₁(x,y^')

Des pondérations plus élaborées sont possibles.

Dans la norme HEVC, la pondération linéaire s’applique de façon uniforme à l’image en cours de codage. Le paramètre de pondération w y est fixe, et est signalé au décodeur, pour chaque sous-image ou « slice » de l’image en cours de codage. Par défaut, dans le cas d’une bi-prédiction du bloc en cours de codage, la pondération équilibrée (0.5 / 0.5) est appliquée sauf si cela est explicitement indiqué dans les informations de PPS (pour « Picture Parameter Set » en anglais).

Dans la norme WC, la pondération de la prédiction est réalisée bloc par bloc à l’aide de l’outil BCW (pour « bi-prediction with CU level weights » en anglais). Un bloc de prédiction BP est calculé selon la relation suivante :

BP x,y ) = (1 — w) * BC₀(x,y ) + w * BO^c,g) où le paramètre de pondération w peut prendre 5 valeurs : 0.5, 0.625, 0.375, 1.25, - 0.25. La valeur optimale du paramètre de pondération wà appliquer est déterminée à l’encodeur et signalée au décodeur pour chaque bloc. Elle est encodée avec un élément de contexte qui indique si c’est la valeur w = 0.5 qui est utilisée, c’est-à-dire la pondération égale sur les blocs de référence compensés en mouvement BCo et BCi. Si ce n’est pas le cas, alors la pondération est signalée sur 2 bits pour indiquer l’une des 4 valeurs restantes.

Ce principe est repris dans la technique AV1.

Il convient de noter que quelle que soit la norme vidéo utilisée, le paramètre de pondération i/i/est associé à un nombre relativement faible de valeurs, ce qui induit un manque de précision de la prédiction pondérée appliquée. En outre, l’encodeur conforme aux normes précitées doit systématiquement coder et transmettre au décodeur la valeur du paramètre de pondération w qui a été sélectionnée, ce qui augmente le coût de signalisation.

Objet et résumé de l'invention

Un des buts de l'invention est de remédier à des inconvénients de l'état de la technique précité en améliorant la précision de la prédiction pondérée de l’art antérieur, en faveur d’une diminution du coût de signalisation des informations liées à cette prédiction.

A cet effet, un objet de la présente invention concerne un procédé de prédiction d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de prédiction, dans lequel ledit au moins un ensemble de pixels courant est prédit à partir d’au moins un ensemble de pixels de référence, à l’aide d’une fonction de pondération de prédiction de pixels, caractérisé en ce que la fonction de pondération de prédiction des pixels dudit au moins un ensemble de pixels courant est associée à au moins une valeur de pondération calculée à partir d’une analyse d’au moins un ensemble de pixels de référence.

Un tel procédé de prédiction selon l’invention permet avantageusement de ne s’appuyer que sur un ou plusieurs ensembles de pixels de référence, autrement dit un ou des ensembles de pixels déjà décodés à l’instant de la prédiction, pour estimer la pondération de la prédiction d’un ensemble de pixels courant. Comme ce ou ces ensembles de pixels de référence sont disponibles au moment de la prédiction de l’ensemble de pixels courant, l’estimation de la pondération de la prédiction se trouve améliorée car plus précise spatialement que celle mise en œuvre dans l’art antérieur qui nécessite une approximation ou une quantification du ou des valeurs de pondération de la prédiction.

Selon un mode de réalisation particulier, la fonction de pondération de prédiction est modifiée à l’aide d’au moins un paramètre de modification qui est issu d’une analyse dudit au moins un ensemble de pixels courant.

Un tel mode de réalisation permet avantageusement d’appliquer une correction à la fonction de pondération de prédiction qui a été calculée, lorsque l’ensemble de pixels courant contient un élément qui n’était pas présent/prédictible dans le ou les ensembles de pixels de référence.

L'invention concerne également un dispositif de prédiction d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour prédire ledit au moins un ensemble de pixels courant à partir d’au moins un ensemble de pixels de référence, à l’aide d’une fonction de pondération de prédiction de pixels.

Un tel dispositif de prédiction est caractérisé en ce que la fonction de pondération de prédiction des pixels dudit au moins un ensemble de pixels courant est associée à au moins une valeur de pondération calculée à partir d’une analyse d’au moins un ensemble de pixels de référence.

Dans un mode de réalisation particulier, le dispositif de prédiction est un réseau de neurones.

L’utilisation d’un réseau de neurones permet avantageusement d’optimiser la qualité de la prédiction pondérée.

Un tel dispositif de prédiction est notamment apte à mettre en œuvre le procédé de prédiction précité.

L’invention concerne également un procédé de codage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de codage, comprenant ce qui suit :

- calculer un signal représentatif d’un écart entre ledit au moins un ensemble de pixels courant et un ensemble de pixels de prédiction issu d’une prédiction dudit au moins un ensemble de pixel courant,

- coder le signal.

Un tel procédé de codage est caractérisé en ce que l’ensemble de pixels de prédiction est obtenu à l’aide du procédé de prédiction selon l’invention précité.

Un tel procédé de codage est avantageux en ce sens qu’il ne nécessite pas le codage d’une ou plusieurs valeurs de pondération de prédiction de la fonction de pondération de prédiction. De ce fait, cette ou ces valeurs de pondération de prédiction n’ont pas besoin d’être transmises par l’encodeur à un décodeur de l’ensemble de pixels courant, ce qui permet de réduire le coût de signalisation des informations transmises entre l’encodeur et le décodeur en faveur d’une meilleure qualité de l’image liée à la précision améliorée de la prédiction. En outre, toute valeur de pondération associée à la fonction de pondération de la prédiction n’a pas besoin d’être approximée ou quantifiée en vue d’être transmise au décodeur, ce qui permet de rendre cette valeur de pondération continue pour l’ensemble de pixels à prédire. Selon un mode de réalisation particulier, le procédé de codage comprend ce qui suit :

- coder au moins un paramètre de modification de la fonction de pondération de prédiction,

- transmettre ledit au moins un paramètre de modification à un décodeur d’image. L'invention concerne également un dispositif de codage ou codeur d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour mettre en œuvre ce qui suit : - calculer un signal représentatif d’un écart entre ledit au moins un ensemble de pixels courant et un ensemble de pixels de prédiction issu d’une prédiction dudit au moins un ensemble de pixel courant,

- coder ledit signal.

Un tel dispositif de codage est caractérisé en ce que l’ensemble de pixels de prédiction est obtenu à l’aide du dispositif de prédiction selon l’invention précité.

Un tel dispositif de codage est notamment apte à mettre en œuvre le procédé de codage précité.

L’invention concerne également un procédé de décodage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de décodage, comprenant ce qui suit :

- déterminer, dans un signal de données, des données représentatives d’un signal représentatif d’un écart entre ledit au moins un ensemble de pixels courant et un ensemble de pixels de prédiction issu d’une prédiction dudit au moins un ensemble de pixel courant,

- reconstruire ledit au moins un ensemble de pixels courant à partir des données déterminées et de l’ensemble de pixels de prédiction.

Un tel procédé de décodage est caractérisé en ce que l’ensemble de pixels de prédiction est obtenu à l’aide du procédé de prédiction selon l’invention précité. L’avantage d’un tel procédé de décodage réside dans le fait que la fonction de pondération de prédiction est calculée de manière autonome par le décodeur à partir d’un ou de plusieurs ensembles de pixels de référence disponibles, sans que le décodeur ait besoin de lire des informations particulières dans le signal de données reçu en provenance du codeur. De plus, comme déjà expliqué ci-dessus, la au moins une valeur de pondération de la fonction de pondération de prédiction, du fait qu’elle ne soit ni codée, ni transmise dans un signal de données, peut être rendue continue, sans avoir besoin d’être approximée ou quantifiée, comme c’est le cas dans l’art antérieur.

Dans un mode de réalisation particulier, un tel procédé de décodage comprend en outre ce qui suit :

- déterminer, dans le signal de données ou un autre signal de données, au moins un paramètre de modification de la fonction de pondération de prédiction, - calculer une fonction de pondération de prédiction modifiée à partir de l’analyse dudit au moins un ensemble de pixels de référence et dudit au moins un paramètre de modification déterminé.

L'invention concerne également un dispositif de décodage ou décodeur d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour mettre en œuvre ce qui suit :

Un tel dispositif de décodage est caractérisé en ce que l’ensemble de pixels de prédiction est obtenu à l’aide du dispositif de prédiction selon l’invention précité.

Un tel dispositif de décodage est notamment apte à mettre en œuvre le procédé de décodage précité.

L’invention concerne également un procédé de construction d’au moins un ensemble de pixels à partir d’au moins un ensemble de pixels de référence, mis en œuvre par un dispositif de traitement de données vidéo.

Un tel procédé de construction est caractérisé en ce que l’ensemble de pixels est construit à l’aide d’une fonction de pondération de prédiction de pixels, telle que la fonction de prédiction utilisée dans le procédé de prédiction de l’invention précité. Ainsi, la fonction de pondération de prédiction de l’invention n’est pas limitée au seul contexte d’une prédiction d’image générant ou non un résidu de prédiction et peut être avantageusement utilisée dans le cas d’une interpolation ou d’une synthèse d’images à partir d’une ou de plusieurs images de référence déjà décodées. L'invention concerne encore un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de prédiction selon l’invention, ainsi que du procédé de codage ou de décodage intégrant le procédé de prédiction selon l'invention, ou encore du procédé de construction précité, selon l’un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. De telles instructions peuvent être stockées durablement dans un support mémoire non transitoire du dispositif de prédiction mettant en œuvre le procédé de prédiction précité, du codeur mettant en œuvre le procédé de codage précité, du décodeur mettant en œuvre le procédé de décodage précité, du dispositif de traitement vidéo mettant en œuvre le procédé de construction précité.

Ce programme peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.

L’invention vise également un support d’enregistrement ou support d’informations lisible par un ordinateur, et comportant des instructions d’un programme d’ordinateur tel que mentionné ci-dessus.

Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM, un DVD-ROM, un ADN (acide désoxyribonucléique) synthétique, etc... ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.

D'autre part, le support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé de prédiction, du procédé de codage, de décodage ou de construction précité.

Brève description des dessins

D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation particuliers de l'invention, donnés à titre d’exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :

[Fig. 1] la figure 1 représente les principales étapes d’un procédé de prédiction d’image conformément à l’invention, [Fig. 2A] la figure 2A représente un type de prédiction utilisé dans le procédé de prédiction de la figure 1 , dans un premier mode de réalisation particulier de l’invention,

[Fig. 2B] la figure 2B représente un type de prédiction utilisé dans le procédé de prédiction de la figure 1 , dans un deuxième mode de réalisation particulier de l’invention,

[Fig. 3A] la figure 3A représente un dispositif de prédiction mettant en œuvre le procédé de prédiction de la figure 1 , dans un premier mode de réalisation,

[Fig. 3B] la figure 3B représente un dispositif de prédiction mettant en œuvre le procédé de prédiction de la figure 1 , dans un deuxième mode de réalisation,

[Fig. 4] la figure 4 représente de manière plus détaillée certaines étapes du procédé de prédiction mis en œuvre par le dispositif de prédiction de la figure 3A,

[Fig. 5A] la figure 5A représente un premier exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

[Fig. 5B] la figure 5B représente un deuxième exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

[Fig. 5C] la figure 5C représente un troisième exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

[Fig. 5D] la figure 5D représente une compensation de mouvement mise en œuvre dans le cas du type de déplacement de la figure 5A, dans un mode de réalisation particulier de l’invention,

[Fig. 5E] la figure 5E représente une prédiction pondérée mise en œuvre à l’issue de la compensation de mouvement de la figure 5D, dans un mode de réalisation particulier de l’invention,

[Fig. 5F] la figure 5F représente une pondération sommée mise en œuvre à l’issue de la prédiction pondérée de la figure 5E, dans un mode de réalisation particulier de l’invention,

[Fig. 5G] la figure 5G représente une pondération compensée mise en œuvre à l’issue de la pondération sommée de la figure 5F, dans un mode de réalisation particulier de l’invention, [Fig. 5H] la figure 5H représente l’obtention d’une version prédite d’un ensemble de pixels courant à partir de la pondération compensée illustrée en figure 5G, dans un mode de réalisation particulier de l’invention,

[Fig. 6] la figure 6 représente les principales étapes d’un procédé de codage d’image mettant en œuvre le procédé de prédiction de la figure 1 , dans un mode de réalisation particulier de l’invention,

[Fig. 7A] la figure 7A représente un codeur mettant en œuvre le procédé de codage de la figure 6, dans un premier mode de réalisation,

[Fig. 7B] la figure 7B représente un codeur mettant en œuvre le procédé de codage de la figure 6, dans un deuxième mode de réalisation,

[Fig. 8] la figure 8 représente les principales étapes d’un procédé de décodage d’image mettant en œuvre le procédé de prédiction de la figure 1 , dans un mode de réalisation particulier de l’invention,

[Fig. 9A] la figure 9A représente un décodeur mettant en œuvre le procédé de décodage de la figure 8, dans un premier mode de réalisation,

[Fig. 9B] la figure 9B représente un décodeur mettant en œuvre le procédé de décodage de la figure 8, dans un deuxième mode de réalisation,

[Fig. 10] la figure 10 représente les étapes d’un procédé de codage d’image mettant en œuvre une modification du procédé de prédiction de la figure 1 , dans un mode de réalisation particulier de l’invention,

[Fig. 11] la figure 11 représente un codeur mettant en œuvre le procédé de codage de la figure 10, dans un mode de réalisation particulier de l’invention,

[Fig. 12] la figure 12 représente les étapes d’un procédé de décodage d’image mettant en œuvre une modification du procédé de prédiction de la figure 1, dans un mode de réalisation particulier de l’invention,

[Fig. 13] la figure 13 représente un décodeur mettant en œuvre le procédé de décodage de la figure 12, dans un mode de réalisation particulier de l’invention,

[Fig. 14] la figure 14 représente un codeur mettant en œuvre le procédé de codage de la figure 10, dans un autre mode de réalisation particulier de l’invention,

[Fig. 15] la figure 15 représente un décodeur mettant en œuvre le procédé de décodage de la figure 12, dans un autre mode de réalisation particulier de l’invention. Description détaillée de différents modes de réalisation de l’invention Exemples de mises en œuvre d’un procédé de prédiction d’image Principe général de l’invention Procédé de prédiction pondérée d’image

On décrit ci-après un procédé de prédiction d’image de type 2D ou 3D qui est apte à être mis en œuvre dans tout type de codeurs ou décodeurs vidéo, par exemple conformes au standard AVC, HEVC, WC et leurs extensions (MVC, 3D-AVC, MV- HEVC, 3D-HEVC, etc.), ou autre, tel que par exemple un réseau neuronal convolutif ou CNN (pour « convolutional neural network » en anglais).

En référence à la figure 1 , le procédé de prédiction selon l’invention utilise au moins un ensemble de pixels de référence BRo, c’est-à-dire un ensemble de pixels de référence qui a déjà été codé et décodé et qui est donc disponible au moment de la prédiction. Une caractéristique du procédé de prédiction selon l’invention est qu’un ensemble de pixels courant B_c n’est pas considéré pour la prédiction car n’étant pas disponible au moment de la prédiction.

Au sens de l’invention, on entend par ensemble de pixels courant B_c:

- une image courante originale;

- une partie ou une zone de l’image courante originale,

- un bloc de l’image courante résultant d’un partitionnement de cette image conformément à ce qui est pratiqué dans les codeurs normalisés de type AVC,

HEVC ou WC.

Selon l’invention, comme représenté sur la figure 2A, l’ensemble de pixels de référence BRo peut appartenir à une image courante \ qui contient l’ensemble de pixels courant B_c. Dans ce cas, l’ensemble de pixels courant B_c est prédit par rapport à l’ensemble de pixels de référence BRo à l’aide d’une prédiction Intra, par exemple Intra ou IBC (pour «Intra Block Copy » en anglais).

Bien entendu, l’ensemble de pixels courant B_c peut être prédit par rapport à l’ensemble de pixels de référence BRo et à un ou plusieurs autres ensembles de pixels de référence appartenant à l’image courante h.

Selon l’invention, comme représenté sur la figure 2B, l’ensemble de pixels de référence BRo peut appartenir à une image de référence déjà codée et décodée qui précède ou suit temporellement l’image courante h. Dans ce cas, l’ensemble de pixels courant B_c est prédit par rapport à l’ensemble de pixels de référence BRo à l’aide d’une prédiction Inter. Dans l’exemple représenté, l’ensemble de pixels courant Bc peut être prédit par rapport à l’ensemble de pixels de référence BRo à l’aide d’une prédiction inter de type unidirectionnelle P, l’ensemble de pixels de référence BRo appartenant par exemple à l’image IRM immédiatement précédente mais pouvant bien entendu appartenir à une autre image de référence, telle que par exemple l’image IRi-2 ou d’autres images de référence précédant dans l’ordre de codage l’image IRi-2. Bien entendu, un ou plusieurs autres ensembles de pixels de référence peuvent être utilisés conjointement à l’ensemble de pixels de référence BRo pour prédire l’ensemble de pixels courant B_c.

Dans l’exemple représenté, l’ensemble de pixels courant B_c peut être également prédit à l’aide d’une prédiction inter de type bidirectionnelle de type B, par rapport à l’ensemble de pixels de référence BRo situé dans une image de référence qui précède l’image courante et par rapport à au moins un autre ensemble de pixels de référence BRi situé dans une image de référence qui suit l’image courante Dans l’exemple représenté, l’ensemble de pixels de référence BRo est situé dans l’image de référence IRi-2 et l’ensemble de pixels de référence BRi est situé dans l’image de référence IRi_+i. Toujours dans le cadre d’une telle prédiction inter de type B, et comme représenté sur la figure 2B, l’ensemble de pixels courant B_c peut être prédit par rapport à deux ensembles de pixels de référence BRo, BRi situés chacun dans une image de référence qui précède l’image courante Dans l’exemple représenté, l’ensemble de pixels de référence BRo est situé dans l’image de référence IRi-2 et l’ensemble de pixels de référence BRi est situé dans l’image de référence IRM .

Bien entendu, un ou plusieurs autres ensembles de pixels de référence peuvent être utilisés conjointement aux ensembles de pixels de référence BRo et BRi pour calculer l’ensemble de pixels de prédiction courant BP_C.

Dans les modes de réalisation présentés ci-dessous, il est supposé que le ou les ensembles de pixels de référence BRo, BRi, etc... ont la même géométrie que l’ensemble de pixels courant B_c à prédire. Bien entendu, il est également possible, en fonction du contexte de la prédiction, de sur-dimensionner cet ensemble de pixels de référence de manière à couvrir une surface plus grande ou égale à celle de l’ensemble de pixels courant B_c à prédire.

En référence à nouveau à la figure 1 , un tel procédé de prédiction selon l’invention comprend ce qui suit :

En P1 , il est procédé à une analyse dudit moins un ensemble de pixels de référence BRo. Une telle analyse met en œuvre une estimation de mouvement comprenant une estimation du décalage pixellique entre ledit au moins un ensemble de pixels de référence BRo qui a été préalablement déplacé et une version prédite BP_C d’un ensemble de pixels courant B_c qui n’est pas disponible au moment de la prédiction. Cette estimation de mouvement met en œuvre une compensation en mouvement classique, à l’issue de laquelle un ensemble de pixels compensé en mouvement BRCo est obtenu. Au cours de cette analyse, une information de déplacement est obtenue, telle qu’un vecteur Vo de déplacement qui décrit le déplacement de BRo vers BRCo.

En P2, est calculée une valeur de pondération wo pour chaque pixel de l’ensemble de pixels compensé en mouvement BRCo, selon le résultat de l’analyse effectuée en P1.

En P3, une version prédite BP_C d’un ensemble de pixels courant B_c est calculée selon la fonction suivante, pour chaque coordonnée (x,y) d’un pixel considéré de l’ensemble de pixels de référence compensé en mouvement BRCo:

BP_c x, ) = w₀(x,y) * BRC₀{x,y )

Lorsque deux ensembles de pixels de référence BRo et BRi sont considérés lors de l’analyse P1 , ce qui génère deux ensembles de pixels compensés en mouvement BRCo et BRCi et les vecteurs de déplacement correspondants Vo, Vi, deux valeurs de pondération w₀, sont calculées en P2 respectivement pour l’ensemble de pixels compensé en mouvement BRCo et l’ensemble de pixels compensé en mouvement BRCi. L’ensemble de pixels de prédiction courant BP_C est alors calculé en P3 selon la fonction suivante, pour chaque coordonnée (x,y) d’un pixel considéré des ensembles de pixels compensés en mouvement :

BP_c{x,y) = w₀(x,y) * BRC₀(x,y ) + w₁(x,y) * BRC^x.y)

Le procédé de prédiction qui vient d’être décrit ci-dessus peut ensuite être mis en œuvre pour chaque ensemble de pixels courants à prédire, considéré non disponible au moment de la prédiction.

Exemples de mise en œuvre de dispositif de prédiction pondérée

La figure 3A présente un dispositif de prédiction PRED1 adapté pour mettre en œuvre le procédé de prédiction illustré en figure 1 , selon un premier mode de réalisation de l'invention. Selon ce premier mode de réalisation, les actions exécutées par le procédé de prédiction sont mises en œuvre par des instructions de programme d'ordinateur.

Pour cela, le dispositif de prédiction PRED1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_P1 , une unité de traitement UT_P1 , équipée par exemple d'un processeur PROC_P1 , et pilotée par le programme d'ordinateur PG_P1 stocké en mémoire MEM_P1. Le programme d'ordinateur PG_P1 comprend des instructions pour mettre en œuvre les actions du procédé de prédiction tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC_P1.

A l'initialisation, les instructions de code du programme d'ordinateur PG_P1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_P1. Le processeur PROC_P1 de l'unité de traitement UT_P1 met notamment en œuvre les actions du procédé de prédiction décrit ci- dessus, selon les instructions du programme d'ordinateur PG_P1.

Le dispositif de prédiction reçoit en entrée E_P1 un ou plusieurs ensembles de pixels de référence BRo, BRi,..., calcule le et/ou les vecteurs de déplacement correspondants Vo, Vi,..., ainsi que le et/ou les valeurs de pondération correspondantes wo, i//i..., et délivre en sortie S_P1 l’ensemble de pixels de prédiction BP_C précité.

La figure 3B présente un dispositif de prédiction PRED2 adapté pour mettre en œuvre le procédé de prédiction illustré en figure 1 , selon un deuxième mode de réalisation de l'invention.

Selon ce deuxième mode de réalisation, le dispositif de prédiction PRED2 est un réseau neuronal, tel que par exemple un réseau neuronal convolutif, un perceptron multicouche, un LSTM (pour « Long Short Term Memory » en anglais), etc..., noté RNC1 qui, à partir d’un ou plusieurs ensembles de pixels de référence BRo, BRi,...reçu(s) en entrée, met en œuvre conjointement les étapes P1 à P2 du procédé de prédiction pondérée de la figure 1 , pour délivrer en sortie :

- un ou plusieurs vecteurs de mouvement Vo, Vi,... respectifs,

- une ou plusieurs valeurs de pondération respectives wo,

Un calculateur CAL reçoit en entrée ces informations pour calculer l’ensemble de pixels de prédiction BP_C selon la relation précitée:

BP_c(x, ) = w₀(x,y) * BRC₀{x,y) + w^x.y) * BRC^x.y). De façon connue en soi, le réseau neuronal convolutif RNC1 réalise une succession de couches d’opérations de filtrage, de non linéarité et de changement d’échelles. Chaque filtre employé est paramétré par un noyau de convolution et les non linéarités sont paramétrées (ReLU, leaky ReLU, GDN (de l’anglais « generalized divisive normalization »), ...). Le réseau neuronal RNC1 est par exemple du type décrit dans le document D. Sun, et al., « PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume » CVPR 2018.

Dans ce cas, le réseau neuronal RNC1 peut être appris :

- à estimer Vo, Vi,... pour interpoler des mouvements depuis BRo, BRi,... vers l’image courante en cours de codage pour réaliser une prédiction ;

- à estimer les valeurs de pondération w₀,

A cet effet, dans une phase préalable, le réseau RNC1 est entraîné pour réaliser l’opération P1. Par exemple, on apprend au réseau RNC1 à minimiser l’erreur quadratique moyenne entre une image \ à approximer et le résultat BP_C de la prédiction pondérée de la figure 1. A l’issue de cette étape est obtenu un espace latent U représentatif de Vo, Vi , ... , wo, wi , ....

L’entrainement du réseau RNC1 est réalisé pendant une phase d’entrainement en présentant une pluralité d’ensembles de pixels de référence associés BRo, BRi,..., conjointement à un ensemble de pixels courant B_c, et en changeant, par exemple par un algorithme de descente du gradient, les poids du réseau pour minimiser l’erreur quadratique entre B_c et le résultat BP_c(x,y) calculé selon la relation précitée.

A l’issue de cette phase préalable d’entrainement, le réseau RNC1 est figé et adapté pour être utilisé dans le dispositif de prédiction PRED2.

Le réseau RNC1 est ainsi optimisé pour mettre en œuvre les étapes P1 et P2 de la prédiction pondérée de la figure 1.

Mode de réalisation d’un procédé de prédiction pondérée mis en œuvre par le dispositif de prédiction PRED1

On décrit maintenant, en relation avec la figure 4 et les figures 5A à 5H, un mode de réalisation, dans lequel une pondération de prédiction d’un ensemble de pixels courant est mise en œuvre dans le dispositif de prédiction PRED1 de la figure 3A. Dans l’exemple représenté, deux ensembles de pixels de référence BRo et BRi sont pris en compte pour la prédiction. A cet effet, comme illustré sur la figure 4, l’analyse P1 d’au moins un ensemble de pixels de référence comprend ce qui suit :

En P10, est calculée une estimation de mouvement entre BRo et BRi. Une telle étape est effectuée par des étapes classiques de recherche de mouvement, comme par exemple une estimation de vecteurs de déplacement.

Les figures 5A à 5C représentent respectivement trois exemples différents de déplacement d’une version prédite BP_C de l’ensemble de pixels courant B_c par rapport à deux ensembles de pixels de référence BRo et BRi, qui peuvent être rencontrés lors de cette étape P10. Dans l’exemple des figures 5A à 5C, le déplacement d’un élément E (symbolisé par un cercle) entre les ensembles de pixels de référence BRo et BRi est représenté par un champ de vecteurs de mouvement. Dans un souci de simplification, un seul vecteur, noté V01 et en pointillé sur les figures 5A à 5C, est représenté pour décrire, dans l’exemple représenté, le mouvement de l’élément E depuis BRo vers BRi (le mouvement sur les autres portions de l’image étant considéré nul). Mais il va de soi qu’il y a autant de vecteurs de mouvement que de pixels représentant les ensembles de pixels de référence BRo vers BRi comme par exemple dans le cas d’une estimation de mouvement par flot optique. Selon un autre exemple non représenté sur les figures 5A à 5C, un vecteur Vio, décrivant le mouvement (opposé) depuis BRi vers BRo, pourrait être calculé.

Le vecteur V01 ou Vio ayant été obtenu en P10, il est procédé en P11 (figure 4) à l’estimation du déplacement de l’ensemble de pixels courant B_c à prédire par rapport à BRo et BRi. Cette estimation est illustrée sur les figures 5A à 5C où le déplacement de l’élément E est estimé à un autre instant temporel que celui auquel sont situés BRo et BRi, qui est l’instant auquel est situé l’ensemble de pixels courant B_c. En utilisant les mêmes conventions que pour le calcul de V01 ou Vio :

- un seul vecteur Vo, qui décrit le mouvement depuis BRo vers la position prédite de Bc est calculé à partir du vecteur V01,

- un seul vecteur Vi qui décrit le mouvement depuis BRi vers la position prédite de B_c est calculé à partir du vecteur V01.

Dans l’exemple de la figure 5A, où l’ensemble de pixels courant B_c est situé temporellement à mi-chemin de BRo et de BRi, alors le déplacement de l’élément E à l’instant courant est estimé comme correspondant à la moitié du déplacement entre BRo et BRi, c’est-à-dire la moitié du vecteur V01 ou Vio. Une telle configuration de déplacement est rencontrée dans le cas où par exemple, en reprenant les mêmes notations que sur la figure 2B, BRo appartient à l’image de référence IRM et BRi appartient à l’image de référence IRi_+i.

Dans l’exemple de la figure 5B, où l’ensemble de pixels courant B_c est situé temporellement plus près de BRo que de BRi, alors le déplacement de l’élément E à l’instant courant est estimé comme étant plus court que la moitié du déplacement entre BRo et BRi. Par exemple, si BRo appartient à l’image de référence IRM et BRi appartient à l’image de référence IRi₊₂, alors le déplacement de l’élément E à l’instant courant est estimé comme correspondant au tiers du déplacement entre BRo et BRi, c’est-à-dire le tiers du vecteur V01 ou Vio.

Dans l’exemple de la figure 5C, où l’ensemble de pixels courant B_c est situé temporellement après BRo puis BRi, BRo appartenant à l’image de référence IRi-2 et BRi appartenant à l’image de référence IRi-2, alors le déplacement de l’élément E à l’instant courant est estimé comme le double du déplacement entre BRo et BRi, c’est-à-dire le double du vecteur V01 ou Vio.

En référence aux figures 4 et 5D, en P12, BRo et BRi sont chacun compensés en mouvement à l’aide des vecteurs Vo et Vi, pour créer respectivement deux versions prédites de B_c, notées BRCo et BRCi.

A titre d’illustration sur la figure 5D, on considère que les vecteurs Vo et Vi ont été obtenus par exemple conformément à la configuration de mouvement représentée sur la figure 5A, pour laquelle le déplacement de l’élément E à l’instant courant est estimé comme correspondant à la moitié du déplacement entre BRo et BRi, c’est-à- dire la moitié du vecteur V01 ou Vio.

La figure 5D représente :

- un ensemble de pixels compensé en mouvement à droite BRCo, sur lequel la position interpolée de l’élément E comprend un ensemble de pixels ERCo résultant de la compensation en mouvement de l’élément E de BRo, par le vecteur Vo,

- un ensemble de pixels compensé en mouvement à gauche BRCi, sur lequel la position interpolée de l’élément E comprend un ensemble de pixels ERCi résultant de la compensation en mouvement de l’élément E de BRi, par le vecteur Vi.

En revanche, une partie Zo de ERCo et une partie Zi de ERCi sont indéfinies car correspondant au contenu non connu qui est situé derrière l’élément E de BRo et l’élément E de BRi. Toutefois, comme visible sur la figure 5D, la partie Zo est définie dans ERCi et la partie Zi est définie dans ERCo.

Le calcul P2 de valeurs de pondération de prédiction wo et wi comprend alors ce qui suit :

En référence aux figures 4 et 5E, pour réaliser une combinaison efficace des ensembles de pixels de référence compensés en mouvement BRCo et BRCi, conformément à l’invention, il est procédé en P20 au calcul pixel à pixel des pondérations intermédiaires w^into(x,y) et w^inti(x,y), pour respectivement les deux versions prédites BRCo et BRCi.

Un tel calcul permet d’isoler les parties de BRo et de BRi qui ne sont pas définies respectivement dans BRCo et BRCi.

A cet effet, comme illustré sur la figure 5E, il est proposé :

- d’assigner à zéro la valeur de pondération pour chaque pixel des parties Zo et Zi respectivement, soit n ^nto(x,y)=0 et n ^nti(x,y)=0, les parties Zo et Zi étant illustrées en blanc,

- d’assigner à une constante K la valeur de pondération pour chaque pixel défini des ensembles de pixels de référence compensés en mouvement BRCo et BRCi, soit n ^nto(x,y)=K et n ^nti(x,y)=K avec par exemple K=0.5, correspondant à la couleur grise sur la figure 5E.

A l’issue de cette opération, est obtenue une pondération intermédiaire où pour chacun des ensembles de pixels de référence compensés en mouvement BRCo et BRCi, le contenu blanc correspond à i ^nto(x,y)=0 et n ^nti(x,y)=0 et le contenu gris à n ^nto(x,y)=0.5 et n ^nti(x,y)=0,5.

En référence à la figure 4, il est procédé en P21 , au calcul de la somme w_s(x,y) des pondérations intermédiaires w^into(x,y) et w^inti(x,y),

Le calcul de la somme des pondérations intermédiaires w^into(x,y) et w^inti(x,y) est illustré en figure 5F où le contenu noir correspond à i/y_s(x,y)=1 et le contenu gris correspond à i/y_s(x,y)=0.5.

Le calcul P3 de la fonction de pondération de prédiction comprend alors ce qui suit : En référence à la figure 4, au cours de l’opération P30, les versions prédites compensées en mouvement BRCo et BRCi sont pondérées par leurs pondérations respectives w₀ et wi. Des versions prédites compensées pondérées BRCWo et BRCWi sont alors obtenues. A cet effet, les pondérations de compensation suivantes i/i/o(x,y) et i/i/i(x,y) sont calculées pour respectivement chaque ensemble de pixels de référence compensés en mouvement BRCo et BRCi :

Une telle pondération de compensation est représentée sur la figure 5G. Le contenu blanc correspond aux zones indéfinies Zo et Zi pour lesquelles i//o(x,y)=0 et i//i(x,y)=0. Le contenu noir correspond aux zones parfaitement définies pour lesquelles i//o(x,y)=1 et i//i(x,y)=1. Le contenu gris correspond à l’arrière-plan et à l’élément E, pour lequel i/y_o(x,y)=0.5 et wi(x,y)=0.5.

Les versions prédites BRCo et BRCi sont alors compensées en mouvement et pondérées par leurs pondérations respectives wo et wi. Des versions prédites compensées pondérées BRCWo et BRCWi sont alors obtenues.

En référence aux figures 4 et 5H, au cours de l’opération P31 , les versions prédites compensées pondérées BRCWo et BRCWi sont additionnées, fournissant un ensemble de pixels de prédiction compensé en mouvement BP_C.

On a ainsi construit une compensation de mouvement incluant une pondération de compensation déterminée par des éléments présents uniquement au moment de la prédiction, c’est à dire uniquement sur les ensembles de pixels de référence BRo et BRi. Un avantage particulier d’une telle pondération de compensation par rapport aux solutions actuellement normalisées réside dans le fait que BRo et BRi étant parfaitement connus au moment de la prédiction et que la prédiction selon l’invention n’utilise que BRo et BRi, il est possible de traiter efficacement les désocclusions lors de la prédiction, comme cela est illustré sur les figures 5D à 5H, où les zones occultées Zo et Zi précitées peuvent être restaurées avec une très bonne précision spatiale.

La pondération de prédiction peut être présentée sous une autre forme. Par exemple, une seule pondération i/ypeut être utilisée. Alors, w pondère l’ensemble de pixels de référence compensé en mouvement BRCo et (1-w) pondère l’ensemble de pixels de référence compensé en mouvement BRCi. w peut être calculé à partir du mode de réalisation ci-dessus en partant des valeurs de pondération wo et wi calculées précédemment, et en faisant : Bien qu’un procédé de prédiction ait été décrit ci-dessus, un tel procédé pourrait également être mis en œuvre pour construire ou synthétiser un ensemble de pixels Bc à partir de un ou plusieurs ensembles de pixels de référence BRo, BRi,...en utilisant la fonction de prédiction pondérée qui vient d’être décrite. Le procédé de prédiction pourrait être appelé procédé de construction ou de synthèse de l’ensemble de pixels B_c, correspondant par exemple à un ensemble de pixels manquant ou un ensemble de pixels non capturé par une caméra (vidéo 360°). Dans ce cas, à proprement parler, les dispositifs de prédiction PRED1 et PRED2 seront plutôt considérés comme des dispositifs de construction ou de synthèse. Ainsi le dispositif de prédiction PRED1 pourrait mettre en œuvre un algorithme dit « de synthèse » de vue. Par exemple, le logiciel VSRS (pour « View Synthesis Reference » en anglais), l’algorithme VVS (« Versatile View Synthesizer » en anglais), peuvent être utilisé comme algorithme de synthèse de vue. Le dispositif de construction ou de synthèse PRED2 peut être quant à lui, comme décrit précédemment, un réseau neuronal, tel que par exemple un réseau neuronal convolutif, un perceptron multicouche, un LSTM (pour « Long Short Term Memory » en anglais), etc.

Procédé de codage d’image Principe général

On décrit ci-après, en référence à la figure 6, un procédé de codage d’image mettant en œuvre la prédiction pondérée décrite en référence à la figure 1.

Un tel procédé de codage comprend ce qui suit :

En C1, la prédiction pondérée, dans ses étapes P1 à P3 illustrées en figure 1, est mise en œuvre, générant l’ensemble de pixels de prédiction courant BP_C.

Les étapes suivantes de codage sont classiques et conformes à un codage de type AVC, HEVC, WC ou similaire. Ainsi :

- en C2, est calculé un signal BE_C représentatif de l’écart entre l’ensemble de pixels courant B_c et l’ensemble de pixels de prédiction courant BP_C obtenu en C1 ;

- en C3, dans le cas où ce signal BE_C est celui qui optimise le codage par rapport à un critère de performance de codage classique, comme par exemple la minimisation du coût débit/distorsion ou bien le choix du meilleur compromis efficacité/complexité, qui sont des critères bien connus de l'homme du métier, le signal BE_C est quantifié et codé. A l’issue de cette opération, un signal d’écart quantifié et codé BE_c ^cod est obtenu.

Au cours du codage C3, plusieurs possibilités de codage peuvent être explorées, par exemple une pluralité de valeurs de pondération de prédiction w₀, wi, ... peut être investiguée pour trouver le meilleur compromis débit/distorsion ou efficacité/complexité.

L’encodeur peut mettre en compétition des valeurs de pondération calculées suivant le procédé de prédiction décrit plus haut avec des valeurs de pondérations qu’il peut choisir de transmettre. A cet effet, il peut évaluer la qualité de la prédiction BPc obtenue à partir du procédé de prédiction plus haut et mesurer, par exemple à l’aide d’une erreur quadratique moyenne, l’erreur de prédiction. Celle-ci peut être comparée à l’erreur de prédiction issue d’un ensemble de paires de valeurs de pondération prédéterminées ( wo,wi ) tel qu’utilisé dans les standards vidéo actuels. Cet ensemble peut se restreindre à (0.5, 0.5) comme par exemple dans la norme HEVC (pour « High Efficiency Video Coding » en anglais) ou comprendre d’autres valeurs comme par exemple celles utilisées dans l’outil BCW (pour « Bi-prediction with CU level Weights » en anglais) de la norme WC (pour « Versatile Video Coding » en anglais). Un indicateur indiquera au décodeur s’il doit utiliser le procédé de prédiction décrit plus haut ou s’il doit appliquer l’outil BCW de WC ou s’il doit appliquer la prédiction équilibrée de HEVC.

Cette mise en compétition des valeurs de pondération de prédiction wo, a pour avantage d’optimiser la précision de la prédiction pondérée en comparaison de la pondération de prédiction par défaut mise en œuvre dans les dispositifs de prédiction de l’art antérieur. En effet, la pondération de prédiction de l’invention génère des valeurs de pondération plus précises mais peut engendrer une plus forte distorsion lorsque le signal n’est pas prédictible. Une pondération de prédiction classique peut, quoique moins précise spatialement et au prix d’un débit à transmettre entraîner une distorsion plus faible.

En C4, les données du signal d’écart quantifié et codé BE_c ^cod sont inscrites dans un flux de transport F apte à être transmis à un décodeur qui sera décrit ultérieurement dans la description.

En revanche, conformément à l’invention, la pondération wo et/ou la pondération w\ ne sont avantageusement ni codées, ni transmises au décodeur. Bien entendu, dans le cas où le signal d’écart quantifié et codé BE_cest nul, ce qui peut être le cas pour le mode de codage SKIP, les étapes C2 et C4 précitées ne sont pas mises en œuvre.

Exemples de mise en œuvre de codeur

La figure 7 A présente un codeur COD1 adapté pour mettre en œuvre le procédé de codage illustré en figure 6, selon un premier mode de réalisation de l'invention. Le codeur COD1 comprend le dispositif de prédiction PRED1.

Selon ce premier mode de réalisation, les actions exécutées par le procédé de codage sont mises en œuvre par des instructions de programme d'ordinateur. Pour cela, le dispositif de codage COD1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_C1 , une unité de traitement UT_C1 , équipée par exemple d'un processeur PROC_C1 , et pilotée par le programme d'ordinateur PG_C1 stocké en mémoire MEM_C1. Le programme d'ordinateur PG_C1 comprend des instructions pour mettre en œuvre les actions du procédé de codage tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC C1 .

A l'initialisation, les instructions de code du programme d'ordinateur PG_C1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_C1. Le processeur PROC_C1 de l'unité de traitement UT_C1 met notamment en œuvre les actions du procédé de codage décrit ci-dessus, selon les instructions du programme d'ordinateur PG_C1.

Le codeur COD1 reçoit en entrée E_C1 un ensemble de pixels courant B_c et délivre en sortie S_C1 le flux de transport F qui est transmis à un décodeur à l’aide d’une interface de communication adaptée (non représentée).

La figure 7B présente un codeur COD2 adapté pour mettre en œuvre le procédé de codage illustré en figure 6, selon un deuxième mode de réalisation de l'invention. Le codeur COD2 comprend le dispositif de prédiction PRED2 précité suivi d’un réseau neuronal convolutif RNC2 qui par exemple calcule puis code le signal d’écart BE_C ou code l’ensemble de pixels courant B_c conjointement avec l’ensemble de pixels de prédiction BP_C généré par le dispositif de prédiction PRED2. Un tel réseau RNC2 est par exemple du type décrit dans le document : Ladune « Optical Flowand Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020.

Procédé de décodage d’image Principe général

On décrit ci-après, en référence à la figure 8, un procédé de décodage d’image mettant en œuvre la prédiction pondérée décrite en référence à la figure 1 .

Un tel procédé de décodage met en œuvre un décodage d’image correspondant au codage d’image de la figure 6. En particulier, mise à part la prédiction pondérée, le procédé de décodage met en œuvre des étapes de décodage classiques qui sont conformes à un décodage de type AVC, HEVC, VVC ou similaire.

Le procédé de décodage comprend ce qui suit :

En D1 , il est procédé classiquement à une extraction du flux de transport F reçu des données du signal d’écart codé BE_c ^cod.

En D2, il est procédé classiquement à un décodage de BE_c ^cod. A l’issue de cette opération, un signal d’écart décodé BE_c ^dec est obtenu.

En D3, la prédiction pondérée selon l’invention, dans ses étapes P1 à P3 illustrées en figure 1 , est mise en œuvre, générant l’ensemble de pixels de prédiction courant BPc.

En D4, un ensemble de pixels courant reconstruit BD_C est calculée en combinant le signal d’écart décodé BE_c ^dec obtenu en D2 à l’ensemble de pixels de prédiction BP_C obtenu en D3.

De façon connue en soi, l’ensemble de pixels courant reconstruit BD_C pourra éventuellement subir un filtrage par un filtre de boucle du signal reconstruit qui est bien connu de l’homme du métier.

Bien entendu, dans le cas où le signal d’écart BE_cqui a été calculé lors du procédé de codage précité est nul, ce qui peut être le cas pour le mode de codage SKIP, les étapes D1 et D2 précitées ne sont pas mises en œuvre.

Exemples de mise en œuvre de décodeur

La figure 9A présente un décodeur DEC1 adapté pour mettre en œuvre le procédé de décodage illustré en figure 8, selon un premier mode de réalisation de l'invention. Le décodeur DEC1 comprend le dispositif de prédiction PRED1 .

Selon ce premier mode de réalisation, les actions exécutées par le procédé de décodage sont mises en œuvre par des instructions de programme d'ordinateur. Pour cela, le décodeur DEC1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_D1 , une unité de traitement UT_D1 , équipée par exemple d'un processeur PROC_D1 , et pilotée par le programme d'ordinateur PG_D1 stocké en mémoire MEM_D1 . Le programme d'ordinateur PG_D1 comprend des instructions pour mettre en œuvre les actions du procédé de décodage tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC_D1 .

A l'initialisation, les instructions de code du programme d'ordinateur PG_D1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_D1 . Le processeur PROC_D1 de l'unité de traitement UT_D1 met notamment en œuvre les actions du procédé de décodage décrit ci- dessus en liaison avec la figure 8, selon les instructions du programme d'ordinateur PG_D1 .

Le décodeur DEC1 reçoit en entrée E_D1 le flux de transport F transmis par le codeur COD1 de la figure 7A et délivre en sortie S_D1 l’ensemble de pixels décodé courant BD_C.

La figure 9B présente un décodeur DEC2 adapté pour mettre en œuvre le procédé de décodage illustré en figure 8, selon un deuxième mode de réalisation de l'invention. Le décodeur DEC2 comprend le dispositif de prédiction PRED2 précité suivi d’un réseau neuronal convolutif RNC3 qui par exemple décode le signal d’écart codé BE_c ^cod ou décode le signal d’écart codé BE_c ^cod conjointement avec l’ensemble de pixels de prédiction BP_C généré par le dispositif de prédiction PRED2. Un tel réseau RNC3 est par exemple du type décrit dans le document : Ladune « Optical Flowand Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020. Variante du procédé de prédiction pondérée d’image

On décrit à présent, en référence aux figures 10 et 11 , une variante du procédé de prédiction pondérée illustré en figure 1 , telle que mise en œuvre dans un codeur COD3.

Une telle variante vient améliorer le procédé de prédiction pondérée de la figure 1 lorsque la précision/qualité de la prédiction obtenue n’est pas satisfaisante.

A cet effet, côté codeur, comme illustré sur la figure 10, il est procédé en C’1 à une analyse dudit moins un ensemble de pixels de référence BRo de façon conjointe avec l’ensemble de pixels courant B_c. Par exemple deux ensembles de pixels de référence BRo et BRi sont analysés conjointement avec B_c. Dans l’exemple représenté, BRo est situé temporellement avant B_c et BRi est situé temporellement après B_c.

Comme représenté en figure 11 , l’analyse C’1 est mise en œuvre à l’aide d’un réseau neuronal convolutif RNC4 qui, à partir des deux ensembles de pixels de référence BRo et BRi et de l’ensemble de pixels courant B_c, crée une transformation au travers d’un certain nombre de couches, telles que par exemple des couches implémentant des filtres convolutifs (CNN) suivies de couches implémentant des non-linéarités et des décimations, comme décrit dans le document: Ladune « Optical Flowand Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020.

A l’issue de l’étape C’1 , un ensemble de variables latentes est obtenu sous forme d’un signal U’.

Le signal U 'est quantifié en C’2 par un quantificateur QUANT, par exemple uniforme ou vectoriel, réglé par un paramètre de quantification. Un signal quantifié U’q est alors obtenu.

En C’3, le signal quantifié U’q est codé à l’aide d’un codeur entropique CE, par exemple de type arithmétique, avec une statistique déterminée. Cette statistique est par exemple paramétrée par des probabilités de statistiques, par exemple en modélisant la variance et la moyenne d’une loi laplacienne (s,m), ou bien en considérant des hyperpriors comme dans la publication : « Variational image compression with a scale hyperprior» par Ballé qui a été présentée à la conférence ICLR 2018. Un signal quantifié codé U’_q ^cod est alors obtenu.

En C’4, le signal quantifié codé U’_q ^cod est inscrit dans un flux de transport F’ qui est transmis à un décodeur DEC3 illustré sur la figure 13.

On décrit à présent, en référence aux figures 12 et 13, une variante du procédé de prédiction pondérée illustré en figure 1 , telle que mise en œuvre dans un décodeur DEC3.

A cet effet, côté décodeur, comme illustré sur la figure 12, il est procédé en D’1 à une analyse d’au moins un ensemble de pixels de référence BRo, deux ensembles de pixels de référence BRo et BRi dans l’exemple représenté. Une telle analyse est identique à celle effectuée à l’étape P1 de la figure 1 , à l’aide du réseau de neurones RNC1 . A l’issue de cette étape, est obtenu un espace latent U représentatif de Vo,

Vi , ... , wo, W1 , .

Suite à la réception du flux F’, il est procédé en D’2 au décodage entropique du signal quantifié codé U’_q ^cod à l’aide d’un décodeur entropique DE correspondant au codeur entropique CE de la figure 11 , avec la même statistique déterminée, telle que la modélisation de la variance et de la moyenne d’une loi laplacienne (s,m). Un signal quantifié décodé U’q est obtenu à l’issue de cette opération. En D’3, le signal quantifié décodé U’q est concaténé avec l’espace latent U obtenu par le réseau de neurones RNC1 de la figure 13 et représentatif de l’analyse de uniquement les ensembles de pixels de référence BRo et BRi.

Le réseau de neurones RNC1 traite ensuite cette concaténation au travers de différentes couches, de la même façon qu’à l’étape P2 de la figure 1 , pour estimer les informations de mouvement Vo, Vi , ... , ainsi que les valeurs de pondération correspondantes w₀, w ....

De façon correspondante à la figure 3B, un calculateur CAL reçoit en entrée ces informations pour calculer l’ensemble de pixels de prédiction BP_C selon la relation précitée. Cette étape est identique à l’étape P3 de la figure 1 .

Dans les modes de réalisation qui ont été exposés plus haut en référence aux figures 3A et suivantes, deux ensembles de pixels de référence BRo, BRi sont utilisés dans le procédé de prédiction pondérée.

Ces modes de réalisation peuvent être étendus à trois ou plus ensembles de pixels de référence. A cet effet, le réseau neuronal RNC1 décrit en référence à la figure 3B sera appris à partir de trois ensembles de pixels de référence BRo, BRi, BR2 ou plus, pour obtenir l’ensemble de pixels de prédiction BP_c{x,y).

Un mode de prédiction pondérée dégradé est bien sûr possible, par exemple lorsque seulement une trame de référence est utilisée pour la prédiction (cas de prédiction de type P en codage vidéo). Un tel mode dégradé est illustré en référence aux figures 14 et 15. Dans l’exemple de la figure 14, est représenté un codeur COD3’ qui est similaire au codeur COD3 de la figure 11 . Le codeur COD3’ se différentie du codeur COD3 par son réseau neuronal RNC4’ qui est appris à partir d’un seul ensemble de pixels de référence, BRo sur la figure 14. Ainsi, le réseau neuronal RNC4’ génère un signal U’ à partir du seul ensemble de pixels de référence BRo et de l’ensemble de pixels courant B_c. Comme déjà décrit précédemment en liaison avec les figures 10 et 11 , Le signal U’ est quantifié pour obtenir un signal quantifié U’q. Le signal quantifié U’q est codé entropiquement. Un signal quantifié codé U’_q ^cod est alors obtenu. Le signal quantifié codé U’_q ^cod est inscrit dans un flux de transport F’ qui est transmis à un décodeur DEC3’ illustré sur la figure 15.

Le décodeur DEC3’ se différentie du décodeur DEC3 de la figure 13 par son réseau neuronal RNC1 ’ qui analyse un unique ensemble de pixels de référence, BRo dans l’exemple représenté. A l’issue de cette analyse, est obtenu un espace latent U représentatif de Vo et de wo. Comme déjà expliqué précédemment en référence à la figure 12, suite à la réception du flux F’, le signal quantifié codé U’_q ^cod est décodé entropiquement, générant un signal quantifié décodé U’q. Le signal quantifié décodé

U’q est concaténé avec l’espace latent U obtenu par le réseau de neurones RNC1’.

Le réseau de neurones RNC1 ’ traite ensuite cette concaténation pour estimer l’unique information de mouvement Vo ainsi que l’unique valeur de pondération correspondante wo. Le calculateur CAL reçoit en entrée ces informations pour calculer classiquement l’ensemble de pixels de prédiction BP_C selon la relation précitée avec BRCi=0 puisque BRi n’a pas été considéré, donc non compensé en mouvement. De même wi(x,y)=0.

Il en résulte que l’ensemble de pixels de prédiction BP_C obtenu à l’issue de l’étape P3 de la figure 1 et délivré en sortie du calculateur CAL est :

BP_c(x, ) = w₀ (x, ) * BRC₀(x,y) + 0 * 0 = w₀(x,y) * BRC₀(x,y).

Claims

REVENDICATIONS

[Revendication 1] Procédé de prédiction d’au moins un ensemble de pixels courant (Bc), mis en œuvre par un dispositif de prédiction, dans lequel ledit au moins un ensemble de pixels courant (B_c) est prédit à partir d’au moins un ensemble de pixels de référence (BRo ; BRo, BRi) appartenant à une image de référence déjà décodée, à l’aide d’une fonction de pondération de prédiction de pixels, caractérisé en ce que ladite fonction de pondération de prédiction des pixels dudit au moins un ensemble de pixels courant (B_c) comprend au moins une valeur de pondération calculée (P2- P3) à partir d’une analyse (P1 ) d’au moins un ensemble de pixels de référence (BRo ; BRo, BRi).

[Revendication 2] Procédé de prédiction selon la revendication 1, dans lequel l’analyse d’au moins un ensemble de pixels de référence (BRo ; BRo, BRi) met en œuvre une estimation de mouvement ou un filtrage dudit au moins un ensemble de pixels de référence.

[Revendication 3] Procédé de prédiction selon la revendication 2, dans lequel l’estimation de mouvement est du type par flot optique.

[Revendication 4] Procédé de prédiction selon la revendication 1, dans lequel la fonction de pondération de prédiction est modifiée à l’aide d’au moins un paramètre de modification (U’q) qui est issu d’une analyse conjointe dudit au moins un ensemble de pixels courant et d’au moins un ensemble de pixels de référence.

[Revendication 5] Dispositif de prédiction d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour prédire ledit au moins un ensemble de pixels courant à partir d’au moins un ensemble de pixels de référence appartenant à une image de référence déjà décodée, à l’aide d’une fonction de pondération de prédiction de pixels, caractérisé en ce que ladite fonction de pondération de prédiction des pixels dudit au moins un ensemble de pixels courant (Bc) comprend au moins une valeur de pondération calculée à partir d’une analyse d’au moins un ensemble de pixels de référence.

[Revendication 6] Dispositif de prédiction selon la revendication 5, caractérisé en ce qu’il utilise un réseau de neurones (PRED2).

[Revendication 7] Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de prédiction selon l’une quelconque des revendications 1 à 4, lorsqu'il est exécuté sur un ordinateur.

[Revendication 8] Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 7.

[Revendication 9] Procédé de codage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de codage (COD1 ; COD2 ; COD3 ; COD3’), comprenant ce qui suit:

- calculer (C2) un signal représentatif d’un écart entre ledit au moins un ensemble de pixels courant et un ensemble de pixels de prédiction issu d’une prédiction dudit au moins un ensemble de pixel courant,

- coder (C3) ledit signal, ledit procédé de codage étant caractérisé en ce que ledit ensemble de pixels de prédiction est obtenu (C1) à l’aide du procédé de prédiction selon l’une quelconque des revendications 1 à 4.

[Revendication 10] Procédé de codage selon la revendication 9, comprenant ce qui suit :

- coder (C’3) au moins un paramètre de modification de la fonction de pondération de prédiction,

- transmettre (C’4) ledit au moins un paramètre de modification codé à un décodeur d’image.

[Revendication 11] Dispositif de codage d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour mettre en œuvre ce qui suit:

- coder ledit signal, caractérisé en ce que ledit ensemble de pixels de prédiction est obtenu à l’aide du dispositif de prédiction selon la revendication 5 ou la revendication 6.

[Revendication 12] Procédé de décodage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de décodage, comprenant ce qui suit: - déterminer (D1), dans un signal de données, des données représentatives d’un signal représentatif d’un écart entre ledit au moins un ensemble de pixels courant et un ensemble de pixels de prédiction issu d’une prédiction dudit au moins un ensemble de pixel courant,

- reconstruire (D4) ledit au moins un ensemble de pixels courant à partir des données déterminées et de l’ensemble de pixels de prédiction, ledit procédé de décodage étant caractérisé en ce que ledit ensemble de pixels de prédiction est obtenu (D3) à l’aide du procédé de prédiction selon l’une quelconque des revendications 1 à 4.

[Revendication 13] Procédé de décodage selon la revendication 12, comprenant en outre ce qui suit :

- déterminer (D’2), dans ledit signal de données ou un autre signal de données, au moins un paramètre codé, ledit paramètre étant un paramètre de modification de la fonction de pondération de prédiction,

- décoder ledit paramètre de modification codé,

- calculer (D’3, P2-P3) une fonction de pondération de prédiction modifiée à partir de l’analyse dudit au moins un ensemble de pixels de référence et dudit au moins un paramètre de modification décodé.

[Revendication 14] Dispositif de décodage d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour mettre en œuvre ce qui suit:

- reconstruire ledit au moins un ensemble de pixels courant à partir des données déterminées et de l’ensemble de pixels de prédiction, caractérisé en ce que ledit ensemble de pixels de prédiction est obtenu à l’aide du dispositif de prédiction selon la revendication 5 ou la revendication 6. [Revendication 15] Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de codage selon la revendication 9 ou 10, ou du procédé de décodage selon la revendication 12 ou 13, lorsqu'il est exécuté sur un ordinateur. [Revendication 16] Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 15.