EP4295575A1

EP4295575A1 - Determination d'un mode de codage d'image

Info

Publication number: EP4295575A1
Application number: EP22710130.0A
Authority: EP
Inventors: Pierrick Philippe; Théo LADUNE
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2021-02-19
Filing date: 2022-02-15
Publication date: 2023-12-27
Also published as: KR20230156318A; WO2022175626A1; FR3120173A1; JP2024510094A; CN116897534A

Abstract

L'invention concerne un procédé de détermination d'au moins un mode de codage (MC_c), respectivement décodage (MD_c), parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant. Une telle détermination est caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé (P2) à partir d'une analyse (P1) d'au moins un ensemble de pixels de référence (BR₀).

Description

DESCRIPTION

Titre: DETERMINATION D'UN MODE DE CODAGE D'IMAGE

Domaine de l'invention

La présente invention se rapporte de manière générale au domaine du traitement d'images, et plus précisément au codage et au décodage d'images numériques et de séquences d'images numériques.

Le codage/décodage d’images numériques s’applique notamment à des images issues d’au moins une séquence vidéo comprenant :

- des images issues d’une même caméra et se succédant temporellement (codage/décodage de type 2D),

- des images issues de différentes caméras orientées selon des vues différentes (codage/décodage de type 3D),

- des composantes de texture et de profondeur correspondantes (codage/décodage de type 3D),

- etc...

La présente invention s’applique de manière similaire au codage/décodage d’images de type 2D ou 3D.

L’invention peut notamment, mais non exclusivement, s’appliquer au codage vidéo mis en œuvre dans les codeurs vidéo actuels AVC, HEVC, WC et leurs extensions (MVC, 3D-AVC, MV-HEVC, 3D-HEVC, etc.), et au décodage correspondant.

Art antérieur

Les codeurs vidéo actuels (MPEG, AVC, HEVC, VVC, AV1,...) utilisent une représentation par blocs de la séquence vidéo. Les images sont découpées en blocs, lesquels sont susceptibles d’être redécoupés de façon récursive. Puis chaque bloc est codé à l’aide d’un mode de codage particulier, par exemple un mode Intra, Inter, Skip, Merge, etc. Certaines images sont codées sans référence à d’autres images passées ou futures, à l’aide d’un mode de codage tel que par exemple le mode de codage Intra, le mode de codage IBC (pour « Intra Block Copy » en anglais).

D’autres images sont codées par rapport à une ou plusieurs images de référence codées-décodées, à l'aide d'une compensation en mouvement bien connue de l’homme de l’art. Ce mode de codage temporel est appelé mode de codage Inter. Pour chaque bloc est codé un bloc résiduel, encore appelé résidu de prédiction, correspondant au bloc original diminué d’une prédiction. Dans le cas d’un mode de codage Skip, le bloc résiduel est nul.

Pour un bloc considéré à coder, plusieurs modes de codage Intra, Inter, Skip, Merge, etc. pour ce bloc sont mis en compétition à l’encodeur, dans le but de sélectionner le meilleur mode de codage, c'est-à-dire celui qui optimise le codage du bloc considéré selon un critère de performance de codage prédéterminé, par exemple le coût débit/distorsion, c’est-à-dire la mise en rapport d’une mesure de la distorsion entre l’image originale et l’image codée puis décodée par le décodeur, et le débit nécessaire à la transmission des instructions de décodage, ou encore un compromis efficacité/complexité, qui sont des critères bien connus de l'homme du métier. L’encodeur est chargé d’envoyer au décodeur les informations de codage relatives au mode de codage optimal pour permettre au décodeur de reconstituer le bloc original. De telles informations sont transmises dans un flux, typiquement sous forme d’une représentation binaire.

Plus le mode de codage choisi est précis, par exemple en termes de position pixel à pixel, plus faible sera le débit du résidu. En revanche il nécessitera plus d’informations à transmettre, notamment au niveau des contours d’une forme.

Le décodage est réalisé au décodeur à partir des informations de codage lues dans le flux, puis décodées, ainsi qu’à partir d’éléments déjà disponibles au décodeur, c’est à dire préalablement décodés.

Ces éléments déjà disponibles sont notamment : - des éléments de l’image en cours de décodage : on parle alors de mode de décodage Intra ou IBC par exemple,

- des éléments issus d’autres images préalablement décodées : on parle alors de mode de décodage Inter.

Ces deux types de modes de codage Intra et Inter peuvent être combinés, conformément à la norme WC (pour « Versatile Video Coding » en anglais). On parle de Cl IP (pour « Combined Inter and Intra Prédiction » en anglais). Conformément à ces techniques de prédiction, l’encodeur doit signaler le type de mode optimal pour qu’il soit exécuté au décodeur. Cette information est véhiculée pour chaque bloc. Elle peut engendrer un grand nombre d’informations à insérer dans le flux et doit être minimisée pour limiter le débit. De ce fait, elle peut manquer de précision, notamment pour les images très texturées et présentant beaucoup de détails.

Ce manque de précision se traduit par une limitation de la qualité de l’image reconstruite pour un débit donné.

Objet et résumé de l'invention

Un des buts de l'invention est de remédier à des inconvénients de l'état de la technique précité en améliorant la détermination des modes de codage de l’art antérieur, en faveur d’une diminution du coût de signalisation des informations liées au mode de codage déterminé pour le codage d’un ensemble de pixels courant.

A cet effet, un objet de la présente invention concerne un procédé de détermination d’au moins un mode de codage, respectivement décodage, parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder au moins un ensemble de pixels courant. Un tel procédé de détermination est caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé à partir d’une analyse d’au moins un ensemble de pixels de référence. Un tel procédé de détermination d’au moins un mode de codage (respectivement décodage) selon l’invention permet avantageusement de ne s’appuyer que sur un ou plusieurs ensembles de pixels de référence, autrement dit un ou des ensembles de pixels déjà décodés à l’instant du codage ou du décodage de l’ensemble de pixels courant, pour déterminer, parmi au moins deux modes codage (respectivement décodage) possibles le et/ou les modes de codage (respectivement décodage) à appliquer à chaque pixel de l’ensemble de pixels courant. Comme ce ou ces ensembles de pixels de référence sont disponibles au moment du codage (respectivement décodage) de l’ensemble de pixels courant, la précision de cet/ces ensemble(s) de pixels de référence est parfaitement connue pour chaque position de pixel, à l’opposé d’un codeur (respectivement décodeur) qui fonctionne par bloc dans l’art antérieur. Ainsi la détermination du ou des modes de codage (respectivement décodage) à appliquer à chaque pixel de l’ensemble de pixels courant s’en trouve améliorée car plus directe et précise spatialement que celle mise en œuvre dans l’art antérieur qui se base sur le calcul d’un critère de performance de codage par bloc. Le mode de codage (respectivement décodage) à appliquer à l’ensemble de pixels courant est ainsi plus précis et s’adapte mieux aux propriétés locales de l’image.

Il en résulte une qualité de l’image reconstruite qui est meilleure.

Selon un mode de réalisation particulier, un seul mode de codage, respectivement décodage, parmi les au moins deux modes est déterminé pour au moins un pixel de l’ensemble de pixels courant, la détermination de l’un ou l’autre mode variant dudit au moins un pixel à au moins un autre pixel dudit ensemble.

Un tel mode de réalisation permet avantageusement de réutiliser des modes de codage ou de décodage de l’art antérieur (par exemple intra, skip, inter, etc.) avec une précision au pixel.

Selon un autre mode de réalisation particulier, les au moins deux modes de codage, respectivement décodage, sont déterminés en combinaison pour au moins un pixel de l’ensemble de pixels courant.

Un tel mode de réalisation permet avantageusement de pouvoir combiner au moins deux modes de codage (skip, intra, inter, etc.), respectivement décodage, pour coder, respectivement décoder, un même pixel. Ce mode de réalisation permet également de pouvoir passer progressivement d’un mode de codage, respectivement décodage, à l’autre sans engendrer de discontinuités assimilables à des effets de bloc.

Selon encore un autre mode de réalisation particulier, la détermination dudit au moins un mode de codage, respectivement décodage, est modifiée par un paramètre de modification qui est issu d’une analyse de l’ensemble de pixels courant.

Un tel mode de réalisation permet avantageusement d’appliquer une correction à la détermination dudit au moins un mode de codage ou de décodage, lorsque l’ensemble de pixels courant contient un élément qui n’était pas présent/prédictible dans le ou les ensembles de pixels de référence.

Les différents modes ou caractéristiques de réalisation précités peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, au procédé de détermination défini ci-dessus.

L'invention concerne également un dispositif de détermination d’au moins un mode de codage, respectivement décodage, comprenant un processeur qui est configuré pour déterminer au moins un mode de codage, respectivement décodage, parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant.

Un tel dispositif de détermination est caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé à partir d’une analyse d’au moins un ensemble de pixels de référence.

Dans un mode de réalisation particulier, le dispositif de détermination est un réseau de neurones.

L’utilisation d’un réseau de neurones permet avantageusement d’optimiser la précision de la détermination dudit au moins un mode de codage, respectivement décodage.

Un tel dispositif de détermination est notamment apte à mettre en œuvre le procédé de détermination précité.

L’invention concerne également un procédé de codage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de codage, dans lequel l’ensemble de pixels courant est codé à partir d’une détermination d’au moins un mode de codage. Un tel procédé de codage est caractérisé en ce que ledit au moins un mode de codage est déterminé conformément au procédé de détermination selon l’invention précité.

Un tel procédé de codage est avantageux en ce sens qu’il ne nécessite pas le codage d’un ou de plusieurs indices indiquant le et/ou les modes de codage utilisé(s) pour coder l’ensemble de pixels courant. De ce fait, ce ou ces indices de modes n’ont pas besoin d’être transmis par l’encodeur à un décodeur de l’ensemble de pixels courant, ce qui permet de réduire le coût de signalisation des informations transmises entre l’encodeur et le décodeur en faveur d’une meilleure qualité de reconstruction de l’image liée à la sélection plus fine des modes de codage. L'invention concerne également un dispositif de codage ou codeur d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour coder l’ensemble de pixels courant à partir d’une détermination d’au moins un mode de codage.

Un tel dispositif de codage est caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de codage selon l’invention précité.

Un tel dispositif de codage est notamment apte à mettre en œuvre le procédé de codage selon l’invention précité. L’invention concerne également un procédé de décodage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de décodage, dans lequel l’ensemble de pixels courant est décodé à partir d’une détermination d’au moins un mode de décodage.

Un tel procédé de décodage est caractérisé en ce que ledit au moins un mode de décodage est déterminé conformément au procédé de détermination selon l’invention précité.

L’avantage d’un tel procédé de décodage réside dans le fait que la détermination d’au moins un mode de décodage pour décoder l’ensemble de pixels courant est mise en œuvre de manière autonome par le décodeur à partir d’un ou de plusieurs ensembles de pixels de référence disponibles, sans que le décodeur ait besoin de lire des informations particulières dans le signal de données reçu en provenance du codeur.

L'invention concerne également un dispositif de décodage ou décodeur d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour décoder l’ensemble de pixels courant à partir d’une détermination d’au moins un mode de décodage.

Un tel dispositif de décodage est caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de décodage selon l’invention précité.

Un tel dispositif de décodage est notamment apte à mettre en œuvre le procédé de décodage selon l’invention précité.

L'invention concerne encore un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de détermination selon l’invention, ainsi que du procédé de codage ou de décodage intégrant le procédé de détermination selon l'invention, selon l’un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur.

De telles instructions peuvent être stockées durablement dans un support mémoire non transitoire du dispositif de détermination mettant en œuvre le procédé de détermination précité, du codeur mettant en œuvre le procédé de codage précité, du décodeur mettant en œuvre le procédé de décodage précité.

Ce programme peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.

L’invention vise également un support d’enregistrement ou support d’informations lisible par un ordinateur, et comportant des instructions d’un programme d’ordinateur tel que mentionné ci-dessus.

Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM, un DVD-ROM, un ADN (acide désoxyribonucléique) synthétique, etc... ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.

D'autre part, le support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé de détermination, du procédé de codage ou de décodage selon l’invention précité.

Brève description des dessins

D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation particuliers de l'invention, donnés à titre d’exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :

[Fig. 1] la figure 1 représente les principales étapes d’un procédé de détermination d’au moins un mode de codage ou de décodage conformément à l’invention,

[Fig. 2A] la figure 2A représente un type d’ensemble de pixels de référence analysé dans le procédé de détermination de la figure 1 , dans un premier mode de réalisation particulier de l’invention,

[Fig. 2B] la figure 2B représente un autre type d’ensemble de pixels de référence analysé dans le procédé de détermination de la figure 1 , dans un deuxième mode de réalisation particulier de l’invention,

[Fig. 3A] la figure 3A représente un dispositif de détermination mettant en œuvre le procédé de détermination de la figure 1 , dans un premier mode de réalisation, [Fig. 3B] la figure 3B représente un dispositif de détermination mettant en œuvre le procédé de détermination de la figure 1 , dans un deuxième mode de réalisation,

[Fig. 4] la figure 4 représente de façon schématique une méthode d’apprentissage du dispositif de détermination de la figure 3B,

[Fig. 5A] la figure 5A représente un premier exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

[Fig. 5B] la figure 5B représente un deuxième exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

[Fig. 5C] la figure 5C représente un troisième exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

[Fig. 5D] la figure 5D représente une compensation de mouvement mise en œuvre dans le cas du type de déplacement de la figure 5A, dans un mode de réalisation particulier de l’invention,

[Fig. 5E] la figure 5E représente une détermination d’au moins un mode de codage, respectivement décodage, mise en œuvre à l’issue de la compensation de mouvement de la figure 5D, dans un mode de réalisation particulier de l’invention, [Fig. 6] la figure 6 représente de manière plus détaillée certaines étapes du procédé de détermination mis en œuvre par le dispositif de détermination de la figure 3A,

[Fig. 7] la figure 7 représente les principales étapes d’un procédé de codage d’image mettant en œuvre le procédé de détermination d’au moins un mode de codage de la figure 1 , dans un mode de réalisation particulier de l’invention,

[Fig. 8A] la figure 8A représente un codeur mettant en œuvre le procédé de codage de la figure 7, dans un premier mode de réalisation,

[Fig. 8B] la figure 8B représente un codeur mettant en œuvre le procédé de codage de la figure 7, dans un deuxième mode de réalisation,

[Fig. 9] la figure 9 représente les principales étapes d’un procédé de décodage d’image mettant en œuvre le procédé de détermination d’au moins un mode de décodage de la figure 1 , dans un mode de réalisation particulier de l’invention,

[Fig. 10A] la figure 10A représente un décodeur mettant en œuvre le procédé de décodage de la figure 9, dans un premier mode de réalisation, [Fig. 10B] la figure 10B représente un décodeur mettant en œuvre le procédé de décodage de la figure 9, dans un deuxième mode de réalisation,

[Fig. 11] la figure 11 représente les étapes d’un procédé de codage d’image mettant en œuvre une modification du procédé de détermination de mode codage de la figure 1 , dans un mode de réalisation particulier de l’invention,

[Fig. 12] la figure 12 représente un codeur mettant en œuvre le procédé de codage de la figure 11 , dans un mode de réalisation particulier de l’invention,

[Fig. 13] la figure 13 représente les étapes d’un procédé de décodage d’image mettant en œuvre une modification du procédé de détermination de mode de décodage de la figure 1 , dans un mode de réalisation particulier de l’invention,

[Fig. 14] la figure 14 représente un décodeur mettant en œuvre le procédé de décodage de la figure 13, dans un mode de réalisation particulier de l’invention. Description détaillée de différents modes de réalisation de l’invention Exemples de mises en œuvre d’un procédé de détermination d’au moins un mode de codage ou de décodage Principe général de l’invention

Procédé de détermination d’au moins un mode de codage ou de décodage

On décrit ci-après un procédé de détermination d’au moins un mode de codage ou de décodage en vue de coder, respectivement décoder, une image de type 2D ou 3D, ledit procédé de détermination étant apte à être mis en œuvre dans tout type de codeurs ou décodeurs vidéo, par exemple conformes au standard AVC, FIEVC, WC et leurs extensions (MVC, 3D-AVC, MV-FIEVC, 3D-FIEVC, etc.), ou autre, tel que par exemple un réseau neuronal convolutif ou CNN (pour « convolutional neural network » en anglais).

En référence à la figure 1 , le procédé de détermination d’au moins un mode de codage ou de décodage selon l’invention utilise au moins un ensemble de pixels de référence BRo, c’est-à-dire un ensemble de pixels de référence qui a déjà été codé et décodé et qui est donc disponible au moment de la détermination dudit au moins un mode de codage ou décodage destiné à être utilisé pour coder, respectivement décoder, un ensemble de pixels courant B_c qui comprend N pixels pi, p2,..., PN (N>1 ). Au sens de l’invention, on entend par ensemble de pixels courant B_c:

- une image courante originale;

- une partie ou une zone de l’image courante originale, - un bloc de l’image courante résultant d’un partitionnement de cette image conformément à ce qui est pratiqué dans les codeurs normalisés de type AVC,

HEVC ou WC.

Selon l’invention, comme représenté sur la figure 2A, l’ensemble de pixels de référence BRo peut appartenir à une image courante qui contient l’ensemble de pixels courant B_c. Dans ce cas, au moins un mode de codage MCc (respectivement décodage MD_C) de l’ensemble de pixels courant B_c est déterminé par rapport à cet ensemble de pixels de référence BRo.

Bien entendu, ledit au moins un mode de codage MCc (respectivement décodage MDc) peut être déterminé par rapport à l’ensemble de pixels de référence BRo et à un ou plusieurs autres ensembles de pixels de référence appartenant à l’image courante li.

Selon l’invention, comme représenté sur la figure 2B, l’ensemble de pixels de référence BRo peut appartenir à une image de référence déjà codée et décodée qui précède ou suit temporellement l’image courante li. Dans ce cas, le mode de codage MCc (respectivement décodage MD_C) de l’ensemble de pixels courant B_c est déterminé par rapport à l’ensemble de pixels de référence BRo. Dans l’exemple représenté, le mode de codage MCc (respectivement décodage MD_C) de l’ensemble de pixels courant B_c peut être calculé par rapport à l’ensemble de pixels de référence BRo, l’ensemble de pixels de référence BRo appartenant par exemple à l’image IRM immédiatement précédente mais pouvant bien entendu appartenir à une autre image de référence, telle que par exemple l’image IRi_+i ou d’autres images de référence précédant, dans l’ordre de codage, l’image courante h, c’est-à-dire des image déjà codées puis décodées avant l’image courante h. Dans l’exemple représenté, le mode de codage MCc (respectivement décodage MD_C) de l’ensemble de pixels courant B_c peut être également calculé par rapport à l’ensemble de pixels de référence BRo situé dans une image de référence qui précède l’image courante et par rapport à au moins un autre ensemble de pixels de référence BRi situé dans une image de référence qui suit l’image courante li. Dans l’exemple représenté, l’ensemble de pixels de référence BRo est situé dans l’image de référence IRi-2 et l’ensemble de pixels de référence BRi est situé dans l’image de référence IRi_+i. Toujours dans le cadre d’une telle détermination d’au moins un mode de codage ou de décodage par rapport à des ensembles de pixels de référence situés dans des images de référence, et comme représenté sur la figure 2B, le mode de codage MCc (respectivement de décodage MD_C) de l’ensemble de pixels courant B_c peut être calculé par rapport à deux ensembles de pixels de référence BRo, BRi situés chacun dans une image de référence qui précède l’image courante Dans l’exemple représenté, l’ensemble de pixels de référence BRo est situé dans l’image de référence IRÎ-2 et l’ensemble de pixels de référence BRi est situé dans l’image de référence IRM .

Bien entendu, un ou plusieurs autres ensembles de pixels de référence peuvent être utilisés conjointement aux ensembles de pixels de référence BRo et BRi pour calculer ledit au moins un mode de codage courant MCc (respectivement décodage MDc) de l’ensemble de pixels courant B_c.

En référence à nouveau à la figure 1, un tel procédé de détermination selon l’invention comprend ce qui suit :

En P1, pour au moins un pixel courant p_c (1<c£N) de l’ensemble de pixels courant B_c, il est procédé à une analyse dudit au moins un ensemble de pixels de référence BRo. Une telle étape comprend notamment l’analyse de la position de BRo, son déplacement d’une image de référence à l’autre, si des zones d’occlusions sont générées lors du déplacement de BRo, etc...

En P2, sur la base de l’analyse de BRo, un mode de codage MCc, respectivement décodage MD_C, est sélectionné parmi au moins deux modes de codage MCi, MC2, respectivement décodage MD1, MD2, considérés.

Le mode MC1, respectivement MD1, est par exemple le mode Inter. Le mode MC2, respectivement MD2, est par exemple le mode Intra. A titre d’alternative, le mode MC1, respectivement MD1, est par exemple le mode Inter et le mode MC2, respectivement MD2, est par exemple le mode Skip.

A l’issue de l’étape P2, un mode de codage MCc, respectivement décodage MD_C, est déterminé pour ledit au moins un pixel courant p_c.

Les étapes P1 à P2 sont ensuite itérées pour chacun des N pixels de l’ensemble de pixels courant B_c.

Bien entendu, plus de deux modes de codage, respectivement décodage, peuvent être considérés dans le procédé de détermination qui vient d’être décrit. Par exemple, les trois modes de codage ou de décodage suivants peuvent être considérés lors de la détermination : - le mode MC1/MD1 est Inter,

- le mode MC2/MD2 est Intra,

- le mode MC3/MD3 est Skip.

En variante de l’étape P2, au moins deux modes de codage/décodage peuvent être déterminés en combinaison pour coder/décoder ledit au moins un pixel courant p_c. Par exemple, une combinaison des modes MCi/MDi=lnter et MC2/MD2=lntra peut être déterminée pour coder/décoder B_c. Selon un autre exemple, une combinaison des modes MCi/MDi=lnter et MC3/MD3=Skip peut être déterminée pour coder/décoder B_c.

Exemples de mise en œuvre de dispositif de détermination d’au moins un mode de codage ou de décodage

La figure 3A présente un dispositif DMOD1 de détermination d’au moins un mode de codage ou de décodage adapté pour mettre en œuvre le procédé de détermination illustré en figure 1 , selon un premier mode de réalisation de l'invention.

Selon ce premier mode de réalisation, les actions exécutées par le procédé de détermination sont mises en œuvre par des instructions de programme d'ordinateur. Pour cela, le dispositif de prédiction DMOD1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_DM1 , une unité de traitement UT_DM1 , équipée par exemple d'un processeur PROC_DM1, et pilotée par le programme d'ordinateur PG_DM1 stocké en mémoire MEM_DM1. Le programme d'ordinateur PG_DM1 comprend des instructions pour mettre en œuvre les actions du procédé de détermination tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC_DM1.

A l'initialisation, les instructions de code du programme d'ordinateur PG_DM1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_DM1. Le processeur PROC_DM1 de l'unité de traitement UT_DM1 met notamment en œuvre les actions du procédé de détermination décrit ci-dessus, selon les instructions du programme d'ordinateur PG_DM1 .

Le dispositif de détermination reçoit en entrée E_DM1 un ou plusieurs ensembles de pixels de référence BRo, BRi,..., évalue différents modes disponibles de codage MC1, MC2, respectivement décodage MD1, MD2, et délivre en sortie S_DM1 le mode de codage MCc ou de décodage MD_C à utiliser pour respectivement coder ou décoder l’ensemble de pixels courant B_c.

La figure 3B présente un dispositif DMOD2 de détermination d’au moins un mode de codage ou de décodage adapté pour mettre en œuvre le procédé de détermination illustré en figure 1, selon un deuxième mode de réalisation de l'invention.

Selon ce deuxième mode de réalisation, le dispositif de détermination DMOD2 est un réseau neuronal, tel que par exemple un réseau neuronal convolutif, un perceptron multicouche, un LSTM (pour « Long Short Term Memory » en anglais), etc..., noté RNC1 qui, à partir d’un ou plusieurs ensembles de pixels de référence BRo, BRi,...reçu(s) en entrée, met en œuvre conjointement les étapes P1 à P2 du procédé de détermination de la figure 1 , pour délivrer en sortie le mode de codage MCc ou de décodage MD_C de chaque pixel de l’ensemble de pixels courant B_c.

De façon connue en soi, le réseau neuronal convolutif RNC1 réalise une succession de couches d’opérations de filtrage, de non linéarité et de changement d’échelles. Chaque filtre employé est paramétré par un noyau de convolution et les non linéarités sont paramétrées (ReLU, leaky ReLU, GDN (de l’anglais « generalized divisive normalization »), ...). Le réseau neuronal RNC1 est par exemple du type décrit dans le document D. Sun, et al., « PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume » CVPR 2018.

Dans ce cas, le réseau neuronal RNC1 peut être appris de la manière représentée à la figure 4.

A cet effet, le réseau neuronal RNC1 peut être appris :

- à estimer éventuellement un ou plusieurs vecteurs de déplacement Vo, Vi,... pour interpoler des mouvements depuis respectivement BRo, BRi,... vers l’ensemble de pixels courant B_c en cours de codage ou de décodage, pour obtenir un ensemble de pixels de prédiction BP_C ;

- à estimer le mode de codage MCc, respectivement décodage MD_C, parmi au moins deux modes de codage, respectivement de décodage.

Le mode de codage MCc, respectivement décodage MD_C, prend au moins deux valeurs 0 ou 1 qui sont par exemple représentatives respectivement :

- du mode Inter et du mode Skip,

- du mode Intra et du mode Skip,

- du mode Inter et du mode Intra, - etc.

Dans une phase préalable, le réseau RNC1 est entraîné pour réaliser les opérations P1 à P2 de la figure 1. Par exemple, on apprend au réseau RNC1 à minimiser l’erreur quadratique moyenne entre l’ensemble de pixels courant B_c à coder et un ensemble de pixels BSc obtenu après application d’au moins un mode de codage MCc (respectivement de décodage MD_C) sélectionné :

- entre l’ensemble de pixels de prédiction courant BP_C obtenu par compensation de mouvement, équivalent à un mode Skip,

- et l’ensemble de pixels courant reconstruit BD_C qui a été obtenu ou pas à l’aide de l’ensemble de pixels de prédiction courant BP_C et d’un signal résiduel, caractéristique de l’écart entre la valeur des pixels courants de B_c et celle des pixels de l’ensemble de pixels de prédiction courant BP_C, ce signal résiduel étant quantifié par un paramètre de quantification QP, puis codé.

L’entrainement du réseau RNC1 est réalisé pendant une phase d’entrainement en présentant une pluralité d’ensembles de pixels de référence BRo, BRi,... associés conjointement à un ensemble de pixels courant B_c, et en changeant, par exemple par un algorithme de descente du gradient, les poids du réseau pour minimiser l’erreur quadratique entre les pixels de B_c et le résultat BSc dépendant de la sélection de mode de codage MCc (respectivement décodage MD_C).

A l’issue de cette phase préalable d’entrainement, le réseau RNC1 est figé et adapté pour être utilisé dans le dispositif de détermination de mode DMOD2.

Mode de réalisation d’un procédé de détermination d’au moins un mode de codage/décodage mis en œuvre par le dispositif de détermination DEMOD1 On décrit maintenant, en relation avec la figure 6 et les figures 5A à 5E, un mode de réalisation, dans lequel une détermination d’au moins un mode de codage ou de décodage d’un ensemble de pixels courant est mise en œuvre dans le dispositif de détermination DEMOD1 de la figure 3A.

Dans l’exemple représenté, deux ensembles de pixels de référence BRo et BRi sont pris en compte pour la détermination d’au moins un mode de codage ou de décodage.

A cet effet, comme illustré sur la figure 6, l’analyse P1 d’au moins un ensemble de pixels de référence comprend ce qui suit :

En P10, est calculée une estimation de mouvement entre BRo et BRi. Une telle étape est effectuée par des étapes classiques de recherche de mouvement, comme par exemple une estimation de vecteurs de déplacement.

Les figures 5A à 5C représentent respectivement trois exemples différents de déplacement d’une version prédite BP_C de l’ensemble de pixels courant B_c par rapport à deux ensembles de pixels de référence BRo et BRi, qui peuvent être rencontrés lors de cette étape P10. Dans l’exemple des figures 5A à 5C, le déplacement d’un élément E (symbolisé par un cercle) entre les ensembles de pixels de référence BRo et BRi est représenté par un champ de vecteurs de mouvement. Dans un souci de simplification, un seul vecteur, noté V01 et en pointillé sur les figures 5A à 5C, est représenté pour décrire, dans l’exemple représenté, le mouvement de l’élément E depuis BRo vers BRi (le mouvement sur les autres portions de l’image étant considéré nul). Mais il va de soi qu’il y a autant de vecteurs de mouvement que de pixels représentant les ensembles de pixels de référence BRo vers BRi comme par exemple dans le cas d’une estimation de mouvement par flot optique. Selon un autre exemple non représenté sur les figures 5A à 5C, un vecteur V10, décrivant le mouvement (opposé) depuis BRi vers BRo, pourrait être calculé.

Le vecteur V01 ou V10 ayant été obtenu en P10, il est procédé en P11 (figure 6) à l’estimation du déplacement de l’ensemble de pixels courant B_c à prédire par rapport à BRo et BRi. Cette estimation est illustrée sur les figures 5A à 5C où le déplacement de l’élément E est estimé à un autre instant temporel que celui auquel sont situés BRo et BRi, qui est l’instant auquel est situé l’ensemble de pixels courant B_c. En utilisant les mêmes conventions que pour le calcul de V01 ou Vio :

- un seul vecteur Vo, qui décrit le mouvement depuis BRo vers la position prédite de Bc est calculé à partir du vecteur V01,

- un seul vecteur Vi qui décrit le mouvement depuis BRi vers la position prédite de B_c est calculé à partir du vecteur V01.

Dans l’exemple de la figure 5A, où l’ensemble de pixels courant B_c est situé temporellement à mi-chemin de BRo et de BRi, alors le déplacement de l’élément E à l’instant courant est estimé comme correspondant à la moitié du déplacement entre BRo et BRi, c’est-à-dire la moitié du vecteur V01 ou Vio. Une telle configuration de déplacement est rencontrée dans le cas où par exemple, en reprenant les mêmes notations que sur la figure 2B, BRo appartient à l’image de référence IRM et BRi appartient à l’image de référence IRi_+i. Dans l’exemple de la figure 5B, où l’ensemble de pixels courant B_c est situé temporellement plus près de BRo que de BRi, alors le déplacement de l’élément E à l’instant courant est estimé comme étant plus court que la moitié du déplacement entre BRo et BRi. Par exemple, si BRo appartient à l’image de référence IRM et BRi appartient à l’image de référence IRÎ+2, alors le déplacement de l’élément E à l’instant courant est estimé comme correspondant au tiers du déplacement entre BRo et BRi, c’est-à-dire le tiers du vecteur V01 ou V10.

Dans l’exemple de la figure 5C, où l’ensemble de pixels courant B_c est situé temporellement après BRo puis BRi, BRo appartenant à l’image de référence IRi-2 et BRi appartenant à l’image de référence IRi-2, alors le déplacement de l’élément E à l’instant courant est estimé comme le double du déplacement entre BRo et BRi, c’est-à-dire le double du vecteur V01 ou V10.

En référence aux figures 6 et 5D, en P12, BRo et BRi sont chacun compensés en mouvement à l’aide des vecteurs Vo et Vi, pour créer respectivement deux versions prédites de B_c, notées BRCo et BRCi.

A titre d’illustration sur la figure 5D, on considère que les vecteurs Vo et Vi ont été obtenus par exemple conformément à la configuration de mouvement représentée sur la figure 5A, pour laquelle le déplacement de l’élément E à l’instant courant est estimé comme correspondant à la moitié du déplacement entre BRo et BRi, c’est-à- dire la moitié du vecteur V01 ou V10.

La figure 5D représente :

- un ensemble de pixels compensé en mouvement à droite BRCo, sur lequel la position interpolée de l’élément E comprend un ensemble de pixels ERCo résultant de la compensation en mouvement de l’élément E de BRo, par le vecteur Vo,

- un ensemble de pixels compensé en mouvement à gauche BRCi, sur lequel la position interpolée de l’élément E comprend un ensemble de pixels ERCi résultant de la compensation en mouvement de l’élément E de BRi, par le vecteur Vi.

En revanche, une partie Zo de ERCo et une partie Zi de ERCi sont indéfinies car correspondant au contenu non connu qui est situé derrière l’élément E de BRo et l’élément E de BRi. Toutefois, comme visible sur la figure 5D, la partie Zo est définie dans ERCi et la partie Zi est définie dans ERCo.

En référence à la figure 6 et à la figure 5E, est décrite la sélection P2 d’un des au moins deux modes de codage MCi, MC2 ou de décodage MD1, MD2 pour chaque pixel de l’ensemble de pixels courant B_c. Sur la figure 5E est représentée une position prédite de l’ensemble de pixels courant B_c, dans laquelle est représentée une position prédite de l’élément E et les parties non définies Zo et Zi.

Les pixels situés à la position (x,y) de Zo et Zi n’étant pas connus, ils sont associés en P20 à un premier mode de codage MCi(x,y)=lnter, respectivement décodage MDi(x,y)=lnter.

Les pixels situés à la position (x,y) prédite de l’élément E et à la position (x,y) prédite de l’arrière-plan AP (représenté par des hachures) sont connus, en ce sens que ces pixels sont cohérents avec les pixels de l’élément E et de l’arrière-plan AP dans chacun des ensembles de pixels de référence BRo et BRi. A cet effet, en P20, ces pixels sont associés à un deuxième mode de codage MC2(x,y)=Skip, par exemple, respectivement décodage MD2(x,y)=Skip.

En P21, le premier mode de codage MCi(x,y)=lnter, respectivement décodage MDi(x,y)=lnter, prend une valeur arbitraire, par exemple 1 , tandis que le deuxième mode de codage MC2(x,y)=Skip, respectivement décodage MD2(x,y)=Skip, prend une valeur arbitraire distincte de celle de MCi(x,y)/MDi(x,y), par exemple 0.

A l’issue de l’étape P21 , est déterminé un mode de codage MCc, respectivement de décodage MD_C, qui prend deux valeurs différentes 0 ou 1 , selon les pixels considérés dans l’ensemble de pixels courant B_c.

A titre de variante :

- les pixels situés à la position de Zo et Zi sont associés en P20 à un premier mode de codage MCi(x,y)=lntra, respectivement décodage MDi(x,y)=lntra,

- les pixels situés à la position prédite de l’élément E sont associés en P20 à un deuxième mode de codage MC2(x,y)=lnter, respectivement décodage MD2(x,y)=lnter,

- les pixels situés dans l’arrière-plan AP sont associés en P20 à un troisième mode de codage MC3(x,y)=Skip, respectivement décodage MD3(x,y)=Skip.

En P21 :

- le premier mode de codage MCi(x,y)=lntra, respectivement décodage MDi(x,y)=lntra, prend une valeur arbitraire, par exemple 1 ,

- le deuxième mode de codage MC2(x,y)=lnter, respectivement décodage MD2(x,y)=lnter, prend une valeur arbitraire distincte de celle de MCi(x,y)/MDi(x,y), par exemple 0, - le troisième mode de codage MC3(x,y)=Skip, respectivement décodage MD3(x,y)=Skip, prend une valeur arbitraire distincte de celle de MCi(x,y)/MDi(x,y) et de MC2(x,y)/MD2(x,y), par exemple 2.

A l’issue de l’étape P21 , est déterminé un mode de codage MCc, respectivement de décodage MD_C, qui prend trois valeurs différentes 0, 1 ou 2, selon les pixels considérés dans l’ensemble de pixels courant B_c.

Procédé de codage d’image Principe général

On décrit ci-après, en référence à la figure 7, un procédé de codage d’image mettant en œuvre la détermination d’au moins un mode de codage MCc qui a été décrite en référence à la figure 1.

Un tel procédé de codage comprend ce qui suit :

En C1, la détermination d’au moins un mode de codage MCc, dans ses étapes P1 à P2 illustrées en figure 1 , est mise en œuvre, générant un mode de codage courant MCc pour chacun des N pixels de l’ensemble de pixels courant B_c.

En C2, il est testé quel mode de codage a été associé à quel sous-ensemble de pixels SEi, SE2, SE3, ...de B_c.

En C20, il est testé si le mode de codage MCc=lntra a été déterminé pour coder B_c.

Si la réponse est positive (O sur la figure 7), en C30 un sous-ensemble de pixels SE1 est codé en Intra. A l’issue de cette étape, un sous-ensemble de pixels résiduels codé SERi^cod est généré, accompagné classiquement de l’indice du mode Intra utilisé.

Si la réponse est négative (N sur la figure 7), en C21 , il est testé si le mode de codage MCc=lnter a été déterminé pour coder B_c.

Si la réponse est positive (O sur la figure 7), en C31 un sous-ensemble de pixels SE2 est codé en Inter. A l’issue de cette étape, un sous-ensemble de pixels résiduels codé SER2^C0d est généré, ainsi qu’un vecteur de mouvement V2^cod qui a été utilisé lors de ce codage en Inter.

Si la réponse est négative (N sur la figure 7), en C22, il est testé si le mode de codage MCc=Skip a été déterminé pour coder B_c.

Si la réponse est positive (O sur la figure 7), en C32 un sous-ensemble de pixels SE3 est codé en Skip. A l’issue de cette étape, un vecteur de mouvement codé V3^cod est généré. Aucun résidu n’est calculé et codé pour ce mode. Dans un premier mode de réalisation, V3^cod= V2^cod. Dans un deuxième mode de réalisation, V3^cod ¹ V2^cod.

Si la réponse est négative (N sur la figure 7), il est déterminé si un autre mode de codage MCc a été déterminé pour coder B_c et ainsi de suite jusqu’à ce que tous les pixels de B_c soient affectés d’un mode de codage MCc.

En C4, les vecteurs de mouvement codés V2^cod et V3^cod ou uniquement V3^cod dans le cas où V3^cod= V2^cod, ainsi que les données des sous-ensembles de pixels résiduels codés SERi^cod et SER2^C0d, sont inscrits dans un flux de transport F apte à être transmis à un décodeur qui sera décrit ultérieurement dans la description. Ces données inscrites correspondent à l’ensemble de pixels courant B_c codé, noté B_c ^cod. Conformément à l’invention, le/les mode(s) de codage en tant que tels ne sont avantageusement ni codés, ni transmis au décodeur.

Le sous-ensemble de pixels SEi (respectivement SE2, SE3) peut correspondre à au moins un pixel de B_c, à au moins une zone de pixels de B_c, ou à B_c dans son entièreté.

Les codages Intra, Inter et ou Skip mis en œuvre sont classiques et conformes à un codage de type AVC, HEVC, WC ou similaire.

Le codage qui vient d’être décrit peut bien entendu appliquer à B_c un seul mode de codage parmi les trois cités, ou seulement deux modes de codage différents, ou encore trois modes de codage différents ou plus.

Exemples de mise en œuvre de codeur

La figure 8A présente un codeur COD1 adapté pour mettre en œuvre le procédé de codage illustré en figure 7, selon un premier mode de réalisation de l'invention. Le codeur COD1 comprend le dispositif de détermination DEMOD1 .

Selon ce premier mode de réalisation, les actions exécutées par le procédé de codage sont mises en œuvre par des instructions de programme d'ordinateur. Pour cela, le dispositif de codage COD1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_C1 , une unité de traitement UT_C1 , équipée par exemple d'un processeur PROC_C1 , et pilotée par le programme d'ordinateur PG_C1 stocké en mémoire MEM_C1. Le programme d'ordinateur PG_C1 comprend des instructions pour mettre en œuvre les actions du procédé de codage tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC C1. A l'initialisation, les instructions de code du programme d'ordinateur PG_C1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_C1. Le processeur PROC_C1 de l'unité de traitement UT_C1 met notamment en œuvre les actions du procédé de codage décrit ci-dessus, selon les instructions du programme d'ordinateur PG_C1.

Le codeur COD1 reçoit en entrée E_C1 un ensemble de pixels courant B_c et délivre en sortie S_C1 le flux de transport F qui est transmis à un décodeur à l’aide d’une interface de communication adaptée (non représentée).

La figure 8B présente un codeur COD2 adapté pour mettre en œuvre le procédé de codage illustré en figure 7, selon un deuxième mode de réalisation de l'invention. Le codeur COD2 comprend le dispositif de détermination DEMOD2 précité suivi d’un réseau neuronal convolutif RNC2 qui code l’ensemble de pixels courant B_c conjointement avec le et/ou les modes de codage MCc déterminé par le dispositif de détermination DEMOD2. Un tel réseau RNC2 est par exemple du type décrit dans le document : Lad une « Optical Flow and Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020.

Procédé de décodage d’image Principe général

On décrit ci-après, en référence à la figure 9, un procédé de décodage d’image mettant en œuvre la détermination d’au moins un mode de décodage MD_C, telle que décrite en référence à la figure 1.

Un tel procédé de décodage met en œuvre un décodage d’image correspondant au codage d’image de la figure 7. En particulier, mise à part la détermination dudit au moins un mode de décodage MD_C, le procédé de décodage met en œuvre des étapes de décodage classiques qui sont conformes à un décodage de type AVC, HEVC, VVC ou similaire.

Le procédé de décodage comprend ce qui suit :

En D1, il est procédé classiquement à une extraction du flux de transport F reçu des données codées associées à B_c qui sont, dans l’exemple représenté :

- le sous-ensemble de pixels résiduel codé SERi^cod et son indice de mode Intra si c’est le codage Intra C30 de la figure 7 qui a été mis en œuvre, - le sous-ensemble de pixels résiduel codé SER2^C0d et éventuellement le vecteur de mouvement codé V2^cod dans le cas où V2^cod ¹ V3^cod, si c’est le codage Inter C31 de la figure 7 qui a été mis en œuvre,

- le vecteur de mouvement codé V3^cod, si c’est le codage Skip C32 de la figure 7 qui a été mis en œuvre.

Ces données correspondent à l’ensemble de pixels courant codé B_c ^cod.

En D2, la détermination d’au moins un mode de décodage MD_C, dans ses étapes P1 à P2 illustrées en figure 1 , est mise en œuvre, générant un mode de décodage courant MD_C pour chacun des N pixels de l’ensemble de pixels courant codé B_c ^cod.

En D3, il est testé quel mode de décodage a été associé à quel sous-ensemble de pixels codé SEi^cod, SE2^C0d, SE3^C0d, ..., de B_c.

En D30, il est testé si le mode de décodage MD_c=lntra a été déterminé pour décoder

B_c ^cod.

Si la réponse est positive (O sur la figure 9), en D40, un sous-ensemble de pixels SEi est décodé en Intra. A l’issue de cette étape, un sous-ensemble de pixels décodé SEi^dec est généré.

Si la réponse est négative (N sur la figure 9), en D31 , il est testé si le mode de décodage MD_c=lnter a été déterminé pour décoder B_c ^cod.

Si la réponse est positive (O sur la figure 9), en D41 , un sous-ensemble de pixels SE₂ est décodé en Inter à l’aide, si V2^cod ¹ V3^cod, d’un vecteur de mouvement V2^dec issu du décodage de V2^cod et, si V2^cod = V3^cod, à l’aide d’un vecteur de mouvement V3^dec issu du décodage de V3^cod. A l’issue de cette étape, un sous-ensemble de pixels décodé SE2^dec est généré.

Si la réponse est négative (N sur la figure 9), en D32, il est testé si le mode de décodage MD_c=Skip a été déterminé pour décoder B_c ^cod.

Si la réponse est positive (O sur la figure 9), en D42, un sous-ensemble de pixels SEs est décodé en Skip. A l’issue de cette étape, un sous-ensemble de pixels décodé SE3^dec est généré à l’aide du vecteur de mouvement décodé V3^dec.

Si la réponse est négative (N sur la figure 9), il est déterminé si un autre mode de décodage MD_C a été déterminé pour décoder B_c et ainsi de suite jusqu’à ce que tous les pixels codés de B_c soient affectés d’un mode de décodage MD_C. En D5, les sous-ensembles de pixels décodés SEi^dec, SE2^dec, SE3^dec sont concaténés. A l’issue de l’étape D5, un ensemble de pixels courant reconstruit B_c ^dec est généré.

Conformément à l’invention, le/les mode(s) de décodage en tant que tels sont avantageusement déterminés de manière autonome au décodeur.

Les décodages Intra, Inter et ou Skip mis en œuvre sont classiques et conformes à un décodage de type AVC, HEVC, WC ou similaire.

Le décodage qui vient d’être décrit peut bien entendu appliquer pour un ensemble de pixels codé considéré, ici B_c ^cod, un seul mode de décodage parmi les trois cités, ou seulement deux modes de décodage différents, ou encore trois modes de décodage différents ou plus. L’application d’un ou de plusieurs modes de décodage peut varier d’un ensemble de pixels codé considéré à l’autre.

De façon connue en soi, l’ensemble de pixels courant reconstruit B_c ^dec pourra éventuellement subir un filtrage par un filtre de boucle qui est bien connu de l’homme du métier.

Exemples de mise en œuvre de décodeur

La figure 10A présente un décodeur DEC1 adapté pour mettre en œuvre le procédé de décodage illustré en figure 9, selon un premier mode de réalisation de l'invention. Le décodeur DEC1 comprend le dispositif de détermination DEMOD1.

Selon ce premier mode de réalisation, les actions exécutées par le procédé de décodage sont mises en œuvre par des instructions de programme d'ordinateur.

Pour cela, le décodeur DEC1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_D1 , une unité de traitement UT_D1 , équipée par exemple d'un processeur PROC_D1 , et pilotée par le programme d'ordinateur PG_D1 stocké en mémoire MEM_D1. Le programme d'ordinateur PG_D1 comprend des instructions pour mettre en œuvre les actions du procédé de décodage tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC_D1.

A l'initialisation, les instructions de code du programme d'ordinateur PG_D1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_D1. Le processeur PROC_D1 de l'unité de traitement UT_D1 met notamment en œuvre les actions du procédé de décodage décrit ci- dessus en liaison avec la figure 9, selon les instructions du programme d'ordinateur PG D1. Le décodeur DEC1 reçoit en entrée E_D1 le flux de transport F transmis par le codeur COD1 de la figure 8A et délivre en sortie S_D1 l’ensemble de pixels décodé courant B_c ^dec.

La figure 10B présente un décodeur DEC2 adapté pour mettre en œuvre le procédé de décodage illustré en figure 9, selon un deuxième mode de réalisation de l'invention. Le décodeur DEC2 comprend le dispositif de détermination DEMOD2 précité suivi d’un réseau neuronal convolutif RNC3 qui par exemple décode l’ensemble de pixels codé courant B_c ^cod conjointement avec le mode de décodage MDc généré par le dispositif de détermination DEMOD2. Un tel réseau RNC3 est par exemple du type décrit dans le document : Ladune « Optical Flowand Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020.

Variante du procédé de détermination d’au moins un mode de codage ou de décodage

On décrit à présent, en référence aux figures 11 et 12, une variante du procédé de détermination d’au moins un mode de codage, tel qu’illustré en figure 1 . Une telle variante est mise en œuvre dans un codeur COD3.

Une telle variante vient améliorer la détermination d’au moins un mode de codage ou de décodage de la figure 1 , lorsque la précision/qualité du mode de codage ou de décodage obtenu n’est pas satisfaisante.

A cet effet, côté codeur, comme illustré sur la figure 11 , il est procédé en C’1 à une analyse dudit moins un ensemble de pixels de référence BRo de façon conjointe avec l’ensemble de pixels courant B_c. Par exemple deux ensembles de pixels de référence BRo et BRi sont analysés conjointement avec B_c. Dans l’exemple représenté, BRo est situé temporellement avant B_c et BRi est situé temporellement après B_c.

Comme représenté en figure 12, l’analyse C’1 est mise en œuvre à l’aide d’un réseau neuronal convolutif RNC4 qui, à partir des deux ensembles de pixels de référence BRo et BRi et de l’ensemble de pixels courant B_c, crée une transformation au travers d’un certain nombre de couches, telles que par exemple des couches implémentant des filtres convolutifs (CNN) suivies de couches implémentant des non-linéarités et des décimations, comme décrit dans le document: Ladune « Optical Flowand Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020.

A l’issue de l’étape C’1 , un ensemble de variables latentes est obtenu sous forme d’un signal U’. Le signal U’ est quantifié en C’2 par un quantificateur QUANT 1 , par exemple uniforme ou vectoriel, réglé par un paramètre de quantification. Un signal quantifié U’q est alors obtenu.

En C’3, le signal quantifié U’q est codé à l’aide d’un codeur entropique CE1 , par exemple de type arithmétique, avec une statistique déterminée. Cette statistique est par exemple paramétrée par des probabilités de statistiques, par exemple en modélisant la variance et la moyenne d’une loi laplacienne (s,m), ou bien en considérant des hyperpriors comme dans la publication : « Variational image compression with a scale hyperprior» par Ballé qui a été présentée à la conférence ICLR 2018. Un signal quantifié codé U’_q ^cod est alors obtenu.

En C’4, le signal quantifié codé U’_q ^cod est inscrit dans un flux de transport F’ qui est transmis à un décodeur DEC3 illustré sur la figure 14.

Dans l’exemple représenté, les données contenues dans le signal quantifié codé U’_q ^cod sont représentatives d’informations associées à un mode de codage MCc tel que déterminé comme décrit plus haut en référence à la figure 1. Dans le mode de réalisation décrit ici, MCc est mis à 0 pour indiquer l’utilisation du mode de codage Skip et est mis à 1 pour indiquer l’utilisation du mode de codage Inter.

A cet effet, le réseau RNC4 a été appris pour offrir un continuum de pondération entre les valeurs 0 et 1 de MCc.

Lors du codage, le codeur COD3 réalise en C’10 une prédiction de l’ensemble de pixels Bc à coder en réalisant une compensation de mouvement qui utilise des ensembles de pixels de référence BRo, BRi et des vecteurs mouvements Vo, Vi. Les vecteurs Vo, Vi peuvent être issus du réseau de neurone « MOFNEt » tel que décrit dans la publication de Ladune « Optical Flow and Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020. On obtient une prédiction de B_c, nommée BP_c(x,y). La prédiction C’10 est mise en œuvre à l’aide d’un réseau de neurones RNC41 .

En C’11 , Bc et BP_c{x,y ) sont multipliés pixel à pixel par la valeur de mode M_c(x,y) comprise entre 0 et 1 , à l’aide d’un multiplicateur MU1 illustré en figure 12. A l’issue de cette opération est obtenu un signal U” représentatif de ces deux entrées pondérées après passage de celles-ci, en C’12, dans un réseau de neurones RNC42. En C’13, le signal U” est quantifié par un quantificateur QUANT2, générant un signal quantifié U”_q. Ce dernier est ensuite codé en C’14 par un codeur entropique CE2, générant un signal quantifié codé U”_q ^cod. Les étapes C’13 et C’14 sont mises en œuvre dans un codeur basé sur des réseaux de neurones conformément à la référence précitée, afin de générer le signal quantifié codé U”_q ^cod. En C’15, le signal quantifié codé U”_q ^cod est inscrit dans un flux de transport F” qui est transmis à un décodeur DEC3 illustré en figure 14.

On décrit à présent, en référence aux figures 13 et 14, une variante du procédé de détermination de mode de décodage illustré en figure 1 , telle que mise en œuvre dans un décodeur DEC3.

A cet effet, côté décodeur, comme illustré sur la figure 13, il est procédé en D’1 à une analyse d’au moins un ensemble de pixels de référence BRo, deux ensembles de pixels de référence BRo et BRi dans l’exemple représenté. Une telle analyse est identique à celle effectuée à l’étape P1 de la figure 1 , à l’aide du réseau de neurones RNC1 . A l’issue de cette étape, est obtenu un espace latent U représentatif de Vo, Vi,..., MDc, .

Suite à la réception du flux F’, il est procédé en D’2 au décodage entropique du signal quantifié codé U’_q ^cod à l’aide d’un décodeur entropique DE1 correspondant au codeur entropique CE1 de la figure 12, avec la même statistique déterminée, telle que la modélisation de la variance et de la moyenne d’une loi laplacienne (s,m). Un signal quantifié décodé U’_q est obtenu à l’issue de cette opération.

En D’3, le signal quantifié décodé U’_q est concaténé avec l’espace latent U obtenu par le réseau de neurones RNC1 de la figure 14 et représentatif de l’analyse de uniquement les ensembles de pixels de référence BRo et BRi.

Le réseau de neurones RNC1 traite ensuite en D’4 cette concaténation au travers de différentes couches, de la même façon qu’à l’étape P2 de la figure 1 , pour estimer les informations de mouvement Vo, Vi,..., ainsi que les valeurs dans le continuum 0 à 1 du mode de décodage MD_C à appliquer à l’ensemble de pixels courant codé B_c ^cod à reconstruire.

Dans le mode de réalisation décrit ici et conformément au mode de codage MCc déterminé et utilisé dans le procédé de codage de la figure 11 , MD_C est mis à 0 pour indiquer l’utilisation du mode de décodage Skip et est mis à 1 pour indiquer l’utilisation du mode de décodage Inter.

Un réseau de neurones RNC5 du type précité reçoit en entrée ces informations pour reconstruire l’ensemble de pixels courant, afin de générer un ensemble de pixels reconstruit B_c ^dec. Un tel réseau RNC5 est par exemple du type décrit dans le document : Lad une « Optical Flow and Mode Sélection for Learning-based Video Coding », IEEE MMSP 2020. A cet effet, le réseau neuronal RNC5 comprend un réseau neuronal RNC50 qui calcule en D’5 un ensemble de pixels de prédiction courant BP_c(x,y) à partir des informations de mouvement Vo, Vi,... délivrées par le réseau RNC1 et à partir des ensembles de pixels de référence BRo, BRi,....

En D’6, BP_c(x,y) est multiplié pixel à pixel par (1-MD_c(x,y)) dans un multiplicateur MU2 illustré en figure 14. A l’issue de cette opération est obtenu un signal SIGi qui est représentatif des pixels de B_c qui ont été décodés dans le mode de décodage MD_c=Skip.

En D’7, BP_c(x,y) est multiplié pixel à pixel par MD_c(x,y) dans un multiplicateur MU3 illustré en figure 14.

Toujours en référence aux figures 13 et 14, le réseau neuronal RNC5 comprend également un réseau neuronal RNC51 qui, suite à la réception du flux F” généré par le codeur COD3 en C’14 (cf figures 11 et 12), décode entropiquement en D’8 le signal quantifié codé U”_q ^cod qui correspond au résidu pixellique issu de la prédiction pondérée par le mode de codage MCc, telle que mise en œuvre par le codeur COD3 de la figure 12. Un tel décodage utilise le résultat de la multiplication mise en œuvre en D’7.

A l’issue de l’étape D’8, est généré un signal SIG2 qui est représentatif des pixels de Bc qui ont été décodés dans le mode de décodage MD_c=lnter.

En D’9, les signaux SIG1 et SIG2 sont additionnés dans un additionneur AD, générant l’ensemble de pixels courant reconstruit B_c ^dec qui contient les pixels reconstruits de B_c dans son entièreté.

Ainsi si MD_c(x,y) est proche de zéro, alors la prédiction BP_c(x,y ) sera prépondérante. A contrario si MD_c(x,y) est proche de 1 alors le signal reconstruit B_c ^dec sera constitué par utilisation du signal d’écart SIG2 véhiculé en complément de BP_c(x,y).

Dans les modes de réalisation qui ont été exposés plus haut en référence aux figures 3A et suivantes, deux ensembles de pixels de référence BRo, BR1 sont utilisés dans le procédé de détermination d’au moins un mode de codage.

Ces modes de réalisation peuvent être étendus à trois ou plus ensembles de pixels de référence. A cet effet, le réseau neuronal RNC1 décrit en référence à la figure 3B sera appris à partir de trois ensembles de pixels de référence BRo, BRi, BR2 ou plus, pour obtenir le mode de codage MCcOu de décodage MD_C.

Claims

REVENDICATIONS

[Revendication 1] Procédé de détermination d’au moins un mode de codage (MCc), respectivement décodage (MD_C), parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant, ledit procédé étant caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé (P2) à partir d’une analyse (P1) d’au moins un ensemble de pixels de référence (BRo) appartenant à une image de référence déjà décodée.

[Revendication 2] Procédé de détermination selon la revendication 1, dans lequel l’analyse d’au moins un ensemble de pixels de référence (BRo ; BRo, BRi) met en œuvre une estimation de mouvement ou un filtrage dudit au moins un ensemble de pixels de référence.

[Revendication 3] Procédé de détermination selon la revendication 2, dans lequel l’estimation de mouvement est du type par flot optique.

[Revendication 4] Procédé de détermination selon la revendication 1, dans lequel un seul mode parmi lesdits au moins deux modes est déterminé pour au moins un pixel de l’ensemble de pixels courant, la détermination de l’un ou l’autre mode variant dudit au moins un pixel à au moins un autre pixel dudit ensemble.

[Revendication 5] Procédé de détermination selon la revendication 1, dans lequel les au moins deux modes sont déterminés en combinaison pour au moins un pixel de l’ensemble de pixels courant.

[Revendication 6] Procédé de détermination selon l’une quelconque des revendications 1 à 5, dans lequel la détermination dudit au moins un mode est modifiée par un paramètre de modification (U’q) qui est issu d’une analyse conjointe de l’ensemble de pixels courant et d’au moins un ensemble de pixels de référence.

[Revendication 7] Dispositif (DEMOD1 ; DEMOD2) de détermination d’au moins un mode de codage, respectivement décodage, comprenant un processeur qui est configuré pour déterminer au moins un mode de codage, respectivement décodage, parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant, caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé à partir d’une analyse d’au moins un ensemble de pixels de référence appartenant à une image de référence déjà décodée.

[Revendication 8] Dispositif de détermination selon la revendication 7, caractérisé en ce qu’il utilise un réseau de neurones (DEMOD2).

[Revendication 9] Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de détermination selon l’une quelconque des revendications 1 à 6, lorsqu'il est exécuté sur un ordinateur.

[Revendication 10] Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 9.

[Revendication 11] Procédé de codage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de codage, dans lequel ledit ensemble de pixels courant est codé (C1 -C4 ; C’1 -C’15) à partir d’une détermination d’au moins un mode de codage, ledit procédé de codage étant caractérisé en ce que ledit au moins un mode de codage est déterminé conformément au procédé de détermination selon l’une quelconque des revendications 1 à 6.

[Revendication 12] Dispositif (COD1 ; COD2 ; COD3) de codage d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour coder ledit ensemble de pixels courant à partir d’une détermination d’au moins un mode de codage, ledit dispositif de codage étant caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de codage selon la revendication 7 ou la revendication 8.

[Revendication 13] Procédé de décodage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de décodage, dans lequel ledit ensemble de pixels courant est décodé (D1-D5 ; D’1-D’9) à partir d’une détermination d’au moins un mode de décodage, ledit procédé de décodage étant caractérisé en ce que ledit au moins un mode de décodage est déterminé conformément au procédé de détermination selon l’une quelconque des revendications 1 à 6.

[Revendication 14] Dispositif (DEC1 ; DEC2 ; DEC3) de décodage d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour décoder ledit ensemble de pixels courant à partir d’une détermination d’au moins un mode de décodage, ledit dispositif de décodage étant caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de décodage selon la revendication 7 ou la revendication 8.

[Revendication 15] Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de codage selon la revendication 11, ou du procédé de décodage selon la revendication 13, lorsqu'il est exécuté sur un ordinateur.

[Revendication 16] Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 15.