FR3120173A1

FR3120173A1 - Détermination d’au moins un mode de codage d’image ou d’au moins un mode de décodage d’image, codage et décodage d’image utilisant une telle détermination

Info

Publication number: FR3120173A1
Application number: FR2101633A
Authority: FR
Inventors: Pierrick Philippe; Théo LADUNE
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2022-08-26
Also published as: US20240137486A1; KR20230156318A; WO2022175626A1; US20240236296A9; JP2024510094A; CN116897534A; EP4295575A1

Abstract

Détermination d’au moins un mode de codage d’image ou d’au moins un mode de décodage d’image, codage et décodage d’image utilisant une telle détermination L’invention concerne un procédé de détermination d’au moins un mode de codage (MCc), respectivement décodage (MDc), parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant. Une telle détermination est caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé (P2) à partir d’une analyse (P1) d’au moins un ensemble de pixels de référence (BR0). Figure pour l’abrégé : Figure 1

Description

Détermination d’au moins un mode de codage d’image ou d’au moins un mode de décodage d’image, codage et décodage d’image utilisant une telle détermination

Domaine de l'invention

La présente invention se rapporte de manière générale au domaine du traitement d'images, et plus précisément au codage et au décodage d'images numériques et de séquences d'images numériques.

Le codage/décodage d’images numériques s’applique notamment à des images issues d’au moins une séquence vidéo comprenant :

- des images issues d’une même caméra et se succédant temporellement (codage/décodage de type 2D),

- des images issues de différentes caméras orientées selon des vues différentes (codage/décodage de type 3D),

- des composantes de texture et de profondeur correspondantes (codage/décodage de type 3D),

- etc…

La présente invention s’applique de manière similaire au codage/décodage d’images de type 2D ou 3D.

L’invention peut notamment, mais non exclusivement, s’appliquer au codage vidéo mis en œuvre dans les codeurs vidéo actuels AVC, HEVC, VVC et leurs extensions (MVC, 3D-AVC, MV-HEVC, 3D-HEVC, etc.), et au décodage correspondant.

Art antérieur

Les codeurs vidéo actuels (MPEG, AVC, HEVC, VVC, AV1,…) utilisent une représentation par blocs de la séquence vidéo. Les images sont découpées en blocs, lesquels sont susceptibles d’être redécoupés de façon récursive. Puis chaque bloc est codé à l’aide d’un mode de codage particulier, par exemple un mode Intra, Inter, Skip, Merge, etc. Certaines images sont codées sans référence à d’autres images passées ou futures, à l’aide d’un mode de codage tel que par exemple le mode de codage Intra, le mode de codage IBC (pour « Intra Block Copy » en anglais). D’autres images sont codées par rapport à une ou plusieurs images de référence codées-décodées, à l'aide d'une compensation en mouvement bien connue de l’homme de l’art. Ce mode de codage temporel est appelé mode de codage Inter.

Pour chaque bloc est codé un bloc résiduel, encore appelé résidu de prédiction, correspondant au bloc original diminué d’une prédiction. Dans le cas d’un mode de codage Skip, le bloc résiduel est nul.

Pour un bloc considéré à coder, plusieurs modes de codage Intra, Inter, Skip, Merge, etc. pour ce bloc sont mis en compétition à l’encodeur, dans le but de sélectionner le meilleur mode de codage, c'est-à-dire celui qui optimise le codage du bloc considéré selon un critère de performance de codage prédéterminé, par exemple le coût débit/distorsion, c’est-à-dire la mise en rapport d’une mesure de la distorsion entre l’image originale et l’image codée puis décodée par le décodeur, et le débit nécessaire à la transmission des instructions de décodage, ou encore un compromis efficacité/complexité, qui sont des critères bien connus de l'homme du métier. L’encodeur est chargé d’envoyer au décodeur les informations de codage relatives au mode de codage optimal pour permettre au décodeur de reconstituer le bloc original. De telles informations sont transmises dans un flux, typiquement sous forme d’une représentation binaire.

Plus le mode de codage choisi est précis, par exemple en termes de position pixel à pixel, plus faible sera le débit du résidu. En revanche il nécessitera plus d’informations à transmettre, notamment au niveau des contours d’une forme.

Le décodage est réalisé au décodeur à partir des informations de codage lues dans le flux, puis décodées, ainsi qu’à partir d’éléments déjà disponibles au décodeur, c’est à dire préalablement décodés.

Ces éléments déjà disponibles sont notamment :

- des éléments de l’image en cours de décodage : on parle alors de mode de décodage Intra ou IBC par exemple,

- des éléments issus d’autres images préalablement décodées : on parle alors de mode de décodage Inter.

Ces deux types de modes de codage Intra et Inter peuvent être combinés, conformément à la norme VVC (pour «Versatile Video Coding» en anglais). On parle de CIIP (pour «C ombined I nter and I ntra P rediction »en anglais).

Conformément à ces techniques de prédiction, l’encodeur doit signaler le type de mode optimal pour qu’il soit exécuté au décodeur. Cette information est véhiculée pour chaque bloc. Elle peut engendrer un grand nombre d’informations à insérer dans le flux et doit être minimisée pour limiter le débit. De ce fait, elle peut manquer de précision, notamment pour les images très texturées et présentant beaucoup de détails.

Ce manque de précision se traduit par une limitation de la qualité de l’image reconstruite pour un débit donné.

Objet et résumé de l'invention

Un des buts de l'invention est de remédier à des inconvénients de l'état de la technique précité en améliorant la détermination des modes de codage de l’art antérieur, en faveur d’une diminution du coût de signalisation des informations liées au mode de codage déterminé pour le codage d’un ensemble de pixels courant.

A cet effet, un objet de la présente invention concerne un procédé de détermination d’au moins un mode de codage, respectivement décodage, parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder au moins un ensemble de pixels courant. Un tel procédé de détermination est caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé à partir d’une analyse d’au moins un ensemble de pixels de référence.

Un tel procédé de détermination d’au moins un mode de codage (respectivement décodage) selon l’invention permet avantageusement de ne s’appuyer que sur un ou plusieurs ensembles de pixels de référence, autrement dit un ou des ensembles de pixels déjà décodés à l’instant du codage ou du décodage de l’ensemble de pixels courant, pour déterminer, parmi au moins deux modes codage (respectivement décodage) possibles le et/ou les modes de codage (respectivement décodage) à appliquer à chaque pixel de l’ensemble de pixels courant. Comme ce ou ces ensembles de pixels de référence sont disponibles au moment du codage (respectivement décodage) de l’ensemble de pixels courant, la précision de cet/ces ensemble(s) de pixels de référence est parfaitement connue pour chaque position de pixel, à l’opposé d’un codeur (respectivement décodeur) qui fonctionne par bloc dans l’art antérieur. Ainsi la détermination du ou des modes de codage (respectivement décodage) à appliquer à chaque pixel de l’ensemble de pixels courant s’en trouve améliorée car plus directe et précise spatialement que celle mise en œuvre dans l’art antérieur qui se base sur le calcul d’un critère de performance de codage par bloc.

Le mode de codage (respectivement décodage) à appliquer à l’ensemble de pixels courant est ainsi plus précis et s’adapte mieux aux propriétés locales de l’image.

Il en résulte une qualité de l’image reconstruite qui est meilleure.

Selon un mode de réalisation particulier, un seul mode de codage, respectivement décodage, parmi les au moins deux modes est déterminé pour au moins un pixel de l’ensemble de pixels courant, la détermination de l’un ou l’autre mode variant dudit au moins un pixel à au moins un autre pixel dudit ensemble.

Un tel mode de réalisation permet avantageusement de réutiliser des modes de codage ou de décodage de l’art antérieur (par exemple intra, skip, inter, etc.) avec une précision au pixel.

Selon un autre mode de réalisation particulier, les au moins deux modes de codage, respectivement décodage, sont déterminés en combinaison pour au moins un pixel de l’ensemble de pixels courant.

Un tel mode de réalisation permet avantageusement de pouvoir combiner au moins deux modes de codage (skip, intra, inter, etc.), respectivement décodage, pour coder, respectivement décoder, un même pixel. Ce mode de réalisation permet également de pouvoir passer progressivement d’un mode de codage, respectivement décodage, à l’autre sans engendrer de discontinuités assimilables à des effets de bloc.

Selon encore un autre mode de réalisation particulier, la détermination dudit au moins un mode de codage, respectivement décodage, est modifiée par un paramètre de modification qui est issu d’une analyse de l’ensemble de pixels courant.

Un tel mode de réalisation permet avantageusement d’appliquer une correction à la détermination dudit au moins un mode de codage ou de décodage, lorsque l’ensemble de pixels courant contient un élément qui n’était pas présent/prédictible dans le ou les ensembles de pixels de référence.

Les différents modes ou caractéristiques de réalisation précités peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, au procédé de détermination défini ci-dessus.

L'invention concerne également un dispositif de détermination d’au moins un mode de codage, respectivement décodage, comprenant un processeur qui est configuré pour déterminer au moins un mode de codage, respectivement décodage, parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant.

Un tel dispositif de détermination est caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé à partir d’une analyse d’au moins un ensemble de pixels de référence.

Dans un mode de réalisation particulier, le dispositif de détermination est un réseau de neurones.

L’utilisation d’un réseau de neurones permet avantageusement d’optimiser la précision de la détermination dudit au moins un mode de codage, respectivement décodage.

Un tel dispositif de détermination est notamment apte à mettre en œuvre le procédé de détermination précité.

L’invention concerne également un procédé de codage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de codage, dans lequel l’ensemble de pixels courant est codé à partir d’une détermination d’au moins un mode de codage.

Un tel procédé de codage est caractérisé en ce que ledit au moins un mode de codage est déterminé conformément au procédé de détermination selon l’invention précité.

Un tel procédé de codage est avantageux en ce sens qu’il ne nécessite pas le codage d’un ou de plusieurs indices indiquant le et/ou les modes de codage utilisé(s) pour coder l’ensemble de pixels courant. De ce fait, ce ou ces indices de modes n’ont pas besoin d’être transmis par l’encodeur à un décodeur de l’ensemble de pixels courant, ce qui permet de réduire le coût de signalisation des informations transmises entre l’encodeur et le décodeur en faveur d’une meilleure qualité de reconstruction de l’image liée à la sélection plus fine des modes de codage.

L'invention concerne également un dispositif de codage ou codeur d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour coder l’ensemble de pixels courant à partir d’une détermination d’au moins un mode de codage.

Un tel dispositif de codage est caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de codage selon l’invention précité.

Un tel dispositif de codage est notamment apte à mettre en œuvre le procédé de codage selon l’invention précité.

L’invention concerne également un procédé de décodage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de décodage, dans lequel l’ensemble de pixels courant est décodé à partir d’une détermination d’au moins un mode de décodage.

Un tel procédé de décodage est caractérisé en ce que ledit au moins un mode de décodage est déterminé conformément au procédé de détermination selon l’invention précité.

L’avantage d’un tel procédé de décodage réside dans le fait que la détermination d’au moins un mode de décodage pour décoder l’ensemble de pixels courant est mise en œuvre de manière autonome par le décodeur à partir d’un ou de plusieurs ensembles de pixels de référence disponibles, sans que le décodeur ait besoin de lire des informations particulières dans le signal de données reçu en provenance du codeur.

L'invention concerne également un dispositif de décodage ou décodeur d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour décoder l’ensemble de pixels courant à partir d’une détermination d’au moins un mode de décodage.

Un tel dispositif de décodage est caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de décodage selon l’invention précité.

Un tel dispositif de décodage est notamment apte à mettre en œuvre le procédé de décodage selon l’invention précité.

L'invention concerne encore un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de détermination selon l’invention, ainsi que du procédé de codage ou de décodage intégrant le procédé de détermination selon l'invention, selon l’un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur.

De telles instructions peuvent être stockées durablement dans un support mémoire non transitoire du dispositif de détermination mettant en œuvre le procédé de détermination précité, du codeur mettant en œuvre le procédé de codage précité, du décodeur mettant en œuvre le procédé de décodage précité.

Ce programme peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.

L’invention vise également un support d’enregistrement ou support d’informations lisible par un ordinateur, et comportant des instructions d’un programme d’ordinateur tel que mentionné ci-dessus.

Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM, un DVD-ROM, un ADN (acide désoxyribonucléique) synthétique, etc… ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.

D'autre part, le support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé de détermination, du procédé de codage ou de décodage selon l’invention précité.

D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation particuliers de l'invention, donnés à titre d’exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :

la représente les principales étapes d’un procédé de détermination d’au moins un mode de codage ou de décodage conformément à l’invention,

la représente un type d’ensemble de pixels de référence analysé dans le procédé de détermination de la , dans un premier mode de réalisation particulier de l’invention,

la représente un autre type d’ensemble de pixels de référence analysé dans le procédé de détermination de la , dans un deuxième mode de réalisation particulier de l’invention,

la représente un dispositif de détermination mettant en œuvre le procédé de détermination de la , dans un premier mode de réalisation,

la représente un dispositif de détermination mettant en œuvre le procédé de détermination de la , dans un deuxième mode de réalisation,

la représente de façon schématique une méthode d’apprentissage du dispositif de détermination de la ,

la représente un premier exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

la représente un deuxième exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

la représente un troisième exemple de déplacement d’une version prédite d’un ensemble de pixels courant par rapport à deux ensembles de pixels de référence,

la représente une compensation de mouvement mise en œuvre dans le cas du type de déplacement de la , dans un mode de réalisation particulier de l’invention,

la représente une détermination d’au moins un mode de codage, respectivement décodage, mise en œuvre à l’issue de la compensation de mouvement de la , dans un mode de réalisation particulier de l’invention,

la représente de manière plus détaillée certaines étapes du procédé de détermination mis en œuvre par le dispositif de détermination de la ,

la représente les principales étapes d’un procédé de codage d’image mettant en œuvre le procédé de détermination d’au moins un mode de codage de la , dans un mode de réalisation particulier de l’invention,

la représente un codeur mettant en œuvre le procédé de codage de la , dans un premier mode de réalisation,

la représente un codeur mettant en œuvre le procédé de codage de la , dans un deuxième mode de réalisation,

la représente les principales étapes d’un procédé de décodage d’image mettant en œuvre le procédé de détermination d’au moins un mode de décodage de la , dans un mode de réalisation particulier de l’invention,

la représente un décodeur mettant en œuvre le procédé de décodage de la , dans un premier mode de réalisation,

la représente un décodeur mettant en œuvre le procédé de décodage de la , dans un deuxième mode de réalisation,

la représente les étapes d’un procédé de codage d’image mettant en œuvre une modification du procédé de détermination de mode codage de la , dans un mode de réalisation particulier de l’invention,

la représente un codeur mettant en œuvre le procédé de codage de la , dans un mode de réalisation particulier de l’invention,

la représente les étapes d’un procédé de décodage d’image mettant en œuvre une modification du procédé de détermination de mode de décodage de la , dans un mode de réalisation particulier de l’invention,

la représente un décodeur mettant en œuvre le procédé de décodage de la , dans un mode de réalisation particulier de l’invention.

Description détaillé e de différents mode s de réalisation de l’invention

Exemples de mises en œuvre d’un procédé de détermination d’au moins un mode de codage ou de décodage

Principe général de l’invention

Procédé de détermination d’au moins un mode de codage ou de décodage

On décrit ci-après un procédé de détermination d’au moins un mode de codage ou de décodage en vue de coder, respectivement décoder, une image de type 2D ou 3D, ledit procédé de détermination étant apte à être mis en œuvre dans tout type de codeurs ou décodeurs vidéo, par exemple conformes au standard AVC, HEVC, VVC et leurs extensions (MVC, 3D-AVC, MV-HEVC, 3D-HEVC, etc.), ou autre, tel que par exemple un réseau neuronal convolutif ou CNN (pour «convolutional neural network» en anglais).

En référence à la , le procédé de détermination d’au moins un mode de codage ou de décodage selon l’invention utilise au moins un ensemble de pixels de référence BR0, c’est-à-dire un ensemble de pixels de référence qui a déjà été codé et décodé et qui est donc disponible au moment de la détermination dudit au moins un mode de codage ou décodage destiné à être utilisé pour coder, respectivement décoder, un ensemble de pixels courant Bc qui comprend N pixels p1, p2,…, pN (N≥1).

Au sens de l’invention, on entend par ensemble de pixels courant B_c:

- une image courante originale;

- une partie ou une zone de l’image courante originale,

- un bloc de l’image courante résultant d’un partitionnement de cette image conformément à ce qui est pratiqué dans les codeurs normalisés de type AVC, HEVC ou VVC.

Selon l’invention, comme représenté sur la , l’ensemble de pixels de référence BR0 peut appartenir à une image courante Ii qui contient l’ensemble de pixels courant Bc. Dans ce cas, au moins un mode de codage MCc (respectivement décodage MDc) de l’ensemble de pixels courant Bc est déterminé par rapport à cet ensemble de pixels de référence BR0.

Bien entendu, ledit au moins un mode de codage MC_c(respectivement décodage MD_c) peut être déterminé par rapport à l’ensemble de pixels de référence BR₀et à un ou plusieurs autres ensembles de pixels de référence appartenant à l’image courante I_i.

Selon l’invention, comme représenté sur la , l’ensemble de pixels de référence BR0 peut appartenir à une image de référence déjà codée et décodée qui précède ou suit temporellement l’image courante Ii. Dans ce cas, le mode de codage MCc (respectivement décodage MDc) de l’ensemble de pixels courant Bc est déterminé par rapport à l’ensemble de pixels de référence BR0. Dans l’exemple représenté, le mode de codage MCc (respectivement décodage MDc) de l’ensemble de pixels courant Bc peut être calculé par rapport à l’ensemble de pixels de référence BR0, l’ensemble de pixels de référence BR0 appartenant par exemple à l’image IRi-1 immédiatement précédente mais pouvant bien entendu appartenir à une autre image de référence, telle que par exemple l’image IRi+1 ou d’autres images de référence précédant, dans l’ordre de codage, l’image courante Ii, c’est-à-dire des image déjà codées puis décodées avant l’image courante Ii. Dans l’exemple représenté, le mode de codage MCc (respectivement décodage MDc) de l’ensemble de pixels courant Bc peut être également calculé par rapport à l’ensemble de pixels de référence BR0 situé dans une image de référence qui précède l’image courante Ii et par rapport à au moins un autre ensemble de pixels de référence BR1 situé dans une image de référence qui suit l’image courante Ii. Dans l’exemple représenté, l’ensemble de pixels de référence BR0 est situé dans l’image de référence IRi-2 et l’ensemble de pixels de référence BR1 est situé dans l’image de référence IRi+1. Toujours dans le cadre d’une telle détermination d’au moins un mode de codage ou de décodage par rapport à des ensembles de pixels de référence situés dans des images de référence, et comme représenté sur la , le mode de codage MCc (respectivement de décodage MDc) de l’ensemble de pixels courant Bc peut être calculé par rapport à deux ensembles de pixels de référence BR0, BR1 situés chacun dans une image de référence qui précède l’image courante Ii. Dans l’exemple représenté, l’ensemble de pixels de référence BR0 est situé dans l’image de référence IRi-2 et l’ensemble de pixels de référence BR1 est situé dans l’image de référence IRi-1.

Bien entendu, un ou plusieurs autres ensembles de pixels de référence peuvent être utilisés conjointement aux ensembles de pixels de référence BR₀et BR₁pour calculer ledit au moins un mode de codage courant MC_c(respectivement décodage MD_c) de l’ensemble de pixels courant B_c.

En référence à nouveau à la , un tel procédé de détermination selon l’invention comprend ce qui suit :

En P1, pour au moins un pixel courant p_c(1≤c≤N) de l’ensemble de pixels courant B_c, il est procédé à une analyse dudit au moins un ensemble de pixels de référence BR₀. Une telle étape comprend notamment l’analyse de la position de BR₀, son déplacement d’une image de référence à l’autre, si des zones d’occlusions sont générées lors du déplacement de BR₀, etc…

En P2, sur la base de l’analyse de BR₀, un mode de codage MC_c, respectivement décodage MD_c, est sélectionné parmi au moins deux modes de codage MC₁, MC₂, respectivement décodage MD₁, MD₂, considérés.

Le mode MC₁, respectivement MD₁, est par exemple le mode Inter. Le mode MC₂, respectivement MD₂, est par exemple le mode Intra. A titre d’alternative, le mode MC₁, respectivement MD₁, est par exemple le mode Inter et le mode MC₂, respectivement MD₂, est par exemple le mode Skip.

A l’issue de l’étape P2, un mode de codage MC_c, respectivement décodage MD_c, est déterminé pour ledit au moins un pixel courant p_c.

Les étapes P1 à P2 sont ensuite itérées pour chacun des N pixels de l’ensemble de pixels courant B_c.

Bien entendu, plus de deux modes de codage, respectivement décodage, peuvent être considérés dans le procédé de détermination qui vient d’être décrit. Par exemple, les trois modes de codage ou de décodage suivants peuvent être considérés lors de la détermination :

- le mode MC₁/MD₁est Inter,

- le mode MC₂/MD₂est Intra,

- le mode MC₃/MD₃est Skip.

En variante de l’étape P2, au moins deux modes de codage/décodage peuvent être déterminés en combinaison pour coder/décoder ledit au moins un pixel courant p_c. Par exemple, une combinaison des modes MC₁/MD₁=Inter et MC₂/MD₂=Intra peut être déterminée pour coder/décoder B_c. Selon un autre exemple, une combinaison des modes MC₁/MD₁=Inter et MC₃/MD₃=Skip peut être déterminée pour coder/décoder B_c.

Exemple s de mise en œuvre de dispositif de détermination d’au moins un mode de codage ou de décodage

La présente un dispositif DMOD1 de détermination d’au moins un mode de codage ou de décodage adapté pour mettre en œuvre le procédé de détermination illustré en , selon un premier mode de réalisation de l'invention.

Selon ce premier mode de réalisation, les actions exécutées par le procédé de détermination sont mises en œuvre par des instructions de programme d'ordinateur. Pour cela, le dispositif de prédiction DMOD1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_DM1, une unité de traitement UT_DM1, équipée par exemple d'un processeur PROC_DM1, et pilotée par le programme d'ordinateur PG_DM1 stocké en mémoire MEM_DM1. Le programme d'ordinateur PG_DM1 comprend des instructions pour mettre en œuvre les actions du procédé de détermination tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC_DM1.

A l'initialisation, les instructions de code du programme d'ordinateur PG_DM1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_DM1. Le processeur PROC_DM1 de l'unité de traitement UT_DM1 met notamment en œuvre les actions du procédé de détermination décrit ci-dessus, selon les instructions du programme d'ordinateur PG_DM1.

Le dispositif de détermination reçoit en entrée E_DM1 un ou plusieurs ensembles de pixels de référence BR₀, BR₁,…, évalue différents modes disponibles de codage MC₁, MC₂, respectivement décodage MD₁, MD₂, et délivre en sortie S_DM1 le mode de codage MC_cou de décodage MD_cà utiliser pour respectivement coder ou décoder l’ensemble de pixels courant B_c.

La présente un dispositif DMOD2 de détermination d’au moins un mode de codage ou de décodage adapté pour mettre en œuvre le procédé de détermination illustré en , selon un deuxième mode de réalisation de l'invention.

Selon ce deuxième mode de réalisation, le dispositif de détermination DMOD2 est un réseau neuronal, tel que par exemple un réseau neuronal convolutif, un perceptron multicouche, un LSTM (pour « Long Short Term Memory » en anglais), etc…, noté RNC1 qui, à partir d’un ou plusieurs ensembles de pixels de référence BR0, BR1,…reçu(s) en entrée, met en œuvre conjointement les étapes P1 à P2 du procédé de détermination de la , pour délivrer en sortie le mode de codage MCc ou de décodage MDc de chaque pixel de l’ensemble de pixels courant Bc.

De façon connue en soi, le réseau neuronal convolutif RNC1 réalise une succession de couches d’opérations de filtrage, de non linéarité et de changement d’échelles. Chaque filtre employé est paramétré par un noyau de convolution et les non linéarités sont paramétrées (ReLU, leaky ReLU, GDN (de l’anglais « generalized divisive normalization »), …). Le réseau neuronal RNC1 est par exemple du type décrit dans le document D. Sun, et al., «PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume» CVPR 2018.

Dans ce cas, le réseau neuronal RNC1 peut être appris de la manière représentée à la .

A cet effet, le réseau neuronal RNC1 peut être appris :

- à estimer éventuellement un ou plusieurs vecteurs de déplacement V₀, V₁,… pour interpoler des mouvements depuis respectivement BR₀, BR₁,… vers l’ensemble de pixels courant B_cen cours de codage ou de décodage, pour obtenir un ensemble de pixels de prédiction BP_c;

- à estimer le mode de codage MC_c, respectivement décodage MD_c, parmi au moins deux modes de codage, respectivement de décodage.

Le mode de codage MC_c, respectivement décodage MD_c, prend au moins deux valeurs 0 ou 1 qui sont par exemple représentatives respectivement :

- du mode Inter et du mode Skip,

- du mode Intra et du mode Skip,

- du mode Inter et du mode Intra,

- etc.

Dans une phase préalable, le réseau RNC1 est entrainé pour réaliser les opérations P1 à P2 de la . Par exemple, on apprend au réseau RNC1 à minimiser l’erreur quadratique moyenne entre l’ensemble de pixels courant Bc à coder et un ensemble de pixels BSc obtenu après application d’au moins un mode de codage MCc (respectivement de décodage MDc) sélectionné :

- entre l’ensemble de pixels de prédiction courant BP_cobtenu par compensation de mouvement, équivalent à un mode Skip,

- et l’ensemble de pixels courant reconstruit BD_cqui a été obtenu ou pas à l’aide de l’ensemble de pixels de prédiction courant BP_cet d’un signal résiduel, caractéristique de l’écart entre la valeur des pixels courants de B_cet celle des pixels de l’ensemble de pixels de prédiction courant BP_c, ce signal résiduel étant quantifié par un paramètre de quantification QP, puis codé.

L’entrainement du réseau RNC1 est réalisé pendant une phase d’entrainement en présentant une pluralité d’ensembles de pixels de référence BR₀, BR₁,… associés conjointement à un ensemble de pixels courant B_c, et en changeant, par exemple par un algorithme de descente du gradient, les poids du réseau pour minimiser l’erreur quadratique entre les pixels de B_cet le résultat BS_cdépendant de la sélection de mode de codage MC_c(respectivement décodage MD_c).

A l’issue de cette phase préalable d’entrainement, le réseau RNC1 est figé et adapté pour être utilisé dans le dispositif de détermination de mode DMOD2.

M ode de réalisation d’un procédé de détermination d’au moins un mode de codage/décodage mis en œuvre par le dispositif de détermination DEMOD1

On décrit maintenant, en relation avec la et les figures 5A à 5E, un mode de réalisation, dans lequel une détermination d’au moins un mode de codage ou de décodage d’un ensemble de pixels courant est mise en œuvre dans le dispositif de détermination DEMOD1 de la .

Dans l’exemple représenté, deux ensembles de pixels de référence BR₀et BR₁sont pris en compte pour la détermination d’au moins un mode de codage ou de décodage.

A cet effet, comme illustré sur la , l’analyse P1 d’au moins un ensemble de pixels de référence comprend ce qui suit :

En P10, est calculée une estimation de mouvement entre BR₀et BR₁. Une telle étape est effectuée par des étapes classiques de recherche de mouvement, comme par exemple une estimation de vecteurs de déplacement.

Les figures 5A à 5C représentent respectivement trois exemples différents de déplacement d’une version prédite BP_cde l’ensemble de pixels courant B_cpar rapport à deux ensembles de pixels de référence BR₀et BR₁, qui peuvent être rencontrés lors de cette étape P10. Dans l’exemple des figures 5A à 5C, le déplacement d’un élément E (symbolisé par un cercle) entre les ensembles de pixels de référence BR₀et BR₁est représenté par un champ de vecteurs de mouvement. Dans un souci de simplification, un seul vecteur, noté V₀₁et en pointillé sur les figures 5A à 5C, est représenté pour décrire, dans l’exemple représenté, le mouvement de l’élément E depuis BR₀vers BR₁(le mouvement sur les autres portions de l’image étant considéré nul). Mais il va de soi qu’il y a autant de vecteurs de mouvement que de pixels représentant les ensembles de pixels de référence BR₀vers BR₁comme par exemple dans le cas d’une estimation de mouvement par flot optique. Selon un autre exemple non représenté sur les figures 5A à 5C, un vecteur V₁₀, décrivant le mouvement (opposé) depuis BR₁vers BR₀, pourrait être calculé.

Le vecteur V01 ou V10 ayant été obtenu en P10, il est procédé en P11 ( ) à l’estimation du déplacement de l’ensemble de pixels courant Bc à prédire par rapport à BR0 et BR1. Cette estimation est illustrée sur les figures 5A à 5C où le déplacement de l’élément E est estimé à un autre instant temporel que celui auquel sont situés BR0 et BR1, qui est l’instant auquel est situé l’ensemble de pixels courant Bc. En utilisant les mêmes conventions que pour le calcul de V01 ou V10 :

- un seul vecteur V₀, qui décrit le mouvement depuis BR₀vers la position prédite de B_cest calculé à partir du vecteur V₀₁,

- un seul vecteur V₁qui décrit le mouvement depuis BR₁vers la position prédite de B_cest calculé à partir du vecteur V₀₁.

Dans l’exemple de la , où l’ensemble de pixels courant Bc est situé temporellement à mi-chemin de BR0 et de BR1, alors le déplacement de l’élément E à l’instant courant est estimé comme correspondant à la moitié du déplacement entre BR0 et BR1, c’est-à-dire la moitié du vecteur V01 ou V10. Une telle configuration de déplacement est rencontrée dans le cas où par exemple, en reprenant les mêmes notations que sur la , BR0 appartient à l’image de référence IRi-1 et BR1 appartient à l’image de référence IRi+1.

Dans l’exemple de la , où l’ensemble de pixels courant Bc est situé temporellement plus près de BR0 que de BR1, alors le déplacement de l’élément E à l’instant courant est estimé comme étant plus court que la moitié du déplacement entre BR0 et BR1. Par exemple, si BR0 appartient à l’image de référence IRi-1 et BR1 appartient à l’image de référence IRi+2, alors le déplacement de l’élément E à l’instant courant est estimé comme correspondant au tiers du déplacement entre BR0 et BR1, c’est-à-dire le tiers du vecteur V01 ou V10.

Dans l’exemple de la , où l’ensemble de pixels courant Bc est situé temporellement après BR0 puis BR1, BR0 appartenant à l’image de référence IRi-2 et BR1 appartenant à l’image de référence IRi-2, alors le déplacement de l’élément E à l’instant courant est estimé comme le double du déplacement entre BR0 et BR1, c’est-à-dire le double du vecteur V01 ou V10.

En référence aux figures 6 et 5D, en P12, BR₀et BR₁sont chacun compensés en mouvement à l’aide des vecteurs V₀et V₁,pour créer respectivement deux versions prédites de B_c, notées BRC₀et BRC₁.

A titre d’illustration sur la , on considère que les vecteurs V0 et V1 ont été obtenus par exemple conformément à la configuration de mouvement représentée sur la , pour laquelle le déplacement de l’élément E à l’instant courant est estimé comme correspondant à la moitié du déplacement entre BR0 et BR1, c’est-à-dire la moitié du vecteur V01 ou V10.

La représente :

- un ensemble de pixels compensé en mouvement à droite BRC₀, sur lequel la position interpolée de l’élément E comprend un ensemble de pixels ERC₀résultant de la compensation en mouvement de l’élément E de BR₀, par le vecteur V₀,

- un ensemble de pixels compensé en mouvement à gauche BRC₁, sur lequel la position interpolée de l’élément E comprend un ensemble de pixels ERC₁résultant de la compensation en mouvement de l’élément E de BR_1,par le vecteur V₁.

En revanche, une partie Z0 de ERC0 et une partie Z1 de ERC1 sont indéfinies car correspondant au contenu non connu qui est situé derrière l’élément E de BR0 et l’élément E de BR1. Toutefois, comme visible sur la , la partie Z0 est définie dans ERC1 et la partie Z1 est définie dans ERC0.

En référence à la et à la , est décrite la sélection P2 d’un des au moins deux modes de codage MC1, MC2 ou de décodage MD1, MD2 pour chaque pixel de l’ensemble de pixels courant Bc. Sur la est représentée une position prédite de l’ensemble de pixels courant Bc, dans laquelle est représentée une position prédite de l’élément E et les parties non définies Z0 et Z1.

Les pixels situés à la position (x,y) de Z₀et Z₁n’étant pas connus, ils sont associés en P20 à un premier mode de codage MC₁(x,y)=Inter, respectivement décodage MD₁(x,y)=Inter.

Les pixels situés à la position (x,y) prédite de l’élément E et à la position (x,y) prédite de l’arrière-plan AP (représenté par des hachures) sont connus, en ce sens que ces pixels sont cohérents avec les pixels de l’élément E et de l’arrière-plan AP dans chacun des ensembles de pixels de référence BR₀et BR₁. A cet effet, en P20, ces pixels sont associés à un deuxième mode de codage MC₂(x,y)=Skip, par exemple, respectivement décodage MD₂(x,y)=Skip.

En P21, le premier mode de codage MC₁(x,y)=Inter, respectivement décodage MD₁(x,y)=Inter, prend une valeur arbitraire, par exemple 1, tandis que le deuxième mode de codage MC₂(x,y)=Skip, respectivement décodage MD₂(x,y)=Skip, prend une valeur arbitraire distincte de celle de MC₁(x,y)/MD₁(x,y), par exemple 0.

A l’issue de l’étape P21, est déterminé un mode de codage MC_c, respectivement de décodage MD_c, qui prend deux valeurs différentes 0 ou 1, selon les pixels considérés dans l’ensemble de pixels courant B_c.

A titre de variante :

- les pixels situés à la position de Z₀et Z₁sont associés en P20 à un premier mode de codage MC₁(x,y)=Intra, respectivement décodage MD₁(x,y)=Intra,

- les pixels situés à la position prédite de l’élément E sont associés en P20 à un deuxième mode de codage MC₂(x,y)=Inter, respectivement décodage MD₂(x,y)=Inter,

- les pixels situés dans l’arrière-plan AP sont associés en P20 à un troisième mode de codage MC₃(x,y)=Skip, respectivement décodage MD₃(x,y)=Skip.

En P21 :

- le premier mode de codage MC₁(x,y)=Intra, respectivement décodage MD₁(x,y)=Intra, prend une valeur arbitraire, par exemple 1,

- le deuxième mode de codage MC₂(x,y)=Inter, respectivement décodage MD₂(x,y)=Inter, prend une valeur arbitraire distincte de celle de MC₁(x,y)/MD₁(x,y), par exemple 0,

- le troisième mode de codage MC₃(x,y)=Skip, respectivement décodage MD₃(x,y)=Skip, prend une valeur arbitraire distincte de celle de MC₁(x,y)/MD₁(x,y) et de MC₂(x,y)/MD₂(x,y), par exemple 2.

A l’issue de l’étape P21, est déterminé un mode de codage MC_c, respectivement de décodage MD_c, qui prend trois valeurs différentes 0, 1 ou 2, selon les pixels considérés dans l’ensemble de pixels courant B_c.

Procédé de codage d’image

Principe général

On décrit ci-après, en référence à la , un procédé de codage d’image mettant en œuvre la détermination d’au moins un mode de codage MCc qui a été décrite en référence à la .

Un tel procédé de codage comprend ce qui suit :

En C1, la détermination d’au moins un mode de codage MCc, dans ses étapes P1 à P2 illustrées en , est mise en œuvre, générant un mode de codage courant MCc pour chacun des N pixels de l’ensemble de pixels courant Bc.

En C2, il est testé quel mode de codage a été associé à quel sous-ensemble de pixels SE₁, SE₂, SE₃, …de B_c.

En C20, il est testé si le mode de codage MC_c=Intra a été déterminé pour coder B_c.

Si la réponse est positive (O sur la ), en C30 un sous-ensemble de pixels SE1 est codé en Intra. A l’issue de cette étape, un sous-ensemble de pixels résiduels codé SER1cod est généré, accompagné classiquement de l’indice du mode Intra utilisé.

Si la réponse est négative (N sur la ), en C21, il est testé si le mode de codage MCc=Inter a été déterminé pour coder Bc.

Si la réponse est positive (O sur la ), en C31 un sous-ensemble de pixels SE2 est codé en Inter. A l’issue de cette étape, un sous-ensemble de pixels résiduels codé SER2cod est généré, ainsi qu’un vecteur de mouvement V2cod qui a été utilisé lors de ce codage en Inter.

Si la réponse est négative (N sur la ), en C22, il est testé si le mode de codage MCc=Skip a été déterminé pour coder Bc.

Si la réponse est positive (O sur la ), en C32 un sous-ensemble de pixels SE3 est codé en Skip. A l’issue de cette étape, un vecteur de mouvement codé V3cod est généré. Aucun résidu n’est calculé et codé pour ce mode. Dans un premier mode de réalisation, V3cod= V2cod. Dans un deuxième mode de réalisation, V3cod ≠ V2cod.

Si la réponse est négative (N sur la ), il est déterminé si un autre mode de codage MCc a été déterminé pour coder Bc et ainsi de suite jusqu’à ce que tous les pixels de Bc soient affectés d’un mode de codage MCc.

En C4, les vecteurs de mouvement codés V₂ ^codet V₃ ^codou uniquement V₃ ^coddans le cas où V₃ ^cod= V₂ ^cod, ainsi que les données des sous-ensembles de pixels résiduels codés SER₁ ^codet SER₂ ^cod, sont inscrits dans un flux de transport F apte à être transmis à un décodeur qui sera décrit ultérieurement dans la description. Ces données inscrites correspondent à l’ensemble de pixels courant B_ccodé, noté B_c ^cod.

Conformément à l’invention, le/les mode(s) de codage en tant que tels ne sont avantageusement ni codés, ni transmis au décodeur.

Le sous-ensemble de pixels SE₁(respectivement SE₂, SE₃) peut correspondre à au moins un pixel de B_c, à au moins une zone de pixels de B_c, ou à B_cdans son entièreté.

Les codages Intra, Inter et ou Skip mis en œuvre sont classiques et conformes à un codage de type AVC, HEVC, VVC ou similaire.

Le codage qui vient d’être décrit peut bien entendu appliquer à B_cun seul mode de codage parmi les trois cités, ou seulement deux modes de codage différents, ou encore trois modes de codage différents ou plus.

Exemples de mise en œuvre de codeur

La présente un codeur COD1 adapté pour mettre en œuvre le procédé de codage illustré en , selon un premier mode de réalisation de l'invention. Le codeur COD1 comprend le dispositif de détermination DEMOD1.

Selon ce premier mode de réalisation, les actions exécutées par le procédé de codage sont mises en œuvre par des instructions de programme d'ordinateur. Pour cela, le dispositif de codage COD1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_C1, une unité de traitement UT_C1, équipée par exemple d'un processeur PROC_C1, et pilotée par le programme d'ordinateur PG_C1 stocké en mémoire MEM_C1. Le programme d'ordinateur PG_C1 comprend des instructions pour mettre en œuvre les actions du procédé de codage tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC_C1.

A l'initialisation, les instructions de code du programme d'ordinateur PG_C1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_C1. Le processeur PROC_C1 de l'unité de traitement UT_C1 met notamment en œuvre les actions du procédé de codage décrit ci-dessus, selon les instructions du programme d'ordinateur PG_C1.

Le codeur COD1 reçoit en entrée E_C1 un ensemble de pixels courant B_cet délivre en sortie S_C1 le flux de transport F qui est transmis à un décodeur à l’aide d’une interface de communication adaptée (non représentée).

La présente un codeur COD2 adapté pour mettre en œuvre le procédé de codage illustré en , selon un deuxième mode de réalisation de l'invention. Le codeur COD2 comprend le dispositif de détermination DEMOD2 précité suivi d’un réseau neuronal convolutif RNC2 qui code l’ensemble de pixels courant Bc conjointement avec le et/ou les modes de codage MCc déterminé par le dispositif de détermination DEMOD2. Un tel réseau RNC2 est par exemple du type décrit dans le document : Ladune « Optical Flow and Mode Selection for Learning-based Video Coding », IEEE MMSP 2020.

Procédé de décodage d’image

Principe général

On décrit ci-après, en référence à la , un procédé de décodage d’image mettant en œuvre la détermination d’au moins un mode de décodage MDc, telle que décrite en référence à la .

Un tel procédé de décodage met en œuvre un décodage d’image correspondant au codage d’image de la . En particulier, mise à part la détermination dudit au moins un mode de décodage MDc, le procédé de décodage met en œuvre des étapes de décodage classiques qui sont conformes à un décodage de type AVC, HEVC, VVC ou similaire.

Le procédé de décodage comprend ce qui suit :

En D1, il est procédé classiquement à une extraction du flux de transport F reçu des données codées associées à B_cqui sont, dans l’exemple représenté :

- le sous-ensemble de pixels résiduel codé SER₁ ^codet son indice de mode Intra si c’est le codage Intra C30 de la qui a été mis en œuvre,

- le sous-ensemble de pixels résiduel codé SER2cod et éventuellement le vecteur de mouvement codé V2cod dans le cas où V2cod ≠ V3cod, si c’est le codage Inter C31 de la qui a été mis en œuvre,

- le vecteur de mouvement codé V3cod, si c’est le codage Skip C32 de la qui a été mis en œuvre.

Ces données correspondent à l’ensemble de pixels courant codé B_c ^cod.

En D2, la détermination d’au moins un mode de décodage MDc, dans ses étapes P1 à P2 illustrées en , est mise en œuvre, générant un mode de décodage courant MDc pour chacun des N pixels de l’ensemble de pixels courant codé Bccod.

En D3, il est testé quel mode de décodage a été associé à quel sous-ensemble de pixels codé SE₁ ^cod, SE₂ ^cod, SE₃ ^cod, …, de B_c.

En D30, il est testé si le mode de décodage MD_c=Intra a été déterminé pour décoder B_c ^cod.

Si la réponse est positive (O sur la ), en D40, un sous-ensemble de pixels SE1 est décodé en Intra. A l’issue de cette étape, un sous-ensemble de pixels décodé SE1dec est généré.

Si la réponse est négative (N sur la ), en D31, il est testé si le mode de décodage MDc=Inter a été déterminé pour décoder Bccod.

Si la réponse est positive (O sur la ), en D41, un sous-ensemble de pixels SE2 est décodé en Inter à l’aide, si V2cod ≠ V3cod, d’un vecteur de mouvement V2dec issu du décodage de V2cod et, si V2cod = V3cod, à l’aide d’un vecteur de mouvement V3dec issu du décodage de V3cod. A l’issue de cette étape, un sous-ensemble de pixels décodé SE2dec est généré.

Si la réponse est négative (N sur la ), en D32, il est testé si le mode de décodage MDc=Skip a été déterminé pour décoder Bccod.

Si la réponse est positive (O sur la ), en D42, un sous-ensemble de pixels SE3 est décodé en Skip. A l’issue de cette étape, un sous-ensemble de pixels décodé SE3dec est généré à l’aide du vecteur de mouvement décodé V3dec.

Si la réponse est négative (N sur la ), il est déterminé si un autre mode de décodage MDc a été déterminé pour décoder Bc et ainsi de suite jusqu’à ce que tous les pixels codés de Bc soient affectés d’un mode de décodage MDc.

En D5, les sous-ensembles de pixels décodés SE₁ ^dec, SE₂ ^dec, SE₃ ^decsont concaténés. A l’issue de l’étape D5, un ensemble de pixels courant reconstruit B_c ^decest généré.

Conformément à l’invention, le/les mode(s) de décodage en tant que tels sont avantageusement déterminés de manière autonome au décodeur.

Les décodages Intra, Inter et ou Skip mis en œuvre sont classiques et conformes à un décodage de type AVC, HEVC, VVC ou similaire.

Le décodage qui vient d’être décrit peut bien entendu appliquer pour un ensemble de pixels codé considéré, ici B_c ^cod, un seul mode de décodage parmi les trois cités, ou seulement deux modes de décodage différents, ou encore trois modes de décodage différents ou plus. L’application d’un ou de plusieurs modes de décodage peut varier d’un ensemble de pixels codé considéré à l’autre.

De façon connue en soi, l’ensemble de pixels courant reconstruit B_c ^decpourra éventuellement subir un filtrage par un filtre de boucle qui est bien connu de l’homme du métier.

Exemples de mise en œuvre de décodeur

La présente un décodeur DEC1 adapté pour mettre en œuvre le procédé de décodage illustré en , selon un premier mode de réalisation de l'invention. Le décodeur DEC1 comprend le dispositif de détermination DEMOD1.

Selon ce premier mode de réalisation, les actions exécutées par le procédé de décodage sont mises en œuvre par des instructions de programme d'ordinateur. Pour cela, le décodeur DEC1 a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM_D1, une unité de traitement UT_D1, équipée par exemple d'un processeur PROC_D1, et pilotée par le programme d'ordinateur PG_D1 stocké en mémoire MEM_D1. Le programme d'ordinateur PG_D1 comprend des instructions pour mettre en œuvre les actions du procédé de décodage tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC_D1.

A l'initialisation, les instructions de code du programme d'ordinateur PG_D1 sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC_D1. Le processeur PROC_D1 de l'unité de traitement UT_D1 met notamment en œuvre les actions du procédé de décodage décrit ci-dessus en liaison avec la , selon les instructions du programme d'ordinateur PG_D1.

Le décodeur DEC1 reçoit en entrée E_D1 le flux de transport F transmis par le codeur COD1 de la et délivre en sortie S_D1 l’ensemble de pixels décodé courant Bcdec.

La présente un décodeur DEC2 adapté pour mettre en œuvre le procédé de décodage illustré en , selon un deuxième mode de réalisation de l'invention. Le décodeur DEC2 comprend le dispositif de détermination DEMOD2 précité suivi d’un réseau neuronal convolutif RNC3 qui par exemple décode l’ensemble de pixels codé courant Bccod conjointement avec le mode de décodage MDc généré par le dispositif de détermination DEMOD2. Un tel réseau RNC3 est par exemple du type décrit dans le document : Ladune « Optical Flow and Mode Selection for Learning-based Video Coding », IEEE MMSP 2020.

Variante du procédé de détermination d’au moins un mode de codage ou de décodage

On décrit à présent, en référence aux figures 11 et 12, une variante du procédé de détermination d’au moins un mode de codage, tel qu’illustré en . Une telle variante est mise en œuvre dans un codeur COD3.

Une telle variante vient améliorer la détermination d’au moins un mode de codage ou de décodage de la , lorsque la précision/qualité du mode de codage ou de décodage obtenu n’est pas satisfaisante.

A cet effet, côté codeur, comme illustré sur la , il est procédé en C’1 à une analyse dudit moins un ensemble de pixels de référence BR0 de façon conjointe avec l’ensemble de pixels courant Bc. Par exemple deux ensembles de pixels de référence BR0 et BR1 sont analysés conjointement avec Bc. Dans l’exemple représenté, BR0 est situé temporellement avant Bc et BR1 est situé temporellement après Bc.

Comme représenté en , l’analyse C’1 est mise en œuvre à l’aide d’un réseau neuronal convolutif RNC4 qui, à partir des deux ensembles de pixels de référence BR0 et BR1 et de l’ensemble de pixels courant Bc, crée une transformation au travers d’un certain nombre de couches, telles que par exemple des couches implémentant des filtres convolutifs (CNN) suivies de couches implémentant des non-linéarités et des décimations, comme décrit dans le document: Ladune « Optical Flow and Mode Selection for Learning-based Video Coding », IEEE MMSP 2020.

A l’issue de l’étape C’1, un ensemble de variables latentes est obtenu sous forme d’un signal U’.

Le signal U’ est quantifié en C’2 par un quantificateur QUANT1, par exemple uniforme ou vectoriel, réglé par un paramètre de quantification. Un signal quantifié U’_qest alors obtenu.

En C’3, le signal quantifié U’_qest codé à l’aide d’un codeur entropique CE1, par exemple de type arithmétique, avec une statistique déterminée. Cette statistique est par exemple paramétrée par des probabilités de statistiques, par exemple en modélisant la variance et la moyenne d’une loi laplacienne ( , ou bien en considérant des hyperpriors comme dans la publication : «Variational image compression with a scale hyperprior» par Ballé qui a été présentée à la conférence ICLR 2018. Un signal quantifié codé U’_q ^codest alors obtenu.

En C’4, le signal quantifié codé U’_q ^codest inscrit dans un flux de transport F’ qui est transmis à un décodeur DEC3 illustré sur la .

Dans l’exemple représenté, les données contenues dans le signal quantifié codé U’qcod sont représentatives d’informations associées à un mode de codage MCc tel que déterminé comme décrit plus haut en référence à la . Dans le mode de réalisation décrit ici, MCc est mis à 0 pour indiquer l’utilisation du mode de codage Skip et est mis à 1 pour indiquer l’utilisation du mode de codage Inter.

A cet effet, le réseau RNC4 a été appris pour offrir un continuum de pondération entre les valeurs 0 et 1 de MC_c.

Lors du codage, le codeur COD3 réalise en C’10 une prédiction de l’ensemble de pixels B_cà coder en réalisant une compensation de mouvement qui utilise des ensembles de pixels de référence BR₀, BR₁et des vecteurs mouvements V₀, V₁. Les vecteurs V₀, V₁peuvent être issus du réseau de neurone « MOFNEt » tel que décrit dans la publication de Ladune «Optical Flow and Mode Selection for Learning-based Video Coding», IEEE MMSP 2020. On obtient une prédiction de B_c, nommée La prédiction C’10 est mise en œuvre à l’aide d’un réseau de neurones RNC41.

En C’11, B_cet sont multipliés pixel à pixel par la valeur de mode Mc(x,y) comprise entre 0 et 1, à l’aide d’un multiplicateur MU1 illustré en . A l’issue de cette opération est obtenu un signal U’’ représentatif de ces deux entrées pondérées après passage de celles-ci, en C’12, dans un réseau de neurones RNC42. En C’13, le signal U’’ est quantifié par un quantificateur QUANT2, générant un signal quantifié U’’q. Ce dernier est ensuite codé en C’14 par un codeur entropique CE2, générant un signal quantifié codé U’’qcod. Les étapes C’13 et C’14 sont mises en œuvre dans un codeur basé sur des réseaux de neurones conformément à la référence précitée, afin de générer le signal quantifié codé U’’qcod.

En C’15, le signal quantifié codé U’’qcod est inscrit dans un flux de transport F’’ qui est transmis à un décodeur DEC3 illustré en .

On décrit à présent, en référence aux figures 13 et 14, une variante du procédé de détermination de mode de décodage illustré en , telle que mise en œuvre dans un décodeur DEC3.

A cet effet, côté décodeur, comme illustré sur la , il est procédé en D’1 à une analyse d’au moins un ensemble de pixels de référence BR0, deux ensembles de pixels de référence BR0 et BR1 dans l’exemple représenté. Une telle analyse est identique à celle effectuée à l’étape P1 de la , à l’aide du réseau de neurones RNC1. A l’issue de cette étape, est obtenu un espace latent U représentatif de V0, V1,…, MDc,…..

Suite à la réception du flux F’, il est procédé en D’2 au décodage entropique du signal quantifié codé U’qcod à l’aide d’un décodeur entropique DE1 correspondant au codeur entropique CE1 de la figure 12, avec la même statistique déterminée, telle que la modélisation de la variance et de la moyenne d’une loi laplacienne ( . Un signal quantifié décodé U’_qest obtenu à l’issue de cette opération.

En D’3, le signal quantifié décodé U’q est concaténé avec l’espace latent U obtenu par le réseau de neurones RNC1 de la et représentatif de l’analyse de uniquement les ensembles de pixels de référence BR0 et BR1.

Le réseau de neurones RNC1 traite ensuite en D’4 cette concaténation au travers de différentes couches, de la même façon qu’à l’étape P2 de la , pour estimer les informations de mouvement V0, V1,…, ainsi que les valeurs dans le continuum 0 à 1 du mode de décodage MDc à appliquer à l’ensemble de pixels courant codé Bccod à reconstruire.

Dans le mode de réalisation décrit ici et conformément au mode de codage MCc déterminé et utilisé dans le procédé de codage de la , MDc est mis à 0 pour indiquer l’utilisation du mode de décodage Skip et est mis à 1 pour indiquer l’utilisation du mode de décodage Inter.

Un réseau de neurones RNC5 du type précité reçoit en entrée ces informations pour reconstruire l’ensemble de pixels courant, afin de générer un ensemble de pixels reconstruit B_c ^dec. Un tel réseau RNC5 est par exemple du type décrit dans le document : Ladune «Optical Flow and Mode Selection for Learning-based Video Coding», IEEE MMSP 2020. A cet effet, le réseau neuronal RNC5 comprend un réseau neuronal RNC50 qui calcule en D’5 un ensemble de pixels de prédiction courant BP_c(x,y) à partir des informations de mouvement V₀, V₁,… délivrées par le réseau RNC1 et à partir des ensembles de pixels de référence BR₀, BR₁,….

En D’6, BPc(x,y) est multiplié pixel à pixel par (1-MDc(x,y)) dans un multiplicateur MU2 illustré en . A l’issue de cette opération est obtenu un signal SIG1 qui est représentatif des pixels de Bc qui ont été décodés dans le mode de décodage MDc=Skip.

En D’7, BP_c(x,y) est multiplié pixel à pixel par MD_c(x,y) dans un multiplicateur MU3 illustré en .

Toujours en référence aux figures 13 et 14, le réseau neuronal RNC5 comprend également un réseau neuronal RNC51 qui, suite à la réception du flux F’’ généré par le codeur COD3 en C’14 (cf figures 11 et 12), décode entropiquement en D’8 le signal quantifié codé U’’_q ^codqui correspond au résidu pixellique issu de la prédiction pondérée par le mode de codage MC_c, telle que mise en œuvre par le codeur COD3 de la . Un tel décodage utilise le résultat de la multiplication mise en œuvre en D’7.

A l’issue de l’étape D’8, est généré un signal SIG₂qui est représentatif des pixels de B_cqui ont été décodés dans le mode de décodage MD_c=Inter.

En D’9, les signaux SIG1 et SIG2 sont additionnés dans un additionneur AD, générant l’ensemble de pixels courant reconstruit B_c ^decqui contient les pixels reconstruits de B_cdans son entièreté.

Ainsi si MD_c(x,y) est proche de zéro, alors la prédiction sera prépondérante.

A contrario si MD_c(x,y) est proche de 1 alors le signal reconstruit B_c ^decsera constitué par utilisation du signal d’écart SIG₂véhiculé en complément de .

Dans les modes de réalisation qui ont été exposés plus haut en référence aux figures 3A et suivantes, deux ensembles de pixels de référence BR₀, BR₁sont utilisés dans le procédé de détermination d’au moins un mode de codage.

Ces modes de réalisation peuvent être étendus à trois ou plus ensembles de pixels de référence. A cet effet, le réseau neuronal RNC1 décrit en référence à la sera appris à partir de trois ensembles de pixels de référence BR0, BR1, BR2 ou plus, pour obtenir le mode de codage MCc ou de décodage MDc.

Claims

Procédé de détermination d’au moins un mode de codage (MC_c), respectivement décodage (MD_c), parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant, ledit procédé étant caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé (P2) à partir d’une analyse (P1) d’au moins un ensemble de pixels de référence (BR₀).
Procédé de détermination selon la revendication 1, dans lequel un seul mode parmi lesdits au moins deux modes est déterminé pour au moins un pixel de l’ensemble de pixels courant, la détermination de l’un ou l’autre mode variant dudit au moins un pixel à au moins un autre pixel dudit ensemble.
Procédé de détermination selon la revendication 1, dans lequel les au moins deux modes sont déterminés en combinaison pour au moins un pixel de l’ensemble de pixels courant.
Procédé de détermination selon l’une quelconque des revendications 1 à 3, dans lequel la détermination dudit au moins un mode est modifiée par un paramètre de modification (U’_q) qui est issu d’une analyse de l’ensemble de pixels courant.
Dispositif (DEMOD1 ; DEMOD2) de détermination d’au moins un mode de codage, respectivement décodage, comprenant un processeur qui est configuré pour déterminer au moins un mode de codage, respectivement décodage, parmi au moins deux modes de codage, respectivement décodage, pour coder, respectivement décoder, au moins un ensemble de pixels courant, caractérisé en ce que ledit au moins un mode de codage, respectivement décodage, est déterminé à partir d’une analyse d’au moins un ensemble de pixels de référence.
Dispositif de détermination selon la revendication 5, caractérisé en ce qu’il est un réseau de neurones.
Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de détermination selon l’une quelconque des revendications 1 à 4, lorsqu'il est exécuté sur un ordinateur.
Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 7.
Procédé de codage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de codage, dans lequel ledit ensemble de pixels courant est codé (C1-C4 ; C’1-C’15) à partir d’une détermination d’au moins un mode de codage,
ledit procédé de codage étant caractérisé en ce que ledit au moins un mode de codage est déterminé conformément au procédé de détermination selon l’une quelconque des revendications 1 à 4.
Dispositif (COD1 ; COD2 ; COD3) de codage d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour coder ledit ensemble de pixels courant à partir d’une détermination d’au moins un mode de codage,
ledit dispositif de codage étant caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de codage selon la revendication 5 ou la revendication 6.
Procédé de décodage d’au moins un ensemble de pixels courant, mis en œuvre par un dispositif de décodage, dans lequel ledit ensemble de pixels courant est décodé (D1-D5 ; D’1-D’9) à partir d’une détermination d’au moins un mode de décodage,
ledit procédé de décodage étant caractérisé en ce que ledit au moins un mode de décodage est déterminé conformément au procédé de détermination selon l’une quelconque des revendications 1 à 4.
Dispositif (DEC1 ; DEC2 ; DEC3) de décodage d’au moins un ensemble de pixels courant, comprenant un processeur qui est configuré pour décoder ledit ensemble de pixels courant à partir d’une détermination d’au moins un mode de décodage,
ledit dispositif de décodage étant caractérisé en ce qu’il comprend un dispositif de détermination d’au moins un mode de codage selon la revendication 5 ou la revendication 6.
Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de codage selon la revendication 9, ou du procédé de décodage selon la revendication 11, lorsqu'il est exécuté sur un ordinateur.
Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 13.