FR3072850A1 - Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle - Google Patents
Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle Download PDFInfo
- Publication number
- FR3072850A1 FR3072850A1 FR1759822A FR1759822A FR3072850A1 FR 3072850 A1 FR3072850 A1 FR 3072850A1 FR 1759822 A FR1759822 A FR 1759822A FR 1759822 A FR1759822 A FR 1759822A FR 3072850 A1 FR3072850 A1 FR 3072850A1
- Authority
- FR
- France
- Prior art keywords
- video
- image
- representative
- enhancement layer
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000015654 memory Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 12
- 239000010410 layer Substances 0.000 description 185
- 230000009466 transformation Effects 0.000 description 19
- 230000006872 improvement Effects 0.000 description 16
- 230000002123 temporal effect Effects 0.000 description 11
- 238000013139 quantization Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 239000011229 interlayer Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/174—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/187—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/34—Scalability techniques involving progressive bit-plane based encoding of the enhancement layer, e.g. fine granular scalability [FGS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
L'invention concerne un procédé de codage et un dispositif de codage d'un flux de données représentatif d'une vidéo omnidirectionnelle, et corrélativement un procédé de décodage et un dispositif de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle. Selon l'invention, le flux de données représentatif d'une vidéo omnidirectionnelle comprend des données codées d'au moins une couche de base représentative d'une vidéo 2D ou 3D représentative d'une vue d'une scène capturée par la vidéo omnidirectionnelle, et des données codées d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, la au moins une couche de rehaussement étant codée par prédiction par rapport à la au moins une couche de base.
Description
Procédés de codage et de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle.
1. Domaine de l'invention
L'invention se situe dans le domaine de la compression vidéo, et plus particulièrement des techniques de codage et de décodage de vidéo immersives ou omnidirectionnelle (ex : 180°, 360° en 2D ou 3D).
2. Art Antérieur
Un contenu vidéo omnidirectionnel permet de représenter une scène à partir d’un point central, et ce dans toutes les directions. On parle de contenu vidéo 360° lorsque l’intégralité du champ est capturé. Un sous ensemble du champ peut également être capturé, par exemple 180° seulement. Le contenu peut être capturé de façon monoscopique (2D) ou stéréoscopique (3D). Ce type de contenu peut être généré par assemblage de séquences d’images capturées par différentes caméras, ou bien généré synthétiquement par ordinateur (ex : jeux vidéo en VR). Les images d'un tel contenu vidéo permettent de restituer via un dispositif adéquat la vidéo selon n'importe quelle direction. Un utilisateur peut contrôler la direction selon laquelle la scène captée est affichée et naviguer de manière continue dans toutes les directions possibles.
De tels contenus vidéo 360° peuvent par exemple être restitués en utilisant un casque de réalité virtuelle offrant à l'utilisateur une impression d'immersion dans la scène capturée par le contenu vidéo 360°.
De tels contenus vidéo 360° nécessitent des dispositifs de réceptions adaptés à ce type de contenu (casque de réalité virtuelle par exemple) afin d'offrir les fonctionnalités d'immersion et de contrôle de la vue affichée par l'utilisateur.
Toutefois, la plupart des récepteurs de contenus vidéo actuellement déployés ne sont pas compatibles avec ce type de contenu vidéo 360° et ne permettent la restitution que de contenus vidéo 2D ou 3D classiques. En effet, la restitution d'un contenu vidéo 360° nécessite l'application de transformations géométriques aux images de la vidéo afin de restituer la direction de visualisation souhaitée.
Ainsi, la diffusion de contenus vidéo 360° n'est pas rétro-compatible avec le parc de récepteurs vidéo existants et est limitée aux seuls récepteurs adaptés à ce type de contenus. Toutefois, on remarque que le contenu capturé spécifiquement pour une diffusion vidéo 360° peut déjà faire l'objet d'une capture pour une diffusion vidéo en 2D ou 3D. Dans ce cas, c’est l’intégralité du contenu 360 projeté sur un plan qui est diffusé.
De plus, la diffusion simultanée d'un même contenu capturé sous différents formats (2D ou 3D et 360°) pour adresser les différents récepteurs vidéo est coûteuse en termes de bande passante, puisqu'il faut envoyer autant de flux vidéo que de formats possibles : vues 2D, 3D, 360° de la même scène capturée.
Il existe donc un besoin pour une optimisation du codage et de la diffusion de contenus vidéos omnidirectionnelles, représentant un partie (180°) ou l’intégralité d’une scène (360°) et de façon monoscopique (2D) ou stéréoscopique (3D).
Il existe des techniques de codage vidéo par couches, dit codage vidéo scalable ou échelonnable, permettant de coder un flux vidéo 2D en plusieurs couches de raffinement successives offrant différentes niveaux de reconstruction de la vidéo 2D. Par exemple, la scalabilité spatiale permet de coder un signal vidéo en plusieurs couches de résolutions spatiales croissantes. La scalabilité en PSNR (pour Peak Signal to Noise Ratio en anglais) permet de coder un signal vidéo pour une résolution spatiale fixe en plusieurs couches de qualité croissante. La scalabilité en espace colorimétrique permet de coder un signal vidéo en plusieurs couches représentées dans des espaces colorimétriques de plus en plus larges. Cependant, aucune des techniques de codage existantes ne permet de générer un flux de données vidéo représentatif d'une scène qui puissent être décodé à la fois par un décodeur vidéo 2D ou 3D classique et par un décodeur vidéo 360°.
3. Exposé de l'invention
L'invention vient améliorer l'état de la technique. Elle concerne à cet effet un procédé de codage d'un flux de données représentatif d'une vidéo omnidirectionnelle, comprenant :
- le codage dans ledit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle (360°, 180° etc),
- le codage dans ledit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, la au moins une couche de rehaussement étant codée par prédiction par rapport à la au moins une couche de base.
L'invention permet ainsi de réduire le coût de transmission des flux vidéo lorsque les contenus vidéo doivent être transmis à la fois en vue 2D et en 360° ou en vue 3D et 3D360°. Ainsi, un décodeur vidéo 2D ou 3D classique ne décodera que la ou une des couches de base pour reconstruire une vidéo 2D ou 3D de la scène et un décodeur compatible 360° décodera la ou les couches de base et au moins une couche de rehaussement pour reconstruire la vidéo 360°. L'utilisation d'une prédiction de la au moins une couche de base pour coder la couche de rehaussement permet ainsi de réduire le coût de codage de la couche de rehaussement.
Corrélativement, l'invention concerne également un procédé de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle, comprenant :
- le décodage à partir dudit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle,
- le décodage à partir dudit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, la au moins une couche de rehaussement étant décodée par prédiction par rapport à la au moins une couche de base.
Par vidéo omnidirectionnelle, on entend ici aussi bien une vidéo d'une scène dont l'intégralité du champ (360°) est capturé, qu'une vidéo d'une scène dont une sous-partie du champ 360° est capturé, par exemple 180°, 160°, 255.6°, ou autre. La vidéo omnidirectionnelle est donc représentative d'une scène capturée sur au moins une partie continue du champ à 360°.
Selon un mode particulier de réalisation de l'invention, la prédiction de la couche de rehaussement par rapport à la au moins une couche de base comprend, pour coder ou reconstruire au moins une image de la couche de rehaussement :
- la génération d'une image de référence obtenue par projection géométrique sur l'image de référence d'une image, dite image de base, reconstruite à partir de la au moins une couche de base,
- la mémorisation de ladite image de référence dans une mémoire d'images de référence de la couche de rehaussement.
Avantageusement, la prédiction dans la couche de rehaussement est réalisée par l'ajout lors du codage ou du décodage d'une image de la couche de rehaussement d'une image de référence dans laquelle les images reconstruites à partir des couches de base sont projetées. Ainsi, une nouvelle image de référence est ajoutée dans la mémoire d'images de référence de la couche de rehaussement. Cette nouvelle image de référence étant générée par projection géométrique de toutes les images de base reconstruites à partir des couches de base à un instant temporel.
Selon un autre mode particulier de réalisation de l'invention, le flux de données comprend une information représentative d'un type de projection géométrique utilisée pour représenter la vidéo omnidirectionnelle.
Selon un autre mode particulier de réalisation de l'invention, la vue représentée par la vidéo 2D ou 3D est une vue extraite de la vidéo omnidirectionnelle.
Selon un autre mode particulier de réalisation de l’invention, le flux de données comprend une information représentative d’un type de projection géométrique utilisée pour extraire une vue de la vidéo omnidirectionnelle et de ses paramètres de localisation.
Selon une variante, une telle information représentative des paramètres de projection et de localisation de ladite image de base est codée dans le flux de données à chaque image de la vidéo 360°. Avantageusement, cette variante permet de prendre en compte un déplacement dans la scène d'une vue servant de prédiction à la couche de rehaussement. Par exemple, les images de la vidéo de la couche de base peuvent correspondre à des images capturées en se déplaçant dans la scène, par exemple pour suivre un objet en mouvement dans la scène. Par exemple, la vue peut être capturée par une caméra en mouvement ou successivement par plusieurs caméras localisées à différents points de vue dans la scène, pour suivre un ballon ou un joueur lors d'un match de foot par exemple.
Selon un autre mode particulier de réalisation de l'invention, le flux de données comprend au moins deux couches de base, chaque couche de base étant représentative d'une vidéo 2D ou 3D, chaque couche de base étant respectivement représentative d'une vue de la scène, les au moins deux couches de base étant codées indépendamment l'une de l'autre.
Ainsi, il est possible d'avoir plusieurs couches de base indépendantes dans le flux, permettant de reconstruire indépendamment plusieurs vues 2D ou 3D de la vidéo 360°.
Selon un autre mode particulier de réalisation de l'invention, une image de la couche de rehaussement est codée à l'aide d'un groupe de tuiles, chaque tuile couvrant une région de l'image de la couche de rehaussement, chaque région étant distincte et disjointe des autres régions de l'image de la couche de rehaussement, chaque tuile étant codée par prédiction par rapport à au moins une couche de base. Le décodage de la couche de rehaussement comprend la reconstruction d'une partie de l'image de la couche de rehaussement, la reconstruction de ladite partie de l'image comprenant le décodage des tuiles de la couche de rehaussement couvrant la partie de l'image de la couche de rehaussement à reconstruire, et le décodage de la au moins une couche de base comprenant le décodage des couches de base utilisées pour prédire les tuiles couvrant la partie de l'image de la couche de rehaussement à reconstruire.
Un tel mode particulier de réalisation de l'invention permet de reconstruire seulement une partie de l'image omnidirectionnelle, et non l'image entière. Typiquement, seulement la partie en cours de visualisation par l'utilisateur est reconstruite. Ainsi, il n'est pas nécessaire de décoder toutes les couches de base du flux vidéo, voire même de les envoyer au récepteur. En effet, un utilisateur ne pouvant simultanément pas voir l'image entière de la vidéo omnidirectionnelle, il est ainsi possible de coder une image omnidirectionnelle par un mécanisme de tuiles permettant de coder de manière indépendante des régions de l'image omnidirectionnelle pour permettre ensuite de ne décoder que les régions de l'image omnidirectionnelle visibles par l'utilisateur.
Grâce au mode particulier de réalisation de l'invention, le codage indépendant des couches de base permet ainsi de reconstruire séparément les tuiles de l'image omnidirectionnelle et de limiter la complexité au décodage en évitant le décodage de couches de base inutiles. Avantageusement, pour chaque tuile de la couche de rehaussement à décoder, une information identifiant la au moins une couche de base utilisée pour prédire la tuile est décodée à partir du flux de données.
L'invention concerne également un dispositif de codage d'un flux de données représentatif d'une vidéo omnidirectionnelle. Le dispositif de codage comprend des moyens de codage dans ledit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle, et des moyens de codage dans ledit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, lesdits moyens de codage de la couche de rehaussement comprenant des moyens de prédiction de la couche de rehaussement par rapport à la au moins une couche de base.
L'invention concerne également un dispositif de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle. Le dispositif de décodage comprend des moyens de décodage dans ledit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle, et des moyens de décodage dans ledit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, lesdits moyens de décodage de la couche de rehaussement comprenant des moyens de prédiction de la couche de rehaussement par rapport à la au moins une couche de base.
Le dispositif de codage, respectivement de décodage, est notamment adapté à mettre en œuvre le procédé de codage, respectivement de décodage, décrit précédemment. Le dispositif de codage, respectivement de décodage, pourra bien sûr comporter les différentes caractéristiques relatives au procédé de codage, respectivement de décodage, selon l’invention. Ainsi, les caractéristiques et avantages de ce dispositif de codage, respectivement de décodage, sont les mêmes que ceux du procédé de codage, respectivement de décodage, et ne sont pas détaillés plus amplement.
Selon un mode particulier de réalisation de l'invention, le dispositif de décodage est compris dans un terminal.
L'invention concerne également un signal représentatif d'une vidéo omnidirectionnelle, comprenant des données codées d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle, et des données codées d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, la au moins une couche de rehaussement étant codée par prédiction par rapport à la au moins une couche de base.
Selon un mode particulier de réalisation de l'invention, une image de la couche de rehaussement est codée à l'aide d'un groupe de tuiles, chaque tuile couvrant une région de l'image de la couche de rehaussement, chaque région étant distincte et disjointe des autres régions de l'image de la couche de rehaussement, chaque tuile étant codée par prédiction par rapport à au moins une couche de base. Selon un tel mode particulier de réalisation de l'invention, le signal comprend également pour chaque tuile, une information identifiant la au moins une couche de base utilisée pour prédire la tuile. Ainsi, seules les couches de base nécessaires au décodage d'une tuile à décoder sont décodées, optimisant ainsi l'utilisation des ressources du décodeur.
L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de codage ou du procédé de décodage selon l'un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. Un tel programme peut utiliser n’importe quel langage de programmation. Il peut être téléchargé depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
Selon encore un autre aspect, l'invention concerne un support d'enregistrement ou support d'informations lisible par un ordinateur comprenant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Les supports d'enregistrement mentionnés ci-avant peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire de type Read-Only Memory (ROM), par exemple un CD- ROM ou une ROM de circuit microélectronique, une mémoire flash montée sur un support de stockage amovible, tel qu’une clé USB, ou encore une mémoire de masse magnétique de type Hard-Disk Drive (HDD) ou Solid-State Drive (SSD), ou une combinaison de mémoires fonctionnant selon une ou plusieurs technologies d’enregistrement de données. D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. En particulier, le programme d’ordinateur proposé peut être téléchargé sur un réseau de type Internet.
Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
Le procédé de codage ou de décodage selon l'invention peut donc être mis en œuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle.
4. Liste des figures
D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante d’un mode de réalisation particulier, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels :
- la figure 1A illustre des étapes du procédé de codage selon un mode particulier de réalisation de l'invention,
- la figure 1B illustre un exemple d'un signal généré selon le procédé de codage mis en œuvre selon un mode particulier de réalisation de l'invention,
- la figure 2A illustre une image d'une vue d'une scène captée par une vidéo 360° codée dans une couche de base,
- la figure 2B illustre l'image illustrée en figure 2A projetée dans le référentiel d'une image de la vidéo 360°,
- la figure 2C illustre une image de la vidéo 360° codée dans une couche de rehaussement,
- les figures 2D et 2E illustrent chacune une image de deux vues d'une scène captée par une vidéo 360° et codées chacune dans une couche de base,
- la figure 2F illustre les images des deux vues illustrées en figures 2D et 2E projetée dans le référentiel d'une image de la vidéo 360°,
- la figure 2G illustre une image de la vidéo 360° codée dans une couche de rehaussement,
- la figure 3 illustre des étapes du procédé de décodage selon un mode particulier de réalisation de l'invention,
- la figure 4A illustre un exemple d'un codeur configuré pour mettre en œuvre le procédé de codage selon un mode particulier de réalisation de l'invention,
- la figure 4B illustre un dispositif adapté pour mettre en œuvre le procédé de codage selon un autre mode particulier de réalisation de l'invention,
- la figure 5A illustre un exemple d'un décodeur configuré pour mettre en œuvre le procédé de décodage selon un mode particulier de réalisation de l'invention,
- la figure 5B illustre un dispositif adapté pour mettre en œuvre le procédé de décodage selon un autre mode particulier de réalisation de l'invention.
- les figures 6A et 6B illustrent respectivement une image de la vidéo omnidirectionnelle 360° codée par tuiles indépendantes et une image de référence générée à partir de deux vues de deux couches de base et utilisée pour coder l'image de la figure 6A,
- les figures 7A-C illustrent respectivement une projection dans un plan 2D d'une vidéo omnidirectionnelle 360° avec projection de type cubemap, une représentation sphérique 3D dans un référentiel XYZ de la vidéo omnidirectionnelle 360°, et une vue extraite du contenu immersif 360° dans un plan 2D selon une projection rectiligne,
- la figure 7D illustre la relation entre différentes projections géométriques,
- la figure 8 illustre la procédure de construction de l’image de référence.
Les images des figures 2A, C-E et G et des figures 7A-B sont extraites de vidéos 360° mises à disposition par LetlnVR dans le cadre du groupe d'exploration JVET (pour Joint Video Exploration Team en anglais, JVT-D0179: Test Sequences for Virtual Reality Video Coding from Letin VR, 15-21 Octobre 2016).
5. Description d'un mode de réalisation de l'invention
5.1 Principe général
Le principe général de l'invention est de coder un flux de données de manière échelonnable permettant ainsi de reconstruire et restituer une vidéo 360° lorsqu'un récepteur est adapté à recevoir et restituer une telle vidéo 360° et reconstruire et restituer une vidéo 2D ou 3D lorsque le récepteur est seulement adapté à restituer une vidéo 2D ou 3D.
Afin de diminuer le coût de transmission d'un flux comprenant à la fois la vidéo 2D ou 3D et la vidéo 360°, selon l'invention, la vidéo 2D ou 3D est codée dans une couche de base et la vidéo 360° est codée dans une couche de rehaussement ou d'amélioration prédite à partir de la couche de base.
Selon un mode particulier de réalisation de l'invention, le flux peut comprendre plusieurs couches de base correspondant chacune à une vidéo 2D ou 3D correspondant à une vue de la scène. La couche d'amélioration est ainsi codée par prédiction à partir de toutes ou d'une partie des couches de base comprises dans le flux.
5. 2 Exemples de mise en œuvre
La figure 1A illustre des étapes du procédé de codage selon un mode particulier de réalisation de l'invention. Selon ce mode particulier de réalisation de l'invention, une vidéo 360° est codée de manière scalable en extrayant des vues de la vidéo 360° et en codant chaque vue dans une couche de base. Par vue, on entend ici une séquence d'images acquise à partir d'un point de vue de la scène captée par la vidéo 360°. Une telle séquence d'image peut être une séquence d'images monoscopique dans le cas d'une vidéo 360° en 2D ou une séquence d'images stéréoscopique dans le cas d'une vidéo 360° en 3D. Dans le cas d'une séquence d'images stéréoscopique, chaque image comprend une vue gauche et une vue droite codées conjointement par exemple sous la forme d'une image générée à l'aide des vues gauche et droite placée côte à côté ou l'une au-dessus de l'autre. Le codeur codant une telle séquence d'images stéréoscopique dans une couche de base ou une couche de rehaussement codera alors chaque image comprenant une vue gauche et une vue droite comme une séquence d'images 2D classique.
On décrit ci-après un mode de réalisation dans lequel la vidéo omnidirectionnelle est une vidéo 360° en 2D.
On décrit ici un mode de réalisation où deux couches de base sont utilisées pour coder la couche d'amélioration. De manière générale, le procédé décrit ici s'applique au cas où un nombre de vues N, avec N supérieur ou égal à 1, sont utilisées pour le codage de la couche d'amélioration.
Le nombre de couches de base est indépendant du nombre de vues utilisées pour générer la vidéo 360°. Le nombre de couches de base codé dans le flux de données scalable est par exemple déterminé lors de la production du contenu, ou peut être déterminé par l’encodeur à des fins d’optimisation de débit.
Au cours des étapes 10 et 11, une première et une deuxième vues sont extraites de la vidéo 360°. Les vues [1] et [2] sont respectivement codées lors d'une étape de codage 12 d'une couche de base BL[1 ] et d'une étape de codage 13 d'une couche de base BL[2],
Dans le mode particulier de réalisation décrit ici, les couches de base BL[1 ] et BL[2] sont codées indépendamment l'une de l'autre, i.e. qu'il n'existe aucune dépendance de codage (prédiction, contexte de codage, etc...) entre le codage des images de la couche de base BL[1 ] et le codage des images de la couche de base BL[2], Chaque couche de base BL[1 ] ou BL[2] est décodable indépendamment des autres.
Selon un autre mode particulier de réalisation, il est possible de coder les couches de base BL[1 ] et BL[2] de manière dépendante, par exemple pour gagner en efficacité en compression. Toutefois, ce mode particulier de réalisation de l'invention, nécessite au niveau du décodeur de pouvoir décoder les deux couches de base pour restituer une vidéo 2D classique.
Chaque image codée/reconstruite des couches de base BL[1 ] et BL[2] est ensuite projetée (étapes 14 et 15 respectivement) géométriquement dans une même image de référence lref. Il en résulte une image de référence partiellement remplie, qui contient les échantillons interpolés à partir de la ou les vues de la couche de base projetées. La construction de l'image de référence est décrite plus en détail en relation avec la figure 8.
Les figures 2A-2C illustrent un mode de réalisation dans lequel une seule couche de base est utilisée. Selon ce mode de réalisation, les images de la vidéo 360° ont une résolution spatiale de 3840x1920 pixels et sont générées par une projection équi-rectangulaire et la séquence d'images 360° a une fréquence de 30 images par seconde. La figure 2C illustre une image de la vidéo 360° à un instant temporel t codée dans la couche d'amélioration.
Une image à l'instant temporel t de la vue extraite de la vidéo 360° est illustrée en figure 2A. Une telle vue est par exemple extraite de la vidéo 360° à l'aide des coordonnées de Yaw = 20°, Pitch = 5°, Horizontal FOV (pour Field Of View en anglais) = 110° et Vertical FOV = 80°, la résolution spatiale des images de la vue extraite est de 1920x960 pixels et la fréquence temporelle est de 30 images par seconde. Les coordonnées Yaw et Pitch correspondent aux coordonnées du centre (P sur la figure 2B) de la projection géométrique d'une image de la vue de la couche de base, les coordonnées Yaw et Pitch correspondent respectivement à l'angle 0 et à l'angle φ du point P illustrés dans le format pivot en figure 7B. Les paramètres Horizontal FOV et Vertical FOV correspondent respectivement à la taille horizontale et verticale d'une image de la vue extraite centrée au point P dans le format pivot illustré en figure 7B, cette image de la vue extraite est représentée dans la figure 7C.
La figure 2B illustre l'image de référence lref utilisée pour prédire l'image de la vidéo 360° à l'instant t après projection géométrique équirectangulaire de l'image de la couche de base illustrée en figure 2A.
Les figures 2D-2G illustrent un mode de réalisation dans lequel deux couches de base sont utilisées. Selon ce mode de réalisation, les images de la vidéo 360° ont une résolution spatiale de 3840x1920 pixels et sont générées par une projection équi-rectangulaire et la séquence d'images 360° à une fréquence de 30 images par seconde. La figure 2G illustre une image de la vidéo 360° à un instant temporel t codée dans la couche d'amélioration.
Une image à l'instant temporel t d'une première vue extraite de la vidéo 360° est illustrée en figure 2D. Cette première vue est par exemple extraite de la vidéo 360° à l'aide des coordonnées de Yaw = 20°, Pitch = 5°, Horizontal FOV (pour Field Of View en anglais) = 110° et Vertical FOV = 80°, la résolution spatiale des images de la première vue extraite est de 1920x960 pixels et la fréquence temporelle est de 30 images par seconde.
Une image à l'instant temporel t d'une deuxième vue extraite de la vidéo 360° est illustrée en figure 2E. Cette deuxième vue est par exemple extraite de la vidéo 360° à l'aide des coordonnées de Yaw = -100°, Pitch = 5°, Horizontal FOV (pour Field Of View en anglais) = 110° et Vertical FOV = 80°, la résolution spatiale des images de la première vue extraite est de 1920x960 pixels et la fréquence temporelle est de 30 images par seconde.
La figure 2F illustre l'image de référence lref utilisée pour prédire l'image de la vidéo 360° à l'instant t après projection géométrique équirectangulaire des images de la première vue et de la deuxième vue illustrées respectivement en figures 2D et 2E.
Afin de projeter les images reconstruites des couches de base dans l'image de référence, les étapes de transformation géométrique suivantes sont appliquées.
La représentation d’une vidéo omnidirectionnelle 360° dans un plan est définie par une transformation géométrique caractérisant la manière dont un contenu omnidirectionnel 360° représenté dans une sphère est adapté à une représentation dans un plan. La représentation sphérique des données est utilisée comme format pivot, elle permet de représenter les points captés par un dispositif de vidéo omnidirectionnel. Une telle représentation sphérique 3D XYZ est illustrée en figure 7B.
Par exemple, la vidéo 360° est représentée à l'aide d'une transformation géométrique équirectangulaire qui peut être vu comme la projection des points sur un cylindre entourant la sphère. D'autres transformations géométriques sont bien sûr possibles, par exemple la projection en CubeMap, correspondant à une projection des points sur un cube enfermant la sphère, les faces des cubes étant finalement dépliés sur un plan pour former l’image 2D. Une telle projection en CubeMap est par exemple illustrée en figure 7A.
La figure 7D illustre plus en détails la relation entre les différents formats cités ci-dessus. Le passage d’un format A equirectangulaire vers un format B en cubemap se fait à travers un format pivot C caractérisé par une représentation des échantillons dans un système sphérique XYZ illustré en figure 7B. De la même façon, l’extraction d’une vue D à partir du format A se fait à travers ce format pivot C. L’extraction d’une vue du contenu immersif est caractérisée par une transformation géométrique, par exemple en opérant une projection rectiligne des points de la sphère sur un plan illustré par le plan ABCD en figure 7C. Cette projection est caractérisée par des paramètres de localisation tels que le yaw, le pitch et le champ de vision horizontal et vertical (FOV pour Field Of View en anglais). Les propriétés mathématiques de ces différentes transformations géométriques sont documentées dans le document JVET-G1003 (Algorithm descriptions of projection format conversion and video quality metrics in 360Lib Version 4, Y. Ye, E. Alshina, J. Boyce, JVET of ITU-T SG16 WP3 and ISO/IEC JTC 1/SC 29/WG 11, 7th meeting, Torino, IT, 13-21 July, 2017).
La figure 8 illustre les différentes étapes permettant le passage entre deux formats. Une table de correspondance est d’abord construite en E80 afin de mettre en correspondance la position de chaque échantillon dans l’image de destination (lref), avec sa position correspondante dans le format source (correspondant aux images reconstruites des couches de base BL[1 ] et BL[2] dans l'exemple décrit avec la figure 1 A). Pour chaque position (u,v) dans l’image de destination les étapes suivantes s’appliquent :
• En E81 : passage des coordonnées (u,v) de l’image de destination dans le système pivot XYZ.
• En E82 : projection des coordonnées XYZ du système pivot dans l’image source (u’,ν’).
• En E83 : mis à jour de la table de correspondance mettant en relation les positions dans le format destination et dans le format source.
Une fois la table de correspondance construite, la valeur de chaque pixel (u,v) dans l’image de destination (lref) est interpolée par rapport à la valeur à la position correspondante (u’,v’) dans l’image source lors d'une étape E84 (correspondant aux images reconstruites des couches de base BL[1 ] et BL[2] dans l'exemple décrit avec la figure 1A ). Une interpolation peut être réalisée en (u’v’) avant l’attribution de la valeur, en appliquant un filtre d’interpolation type Lanczos sur l'image décodée de la couche de base, à la position mise en correspondance.
Lors d'une étape 16 du procédé de codage illustré en figure 1A, la vidéo 360° est codée dans une couche d'amélioration EL par prédiction par rapport aux couches de base BL[1 ] et BL[2] en utilisant l'image de référence lref générée à partir des couches de base.
Lors d'une étape 17, les données codées lors des étapes 12, 13 et 16 sont multiplexées afin de former un flux binaire comprenant les données codées des couches de base BL[1 ] et BL[2] et de la couche d'amélioration EL. Les données de projection permettant de construire l'image de référence lref sont également codées dans le flux binaire et transmises au décodeur.
Les étapes de codage 12, 13 et 16 peuvent avantageusement être mises en œuvre par des codeurs vidéo standards, par exemple par un codeur standard SHVC codeur scalable de la norme HEVC.
La figure 1B illustre un exemple d'un flux binaire généré selon le procédé décrit en relation avec la figure 1A. Selon cet exemple, le flux binaire comprend :
- les données codées des couches de base BL[1 ] et BL[2],
- une information PRJ représentative du type de projection géométrique utilisée pour représenter le contenu omnidirectionnel, par exemple une valeur indiquant une projection équirectangulaire,
- une information PRJ_B1, respectivement PRJ_B2, représentative de la projection utilisée pour extraire la vue et de ses paramètres de localisation dans la vidéo 360° de la vue de la couche de base BL[1 ], respectivement BL[2],
L'information représentative des paramètres de projection et de localisation d'une vue de la couche de base peut par exemple être codée sous la forme des coordonnées de la vue (Yaw, Pitch, HFOV, VFOV) assorti du type de projection (rectiligne) utilisé pour extraire la vue.
L'information représentative des paramètres de projection et de localisation d'une vue d'une couche de base peut être codée une seule fois dans le flux binaire. Elle est ainsi valable pour toute la séquence d'images.
L'information représentative des paramètres de projection et de localisation d’une vue d'une couche de base peut être codée plusieurs fois dans le flux binaire, par exemple à chaque image, ou à chaque groupe d'images. Elle n'est ainsi valable que pour une image ou un groupe d'images.
Lorsque l'information représentative des paramètres de projection et de localisation d'une vue est codée à chaque image, une telle variante procure l'avantage que la vue extraite à chaque instant temporel de la séquence peut correspondre à une vue d'un objet en mouvement dans la scène et suivi au cours du temps.
Lorsque l'information représentative des paramètres de projection et de localisation d'une vue est codée pour un groupe d'images, une telle variante procure l'avantage que la séquence vidéo codée dans une couche de base peut changer de point de vue au cours du temps, permettant ainsi de suivre un événement via différents points de vue au cours du temps.
La figure 3 illustre des étapes du procédé de décodage selon un mode particulier de réalisation de l'invention.
Selon ce mode particulier de réalisation de l'invention, le flux binaire échelonnable représentatif de la vidéo 360° est dé-multiplexé lors d'une étape 30. Les données codées des couches de base, BL[1 ] et BL[2] dans l'exemple décrit ici, sont envoyées à un décodeur pour être décodées (étapes 31,33 respectivement).
Puis, les images reconstruites des couches de base sont projetées (étapes 32, 34 respectivement) de manière similaire au procédé de codage sur une image de référence lref pour servir de prédiction à la couche d'amélioration EL. La projection géométrique est réalisée à partir des données de projection fournies dans le flux binaire (type de projection, information de projection et de localisation de la vue).
Les données codées de la couche d'amélioration EL sont décodées (étape 35) et les images de la vidéo 360° sont reconstruites en utilisant les images de référence lref générées à partir des projections géométriques réalisées sur les couches de base, tel que spécifié précédemment.
Le flux binaire échelonnable représentatif de la vidéo 360° permet ainsi d'adresser tout type de récepteurs. Un tel flux échelonnable permet également que chaque récepteur puisse décoder et reconstruire une vidéo 2D ou une vidéo 360° selon ses capacités.
Selon le procédé de décodage décrit ci-dessus, les récepteurs classiques, tels que PC, téléviseur, tablette, etc... ne décoderont qu'une couche de base, et restitueront une séquence d'images 2D. Tandis que les récepteurs adaptés pour la vidéo 360°, tels que les casque de réalité virtuelle, smartphones (téléphone intelligent), etc, décoderont les couches de base et la couche d'amélioration et restitueront la vidéo 360°.
La figure 4A illustre de manière plus détaillée les étapes de codage d'une couche de base et d'une couche d'amélioration du procédé décrit précédemment selon un mode particulier de réalisation de l'invention. On décrit ici le cas du codage d'une couche d'amélioration codant une vidéo omnidirectionnelle 360° par prédiction à partir d'une couche de base codant une vue k.
Chaque image de la vue k à coder est découpée en bloc de pixels et chaque bloc de pixels est ensuite codé de manière classique par prédiction spatiale ou temporelle en utilisant une image de référence précédemment reconstruite de la séquence d'images de la vue k.
De manière classique, un module de prédiction P détermine une prédiction pour un bloc courant Bkc. Le bloc courant Bkc est codé par prédiction spatiale par rapport à d'autres blocs de la même image ou bien par prédiction temporelle par rapport à un bloc d'une image de référence précédemment codée et reconstruite de la vue k et mémorisée dans la mémoire MEMb.
Un résidu de prédiction est obtenu en calculant la différence entre le bloc courant Bk cet la prédiction déterminée par le module de prédiction P.
Ce résidu de prédiction est ensuite transformé par un module de transformation T mettant en oeuvre par exemple une transformation de type DCT (pour Discrète Cosine Transform). Les coefficients transformés du bloc de résidu sont ensuite quantifiés par un module de quantification Q, puis codés par le module de codage entropique C pour former les données codées de la couche de base BL[k],
Le résidu de prédiction est reconstruit, via une quantification inverse effectuée par le module Q'1 et une transformation inverse effectuée par le module T'1 et ajouté à la prédiction déterminée par le module de prédiction P pour reconstruire le bloc courant.
Le bloc courant reconstruit est alors mémorisé afin de reconstruire l'image courante et que cette image courante reconstruite puisse servir de référence lors du codage d'images suivantes de la vue k.
Lorsque l'image courante de la vue k est reconstruite, un module de projection PROJ effectue une projection géométrique de l'image reconstruite dans l'image de référence lref de la vidéo 360°, telle qu'illustrée en figure 2B et selon la transformation géométrique décrite précédemment.
L'image de référence lref obtenue par projection de l'image reconstruite de la couche de base est mémorisée dans la mémoire de la couche d'amélioration MEMe.
Tout comme pour la couche de base, la vidéo omnidirectionnelle 360° est codée image par image et bloc par bloc. Chaque bloc de pixels est codé de manière classique par prédiction spatiale ou temporelle en utilisant une image de référence précédemment reconstruite et mémorisée dans la mémoire MEMe.
De manière classique, un module de prédiction P détermine une prédiction pour un bloc courant Bec d'une image courante de la vidéo omnidirectionnelle 360°. Le bloc courant Bec est codé par prédiction spatiale par rapport à d'autres blocs de la même image ou bien par prédiction temporelle par rapport à un bloc d'une image de référence précédemment codée et reconstruite de la vidéo 360° et mémorisée dans la mémoire MEMe.
Selon l'invention, avantageusement, le bloc courant Bec peut également être codé par prédiction inter-couches par rapport à un bloc co-localisé dans l'image de référence lref obtenue à partir de la couche de base. Par exemple, un tel mode de codage est signalé dans les données codées EL de la couche d'amélioration par un mode de codage INTER signalant un codage temporel du bloc, un vecteur de mouvement nul, et un index de référence indiquant l'image de référence de la mémoire MEMe utilisée indiquant l'image lref. Ces informations sont codées par le codeur entropique C. Un tel mode particulier de réalisation de l'invention permet de réutiliser la syntaxe existante des modes de codage temporels des standards existants. D'autres types de signalisation sont bien sûr possibles.
Le mode de prédiction déterminé pour coder un bloc courant Be c est par exemple sélectionné parmi tous les modes de prédiction possibles et en sélectionnant celui minimisant un critère débit/distorsion.
Une fois un mode de prédiction sélectionné pour le bloc courant Bec, un résidu de prédiction est obtenu en calculant la différence entre le bloc courant Becet la prédiction déterminée par le module de prédiction P.
Ce résidu de prédiction est ensuite transformé par un module de transformation T mettant en œuvre par exemple une transformation de type DCT (pour Discrète Cosine Transform). Les coefficients transformés du bloc de résidu sont ensuite quantifiés par un module de quantification Q, puis codés par le module de codage entropique C pour former les données codées de la couche d'amélioration EL.
Le résidu de prédiction est reconstruit, via une quantification inverse effectuée par le module Q'1 et une transformation inverse effectuée par le module T'1 et ajouté à la prédiction déterminée par le module de prédiction P pour reconstruire le bloc courant.
Le bloc courant reconstruit est alors mémorisé afin de reconstruire l'image courante et que cette image courante reconstruite puisse servir de référence lors du codage d'images suivantes de la vidéo omnidirectionnelle 360°.
Le codage a été décrit ici dans le cas d'une seule vue k codée dans une couche de base. Le procédé est aisément transposable au cas de plusieurs vues codées dans autant de couches de base. Chaque image reconstruite à un instant temporel t d'une couche de base est projetée sur la même image de référence lref de la vidéo 360° pour coder une image de la vidéo 360° à l'instant t.
La figure 4B présente la structure simplifiée d’un dispositif de codage COD adapté pour mettre en œuvre le procédé de codage selon l'un quelconque des modes particuliers de réalisation de l’invention décrit précédemment.
Un tel dispositif de codage comprend une mémoire MEM4, une unité de traitement UT4, équipée par exemple d'un processeur PROC4.
Selon un mode particulier de réalisation de l'invention, le procédé de codage est mis en œuvre par un programme d'ordinateur PG4 stocké en mémoire MEM4 et pilotant l'unité de traitement UT4. Le programme d'ordinateur PG4 comprend des instructions pour mettre en œuvre les étapes du procédé de codage tel que décrit précédemment, lorsque le programme est exécuté par le processeur PROC4.
A l'initialisation, les instructions de code du programme d'ordinateur PG4 sont par exemple chargées dans une mémoire (non représentée) avant d'être exécutées par le processeur PROC4. Le processeur PROC4 de l'unité de traitement UT4 met notamment en œuvre les étapes du procédé de codage décrit en relation avec les figures 1A, ou 4A, selon les instructions du programme d'ordinateur PG4.
Selon un autre mode particulier de réalisation de l'invention, le procédé de codage est mis en œuvre par des modules fonctionnels (P, T, Q, Q’1, T'1, C, PROJ). Pour cela, l'unité de traitement UT4 coopère avec les différents modules fonctionnels et la mémoire MEM4 afin de mettre en œuvre les étapes du procédé de codage. La mémoire MEM4 peut notamment comprendre les mémoires MEMb, MEMe.
Les différents modules fonctionnels décrits ci-dessus peuvent être sous forme matérielle et/ou logicielle. Sous une forme logicielle, un tel module fonctionnel peut comprendre un processeur, une mémoire et des instructions de code de programme pour mettre en œuvre la fonction correspondante au module lorsque les instructions de code sont exécutées par un le processeur. Sous une forme matérielle, un tel module fonctionnel peut mis en œuvre par tout type de circuits d'encodage adaptés, tels que par exemple et de manière non limitative des microprocesseurs, des processeurs de traitement du signal (DSP pour Digital Signal Processor en anglais), des circuits intégrés spécifiques à des applications (ASICs pour Application Spécifie Integrated Circuit en anglais), des circuits FPGA pour Field Programmable Gâte Arrays en anglais, un câblage d'unités logiques.
La figure 5A illustre de manière plus détaillée les étapes de décodage d'une couche de base et d'une couche d'amélioration du procédé décrit précédemment selon un mode particulier de réalisation de l'invention. On décrit ici le cas du décodage d'une couche d'amélioration EL codant une vidéo omnidirectionnelle 360° par prédiction à partir d'une couche de base BL[k] codant une vue k.
La vue k et la vidéo omnidirectionnelle 360° sont décodées image par image et bloc par bloc. De manière classique, les données de la couche de base BL[k] sont décodées par un module de décodage entropique D. Puis, pour un bloc courant d'une image courante à reconstruire, un résidu de prédiction est reconstruit via une quantification inverse des coefficients décodés entropiquement par un module de quantification inverse Q'1 et une transformation inverse par un module de transformation inverse T'1. Un module de prédiction P détermine une prédiction pour le bloc courant à partir des données de signalisation décodées par le module de décodage entropique D. La prédiction est ajoutée au résidu de prédiction reconstruit pour reconstruire le bloc courant.
Le bloc courant reconstruit est alors mémorisé afin de reconstruire l'image courante et que cette image courante reconstruite soit mémorisée dans la mémoire d'images de référence de la couche de base MEMb et qu'elle puisse servir de référence lors du décodage d'images suivantes de la vue k.
Lorsque l'image courante de la vue k est reconstruite, un module de projection PROJ effectue une projection géométrique de l'image reconstruite dans l'image de référence lref de la vidéo omnidirectionnelle 360°, telle qu'illustrée en figure 2B et selon la transformation géométrique décrite précédemment.
L'image de référence lref obtenue par projection de l'image reconstruite de la couche de base est mémorisée dans la mémoire d'images de référence de la couche d'amélioration MEMe.
Les données de la couche d'amélioration EL sont décodées par un module de décodage entropique D. Puis, pour un bloc courant d'une image courante à reconstruire, un résidu de prédiction est reconstruit via une quantification inverse des coefficients décodés entropiquement mise en œuvre par un module de quantification inverse Q'1 et une transformation inverse mise en œuvre par un module de transformation inverse T'1. Un module de prédiction P détermine une prédiction pour le bloc courant à partir des données de signalisation décodées par le module de décodage entropique D.
Par exemple, les données de syntaxe décodées indiquent que le bloc courant Bec est codé par prédiction inter-couches par rapport à un bloc co-localisé dans l'image de référence lref obtenue à partir de la couche de base. Le module de prédiction détermine donc que la prédiction correspond au bloc co-localisé au bloc courant Becdans l'image de référence lref.
La prédiction est ajoutée au résidu de prédiction reconstruit pour reconstruire le bloc courant. Le bloc courant reconstruit est alors mémorisé afin de reconstruire l'image courante de la couche d'amélioration.
Cette image reconstruite est mémorisée dans la mémoire d'images de référence de la couche d'amélioration MEMe pour servir de référence lors du décodage d'images suivantes de la vidéo 360°.
La figure 5B présente la structure simplifiée d’un dispositif de décodage DEC adapté pour mettre en œuvre le procédé de décodage selon l'un quelconque des modes particuliers de réalisation de l’invention décrit précédemment.
Un tel dispositif de décodage comprend une mémoire MEM5, une unité de traitement UT5, équipée par exemple d'un processeur PROC5.
Selon un mode particulier de réalisation de l'invention, le procédé de décodage est mis en œuvre par un programme d'ordinateur PG5 stocké en mémoire MEM5 et pilotant l'unité de traitement UT5. Le programme d'ordinateur PG5 comprend des instructions pour mettre en œuvre les étapes du procédé de décodage tel que décrit précédemment, lorsque le programme est exécuté par le processeur PROC5.
A l'initialisation, les instructions de code du programme d'ordinateur PG5 sont par exemple chargées dans une mémoire (non représentée) avant d'être exécutées par le processeur PROC5. Le processeur PROC5 de l'unité de traitement UT5 met notamment en œuvre les étapes du procédé de décodage décrit en relation avec les figures 3, ou 5A, selon les instructions du programme d'ordinateur PG5.
Selon un autre mode particulier de réalisation de l'invention, le procédé de décodage est mis en œuvre par des modules fonctionnels (P, Q’1, T'1, D, PROJ). Pour cela, l'unité de traitement UT5 coopère avec les différents modules fonctionnels et la mémoire MEM5 afin de mettre en œuvre les étapes du procédé de décodage. La mémoire MEM5 peut notamment comprendre les mémoires MEMb, MEMe.
Les différents modules fonctionnels décrits ci-dessus peuvent être sous forme matérielle et/ou logicielle. Sous une forme logicielle, un tel module fonctionnel peut comprendre un processeur, une mémoire et des instructions de code de programme pour mettre en œuvre la fonction correspondante au module lorsque les instructions de code sont exécutées par un le processeur. Sous une forme matérielle, un tel module fonctionnel peut mis en œuvre par tout type de circuits d'encodage adaptés, tels que par exemple et de manière non limitative des microprocesseurs, des processeurs de traitement du signal (DSP pour Digital Signal Processor en anglais), des circuits intégrés spécifiques à des applications (ASICs pour Application Spécifie Integrated Circuit en anglais), des circuits FPGA pour Field Programmable Gâte Arrays en anglais, un câblage d'unités logiques.
Selon un mode particulier de réalisation de l'invention, les blocs d'une image de la couche d'amélioration sont codés par groupes de blocs, un tel groupe de bloc est aussi appelé tuile. Chaque groupe de blocs, i.e. chaque tuile est codée indépendamment des autres tuiles.
Chaque tuile peut alors être décodée indépendamment des autres tuiles. De tels tuiles (TE0TE11) sont illustrées en figure 6A représentant une image de la vidéo omnidirectionnelle 360° à un instant temporel dans laquelle 12 tuiles sont définies et recouvrent entièrement l'image.
Par codage indépendant des tuiles, on entend ici un codage des blocs d'une tuile n'utilisant pas de prédiction spatiale à partir d'un bloc d'une autre tuile de l'image, ou de prédiction temporelle à partir d'un bloc d'une tuile de l'image de référence non co-localisé avec la tuile courante.
Chaque tuile est codée par prédiction temporelle ou inter-couches à partir d'une ou plusieurs de couches de base comme illustré en figures 6A et 6B. Sur les figures 6A et 6B, les tuiles TE4 et TE7 sont codées par prédiction inter-couches par rapport à l'image projetée dans l'image de référence lref de la vue 1 et les tuiles TE3 et TE6 sont codées par prédiction intercouches par rapport à l'image projetée dans l'image de référence lref de la vue 2.
Selon ce mode particulier de réalisation de l'invention, un récepteur adapté pour décoder et restituer une vidéo 360° peut ne décoder que les tuiles nécessaires à la zone courante de l'image 360° visualisée par un utilisateur. En effet, lors de la restitution d'une vidéo 360°, un utilisateur ne peut pas visualiser à un instant t, toute l'image de la vidéo, i.e. il ne peut pas regarder dans toutes les directions à la fois et ne visualise à un instant t que la zone de l'image face à son regard.
Par exemple, une telle zone de visualisation est représentée par la zone ZV sur la figure 6A. Ainsi, selon ce mode de réalisation, seules les couches de base ayant servie à la prédiction de la zone visualisée par l'utilisateur sont décodées lors de l'étape 31. Dans l'exemple décrit en figures 6A et 6B, seule la couche de base correspondant à la vue 1 est décodée lors de l'étape 31, et seules les tuiles TE4, TE5, TE7 et TE8 sont décodées lors de l'étape 35 de la figure 3, à partir de la couche d'amélioration EL. Lors de l'étape 35, seule la partie de l'image de la couche de rehaussement correspondant aux tuiles TE4, TE5, TE7 et TE8 est reconstruite. Le mode particulier de réalisation, décrit en relation avec les figures 6A et 6B, est décrit ici dans le cas où les tuiles de la couche d'amélioration EL à décoder ne dépendent que d'une seule couche de base (celle de la vue 1). Selon d'autres variantes, une tuile de la couche d'amélioration EL peut être codée par prédiction à partir de plusieurs couches de base, en fonction par exemple des choix d'optimisation débit/distorsion effectués lors du codage des blocs de la couche d'amélioration, un bloc d'une tuile pouvant être codant par prédiction par rapport à une première couche de base, et un autre bloc de la même tuile pouvant être codé par une autre couche de base distinct de la première couche de base.
Dans ce cas, toutes les couches de base utilisées pour la prédiction des blocs d'une tuile de la couche d'amélioration doivent être décodées.
Pour cela, le flux de données codées comprend pour chaque tuile de la couche d'amélioration une information identifiant les couches de base utilisées pour prédire la tuile.
Par exemple, pour chaque tuile, des éléments de syntaxe indiquant le nombre de couches de base utilisées et un identifiant de chaque couche de base utilisée sont codés dans le flux de données. De tels éléments de syntaxe sont décodés pour chaque tuile de la couche d'amélioration à décoder lors de l'étape 35 de décodage de la couche d'amélioration.
Le mode particulier de réalisation décrit ci-dessus permet de limiter l'utilisation des ressources du décodeur et d'éviter le décodage de données inutiles car non visualisées par l'utilisateur. Un tel mode de réalisation peut être mis par l'un quelconque des dispositifs de codage et l'un quelconque des dispositifs de décodage décrits précédemment.
Les procédés de codage et de décodage décrits ci-dessus ont été décrits dans le cas où les images reconstruites des couches de base sont projetées, lors des étapes 14 et 15 de la figure 1A et lors des 32, 34 de la figure 3, sur une même image de référence insérée dans la mémoire d'images de référence de la couche de rehaussement.
Lorsque le nombre de couches de base est limitée, par exemple 1 ou 2, une telle image de référence présente des zones non définies, par exemple mises à 0 par défaut, de taille importante, utilisant alors des ressources mémoires inutilement.
Selon d'autres variantes, les images reconstruites des couches de bases projetées sur la couche de rehaussement peuvent être mémorisées dans des sous-images de référence. Par exemple, une sous-image peut être utilisée pour chaque couche de base. Chaque sousimage est mémorisée en association avec des informations de décalage permettant à l'encodeur et/ou au décodeur de déterminer la localisation de la sous-image dans l'image de rehaussement. Une telle variante procure l'avantage d'économiser l'espace mémoire en évitant d'avoir une image de référence au niveau de la couche de rehaussement dont la majorité des échantillons sont nuis.
Une telle variante peut être mise en œuvre indépendamment au codeur et/ou au décodeur.
Claims (15)
- Revendications1. Procédé de codage d'un flux de données représentatif d'une vidéo omnidirectionnelle, comprenant :- une étape de codage dans ledit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle,- une étape de codage dans ledit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, la au moins une couche de rehaussement étant codée par prédiction par rapport à la au moins une couche de base.
- 2. Procédé de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle, comprenant :- une étape de décodage à partir dudit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle,- une étape de décodage à partir dudit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, la au moins une couche de rehaussement étant décodée par prédiction par rapport à la au moins une couche de base.
- 3. Procédé selon la revendication 1 ou 2, dans lequel la prédiction de la couche de rehaussement par rapport à la au moins une couche de base comprend, pour coder ou reconstruire au moins une image de la couche de rehaussement :- la génération d'une image de référence obtenue par projection géométrique sur ladite image de référence d'une image, dite image de base, reconstruite à partir de la au moins une couche de base,- la mémorisation de ladite image de référence dans une mémoire d'images de référence de la couche de rehaussement.
- 4. Procédé selon la revendication 3, dans lequel le flux de données comprend une information représentative d'un type de projection géométrique utilisée pour représenter la vidéo omnidirectionnelle.
- 5. Procédé selon l'une quelconque des revendications 1 à 4, dans lequel la vue représentée par la vidéo 2D ou 3D est une vue extraite de la vidéo omnidirectionnelle.
- 6. Procédé selon la revendication 5, dans lequel le flux de données comprend une information représentative des paramètres de projection et de localisation de ladite image de base dans une image de la vidéo omnidirectionnelle, ladite information étant utilisée pour projeter l'image de base sur l'image de référence.
- 7. Procédé selon la revendication 6, dans lequel ladite information représentative des paramètres de projection de localisation de ladite image de base est codée dans le flux de données à chaque image de la vidéo omnidirectionnelle.
- 8. Procédé selon l'une quelconque des revendications 1 à 7, dans lequel le flux de données comprend au moins deux couches de base, chaque couche de base étant représentative d'une vidéo 2D ou 3D respectivement représentative d'une vue de la scène, les au moins deux couches de base étant codées indépendamment l'une de l'autre.
- 9. Procédé de décodage selon la revendication 8, dans lequel une image de la couche de rehaussement est codée à l'aide d'un groupe de tuiles, chaque tuile couvrant une région de l'image de la couche de rehaussement, chaque région étant distincte et disjointe des autres régions de l'image de la couche de rehaussement, chaque tuile étant codée par prédiction par rapport à au moins une couche de base, le décodage de la couche de rehaussement comprend :- la reconstruction d'une partie de l'image de la couche de rehaussement comprenant le décodage des tuiles de la couche de rehaussement couvrant la partie de l'image de la couche de rehaussement à reconstruire, et- le décodage de la au moins une couche de base comprenant le décodage des couches de base utilisées pour prédire les tuiles couvrant la partie de l'image de la couche de rehaussement à reconstruire.
- 10. Procédé de décodage selon la revendication 9, comprenant en outre, pour chaque tuile de la couche de rehaussement à décoder, le décodage d'une information identifiant la au moins une couche de base utilisée pour prédire la tuile.
- 11. Dispositif de codage d'un flux de données représentatif d'une vidéo omnidirectionnelle, comprenant :- des moyens de codage dans ledit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle,- des moyens de codage dans ledit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, lesdits moyens de codage de la couche de rehaussement comprenant des moyens de prédiction de la couche de rehaussement par rapport à la au moins une couche de base.
- 12. Dispositif de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle, comprenant :- des moyens de décodage dans ledit flux d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène10 capturée par la vidéo omnidirectionnelle,- des moyens de décodage dans ledit flux d'au moins une couche de rehaussement représentative de la vidéo omnidirectionnelle, lesdits moyens de décodage de la couche de rehaussement comprenant des moyens de prédiction de la couche de rehaussement par rapport à la au moins une couche de base.
- 13. Signal représentatif d'une vidéo omnidirectionnelle, comprenant des données codées d'au moins une couche de base représentative d'une vidéo 2D ou 3D, la vidéo 2D ou 3D étant représentative d'une vue d'une même scène capturée par la vidéo omnidirectionnelle, et des données codées d'au moins une couche de rehaussement représentative de la vidéo20 omnidirectionnelle, la au moins une couche de rehaussement étant codée par prédiction par rapport à la au moins une couche de base.
- 14. Signal selon la revendication 13, dans lequel une image de la couche de rehaussement est codée à l'aide d'un groupe de tuiles, chaque tuile couvrant une région de l'image de la25 couche de rehaussement, chaque région étant distincte et disjointe des autres régions de l'image de la couche de rehaussement, chaque tuile étant codée par prédiction par rapport à au moins une couche de base, le signal comprend :- pour chaque tuile, une information identifiant la au moins une couche de base utilisée pour prédire la tuile.
- 15. Programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de codage selon l’une quelconque des revendications 1 à 8 ou des instructions pour la mise en œuvre du procédé de décodage selon l’une quelconque des revendications 2 à 10, lorsque ledit programme est exécuté par un processeur.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1759822A FR3072850B1 (fr) | 2017-10-19 | 2017-10-19 | Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle |
CN201880068327.9A CN111357292A (zh) | 2017-10-19 | 2018-10-12 | 用于对表示全向视频的数据流进行编码和解码的方法 |
EP18783032.8A EP3698546A1 (fr) | 2017-10-19 | 2018-10-12 | Procédés de codage et de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle |
PCT/EP2018/077922 WO2019076764A1 (fr) | 2017-10-19 | 2018-10-12 | Procédés de codage et de décodage d'un flux de données représentatif d'une vidéo omnidirectionnelle |
US16/756,755 US11172223B2 (en) | 2017-10-19 | 2018-10-12 | Methods for encoding decoding of a data flow representing of an omnidirectional video |
US17/500,362 US11736725B2 (en) | 2017-10-19 | 2021-10-13 | Methods for encoding decoding of a data flow representing of an omnidirectional video |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1759822A FR3072850B1 (fr) | 2017-10-19 | 2017-10-19 | Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle |
FR1759822 | 2017-10-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
FR3072850A1 true FR3072850A1 (fr) | 2019-04-26 |
FR3072850B1 FR3072850B1 (fr) | 2021-06-04 |
Family
ID=61187409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1759822A Active FR3072850B1 (fr) | 2017-10-19 | 2017-10-19 | Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle |
Country Status (5)
Country | Link |
---|---|
US (2) | US11172223B2 (fr) |
EP (1) | EP3698546A1 (fr) |
CN (1) | CN111357292A (fr) |
FR (1) | FR3072850B1 (fr) |
WO (1) | WO2019076764A1 (fr) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11317104B2 (en) * | 2019-05-15 | 2022-04-26 | Tencent America LLC | Method and apparatus for video coding |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150256838A1 (en) * | 2012-09-30 | 2015-09-10 | Sharp Kabushiki Kaisha | Signaling scalability information in a parameter set |
US20160156917A1 (en) * | 2013-07-11 | 2016-06-02 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
WO2018045108A1 (fr) * | 2016-09-02 | 2018-03-08 | Vid Scale, Inc. | Procédé et système de signalisation d'informations de vidéo sur 360 degrés |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794821A (zh) | 2006-01-11 | 2006-06-28 | 浙江大学 | 可分级视频压缩中插值的方法与装置 |
US9774882B2 (en) * | 2009-07-04 | 2017-09-26 | Dolby Laboratories Licensing Corporation | Encoding and decoding architectures for format compatible 3D video delivery |
KR20110007928A (ko) * | 2009-07-17 | 2011-01-25 | 삼성전자주식회사 | 다시점 영상 부호화 및 복호화 방법과 장치 |
US20120213275A1 (en) | 2011-02-22 | 2012-08-23 | Kwon Nyeong-Kyu | Scalable video coding and devices performing the scalable video coding |
CN108377393A (zh) | 2012-03-22 | 2018-08-07 | 联发科技股份有限公司 | 编码视频数据的方法以及装置 |
CA2807404C (fr) | 2012-09-04 | 2017-04-04 | Research In Motion Limited | Methodes et dispositifs pour procede de prediction entre couches en compression video evolutive |
WO2014053518A1 (fr) | 2012-10-01 | 2014-04-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codage vidéo échelonnable utilisant le codage à base de sous-blocs de blocs de coefficient de transformée dans la couche d'amélioration |
US20140098880A1 (en) * | 2012-10-05 | 2014-04-10 | Qualcomm Incorporated | Prediction mode information upsampling for scalable video coding |
CN105308966B (zh) * | 2013-04-05 | 2019-01-04 | 三星电子株式会社 | 视频编码方法及其设备以及视频解码方法及其设备 |
JP6224930B2 (ja) * | 2013-07-10 | 2017-11-01 | シャープ株式会社 | 画像復号装置、画像復号方法および画像符号化装置 |
FR3008840A1 (fr) | 2013-07-17 | 2015-01-23 | Thomson Licensing | Procede et dispositif de decodage d'un train scalable representatif d'une sequence d'images et procede et dispositif de codage correspondants |
KR101946039B1 (ko) | 2013-09-24 | 2019-02-08 | 브이아이디 스케일, 인크. | 스케일가능한 비디오 코딩을 위한 계층간 예측 |
KR20170101983A (ko) | 2014-12-31 | 2017-09-06 | 노키아 테크놀로지스 오와이 | 스케일러블 비디오 코딩 및 디코딩을 위한 계층 간 예측 |
GB2538531A (en) * | 2015-05-20 | 2016-11-23 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
EP3417617A4 (fr) * | 2016-02-17 | 2019-02-27 | Telefonaktiebolaget LM Ericsson (publ) | Procédés et dispositifs de codage et de décodage d'images vidéo |
US10771791B2 (en) * | 2016-08-08 | 2020-09-08 | Mediatek Inc. | View-independent decoding for omnidirectional video |
WO2018127625A1 (fr) * | 2017-01-03 | 2018-07-12 | Nokia Technologies Oy | Appareil, procédé et programme informatique pour le codage et le décodage vidéo |
EP3422724B1 (fr) * | 2017-06-26 | 2024-05-01 | Nokia Technologies Oy | Appareil, procédé et programme informatique pour vidéo omnidirectionnelle |
-
2017
- 2017-10-19 FR FR1759822A patent/FR3072850B1/fr active Active
-
2018
- 2018-10-12 CN CN201880068327.9A patent/CN111357292A/zh active Pending
- 2018-10-12 US US16/756,755 patent/US11172223B2/en active Active
- 2018-10-12 EP EP18783032.8A patent/EP3698546A1/fr active Pending
- 2018-10-12 WO PCT/EP2018/077922 patent/WO2019076764A1/fr unknown
-
2021
- 2021-10-13 US US17/500,362 patent/US11736725B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150256838A1 (en) * | 2012-09-30 | 2015-09-10 | Sharp Kabushiki Kaisha | Signaling scalability information in a parameter set |
US20160156917A1 (en) * | 2013-07-11 | 2016-06-02 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
WO2018045108A1 (fr) * | 2016-09-02 | 2018-03-08 | Vid Scale, Inc. | Procédé et système de signalisation d'informations de vidéo sur 360 degrés |
Non-Patent Citations (3)
Title |
---|
"Algorithm descriptions of projection format conversion and video quality metrics in 360Lib Version 4", 119. MPEG MEETING;17-7-2017 - 21-7-2017; TORINO; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11),, no. N17056, 1 October 2017 (2017-10-01), XP030023717 * |
H-M OH ET AL: "Omnidirectional fisheye video SEI message", 29. JCT-VC MEETING; 23-10-2017 - 27-10-2017; MACAU; (JOINT COLLABORATIVE TEAM ON VIDEO CODING OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ); URL: HTTP://WFTP3.ITU.INT/AV-ARCH/JCTVC-SITE/,, no. JCTVC-AC0034, 11 October 2017 (2017-10-11), XP030118311 * |
Y-K WANG (QUALCOMM): "On ERP equations for sample location remapping and sphere coverage signalling", 29. JCT-VC MEETING; 23-10-2017 - 27-10-2017; MACAU; (JOINT COLLABORATIVE TEAM ON VIDEO CODING OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ); URL: HTTP://WFTP3.ITU.INT/AV-ARCH/JCTVC-SITE/,, no. JCTVC-AC0024-v6, 10 October 2017 (2017-10-10), XP030118298 * |
Also Published As
Publication number | Publication date |
---|---|
CN111357292A (zh) | 2020-06-30 |
US11172223B2 (en) | 2021-11-09 |
US20220046279A1 (en) | 2022-02-10 |
FR3072850B1 (fr) | 2021-06-04 |
WO2019076764A1 (fr) | 2019-04-25 |
US20200267411A1 (en) | 2020-08-20 |
EP3698546A1 (fr) | 2020-08-26 |
US11736725B2 (en) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12022117B2 (en) | Apparatus, a method and a computer program for video coding and decoding | |
US10620441B2 (en) | Viewport-aware quality metric for 360-degree video | |
CN113498606A (zh) | 用于视频编码和解码的装置、方法和计算机程序 | |
WO2018175491A1 (fr) | Projection de carte de cube perturbée adaptative | |
RU2651183C2 (ru) | Устройство и способ обработки изображения | |
US20110157309A1 (en) | Hierarchical video compression supporting selective delivery of two-dimensional and three-dimensional video content | |
RU2673100C1 (ru) | Устройство обработки изображений и способ | |
JP7403128B2 (ja) | 符号化装置、復号装置、符号化方法、および復号方法 | |
FR3072850A1 (fr) | Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle | |
WO2022050166A1 (fr) | Dispositif de reproduction, dispositif de transmission, procédé de reproduction et procédé de transmission | |
FR3062010A1 (fr) | Procedes et dispositifs de codage et de decodage d'un flux de donnees representatif d'une sequence d'images | |
KR101012760B1 (ko) | 다시점 비디오의 송수신 시스템 및 방법 | |
FR2894424A1 (fr) | Procede de prediction de donnees mouvement et de texture | |
WO2019008253A1 (fr) | Procédé de codage et décodage d'images, dispositif de codage et décodage et programmes d'ordinateur correspondants | |
WO2019115899A1 (fr) | Procédés et dispositifs de codage et de décodage d'une séquence vidéo multi-vues représentative d'une vidéo omnidirectionnelle | |
EP3542533A1 (fr) | Procédé et dispositif de codage et de décodage d'une séquence multi-vues | |
KR20200078818A (ko) | 하이브리드망 기반의 영상 전송 시스템 및 방법 | |
FR2872988A1 (fr) | Procede et dispositif de creation d'un flux video formant une mosaique genere a partir d'une pluralite de flux video | |
FR2894423A1 (fr) | Procede de prediction de donnees mouvement et de texture | |
FR2936388A1 (fr) | Procede et dispositif de transcodage d'une sequence video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20190426 |
|
CA | Change of address |
Effective date: 20190716 |
|
PLFP | Fee payment |
Year of fee payment: 3 |
|
PLFP | Fee payment |
Year of fee payment: 4 |
|
PLFP | Fee payment |
Year of fee payment: 5 |
|
PLFP | Fee payment |
Year of fee payment: 6 |
|
PLFP | Fee payment |
Year of fee payment: 7 |
|
PLFP | Fee payment |
Year of fee payment: 8 |