FR2995165A1 - Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes - Google Patents

Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes Download PDF

Info

Publication number
FR2995165A1
FR2995165A1 FR1358295A FR1358295A FR2995165A1 FR 2995165 A1 FR2995165 A1 FR 2995165A1 FR 1358295 A FR1358295 A FR 1358295A FR 1358295 A FR1358295 A FR 1358295A FR 2995165 A1 FR2995165 A1 FR 2995165A1
Authority
FR
France
Prior art keywords
image
images
depth
composite image
composite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1358295A
Other languages
English (en)
Other versions
FR2995165B1 (fr
Inventor
Amato Paolo D
Giovanni Ballocca
Fedor Bushlanov
Alexey Polyakov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sisvel SpA
Original Assignee
Sisvel SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sisvel SpA filed Critical Sisvel SpA
Publication of FR2995165A1 publication Critical patent/FR2995165A1/fr
Priority to FR1451958A priority Critical patent/FR3002104B1/fr
Application granted granted Critical
Publication of FR2995165B1 publication Critical patent/FR2995165B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0077Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Abstract

La présente invention concerne un procédé pour générer un flux vidéo stéréoscopique (101) comprenant des images composites (C) qui comprennent des informations sur des images droite (R) et gauche (L), et une carte de profondeur. Des pixels sont sélectionnés à partir des images droite (R) et gauche (L), puis entrés dans une image composite (C) du flux vidéo stéréoscopique. Le procédé comprend l'entrée de tous les pixels des images droite (R) et gauche (L) dans l'image composite (C), une desdites deux images reste inchangée, l'autre divisée en régions (R1, R2, R3) comprenant une pluralité de pixels. Les pixels de la ou des carte(s) de profondeur sont entrés dans la région de l'image composite qui n'est pas occupée par des pixels des images droite et gauche. L'invention concerne un procédé pour reconstruire les images droite et gauche, depuis une image composite, et des dispositifs permettant l'implémentation desdits procédés.

Description

PROCÉDÉ POUR GÉNÉRER, TRANSMETTRE ET RECEVOIR DES IMAGES STÉRÉOSCOPIQUES, ET DISPOSITIFS CONNEXES La présente invention concerne la génération, le stockage, la transmission, la réception et la reproduction de flux vidéo stéréoscopiques, à savoir des flux vidéo qui, lorsqu'ils sont traités de façon appropriée dans un dispositif de visualisation, produisent des séquences d'images qui sont perçues comme étant tridimensionnelles par un téléspectateur. Comme l'on sait, la perception de tridimensionnalité peut être obtenue en reproduisant deux images, une pour l'oeil droit du téléspectateur et l'autre pour l'oeil gauche du téléspectateur. Un flux vidéo stéréoscopique transporte donc des informations sur deux séquences d'images, correspondant aux perspectives droite et gauche d'un objet ou d'une scène. Un tel flux peut également transporter des informations supplémentaires. La demande de brevet international PC T/IB2010/055918, publiée le 30 juin 2011 sous la référence W02011/077343A1, décrit un procédé de multiplexage d'image gauche/droite et un procédé de démultiplexage (ainsi que des dispositifs connexes) qui permettent de préserver l'équilibre entre des résolutions horizontale et verticale, offrant ainsi des avantages par rapport à des techniques connues telles que « côte à côte » et « haut et bas ». Selon ledit procédé de multiplexage, les pixels de la première image (par exemple l'image gauche) sont entrés dans l'image composite inchangés, alors que la seconde image est divisée en régions dont les pixels sont arrangés dans des zones libres de l'image composite, comme cela est représenté sur la figure 1, qui représente le cas dans lequel deux images dites 720p sont entrées dans une image conteneur 1080p. Dans la réception, l'image divisée en régions est reconstruite et puis envoyée à l'affichage. Par exemple, des affichages sont connus qui fonctionnent conformément au principe dit « image alternative », à savoir représentant les deux images L et R (L pour « Left » ou gauche, R pour « Right » ou droite) en succession temporelle. Pour la vision stéréoscopique, des lunettes dites « actives » doivent être portées, à savoir des lunettes qui, synchronisées avec la succession d'images L et R, obscurcissent un verre et maintiennent le verre de l'autre oeil ouvert, pour que chaque oeil puisse seulement voir l'image prévue pour lui. On sait que la vision stéréoscopique par l'intermédiaire de tels affichages peut s'avérer être agaçante pour certains téléspectateurs, auxquels il serait souhaitable d'offrir la possibilité de varier (réduire) la profondeur des images afin de l'adapter à leurs préférences subjectives et à la taille de l'écran. Pour ce faire, il est nécessaire de fournir, à l'intérieur de l'affichage, une synthèse d'images intermédiaires, entre celles en train d'être transmises, qui seront alors affichées à la place des images réellement transmises. Une telle reconstruction peut être réalisée en utilisant des techniques connues, si une ou plusieurs cartes de profondeur associées aux images transmises sont disponibles. En outre, des affichages dits auto-stéréoscopiques, qui ne nécessitent pas l'utilisation de lunettes, ont récemment commencé à apparaître sur le marché. De même, de tels affichages réalisent une synthèse d'images non transmises, et donc nécessitent au moins une carte de profondeur fournissant les informations nécessaires pour une telle synthèse. Il est ainsi devenu nécessaire d'introduire un nouveau format pour générer, transporter et reconstruire des flux stéréoscopiques, lequel format peut être utilisé pour des dispositifs classiques de réception et de reproduction 2D et pour des dispositifs actuels de réception et de reproduction 3D stéréoscopiques à deux vues (avec ou sans réglage de profondeur), ainsi que pour des dispositifs auto-stéréoscopiques futurs utilisant plus de deux vues, tout en préservant en même temps la compatibilité du format avec les infrastructures de distribution et de production de flux vidéo et les dispositifs actuellement utilisés.
L'objet de la présente invention est donc de proposer un procédé pour générer, transmettre et recevoir des images stéréoscopiques, et des dispositifs connexes, dont l'objectif est de satisfaire les conditions décrites ci-dessus. L'invention concerne un procédé et un dispositif pour multiplexer les deux images relatives aux perspectives droite et gauche (ci-après appelées image droite et image gauche), ainsi qu'une ou plusieurs cartes de profondeur, à l'intérieur d'une image composite unique. Plus particulièrement, l'invention concerne un procédé pour générer un flux vidéo stéréoscopique comprenant des images composites C, lesdites images composites C comprenant des informations sur une image droite R et une image gauche L d'un contenu tridimensionnel vidéo, dans lequel des pixels de ladite image droite R et des pixels de ladite image gauche L sont sélectionnés, et lesdits pixels sélectionnés sont entrés dans une image composite C dudit flux vidéo stéréoscopique, le procédé étant caractérisé en ce que tous les pixels de ladite image droite R et tous les pixels de ladite image gauche L sont entrés dans ladite image composite C en laissant une desdites deux images inchangées, en divisant l'autre en un nombre de régions R1, R2, R3 possédant une superficie totale égale à celle de ladite autre image R, et en entrant lesdites régions dans ladite image composite C, dans lequel ladite image composite C possède des dimensions plus importantes que ce qui est nécessaire pour entrer tous les pixels de ladite image gauche L et de ladite image droite R, et dans lequel, dans les pixels de l'image composite C restant après ladite entrée, au moins une carte de profondeur ou de disparité DM est entrée qui est relative à la profondeur ou la disparité des pixels dudit contenu vidéo tridimensionnel, lesdites cartes visant à reconstruire, en réception, des images non transmises dans ledit flux stéréoscopique. Dans divers modes de réalisation du procédé selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions suivantes : - ladite au moins une carte de profondeur ou de disparité DM est codée sous forme d'image à niveaux de gris ; - le contenu d'informations vidéo de ladite au moins une carte de profondeur ou de disparité est transporté par un seul signal de luminance, sans utiliser de signal de chrominance ; - ladite au moins une carte de profondeur ou de disparité DM possède une résolution inférieure à celle d'une version d'origine de celle-ci, la résolution de cette dernière étant égale à celle desdites images gauche L et image droite R ; - ladite au moins une carte de profondeur ou de disparité DM est obtenue en soumettant ladite carte de profondeur d'origine à un sous-échantillonnage 4 à 1. ; - ladite au moins une carte de profondeur ou de disparité DM est une carte de profondeur ou de disparité associée à l'une des deux images droite R ou gauche L, ou associée à un point de vue intermédiaire, entre L et R ;- ladite au moins une carte de profondeur ou de disparité DM comprend une carte de profondeur ou de disparité associée à une image droite R et une carte de profondeur ou de disparité associée à une image gauche L ; - lesdites cartes de profondeur ou de disparité associées à une image droite R et une image gauche L sont entrées dans lesdits pixels restants de l'image composite C au 5 moyen de techniques de mise en paquet d'images ; - si ledit nombre de régions est trois, lesdites régions sont obtenues par l'intermédiaire des étapes de : - division de ladite autre image R en deux parties possédant la même dimension horizontale R1, R2, R3 ; 10 - division d'une desdites deux parties R2, R3 en deux parties possédant la même dimension verticale R2, R3 ; - des informations de signalisation identifiant le type de flux vidéo généré sont entrées sous forme de métadonnées dans ladite image composite C ou ledit flux vidéo stéréoscopique ; 15 - lesdites informations de signalisation sont adaptées afin de permettre de distinguer entre au moins deux des types suivant d'images composites : - image composite du type à format mosaïque sans cartes de profondeur ; - image composite du type à format mosaïque avec une carte de 20 profondeur ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration côte à côte ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration haut et bas ; 25 - image composite du type à format mosaïque avec deux cartes de profondeur en configuration à format mosaïque. L'invention concerne également un procédé et un dispositif pour démultiplexer ladite image composite, à savoir pour extraire à partir de celle-ci les images droite et gauche et la ou les carte(s) de profondeur entrées par le dispositif de 30 multiplexage. Plus particulièrement, l'invention concerne un dispositif pour générer un flux vidéo stéréoscopique comprenant des images composites C, lesdites images composites C comprenant des informations sur une image droite R, une image gauche L, caractérisé en ce qu'il comprend des moyens pour implémenter les étapes du procédé selon l'invention. L'invention concerne également un procédé pour reconstruire au moins une paire d'images d'un flux vidéo stéréoscopique commençant à partir d'une image 5 composite C, ladite image composite C comprenant des informations sur une image droite R, une image gauche L, le procédé comprenant les étapes de : génération d'une première image desdites images droite R et gauche L en copiant un seul groupe de pixels contigus à partir d'une première région Cl de ladite image composite, 10 génération de l'autre image desdites images droite R et gauche L en copiant d'autres groupes de pixels contigus à partir d'un nombre de régions distinctes C2, C3, C4 de ladite image composite, ledit nombre de régions distinctes étant différent de ladite première région Cl; génération d'au moins une carte de profondeur ou de disparité DM en 15 copiant au moins un groupe de pixels contigus à partir d'une région supplémentaire C5 de ladite image composite, différente de ladite première région et dudit nombre de régions distinctes. Dans divers modes de réalisation du procédé selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions 20 suivantes : - ledit nombre de régions est trois : une C2 desdites régions de l'image composite C possède la même dimension verticale que ladite première région Cl et la moitié de sa dimension horizontale ; 25 les deux autres C3, C4 desdites régions de l'image composite C possèdent des dimensions horizontale et verticale égales, et la moitié de la dimension verticale de ladite première région Cl. - ladite au moins une carte de profondeur ou de disparité DM est générée en commençant à partir d'une image à niveaux de gris dérivée d'un signal de luminance 30 contenu dans les pixels contigus de ladite région supplémentaire C5 ; - le procédé comprend une étape d'augmentation des dimensions horizontale et verticale de ladite au moins une carte de profondeur ou de disparité DM jusqu'à une dimension égale à celle desdites images droite R et gauche L; - le procédé comprend une étape d'obtention, à partir de ladite image composite C ou à partir du flux vidéo, d'informations de signalisation adaptées pour reconnaître le type de flux vidéo généré ; - lesdites informations de signalisation sont adaptées afin de distinguer entre au moins deux des types suivants d'image composites : - image composite du type à format mosaïque sans cartes de profondeur ; - image composite du type à format mosaïque avec une carte de profondeur ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration côte à côte ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration haut et bas ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration à format mosaïque.
L'invention concerne également un dispositif pour reconstruire au moins une paire d'images d'un flux vidéo stéréoscopique commençant à partir d'une image composite C, ladite image composite C comprenant des informations sur une image droite R, une image gauche L, le dispositif comprenant : - des moyens pour générer une première image desdites images droite R et gauche L en copiant un seul groupe de pixels contigus à partir d'une première région Cl de ladite image composite, - des moyens pour générer l'autre image desdites images droite R et gauche L en copiant d'autres groupes de pixels contigus à partir d'un nombre de régions distinctes C2, C3, C4 de ladite image composite, ledit nombre de régions distinctes étant différent de ladite première région Cl; - des moyens pour générer au moins une carte de profondeur ou de disparité DM en copiant au moins un groupe de pixels contigus à partir d'une région supplémentaire C5 de ladite image composite, différent de ladite première région et dudit nombre de régions distinctes.
Dans divers modes de réalisation du dispositif selon l'invention, on peut éventuellement avoir recours en outre à l'une et/ou à l'autre des dispositions suivantes : - si ledit nombre de régions est trois : une C2 desdites régions de l'image composite C possède la même dimension verticale que ladite première région Cl et la moitié de sa dimension horizontale ; les deux autres C3, C4 desdites régions de l'image composite C possèdent des dimensions horizontale et verticale égales, et la moitié de la dimension verticale de ladite première région Cl; - lesdits moyens pour générer au moins une carte de profondeur ou de disparité DM utilisent une image à niveaux de gris dérivée d'un signal de luminance contenu dans les pixels contigus de ladite région supplémentaire C5 ; - le dispositif comprend des moyens pour augmenter les dimensions horizontale et verticale de ladite au moins une carte de profondeur ou de disparité DM jusqu'à une dimension égale à celle desdites images droite R et gauche L; - le dispositif comprend des moyens adaptés pour reconnaître le type de flux vidéo reçu en fonction d'informations de signalisation identifiant ledit type de flux, contenues dans ladite image composite C ou dans ledit flux vidéo ; - lesdites informations de signalisation permettent de distinguer entre au moins deux des types suivants d'image composites : image composite du type à format mosaïque sans cartes de profondeur ; image composite du type à format mosaïque avec une carte de profondeur ; image composite du type à format mosaïque avec deux cartes de profondeur en configuration côte à côte ; image composite du type à format mosaïque avec deux cartes de profondeur en configuration haut et bas ; image composite du type à format mosaïque avec deux cartes de profondeur en configuration à format mosaïque ; le dispositif comprend des moyens qui, en fonction desdites informations utiles pour distinguer un type d'image composite, sont adaptés pour produire : seulement ladite première image desdites images droite R et gauche L; ou ladite première et ladite seconde desdites images droite R et gauche L; ou ladite première et ladite seconde desdites images droite R et gauche L et ladite au moins une carte de profondeur ou de disparité DM; - le dispositif comprend des moyens adaptés pour réaliser une ou plusieurs des opérations suivantes, en fonction desdites informations de signalisation : la reconnaissance du type d'image reçu, dans le but de reconstruire correctement les deux images droite et gauche du contenu vidéo tridimensionnel ; la reconnaissance de la présence d'une ou deux cartes de profondeur ou de disparité et du type de configuration de celles-ci ; dans le cas de deux cartes de profondeur ou de disparité, l'obtention de chacune des deux cartes ; la réalisation, sur lesdites cartes de profondeur ou de disparité, d'opérations adaptées pour mettre les dimensions des cartes à des valeurs égales à celles des images du contenu vidéo ; - le dispositif comprend des moyens conçus afin de générer des images supplémentaires correspondant à des vues supplémentaires en commençant à partir desdites images droite R et gauche L et en utilisant lesdites cartes de profondeur. - le dispositif comprend des moyens adaptés pour afficher deux séquences d'images, au moins l'une d'entre elles comprenant des images synthétisées en commençant à partir d'au moins une des vues transmise et à partir d'au moins une carte de profondeur ; - le dispositif comprend des moyens adaptés pour fournir au téléspectateur la possibilité de choisir des séquences d'images concernant des points de vue plus ou moins proches, afin de varier la perception de profondeur ; - le dispositif comprend un affichage auto-stéréoscopique, et comprenant des moyens adaptés pour utiliser lesdites images supplémentaires correspondant à des vues supplémentaires afin de permettre à des téléspectateurs positionnés à des points différents dans l'espace de voir des séquences d'images différentes. L'invention concerne également un flux vidéo stéréoscopique caractérisé en ce qu'il comprend au moins une image composite C générée au moyen du procédé selon l'invention.
Comme on peut le voir sur la figure la, concernant la demande de brevet international susmentionnée (format dit « mosaïque »), dans l'image composite, il y a une région non utilisée (C5) dont les dimensions sont la moitié, à la fois horizontalement et verticalement, de celles des deux images L et R. Selon un mode de réalisation possible de l'invention, au moins une carte de profondeur (DM) peut être entrée dans ladite région non utilisée, comme cela est représenté sur la figure lb. Une carte de profondeur relative à une image x doit être entendue comme étant une image à niveaux de gris dans laquelle chaque pixel possède une valeur de luminance qui est proportionnelle à la profondeur, à savoir la coordonnée «z », du pixel lui-même, où, par convention, il est supposé que la valeur z = 0 correspond à la position sur l'écran, et des valeurs positives de z correspondent à des pixels positionnés derrière l'écran, alors que des valeurs négatives correspondent à des pixels positionnés devant l'écran. Comme la région non utilisée de l'image composite possède des dimensions horizontale et verticale qui sont la moitié des dimensions des images L et R, dans un mode de réalisation de la présente invention, il est possible d'entrer, dans une telle région, une carte de profondeur (relative à une des deux images L et R) possédant des résolutions horizontale et verticale égales à la moitié de l'image correspondante. On a observé qu'une telle perte de résolution n'est pas préjudiciable car, étant donné l'inexactitude avec laquelle des cartes de profondeur peuvent généralement être calculées ou mesurées, il est préférable de soumettre des cartes à résolution complète à des opérations de sous-échantillonnage en réalisant des interpolations entre les valeurs de pixel, car de telles opérations peuvent réduire la composante de bruit, entraînant des images reconstruites de plus haute qualité. Selon d'autres modes de réalisation de l'invention, il est possible d'entrer deux cartes de profondeur dans ladite région non utilisée (C5). La demande de brevet international susmentionnée décrit également d'autres formes de multiplexage et de démultiplexage des images stéréoscopiques L et R, auxquelles le procédé de la présente invention peut être appliqué également, bien que moins efficacement car l'espace laissé disponible pour entrer la carte de profondeur est plus petit. Par conséquent, il peut y avoir une réduction supplémentaire de la résolution de ladite carte. Bien qu'étant toujours au sein des principes généraux de la présente invention, de telles autres implémentations ne seront pas décrites dans les présentes. Un objet particulier de la présente invention est de proposer un procédé pour générer, transmettre et recevoir des images stéréoscopiques, et des dispositifs connexes, tels qu'ils sont présentés dans les revendications jointes, qui font partie intégrante de la présente description. Des objets et avantages supplémentaires de la présente invention deviendront plus évidents à partir de la description suivante de quelques modes de réalisation de celle-ci, qui sont fournis à titre d'exemple non limitatif en référence aux dessins joints, sur lesquels : la figure la représente l'image composite dans le format d'art antérieur (format mosaïque) ; la figure lb représente un exemple d'une image composite selon la présente invention ; la figure 2 représente un schéma de principe d'un dispositif pour multiplexer l'image droite, l'image gauche et une carte de profondeur en une image composite ; la figure 3 est un organigramme d'un procédé exécuté par le dispositif de la figure 2; la figure 4 représente une forme possible de désassemblage d'une image destinée à être entrée dans une image composite ; la figure 5 représente un schéma de principe d'un dispositif pour extraire l'image gauche, l'image droite et une carte de profondeur à partir de l'image composite ; la figure 6 est un organigramme d'un procédé exécuté par le dispositif de la figure 5. La figure 2 représente un schéma de principe d'un dispositif 100 pour générer un flux vidéo stéréoscopique 101 avec au moins une carte de profondeur, conformément aux variantes de l'invention.
Sur la figure 2, le dispositif 100 reçoit deux séquences d'images 102 et 103, par exemple deux flux vidéo respectivement prévus pour l'oeil gauche (L) et pour l'oeil droit (R), ainsi qu'une séquence de cartes de profondeur 106 concernant le contenu tridimensionnel associé au flux vidéo stéréoscopique. La carte de profondeur de la séquence 106 peut être associée à une des deux 30 images droite et gauche appartenant respectivement aux séquences 102 et 103, ou elle peut être créée sous forme d'interpolation entre les cartes de profondeur pour les images droite et gauche, à savoir relatives à un point de vue intermédiaire de la scène.
Dans ce premier mode de réalisation, qui va être décrit ci-dessous, la carte de profondeur est générée par l'intermédiaire d'un algorithme parmi ceux déjà connus dans l'état de l'art, qui sont fondés, par exemple, sur une comparaison entre une image droite et une image gauche, et qui retourne une matrice (à savoir la carte de profondeur), dont la taille est égale aux pixels d'une des deux images comparées, et dont les éléments possèdent une valeur qui est proportionnelle à la profondeur de chaque pixel de ladite image. Une autre technique de génération de carte de profondeur est fondée sur la mesure de la distance de l'objet dans la scène à partir de la paire de caméras vidéo qui réalisent des prises de vue de la scène : cette distance peut être facilement mesurée au moyen d'un laser. Dans le cas de flux vidéo artificiels générés à l'aide d'ordinateurs électroniques, les caméras vidéo sont virtuelles, car elles consistent en deux points de vue d'une certaine scène artificiellement créée par un ordinateur. Dans un tel cas, les cartes de profondeur sont générées par l'ordinateur et sont très précises. À titre de possibilité autre que l'exemple de la figure 2, les cartes de profondeur de la séquence 106 peuvent être générées à l'intérieur du dispositif 100. Dans ce cas, le dispositif 100, au lieu de recevoir la séquence de cartes de profondeur à partir de l'extérieur, comprend un module approprié (comme cela est représenté sur le dessin), dans lequel sont entrées les images L et R des séquences 102 et 103, et qui calcule ensuite les cartes de profondeur correspondantes. Le dispositif 100 permet d'implémenter un procédé pour multiplexer deux images des deux séquences 102 et 103 et la carte de profondeur de la séquence 106. Afin d'implémenter le procédé pour multiplexer les images droite et gauche et la carte de profondeur, le dispositif 100 comprend un module de désassemblage 104 pour diviser une image d'entrée (l'image droite dans l'exemple de la figure lb) en une pluralité de sous-images, chacune correspondant à une région de l'image reçue, un module de sous-échantillonnage et de filtrage 107 pour traiter la carte de profondeur, et un module d'assemblage 105 capable d'entrer les pixels d'images reçues, y compris la carte de profondeur, dans une image composite unique destinée à être fournie en sortie. Si aucun traitement de la séquence 106 n'est nécessaire, le module 107 peut être omis. Ceci peut être le cas, par exemple, lorsque la carte de profondeur est générée par laser et possède, dès le début, une résolution plus basse que celle des images L et R.
Un exemple d'un procédé de multiplexage implémenté par le dispositif 100 va à présent être décrit en faisant référence à la figure 3. Le procédé commence à l'étape 200. Ensuite (étape 201), une des deux images entrées (droite ou gauche) est divisée en une pluralité de régions, comme cela est représenté sur la figure 4. Dans l'exemple de la figure 4, l'image désassemblée est une image R d'un flux vidéo 720p, à savoir un format progressif avec une résolution de 1280 x 720 pixels. L'image R de la figure 4 provient du flux vidéo 103 qui transporte les images prévues pour l'oeil droit, et est désassemblée en trois régions R1, R2 et R3, de 10 préférence de forme rectangulaire. Le désassemblage de l'image R est obtenu en la divisant en deux parties de la même taille et ensuite en sous-divisant une de ces parties en deux parties de la même taille. La région R1 possède une taille de 640 x 720 pixels et est obtenue en prenant 15 tous les 640 premiers pixels de chaque rangée. La région R2 possède une taille de 640 x 360 pixels et est obtenue en prenant les pixels de 641 à 1280 des 360 premières rangées. La région R3 possède une taille de 640 x 360 pixels et est obtenue en prenant les pixels restants de l'image R, à savoir les pixels de 641 à 1280 des 360 dernières rangées. 20 Dans l'exemple de la figure 2, l'étape de désassemblage de l'image R est réalisée par le module 104, qui reçoit une image entrée R (dans ce cas l'image R) et produit trois sous-images (à savoir trois groupes de pixels) correspondant aux trois régions R1, R2 et R3. Ensuite (étapes 202, 203 et 204) l'image composite C est construite, qui 25 comprend les informations concernant les images droite et gauche et la carte de profondeur reçue ; dans l'exemple décrit dans les présentes, ladite image composite C est une image du flux vidéo stéréoscopique produit, et donc elle est également appelée image conteneur. Tout d'abord (étape 202), l'image entrée reçue par le dispositif 100 et non 30 désassemblée par le dispositif 105 (l'image gauche L dans l'exemple de la figure 2) est entrée inchangée dans une zone non divisée à l'intérieur d'une image conteneur, qui est dimensionnée de manière telle à comprendre tous les pixels des deux images entrées. Par exemple, si les images entrées possèdent une taille de 1280 x 720 pixels, alors une image conteneur appropriée pour contenir les deux sera une image de 1920 x 1080 pixels, par exemple une image d'un flux vidéo du type 1080p (format progressif avec 1920 x 1080 pixels). Dans l'exemple de la figure 1, l'image gauche L est entrée dans l'image conteneur C et positionnée dans le coin gauche supérieur. Ceci est obtenu en copiant les 1280 x 720 pixels de l'image L dans une zone Cl constituée des 1280 premiers pixels des 720 premières rangées de l'image conteneur C. Dans l'étape suivante 203, l'image désassemblée dans l'étape 201 par le module 104 est entrée dans l'image conteneur. Ceci est réalisé par le module 105 en copiant les pixels de l'image désassemblée dans l'image conteneur C dans les zones de celle-ci qui n'ont pas été occupées par l'image L, à savoir des zones externes à la zone Cl. Afin d'atteindre la meilleure compression possible et de réduire la génération d'artefacts lors de la décompression du flux vidéo, les pixels des sous-images produites par le module 104 sont copiés en préservant les relations spatiales respectives. Autrement dit, les régions R1, R2 et R3 sont copiées dans des zones respectives de l'image C sans subir de déformation, exclusivement au moyen d'opérations de translations. Un exemple de l'image conteneur C produite par le module 105 est représenté sur la figure lb. La région R1 est copiée dans les 640 derniers pixels des 720 premières rangées (zone C2), à savoir à côté de l'image L copiée auparavant. Les régions R2 et R3 sont copiées sous la zone Cl, à savoir respectivement dans les zones C3 et C4, qui comprennent respectivement les 640 premiers pixels et les 640 pixels suivants des 360 dernières rangées. Les opérations pour entrer les images L et R dans l'image conteneur n'impliquent aucune modification de l'équilibrage entre les résolutions horizontale et verticale. La technique décrite ci-dessus pour entrer des images L et R dans l'image 30 conteneur C sera ci-après définie comme étant de type à format mosaïque. Dans les pixels libres de l'image C, à savoir dans la zone C5, le module 105 entre, sous forme d'image, la carte de profondeur (DM) concernant la paire stéréoscopique L et R (étape 204). Avant l'étape 204, la carte de profondeur DM peut être sous-échantillonnée, filtrée ou traitée davantage par le module 107. La carte de profondeur est de préférence codée sous forme d'image à niveaux de gris, dont le contenu d'informations peut donc être transporté par le signal de luminance seul ; des chrominances ne sont pas utilisées et peuvent être, par exemple, nulles ; ceci permet d'obtenir une compression efficace de l'image conteneur C. Dans un mode de réalisation préféré, la carte de profondeur DM possède une résolution de 640 x 360 pixels, correspondant à un sous-échantillonnage 4 à 1 (ou décimation) de la carte de profondeur d'origine possédant une résolution 10 de 1280 x 720 pixels, correspondant à celle des images L et R. Chaque pixel de la carte sous-échantillonnée DM correspond à une région de pixel 2 x 2 de la carte d'origine. L'opération de sous-échantillonnage est typiquement réalisée en utilisant des procédures qui sont connues en elles-mêmes dans l'état de l'art. L'image C ainsi obtenue est ensuite compressée et transmise à, ou 15 sauvegardée sur, un support de stockage (par exemple un DVD). Dans ce but, des moyens de compression sont prévus qui sont adaptés pour compresser une image ou un signal vidéo, conjointement avec des moyens pour enregistrer et/ou transmettre l'image ou signal vidéo compressé. La figure 5 représente un schéma de principe d'un récepteur 1100 qui 20 décompresse l'image conteneur reçue (si elle est compressée), reconstruit les deux images droite et gauche, et les met à la disposition d'un dispositif de visualisation (par exemple un poste de télévision) permettant la réalisation de contenus 3D. Le récepteur 1100 peut être un boîtier décodeur ou un récepteur construit dans un poste de télévision. 25 Les mêmes remarques réalisées pour le récepteur 1100 sont également applicables à un lecteur d'image stocké (par exemple un lecteur DVD) qui lit une image conteneur (éventuellement compressée) et la traite afin d'obtenir une paire d'images correspondant aux images droite et gauche entrées dans l'image conteneur (éventuellement compressée) lue par le lecteur. 30 En référence à la figure 5, le récepteur reçoit (par l'intermédiaire de câble ou d'antenne) un flux vidéo stéréoscopique compressé 1101 et le décompresse au moyen d'un module de décompression 1102, obtenant ainsi un flux vidéo comprenant une séquence d'images C' correspondant aux images C. Dans le cas d'un canal idéal ou si des images conteneurs sont lues à partir d'une mémoire de masse ou un support de données (Blu-ray, CD, DVD), les images C' correspondent aux images conteneurs C transportant les informations sur les images droite et gauche et la carte de profondeur, à l'exception des éventuels artefacts introduits par le procédé de compression. Ces images C' sont alors fournies à un module de reconstruction 1103, qui exécute une reconstruction d'image et un procédé d'extraction de carte de profondeur, comme cela est décrit ci-dessous en référence à la figure 6. Il est évident que, si le flux vidéo n'est pas compressé, le module de décompression 1102 peut être omis et le signal vidéo peut être fourni directement au module de reconstruction 1103. Le procédé de reconstruction commence à l'étape 1300, lorsque l'image conteneur décompressée C' est reçue. Le module de reconstruction 1103 extrait (étape 1301) l'image gauche L en copiant les 720 x 1080 premiers pixels contigus de l'image décompressée dans une nouvelle image qui est plus petite que l'image conteneur, par exemple une image d'un flux 720p. L'image L ainsi reconstruite est envoyée à la sortie du récepteur 1100 (étape 1302). Le terme « pixels contigus » fait référence à des pixels d'une image 20 inchangée appartenant à une zone non divisée de l'image. Ensuite, le procédé permet d'extraire l'image droite R à partir de l'image conteneur C'. L'étape d'extraction de l'image droite (voir également figure 4) commence en copiant (étape 1303) la zone R1 présente dans l'image C'. De façon plus détaillée, 25 les pixels des 640 colonnes de R1 sont copiés dans les 640 premières colonnes correspondantes de la nouvelle image qui représente l'image reconstruite Rout. Ensuite, R2 est extraite (étape 1304). À partir de l'image décompressée C' (qui, comme susmentionné, correspond à l'image C de la figure lb), les pixels de la zone C3 (correspondant à la région source R2) sont sélectionnés. À ce stade, les 640 30 colonnes de pixels sont copiées dans les colonnes libres adjacentes à celles juste copiées à partir de Ri.
En ce qui concerne R3 (étape 1305), les pixels de la région C4 sont extraits à partir de l'image C' et sont copiés dans la dernière colonne libre dans le coin gauche inférieur de l'image reconstruite. À ce stade, l'image droite Rout a été complètement reconstruite et peut être produite (étape 1306). Enfin, le module de reconstruction 1103 extrait (étape 1307) la carte de profondeur en copiant, dans une zone de mémoire, les valeurs de luminance des 640 x 320 derniers pixels de l'image conteneur décompressée C', correspondant à la zone C5. Le contenu de ladite zone de mémoire est envoyé au récepteur 1100 (étape 1302) et sera utilisé par l'affichage pour générer des images interpolées non transmises dans le flux vidéo stéréoscopique. Le procédé pour reconstruire les images droite et gauche et la carte de profondeur contenues dans l'image conteneur C' est ainsi terminé (étape 1309). Ledit procédé est répété pour chaque image du flux vidéo reçu par le récepteur 1100, pour que la sortie consiste de deux flux vidéo 1104 et 1105 pour l'image droite et pour l'image gauche, respectivement, et d'un flux vidéo 1106 correspondant à la carte de profondeur. Le procédé décrit ci-dessus pour reconstruire les images droite et gauche et la carte de profondeur pour la synthèse d'image est fondé sur l'hypothèse que le démultiplexeur 1100 sait comment l'image conteneur C a été construite et peut ainsi extraire les images droite et gauche et la carte de profondeur de synthèse. Naturellement, ceci est possible si le procédé de multiplexage est standardisé. Afin de prendre en compte le fait que l'image conteneur peut être générée selon un procédé quelconque qui utilisent la solution qui est l'objet des revendications jointes, le démultiplexeur utilise de préférence des informations de signalisation contenues sous forme de métadonnées dans une région prédéfinie de l'image composite ou dans le flux vidéo, qui identifient le type de flux vidéo généré pour connaître la manière de décompacter le contenu de l'image composite et la manière de reconstruire les images droite et gauche et la carte de profondeur pour la synthèse d'images stéréoscopiques supplémentaires.
Après avoir décodé la signalisation, le démultiplexeur connaîtra la position de l'image inchangée (par exemple l'image gauche dans les exemples décrits ci-dessus), ainsi que les positions des régions dans lesquelles l'autre image a été désassemblée (par exemple l'image droite dans les exemples décrits ci-dessus) et la position de la carte de profondeur. Avec ces informations, le démultiplexeur peut extraire l'image inchangée (par exemple l'image gauche) et la carte de profondeur et reconstruire l'image désassemblée (par exemple l'image droite). Bien que la présente invention ait été illustrée jusqu'à présent en faisant référence à certains modes de réalisation préférés et avantageux, il est évident qu'elle n'est pas limitée à de tels modes de réalisation et que de nombreux changements peuvent lui être apportés par l'homme du métier souhaitant combiner en une image composite deux images relatives à deux perspectives différentes (droite et gauche) d'un objet ou d'une scène et la carte de profondeur associée. Dans une variante possible, par exemple, au lieu d'entrer, dans l'image composite C, la carte de profondeur relative à une des deux images, une carte dite de « disparité » ou de « déplacement » est entrée. Selon des hypothèses appropriées (les prises de vue sont effectuées avec des caméras vidéo équipées d'optiques identiques), une telle carte peut être facilement dérivée de la carte de profondeur, à laquelle elle peut être facilement associée. Si les deux images droite et gauche sont affichées superposées sur le même affichage et des lunettes ne sont pas utilisées pour les séparer, on peut facilement réaliser que, afin d'obtenir une image à partir de l'autre, il est nécessaire de déplacer les objets d'une certaine quantité. Plus précisément, afin d'obtenir l'image droite en commençant à partir de l'image gauche, il est nécessaire de déplacer les objets situés derrière l'écran vers la droite d'une quantité qui augmente avec la profondeur à laquelle de tels objets sont situés. Les objets qui sont situés exactement sur l'écran n'ont pas besoin d'être déplacés, alors que les objets situés devant l'écran doivent être déplacés vers la gauche d'une quantité qui augmente en fonction de la distance à partir de l'écran. Dans les conditions mentionnées auparavant, entre la profondeur P et la disparité D, une relation du type suivant existe : D = I * P/(P + PO) où I est la distance interoculaire et PO est la distance du téléspectateur par rapport à l'écran. Il faut noter que, pour P se rapprochant de l'infinité, D se rapprochera de I, et pour P = 0 (objets situés sur l'écran), D sera égal à 0. Naturellement, afin de reconstruire une image intermédiaire, entre les images gauche et droite, il est possible d'adopter la même procédure décrite ci-dessus, mais les valeurs de disparité devront être multipliées par un coefficient c entre 0 et 1, qui est une fonction de la distance du point de vue intermédiaire par rapport au point de vue de l'image de référence (la gauche dans ce cas). Il faut noter que, lorsque l'image droite est reconstruite en commençant à 10 partir de la gauche conformément à la description ci-dessus, ou lorsqu'une image intermédiaire est reconstruite, certaines zones sont laissées non couvertes, qui correspondent aux pixels d'objets présents dans l'image droite mais non dans l'image gauche, car ils sont cachés par d'autres objets devant eux (appelés « occlusions »). Afin de réaliser une reconstruction complète d'une image intermédiaire, il 15 serait donc nécessaire d'avoir à disponibilité les images droite et gauche ainsi que les cartes de profondeur ou de disparité. De cette manière, en fait, les zones vides (occultées) peuvent être remplies en prenant les pixels correspondants à partir de l'autre image et en les déplaçant d'une quantité égale à la disparité relative multipliée par le coefficient 1 - c. 20 Comme on peut l'entendre à partir de la description ci-dessus, une autre variante possible de l'invention peut nécessiter l'entrée de deux cartes de profondeur ou de disparité, au lieu d'une. De telles cartes, faisant respectivement référence à l'image gauche et à l'image droite, peuvent être entrées dans le même espace où une seule carte a été entrée dans le cas précédent, en utilisant des techniques connues de 25 mise en paquet d'images telles que, par exemple, côte à côte ou haut et bas. Dans ce premier cas, la résolution horizontale des deux cartes est réduite de moitié, alors que, dans ce dernier cas, la résolution verticale est réduite de moitié. Il est également possible d'utiliser une variante supplémentaire de la technique de mise en paquet d'images définie ci-dessus par « format mosaïque ». 30 Les procédures pour entrer les deux cartes côté génération et pour extraire les deux cartes côté réception peuvent être facilement dérivées de celles décrites en faisant référence au cas à carte unique, avec des variations évidentes bien connues de l'homme du métier.
Naturellement, la signalisation présente dans le flux vidéo doit également être capable de discerner la présence d'une ou de deux cartes. Par conséquent, ladite signalisation doit contenir des informations adaptées pour permettre la distinction entre au moins deux des types suivants d'images composites : 1) image composite du type à format mosaïque sans carte de profondeur ou de disparité (cas de la figure la) ; 2) image composite du type à format mosaïque avec une carte de profondeur ou de disparité (case de la figure lb) ; et éventuellement également : 3) image composite du type à format mosaïque avec deux cartes de profondeur ou de disparité en configuration haut et bas ; 4) image composite du type à format mosaïque avec deux cartes de profondeur ou de disparité en configuration côte à côte ; 5) image composite du type à format mosaïque avec deux cartes de profondeur ou de disparité en configuration à format mosaïque. Le récepteur comprend de préférence un ou plusieurs blocs de traitement adaptés pour réaliser une ou plusieurs des opérations suivantes, en fonction des informations de signalisation : - la reconnaissance du type d'image reçu, dans le but de reconstruire 20 correctement les deux images droite et gauche du contenu vidéo tridimensionnel, comme cela est décrit ci-dessus ; - la reconnaissance de la présence d'une ou deux cartes de profondeur ou de disparité et du type de configuration de celles-ci ; - s'il y a deux cartes de profondeur ou de disparité, l'obtention de chacune des 25 deux cartes ; - la réalisation, sur les cartes de profondeur ou de disparité, d'opérations adaptées pour mettre les dimensions des cartes à des valeurs égales à celles des images du contenu vidéo. Ces opérations peuvent être, par exemple, d'un type inverse à un sous-échantillonnage, par exemple des opérations d'interpolation.
30 D'autres variantes peuvent concerner l'implémentation physique de l'invention. Par exemple, les modules électroniques qui implémentent les dispositifs décrits ci-dessus, en particulier le dispositif 100 et le récepteur 1100, peuvent être sous-divisés et distribués de façon variée ; en outre, ils peuvent être prévus sous forme de modules matériels ou sous forme d'algorithmes logiciels implémentés par un processeur, en particulier un processeur vidéo équipé de zones de mémoire appropriées pour stocker temporairement les images entrées reçues. Ces modules peuvent donc exécuter en parallèle ou en séries une ou plusieurs des étapes de traitement vidéo des procédés de multiplexage et démultiplexage d'image selon la présente invention. Il est également évident que, bien que les modes de réalisation préférés fassent référence au multiplexage de deux flux vidéo 720p en un flux vidéo 1080p, d'autres formats peuvent être utilisés également. Il est évident que l'ordre dans lequel les procédures de multiplexage et de démultiplexage représentées sur les figures 3 et 6 sont exécutées est purement illustratif : il peut être modifié pour une raison quelconque, sans changer l'essence du procédé. L'invention n'est pas non plus limitée à un type particulier d'arrangement de l'image composite, car différentes solutions pour générer l'image composite peuvent offrir des avantages et/ou désavantages spécifiques. L'invention, avec toutes ses variantes, propose un format universel pour générer, transporter et reproduire des contenus 3D sur un type quelconque d'affichage actuel ou futur. Dans le cas d'un dispositif de reproduction 2D, le processeur vidéo du dispositif de reproduction éliminera simplement les images R et les cartes de profondeur (DM ou DM1 et DM2) qui peuvent être présentes à la sortie du récepteur 1100 et affichera, suivant la mise à échelle, seulement la séquence d'images L sur un dispositif de visualisation associé. Ceci s'applique également au cas d'un dispositif de reproduction 3D dans lequel l'utilisateur a activé le mode d'affichage 2D. Un dispositif de reproduction 3D dans lequel le mode d'affichage 3D a été activé peut présenter deux comportements différents, suivant le fait que la profondeur de la scène peut être réglée (réduite) ou non. Dans ce premier cas, le processeur vidéo utilisera les deux séquences d'images L et R pour générer l'effet tridimensionnel. Dans ce dernier cas, le processeur vidéo utilisera les cartes de profondeur (une ou deux) incluses dans les images composites C' associées à chaque paire d'images stéréoscopiques R et L pour générer des vues intermédiaires, entre L et R, obtenant ainsi des images tridimensionnelles possédant une profondeur variable, inférieure à celle pouvant être obtenue à partir de L et R. Ce dernier cas est représenté par des lecteurs auto-stéréoscopiques, qui nécessitent un nombre très important de vues (quelques dizaines) pour générer l'effet tridimensionnel pour des téléspectateurs positionnés à des points différents dans l'espace devant l'affichage. Dans ce cas, le processeur vidéo utilisera les cartes de profondeur (une ou deux) incluses dans les images composites C', conjointement avec les images L et R elles-mêmes, pour synthétiser une série d'autres images. Devant l'affichage, il y a un nombre de verres ou de barrières, de sorte que, à un point quelconque dans l'espace où la vision stéréoscopique est possible, le téléspectateur perçoive juste une paire desdites images. Ainsi, le processeur vidéo du dispositif de reproduction peut comprendre des moyens adaptés pour envoyer, à l'affichage, deux séquences d'images, dont au moins une est constituée d'images synthétisées en commençant à partir d'au moins une des vues transmises et à partir d'au moins une carte de profondeur. Dans ce cas, il comprend également de préférence des moyens adaptés pour fournir au téléspectateur la possibilité de choisir des séquences d'images relatives à des points de vue plus ou moins proches, afin de varier la perception de profondeur. Le processeur vidéo du dispositif de reproduction peut également comprendre des moyens adaptés pour générer des images supplémentaires correspondant à des vues supplémentaires, pour que les téléspectateurs positionnés à des points différents dans l'espace puissent voir différentes séquences d'images par l'intermédiaire d'un affichage auto-stéréoscopique associé. Aucun des formats proposés jusqu'à présent n'offre une telle flexibilité et ampleur d'utilisation, tout en même temps, en garantissant toujours une très bonne qualité de reproduction en ce qui concerne l'équilibre des résolutions horizontale et verticale et d'attribution de résolution correcte aux images stéréoscopiques et aux cartes de profondeur associées. Les opérations de reconstruction décrites ci-dessus peuvent avoir lieu partiellement dans le dispositif récepteur et partiellement dans le dispositif d'affichage. La présente invention peut avantageusement être au moins partiellement réalisée par l'intermédiaire de programmes d'ordinateur comprenant des moyens de codage pour implémenter une ou plusieurs étapes des procédés décrits ci-dessus, lorsque de tels programmes sont exécutés par un ordinateur. Il faut donc entendre que la portée de protection s'étend auxdits programmes d'ordinateur ainsi qu'à des moyens lisibles par ordinateur qui comprennent des messages enregistrés, lesdits 5 moyens lisibles par ordinateur comprenant des moyens de codage de programme pour implémenter une ou plusieurs étapes des procédés décrits ci-dessus, lorsque lesdits programmes sont exécutés par un ordinateur. L'exemple de mode de réalisation décrit ci-dessus peut être soumis à des variations sans s'éloigner de la portée de protection de la présente invention, y compris toutes les conceptions 10 équivalentes connues de l'homme du métier. Les éléments et caractéristiques présentés dans les divers modes de réalisation préférés peuvent être associés les uns aux autres sans toutefois s'éloigner de la portée de protection de la présente invention. À partir de la description ci-dessus, l'homme du métier pourra produire 15 l'objet de l'invention sans introduire de détails d'implémentation supplémentaires.

Claims (31)

  1. REVENDICATIONS1. Procédé pour générer un flux vidéo stéréoscopique (101) comprenant des images composites (C), lesdites images composites (C) comprenant des informations sur une image droite (R) et une image gauche (L) d'un contenu tridimensionnel vidéo, dans lequel : des pixels de ladite image droite (R) et des pixels de ladite image gauche (L) sont sélectionnés, et lesdits pixels sélectionnés sont entrés dans une image composite (C) dudit flux vidéo stéréoscopique, le procédé étant caractérisé en ce que tous les pixels de ladite image droite (R) et tous les pixels de ladite image gauche (L) sont entrés dans ladite image composite (C) en laissant une desdites deux images inchangées, en divisant l'autre en un nombre de régions (R1, R2, R3) possédant une superficie totale égale à celle de ladite autre image (R), et en entrant lesdites régions dans ladite image composite (C), dans lequel ladite image composite (C) possède des dimensions plus importantes que ce qui est nécessaire pour entrer tous les pixels de ladite image gauche (L) et de ladite image droite (R), et dans lequel, dans les pixels de l'image composite (C) restant après ladite entrée, au moins une carte de profondeur ou de disparité (DM) est entrée qui est relative à la profondeur ou la disparité des pixels dudit contenu vidéo tridimensionnel, lesdites cartes visant à reconstruire, en réception, des images non transmises dans ledit flux stéréoscopique.
  2. 2. Procédé selon la revendication 1, dans lequel ladite au moins une carte de profondeur ou de disparité (DM) est codée sous forme d'image à niveaux de gris.
  3. 3. Procédé selon la revendication 2, dans lequel le contenu d'informations vidéo de ladite au moins une carte de profondeur ou de disparité est transporté par un seul signal de luminance, sans utiliser de signal de chrominance.
  4. 4. Procédé selon l'une quelconque des revendications précédentes, dans lequel ladite au moins une carte de profondeur ou de disparité (DM) possède une résolutioninférieure à celle d'une version d'origine de celle-ci, la résolution de cette dernière étant égale à celle desdites images gauche (L) et image droite (R).
  5. 5. Procédé selon la revendication 4, dans lequel ladite au moins une carte de profondeur ou de disparité (DM) est obtenue en soumettant ladite carte de profondeur d'origine à un sous-échantillonnage 4 à 1.
  6. 6. Procédé selon l'une quelconque des revendications précédentes, dans lequel ladite au moins une carte de profondeur ou de disparité (DM) est une carte de profondeur ou de disparité associée à l'une des deux images droite (R) ou gauche (L), ou associée à un point de vue intermédiaire, entre L et R.
  7. 7. Procédé selon l'une quelconque des revendications précédentes, dans lequel ladite au moins une carte de profondeur ou de disparité (DM) comprend une carte de profondeur ou de disparité associée à une image droite (R) et une carte de profondeur ou de disparité associée à une image gauche (L).
  8. 8. Procédé selon la revendication 7, dans lequel lesdites cartes de profondeur ou de disparité associées à une image droite (R) et une image gauche (L) sont entrées dans lesdits pixels restants de l'image composite (C) au moyen de techniques de mise en paquet d'images.
  9. 9. Procédé selon l'une quelconque des revendications précédentes, dans lequel, si ledit nombre de régions est trois, lesdites régions sont obtenues par l'intermédiaire des étapes de : - division de ladite autre image (R) en deux parties possédant la même dimension horizontale (R1, R2, R3) ; - division d'une desdites deux parties (R2, R3) en deux parties possédant la même dimension verticale (R2, R3). 30
  10. 10. Procédé selon l'une quelconque des revendications précédentes, dans lequel des informations de signalisation identifiant le type de flux vidéo généré sont entréessous forme de métadonnées dans ladite image composite (C) ou ledit flux vidéo stéréoscopique.
  11. 11. Procédé selon la revendication 10, dans lequel lesdites informations de signalisation sont adaptées afin de permettre de distinguer entre au moins deux des types suivant d'images composites : - image composite du type à format mosaïque sans cartes de profondeur ; - image composite du type à format mosaïque avec une carte de profondeur ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration côte à côte ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration haut et bas ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration à format mosaïque. 15
  12. 12. Dispositif pour générer un flux vidéo stéréoscopique (101) comprenant des images composites (C), lesdites images composites (C) comprenant des informations sur une image droite (R), une image gauche (L), caractérisé en ce qu'il comprend des moyens pour implémenter les étapes du procédé selon l'une quelconque des 20 revendications précédentes.
  13. 13. Procédé pour reconstruire au moins une paire d'images d'un flux vidéo stéréoscopique commençant à partir d'une image composite (C), ladite image composite (C) comprenant des informations sur une image droite (R), une image 25 gauche (L), le procédé comprenant les étapes de : - génération d'une première image desdites images droite (R) et gauche (L) en copiant un seul groupe de pixels contigus à partir d'une première région (Cl) de ladite image composite, - génération de l'autre image desdites images droite (R) et gauche (L) en copiant 30 d'autres groupes de pixels contigus à partir d'un nombre de régions distinctes (C2, C3, C4) de ladite image composite, ledit nombre de régions distinctes étant différent de ladite première région (C 1) ;- génération d'au moins une carte de profondeur ou de disparité (DM) en copiant au moins un groupe de pixels contigus à partir d'une région supplémentaire (C5) de ladite image composite, différente de ladite première région et dudit nombre de régions distinctes.
  14. 14. Procédé selon la revendication 13, dans lequel, si ledit nombre de régions est trois : - une (C2) desdites régions de l'image composite (C) possède la même dimension verticale que ladite première région (Cl) et la moitié de sa dimension horizontale ; - les deux autres (C3, C4) desdites régions de l'image composite (C) possèdent des dimensions horizontale et verticale égales, et la moitié de la dimension verticale de ladite première région (Cl).
  15. 15. Procédé selon la revendication 13, dans lequel ladite au moins une carte de 15 profondeur ou de disparité (DM) est générée en commençant à partir d'une image à niveaux de gris dérivée d'un signal de luminance contenu dans les pixels contigus de ladite région supplémentaire (C5).
  16. 16. Procédé selon la revendication 15, comprenant une étape d'augmentation des 20 dimensions horizontale et verticale de ladite au moins une carte de profondeur ou de disparité (DM) jusqu'à une dimension égale à celle desdites images droite (R) et gauche (L).
  17. 17. Procédé selon la revendication 13, comprenant une étape d'obtention, à partir de 25 ladite image composite (C) ou à partir du flux vidéo, d'informations de signalisation adaptées pour reconnaître le type de flux vidéo généré.
  18. 18. Procédé selon la revendication 17, dans lequel lesdites informations de signalisation sont adaptées afin de distinguer entre au moins deux des types suivants 30 d'image composites : - image composite du type à format mosaïque sans cartes de profondeur ; - image composite du type à format mosaïque avec une carte de profondeur ;- image composite du type à format mosaïque avec deux cartes de profondeur en configuration côte à côte ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration haut et bas ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration à format mosaïque.
  19. 19. Dispositif pour reconstruire au moins une paire d'images d'un flux vidéo stéréoscopique commençant à partir d'une image composite (C), ladite image 10 composite (C) comprenant des informations sur une image droite (R), une image gauche (L), le dispositif comprenant : - des moyens pour générer une première image desdites images droite (R) et gauche (L) en copiant un seul groupe de pixels contigus à partir d'une première région (Cl) de ladite image composite, 15 - des moyens pour générer l'autre image desdites images droite (R) et gauche (L) en copiant d'autres groupes de pixels contigus à partir d'un nombre de régions distinctes (C2, C3, C4) de ladite image composite, ledit nombre de régions distinctes étant différent de ladite première région (C 1) ; - des moyens pour générer au moins une carte de profondeur ou de disparité (DM) en 20 copiant au moins un groupe de pixels contigus à partir d'une région supplémentaire (C5) de ladite image composite, différent de ladite première région et dudit nombre de régions distinctes.
  20. 20. Dispositif selon la revendication 19, dans lequel, si ledit nombre de régions est 25 trois : - une (C2) desdites régions de l'image composite (C) possède la même dimension verticale que ladite première région (Cl) et la moitié de sa dimension horizontale ; - les deux autres (C3, C4) desdites régions de l'image composite (C) possèdent des dimensions horizontale et verticale égales, et la moitié de la dimension verticale de 30 ladite première région (C1).
  21. 21. Dispositif selon la revendication 19, dans lequel lesdits moyens pour générer au moins une carte de profondeur ou de disparité (DM) utilisent une image à niveaux degris dérivée d'un signal de luminance contenu dans les pixels contigus de ladite région supplémentaire (C5).
  22. 22. Dispositif selon la revendication 21, comprenant des moyens pour augmenter les dimensions horizontale et verticale de ladite au moins une carte de profondeur ou de disparité (DM) jusqu'à une dimension égale à celle desdites images droite (R) et gauche (L).
  23. 23. Dispositif selon la revendication 19, comprenant des moyens adaptés pour reconnaître le type de flux vidéo reçu en fonction d'informations de signalisation identifiant ledit type de flux, contenues dans ladite image composite (C) ou dans ledit flux vidéo.
  24. 24. Dispositif selon la revendication 23, dans lequel lesdites informations de signalisation permettent de distinguer entre au moins deux des types suivants d'image composites : - image composite du type à format mosaïque sans cartes de profondeur ; - image composite du type à format mosaïque avec une carte de profondeur ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration côte à côte ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration haut et bas ; - image composite du type à format mosaïque avec deux cartes de profondeur en configuration à format mosaïque. 25
  25. 25. Dispositif selon la revendication 24, comprenant des moyens qui, en fonction desdites informations utiles pour distinguer un type d'image composite, sont adaptés pour produire : - seulement ladite première image desdites images droite (R) et gauche (L) ; ou 30 - ladite première et ladite seconde desdites images droite (R) et gauche (L) ; ou - ladite première et ladite seconde desdites images droite (R) et gauche (L) et ladite au moins une carte de profondeur ou de disparité (DM).
  26. 26. Dispositif selon la revendication 23, comprenant des moyens adaptés pour réaliser une ou plusieurs des opérations suivantes, en fonction desdites informations de signalisation : - la reconnaissance du type d'image reçu, dans le but de reconstruire correctement les deux images droite et gauche du contenu vidéo tridimensionnel ; - la reconnaissance de la présence d'une ou deux cartes de profondeur ou de disparité et du type de configuration de celles-ci ; - dans le cas de deux cartes de profondeur ou de disparité, l'obtention de chacune des deux cartes ; - la réalisation, sur lesdites cartes de profondeur ou de disparité, d'opérations adaptées pour mettre les dimensions des cartes à des valeurs égales à celles des images du contenu vidéo.
  27. 27. Dispositif selon la revendication 19, comprenant des moyens conçus afin de générer des images supplémentaires correspondant à des vues supplémentaires en commençant à partir desdites images droite (R) et gauche (L) et en utilisant lesdites cartes de profondeur.
  28. 28. Dispositif selon la revendication 27, comprenant des moyens adaptés pour afficher deux séquences d'images, au moins l'une d'entre elles comprenant des images synthétisées en commençant à partir d'au moins une des vues transmise et à partir d'au moins une carte de profondeur.
  29. 29. Dispositif selon la revendication 28, comprenant des moyens adaptés pour fournir au téléspectateur la possibilité de choisir des séquences d'images concernant des points de vue plus ou moins proches, afin de varier la perception de profondeur.
  30. 30. Dispositif selon la revendication 27, comprenant un affichage auto-stéréoscopique, et comprenant des moyens adaptés pour utiliser lesdites images supplémentaires correspondant à des vues supplémentaires afin de permettre à des téléspectateurs positionnés à des points différents dans l'espace de voir des séquences d'images différentes.
  31. 31. Flux vidéo stéréoscopique (1101) caractérisé en ce qu'il comprend au moins une image composite (C) générée au moyen du procédé selon l'une quelconque des revendications 1 à 11.
FR1358295A 2012-09-06 2013-08-30 Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes Active FR2995165B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1451958A FR3002104B1 (fr) 2012-09-06 2014-03-10 Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2012138174/08A RU2012138174A (ru) 2012-09-06 2012-09-06 Способ компоновки формата цифрового стереоскопического видеопотока 3dz tile format
PCT/IB2013/051782 WO2014037822A1 (fr) 2012-09-06 2013-03-06 Procédé de génération, de transmission et de réception d'images stéréoscopiques et dispositifs associés

Publications (2)

Publication Number Publication Date
FR2995165A1 true FR2995165A1 (fr) 2014-03-07
FR2995165B1 FR2995165B1 (fr) 2017-12-29

Family

ID=48182965

Family Applications (2)

Application Number Title Priority Date Filing Date
FR1358295A Active FR2995165B1 (fr) 2012-09-06 2013-08-30 Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes
FR1451958A Active FR3002104B1 (fr) 2012-09-06 2014-03-10 Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes

Family Applications After (1)

Application Number Title Priority Date Filing Date
FR1451958A Active FR3002104B1 (fr) 2012-09-06 2014-03-10 Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes

Country Status (16)

Country Link
US (1) US9723290B2 (fr)
JP (1) JP2015534745A (fr)
KR (1) KR20150053774A (fr)
CN (1) CN104604222B (fr)
AT (1) AT513369A3 (fr)
CH (1) CH706886A2 (fr)
DE (1) DE102013217826A1 (fr)
ES (1) ES2446165B1 (fr)
FR (2) FR2995165B1 (fr)
GB (1) GB2507844B (fr)
IT (1) ITTO20130679A1 (fr)
NL (1) NL2011349C2 (fr)
PL (1) PL405234A1 (fr)
RU (1) RU2012138174A (fr)
TW (1) TWI511525B (fr)
WO (1) WO2014037822A1 (fr)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11277598B2 (en) * 2009-07-14 2022-03-15 Cable Television Laboratories, Inc. Systems and methods for network-based media processing
US9978341B2 (en) * 2014-12-23 2018-05-22 Mediatek Inc. Visual data processing method and visual data processing system which can perform a process operation according to a gazing point
CA2992304A1 (fr) * 2015-07-15 2017-01-19 Blinxel Pty Ltd Systeme et procede pour un traitement d'image
CN109407835B (zh) * 2015-08-18 2023-01-13 奇跃公司 虚拟和增强现实系统和方法
KR102647336B1 (ko) 2019-04-01 2024-03-14 구글 엘엘씨 동적 깊이 이미지를 캡처 및 편집하는 기술
US11127115B2 (en) 2019-12-13 2021-09-21 NextVPU (Shanghai) Co., Ltd. Determination of disparity

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529400B2 (en) * 2002-04-25 2009-05-05 Sharp Kabushiki Kaisha Image encoder, image decoder, record medium, and image recorder
US7636088B2 (en) * 2003-04-17 2009-12-22 Sharp Kabushiki Kaisha 3-Dimensional image creation device, 3-dimensional image reproduction device, 3-dimensional image processing device, 3-dimensional image processing program, and recording medium containing the program
US8487982B2 (en) * 2007-06-07 2013-07-16 Reald Inc. Stereoplexing for film and video applications
EP2235957A1 (fr) * 2007-12-20 2010-10-06 Koninklijke Philips Electronics N.V. Procédé de codage d'image pour un rendu stéréoscopique
KR100950046B1 (ko) * 2008-04-10 2010-03-29 포항공과대학교 산학협력단 무안경식 3차원 입체 tv를 위한 고속 다시점 3차원 입체영상 합성 장치 및 방법
CN102017628B (zh) * 2008-04-25 2013-10-09 汤姆逊许可证公司 深度信号的编码
CN101668219B (zh) * 2008-09-02 2012-05-23 华为终端有限公司 3d视频通信方法、发送设备和系统
CN104702960B (zh) * 2009-01-26 2018-01-02 汤姆森特许公司 用于视频解码的装置
US8558871B2 (en) * 2009-10-02 2013-10-15 Panasonic Corporation Playback device that can play stereoscopic video, integrated circuit, playback method and program
IT1397591B1 (it) 2009-12-21 2013-01-16 Sisvel Technology Srl Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.
IT1401367B1 (it) * 2010-07-28 2013-07-18 Sisvel Technology Srl Metodo per combinare immagini riferentesi ad un contenuto tridimensionale.
US9571811B2 (en) * 2010-07-28 2017-02-14 S.I.Sv.El. Societa' Italiana Per Lo Sviluppo Dell'elettronica S.P.A. Method and device for multiplexing and demultiplexing composite images relating to a three-dimensional content
WO2012023330A1 (fr) * 2010-08-16 2012-02-23 富士フイルム株式会社 Dispositif de traitement d'image, procédé de traitement d'image, programme de traitement d'image et support d'enregistrement
EP2426635A1 (fr) * 2010-09-01 2012-03-07 Thomson Licensing Procédé de tatouage numérique de vidéo en lecture libre avec détection de tatouage numérique invisible
IT1402995B1 (it) * 2010-11-12 2013-09-27 Sisvel Technology Srl Metodo di elaborazione di un contenuto video tridimensionale e relativo apparato
DE112011103496T5 (de) * 2010-11-15 2013-08-29 Lg Electronics Inc. Verfahren zum Umwandeln eines Einzelbildformats und Vorrichtung zur Benutzung dieses Verfahrens
IT1404059B1 (it) * 2011-02-14 2013-11-08 Sisvel Technology Srl Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.

Also Published As

Publication number Publication date
FR3002104B1 (fr) 2017-06-16
NL2011349A (en) 2014-03-10
AT513369A3 (de) 2018-08-15
ES2446165B1 (es) 2015-03-23
AT513369A2 (de) 2014-03-15
GB201314206D0 (en) 2013-09-25
US20150215599A1 (en) 2015-07-30
FR3002104A1 (fr) 2014-08-15
RU2012138174A (ru) 2014-03-27
NL2011349C2 (en) 2014-05-08
WO2014037822A1 (fr) 2014-03-13
PL405234A1 (pl) 2014-03-17
ES2446165R1 (es) 2014-07-11
DE102013217826A1 (de) 2014-03-06
ITTO20130679A1 (it) 2014-03-07
US9723290B2 (en) 2017-08-01
CN104604222A (zh) 2015-05-06
TWI511525B (zh) 2015-12-01
GB2507844A (en) 2014-05-14
FR2995165B1 (fr) 2017-12-29
GB2507844B (en) 2017-07-19
JP2015534745A (ja) 2015-12-03
TW201415864A (zh) 2014-04-16
CH706886A2 (it) 2014-03-14
CN104604222B (zh) 2017-03-29
KR20150053774A (ko) 2015-05-18
ES2446165A2 (es) 2014-03-06

Similar Documents

Publication Publication Date Title
FR3002104A1 (fr) Procede pour generer, transmettre et recevoir des images stereoscopiques, et dispositifs connexes
US8218855B2 (en) Method and apparatus for receiving multiview camera parameters for stereoscopic image, and method and apparatus for transmitting multiview camera parameters for stereoscopic image
US9549163B2 (en) Method for combining images relating to a three-dimensional content
US8780173B2 (en) Method and apparatus for reducing fatigue resulting from viewing three-dimensional image display, and method and apparatus for generating data stream of low visual fatigue three-dimensional image
FR3017021A1 (fr) Procede et dispositif pour generer, stocker, transmettre, recevoir et reproduire des cartes de profondeur en utilisant des composants couleur d'une image appartenant a un flux video tridimensionnel
US8538134B2 (en) Method and apparatus for receiving and generating image data stream including parameters for displaying local three dimensional image
JP5777033B2 (ja) 立体画像を生成、送信、および受信する方法、並びに関連装置
WO2012150407A1 (fr) Procédé de codage et de décodage d'images intégrales, dispositif de codage et de décodage d'images intégrales et programmes d'ordinateur correspondants
WO2012156940A1 (fr) Procédé de génération, transmission et réception d'images stéréoscopiques, et dispositifs correspondants
FR2968108A1 (fr) Procede de reduction de la taille d’une image stereoscopique
JP2012134885A (ja) 画像処理装置及び画像処理方法
FR2962291A1 (fr) Procede de traitement d'images 3d, et systeme correspondant
US8526714B2 (en) Method and system for reconstructing a stereoscopic image stream from quincunx sampled frames
FR2992513A1 (fr) Procede et systeme de restitution de contenus video
WO2008142235A1 (fr) Procede de traitement d'image pour la synthese d'image autostereoscopique
Vetro 3D in the Home: Mass Market or Niche?
Shi Optimisation du système de 3DTV basé sur la technique d'imagerie intégrale
EP2509328A2 (fr) Procédé et appareil pour générer une image 3D à partir d'une image 2D
FR2978318A1 (fr) Procede et dispositif d'optimisation du positionnement d'une fenetre d'incrustation d'un objet sur une sequence d'images stereoscopiques
FR2988961A1 (fr) Procede et systeme de restitution de vues d'une video multivues

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLSC Publication of the preliminary search report

Effective date: 20161021

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10

PLFP Fee payment

Year of fee payment: 11