FR2973980A1 - Method for detection of composite format utilized to format sequence of three-dimensional video, received by decoder, involves utilizing format to format sequence of images if comparison between threshold and correlation satisfies condition - Google Patents
Method for detection of composite format utilized to format sequence of three-dimensional video, received by decoder, involves utilizing format to format sequence of images if comparison between threshold and correlation satisfies condition Download PDFInfo
- Publication number
- FR2973980A1 FR2973980A1 FR1157508A FR1157508A FR2973980A1 FR 2973980 A1 FR2973980 A1 FR 2973980A1 FR 1157508 A FR1157508 A FR 1157508A FR 1157508 A FR1157508 A FR 1157508A FR 2973980 A1 FR2973980 A1 FR 2973980A1
- Authority
- FR
- France
- Prior art keywords
- image
- format
- images
- composite
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/007—Aspects relating to detection of stereoscopic image format, e.g. for adaptation to the display format
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
Description
La présente invention concerne un procédé et dispositif de détection du format composite utilisé pour formater une séquence d'images stéréoscopiques. Un tel procédé et dispositif est utilisé, notamment, pour obtenir un bon positionnement des images gauche et droite de chacune des images stéréoscopiques. The present invention relates to a method and device for detecting the composite format used to format a sequence of stereoscopic images. Such a method and device is used, in particular, to obtain a good positioning of the left and right images of each of the stereoscopic images.
L'invention est adaptée, notamment, aux équipements de décodage vidéo équipés de prises HDMI 1.3 qui sont largement déployés à ce jour. De manière plus générale, elle est adaptée à tout équipement qui n'est pas prévu pour traiter la signalisation relative aux séquences d'images stéréoscopiques qui est transmise lors de la diffusion de ces séquences ou encore à des conditions de transmission qui ne permettraient pas la réception correcte de cette signalisation par un équipement. Une séquence d'images stéréoscopiques, encore appelée vidéo 3D, procure à un utilisateur un effet de profondeur des objets d'une scène lorsque les images de cette séquence sont visualisées sur un écran de visualisation. Pour obtenir cet effet, deux images, dites gauche et droite, sont nécessaires par image de la séquence. Ces images droite et gauche de la scène sont acquises par deux caméras qui sont spatialement décalées l'une de l'autre de quelques centimètres pour recréer l'effet stéréoscopique de la vision humaine. Une vidéo 3D peut être codée selon la norme MPEG4/H264 et être haute définition (résolution 1920x1080). On parle alors de vidéo 3D 1080i. Une vidéo 3D peut être diffusée par satellite, câble ou encore par ADSL selon une chaîne de diffusion représentée schématiquement par la Fig. 1. Cette chaîne de diffusion comporte un codeur COD de vidéo 3D, un canal de diffusion C et un décodeur DEC qui est relié via, par exemple, un lien conforme à une norme HDMI, à un écran de visualisation 3DTV prévu pour visualiser des vidéos 3D. The invention is adapted, in particular, to video decoding equipment equipped with HDMI 1.3 sockets which are widely deployed to date. More generally, it is suitable for any equipment that is not intended to process the signaling relating to stereoscopic image sequences that is transmitted during the broadcast of these sequences or to transmission conditions that would not allow the transmission of these sequences. correct reception of this signaling by equipment. A sequence of stereoscopic images, also called 3D video, provides a user with a depth effect of the objects of a scene when the images of this sequence are viewed on a viewing screen. To obtain this effect, two images, called left and right, are needed per image of the sequence. These right and left images of the scene are acquired by two cameras that are spatially offset from each other by a few centimeters to recreate the stereoscopic effect of human vision. A 3D video can be coded according to the MPEG4 / H264 standard and be high definition (1920x1080 resolution). We are talking about 3D 1080i video. A 3D video can be broadcast by satellite, cable or by ADSL according to a broadcasting chain shown schematically in FIG. 1. This broadcast system comprises a 3D video COD coder, a C broadcast channel and a DEC decoder which is connected via, for example, a link conforming to an HDMI standard, to a 3DTV viewing screen provided for viewing videos. 3D.
L'utilisateur a alors à chausser une paire de lunettes obturantes et actives pour recréer l'effet stéréoscopique des objets de la scène lorsque l'image droite et l'image gauche relatives à une même image de la vidéo 3D sont visualisées sur cet écran par alternance. Une vidéo 3D est encodée par le codeur COD pour que le flux résultant puisse 30 être diffusé dans un canal de diffusion C dont la bande passante n'excède pas celle couramment utilisée pour diffuser des flux vidéo classiques (non 3D). Comme il est nécessaire de diffuser deux fois plus d'images pour une vidéo 3D que pour une vidéo classique pour une même qualité d'image, le codeur COD formate la vidéo 3D dans un format dit composite tel que illustré à la Fig. 2. The user then has to put on a pair of shutters and active glasses to recreate the stereoscopic effect of the objects of the scene when the right image and the left image relating to the same image of the 3D video are visualized on this screen by alternately. A 3D video is encoded by the coder COD so that the resulting stream can be broadcast in a broadcast channel C whose bandwidth does not exceed that commonly used to broadcast conventional (non-3D) video streams. Since it is necessary to broadcast twice as many images for a 3D video as for a conventional video for the same image quality, the COD encoder formats the 3D video in a so-called composite format as illustrated in FIG. 2.
Tout d'abord, l'image droite et l'image gauche pleine résolution qui sont relatives à une même image de la vidéo 3D sont chacune sous-échantillonnées (étape 1) pour obtenir deux demi-images Id et Ig. On parle de demi-image car le taux d'échantillonnage est égal à 2. Ce sous-échantillonnage est, le plus souvent, précédé d'un filtrage passe-bas de ces images pour éviter des problèmes d'anti-aliasing qui pourraient se manifester sur les contours et textures qui renferment des hautes fréquences et qui affecteraient la qualité visuelle de ces images lors de leur visualisation. Ces deux demi-images ainsi sous-échantillonnées sont alors combinées (étape 2) 10 entre elles pour obtenir une image composite pleine résolution, image qui est alors diffusée comme le serait une image d'une vidéo classique (non 3D). Plusieurs formats composites sont couramment utilisés. L'un de ces formats qui est habituellement appelé côte-à-côte (side-by-side en anglais), est illustré à la Fig. 2. Une image composite au format côte-à-côte est définie comme étant une image 15 pleine résolution qui comporte la demi-image Ig dans sa partie gauche et la demi-image Id dans sa partie droite, les deux demi-images Id et Ig étant les résultats d'un sous-échantillonnage horizontal des images gauche et droite pleine résolution. Un autre format composite est appelé haut-et-bas (Top-and-Bottom en anglais). Une image pleine résolution au format haut-et-bas est définie comme étant une image 20 pleine résolution qui comporte la demi-image Ig dans sa partie haute et la demi-image Id dans sa partie basse, les deux demi-images Id et Ig étant alors les résultats d'un sous-échantillonnage vertical des images gauche et droite pleine résolution. D'autres formats composites sont bien évidemment possibles dans lesquels les deux demi-images Ig et Id, une fois sous-échantillonnées, sont mélangées entre elles 25 pour former une mosaïque. Le décodeur DEC est prévu pour recevoir un flux vidéo 3D formaté. Le décodeur extrait (étape 3) les deux images Ig et Id de l'image composite reçue, extrapole (étape 4) ces deux demi-images pour obtenir une image droite et une image gauche pleine résolution, images qui sont alors visualisées sur l'écran de visualisation 30 3DTV (Fig. 3). Certains flux vidéo diffusés comportent une information qui permet de signaler au décodeur DEC quel est le format qui a été utilisé pour formater la vidéo 3D. Toutefois, il arrive que des flux vidéos soient diffusés sans cette information ce qui provoque un dysfonctionnement du décodeur DEC si le format qui a été utilisé pour formater la vidéo 3D n'est pas celui auquel le décodeur DEC s'attend. Par ailleurs, il arrive aussi que des vidéos 3D soient diffusées dans un format identique à celui attendu par le décodeur DEC mais que le codeur COD ait inversé les images droites avec les images gauches lors de la formation de l'image composite provoquant ainsi un dysfonctionnement du décodeur DEC et des artefacts importants sur l'image 3D visualisée. Le problème résolu par la présente invention est de remédier aux inconvénients suscités. Firstly, the right image and the full resolution left image that are related to the same image of the 3D video are each subsampled (step 1) to obtain two half-images Id and Ig. It is called half-image because the sampling rate is equal to 2. This sub-sampling is, in most cases, preceded by a low-pass filtering of these images to avoid anti-aliasing problems that could occur. manifest on contours and textures that contain high frequencies and affect the visual quality of these images when viewed. These two half-images thus subsampled are then combined (step 2) with each other to obtain a full-resolution composite image, which image is then broadcast as would be an image of a conventional (non-3D) video. Several composite formats are commonly used. One of these formats, which is usually called side-by-side, is illustrated in FIG. 2. A composite image in side-by-side format is defined as a full-resolution image which has the half-image Ig in its left-hand side and the half-image Id in its right-hand side, the two half-images Id and Ig being the results of a horizontal sub-sampling of left and right full resolution images. Another composite format is called up-and-down (Top-and-Bottom). A full-resolution high-resolution image is defined as a full-resolution image which has the half-image Ig in its upper part and the half-image Id in its lower part, the two half-images Id and Ig. being then the results of vertical subsampling of left and right full resolution images. Other composite formats are of course possible in which the two half-images Ig and Id, once subsampled, are mixed together to form a mosaic. The decoder DEC is intended to receive a formatted 3D video stream. The decoder extracts (step 3) the two images Ig and Id from the received composite image, extrapolates (step 4) these two half-images to obtain a right image and a full resolution left image, which images are then displayed on the image. 30 3DTV display screen (Fig. 3). Some broadcast video streams include information that allows the decoder DEC to be notified of the format that was used to format the 3D video. However, it happens that video streams are broadcast without this information which causes a decoder dysfunction DEC if the format that was used to format the 3D video is not that which the decoder DEC expects. Furthermore, it also happens that 3D videos are broadcast in a format identical to that expected by the decoder DEC but that the coder COD has reversed the right images with the left images during the formation of the composite image thus causing a malfunction DEC decoder and important artifacts on the visualized 3D image. The problem solved by the present invention is to overcome the drawbacks raised.
A cet effet, la présente invention concerne un procédé de détection du format composite qui a été utilisé pour formater une séquence d'images stéréoscopiques reçues par un décodeur, le format combinant entre elles une version filtrée et sous-échantillonnée d'une image droite et une version filtrée et sous-échantillonnée d'une image gauche selon une combinatoire spécifique à ce format, lesdites images gauche et droite étant relatives à une même image de la séquence d'images stéréoscopiques, caractérisé en ce qu'il comporte les étapes suivantes : - obtenir, selon une combinatoire définie par un format composite attendu par le décodeur, une première demi-image et une seconde demi-image à partir de l'image, - détecter le format composite qui a été utilisé pour formater la séquence d'images stéréoscopiques, en déterminant le maximum de corrélation entre la première demi-image décalée et la seconde demi-image, le format composite qui a été utilisé pour formater la séquence d'images stéréoscopiques étant alors le format qui a été utilisé pour obtenir la première et la seconde demi-image si la comparaison entre ce maximum de corrélation et un seuil vérifie une condition. For this purpose, the present invention relates to a method for detecting the composite format that has been used to format a sequence of stereoscopic images received by a decoder, the format combining a filtered and undersampled version of a right image with each other. a filtered and subsampled version of a left image according to a combinatorial specific to this format, said left and right images being relative to the same image of the sequence of stereoscopic images, characterized in that it comprises the following steps: - Obtain, according to a combinatorics defined by a composite format expected by the decoder, a first half-image and a second half-image from the image, - detect the composite format that has been used to format the image sequence stereoscopic, by determining the maximum correlation between the first half-image shifted and the second half-image, the composite format that has been used se to format the sequence of stereoscopic images then being the format that was used to obtain the first and second half-image if the comparison between this correlation maximum and a threshold satisfies a condition.
Selon un mode de réalisation de l'étape de détection, le minimum de la différence absolue entre la première demi-image décalée et la demi-image, est déterminé, et ce minimum est alors comparé à un seuil, si ce minimum est inférieur au seuil alors le format composite dans lequel est formaté la séquence d'images stéréoscopiques est le format qui a été utilisé pour obtenir la première et la seconde demi-image, et si ce minimum est supérieur au seuil alors un autre format composite attendu par le décodeur est considéré et les étapes pour obtenir les deux demi-images et pour détecter le format composite sont réitérées jusqu'à ce que tous les formats composites attendus par le décodeur soient considérés. According to an embodiment of the detection step, the minimum of the absolute difference between the first offset half-image and the half-image is determined, and this minimum is then compared to a threshold, if this minimum is less than threshold then the composite format in which is formatted the sequence of stereoscopic images is the format that was used to obtain the first and the second half-image, and if this minimum is greater than the threshold then another composite format expected by the decoder is considered and the steps to obtain the two half-images and to detect the composite format are repeated until all the composite formats expected by the decoder are considered.
Ce minimum de la différence absolue entre la première demi-image décalée et la demi-image correspond au maximum de corrélation entre les deux demi-images qui se produit lorsque le décalage relatif à ce minimum est égal (ou très proche) de la distance qui sépare les axes optiques des deux caméras utilisées pour l'acquisition des images gauche et droite. L'utilisation de la différence absolue entre les deux demi-images et l'introduction de l'hypothèse que les deux caméras sont parfaitement alignées horizontalement (la première demi-image n'est décalée que selon une seule dimension) sont avantageuses, en termes de coût de calculs, comparé à une corrélation classique de ces deux demi-images qui demande une recherche exhaustive d'un déplacement exprimé dans le plan de l'image (décalage à deux dimensions). De plus, du fait des faibles plages de valeurs des décalages verticaux ou horizontaux, le procédé facilite l'identification d'un maximum de corrélation au contraire d'une corrélation classique qui présente plusieurs pics de corrélation aux alentours du maximum. Selon une variante, le seuil est adaptatif et, de préférence, est égal au rapport signal sur bruit PSNR pondéré par un coefficient. Selon un mode de réalisation, les première et seconde demi-images sont sous-échantillonnées préalablement à leur corrélation. This minimum of the absolute difference between the first offset half-image and the half-image corresponds to the maximum correlation between the two half-images which occurs when the relative offset to this minimum is equal to (or very close to) the distance that separates the optical axes of the two cameras used for the acquisition of left and right images. The use of the absolute difference between the two half-images and the introduction of the hypothesis that the two cameras are perfectly aligned horizontally (the first half-image is shifted only in one dimension) are advantageous, in terms of calculation cost, compared to a conventional correlation of these two half-images which requires an exhaustive search for a displacement expressed in the plane of the image (two-dimensional offset). In addition, because of the small ranges of values of the vertical or horizontal offsets, the method facilitates the identification of a maximum correlation unlike a conventional correlation which has several correlation peaks around the maximum. According to one variant, the threshold is adaptive and, preferably, is equal to the signal-to-noise ratio PSNR weighted by a coefficient. According to one embodiment, the first and second half-images are subsampled prior to their correlation.
Ce mode de réalisation est avantageux car il permet de réduire le coût de calcul du procédé pour établir le maximum de corrélation. Selon un mode de réalisation, le minimum est calculé à partir des pixels qui appartiennent à une fenêtre glissante de dimension inférieure à celle de ces demi-images. This embodiment is advantageous because it makes it possible to reduce the cost of calculating the method in order to establish the maximum correlation. According to one embodiment, the minimum is calculated from the pixels belonging to a sliding window of dimension less than that of these half-images.
Selon un mode de réalisation, dans le cas où l'un des formats attendu par le décodeur a été considéré comme étant le format qui a été utilisé pour former l'image, le procédé comporte également une étape de détection d'inversion des première et seconde demi-images au cours de laquelle si le signe du décalage relatif au minimum est négatif alors la première demi-image est la demi-image gauche et la seconde demi- image est la demi-image droite, sinon la première demi-image est la demi-image droite et la seconde demi-image est la demi-image gauche. Selon un mode de réalisation, le décalage relatif au minimum et calculé pour une image de la séquence d'images stéréoscopiques est lissé temporellement par un filtre passe-bas. According to one embodiment, in the case where one of the formats expected by the decoder has been considered to be the format that was used to form the image, the method also includes a step of detecting the inversion of the first and second half-frames during which if the sign of the relative offset to the minimum is negative then the first half-image is the left half-image and the second half-image is the right half-image, otherwise the first half-image is the right half-image and the second half-image is the left half-image. According to one embodiment, the minimum relative offset calculated for an image of the stereoscopic image sequence is smoothed temporally by a low-pass filter.
Selon son aspect matériel, la présente invention concerne également un dispositif comportant des moyens pour mettre en oeuvre le procédé ci-dessus. La présente invention concerne également un programme d'ordinateur, qui peut être stocké sur un support et/ou téléchargé d'un réseau de communication, afin d'être lu par un système informatique ou un processeur. Ce programme d'ordinateur comprend des instructions pour implémenter le procédé mentionné ci-dessus, lorsque ledit programme est exécuté par le système informatique ou le processeur. L'invention concerne également des moyens de stockage comprenant un tel programme d'ordinateur. According to its material aspect, the present invention also relates to a device comprising means for implementing the method above. The present invention also relates to a computer program, which can be stored on a medium and / or downloaded from a communication network, in order to be read by a computer system or a processor. This computer program includes instructions for implementing the method mentioned above, when said program is executed by the computer system or the processor. The invention also relates to storage means comprising such a computer program.
Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels: La Fig. 1 représente schématiquement une chaîne de diffusion d'une séquence 15 d'images stéréoscopiques. La Fig. 2 illustre la création d'une image composite à partir d'un format de type côte-à-côte. La Fig. 3 illustre la création d'une image composite à partir d'un format de type haut-et-bas. 20 La Fig. 4 représente un diagramme des étapes du procédé de détection du format composite utilisé pour formater une séquence d'images stéréoscopiques. La Fig. 5 illustre la mise en oeuvre du procédé pour deux formats particuliers. La Fig. 6 représente l'architecture d'un dispositif de détection du format composite utilisé pour formater une séquence d'images stéréoscopiques. 25 La Fig. 7 représente schématiquement un exemple de parallélisation du calcul de la différence absolue entre deux demi-images. La Fig. 4 représente un diagramme des étapes du procédé de détection du format composite utilisé pour formater une séquence d'images stéréoscopiques. Dans la suite de ce procédé, il est considéré que plusieurs formats composites Fk 30 sont susceptibles d'avoir été utilisés par le codeur COD pour formater la vidéo 3D et que le décodeur s'attend à recevoir une vidéo 3D selon l'un de ces formats Fk. Bien évidemment, ce cas général inclut le cas où le décodeur ne s'attend à recevoir que des vidéos 3D formatées selon un seul format. The characteristics of the invention mentioned above, as well as others, will emerge more clearly on reading the following description of an exemplary embodiment, said description being given in relation to the attached drawings, among which: FIG. . 1 schematically represents a broadcast chain of a sequence of stereoscopic images. Fig. Figure 2 illustrates the creation of a composite image from a side-by-side format. Fig. Figure 3 illustrates the creation of a composite image from a top-and-bottom format. FIG. 4 is a diagram of the steps of the composite format detection method used to format a sequence of stereoscopic images. Fig. 5 illustrates the implementation of the method for two particular formats. Fig. 6 shows the architecture of a composite format sensing device used to format a sequence of stereoscopic images. FIG. 7 schematically represents an example of parallelization of the calculation of the absolute difference between two half-images. Fig. 4 is a diagram of the steps of the composite format detection method used to format a sequence of stereoscopic images. In the following of this method, it is considered that several composite formats Fk 30 are likely to have been used by the coder COD to format the 3D video and that the decoder expects to receive a 3D video according to one of these Fk formats. Of course, this general case includes the case where the decoder expects to receive only 3D videos formatted in a single format.
Chaque format Fk combine entre elles une version filtrée et sous-échantillonnée, notée Id, d'une image droite et une version filtrée et sous-échantillonnée, notée Ig, d'une image gauche selon une combinatoire spécifique. Les images gauche et droite sont relatives à une image I de la vidéo 3D formatée. Le Each format Fk combines a filtered and subsampled version, denoted Id, of a right image and a filtered and subsampled version, denoted Ig, of a left image according to a specific combinatorics. The left and right images are relative to an I-frame of the formatted 3D video. The
procédé comporte une étape pour obtenir, selon la combinatoire définie par l'un des formats composites Fk attendus par le décodeur DEC, une première demi-image I1 et une seconde demi-image I2 à partir de l'image I de la vidéo 3D. method comprises a step for obtaining, according to the combinatorics defined by one of the composite formats Fk expected by the decoder DEC, a first half-image I1 and a second half-image I2 from the image I of the 3D video.
Le procédé comporte également une étape (5) de détection du format composite qui a été utilisé pour formater la vidéo 3D, au cours de laquelle le maximum de The method also includes a step (5) of detecting the composite format that has been used to format the 3D video, during which the maximum of
corrélation entre la demi-image I1 décalée et la demi-image I2 est déterminé. Le format composite qui a été utilisé pour formater la vidéo 3D est alors le format Fk qui a été utilisé pour obtenir la première et la seconde demi-image si la comparaison entre ce maximum de corrélation et un seuil vérifie une condition. correlation between the imaged half-image I1 and the half-image I2 is determined. The composite format that was used to format the 3D video is then the Fk format that was used to obtain the first and second half-image if the comparison between this correlation maximum and a threshold satisfies a condition.
Selon un mode de réalisation de l'étape de détection, le minimum de la 15 différence absolue entre la demi-image I1 décalée et la demi-image I2 , noté SADmin, est déterminé. En termes mathématiques, ce minimum est donné par : S4D . = min S4D(v) 11 - D<v<D avec D une valeur entière dans laquelle, si le format Fk est de type côte-à-côte, NN N S4D(v) = 1 11(i + v, j) -1z (i + Nc, j) avec N, le nombre de colonnes (N~-V) NI i=1 1=1 20 de l'image I, NI le nombre de lignes de l'image I et v le décalage de la demi-image I1 par rapport à la demi-image I2, et si le format Fk est de type haut-et-bas, N0 N~ S4D(v) = 1 E Il(i,j+v)-I2(i, j+NI). (Nc-V)N, i=1 J=1 Le minimum SADmin est alors comparé à un seuil SS4D et si S4Dmin < SS4D alors le format composite dans lequel est formatée la vidéo 3D est le format Fk qui a 25 été utilisé pour obtenir la première et la seconde demi-image. Dans le cas où le minimum SADmin est supérieur au seuil, alors un autre format composite Fk attendu par le décodeur DEC est considéré et les étapes pour obtenir les deux demi-images et pour détecter le format composite sont réitérées jusqu'à ce que tous les formats composites Fk attendus par le décodeur DEC soient considérés. According to an embodiment of the detection step, the minimum of the absolute difference between the offset half-image I1 and the half-image I2, denoted SADmin, is determined. In mathematical terms, this minimum is given by: S4D. = min S4D (v) 11 - D <v <D with D an integer value in which, if the format Fk is of type side-by-side, NN N S4D (v) = 1 11 (i + v, j) -1z (i + Nc, j) with N, the number of columns (N ~ -V) NI i = 1 1 = 1 of the image I, NI the number of lines of the image I and v the offset of the half-image I1 with respect to the half-image I2, and if the format Fk is of up-and-down type, N0 N ~ S4D (v) = 1E Il (i, j + v) -I2 ( i, j + NI). (Nc-V) N, i = 1 J = 1 The minimum SADmin is then compared to a threshold SS4D and if S4Dmin <SS4D then the composite format in which the 3D video is formatted is the format Fk which has been used to obtain the first and the second half-image. In the case where the minimum SADmin is greater than the threshold, then another composite format Fk waited by the decoder DEC is considered and the steps to obtain the two half-images and to detect the composite format are repeated until all the Composite formats Fk expected by decoder DEC are considered.
30 Selon une variante, le seuil SS4D est adaptatif et, de préférence, est égal au rapport signal sur bruit PSNR (Peak of Signal to Noise Ratio en anglais) pondéré par un coefficient a : SS4D = a xPSNR Le rapport PSNR est une valeur moyenne des écarts d'un pixel par rapport à ses voisins sur l'ensemble de l'image pleine résolution de la vidéo 3D et représente la dynamique ou le contraste moyen de cette image. According to one variant, the threshold SS4D is adaptive and, preferably, is equal to the weighted signal-to-noise ratio PSNR (peak of signal to noise ratio) weighted by a coefficient: SS4D = a xPSNR The PSNR ratio is an average value one-pixel deviations from its neighbors over the entire full-resolution image of 3D video and represents the average dynamic or contrast of that image.
Le décalage v qui correspond au minimum SADminest un vecteur de déplacement signé entre la demi-image I1 et la demi-image I2. Ce vecteur de déplacement est noté par la suite vmin. Selon un mode de réalisation, les première et seconde demi-images sont sous-échantillonnées préalablement à leur corrélation. The shift v which corresponds to the minimum SADmin is a displacement vector signed between the half-image I1 and the half-image I2. This displacement vector is noted later vmin. According to one embodiment, the first and second half-images are subsampled prior to their correlation.
Selon un mode de réalisation, le minimum SADmin est calculé à partir des pixels qui appartiennent à une fenêtre glissante de dimension inférieure à celle de ces demi-images. Dans le cas où l'un des formats Fk attendu par le décodeur DEC a été considéré comme étant le format qui a été utilisé pour former l'image I, le procédé comporte également, selon un mode de réalisation, une étape (6) de détection d'inversion des deux demi-images I1 et I2 au cours de laquelle si le signe du décalage vminest négatif alors la première demi-image I1 est la demi-image gauche Ig et la seconde demi-image I2 est la demi-image droite Id, sinon la première demi-image I1 est la demi-image droite Id et la seconde demi-image I2 est la demi-image gauche Ig. According to one embodiment, the minimum SADmin is calculated from the pixels belonging to a sliding window of dimension less than that of these half-images. In the case where one of the formats Fk expected by the decoder DEC has been considered to be the format that has been used to form the image I, the method also comprises, according to one embodiment, a step (6) of detection of reversal of the two half-images I1 and I2 during which if the sign of the shift vmin is negative then the first half-image I1 is the left half-image Ig and the second half-image I2 is the right half-image Id, if not the first half-image I1 is the right half-image Id and the second half-image I2 is the left half-image Ig.
Selon mode de réalisation, le décalage venin calculé pour une image de la vidéo 3D est lissé temporellement par un filtre passe-bas. En termes mathématiques, le décalage venin pour une image de la vidéo 3D est lissé par un filtre passe-bas du premier ordre. En termes mathématiques, Venin(t+1)= fi x Venin(t)+(1-13 )xVmin(t+1) avec Venin (t + 1) le décalage pour une image suivant temporellement l'image I, vmin(t) le décalage pour l'image I et f3 une valeur réelle variant entre 0 et 1 et qui vaut O lorsqu'un changement de scène est détecté dans la vidéo 3D. Par exemple, ce changement de scène est une information qui est issue du décodeur DEC, information qui donne ou permet de déduire la valeur de f3 . According to an embodiment, the venom offset calculated for an image of the 3D video is smoothed temporally by a low-pass filter. In mathematical terms, the venom shift for an image of 3D video is smoothed by a first-order low-pass filter. In mathematical terms, Venin (t + 1) = fi x Venin (t) + (1-13) xVmin (t + 1) with Venom (t + 1) the shift for an image following temporally the image I, vmin ( t) the shift for the image I and f3 a real value varying between 0 and 1 and which is worth O when a change of scene is detected in the 3D video. For example, this scene change is information that comes from the decoder DEC, information that gives or allows to deduce the value of f3.
La Fig. 5a illustre la mise en oeuvre de ce procédé lorsque le format Fk présagé comme ayant été utilisé pour formater la vidéo 3D est de type côte-à-côte avec la demi-image gauche Ig à gauche et la demi-image Id à droite. Le procédé extrait les deux demi-images I1 et I2, calcule le minimum SADmin et obtient alors un vecteur de déplacement vvin. Si, venin < 0 , il n'y a pas eu d'inversion Fig. 5a illustrates the implementation of this method when the format Fk presaged as having been used to format the 3D video is of side-by-side type with the left half-image Ig on the left and the half-image Id on the right. The process extracts the two half-images I1 and I2, calculates the minimum SADmin and then obtains a vvin displacement vector. If, venom <0, there was no inversion
8 des deux demi-images I1 et I2 par rapport au format Fk attendu et la demi-image I1 est bien la demi-image gauche et la demi-image I2 est bien la demi-image droite. Si, venin > 0 , une inversion s'est produite et la demi-image I1 est, cette fois-ci, la demi- image droite et la demi-image I2 est la demi-image gauche. 8 of the two half-images I1 and I2 with respect to the expected format Fk and the half-image I1 is the left half-image and the half-image I2 is the right half-image. If, venom> 0, an inversion has occurred and the half-image I1 is, this time, the right half-image and the half-image I2 is the left half-image.
La Fig. 5b illustre la mise en oeuvre de ce procédé lorsque le format Fk présagé comme ayant été utilisé pour formater la vidéo 3D est de type haut-et-bas avec la demi-image gauche Ig en haut et la demi-image Id en bas. Le procédé extrait les deux demi-images I1 et I2, calcule le minimum S-IDmin et obtient alors un vecteur de déplacement vn,in. Si vn,~n < 0 , il n'y a pas eu d'inversion 10 des deux demi-images I1 et I2 par rapport au format Fk attendu et la demi-image I1 est bien la demi-image gauche et la demi-image I2 est bien la demi-image droite. Si venin > 0 , une inversion s'est produite et la demi-image I1 est, cette fois-ci, la demi- image droite et la demi-image I2 est la demi-image gauche. Le procédé ci-dessus est intégré dans le procédé de décodage classique décrit 15 dans la partie introductive en remplacement de l'étape 3. Selon son aspect matériel, la présente invention concerne un dispositif de détection du format composite utilisé pour formater une séquence d'images stéréoscopiques. La Fig. 6 illustre schématiquement l'architecture d'un tel dispositif 600. 20 Le dispositif 600 comporte, reliés par un bus de communication 601 : - un processeur, micro-processeur, microcontrôleur (noté µc) ou CPU (Central Processing Unit en anglais ou Unité Centrale de Traitement en français) 602 ; - une mémoire vive RAM (Random Access Memory en anglais ou Mémoire à Accès Aléatoire en français) 603 ; 25 - une mémoire morte ROM (Read Only Memory en anglais ou Mémoire à Lecture Seule en français) 604 ; - un lecteur 605 de medium de stockage, tel qu'un lecteur de carte SD (Secure Digital Card en anglais ou Carte Numérique Sécurisée en français) ; - des moyens d'interface 606 avec un réseau de communication, comme par 30 exemple satellitaire; et Le microcontrôleur 602 est capable d'exécuter des instructions chargées dans la RAM 603 à partir de la ROM 604, d'une mémoire externe (non représentée), d'un support de stockage, tel qu'une carte SD ou autre, ou d'un réseau de communication. Lorsque le dispositif 600 est mis sous tension, le microcontrôleur 602 est capable de lire de la RAM 603 des instructions et de les exécuter. Ces instructions forment un programme d'ordinateur qui cause la mise en oeuvre, par le microcontrôleur 602, de tout ou partie des algorithmes décrits ci-après en relation avec la Fig. 4. Tout ou partie des algorithmes décrits ci-après en relation avec la Fig. 4 peut être implémenté sous forme logicielle par exécution d'un ensemble d'instructions par une machine programmable, tel qu'un DSP (Digital Signal Processor en anglais ou Unité de Traitement de Signal Numérique en français) ou un microcontrôleur, tel que le microcontrôleur 602, ou être implémenté sous forme matérielle par une machine ou un composant dédié, tel qu'un FPGA (Field-Programmable Gate Array en anglais ou Matrice de Portes Programmable sur Champ en français) ou un ASIC (Application-Specific Integrated Circuit en anglais ou Circuit Intégré Spécifique à une Application en français). Selon un mode de réalisation illustré à la Fig. 7, le dispositif comporte des moyens pour calculer le S4D(v) qui exploite des architectures de calculs sur flot de données du type SIMD (Single Instruction Multiple Data en anglais). L'opérateur élémentaire OP (à gauche de la Fig. 7) réalise la différence entre les pixels des demi-images I1 et I2, la valeur absolue et la somme par accumulation. A droite de cette même fig. 7, on procède à une parallélisation des calculs par bloc de 16 pixels par duplication de l'opérateur OP. Fig. 5b illustrates the implementation of this method when the format Fk presaged as having been used to format the 3D video is of up-and-down type with the left half-image Ig at the top and the half-image Id at the bottom. The process extracts the two half-images I1 and I2, calculates the minimum S-IDmin and then obtains a displacement vector vn, in. If vn, ~ n <0, there has been no inversion of the two half-images I1 and I2 with respect to the expected format Fk and the half-image I1 is indeed the left and half half-image. image I2 is the right half-image. If venom> 0, an inversion has occurred and the half-image I1 is, this time, the right half-image and the half-image I2 is the left half-image. The above method is integrated in the conventional decoding method described in the introductory part to replace step 3. According to its hardware aspect, the present invention relates to a composite format detection device used to format a sequence of stereoscopic images. Fig. 6 schematically illustrates the architecture of such a device 600. The device 600 comprises, connected by a communication bus 601: - a processor, microprocessor, microcontroller (noted μc) or CPU (Central Processing Unit or Unit) Central Processing Station in French) 602; a random access memory RAM (Random Access Memory in English or Random Access Memory in French) 603; A ROM (Read Only Memory in English or Memory Read Only in French) 604; a reader 605 for storage medium, such as a SD card reader (Secure Digital Card in English or Secured Digital Card in French); interface means 606 with a communication network, for example a satellite network; and microcontroller 602 is capable of executing instructions loaded into RAM 603 from ROM 604, external memory (not shown), storage medium such as SD card or the like, or a communication network. When the device 600 is turned on, the microcontroller 602 is able to read instructions from RAM 603 and execute them. These instructions form a computer program which causes the microcontroller 602 to implement all or some of the algorithms described below in connection with FIG. 4. All or part of the algorithms described below in connection with FIG. 4 can be implemented in software form by executing a set of instructions by a programmable machine, such as a DSP (Digital Signal Processor in English or a Digital Signal Processing Unit in French) or a microcontroller, such as the microcontroller 602, or be implemented in hardware form by a machine or a dedicated component, such as an FPGA (Field Programmable Gate Array) or an ASIC (Application-Specific Integrated Circuit). or Integrated Circuit Specific to an Application in French). According to an embodiment illustrated in FIG. 7, the device comprises means for calculating the S4D (v) which exploits data flow computation architectures of SIMD (Single Instruction Multiple Data) type. The elementary operator OP (on the left of Fig. 7) realizes the difference between the pixels of the half-images I1 and I2, the absolute value and the sum by accumulation. On the right of this same fig. 7, a parallelization of block calculations of 16 pixels is performed by duplication of the operator OP.
Cette parallélisation des calculs sur le flot de données permet d'accélérer les calculs de corrélation par similitude et permet donc la mise en oeuvre de ce dispositif pour le traitement en temps réel des vidéos 3D haute définition. Le dispositif peut être intégré dans le décodeur DEC qui inclut un tuner TNT/SAT/CABLE pour recevoir un signal 3D diffusé porteur d'une séquence d'images stéréoscopiques et pour démoduler numériquement ce signal pour obtenir une vidéo 3D formatée. Ce décodeur DEC peut aussi comporter un circuit dédié conforme à la norme MPEG4 pour décoder cette séquence d'images. Le dispositif est alors relié à ce circuit pour recevoir les changements de scène utilisés par le procédé. Les séquences d'images stéréoscopiques peuvent être en couleur. Dans ce cas, le procédé n'est appliqué qu'à la composante de luminance de cette séquence d'images. This parallelization of the calculations on the data stream makes it possible to accelerate the correlation calculations by similarity and thus allows the implementation of this device for the real-time processing of high-definition 3D videos. The device can be integrated into the decoder DEC which includes a TNT / SAT / CABLE tuner for receiving a broadcast 3D signal carrying a sequence of stereoscopic images and for digitally demodulating this signal to obtain a formatted 3D video. This decoder DEC may also include a dedicated circuit compliant with the MPEG4 standard for decoding this sequence of images. The device is then connected to this circuit to receive the scene changes used by the method. Stereoscopic image sequences can be in color. In this case, the method is applied only to the luminance component of this image sequence.
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1157508A FR2973980A1 (en) | 2011-08-25 | 2011-08-25 | Method for detection of composite format utilized to format sequence of three-dimensional video, received by decoder, involves utilizing format to format sequence of images if comparison between threshold and correlation satisfies condition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1157508A FR2973980A1 (en) | 2011-08-25 | 2011-08-25 | Method for detection of composite format utilized to format sequence of three-dimensional video, received by decoder, involves utilizing format to format sequence of images if comparison between threshold and correlation satisfies condition |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2973980A1 true FR2973980A1 (en) | 2012-10-12 |
Family
ID=45001932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1157508A Pending FR2973980A1 (en) | 2011-08-25 | 2011-08-25 | Method for detection of composite format utilized to format sequence of three-dimensional video, received by decoder, involves utilizing format to format sequence of images if comparison between threshold and correlation satisfies condition |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2973980A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1024672A1 (en) * | 1997-03-07 | 2000-08-02 | Sanyo Electric Co., Ltd. | Digital broadcast receiver and display |
EP2239726A1 (en) * | 2009-01-21 | 2010-10-13 | Sony Corporation | Image processing apparatus, image processing method and program |
WO2011098936A2 (en) * | 2010-02-09 | 2011-08-18 | Koninklijke Philips Electronics N.V. | 3d video format detection |
-
2011
- 2011-08-25 FR FR1157508A patent/FR2973980A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1024672A1 (en) * | 1997-03-07 | 2000-08-02 | Sanyo Electric Co., Ltd. | Digital broadcast receiver and display |
EP2239726A1 (en) * | 2009-01-21 | 2010-10-13 | Sony Corporation | Image processing apparatus, image processing method and program |
WO2011098936A2 (en) * | 2010-02-09 | 2011-08-18 | Koninklijke Philips Electronics N.V. | 3d video format detection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2887311B1 (en) | Method and apparatus for performing depth estimation | |
EP2156668B1 (en) | Method and apparatus for generating block-based stereoscopic image format and method and apparatus for reconstructing stereoscopic images from block-based stereoscopic image format | |
EP1865717A1 (en) | Motion phase detector per region | |
WO2011079376A1 (en) | Method and system for detecting compressed stereoscopic frames in a digital video signal | |
KR20130091323A (en) | System and method for transmission, processing, and rendering of stereoscopic and multi-view images | |
FR3007234A1 (en) | METHOD AND APPARATUS FOR GENERATING, STORING, TRANSMITTING, RECEIVING AND REPRODUCING DEPTH CARDS USING COLOR COMPONENTS OF AN IMAGE BELOW A THREE-DIMENSIONAL VIDEO STREAM | |
US6611295B1 (en) | MPEG block detector | |
EP2984815A1 (en) | Fusion of a plurality of video streams | |
EP2817675B1 (en) | 3d photofinish display device | |
US10037335B1 (en) | Detection of 3-D videos | |
FR2933565A1 (en) | METHOD AND DEVICE FOR ENCODING AN IMAGE SEQUENCE USING TEMPORAL PREDICTION, SIGNAL, DATA MEDIUM, DECODING METHOD AND DEVICE, AND CORRESPONDING COMPUTER PROGRAM PRODUCT | |
US8774552B2 (en) | Image transfer system, image transfer method, image reception apparatus, image transmission apparatus, and image pickup apparatus | |
FR3002104A1 (en) | METHOD FOR GENERATING, TRANSMITTING AND RECEIVING STEREOSCOPIC IMAGES, AND RELATED DEVICES | |
US9426445B2 (en) | Image processing apparatus and image processing method and program using super-resolution and sharpening | |
WO2022132826A1 (en) | Systems and methods for synthetic augmentation of cameras using neural networks | |
US8175398B2 (en) | Method for encoding a plurality of video signals into a single video signal | |
FR2973980A1 (en) | Method for detection of composite format utilized to format sequence of three-dimensional video, received by decoder, involves utilizing format to format sequence of images if comparison between threshold and correlation satisfies condition | |
FR3032297A1 (en) | METHOD AND DEVICE FOR COMPRESSION OF A COLOR DIGITAL IMAGE | |
Cheon et al. | Objective quality comparison of 4K UHD and up-scaled 4K UHD videos | |
WO2009030597A1 (en) | Method and apparatus for processing video data using cartoonization | |
FR2968108A1 (en) | Method for processing video image to display stereoscopic image on target screen of e.g. TV, involves calculating target disparity information associated to part of image according to disparity budget and original disparity information | |
CN103828355B (en) | The method and equipment being filtered to disparity map | |
FR2976149A1 (en) | Device for obtaining e.g. TV program available in different versions corresponding to different transmission bit rates for transmission to content receiver, has sensor, where content version is adapted to instruct content receiver | |
FR3022724A1 (en) | IMAGE ENCODING AND DECODING METHOD, IMAGE ENCODING AND DECODING DEVICE AND CORRESPONDING COMPUTER PROGRAMS | |
US20240284058A1 (en) | Information processing device and method |