EP1721471A1 - Method for coding and decoding an image sequence encoded with spatial and temporal scalability - Google Patents

Method for coding and decoding an image sequence encoded with spatial and temporal scalability

Info

Publication number
EP1721471A1
EP1721471A1 EP05728100A EP05728100A EP1721471A1 EP 1721471 A1 EP1721471 A1 EP 1721471A1 EP 05728100 A EP05728100 A EP 05728100A EP 05728100 A EP05728100 A EP 05728100A EP 1721471 A1 EP1721471 A1 EP 1721471A1
Authority
EP
European Patent Office
Prior art keywords
temporal
motion
images
movement
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP05728100A
Other languages
German (de)
French (fr)
Inventor
Edouard Francois
Guillaume Boisson
Jérome Vieron
Gwena¬Lle Marquant
Philippe Robert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of EP1721471A1 publication Critical patent/EP1721471A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets

Definitions

  • the invention relates to a video coding and decoding process of a coded image sequence with spatial and temporal nability step, by hierarchical temporal analysis exploiting the motion compensated temporal filtering.
  • the field is that of video compression based on spatial and / or temporal scalability schemes also known as “scalable”. This is for example a 2D + t wavelet coding comprising a motion-compensated temporal filtering.
  • a scalable coding-extraction-decoding chain is illustrated in FIG. 1.
  • the source images are transmitted to a scalable video coding circuit 1.
  • the original bit stream obtained is processed by an extractor 2 to give an extracted bit stream.
  • the latter is decoded by the decoding circuit 3 which outputs the decoded video.
  • the scalability or “scalability” makes it possible to generate an original binary train from which it is possible to extract binary sub-trains adapted to given sets, bit rate, spatial resolution, temporal frequency ...
  • the original scalable binary train has been generated from a video sequence at 25Hz, resolution 720 * 480 pixels and without bit rate constraint, it is possible, after extracting from this bit stream the appropriate data, to obtain a bit stream, for example of parameters 1 Mb / s, 12.5Hz, 360 * 240 pixels, itself scalable.
  • the decoding of this extracted binary substruct generates a video at 12.5 Hz, of size 360 * 240 pixels.
  • coding and decoding proceed in an identical manner, without taking into account operating conditions such as the level of temporal decomposition, the bit rate, the spatial resolution of the decoded video, etc.
  • this compensation is applied identically, regardless of the size of the images or the bit rate of the video to be decoded. This results in degraded image quality, especially when the image resolution becomes small. relative to the size of the interpolation filters used for motion compensation.
  • the invention aims to overcome the aforementioned drawbacks.
  • One of the objects of the invention is a method of decoding a coded image sequence with spatial and temporal scalability, the coded data comprising movement information, comprising a step of hierarchical temporal synthesis carrying out temporal filtering compensated for movement, or MCTF, of images of a frequency decomposition level from said motion information, to provide images of a lower decomposition level, characterized in that, during a motion-compensated temporal filtering operation , the resolution chosen for the exploitation of the movement information and the complexity of the interpolation filters used are a function of a decoding scenario, namely spatial, temporal and bit rate resolutions selected for decoding or else the level of decomposition corresponding time or a combination of these parameters.
  • the number of coefficients of the interpolation filter used for motion compensation depends on the decoding scenario or the level of temporal decomposition.
  • the step of hierarchical temporal synthesis is a decoding of wavelet coefficients with filtering compensated in movement.
  • the invention also relates to a method of coding a sequence of images of given spatial resolution, with spatial and temporal scalability, comprising a step of hierarchical temporal analysis performing temporal filtering compensated in motion, or MCTF, of images.
  • the method comprises a step of motion estimation calculated between two images of a given level of decomposition to achieve motion compensation and in that the accuracy of calculation of the motion estimation is depending on level of temporal decomposition or of said spatial resolution of the source images.
  • the step of hierarchical temporal analysis is for example a coding in wavelets with filtering compensated in movement.
  • the invention also relates to a decoder for implementing the previously described decoding method, characterized in that it includes a movement configuration selection circuit for determining the resolution of the movement and the interpolation filter to be used in the motion compensation for motion compensated filtering, depending on the decoding scenario, i.e. spatial and temporal resolutions and bit rate selected for decoding or the corresponding temporal decomposition level or a combination of these parameters.
  • the invention also relates to an encoder for implementing the previously described encoding method, characterized in that it includes a circuit for choosing the configuration of movement for determining the interpolation filter to be used by the time analysis circuit. for motion compensation as a function of said spatial resolution of the source images or of the corresponding time decomposition level.
  • the coder is characterized in that it includes a circuit for choosing the configuration of movement for determining the precision of the movement calculated by the circuit for estimating movement, as a function of said spatial resolution of the images. source or the corresponding time decomposition level.
  • the precision of the movement and the interpolation filters used for the movement compensation in the coding and decoding process are adapted according to various parameters, such as the level of temporal decomposition on which one proceeds. These filters are adapted, for decoding, to the bit rate of the decoded stream, to the spatial or temporal resolution of the decoded video.
  • FIG. 1 a coding chain according to the prior art, - Figure 2, a simplified coding scheme, - Figure 3, a time filter of a GOP, - Figure 4, a time filter on two images, - Figure 5, a decoding circuit, - Figure 6 , a flowchart of choice of movement configuration, - Figure 7, a second flowchart of choice of movement configuration.
  • FIG. 1 a coding chain according to the prior art, - Figure 2, a simplified coding scheme, - Figure 3, a time filter of a GOP, - Figure 4, a time filter on two images, - Figure 5, a decoding circuit, - Figure 6 , a flowchart of choice of movement configuration, - Figure 7, a second flowchart of choice of movement configuration.
  • the system operates on groups of images or GOPs.
  • the overall architecture of the encoder is described in FIG. 2.
  • the source images are transmitted to a time analysis circuit 4 which performs a time compensated motion analysis or MCTF, acronym for motion compensated temporal filtering, to obtain the different frequency time bands.
  • the images are transmitted to a motion estimation circuit 7 which calculates the motion fields.
  • These fields are transmitted to a “pruning” circuit 10 which performs a “pruning” or a simplification of the movement information calculated by the movement estimation circuit to control the cost of the movement.
  • the motion fields thus simplified are transmitted to the time analysis circuit in order to define the analysis filters.
  • a coding circuit 11 which performs the coding of the simplified motion fields.
  • the images resulting from the time analysis are transmitted to a spatial analysis circuit 5 which performs sub-band coding of the low band image and of the high band images obtained by the time analysis.
  • the spatio-temporal wavelet coefficients thus obtained are finally coded by an entropy coder 6.
  • This coder provides as output a set of binary packets corresponding to the layers of scalabilities superimposed, both in quality, in spatial and temporal resolutions.
  • a packetizer 12 performs the fusion of these binary packets with the movement data coming from the coding circuit 11 to provide the final echoable binary train.
  • the images at the different levels of temporal decomposition are transmitted by the temporal analysis circuit 4 to the estimation circuit 7 movement comprising a first circuit configuration choice of movement.
  • This circuit not shown in the figure, defines the operating conditions of the motion estimation circuit according to the different levels of decomposition of the images.
  • the movement information once simplified via the pruning circuit 10, is transmitted to the time analysis circuit through a mode switching circuit 9.
  • This circuit makes it possible to test the quality of the motion estimation by testing for example the number of pixels connected between the current image and the previous image, at a given level of decomposition, and can impose on the temporal analysis circuit a coding in intra mode or a coding in predictive mode, c ' is to say a filtering of the current image with the following image and not preceding, when this quality of movement is insufficient.
  • the choice between intra and predictive mode depends for example on the quality of the motion estimation between the current image and the next image.
  • the time analysis circuit includes a second movement configuration selection circuit, also not shown in the figure, which determines, depending on the levels of decomposition of the images and / or the spatial resolution of the source images, the configuration to be adopted. for motion compensation used in this time analysis.
  • FIG. 3 represents in a synthetic way the operations of temporal filtering compensated in movement carried out by the temporal analysis circuit 4, with a decomposition at 4 levels for GOPs comprising, in this example, 16 images represented in bold lines.
  • the filtering method used is called "lifting".
  • this filtering method consists, in known manner, of "factorizing" the filter by using filters of limited length, for example two if it is chosen to filter the samples two by two, this filtering being repeated for each level of decomposition. We therefore consider the case where the filtering in the direction of movement is carried out on pairs of images.
  • the low frequency and high frequency filtering, on each of the pairs of the GOP, produces respectively, at the first level of temporal decomposition, 8 images of low temporal frequency (tL) and 8 images of high temporal frequency (tH).
  • the images of low time frequency are then decomposed again according to the same method.
  • the low pass filtering of these images provides 4 new images of low time frequency t-LL and the high pass filtering of these same images provides 4 images of high time frequency t-LH.
  • the third level of decomposition provides 2 images of low time frequency t-LLL and 2 images of high time frequency t-LLH.
  • the fourth and last level provides a low time frequency image t-LLLL and a high time frequency image t-LLLH.
  • This temporal decomposition is a 5 temporal bands decomposition which therefore generates 1 t-LLLL image, 1 t-LLLH image, 2 t-LLH images, 4 t-LH images, and 8 tH images per GOP of 16 images.
  • the images tL, t-LL, t-LLL and of course the original images are ignored for the downstream coding since they are at the origin of the decomposition into sub-bands to provide the decorrelated images at each level.
  • This decomposition therefore allows a new distribution of the energy by generating a useful image of low time frequency t-LLLL, which represents an average of the whole of the GOP and in which the energy is concentrated, and four image levels of low energy high time frequency, ie 5 frequency bands.
  • the filtering of a pair of source images A and B consists by default in generating a low temporal frequency image L and a high temporal frequency image H, according to the following equations: where MC (I) corresponds to the image I compensated in motion. The sum is for low pass filtering, the difference is for high pass filtering.
  • FIG. 4 is a simplified illustration of the temporal filtering of the two successive images A and B, the image A being the first image along the time axis and according to the display order, giving a low frequency image L and an image high frequency H.
  • the motion estimation is made with respect to a reference image, from the current image to the reference image.
  • the pixel of the reference image is then said to be connected.
  • Obtaining image L requires compensation for movement of image A. This compensation is done by estimating movement from image B to image A, taking A as the reference image, a movement and therefore a vector then being assigned to each pixel of image B.
  • the value of a pixel of L is equal, in the near form factor, to the sum of the luminance of the corresponding pixel of image B and the luminance of the pixel or sub-pixel of A pointed by the motion vector assigned to the corresponding pixel of image B.
  • An interpolation is necessary when this vector does not point to a pixel of image A.
  • Obtaining image H requires compensation for movement of image B. This compensation is done by estimating movement from image A to image B by taking B as a reference image, a movement and therefore a vector then being assigned to each pixel of image A.
  • the value of a pixel of H is equal, to the form factor near, to the difference of the luminance of the corresponding pixel of image A and the luminance of the pixel or sub-pixel of B pointed by the motion vector assigned to the corresponding pixel of image A.
  • An inte ⁇ olation is necessary when this vector does not point to a pixel of image B.
  • This is a delayed prediction from a posterior reference image and a calculation of delayed movement vectors or “backward vectors” in English, with reference to the MPEG standard.
  • only one field of motion vectors is calculated, from A to B or from B to A.
  • the other field of motion vectors is deduced from the first, generating pixels which are not connected, that is to say unaffected.
  • the low and high frequency images are calculated as follows: This filtering, equivalent to that previously described, consists in first of all calculating the image H. This image is obtained by point-to-point difference of the image B and of the image A compensated in movement. Thus, we subtract from a pixel of B a certain value, interpolated if necessary, pointed by the displacement vector in A, motion vector calculated during the motion estimation from image B to image A. The image L is then deduced from image H and no longer from image B, by adding image A to image H compensated in reverse motion. MCf ⁇ __ B (H) corresponds to a “decompensation” in movement of the image (H).
  • the same reasoning can be held at the level of an image block instead of a pixel.
  • the motion estimation circuit 7 uses for example a motion estimation algorithm by block matching better known by the English name of "block matching".
  • a current image block is correlated to the blocks of a search window in the reference image to determine the motion vector corresponding to the best correlation.
  • This search is carried out not only on the blocks of the search window obtained by successive displacements of a pixel in horizontal and vertical but also on interpolated blocks if the precision sought is less than the pixel.
  • This interpolation consists in calculating the luminance values of the sub-pixels, for the generation of image blocks obtained by successive displacements of a value less than the distance between two pixels. For example, for a quarter pixel accuracy, a correlation test is performed every quarter of a pixel, horizontally and vertically.
  • This i ⁇ te ⁇ olation uses filters called interpolation filters of the motion estimation.
  • the images for which motion-compensated temporal filtering is to be carried out are transmitted to the motion estimator 7 so that it estimates the motion between two images.
  • This circuit includes a first motion configuration selection circuit which receives, in addition to the image decomposition level information, other information such as the spatial resolution of the source images. This circuit decides the movement configuration according to this level and / or the spatial resolution.
  • the precision in the calculation of the motion vectors depends on the level of temporal decomposition of the processed images. This precision is lower the higher the level of decomposition.
  • the motion estimator interpolation filters are configured to be adapted to this motion accuracy. An example of configuration is given below.
  • the time analysis circuit 4 performs motion compensation for the temporal filtering of the images. These motion compensation operations require interpolation operations using interpolation filters, and this for each level of decomposition.
  • the second motion configuration selection circuit in this time analysis circuit, which may be different from the first, implements a processing algorithm adapting the precision of the movement and the complexity of the interpolation filter for motion compensation. as a function of the level of temporal decomposition of the images to be compensated for in motion. As with the first motion configuration choice circuit, these different adaptations or configurations can also depend on the spatial resolution of the source images processed. Obviously, an encoder comprising only one of these configuration choice circuits is within the scope of the invention.
  • a decoder is described in FIG. 5.
  • the bit stream received by the decoder is transmitted to the input of an entropy decoding circuit 13 which performs the reverse operations of the entropy coding circuit of the coder. Among other things, it decodes the space-time wavelet coefficients and, where appropriate, the coding modes.
  • This bit stream is transmitted in parallel to the input of a motion decoding circuit 14 which decodes the motion fields received in the bit stream to transmit them to the time synthesis circuit.
  • the entropy decoding circuit 13 is connected to a spatial synthesis circuit 15 which reconstructs the images corresponding to the different time sub-bands.
  • the temporal wavelet coefficients coming from the spatial synthesis circuit are transmitted to a temporal synthesis circuit 16 which reconstructs the output images from synthesis filters time.
  • the time synthesis circuit includes a movement configuration selection circuit, not shown in the figure, which determines, as a function of the decoding conditions and / or the levels of decomposition of the images, the configuration to be adopted for the movement compensation used. in this temporal synthesis.
  • the time synthesis circuit is connected to a post-processing circuit 17, the output of which is the output of the decoder. This is for example post-filtering to reduce artifacts such as block effects.
  • a time filter switching circuit is used to receive this coding mode information coming from the decoding circuit entropy 13 and to transmit them to the time synthesis circuit 16 which consequently performs the filter switching.
  • the motion configuration selection circuit receives the flow rate, spatial and temporal resolution information and the temporal decomposition levels. From this information or from one of these pieces of information, it chooses a motion compensation configuration for the time synthesis.
  • the time synthesis circuit adapts the integration filter according to this chosen configuration.
  • the bit rate of the bit stream received by the decoder corresponds to the bit stream extracted.
  • the scalable coder generally transmits the highest bit rate which is the original bit stream, as we saw previously, and the extractor, which can be controlled by the decoder, extracts the bit stream corresponding to the desired resolutions.
  • the bit rate information received is available at the decoder.
  • the spatial, temporal and bit rate resolution information defines a decoding scenario. This scenario depends, for example, on the display used by the decoder, the speed available for receiving data. It is on the basis of this information and / or the level of temporal decomposition that the temporal synthesis circuit is configured as regards the inter ⁇ olation filters.
  • FIG. 6 represents a decision flow diagram implemented by the movement configuration choice circuit belonging to the time analysis circuit.
  • Step 20 determines whether the resolution of the source image supplied to the coder is lower than that of the QCIF format, from the English Quarter Common Intermediate Format and corresponding to 176 columns, 120 lines. If so, the next step is step 23 which decides configuration 1. If not, the next step is step 21 which checks the level of time decomposition. If this level is strictly greater than 2, the next step is step 23, configuration 1 is chosen. Otherwise, the next step is step 22 which decides the configuration 2.
  • FIG. 7 represents a decision flowchart for the decoder. Step 24 determines whether the resolution of the image supplied by the decoder and corresponding to the extracted bit stream is lower than that of the QCIF format, 176 columns, 120 lines. If so, the next step is step 26 which chooses configuration 1.
  • step 25 which checks the level of time decomposition. If this level is strictly greater than 2, the next step is step 26, configuration 1 is used. Otherwise, the next step is step 27.
  • This step 27 determines whether the resolution of the image to be decoded is equal to that of the SD format, from the English Standard Definition, 720 columns, 480 lines and whether the bit rate of the bit stream received is less than 1.5 Mb / s. If yes, the next step is step 26 which decides the configuration 1. If not, step 28 is the next step. This step 28 determines whether the resolution of the image to be decoded is equal to that of the CIF format, 352 columns, 240 lines and whether the bit rate is less than 700 kbits / s. If so, the next step is step 26 which imposes configuration 1. If not, configuration 2 is imposed on the time filter circuits.
  • the isolation filter is for example of the FIR 8 coefficients type, acronym for English Finite Impulse Response.
  • the filtering is carried out by convolution, thus taking into account the luminances of the 4 pixels preceding and following the sub-pixel to be calculated.
  • three different inte ⁇ olation filters of the previous type can be used.
  • the value of a coefficient n is given by the formula: s is the sub-pixel position, s ⁇ VA, ⁇ A, OR%, n is the number of the coefficient and h (m) the attenuation filter or Hamming window.
  • the coefficients are: 4 [-0.0110 0.0452 -0.1437 0.8950 0.2777 -0.0812 0.0233 -0.0053]
  • the coefficients are: 2 [-0.0053 0.0233 -0.0812 0.2777 0.8950 -0.1437 0.0452 -0.0110] 3
  • the coefficients are: 4 [-0.0105 0.0465 -0.1525 0.6165 0.6165 -0.1525 0.0465 -0.0105] t 'With these filters, we can interpolate at A, V ⁇ and%> of pixel.
  • the interpolation is done first according to the horizontal dimension, then vertical.
  • the 1/8 pixel inte ⁇ olation is then performed by a bilinear interpolation from the pixel ⁇ A positions.
  • the adaptation example given above at the level of the coder can be applied in the same way at the level of the decoder.
  • the principle is to use limited movement precision and simple interpolation filters when operating at limited image qualities, that is to say at low bit rate, on images of small in size and at high levels of temporal decomposition.
  • high spatial resolution, high bit rates, low temporal decomposition levels high precision of movement and sophisticated inter ⁇ olation filters are used.
  • the justification for this principle is that when the images to be filtered are poor in frequency content or of limited resolution, it is not useful to use very advanced interpolation filters or very high movement precision.
  • the applications of the invention relate to so-called “scalable” video coders / decoders used for data compression / decompression, for example in the field of video telephony or video transmission over the Internet.

Abstract

The invention relates to a method which is characterised in that the resolution selected for the movement information and the complexity of the interpolation filters used during a temporal filtering operation compensated in movement, depend on a decoding scenario, namely flow, temporal and spatial resolutions selected for the decoding either in terms of the corresponding temporal decomposition or of a combination of said parameters. The inventive method can be applied to so-called scalable video encoders/decoders, for example in the field of videotelephony or video transmission on the internet.

Description

PROCEDE DE CODAGE ET DE DECODAGE D'UNE SEQUENCE D'IMAGES CODEE AVEC ECHELONNABILITE SPATIALE ET TEMPORELLEMETHOD FOR CODING AND DECODING A SEQUENCE OF CODED IMAGES WITH SPATIAL AND TEMPORAL SCALABILITY
L'invention concerne un procédé de codage et de décodage vidéo d'une séquence d'image codée avec échelon nabi lité spatiale et temporelle, par analyse temporelle hiérarchique exploitant le filtrage temporel compensé en mouvement. Le domaine est celui de la compression vidéo basée sur des schémas à échelonnabilité spatiale et/ou temporelle dits aussi « scalables ». Il s'agit par exemple d'un codage en ondelettes 2D+t comportant un filtrage temporel compensé en mouvement. Une chaîne de codage-extraction-décodage échelonnable est illustrée sur la figure 1. Les images source sont transmises à un circuit de codage vidéo scalable 1. Le train binaire originel obtenu est traité par un extracteur 2 pour donner un train binaire extrait. Ce dernier est décodé par le circuit de décodage 3 qui fournit en sortie la vidéo décodée. L'écheloπnabilité ou « scalabilité » permet de générer un train binaire originel duquel on peut extraire des sous trains binaires adaptés à des ensembles donnés, débit, résolution spatiale, fréquence temporelle... Par exemple, si le train binaire scalable originel a été généré à partir d'une séquence vidéo à 25Hz, de résolution 720*480 pixels et sans contrainte de débit, il est possible, après avoir extrait de ce train binaire les donnés adéquates, d'obtenir un sous-train binaire, par exemple de paramètres 1 Mb/s, 12,5Hz, 360*240 pixels, lui-même scalable. Le décodage de ce sous-train binaire extrait génère une vidéo à 12,5Hz, de taille 360*240 pixels. Dans les approches existantes de compression vidéo scalables, le codage et le décodage procèdent de façon identique, sans prise en compte de conditions de fonctionnement telles que le niveau de décomposition temporelle, le débit, la résolution spatiale de la vidéo décodée... En particulier, si le décodage implique de la compensation de mouvement entre images, cette compensation est appliquée de façon identique, sans tenir compte de la taille des images, ni du débit de la vidéo à décoder. Cela résulte en une qualité d'images dégradée, en particulier lorsque la résolution d'images devient petite par rapport à la taille des filtres d'interpolation utilisés pour la compensation de mouvement. L'invention a pour but de pallier les inconvénients précités. Un des objets de l'invention est un procédé de décodage d'une séquence d'images codée avec échelonnabilité spatiale et temporelle, les données codées comportant des informations de mouvement, comprenant une étape de synthèse temporelle hiérarchique effectuant un filtrage temporel compensé en mouvement, ou MCTF, d'images d'un niveau de décomposition en fréquence à partir des dites informations de mouvement, pour fournir des images d'un niveau de décomposition inférieur, caractérisé en ce que, lors d'une opération de filtrage temporel compensé en mouvement, la résolution choisie pour l'exploitation des informations de mouvement et la complexité des filtres d'interpolation utilisés sont fonction d'un scénario de décodage, à savoir des résolutions spatiale, temporelle et du débit sélectionnés pour le décodage ou bien du niveau de décomposition temporelle correspondant ou d'une combinaison de ces paramètres. Selon une mise en œuvre particulière, le nombre de coefficients du filtre d'interpolation utilisé pour la compensation en mouvement dépend du scénario de décodage ou du niveau de décomposition temporelle. Selon une mise en œuvre particulière, l'étape de synthèse temporelle hiérarchique est un décodage de coefficients ondelettes avec filtrage compensé en mouvement. L'invention concerne également un procédé de codage d'une séquence d'images de résolution spatiale donnée, avec échelonnabilité spatiale et temporelle, comprenant une étape d'analyse temporelle hiérarchique effectuant un filtrage temporel compensé en .mouvement, ou MCTF, d'images d'un niveau de décomposition en fréquence, à partir d'informations de mouvement entre ces images, pour donner des images d'un niveau de décomposition supérieur, caractérisé en ce que, lors d'une opération de filtrage temporel compensé en mouvement, la résolution choisie pour l'exploitation des dites informations de mouvement et la complexité des filtres d'interpolation utilisés sont fonction de la dite résolution spatiale des images source ou du niveau de décomposition temporelle correspondant. Le procédé, selon une mise en œuvre particulière, comporte une étape d'estimation de mouvement calculée entre deux images d'un niveau de décomposition donné pour réaliser la compensation de mouvement et en ce que la précision de calcul de l'estimation de mouvement est fonction du niveau de décomposition temporelle ou de la dite résolution spatiale des images sources. L'étape d'analyse temporelle hiérarchique est par exemple un codage en ondelettes avec filtrage compensé en mouvement. L'invention concerne également un décodeur pour la mise en œuvre du procédé de décodage précédemment décrit, caractérisé en ce qu'il comporte un circuit de choix de configuration de mouvement pour déterminer la résolution du mouvement et le filtre d'interpolation à utiliser dans la compensation en mouvement pour le filtrage compensé en mouvement, en fonction du scénario de décodage, à savoir des résolutions spatiale et temporelles et du débit sélectionnés pour le décodage ou du niveau de décomposition temporelle correspondant ou d'une combinaison de ces paramètres. L'invention concerne également un codeur pour la mise en œuvre du procédé de codage précédemment décrit, caractérisé en ce qu'il comporte un circuit de choix de configuration de mouvement pour déterminer le filtre d'interpolation à utiliser par le circuit d'analyse temporelle pour la compensation de mouvement en fonction de la dite résolution spatiale des images source ou du niveau de décomposition temporelle correspondant. Selon un mode de réalisation particulier, le codeur est caractérisé en ce qu'il comporte un circuit de choix de configuration de mouvement pour déterminer la précision du mouvement calculé par le circuit d'estimation de mouvement, en fonction de la dite résolution spatiale des images source ou du niveau de décomposition temporelle correspondant.The invention relates to a video coding and decoding process of a coded image sequence with spatial and temporal nability step, by hierarchical temporal analysis exploiting the motion compensated temporal filtering. The field is that of video compression based on spatial and / or temporal scalability schemes also known as “scalable”. This is for example a 2D + t wavelet coding comprising a motion-compensated temporal filtering. A scalable coding-extraction-decoding chain is illustrated in FIG. 1. The source images are transmitted to a scalable video coding circuit 1. The original bit stream obtained is processed by an extractor 2 to give an extracted bit stream. The latter is decoded by the decoding circuit 3 which outputs the decoded video. The scalability or “scalability” makes it possible to generate an original binary train from which it is possible to extract binary sub-trains adapted to given sets, bit rate, spatial resolution, temporal frequency ... For example, if the original scalable binary train has been generated from a video sequence at 25Hz, resolution 720 * 480 pixels and without bit rate constraint, it is possible, after extracting from this bit stream the appropriate data, to obtain a bit stream, for example of parameters 1 Mb / s, 12.5Hz, 360 * 240 pixels, itself scalable. The decoding of this extracted binary substruct generates a video at 12.5 Hz, of size 360 * 240 pixels. In existing scalable video compression approaches, coding and decoding proceed in an identical manner, without taking into account operating conditions such as the level of temporal decomposition, the bit rate, the spatial resolution of the decoded video, etc. , if the decoding involves compensation for movement between images, this compensation is applied identically, regardless of the size of the images or the bit rate of the video to be decoded. This results in degraded image quality, especially when the image resolution becomes small. relative to the size of the interpolation filters used for motion compensation. The invention aims to overcome the aforementioned drawbacks. One of the objects of the invention is a method of decoding a coded image sequence with spatial and temporal scalability, the coded data comprising movement information, comprising a step of hierarchical temporal synthesis carrying out temporal filtering compensated for movement, or MCTF, of images of a frequency decomposition level from said motion information, to provide images of a lower decomposition level, characterized in that, during a motion-compensated temporal filtering operation , the resolution chosen for the exploitation of the movement information and the complexity of the interpolation filters used are a function of a decoding scenario, namely spatial, temporal and bit rate resolutions selected for decoding or else the level of decomposition corresponding time or a combination of these parameters. According to a particular implementation, the number of coefficients of the interpolation filter used for motion compensation depends on the decoding scenario or the level of temporal decomposition. According to a particular implementation, the step of hierarchical temporal synthesis is a decoding of wavelet coefficients with filtering compensated in movement. The invention also relates to a method of coding a sequence of images of given spatial resolution, with spatial and temporal scalability, comprising a step of hierarchical temporal analysis performing temporal filtering compensated in motion, or MCTF, of images. of a frequency decomposition level, from movement information between these images, to give images of a higher decomposition level, characterized in that, during a motion-compensated temporal filtering operation, the resolution chosen for the exploitation of said motion information and the complexity of the interpolation filters used are a function of said spatial resolution of the source images or of the corresponding temporal decomposition level. The method, according to a particular implementation, comprises a step of motion estimation calculated between two images of a given level of decomposition to achieve motion compensation and in that the accuracy of calculation of the motion estimation is depending on level of temporal decomposition or of said spatial resolution of the source images. The step of hierarchical temporal analysis is for example a coding in wavelets with filtering compensated in movement. The invention also relates to a decoder for implementing the previously described decoding method, characterized in that it includes a movement configuration selection circuit for determining the resolution of the movement and the interpolation filter to be used in the motion compensation for motion compensated filtering, depending on the decoding scenario, i.e. spatial and temporal resolutions and bit rate selected for decoding or the corresponding temporal decomposition level or a combination of these parameters. The invention also relates to an encoder for implementing the previously described encoding method, characterized in that it includes a circuit for choosing the configuration of movement for determining the interpolation filter to be used by the time analysis circuit. for motion compensation as a function of said spatial resolution of the source images or of the corresponding time decomposition level. According to a particular embodiment, the coder is characterized in that it includes a circuit for choosing the configuration of movement for determining the precision of the movement calculated by the circuit for estimating movement, as a function of said spatial resolution of the images. source or the corresponding time decomposition level.
La précision du mouvement et les filtres d'interpolation utilisés pour la compensation de mouvement dans le processus de codage et de décodage sont adaptés en fonction de différents paramètres, tels que le niveau de décomposition temporelle sur lequel on procède. Ces filtres sont adaptés, pour le décodage, au débit du flux décodé, à la résolution spatiale ou temporelle de la vidéo décodée.The precision of the movement and the interpolation filters used for the movement compensation in the coding and decoding process are adapted according to various parameters, such as the level of temporal decomposition on which one proceeds. These filters are adapted, for decoding, to the bit rate of the decoded stream, to the spatial or temporal resolution of the decoded video.
Grâce à cette compensation en mouvement adaptative, la qualité des images est améliorée, la complexité des traitements est réduite. D'autres particularités et avantages de l'invention ressortiroπt mieux de la description suivante donnée à titre d'exemple non limitatif et faite en regard des figures annexées qui représentent : - la figure 1, une chaîne de codage selon l'art antérieur, - la figure 2, un schéma de codage simplifié, - la figure 3, un filtrage temporel d'un GOP, - la figure 4, un filtrage temporel sur deux images, - la figure 5, un circuit de décodage, - la figure 6, un organigramme de choix de configuration de mouvement, - la figure 7, un deuxième organigramme de choix de configuration de mouvement. On considère un schéma de codage/décodage basé ondelettesThanks to this compensation in adaptive movement, the quality of the images is improved, the complexity of the treatments is reduced. Other particularities and advantages of the invention emerge better from the following description given by way of nonlimiting example and made with reference to the appended figures which represent: FIG. 1, a coding chain according to the prior art, - Figure 2, a simplified coding scheme, - Figure 3, a time filter of a GOP, - Figure 4, a time filter on two images, - Figure 5, a decoding circuit, - Figure 6 , a flowchart of choice of movement configuration, - Figure 7, a second flowchart of choice of movement configuration. We consider a wavelet-based coding / decoding scheme
2D+t, opérant une analyse/synthèse ondelettes le long des trajectoires de mouvement. Le système opère sur des groupes d'images ou GOPs. L'architecture globale du codeur est décrite en figure 2. Les images sources sont transmises à un circuit d'analyse temporelle 4 qui effectue une analyse temporelle compensée en mouvement ou MCTF, acronyme de l'anglais motion compensated temporal filtering, pour obtenir les différentes bandes temporelles fréquentielles. Les images sont transmises à un circuit d'estimation de mouvement 7 qui calcule les champs de mouvement. Ces champs sont transmis à un circuit de « pruning » 10 qui effectue un « élagage » ou une simplification des informations de mouvement calculées par le circuit d'estimation de mouvement pour contrôler le coût du mouvement. Les champs de mouvement ainsi simplifiés sont transmis au circuit d'analyse temporelle afin de définir les filtres d'analyse. Ils sont aussi transmis à un circuit de codage 11 qui effectue le codage des champs de mouvement simplifiés. Les images résultantes de l'analyse temporelle sont transmises à un circuit d'analyse spatiale 5 qui réalise un codage sous-bande de l'image bande basse et des images bandes hautes obtenues par l'analyse temporelle. Les coefficients ondelettes spatio -temporels ainsi obtenus sont finalement codés par un codeur entropique 6. Ce codeur fournit en sortie un ensemble de paquets binaires correspondant aux couches de scalabilités superposées, à la fois en qualité, en résolutions spatiales et temporelles. Un paquetiseur 12 effectue la fusion de ces paquets binaires avec les données de mouvement provenant du circuit de codage 11 pour fournir le train binaire écheloππable final. Les images aux différents niveaux de décomposition temporelle sont transmises par le circuit d'analyse temporelle 4 vers le circuit d'estimation de mouvement 7 comportant un premier circuit de choix de configuration de mouvement. Ce circuit, non représenté sur la figure, définit les conditions de fonctionnement du circuit d'estimation de mouvement en fonction des différents niveaux de décomposition des images. De manière optionnelle, les informations de mouvement, une fois simplifiées via le circuit de pruning 10, sont transmises au circuit d'analyse temporelle à travers un circuit de commutation de mode 9. Ce circuit permet de tester la qualité de l'estimation de mouvement en testant par exemple le nombre de pixels connectés entre l'image courante et l'image précédente, à un niveau de décomposition donné, et peut imposer au circuit d'analyse temporelle un codage en mode intra ou un codage en mode prédictif, c'est à dire un filtrage de l'image courante avec l'image suivante et non précédente, lorsque cette qualité de mouvement est insuffisante. Le choix entre le mode intra et prédictif dépend par exemple de la qualité de l'estimation de mouvement entre l'image courante et l'image suivante. Le circuit d'analyse temporelle comporte un deuxième circuit de choix de configuration de mouvement, également non représenté sur la figure, qui détermine, en fonction des niveaux de décomposition des images et/ou de la résolution spatiale des images sources, la configuration à adopter pour la compensation de mouvement utilisée dans cette analyse temporelle.2D + t, performing wavelet analysis / synthesis along the motion trajectories. The system operates on groups of images or GOPs. The overall architecture of the encoder is described in FIG. 2. The source images are transmitted to a time analysis circuit 4 which performs a time compensated motion analysis or MCTF, acronym for motion compensated temporal filtering, to obtain the different frequency time bands. The images are transmitted to a motion estimation circuit 7 which calculates the motion fields. These fields are transmitted to a “pruning” circuit 10 which performs a “pruning” or a simplification of the movement information calculated by the movement estimation circuit to control the cost of the movement. The motion fields thus simplified are transmitted to the time analysis circuit in order to define the analysis filters. They are also transmitted to a coding circuit 11 which performs the coding of the simplified motion fields. The images resulting from the time analysis are transmitted to a spatial analysis circuit 5 which performs sub-band coding of the low band image and of the high band images obtained by the time analysis. The spatio-temporal wavelet coefficients thus obtained are finally coded by an entropy coder 6. This coder provides as output a set of binary packets corresponding to the layers of scalabilities superimposed, both in quality, in spatial and temporal resolutions. A packetizer 12 performs the fusion of these binary packets with the movement data coming from the coding circuit 11 to provide the final echoable binary train. The images at the different levels of temporal decomposition are transmitted by the temporal analysis circuit 4 to the estimation circuit 7 movement comprising a first circuit configuration choice of movement. This circuit, not shown in the figure, defines the operating conditions of the motion estimation circuit according to the different levels of decomposition of the images. Optionally, the movement information, once simplified via the pruning circuit 10, is transmitted to the time analysis circuit through a mode switching circuit 9. This circuit makes it possible to test the quality of the motion estimation by testing for example the number of pixels connected between the current image and the previous image, at a given level of decomposition, and can impose on the temporal analysis circuit a coding in intra mode or a coding in predictive mode, c ' is to say a filtering of the current image with the following image and not preceding, when this quality of movement is insufficient. The choice between intra and predictive mode depends for example on the quality of the motion estimation between the current image and the next image. The time analysis circuit includes a second movement configuration selection circuit, also not shown in the figure, which determines, depending on the levels of decomposition of the images and / or the spatial resolution of the source images, the configuration to be adopted. for motion compensation used in this time analysis.
La figure 3 représente de manière synthétique les opérations de filtrage temporel compensé en mouvement réalisées par le circuit d'analyse temporelle 4, avec une décomposition à 4 niveaux pour des GOPs comportant, dans cet exemple, 16 images représentées en traits gras. Le mode de filtrage utilisé est appelé « lifting ». Au lieu d'utiliser un filtrage complexe pour le codage en ondelettes, exploitant un filtre linéaire de longueur importante, dans notre exemple le filtrage serait effectué sur un groupe de 16 images, ce procédé de filtrage consiste, de manière connue, à « factoriser » le filtre en exploitant des filtres de longueur limitée, par exemple deux si l'on choisit de filtrer les échantillons deux à deux, ce filtrage étant reconduit pour chaque niveau de décomposition. On considère donc le cas où le filtrage dans le sens du mouvement est effectué sur des paires d'images. Le filtrage basse fréquence et haute fréquence, sur chacune des paires du GOP, produit respectivement, au premier niveau de décomposition temporelle, 8 images de fréquence temporelle basse (t-L) et 8 images de fréquence temporelle haute (t-H). Les images de fréquence temporelle basse sont ensuite décomposées à nouveau selon le même procédé. Le filtrage passe bas de ces images fournit 4 nouvelles images de fréquence temporelle basse t-LL et le filtrage passe-haut de ces mêmes images fournit 4 images de fréquence temporelle haute t-LH. Le troisième niveau de décomposition fournit 2 images de fréquence temporelle basse t-LLL et 2 images de fréquence temporelle haute t-LLH. Le quatrième et dernier niveau fournit une image de fréquence temporelle basse t-LLLL et une image de fréquence temporelle haute t-LLLH. Cette décomposition temporelle est une décomposition 5 bandes temporelles qui génère donc 1 image t-LLLL, 1 image t-LLLH, 2 images t-LLH, 4 images t-LH, et 8 images t-H par GOP de 16 images. Les images t-L, t-LL, t- LLL et bien sûr les images originales sont ignorées pour le codage en aval puisqu'elles sont à l'origine de la décomposition en sous-bandes pour fournir les images décorrélées à chaque niveau. Cette décomposition permet donc une nouvelle répartition de l'énergie en générant une image utile de fréquence temporelle basse t-LLLL, qui représente une moyenne de l'ensemble du GOP et dans laquelle est concentrée l'énergie, et quatre niveaux d'images de fréquence temporelle haute de faible énergie, soit 5 bandes de fréquence. Ce sont ces images qui sont transmises au circuit d'analyse spatiale pour une décomposition spatiale en sous-bandes. Pour réaliser les filtrages, un champ de mouvement est estimé entre chaque paire d'images à filtrer et cela pour chaque niveau. C'est la fonction de l'estimateur de mouvement 7. Le filtrage d'une paire d'images source A et B consiste par défaut à générer une image basse fréquence temporelle L et une image haute fréquence temporelle H, selon les équations suivantes : où MC(I) correspond à l'image I compensée en mouvement. La somme concerne le filtrage passe-bas, la différence, le filtrage passe-haut. La figure 4 est une illustration simplifiée du filtrage temporel des deux images successives A et B, l'image A étant la première image selon l'axe des temps et selon l'ordre d'affichage, donnant une image basse fréquence L et une image haute fréquence H. L'estimation de mouvement se fait par rapport à une image de référence, de l'image courante vers l'image de référence. On cherche pour chaque pixel de l'image courante, son correspondant, s'il existe, dans l'image de référence, et on lui affecte le vecteur mouvement correspondant. Le pixel de l'image de référence est alors dit connecté. L'obtention de l'image L nécessite une compensation en mouvement de l'image A. Cette compensation se fait par estimation de mouvement de l'image B vers l'image A en prenant A comme image de référence, un mouvement et donc un vecteur étant alors affecté à chaque pixel de l'image B. La valeur d'un pixel de L est égale, au facteur de forme prés, à la somme de la luminance du pixel correspondant de l'image B et de la luminance du pixel ou sous-pixel de A pointé par le vecteur mouvement attribué au pixel correspondant de l'image B. Une interpolation est nécessaire lorsque ce vecteur ne pointe par sur un pixel de l'image A. Il s'agit ici de prédiction anticipée à partir d'une image de référence passée et d'un calcul de vecteurs mouvements anticipés ou « forward vectors » en anglais, en se référant à la norme MPEG. L'obtention de l'image H nécessite une compensation en mouvement de l'image B. Cette compensation se fait par estimation de mouvement de l'image A vers l'image B en prenant B comme image de référence, un mouvement et donc un vecteur étant alors affecté à chaque pixel de l'image A. La valeur d'un pixel de H est égale, au facteur de forme prés, à la différence de la luminance du pixel correspondant de l'image A et de la luminance du pixel ou sous-pixel de B pointé par le vecteur mouvement attribué au pixel correspondant de l'image A. Une inteφolation est nécessaire lorsque ce vecteur ne pointe.par sur un pixel de l'image B. Il s'agit de prédiction différée à partir d'une image de référence postérieure et d'un calcul de vecteurs mouvements différés ou « backward vectors » en anglais, en se référant à la norme MPEG. D'une manière pratique, seul un champ de vecteurs mouvement est calculé, de A vers B ou de B vers A. L'autre champ de vecteurs mouvement est déduit du premier, générant des pixels non connectés, c'est à dire non affectés d'un vecteur mouvement et correspondant à des trous dans le champ de vecteurs mouvement inverse. D'une manière pratique, les images de fréquence basse et haute sont calculées comme suit: Ce filtrage, équivalent à celui précédemment décrit, consiste à calculer d'abord l'image H. Cette image est obtenue par différence point à point de l'image B et de l'image A compensée en mouvement. Ainsi, on retranche à un pixel de B une certaine valeur, interpolée le cas échéant, pointée par le vecteur déplacement dans A, vecteur mouvement calculé lors de l'estimation de mouvement de l'image B vers l'image A. L'image L est ensuite déduite à partir de l'image H et non plus de l'image B, par addition de l'image A à l'image H compensée en mouvement inverse. MCf~__B(H) correspond à une « décompensation » en mouvement de l'image (H). Ainsi, on ajoute, à un pixel de A ou plus exactement à une valeur normalisée de la luminance du pixel, une certaine valeur, interpolée le cas échéant, située, dans l'image H, à la base d'un vecteur déplacement de B vers A et pointant le pixel de A. Un même raisonnement peut être tenu au niveau d'un bloc d'image au lieu d'un pixel.FIG. 3 represents in a synthetic way the operations of temporal filtering compensated in movement carried out by the temporal analysis circuit 4, with a decomposition at 4 levels for GOPs comprising, in this example, 16 images represented in bold lines. The filtering method used is called "lifting". Instead of using complex filtering for wavelet coding, exploiting a linear filter of considerable length, in our example the filtering would be carried out on a group of 16 images, this filtering method consists, in known manner, of "factorizing" the filter by using filters of limited length, for example two if it is chosen to filter the samples two by two, this filtering being repeated for each level of decomposition. We therefore consider the case where the filtering in the direction of movement is carried out on pairs of images. The low frequency and high frequency filtering, on each of the pairs of the GOP, produces respectively, at the first level of temporal decomposition, 8 images of low temporal frequency (tL) and 8 images of high temporal frequency (tH). The images of low time frequency are then decomposed again according to the same method. The low pass filtering of these images provides 4 new images of low time frequency t-LL and the high pass filtering of these same images provides 4 images of high time frequency t-LH. The third level of decomposition provides 2 images of low time frequency t-LLL and 2 images of high time frequency t-LLH. The fourth and last level provides a low time frequency image t-LLLL and a high time frequency image t-LLLH. This temporal decomposition is a 5 temporal bands decomposition which therefore generates 1 t-LLLL image, 1 t-LLLH image, 2 t-LLH images, 4 t-LH images, and 8 tH images per GOP of 16 images. The images tL, t-LL, t-LLL and of course the original images are ignored for the downstream coding since they are at the origin of the decomposition into sub-bands to provide the decorrelated images at each level. This decomposition therefore allows a new distribution of the energy by generating a useful image of low time frequency t-LLLL, which represents an average of the whole of the GOP and in which the energy is concentrated, and four image levels of low energy high time frequency, ie 5 frequency bands. These are the images which are transmitted to the spatial analysis circuit for spatial decomposition into sub-bands. To perform the filtering, a motion field is estimated between each pair of images to be filtered and this for each level. This is the function of the motion estimator 7. The filtering of a pair of source images A and B consists by default in generating a low temporal frequency image L and a high temporal frequency image H, according to the following equations: where MC (I) corresponds to the image I compensated in motion. The sum is for low pass filtering, the difference is for high pass filtering. FIG. 4 is a simplified illustration of the temporal filtering of the two successive images A and B, the image A being the first image along the time axis and according to the display order, giving a low frequency image L and an image high frequency H. The motion estimation is made with respect to a reference image, from the current image to the reference image. We search for each pixel of the current image, its correspondent, if it exists, in the reference image, and we assign to it the corresponding motion vector. The pixel of the reference image is then said to be connected. Obtaining image L requires compensation for movement of image A. This compensation is done by estimating movement from image B to image A, taking A as the reference image, a movement and therefore a vector then being assigned to each pixel of image B. The value of a pixel of L is equal, in the near form factor, to the sum of the luminance of the corresponding pixel of image B and the luminance of the pixel or sub-pixel of A pointed by the motion vector assigned to the corresponding pixel of image B. An interpolation is necessary when this vector does not point to a pixel of image A. Here it is a question of predicted prediction from a past reference image and a calculation of forward motion vectors or “forward vectors” in English, with reference to the MPEG standard. Obtaining image H requires compensation for movement of image B. This compensation is done by estimating movement from image A to image B by taking B as a reference image, a movement and therefore a vector then being assigned to each pixel of image A. The value of a pixel of H is equal, to the form factor near, to the difference of the luminance of the corresponding pixel of image A and the luminance of the pixel or sub-pixel of B pointed by the motion vector assigned to the corresponding pixel of image A. An inteφolation is necessary when this vector does not point to a pixel of image B. This is a delayed prediction from a posterior reference image and a calculation of delayed movement vectors or “backward vectors” in English, with reference to the MPEG standard. In a practical way, only one field of motion vectors is calculated, from A to B or from B to A. The other field of motion vectors is deduced from the first, generating pixels which are not connected, that is to say unaffected. of a motion vector and corresponding to holes in the reverse motion vector field. Conveniently, the low and high frequency images are calculated as follows: This filtering, equivalent to that previously described, consists in first of all calculating the image H. This image is obtained by point-to-point difference of the image B and of the image A compensated in movement. Thus, we subtract from a pixel of B a certain value, interpolated if necessary, pointed by the displacement vector in A, motion vector calculated during the motion estimation from image B to image A. The image L is then deduced from image H and no longer from image B, by adding image A to image H compensated in reverse motion. MCf ~ __ B (H) corresponds to a “decompensation” in movement of the image (H). Thus, a certain value, interpolated where appropriate, located in the image H, at the base of a displacement vector of B, is added to a pixel of A or more exactly to a normalized value of the luminance of the pixel. towards A and pointing to the pixel of A. The same reasoning can be held at the level of an image block instead of a pixel.
Le circuit d'estimation de mouvement 7 exploite par exemple un algorithme d'estimation de mouvement par appariement de blocs plus connu sous l'appellation anglaise de « block matching ». Un bloc d'image courant est corrélé aux blocs d'une fenêtre de recherche dans l'image de référence pour déterminer le vecteur de mouvement correspondant à la meilleure corrélation. Cette recherche est effectuée non seulement sur les blocs de la fenêtre de recherche obtenus par déplacements successifs d'un pixel en horizontal et vertical mais également sur des blocs interpolés si la précision recherchée est inférieure au pixel. Cette interpolation consiste à calculer les valeurs de luminance des sous-pixels, pour la génération de blocs d'images obtenus par déplacements successifs d'une valeur inférieure à la distance entre deux pixels. Par exemple pour une précision du quart de pixel, un test de corrélation est effectué tous les quarts de pixels, en horizontal et en vertical. Cette iπteφolation exploite des filtres appelés filtres d'interpolation de l'estimation de mouvement. Les images pour lesquelles un filtrage temporel compensé en mouvement est à effectuer sont transmises à l'estimateur de mouvement 7 pour qu'il estime le mouvement entre deux images. Ce circuit comporte un premier circuit de choix de configuration de mouvement qui reçoit, en plus de l'information de niveau de décomposition des images, d'autres informations telles que la résolution spatiale des images sources. Ce circuit décide de la configuration de mouvement en fonction de ce niveau et/ou de la résolution spatiale. Ainsi, par exemple, la précision dans le calcul des vecteurs mouvement dépend du niveau de décomposition temporelle des images traitées. Cette précision est d'autant plus faible que le niveau de décomposition est grand. Les filtres d'interpolation de l'estimateur de mouvement sont configurés pour être adaptés à cette précision de mouvement. Un exemple de configuration est donné par la suite. Le circuit d'analyse temporelle 4, comme on l'a indiqué plus haut, réalise des compensations de mouvement pour le filtrage temporel des images. Ces opérations de compensations en mouvement nécessitent des opérations d'interpolation utilisant des filtres d'interpolation, et cela pour chaque niveau de décomposition. Le deuxième circuit de choix de configuration de mouvement, dans ce circuit d'analyse temporelle, qui peut être différent du premier, met en œuvre un algorithme de traitement adaptant la précision du mouvement et la complexité du filtre d'interpolation pour la compensation de mouvement en fonction du niveau de décomposition temporelle des images à compenser en mouvement. Comme pour le premier circuit de choix de configuration de mouvement, ces différentes adaptations ou configurations peuvent également dépendre de la résolution spatiale des images sources traitées. Bien évidemment, un codeur ne comportant qu'un seul de ces circuits de choix de configuration est du domaine de l'invention.The motion estimation circuit 7 uses for example a motion estimation algorithm by block matching better known by the English name of "block matching". A current image block is correlated to the blocks of a search window in the reference image to determine the motion vector corresponding to the best correlation. This search is carried out not only on the blocks of the search window obtained by successive displacements of a pixel in horizontal and vertical but also on interpolated blocks if the precision sought is less than the pixel. This interpolation consists in calculating the luminance values of the sub-pixels, for the generation of image blocks obtained by successive displacements of a value less than the distance between two pixels. For example, for a quarter pixel accuracy, a correlation test is performed every quarter of a pixel, horizontally and vertically. This iπteφolation uses filters called interpolation filters of the motion estimation. The images for which motion-compensated temporal filtering is to be carried out are transmitted to the motion estimator 7 so that it estimates the motion between two images. This circuit includes a first motion configuration selection circuit which receives, in addition to the image decomposition level information, other information such as the spatial resolution of the source images. This circuit decides the movement configuration according to this level and / or the spatial resolution. Thus, for example, the precision in the calculation of the motion vectors depends on the level of temporal decomposition of the processed images. This precision is lower the higher the level of decomposition. The motion estimator interpolation filters are configured to be adapted to this motion accuracy. An example of configuration is given below. The time analysis circuit 4, as indicated above, performs motion compensation for the temporal filtering of the images. These motion compensation operations require interpolation operations using interpolation filters, and this for each level of decomposition. The second motion configuration selection circuit, in this time analysis circuit, which may be different from the first, implements a processing algorithm adapting the precision of the movement and the complexity of the interpolation filter for motion compensation. as a function of the level of temporal decomposition of the images to be compensated for in motion. As with the first motion configuration choice circuit, these different adaptations or configurations can also depend on the spatial resolution of the source images processed. Obviously, an encoder comprising only one of these configuration choice circuits is within the scope of the invention.
Un décodeur selon l'invention est.décrit en figure 5. Le flux binaire reçu par le décodeur est transmis à l'entrée d'un circuit de décodage entropique 13 qui réalise les opérations inverses du circuit de codage entropique du codeur. Il décode entre autres les coefficients ondelettes spatio-temporels et, le cas échéant, les modes de codage. Ce flux binaire est transmis en parallèle à l'entrée d'un circuit de décodage du mouvement 14 qui décode les champs de mouvement reçus dans le flux binaire pour les transmettre au circuit de synthèse temporelle. Le circuit de décodage entropique 13 est relié à un circuit de synthèse spatiale 15 qui reconstruit les images correspondant aux différentes sous-bandes temporelles. Les coefficients ondelettes temporels provenant du circuit de synthèse spatiale sont transmis à un circuit de synthèse temporelle 16 qui reconstruit les images de sortie à partir de filtres de synthèse temporelle. Le circuit de synthèse temporelle comporte un circuit de choix de configuration de mouvement, non représenté sur la figure, qui détermine, en fonction des conditions du décodage et/ou des niveaux de décomposition des images, la configuration à adopter pour la compensation de mouvement utilisée dans cette synthèse temporelle. Le circuit de synthèse temporelle est relié à un circuit de post-traitement 17 dont la sortie est la sortie du décodeur. Il s'agit par exemple de post-filtrage permettant de réduire les artefacts tels que les effets de bloc. Dans le cas ou le codeur exploite d'autres mode de codages que le mode MCTF, par exemple le mode intra et le mode prédictif, un circuit de commutation de filtre temporel est utilisé pour recevoir ces informations de mode de codage provenant du circuit de décodage entropique 13 et pour les transmettre au circuit de synthèse temporelle 16 qui effectue en conséquence les commutations de filtres. Le circuit de choix de configuration de mouvement reçoit les informations de débit, de résolution spatiale et temporelle et les niveaux de décomposition temporelle. A partir de ces informations ou d'une de ces informations, il choisit, pour la synthèse temporelle, une configuration de compensation de mouvement. Le circuit de synthèse temporelle adapte le filtre d'inteφolation en fonction de cette configuration choisie. Le débit du flux binaire reçu par le décodeur correspond au train binaire extrait. Le codeur scalable transmets généralement le débit le plus élevé qui est le train binaire originel, comme on l'a vu précédemment, et l'extracteur, qui peut être commandé par le décodeur, extrait le train binaire correspondant aux résolutions souhaitées. Les informations de débit reçu sont disponibles au décodeur. Les informations de résolution spatiale, temporelle et de débit définissent un scénario de décodage. Ce scénario est fonction par exemple de l'afficheur exploité par le décodeur, du débit disponible pour la réception des données. C'est à partir de ces informations et/ou du niveau de décomposition temporelle que le circuit de synthèse temporelle est configuré quant aux filtres d'inteφolation.A decoder according to the invention is described in FIG. 5. The bit stream received by the decoder is transmitted to the input of an entropy decoding circuit 13 which performs the reverse operations of the entropy coding circuit of the coder. Among other things, it decodes the space-time wavelet coefficients and, where appropriate, the coding modes. This bit stream is transmitted in parallel to the input of a motion decoding circuit 14 which decodes the motion fields received in the bit stream to transmit them to the time synthesis circuit. The entropy decoding circuit 13 is connected to a spatial synthesis circuit 15 which reconstructs the images corresponding to the different time sub-bands. The temporal wavelet coefficients coming from the spatial synthesis circuit are transmitted to a temporal synthesis circuit 16 which reconstructs the output images from synthesis filters time. The time synthesis circuit includes a movement configuration selection circuit, not shown in the figure, which determines, as a function of the decoding conditions and / or the levels of decomposition of the images, the configuration to be adopted for the movement compensation used. in this temporal synthesis. The time synthesis circuit is connected to a post-processing circuit 17, the output of which is the output of the decoder. This is for example post-filtering to reduce artifacts such as block effects. In the case where the coder uses other coding modes than MCTF mode, for example intra mode and predictive mode, a time filter switching circuit is used to receive this coding mode information coming from the decoding circuit entropy 13 and to transmit them to the time synthesis circuit 16 which consequently performs the filter switching. The motion configuration selection circuit receives the flow rate, spatial and temporal resolution information and the temporal decomposition levels. From this information or from one of these pieces of information, it chooses a motion compensation configuration for the time synthesis. The time synthesis circuit adapts the integration filter according to this chosen configuration. The bit rate of the bit stream received by the decoder corresponds to the bit stream extracted. The scalable coder generally transmits the highest bit rate which is the original bit stream, as we saw previously, and the extractor, which can be controlled by the decoder, extracts the bit stream corresponding to the desired resolutions. The bit rate information received is available at the decoder. The spatial, temporal and bit rate resolution information defines a decoding scenario. This scenario depends, for example, on the display used by the decoder, the speed available for receiving data. It is on the basis of this information and / or the level of temporal decomposition that the temporal synthesis circuit is configured as regards the interφolation filters.
Un exemple d'adaptation de la précision du mouvement et du filtre d'interpolation qui dépend de cette précision est donné ci-dessous, pour les opérations d'estimation de mouvement au codeur ou les opérations de compensation de mouvement au codeur ou décodeur : configuration précision du mouvement filtres d'interpolation 1/4 de pixel Bilinéaire 1/8 de pixel A pixel par interpolation FIR 8 coefficients, puis 1/8 pixel par inteφolation bilinéaire Le filtre de la configuration 2 est très similaire de celui utilisé dans la norme MPEG-4 partie 10 (référence ITU-T Rec. H.264 ISO/IEC 14496-10 AVC). La figure 6 représente un organigramme de décision mis en œuvre par le circuit de choix de configuration de mouvement appartenant au circuit d'analyse temporelle. L'étape 20 détermine si la résolution de l'image source fournie au codeur est inférieure à celle du format QCIF, de l'anglais Quarter Common Iπtermediate Format et correspondant à 176 colonnes, 120 lignes. Dans l'affirmative, l'étape suivante est l'étape 23 qui décide la configuration 1. Dans la négative, l'étape suivante est l'étape 21 qui vérifie le niveau de décomposition temporelle. Si ce niveau est strictement supérieur à 2, l'étape suivante est l'étape 23, la configuration 1 est choisie. Sinon, l'étape suivante est l'étape 22 qui décide la configuration 2. La figure 7 représente un organigramme de décision pour le décodeur. L'étape 24 détermine si la résolution de l'image fournie par le décodeur et correspondant au flux binaire extrait est inférieure à celle du format QCIF, 176 colonnes, 120 lignes. Dans l'affirmative, l'étape suivante est l'étape 26 qui choisit la configuration 1. Dans la négative, l'étape suivante est l'étape 25 qui vérifie le niveau de décomposition temporelle. Si ce niveau est strictement supérieur à 2, l'étape suivante est l'étape 26, la configuration 1 est utilisée. Sinon, l'étape suivante est l'étape 27. Cette étape 27 détermine si la résolution de l'image à décoder est égale à celle du format SD, de l'anglais Standard Définition, 720 colonnes, 480 lignes et si le débit du flux binaire reçu est inférieur à 1,5 Mb/s. Dans l'affirmative, l'étape suivante est l'étape 26 qui décide la configuration 1. Dans la négative, l'étape 28 est l'étape suivante. Cette étape 28 détermine si la résolution de l'image à décoder est égale à celle du format CIF, 352 colonnes, 240 lignes et si le débit est inférieur à 700 kbits/s. Dans l'affirmative, l'étape suivante est l'étape 26 qui impose la configuration 1. Dans la négative, la configuration 2 est imposée aux circuits de filtrage temporel.An example of adaptation of the precision of the movement and of the interpolation filter which depends on this precision is given below, for the operations of motion estimation at the encoder or the operations of motion compensation at the encoder or decoder: configuration precision of movement interpolation filters 1/4 pixel Bilinear 1/8 pixel A pixel by FIR interpolation 8 coefficients, then 1/8 pixel by bilinear inteφolation The filter of configuration 2 is very similar to that used in the standard MPEG-4 part 10 (reference ITU-T Rec. H.264 ISO / IEC 14496-10 AVC). FIG. 6 represents a decision flow diagram implemented by the movement configuration choice circuit belonging to the time analysis circuit. Step 20 determines whether the resolution of the source image supplied to the coder is lower than that of the QCIF format, from the English Quarter Common Intermediate Format and corresponding to 176 columns, 120 lines. If so, the next step is step 23 which decides configuration 1. If not, the next step is step 21 which checks the level of time decomposition. If this level is strictly greater than 2, the next step is step 23, configuration 1 is chosen. Otherwise, the next step is step 22 which decides the configuration 2. FIG. 7 represents a decision flowchart for the decoder. Step 24 determines whether the resolution of the image supplied by the decoder and corresponding to the extracted bit stream is lower than that of the QCIF format, 176 columns, 120 lines. If so, the next step is step 26 which chooses configuration 1. If not, the next step is step 25 which checks the level of time decomposition. If this level is strictly greater than 2, the next step is step 26, configuration 1 is used. Otherwise, the next step is step 27. This step 27 determines whether the resolution of the image to be decoded is equal to that of the SD format, from the English Standard Definition, 720 columns, 480 lines and whether the bit rate of the bit stream received is less than 1.5 Mb / s. If yes, the next step is step 26 which decides the configuration 1. If not, step 28 is the next step. This step 28 determines whether the resolution of the image to be decoded is equal to that of the CIF format, 352 columns, 240 lines and whether the bit rate is less than 700 kbits / s. If so, the next step is step 26 which imposes configuration 1. If not, configuration 2 is imposed on the time filter circuits.
Le filtre d'iπteφolation est par exemple du type FIR 8 coefficients, acronyme de l'anglais Finite Impulse Response. Le filtrage est effectué par convolution, en prenant donc en compte les luminances des 4 pixels précédents et suivants le sous-pixel à calculer. Pour différentes positions au sous-pixel s à %, Y≥, et 3A, on peut utiliser trois filtres d'inteφolation différents du type précédent. La valeur d'un coefficient n est donné par la formule : s est la position sous-pixel, s ≈ VA, ΛA, OU %, n est le numéro du coefficient et h(m) le filtre d'atténuation ou fenêtre de Hamming . On peut déduire des filtres FIR, par pondération par une fenêtre de Hamming et troncation de ces filtres pondérés. Pour s = , les coefficients sont : 4 [-0.0110 0.0452 -0.1437 0.8950 0.2777 -0.0812 0.0233 -0.0053] Pour s = — , les coefficients sont : 2 [-0.0053 0.0233 -0.0812 0.2777 0.8950 -0.1437 0.0452 -0.0110] 3 Pour s = — , les coefficients sont : 4 [-0.0105 0.0465 -0.1525 0.6165 0.6165 -0.1525 0.0465 -0.0105] t ' Avec ces filtres, on peut interpoler au A, V≥ et %> de pixel.The isolation filter is for example of the FIR 8 coefficients type, acronym for English Finite Impulse Response. The filtering is carried out by convolution, thus taking into account the luminances of the 4 pixels preceding and following the sub-pixel to be calculated. For different positions at the sub-pixel s at%, Y≥, and 3 A, three different inteφolation filters of the previous type can be used. The value of a coefficient n is given by the formula: s is the sub-pixel position, s ≈ VA, Λ A, OR%, n is the number of the coefficient and h (m) the attenuation filter or Hamming window. We can deduce FIR filters, by weighting by a Hamming window and truncation of these weighted filters. For s =, the coefficients are: 4 [-0.0110 0.0452 -0.1437 0.8950 0.2777 -0.0812 0.0233 -0.0053] For s = -, the coefficients are: 2 [-0.0053 0.0233 -0.0812 0.2777 0.8950 -0.1437 0.0452 -0.0110] 3 For s = -, the coefficients are: 4 [-0.0105 0.0465 -0.1525 0.6165 0.6165 -0.1525 0.0465 -0.0105] t 'With these filters, we can interpolate at A, V≥ and%> of pixel.
L'interpolation se fait d'abord selon la dimension horizontale, puis verticale. L'inteφolation au 1/8 de pixel est effectuée ensuite par une interpolation bilinéaire à partir des positions au ΛA de pixel.The interpolation is done first according to the horizontal dimension, then vertical. The 1/8 pixel inteφolation is then performed by a bilinear interpolation from the pixel Λ A positions.
L'exemple d'adaptation donné ci-dessus au niveau du codeur peut s'appliquer de la même manière au niveau du décodeur. D'une manière générale, le principe est d'utiliser une précision de mouvement limitée et des filtres d'interpolation simples quand on opère à des qualités d'image limitées, c'est-à-dire à bas débit, sur des images de petite taille et à des niveaux de décomposition temporelle élevés. A l'inverse, quand on traite des images de bonne qualité, résolution spatiale grande, débits élevés, niveaux de décomposition temporelle bas, on utilise une grande précision de mouvement et des filtres d'inteφolation sophistiqués. La justification de ce principe est que lorsque les images à filtrer sont pauvres en contenu fréqueπtiel ou de résolution limitée, il n'est pas utile d'employer des filtres d'interpolation très évolués ni une précision de mouvement très grande.The adaptation example given above at the level of the coder can be applied in the same way at the level of the decoder. In general, the principle is to use limited movement precision and simple interpolation filters when operating at limited image qualities, that is to say at low bit rate, on images of small in size and at high levels of temporal decomposition. Conversely, when processing good quality images, high spatial resolution, high bit rates, low temporal decomposition levels, high precision of movement and sophisticated interφolation filters are used. The justification for this principle is that when the images to be filtered are poor in frequency content or of limited resolution, it is not useful to use very advanced interpolation filters or very high movement precision.
Les applications de l'invention concernent les codeurs/décodeurs vidéo dits « scalables » utilisés pour la compression/décompression de données, par exemple dans le domaine de la vidéotéléphonie ou transmission vidéo sur internet. The applications of the invention relate to so-called “scalable” video coders / decoders used for data compression / decompression, for example in the field of video telephony or video transmission over the Internet.

Claims

REVENDICATIONS
1 Procédé de décodage d'une séquence d'images codée avec échelonnabilité spatiale et temporelle, les données codées comportant des informations de mouvement, comprenant une étape de synthèse temporelle hiérarchique (16) effectuant un filtrage temporel compensé en mouvement, ou MCTF, d'images d'un niveau de décomposition en fréquence à partir des dites informations de mouvement, pour fournir des images d'un niveau de décomposition inférieur, caractérisé en ce que, lors d'une opération de filtrage temporel compensé en mouvement, la résolution choisie pour l'exploitation des informations de mouvement et la complexité des filtres d'interpolation utilisés sont fonction d'un scénario de décodage, à savoir des résolutions spatiale, temporelle et du débit sélectionnés pour le décodage ou bien du niveau de décomposition temporelle correspondant ou d'une combinaison de ces paramètres.1 Method for decoding a coded image sequence with spatial and temporal scalability, the coded data comprising movement information, comprising a step of hierarchical temporal synthesis (16) carrying out temporal filtering compensated in movement, or MCTF, of images of a frequency decomposition level from said movement information, to provide images of a lower decomposition level, characterized in that, during a motion-compensated temporal filtering operation, the resolution chosen for the exploitation of the movement information and the complexity of the interpolation filters used are a function of a decoding scenario, namely spatial, temporal and bit rate resolutions selected for decoding or else the corresponding temporal decomposition level or a combination of these parameters.
2 Procédé selon la revendication 1, caractérisé en ce que le nombre de coefficients du filtre d'interpolation (16) utilisé pour la compensation en mouvement dépend du scénario de décodage ou du niveau de décomposition temporelle.2 Method according to claim 1, characterized in that the number of coefficients of the interpolation filter (16) used for motion compensation depends on the decoding scenario or the level of temporal decomposition.
3 Procédé selon la revendication 1 , caractérisé en ce que l'étape de synthèse temporelle hiérarchique (16) est un décodage de coefficients ondelettes avec filtrage compensé en mouvement.3 Method according to claim 1, characterized in that the step of hierarchical temporal synthesis (16) is a decoding of wavelet coefficients with filtering compensated in movement.
4 Procédé de codage d'une séquence d'images de résolution spatiale donnée, avec échelonnabilité spatiale et temporelle, comprenant une étape d'analyse temporelle hiérarchique (4) effectuant un filtrage temporel compensé en mouvement, ou MCTF, d'images d'un niveau de décomposition en fréquence, à partir d'informations de mouvement entre ces images (7), pour donner des images d'un niveau de décomposition supérieur, caractérisé en ce que, lors d'une opération de filtrage temporel compensé en mouvement (4), la résolution choisie pour l'exploitation des dites informations de mouvement et la complexité des filtres d'interpolation utilisés (9) sont fonction de la dite résolution spatiale des images source ou du niveau de décomposition temporelle correspondant. 5 Procédé selon la revendication 4, caractérisé en ce qu'il comporte une étape d'estimation de mouvement (7) calculée entre deux images d'un niveau de décomposition donné pour réaliser la compensation de mouvement (4) et en ce que la précision de calcul de l'estimation de mouvement (7) est fonction du niveau de décomposition temporelle ou de la dite résolution spatiale des images sources.4 Method for coding a sequence of images of given spatial resolution, with spatial and temporal scalability, comprising a step of hierarchical temporal analysis (4) performing temporal filtering compensated in motion, or MCTF, of images of a frequency decomposition level, from movement information between these images (7), to give images of a higher decomposition level, characterized in that, during a motion-compensated temporal filtering operation (4 ), the resolution chosen for processing said motion information and the complexity of the interpolation filters used (9) are a function of said spatial resolution of the source images or of the corresponding temporal decomposition level. 5 Method according to claim 4, characterized in that it comprises a motion estimation step (7) calculated between two images of a given level of decomposition to achieve motion compensation (4) and in that the precision for calculating the motion estimate (7) is a function of the level of temporal decomposition or of the said spatial resolution of the source images.
6 Procédé selon la revendication 4, caractérisé en ce que l'étape d'analyse temporelle hiérarchique (4) est un codage en ondelettes avec filtrage compensé en mouvement.6 Method according to claim 4, characterized in that the hierarchical temporal analysis step (4) is a wavelet coding with compensated filtering in motion.
7 Décodeur pour la mise en œuvre du procédé selon la revendication 1, caractérisé en ce qu'il comporte un circuit de choix de configuration de mouvement (16) pour déterminer la résolution du mouvement et le filtre d'interpolation à utiliser dans la compensation en mouvement (16) pour le filtrage compensé en mouvement, en fonction du scénario de décodage, à savoir des résolutions spatiale et temporelles et du débit sélectionnés pour le décodage ou du niveau de décomposition temporelle correspondant ou d'une combinaison de ces paramètres7 decoder for implementing the method according to claim 1, characterized in that it comprises a movement configuration selection circuit (16) for determining the resolution of the movement and the interpolation filter to be used in the compensation in motion (16) for motion compensated filtering, depending on the decoding scenario, i.e. spatial and temporal resolutions and bit rate selected for decoding or the corresponding temporal decomposition level or a combination of these parameters
8 Codeur pour la mise en œuvre du procédé selon la revendication 4, caractérisé en ce qu'il comporte un circuit de choix de configuration de mouvement (4) pour déterminer le filtre d'interpolation à utiliser par le circuit d'analyse temporelle pour la compensation de mouvement (4) en fonction de la dite résolution spatiale des images source ou du niveau de décomposition temporelle correspondant.8 encoder for implementing the method according to claim 4, characterized in that it includes a movement configuration selection circuit (4) for determining the interpolation filter to be used by the time analysis circuit for the motion compensation (4) as a function of said spatial resolution of the source images or of the corresponding time decomposition level.
9 Codeur pour la mise en œuvre du procédé selon la revendication 4, caractérisé en ce qu'il comporte un circuit de choix de configuration de mouvement (7) pour déterminer la précision du mouvement calculé par le circuit d'estimation de mouvement (7), en fonction de la dite résolution spatiale des images source ou du niveau de décomposition temporelle correspondant. 9 encoder for implementing the method according to claim 4, characterized in that it comprises a movement configuration selection circuit (7) for determining the precision of the movement calculated by the movement estimation circuit (7) , as a function of said spatial resolution of the source images or of the corresponding time decomposition level.
EP05728100A 2004-03-02 2005-02-21 Method for coding and decoding an image sequence encoded with spatial and temporal scalability Withdrawn EP1721471A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0450419A FR2867328A1 (en) 2004-03-02 2004-03-02 Image sequence decoding method for e.g. videotelephony field, involves determining motion resolution and filter based on spatial and temporal resolution of sources and decoding rate, or on level of temporal decomposition of images
PCT/FR2005/050108 WO2005086488A1 (en) 2004-03-02 2005-02-21 Method for coding and decoding an image sequence encoded with spatial and temporal scalability

Publications (1)

Publication Number Publication Date
EP1721471A1 true EP1721471A1 (en) 2006-11-15

Family

ID=34855193

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05728100A Withdrawn EP1721471A1 (en) 2004-03-02 2005-02-21 Method for coding and decoding an image sequence encoded with spatial and temporal scalability

Country Status (6)

Country Link
US (1) US20070171971A1 (en)
EP (1) EP1721471A1 (en)
JP (1) JP4986842B2 (en)
CN (1) CN1926876B (en)
FR (1) FR2867328A1 (en)
WO (1) WO2005086488A1 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070009050A1 (en) * 2005-04-11 2007-01-11 Nokia Corporation Method and apparatus for update step in video coding based on motion compensated temporal filtering
FR2909474B1 (en) * 2006-12-04 2009-05-15 Canon Kk METHOD AND DEVICE FOR ENCODING DIGITAL IMAGES AND METHOD AND DEVICE FOR DECODING CODE DIGITAL IMAGES
JP2008160398A (en) * 2006-12-22 2008-07-10 Matsushita Electric Ind Co Ltd Moving image coding device, and moving image coding method
WO2008125900A1 (en) * 2007-04-13 2008-10-23 Nokia Corporation A video coder
KR100939435B1 (en) * 2007-10-29 2010-01-28 에스케이 텔레콤주식회사 Apparatus and Method for analysis of Image
KR20090097015A (en) 2008-03-10 2009-09-15 삼성전자주식회사 Apparatus of encoding image and apparatus of decoding image
CN102742270B (en) * 2010-02-05 2016-02-03 瑞典爱立信有限公司 For the method and apparatus of the improvement of sub pixel interpolation
US9667964B2 (en) 2011-09-29 2017-05-30 Dolby Laboratories Licensing Corporation Reduced complexity motion compensated temporal processing
US9955176B2 (en) * 2015-11-30 2018-04-24 Intel Corporation Efficient and scalable intra video/image coding using wavelets and AVC, modified AVC, VPx, modified VPx, or modified HEVC coding
US10602187B2 (en) * 2015-11-30 2020-03-24 Intel Corporation Efficient, compatible, and scalable intra video/image coding using wavelets and HEVC coding
US10783392B1 (en) * 2017-05-16 2020-09-22 SIF Codec, LLC Motion compensation in system and method for processing digital signals based on compression of hierarchical pyramid
JP7125594B2 (en) 2018-04-27 2022-08-25 富士通株式会社 Encoding device, encoding method, and encoding program

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674911B1 (en) * 1995-09-14 2004-01-06 William A. Pearlman N-dimensional data compression using set partitioning in hierarchical trees
JPH09322175A (en) * 1996-05-30 1997-12-12 Sony Corp Method and device for decoding time varying image
CN1205818C (en) * 2000-04-11 2005-06-08 皇家菲利浦电子有限公司 Video encoding and decoding method
JP4129374B2 (en) * 2001-09-18 2008-08-06 松下電器産業株式会社 Image encoding method and image decoding method
JP3936335B2 (en) * 2001-11-30 2007-06-27 株式会社エヌ・ティ・ティ・ドコモ Moving picture encoding apparatus, moving picture decoding apparatus, moving picture encoding method, moving picture decoding method, program, and computer-readable recording medium storing program
JP4102973B2 (en) * 2002-04-24 2008-06-18 日本電気株式会社 Encoding method and decoding method of moving image, apparatus and program using the same
JP4120301B2 (en) * 2002-04-25 2008-07-16 ソニー株式会社 Image processing apparatus and method
AU2003246987A1 (en) * 2002-07-09 2004-01-23 Nokia Corporation Method and system for selecting interpolation filter type in video coding
JP2006503518A (en) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Highly scalable 3D overcomplete wavelet video coding
EP1455534A1 (en) * 2003-03-03 2004-09-08 Thomson Licensing S.A. Scalable encoding and decoding of interlaced digital video data
US8107535B2 (en) * 2003-06-10 2012-01-31 Rensselaer Polytechnic Institute (Rpi) Method and apparatus for scalable motion vector coding

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOHN W WOODS ET AL: "Improved MC-EZBC with Quarter Pixel Motion Vectors", 60. MPEG MEETING; 06-05-2002 - 10-05-2002; FAIRFAX; (MOTION PICTUREEXPERT GROUP OR ISO/IEC JTC1/SC29/WG11),, no. M8366, 1 May 2002 (2002-05-01), XP030037329, ISSN: 0000-0275 *
See also references of WO2005086488A1 *
THOMAS WEDI ET AL: "Adaptive Motion Compensation Interpolation Filters", 14. VCEG MEETING; 24-09-2001 - 27-09-2001; SANTA BARBARA, CALIFORNIA,US; (VIDEO CODING EXPERTS GROUP OF ITU-T SG.16),, no. VCEG-N28, 20 September 2001 (2001-09-20), XP030003278, ISSN: 0000-0460 *

Also Published As

Publication number Publication date
JP4986842B2 (en) 2012-07-25
CN1926876B (en) 2012-05-09
FR2867328A1 (en) 2005-09-09
CN1926876A (en) 2007-03-07
JP2007535834A (en) 2007-12-06
US20070171971A1 (en) 2007-07-26
WO2005086488A1 (en) 2005-09-15

Similar Documents

Publication Publication Date Title
WO2005086488A1 (en) Method for coding and decoding an image sequence encoded with spatial and temporal scalability
EP1721470B1 (en) Method of encoding and decoding an image sequence by means of hierarchical temporal analysis
JP5364820B2 (en) Apparatus and method for selecting a filter
US8682089B2 (en) Image processing apparatus, image processing method, program and semiconductor integrated circuit
WO2007020230A2 (en) Method of encoding and decoding video images with spatial scalability
US8369417B2 (en) Optimal denoising for video coding
FR2764156A1 (en) PRETREATMENT DEVICE FOR MPEG II CODING
JP2007150432A (en) Method and device of encoding/decoding moving picture
WO2002060184A1 (en) Image coding and decoding method, corresponding devices and applications
FR2886787A1 (en) METHOD AND DEVICE FOR ENCODING AND DECODING AN IMAGE SEQUENCE
EP1969854A1 (en) Method of coding and decoding an image or a sequence of images, corresponding devices, computer programs and signal
FR2887711A1 (en) METHOD OF ENCODING AND HIERARCHICAL DECODING
WO2004082293A1 (en) Method for coding a video image taking into account the part relating to a component of a movement vector
EP0691065B1 (en) Compatible television picture sub-band coding/decoding
WO2006008426A2 (en) Motion estimation method for the encoding of an image sequence with spatial and temporal scalability
FR3041851A1 (en) ASSOCIATED FLOW ALLOCATION METHOD, DEVICE, ENCODER AND COMPUTER PROGRAM
FR2990319A1 (en) Method for coding set of blocks of e.g. images of sequence, of temporally successive pictures, involves calculating cost of coding of transformed image blocks, and selecting phase value relating to low cost of coding for coding image blocks
FR2625059A1 (en) METHOD FOR SUB-SAMPLING IN THE MOTION AXIS OF A SEQUENCE OF ELECTRONIC IMAGES
WO2007020278A2 (en) Method for encoding and decoding high-resolution progressive and interleave low-resolution images
WO2007042539A1 (en) Devices and method for scalable coding and decoding of image data streams, corresponding signal, computer programme and image quality adapting module
Nakachi et al. A study on non-octave scalable coding using motion compensated inter-frame wavelet transform
FR2820256A1 (en) Image coding and decoding method, e.g. for digital transmission over communications network, selectively using two coding modes, each optimizing the compression of an image as a function of different optimization criteria
EP1708508A1 (en) Video encoding and decoding with motion compensated temporal filtering
FR2932035A1 (en) Partially compressed video stream/sequence protecting method for use during video stream/sequence transmission via transmission network, involves compressing different types of groups of objects of subsequent image
FR2878384A1 (en) VIDEO COMPRESSION BY MODIFICATION OF QUANTIFICATION BY ZONES OF IMAGES

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20060901

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE FR GB

RIN1 Information on inventor provided before grant (corrected)

Inventor name: FRANCOIS, EDOUARD

Inventor name: MARQUANT, GWENA??LLE

Inventor name: BOISSON, GUILLAUME

Inventor name: ROBERT, PHILIPPE

Inventor name: VIERON, JEROME

DAX Request for extension of the european patent (deleted)
RBV Designated contracting states (corrected)

Designated state(s): DE FR GB

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: THOMSON LICENSING

17Q First examination report despatched

Effective date: 20111027

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: H04N 19/615 20140101AFI20181122BHEP

Ipc: H04N 19/117 20140101ALI20181122BHEP

Ipc: H04N 19/523 20140101ALI20181122BHEP

Ipc: H04N 19/63 20140101ALI20181122BHEP

INTG Intention to grant announced

Effective date: 20181219

RIN1 Information on inventor provided before grant (corrected)

Inventor name: VIERON, JEROME

Inventor name: BOISSON, GUILLAUME

Inventor name: MARQUANT, GWENAELLE

Inventor name: FRANCOIS, EDOUARD

Inventor name: ROBERT, PHILIPPE

RIC1 Information provided on ipc code assigned before grant

Ipc: H04N 19/63 20140101ALI20181122BHEP

Ipc: H04N 19/523 20140101ALI20181122BHEP

Ipc: H04N 19/615 20140101AFI20181122BHEP

Ipc: H04N 19/117 20140101ALI20181122BHEP

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: INTERDIGITAL VC HOLDINGS, INC.

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20190430