FR2940492A1

FR2940492A1 - MULTI-RESOLUTION MOTION ESTIMATING METHOD

Info

Publication number: FR2940492A1
Application number: FR0858832A
Authority: FR
Inventors: Fabrice Urban; Meur Olivier Le; Edouard Francois
Original assignee: Thomson Licensing SAS
Priority date: 2008-12-19
Filing date: 2008-12-19
Publication date: 2010-06-25
Also published as: WO2010070128A1

Abstract

L'invention a pour objet un procédé d'estimation de mouvement d'une séquence vidéo dont les images sont découpées en blocs de pixels, l'estimation de mouvement étant effectuée par l'analyse de N versions d'une même image correspondant à des niveaux de résolution différents, ladite analyse commençant par le niveau de plus faible résolution et se terminant par le niveau de plus haute résolution de l'image courante. Une estimation du champ de mouvement (203, 204, 205, 206, 208) est effectuée pour les différents niveaux de résolution et que les paramètres de mouvement dominants sont estimés (207) sur au moins un niveau de basse ou de moyenne résolution, lesdits paramètres étant utilisés comme prédictions pour l'estimation du champ de mouvement d'un niveau de résolution plus élevé.The subject of the invention is a method for motion estimation of a video sequence whose images are divided into blocks of pixels, the motion estimation being carried out by analyzing N versions of the same image corresponding to different resolution levels, said analysis starting with the lower resolution level and ending with the higher resolution level of the current image. An estimation of the motion field (203, 204, 205, 206, 208) is performed for the different resolution levels and the dominant motion parameters are estimated (207) on at least one low or medium resolution level, said parameters being used as predictions for motion field estimation of a higher resolution level.

Description

Procédé d'estimation de mouvement multi-résolutions L'invention concerne un procédé d'estimation de mouvement mufti-5 résolutions. Elle s'applique notamment aux domaines de l'analyse, du codage et du transcodage de vidéos. The invention relates to a motion estimation method mufti-5 resolutions. It applies in particular to the fields of video analysis, coding and transcoding.

Une séquence vidéo comporte de par sa nature même une importante redondance statistique tant dans le domaine temporel que spatial. Cette 10 redondance peut être utilisée d'une part pour compresser ladite séquence et d'autre part dans le but d'analyser et de caractériser son contenu en identifiant, par exemple, les zones en mouvement des images de ladite séquence. Ainsi, les algorithmes d'estimation de mouvement recherchent dans des images de référence le bloc ou la zone qui correspond le mieux à 15 un bloc ou une zone donnée de l'image en cours de traitement, ladite image étant appelée image courante dans la suite de la description. Un vecteur estimation de mouvement est obtenu, ledit vecteur correspondant au déplacement du bloc ou de la zone entre deux images. De nombreuses applications nécessitent aujourd'hui la mise en oeuvre 20 d'algorithmes permettant d'analyser en temps réel le mouvement physique au sein d'une séquence vidéo. Pour cela, des algorithmes de type block matching , habituellement désignés par l'acronyme BMA, peuvent être utilisés. Dans ce cas, l'image courante est découpée en blocs de MxN pixels. L'algorithme BMA recherche ensuite pour un bloc donné de l'image courante 25 un bloc correspondant dans une image de référence. Pour cela, une distance de mesure D est calculée entre le bloc de l'image courante et chaque candidat. Un exemple de mesure D utilisant un Lagrangien est décrit dans l'article de G. Sullivan et T. Wiegand intitulé Rate-Distortion Optimization for Video Compression , IEEE Signal Processing Magazine, pp. 74-90, 30 Novembre 1998. L'optimisation par Lagrangien permet d'améliorer l'homogénéité du champ de mouvement obtenu par BMA. La version la plus simple d'algorithme BMA réalise une recherche complète dans une fenêtre donnée de p pixels de largeur, c'est-à-dire que chaque bloc de l'image de référence présent à l'intérieur de ladite fenêtre est 35 un candidat à considérer. Cette technique requiert une importante puissance de calcul. Ainsi, des algorithmes plus rapides ont été proposés, comme par exemple le modèle hiérarchique HME, acronyme venant de l'expression anglo-saxonne Hierarchical Motion Estimator , ou le modèle amélioré HDS, acronyme venant de l'expression anglo-saxonne Hierarchical Diamond Search . Les algorithmes de type BMA permettent ainsi de générer un champ de mouvement composé de vecteurs de mouvement, un vecteur étant associé à chacun des blocs analysés. Les algorithmes de type DME, acronyme venant de l'expression anglo-saxonne Dominant Motion Estimator , ont pour but d'estimer le mouvement relatif de l'arrière plan des images de la séquence vidéo. Celui-ci est du, par exemples, à des mouvements de caméra, aux effets de zoom ou à une prise de vue panoramique. L'algorithme utilise comme entrées des vecteurs de mouvement résultant, par exemple, d'une estimation BMA, et procède ensuite à l'estimation des paramètres d'un modèle de mouvement, un modèle affine à deux dimensions, par exemple. Pour les zones homogènes d'une image ainsi que pour les zones à texture unidirectionnelle, la fiabilité des vecteurs de mouvement estimés par un algorithme de type BMA est habituellement mauvaise. En effet, dans ces zones, ces vecteurs ne correspondent pas forcément à un mouvement réel. A video sequence has by its very nature a significant statistical redundancy in both the temporal and spatial domains. This redundancy can be used on the one hand to compress said sequence and on the other hand for the purpose of analyzing and characterizing its content by identifying, for example, the moving areas of the images of said sequence. Thus, the motion estimation algorithms search in reference images for the block or zone that best corresponds to a block or a given area of the image being processed, said image being called a current image in the following. of the description. A motion estimation vector is obtained, said vector corresponding to the displacement of the block or zone between two images. Many applications today require the implementation of algorithms for analyzing in real time the physical movement within a video sequence. For this, block matching algorithms, usually designated by the acronym BMA, can be used. In this case, the current image is divided into blocks of MxN pixels. The BMA algorithm then searches for a given block of the current frame 25 for a corresponding block in a reference picture. For this, a measurement distance D is calculated between the block of the current image and each candidate. An example of a D measurement using a Lagrangian is described in the article by G. Sullivan and T. Wiegand entitled Rate-Distortion Optimization for Video Compression, IEEE Signal Processing Magazine, pp. 74-90, November 30, 1998. Lagrangian optimization improves the homogeneity of the motion field obtained by BMA. The simplest version of the BMA algorithm performs a full search in a given window of p pixels width, i.e. each block of the reference picture present within said window is a candidate to consider. This technique requires a lot of computing power. Thus, faster algorithms have been proposed, such as the hierarchical model HME, an acronym derived from the English expression Hierarchical Motion Estimator, or the improved model HDS, acronym from the English expression Hierarchical Diamond Search. The BMA type algorithms thus make it possible to generate a motion field composed of motion vectors, a vector being associated with each of the analyzed blocks. DME algorithms, an acronym derived from the English expression Dominant Motion Estimator, aim to estimate the relative motion of the background of images in the video sequence. This is due, for example, to camera movements, zooming effects or panoramic shooting. The algorithm uses as inputs motion vectors resulting, for example, from a BMA estimate, and then proceeds to estimate the parameters of a motion model, a two-dimensional affine model, for example. For homogeneous areas of an image as well as for unidirectional texture areas, the reliability of the motion vectors estimated by a BMA algorithm is usually poor. Indeed, in these areas, these vectors do not necessarily correspond to a real movement.

Dans le cadre d'une application de segmentation des images de la séquence vidéo à analyser, des résultats incohérents peuvent alors être obtenus. En effet, les zones homogènes suivant le mouvement dominant ne sont alors pas détectées. De plus, si les vecteurs ainsi obtenus sont utilisés par un algorithme de type DME, l'estimation de mouvement global n'utilise comme entrée qu'un nombre réduit de vecteurs de mouvement corrects. En conséquence, la précision des résultats n'est pas bonne. In the context of a segmentation application of the images of the video sequence to be analyzed, incoherent results can then be obtained. In fact, the homogeneous zones following the dominant movement are then not detected. In addition, if the vectors thus obtained are used by a DME-type algorithm, the global motion estimation uses as input only a reduced number of correct motion vectors. As a result, the accuracy of the results is not good.

Un but de l'invention est notamment de pallier les inconvénients précités. An object of the invention is in particular to overcome the aforementioned drawbacks.

A cet effet l'invention a pour objet un procédé d'estimation de mouvement d'une séquence vidéo dont les images sont découpées en blocs de pixels, l'estimation de mouvement étant effectuée par l'analyse de N versions d'une même image correspondant à des niveaux de résolution différents, ladite analyse commençant par le niveau de plus faible résolution et se terminant par le niveau de plus haute résolution de l'image courante. For this purpose, the subject of the invention is a motion estimation method of a video sequence whose images are divided into blocks of pixels, the motion estimation being carried out by analyzing N versions of the same image. corresponding to different resolution levels, said analysis starting with the lower resolution level and ending with the higher resolution level of the current image.

Une estimation du champ de mouvement est effectuée pour les différents niveaux de résolution et les paramètres de mouvement dominants sont estimés sur au moins un niveau de basse ou de moyenne résolution, lesdits paramètres étant utilisés comme prédictions pour l'estimation du champ de mouvement d'un niveau de résolution plus élevé. Selon un aspect de l'invention, les paramètres de mouvement dominant estimés pour un niveau donné sont mémorisés afin d'être utilisés comme prédictions lors de l'estimation de champ de mouvement de ou des images suivant l'image courante pour le même niveau de résolution. An estimation of the motion field is carried out for the different resolution levels and the dominant motion parameters are estimated on at least one low or medium resolution level, said parameters being used as predictions for the motion field estimation. a higher resolution level. According to one aspect of the invention, the dominant motion parameters estimated for a given level are stored for use as predictions in motion field estimation of or images following the current image for the same level of motion. resolution.

Les vecteurs du champ de mouvement d'un niveau de résolution donné peuvent être utilisés, par exemple, comme prédictions pour l'estimation du champ de mouvement du niveau de résolution supérieure. Les paramètres de mouvement dominant estimés pour un niveau de résolution donné sont, par exemple, mémorisés afin d'être utilisés pour initialiser l'étape d'estimation des paramètres de mouvement dominant de ou des images suivant l'image courante pour le même niveau de résolution. Dans un mode de réalisation, les paramètres de mouvement dominant vérifient un modèle affine à deux dimensions. Dans un autre mode de réalisation, pour l'estimation des paramètres de mouvement dominant des niveaux de basses et moyennes résolutions, un paramètre de translation est estimé et que pour les niveaux de résolution les plus hauts, 6 paramètres vérifiant un modèle affine à deux dimensions sont déterminés. Pour un bloc de pixels d'un niveau de résolution donné de l'image courante, la meilleure prédiction disponible pour l'estimation des vecteurs du champ de mouvement peut être choisie telle que la distance de mesure D est minimisée, ladite distance s'exprimant par une équation de type D=SAD+XxC dans laquelle : SAD est la somme des différences absolues entre le bloc courant et le bloc de référence ; C est le coût de codage des vecteurs de mouvement, c'est-à-dire la distance mesurée entre le vecteur mouvement et un indicateur de coût ; est une constante réelle.35 Selon un aspect de l'invention, l'indicateur de coût correspond à la médiane des vecteurs de mouvement des blocs voisins. Selon un autre aspect de l'invention, l'indicateur de coût correspond à une prédiction correspondant aux paramètres d'estimation de mouvement 5 dominant. Le choix entre un indicateur de coût correspondant à la médiane des vecteurs de mouvement des blocs voisins et un indicateur de coût correspondant aux paramètres d'estimation de mouvement dominant est choisi par bloc en fonction, par exemple, de la meilleure prédiction de vecteur 10 mouvement. Dans un mode de mise en oeuvre, l'algorithme réalisant l'estimation de mouvement dominant à un niveau de résolution donné est initialisé par les paramètres de mouvement dominant estimés pour l'image courante à un niveau de plus basse résolution. 15 Un taux de confiance de l'estimation de mouvement effectuée sur l'image courante est déterminée, par exemple, en calculant le taux de vecteur suivant le mouvement dominant au niveau de plus haute résolution The motion field vectors of a given resolution level can be used, for example, as predictions for motion field estimation of the higher resolution level. The dominant motion parameters estimated for a given resolution level are, for example, stored in order to be used to initialize the step of estimating the dominant motion parameters of or images following the current image for the same level of motion. resolution. In one embodiment, the dominant motion parameters verify a two-dimensional affine model. In another embodiment, for estimating the dominant motion parameters of the low and medium resolution levels, a translation parameter is estimated and for the highest resolution levels, 6 parameters satisfying a two-dimensional affine model are determined. For a block of pixels of a given resolution level of the current image, the best prediction available for the estimation of the motion field vectors can be chosen such that the measurement distance D is minimized, said distance expressing itself. by an equation of the type D = SAD + XxC in which: SAD is the sum of the absolute differences between the current block and the reference block; C is the cost of encoding motion vectors, that is, the distance measured between the motion vector and a cost indicator; is a real constant. According to one aspect of the invention, the cost indicator corresponds to the median of the motion vectors of the neighboring blocks. According to another aspect of the invention, the cost indicator corresponds to a prediction corresponding to the parameters of dominant motion estimation. The choice between a cost indicator corresponding to the median of the motion vectors of the neighboring blocks and a cost indicator corresponding to the dominant motion estimation parameters is chosen by block as a function, for example, of the best motion vector prediction. . In one embodiment, the algorithm performing the dominant motion estimation at a given resolution level is initialized by the dominant motion parameters estimated for the current image at a lower resolution level. A confidence rate of motion estimation performed on the current image is determined, for example, by calculating the vector rate following the dominant motion at the higher resolution level.

D'autres caractéristiques et avantages de l'invention apparaîtront à 20 l'aide de la description qui suit donnée à titre illustratif et non limitatif, faite en regard des dessins annexés parmi lesquels : Other features and advantages of the invention will become apparent from the following description given by way of nonlimiting illustration, with reference to the appended drawings in which:

- la figure 1 illustre le principe de l'estimation de mouvement multi-résolutions ; 25 - la figure 2 donne un exemple de diagramme mettant en oeuvre le procédé selon l'invention ; - la figure 3 présente une manière de réaliser l'estimation de mouvement dominant dans le cadre de l'invention. FIG. 1 illustrates the principle of multi-resolution motion estimation; FIG. 2 gives an exemplary diagram implementing the method according to the invention; - Figure 3 shows a way to achieve the dominant motion estimation in the context of the invention.

30 La figure 1 illustre le principe de l'estimation de mouvement multirésolutions. Les algorithmes de type BMA tels que décrits précédemment impliquent une complexité calculatoire importante. De manière à réaliser une estimation de mouvement sur une séquence vidéo, il est alors conseillé d'utiliser intelligemment ce type d'algorithme. Figure 1 illustrates the principle of multiresolution motion estimation. The BMA type algorithms as described above involve an important computational complexity. In order to perform a motion estimation on a video sequence, it is then advisable to use this type of algorithm intelligently.

Le contenu des séquences vidéo est pris en compte par les techniques de prédiction de mouvement. En effet, les champs de mouvement présentent habituellement des propriétés de continuité spatiale et temporelle. Ainsi, il est possible de prédire le mouvement d'un bloc donné à partir du mouvement de ses blocs voisins et des images précédentes. Un ensemble de prédictions est alors disponible. Dans la suite de la description, une prédiction correspond à un vecteur candidat représentant le mouvement d'un bloc entre deux images et devant être testé afin de vérifier qu'il correspond bien au mouvement réel dudit bloc. Chaque prédiction est évaluée en calculant, par exemple, une distance de mesure D. A titre d'exemple, cette distance de mesure pourra être la somme des différences absolues, désignée par l'acronyme SAD venant de l'expression anglo-saxonne Sum of Absolute Differences . Ce SAD représente la distorsion entre le bloc courant et le bloc de référence. Le coût de codage C des vecteurs de mouvement peut être pris en compte grâce à l'introduction d'un coefficient de Lagrange afin de minimiser les distorsions introduites par l'estimation. La distance D peut être décrite par l'expression suivante : The content of the video sequences is taken into account by the motion prediction techniques. Indeed, motion fields usually have spatial and temporal continuity properties. Thus, it is possible to predict the movement of a given block from the movement of its neighboring blocks and previous images. A set of predictions is then available. In the following description, a prediction corresponds to a candidate vector representing the movement of a block between two images and to be tested to verify that it corresponds to the actual movement of said block. Each prediction is evaluated by calculating, for example, a measurement distance D. By way of example, this measurement distance can be the sum of the absolute differences, designated by the acronym SAD coming from the English expression Sum of Absolute Differences. This SAD represents the distortion between the current block and the reference block. The coding cost C of the motion vectors can be taken into account by introducing a Lagrange coefficient in order to minimize the distortions introduced by the estimation. The distance D can be described by the following expression:

D=SAD+XxC (1) 20 Une recherche du meilleur vecteur de mouvement est alors effectuée au voisinage de la meilleure prédiction en utilisant, par exemple, un schéma de recherche locale. Un exemple d'algorithme permettant de réaliser ce type de recherche est décrit dans l'article d'Alexis Michael Tourapis intitulé 25 Enhanced Predictive Zonal Search for Single and Multiple Frame Motion Estimation , proceedings of Visual Communications and Image Processing, pages 1069-1079, 2002. De nombreux autres algorithmes de type BMA existent et se distinguent de par la manière dont est déterminé l'ensemble des prédictions pour un bloc ainsi que par le schéma de recherche locale 30 choisi. Une manière permettant de réduire la complexité de calcul est d'utiliser une approche multi-résolution. L'algorithme HME, acronyme venant de l'expression anglo-saxonne Hierarchical Motion Estimator , en est un exemple. De l'image courante est déduite une pyramide d'images. Cette 35 pyramide d'images est composée de plusieurs images déduites de l'image courante, chacune desdites images représentant un niveau de recherche. Le niveau 0 correspond à l'image courante à pleine résolution. Un niveau de basse ou de moyenne résolution est un niveau différent du niveau 0, ce dernier correspondant au niveau de plus haute résolution de la pyramide d'images. Le niveau n+1 correspond à l'image obtenue par filtrage passe-bas et sous échantillonnage de l'image de niveau n. L'image de niveau n+1 a donc une résolution plus faible que l'image de niveau n. Dans un premier temps, un champ de mouvement est estimé sur le niveau le plus haut, c'est-à-dire sur l'image de plus basse résolution. Ensuite, ledit champ de mouvement est amélioré en utilisant les vecteurs du champ de mouvement obtenu au niveau supérieur en tant que prédiction, et ce en descendant les niveaux de la pyramide d'image jusqu'à atteindre le niveau 0. Pour un bloc donné, les vecteurs de mouvements des blocs voisins qui ont déjà été calculés sont également utilisés comme prédictions. L'estimation est ensuite affinée en recherchant le meilleur vecteur mouvement autour de la meilleure prédiction. L'exemple de la figure 1 illustre le principe de l'estimation de mouvement multi-résolution. Trois niveaux sont considérés. Le niveau 0 correspond à l'image à analyser et dont la résolution n'est pas réduite. Les niveaux 1 et 2 correspondent à l'image à analyser après altération de la résolution, la résolution du niveau 2 étant moins bonne que pour le niveau 1. Le processus d'estimation commence au niveau le plus élevé, c'est-à-dire au niveau 2 pour l'exemple de la figure 1. L'image est analysée bloc par bloc. D = SAD + XxC (1) A search for the best motion vector is then performed in the vicinity of the best prediction using, for example, a local search pattern. An example of an algorithm making it possible to carry out this type of search is described in the article by Alexis Michael Tourapis entitled Enhanced Predictive Zonal Search for Single and Multiple Frame Motion Estimation, Proceedings of Visual Communications and Image Processing, pages 1069-1079, 2002. Many other BMA type algorithms exist and are distinguished by the manner in which all the predictions for a block as well as the chosen local search pattern are determined. One way to reduce computational complexity is to use a multi-resolution approach. The HME algorithm, an acronym derived from the Anglo-Saxon expression Hierarchical Motion Estimator, is an example. From the current image is deduced a pyramid of images. This pyramid of images is composed of several images derived from the current image, each of said images representing a search level. Level 0 corresponds to the current image at full resolution. A low or medium resolution level is a different level from level 0, the latter corresponding to the higher resolution level of the image pyramid. The level n + 1 corresponds to the image obtained by low-pass filtering and sub-sampling of the n-level image. The n + 1 level image therefore has a lower resolution than the n level image. At first, a motion field is estimated on the highest level, that is to say on the lower resolution image. Then, said motion field is improved by using the motion field vectors obtained at the upper level as a prediction, and this by going down the levels of the image pyramid until reaching the level 0. For a given block, motion vectors of neighboring blocks that have already been calculated are also used as predictions. The estimate is then refined by looking for the best motion vector around the best prediction. The example of Figure 1 illustrates the principle of multi-resolution motion estimation. Three levels are considered. Level 0 corresponds to the image to be analyzed and whose resolution is not reduced. Levels 1 and 2 correspond to the image to be analyzed after alteration of the resolution, the resolution of level 2 being less good than for level 1. The estimation process starts at the highest level, ie say at level 2 for the example in Figure 1. The image is analyzed block by block.

Pour un bloc donné 100, une ou plusieurs prédictions sont disponibles. En effet, il est possible d'avoir plusieurs prédictions pour chaque bloc à analyser, et ce en tenant compte, par exemple, du mouvement des blocs voisins ou bien des images précédentes, mais aussi du résultat de l'estimation de mouvement au niveau supérieur. Pour chaque prédiction, un affinement peut être effectué de manière à trouver le meilleur candidat possible 101 correspondant le mieux au mouvement réel du bloc analysé. Une prédiction 102 pour le bloc en cours d'analyse 106 au niveau 1 peut être le résultat de l'estimation de mouvement réalisée pour le même bloc mais au niveau supérieur 101. L'affinement de la recherche mène ensuite à une estimation plus fine 103. Le même principe est ensuite reproduit au niveau 0, avec une des prédictions 104 correspondant au résultat de l'estimation au niveau supérieur et un affinement permettant d'obtenir le résultat final 105. Le choix de la meilleure prédiction et du vecteur final résultant de l'affinement mentionné précédemment est réalisé, par exemple, en calculant et en comparant la distance D pour chaque vecteur candidat. Le résultat de ces calculs par niveau est un champ de mouvement composé d'un ensemble de vecteurs, un vecteur dudit champ étant associé à un bloc de l'image courante. For a given block 100, one or more predictions are available. Indeed, it is possible to have several predictions for each block to be analyzed, taking into account, for example, the movement of neighboring blocks or previous images, but also the result of motion estimation at the higher level. . For each prediction, a refinement can be carried out so as to find the best possible candidate 101 corresponding best to the real movement of the analyzed block. A prediction 102 for the block under analysis 106 at level 1 may be the result of the motion estimation performed for the same block but at the higher level 101. The refinement of the search then leads to a finer estimate. The same principle is then reproduced at level 0, with one of the predictions 104 corresponding to the result of the estimation at the higher level and a refinement making it possible to obtain the final result 105. The choice of the best prediction and the final vector resulting from the aforementioned refinement is achieved, for example, by calculating and comparing the distance D for each candidate vector. The result of these calculations by level is a motion field composed of a set of vectors, a vector of said field being associated with a block of the current image.

Même si l'approche multi-résolution de type HME permet de réduire la complexité, celle-ci reste importante. Pour accélérer encore les calculs, il est possible, afin d'améliorer la recherche locale autour d'une prédiction, de mettre en oeuvre un algorithme appelé HDS, acronyme venant de l'expression anglo-saxonne Hierarchical Diamond Search . Cet algorithme réalise une estimation de mouvement multi-résolution tout en utilisant une étape d'affinement basée sur une recherche récursive en diamant. La meilleure prédiction est affinée par recherche locale en utilisant un petit motif de plusieurs blocs en forme de diamant ou de carré. Although the HME multi-resolution approach reduces complexity, it remains important. To further accelerate calculations, it is possible, in order to improve the local search around a prediction, to implement an algorithm called HDS, an acronym derived from the English expression Hierarchical Diamond Search. This algorithm performs a multi-resolution motion estimation while using a refinement step based on a recursive diamond search. The best prediction is refined by local search using a small pattern of several diamond-shaped or square blocks.

La figure 2 donne un exemple de mise en oeuvre du procédé selon l'invention. Les images de la séquence vidéo à analyser sont traitées les unes après les autres. Une mémoire d'image 200 contient la pyramide d'images multi-résolution associée à l'image courante ainsi que la ou les images de référence à utiliser pour l'estimation de mouvement. La pyramide de l'image courante 201 ainsi que la ou les pyramides d'images de référence 202 sont utilisées pour effectuer les différentes estimations décrites ci-après. Dans cet exemple, une approche multi-résolution à 5 niveaux, indexés de 0 à 4, est utilisée. Une estimation BMA du champ de mouvement est effectuée pour les images basse résolution en commençant par le niveau 4 203, pour ensuite traiter le niveau 3 204, le niveau 2 205, le niveau 1 206 et le niveau 0 208. Les vecteurs du champ de mouvement résultant de l'estimation sur le 35 niveau 1 sont utilisés comme prédiction afin d'estimer les paramètres de mouvement dominant 207. En d'autres termes, l'estimation de mouvement dominant est d'abord calculée pour un champ de mouvement basse résolution, soit au niveau 1. L'estimation de mouvement dominant peut être réalisée, par exemple, suivant un modèle affine à deux dimensions. Dans ce cas, cette estimation revient à estimer pour chaque bloc de l'image à analyser les paramètres de mouvement dominant ao, a1, a2 et bo, b1, b2 vérifiant l'équation : FIG. 2 gives an example of implementation of the method according to the invention. The images of the video sequence to be analyzed are processed one after the other. An image memory 200 contains the multi-resolution image pyramid associated with the current image as well as the reference image (s) to be used for the motion estimation. The pyramid of the current image 201 as well as the reference image pyramid or pyramids 202 are used to make the various estimates described below. In this example, a 5-level multi-resolution approach, indexed from 0 to 4, is used. A BMA estimation of the motion field is performed for low resolution images starting with level 4 203, then processing level 3 204, level 2 205, level 1 206 and level 0.208. The vectors of the The motion resulting from the estimate on level 1 is used as a prediction to estimate the dominant motion parameters 207. In other words, the dominant motion estimate is first calculated for a low resolution motion field. or at level 1. The dominant motion estimation can be performed, for example, according to a two-dimensional affine model. In this case, this estimate amounts to estimating for each block of the image to analyze the dominant motion parameters ao, a1, a2 and bo, b1, b2 verifying the equation:

vx a ~a a \ ' x \ _ 0 + 1 2 wyi aboi ~b~ b2ii 10 dans laquelle vX et vy sont les coordonnées d'un vecteur V du champ de mouvement et X et Y sont les coordonnées permettant de localiser le bloc en cours de traitement pour lequel est réalisé l'estimation de mouvement dominant. 15 Les paramètres de mouvement dominant sont ensuite utilisés pour ajouter une nouvelle prédiction lors de l'estimation du champ de mouvement pour le prochain niveau de résolution. Cette prédiction est évaluée de la même manière que les autres prédictions disponibles pour chaque bloc en calculant, par exemple, la distance de mesure D précédemment explicitée à 20 l'aide de l'expression (1). La fiabilité de l'estimation de champ de mouvement s'en trouve ainsi améliorée. Le terme C de l'expression (1) représente le coût de codage du vecteur de mouvement, c'est-à-dire la distance mesurée entre le vecteur de mouvement et un indicateur de coût. La médiane des vecteurs de mouvements des blocs voisins est habituellement choisie comme 25 indicateur de coût. La prise en compte du coût de codage permet d'obtenir un champ de mouvement plus homogène. Dans le cadre de l'invention, il est possible d'utiliser deux indicateurs de coût différents, ledit indicateur étant choisi en fonction de la meilleure prédiction de vecteur mouvement : soit la prédiction venant de l'estimation de 30 mouvement dominant soit la médiane précédemment décrite. Les zones suivant le mouvement dominant sont alors identifiées directement, même dans le cas de zones homogènes. (2) A titre d'illustration, le ciel est habituellement une zone homogène. En utilisant un algorithme d'estimation de mouvement appartenant à l'état de l'art, un mouvement nul est en général associé à cette zone, même en présence de mouvements de caméra. En utilisant l'estimation de mouvement dominant, le mouvement de caméra est identifié et la zone de ciel est contrainte de suivre ce mouvement dominant, ce qui correspond le mieux au mouvement réel. L'estimation de champ de mouvement suivi du calcul des paramètres de mouvement dominant à chaque niveau mène à une approche récursive 10 avec une complexité de calcul raisonnable. Les paramètres de mouvement dominant du niveau 1 sont stockés en mémoire 211 pour être utilisé pour l'analyse de la prochaine image en tant que prédiction 214 pour l'estimation 206 du champ de mouvement de niveau 1. L'utilisation du mouvement dominant est rejetée 213 pour l'image entière 15 si les paramètres ne sont pas fiables au sens d'un critère de fiabilité estimé avec lesdits paramètres. Les paramètres de mouvement dominant estimés 207 au niveau 1 sont utilisés d'autre part comme prédiction pour l'estimation 208 du champ de mouvement de niveau 0. Le meilleur jeu de paramètres du mouvement 20 dominant est choisi pour toute l'image 212, c'est-à-dire le résultat de l'estimation de mouvement dominant réalisée au niveau supérieur 207, les paramètres de mouvement dominant mémorisés 210 ou aucun paramètre. Le champ de mouvement de niveau 1 est également utilisé en tant que prédiction pour l'estimation de champ de mouvement de niveau 0. Une 25 estimation 209 des paramètres de mouvement global est également effectuée suite à l'estimation du champ de mouvement de niveau 0. Pour cela, les prédictions utilisées en entrées sont d'une part le champ de vecteur de niveau 0, d'autre part les paramètres de mouvement global estimés 215 se basant le champ de mouvement de niveau 1, et enfin les paramètres de 30 mouvement global de niveau 0 estimés lors de l'analyse de l'image précédente et stockés en mémoire 214. Plusieurs résultats 217 sont disponibles suite à l'analyse d'une image appartenant à une séquence vidéo. Il peut être décidé d'avoir comme sortie le champ de mouvement CM résultant de l'estimation de champ effectuée 35 sur l'image haute résolution. D'autre part, le taux de confiance TC, ainsi que les paramètres de mouvement dominant MD estimés au niveau 0 peuvent être présentés en sortie et utilisés pour des traitements postérieurs. Le taux de confiance TC peut être défini, par exemple, comme le taux de vecteurs suivant le mouvement dominant au niveau 0. vx a ~ aa \ 'x \ _ 0 + 1 2 wyi aboi ~ b ~ b2ii 10 where vX and vy are the coordinates of a vector V of the motion field and X and Y are the coordinates for locating the block in course of treatment for which the dominant motion estimation is performed. The dominant motion parameters are then used to add a new prediction when estimating the motion field for the next level of resolution. This prediction is evaluated in the same way as the other predictions available for each block by calculating, for example, the measurement distance D previously explained using the expression (1). The reliability of the motion field estimation is thus improved. The term C in expression (1) represents the encoding cost of the motion vector, i.e., the distance measured between the motion vector and a cost indicator. The median of the motion vectors of the neighboring blocks is usually chosen as the cost indicator. Taking into account the cost of coding makes it possible to obtain a more homogeneous field of motion. In the context of the invention, it is possible to use two different cost indicators, said indicator being chosen according to the best motion vector prediction: either the prediction coming from the dominant motion estimation or the median previously described. The zones following the dominant movement are then identified directly, even in the case of homogeneous zones. (2) As an illustration, the sky is usually a homogeneous area. By using a motion estimation algorithm belonging to the state of the art, a zero movement is generally associated with this zone, even in the presence of camera movements. Using the dominant motion estimation, the camera movement is identified and the sky zone is constrained to follow this dominant motion, which best matches the actual motion. The motion field estimation followed by the calculation of the dominant motion parameters at each level leads to a recursive approach with reasonable computational complexity. The dominant motion parameters of level 1 are stored in memory 211 to be used for the analysis of the next image as prediction 214 for the estimation 206 of the level 1 motion field. The use of the dominant movement is rejected. 213 for the entire image 15 if the parameters are unreliable in the sense of an estimated reliability criterion with said parameters. The dominant motion parameters estimated 207 at level 1 are also used as prediction for the estimate 208 of the level 0 motion field. The best parameter set of the dominant motion is chosen for the entire image 212, c that is, the result of the dominant motion estimation performed at the upper level 207, the memorized dominant motion parameters 210 or no parameter. The level 1 motion field is also used as a prediction for the level 0 motion field estimate. An estimate 209 of the overall motion parameters is also made following the estimation of the level 0 motion field. For this, the predictions used as inputs are on the one hand the level 0 vector field, on the other hand the estimated global motion parameters 215 based on the level 1 motion field, and finally the motion parameters. level 0 global estimates estimated during the analysis of the previous image and stored in memory 214. Several results 217 are available following the analysis of an image belonging to a video sequence. It may be decided to have as an output the CM motion field resulting from the field estimation performed on the high resolution image. On the other hand, the confidence rate TC, as well as the dominant motion parameters MD estimated at level 0 can be presented as output and used for subsequent treatments. The TC confidence rate can be defined, for example, as the vector rate following the dominant motion at level 0.

La figure 3 présente une manière de réaliser l'estimation de mouvement dominant dans le cadre de l'invention. Les paramètres de mouvement dominant sont estimés en utilisant un algorithme de type moindre carré pondéré récursif. Le modèle d'estimation de mouvement dominant peut être adapté en fonction du niveau de résolution. Ainsi, pour les résolutions moyennes et basses, seul un paramètre de translation peut être estimé, alors que pour les résolutions les plus hautes, un modèle affine à 6 paramètres tels que celui précédemment explicité peut être utilisé. L'algorithme d'estimation des paramètres de mouvement dominant a pour but d'estimer les valeurs desdits paramètres par l'utilisation de l'algorithme aux moindres carrés pondérés. Trois types de paramètres initiaux peuvent être utilisés pour initialiser l'algorithme. Ces trois types d'initialisation sont appelés initialisation temporelle, initialisation hiérarchique et initialisation simple. Figure 3 shows one way of performing the dominant motion estimation within the scope of the invention. Dominant motion parameters are estimated using a recursive weighted least squares algorithm. The dominant motion estimation model can be adapted according to the level of resolution. Thus, for medium and low resolutions, only one translation parameter can be estimated, whereas for the highest resolutions, a 6-parameter affine model such as the one previously explained can be used. The algorithm for estimating the dominant motion parameters is intended to estimate the values of said parameters by the use of the weighted least squares algorithm. Three types of initial parameters can be used to initialize the algorithm. These three types of initialization are called time initialization, hierarchical initialization and simple initialization.

L'entrée principale de l'algorithme d'estimation de mouvement dominant est un champ de mouvement CM. Les paramètres utilisés pour l'initialisation temporelle, notés initialisation 1, sont les paramètres de mouvement dominant 214, 216 calculés pour une image précédemment traitée et stockés 210, 211 en mémoire. Les paramètres utilisés pour l'initialisation hiérarchique, notés initialisation 2, sont les paramètres de mouvement dominant calculés pour l'image courante à un niveau de résolution inférieur 215. The main input of the dominant motion estimation algorithm is a CM motion field. The parameters used for the time initialization, denoted initialization 1, are the dominant motion parameters 214, 216 calculated for an image previously processed and stored 210, 211 in memory. The parameters used for the initialization, noted initialization 2, are the dominant motion parameters calculated for the current image at a lower resolution level 215.

Si aucune des initialisations 1 et 2 n'est fiable, une initialisation est calculée à partir de tous les vecteurs du champ de vecteur CM grâce à un algorithme des moindres carrés simple non pondérés 302. Si les paramètres d'initialisation temporelle sont disponibles, une évaluation 300 en est faite. Il est ensuite vérifié 303 que le résultat 307 est fiable, au sens qu'il ne comprend pas un nombre d < inliers 309, c'est-à- dire de vecteur suivant le mouvement dominant, inférieur à une valeur seuil. Si c'est le cas, le résultat n'est pas considéré fiable. Si le résultat est fiable, une itération de l'algorithme aux moindres carrés pondérés est calculée 311. Dans le cas ou l'initialisation temporelle mène à un résultat non fiable 305, les paramètres hiérarchiques lorsque ceux-ci sont disponibles et en provenance d'un niveau supérieur, sont utilisés pour l'initialisation. Une évaluation 301 des paramètres est réalisée. Comme décrit précédemment, la fiabilité du résultat est vérifiée 304, 308, 310. Si le résultat est fiable, une itération 311 de l'algorithme aux moindres carrés pondérés est alors calculée. Si le résultat n'est pas fiable 306, une étape 302 utilisant un algorithme aux moindres carrés simples est utilisée et utilise le champ de mouvement calculé pour le niveau courant. L'algorithme des moindres carrés est ensuite exécuté de manière récursive 311, avec l'initialisation précédemment décrite. Un indicateur de cohérence TC et les paramètres de mouvement dominant MD sont présentés en tant que résultats. La cohérence des paramètres de mouvement dominant est assurée par l'initialisation temporelle. L'initialisation par approche récursive permet de pallier aux cas ou le mouvement n'est pas temporellement constant, et de réduire le nombre d'itérations sans influer sur le résultat final. Le traitement est par conséquent accéléré. If none of the initializations 1 and 2 are reliable, an initialization is computed from all the vectors of the vector field CM by means of an unweighted simple least squares algorithm 302. If the time initialization parameters are available, a evaluation 300 is made. It is then verified that the result 307 is reliable, in the sense that it does not include a number of inliers 309, that is to say a vector following the dominant movement, less than a threshold value. If this is the case, the result is not considered reliable. If the result is reliable, an iteration of the weighted least squares algorithm is computed 311. In the case where the time initialization leads to an unreliable result 305, the hierarchical parameters when these are available and coming from a higher level, are used for initialization. An evaluation 301 of the parameters is carried out. As previously described, the reliability of the result is verified 304, 308, 310. If the result is reliable, an iteration 311 of the weighted least squares algorithm is then calculated. If the result is unreliable 306, a step 302 using a simple least squares algorithm is used and uses the calculated motion field for the current level. The least squares algorithm is then executed recursively 311, with the initialization previously described. A TC consistency indicator and the dominant MD motion parameters are presented as results. The consistency of the dominant motion parameters is ensured by the time initialization. The recursive approach initialization makes it possible to overcome the cases where the motion is not temporally constant, and to reduce the number of iterations without affecting the final result. The treatment is therefore accelerated.

Claims

CLAIMS1- A motion estimation method of a video sequence whose images are divided into blocks of pixels, the motion estimation being carried out by analyzing N versions of the same image corresponding to different resolution levels, said analysis beginning with the lower resolution level and ending with the higher resolution level of the current image, said method being characterized in that an estimation of a motion field (203, 204, 205, 206 , 208) is performed for the different resolution levels and that the dominant motion parameters are estimated (207) on at least one low or medium resolution level, said parameters being used as predictions for the estimation of the motion field. a higher resolution level.

2. Method according to any one of the preceding claims, characterized in that the dominant motion parameters estimated for a given level are stored (211) in order to be used as predictions (214) during the motion field estimation of or images following the current image for the same level of resolution.

3. Method according to any one of the preceding claims, characterized in that the vectors of the motion field of a given resolution level are used as predictions for the estimation of the motion field of the higher resolution level.

4. Method according to any one of the preceding claims, characterized in that the dominant motion parameters estimated for a given resolution level are stored (210, 211) in order to be used to initialize (214, 216) the step d estimation of the dominant motion parameters of or images following the current image for the same level of resolution.

5. Method according to any one of the preceding claims, characterized in that the dominant motion parameters satisfy a two-dimensional affine model.

6. Method according to any one of claims 1 to 4 characterized in that for the estimation of the dominant motion parameters of low and medium resolutions, a translation parameter is estimated and that for the highest resolution levels , 6 parameters verifying a two-dimensional affine model are determined.

7- Method according to any one of the preceding claims, characterized in that for a block of pixels of a given resolution level of the current image, the best prediction available for the estimation of the vectors of the motion field is chosen such that the measurement distance D is minimized, said distance being expressed by an equation of the type D = SAD + X × C in which: SAD is the sum of the absolute differences between the current block and the reference block; C is the cost of encoding motion vectors, that is, the distance measured between the motion vector and a cost indicator; is a real constant.

8- Process according to claim 7 characterized in that the cost indicator corresponds to the median motion vectors of neighboring blocks.

9- Method according to any one of claims 7 or 8 characterized in that the cost indicator corresponds to a prediction corresponding to the dominant motion estimation parameters.

10- Method according to claims 8 and 9 characterized in that the choice between a cost indicator corresponding to the median motion vectors of neighboring blocks and a cost indicator corresponding to the dominant motion estimation parameters is selected by block in function of the best motion vector prediction.

11- Method according to any one of the preceding claims, characterized in that the algorithm performing the dominant motion estimation at a given resolution level is initialized (215) by the dominant motion parameters estimated for the current image at a given resolution. lower resolution level.

12- Method according to any one of the preceding claims characterized in that a confidence rate (TC) of the motion estimation performed on the current image is determined by calculating the vector rate following the dominant movement at the level of higher resolution.