FR2894353A1

FR2894353A1 - Procede d'exttraction d'un objet sur un fond projete

Info

Publication number: FR2894353A1
Application number: FR0553697A
Authority: FR
Inventors: Francois Coldefy; Michel Collobert; Salah Mahamed Ali Ben
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-12-02
Filing date: 2005-12-02
Publication date: 2007-06-08
Also published as: US9036911B2; WO2007063262A2; US20090136131A1; EP1964057A2; WO2007063262A3

Abstract

Procédé d'extraction, dans une image enregistrée, d'un objet situé en avant-plan d'un fond projeté.Selon l'invention, ledit procédé comprend une étape d'extraction consistant à :- établir une loi de correspondance entre éléments d'image du fond projeté et de l'arrière-plan de l'image enregistrée,- définir ledit objet comme l'ensemble des éléments de l'image enregistrée présentant un écart à ladite loi de correspondance.Application à la visioconférence, au télé-enseignement, aux présentations télévisées.

Description

PROCEDE D'EXTRACTION D'UN OBJET SUR UN FOND PROJETE La présente invention

concerne un procédé d'extraction, dans une image enregistrée, d'un objet situé en avant-plan d'un fond projeté. Elle concerne également un module d'extraction ainsi qu'un programme d'ordinateur pour la mise en oeuvre dudit procédé.

L'invention trouve une application particulièrement avantageuse dans le domaine de l'extraction automatique d'objets sur fond d'images projetées, partagées entre un interlocuteur et une assemblée distante, pour la visualisation par l'assemblée distante des gestes de l'interlocuteur autour des images projetées. io Les domaines d'application de l'invention sont donc multiples. On citera à titre d'exemples, la visioconférence, le télé-enseignement, les présentations télévisées, etc. L'invention se rapporte plus spécialement aux situations où l'on souhaite retransmettre à des personnes distantes une scène constituée par 15 un intervenant qui, au cours d'une présentation par exemple, désigne avec ses mains des zones d'intérêt, telles qu'une formule, un schéma, une carte, situées sur une image numérique projetée sur un moniteur, un écran de vidéoprojection ou de rétroprojection. Par ailleurs, la visualisation des gestes d'un interlocuteur distant, telle 20 que la fournit l'invention, est également primordiale pour favoriser la conscience mutuelle des utilisateurs de plateformes collaboratives distantes. On constate en effet qu'à partir de trois utilisateurs la coordination des actions des différents acteurs devient problématique. La visualisation des gestes de chacun des utilisateurs distants permet de mieux identifier l'auteur d'une 25 action en cours et également de prendre conscience des intentionnalités de chacun. L'invention s'étend donc aussi aux interfaces gestuelles sur écrans, moniteurs ou tables graphiques. L'extraction du bras et de la main de l'utilisateur est essentielle pour l'identification du geste et de l'interaction associée. Un premier moyen pour transmettre à des personnes distantes une scène d'un intervenant s'exprimant devant un fond projeté est de l'enregistrer s à l'aide d'une caméra vidéo et de la retransmettre aux personnes distantes à travers un réseau de télécommunication. Toutefois, cette façon de procéder présente l'inconvénient que la résolution optique de la caméra vidéo est en général bien inférieure à la définition des images numériques projetées, de sorte que, si les gestes de io l'intervenant sont correctement reçus, le fond de l'image enregistrée et transmise à l'assemblée distante devient pratiquement illisible, ce qui limite considérablement l'intérêt de ce type de télétransmission. Pour remédier à cet inconvénient, une solution consiste à partager entre l'intervenant et l'assemblée distante les mêmes images numériques 15 formant le fond projeté, à extraire de l'image enregistrée les gestes de l'utilisateur, à les transmettre aux personnes distantes et à les insérer dans les images partagées. On obtient ainsi une image du fond qui a conservé sa définition, mais augmentée des gestes de l'intervenant. Pour extraire de l'image enregistrée un objet situé en avant-plan d'un 20 fond, ici le bras et les mains de l'intervenant, divers procédés ont déjà été proposés, notamment celui décrit dans la demande internationale WO2005036456. Ce procédé connu repose sur une analyse de caractéristiques locales extraites de l'image de fond, notamment par la méthode des transformées en 25 cosinus discrets DCT ( Discrete Cosine Transform ). Le modèle de fond est estimé, bloc de pixels par bloc de pixels, par apprentissage sur une séquence d'images du fond, selon une hypothèse de distributions gaussiennes indépendantes des caractéristiques locales. Ces caractéristiques sont ensuite estimées sur l'image courante, et les pixels, ou les groupes de pixels, ne 30 satisfaisant pas le modèle appris, selon un critère de seuillage donné, sont considérés comme appartenant aux objets de l'avant-plan. Une mise à jour temporelle progressive du modèle de fond est réalisée au moyen d'une pondération linéaire du paramètre d'apprentissage entre les caractéristiques locales du modèle de fond et celles issues de l'image courante. Cependant, la segmentation ainsi obtenue des objets de l'avant-plan est en général assez imprécise surtout si le fond est complexe. De plus, toute modification du fond ou de position de la caméra sont automatiquement identifiées comme faisant partie de l'avant-plan, ce qui bien entendu entraîne des erreurs importantes dans l'extraction de l'objet recherché. Aussi, le problème technique à résoudre par l'objet de la présente invention est de proposer un procédé d'extraction, dans une image io enregistrée, d'un objet situé en avant-plan d'un fond projeté, qui permettrait d'obtenir un objet extrait fiable et insensible aux fluctuations de position, d'éclairage et de composition du fond du fait de changements des images projetées, pouvant se produire lors de l'enregistrement de la scène. La solution au problème technique posé consiste, selon la présente 15 invention, en ce que ledit procédé comprend une étape d'extraction consistant à - établir une loi de correspondance entre éléments d'image du fond projeté et de l'arrière-plan de l'image enregistrée, - définir ledit objet comme l'ensemble des éléments de l'image enregistrée 20 présentant un écart à ladite loi de correspondance. Ainsi, l'invention repose sur le fait que le fond projeté est connu a priori en tant qu'image numérique stockée par exemple dans un ordinateur personnel. L'image enregistrée de l'ensemble de la scène constituée par le fond en arrière-plan et l'objet à extraire en avant-plan est également connue 25 sous forme numérisée, de sorte qu'une comparaison très étroite peut être effectuée entre le fond projeté et l'arrière-plan enregistré, permettant d'établir la loi de correspondance recherchée avec beaucoup de précision, ce qui garantit une grande robustesse à l'extraction réalisée. D'autre part, la loi de correspondance étant mise à jour en temps réel, 30 le procédé conforme à l'invention est insensible aux variations de position du fond et aux variations d'éclairage, celles-ci étant automatiquement prises en compte. Le fond projeté peut donc être quelconque et être modifié au cours du temps, comme un vidéogramme, une interface graphique en cours d'utilisation, etc. Selon un mode de réalisation de l'invention, ladite loi de correspondance est décrite par une fonction H de transformation géométrique 5 et une fonction T de transfert lumineuse au moyen de la relation : T(I(s)) = E(Hs) exprimant l'égalité entre l'intensité lumineuse T(I(s)) à l'élément d'image s du io fond projeté I, corrigée par la fonction T de transfert lumineuse, et l'intensité lumineuse observée E(Hs) de l'image enregistrée E à l'élément d'image Hs, image de l'élément d'image s par la fonction H de transformation géométrique. L'invention n'est pas limitée à la relation utilisée ci-dessus pour exprimer la loi de correspondance. Elle s'étend bien entendu à toute autre 15 formulation équivalente telle que par exemple I(s) = T'(E(Hs)), T' étant une fonction de transfert lumineuse de l'image enregistrée vers le fond projeté. Dans ce mode de réalisation, ledit écart à la loi de correspondance est représenté par un bruit Es observé en chaque élément d'image s : 20 Es = T(I(s)) - E(Hs) A partir du fond projeté et de l'image enregistrée, une mise à jour en temps réel, à une fréquence supérieure à 25 Hz, est effectuée de la fonction H de transformation géométrique et de la fonction T de transfert lumineuse. La 25 mise à jour de la fonction H n'est toutefois pas nécessaire si le dispositif mécanique couplant la surface de projection à la caméra d'enregistrement est rigide. La fonction T de transfert lumineuse peut être limitée à la seule intensité en terme de niveaux de gris, avec l'avantage d'une faible charge de 30 calcul, ou étendue à chacun des trois canaux couleurs quelle qu'en soit la représentation (RGB, Lab, Luv, Yuv, IHS, etc.), ou encore à tout autres caractéristiques locales comme par exemple celles associées à une batterie de filtres de Gabor pour rendre compte de la texture des images (H.G. Feichtinger and T. Strohmer, Gabor Analysis and Algoritms , Applied and 35 Numerical Harmonic Analysis, Birkhâuser Boston Inc., Boston, MA, 1998). La fonction de transfert lumineuse peut alors être considérée comme un vecteur T = (T;);.1 n où i représente un canal et n le nombre total de canaux. L'estimation de la fonction H de transformation géométrique et de la fonction T de transfert lumineuse repose sur l'utilisation d'estimateurs robustes comme les M-estimateurs associés par exemple à la fonction de Tuckey (P.J. Huber, Robust Statistics , New-York Wiley, 1981). Ce modèle permet de quantifier numériquement l'adéquation pour chaque pixel avec la loi de correspondance. A contrario, il permet de détecter les pixels faisant partie de l'avant-plan. io Conformément à l'invention, ledit procédé comprend une étape d'initialisation comportant : - une estimation de la fonction H de transformation géométrique à partir de la mise en correspondance d'éléments d'image particuliers de l'image de fond projeté et de l'image enregistrée dudit fond projeté, 15 - une initialisation de la fonction T de transfert lumineuse par la fonction identité. La précision de ces estimations préalables peut encore être augmentée si, comme le prévoit l'invention, ladite étape d'initialisation comporte en outre une estimation de la fonction H de transformation géométrique et de la 20 fonction T de transfert lumineuse consistant à minimiser la fonction F(H, T) : F(H, T) = yS p(T(I(s)) û E(Hs)) où p est une fonction de coût de l'erreur. 25 De même, la qualité de l'image de l'objet obtenu après l'étape d'extraction peut être améliorée du fait que, selon l'invention, ledit procédé comprend une étape de post-traitement consistant à régulariser l'objet extrait. On entend par régularisation les opérations consistant aussi bien à éliminer des zones d'arrière-plan encore présentes dans l'objet extrait qu'à éliminer les 30 fausses détections de l'objet extrait apparaissant dans l'arrière-plan. Enfin, de manière à pouvoir mener à bien l'estimation de la fonction T sur les n canaux, il est prévu, selon l'invention, que l'étape d'extraction comporte une étape préalable d'ajustement des canaux de l'intensité lumineuse 1 du fond.

L'invention concerne également un module d'extraction, dans une image enregistrée, d'un objet situé en avant-plan d'un fond projeté, remarquable en ce que ledit module comprend des moyens pour : - établir une loi de correspondance entre éléments d'image du fond projeté et de l'arrière-plan de l'image enregistrée, - définir ledit objet comme l'ensemble des éléments de l'image enregistrée présentant un écart à ladite loi de correspondance. Selon l'invention, ledit module comprend des moyens de calcul d'une fonction H de transformation géométrique et d'une fonction T de transfert io lumineuse minimisant la fonction F(H, T) : F(H, T) = yS p(T(I(s)) û E(Hs)) exprimant l'erreur cumulée sur l'ensemble des éléments d'image s entre 15 l'intensité lumineuse T(I(s)) à l'élément d'image s du fond projeté, corrigée par une fonction T de transfert lumineuse, et l'intensité lumineuse E(Hs) de l'image enregistrée E à l'élément d'image Hs, image de l'élément d'image s par une fonction H de transformation géométrique, et p étant une fonction de coût de l'erreur. 20 Selon l'invention, ledit module comprend des moyens de post-traitement aptes à régulariser l'objet extrait. Selon l'invention, ledit module comprend des moyens d'ajustement de canaux issus de l'intensité lumineuse I du fond. L'invention concerne en outre un programme d'ordinateur comprenant 25 des instructions de code de programme pour mettre en oeuvre les étapes du procédé selon l'invention lorsque ledit programme est exécuté sur un ordinateur. La description qui va suivre en regard des dessins annexés, donnés à titre d'exemples non limitatifs, fera bien comprendre en quoi consiste 30 l'invention et comment elle peut être réalisée. La figure la est un schéma d'un premier mode de réalisation de l'invention. La figure 1 b est un schéma d'un deuxième mode de réalisation de l'invention.

La figure 2a représente un fond projeté constituant un arrière-plan pour une image enregistrée. La figure 2b représente une image enregistrée d'un objet en avant-plan sur le fond de la figure 2a.

La figure 2c représente l'image distante obtenue par application du procédé conforme à l'invention à l'image enregistrée de la figure 2b. La figure 3 est un schéma général du procédé d'extraction conforme à l'invention. La figure 4 est un schéma de l'étape d'initialisation du procédé de la io figure 3. La figure 5 est un schéma de l'étape d'extraction du procédé de la figure 3. Sur la figure la est représenté un premier exemple de réalisation d'un procédé destiné à extraire automatiquement d'une image enregistrée par une 15 caméra vidéo 20 un objet 1 situé en avant-plan d'un fond 10 formé à partir d'images pilotées par un ordinateur personnel 30 et projetées sur une surface 10 par un dispositif 11 de vidéoprojection ou de rétroprojection, comme indiqué sur les figures la et 1 b. Sur la variante de la figure lb, la surface de projection est une table numérique 10'. 20 Dans les deux exemples montrés aux figures la et 1 b, l'objet à extraire est le bras 1 d'un intervenant au cours d'une visioconférence à laquelle assistent des personnes distantes. A cet effet, la caméra vidéo 20 est reliée à un réseau 2 de télécommunication apte à transmettre l'image numérique fournie en sortie de la caméra 20 par un module 40 chargé de l'extraction de 25 l'objet 1, conformément au procédé de l'invention. La figure 2a donne un exemple de fond 10 projeté sur les surfaces 10 ou 10'. L'image de l'intervenant enregistrée directement par la caméra 20 est donnée sur la figure 2b. On peut constater sur cette figure que le fond est de 30 mauvaise qualité au point de le rendre illisible par une personne distante recevant cette image en l'état. Pour remédier à cette situation, il est proposé que les personnes distantes disposent des mêmes images de fond que l'intervenant, ce qui ne pose aucune difficulté s'agissant d'images qui peuvent être transmises sous forme de fichiers numériques ou lorsque ces images disponibles sur chacun des postes distants sont visualisées de manière synchrone. Il suffit alors d'extraire l'objet 1 de l'image enregistrée par la caméra 20 au moyen du module 40 d'extraction, de transmettre aux personnes distantes l'objet 1 ainsi extrait et de le superposer localement au fond 10. On obtient de cette manière l'image de la figure 2c où l'objet extrait apparaît sur un fond de bonne qualité. L'extraction en avant-plan/arrière plan réalisée par le module 40 repose sur la connaissance a priori du fond, lequel est une image projetée sur une io surface plane, 10 ou 10'. Cette image de fond sera notée I par la suite. La caméra 20 enregistre la scène constituée par l'image projetée et par d'éventuels objets 1 placés en avant-plan. On appelle E l'image enregistrée par la caméra. L'image enregistrée par la caméra 20 du fond projeté est connue à une 15 fonction H de transformation géométrique et une fonction T de transfert lumineuse près. Lorsque la surface de projection est plane, la fonction H de transformation géométrique est modélisée dans le cas général par une homographie ou par une affinité si l'axe focal de la caméra est pratiquement 20 perpendiculaire à la surface de projection. Comme cela a été mentionné plus haut, la fonction T de transfert lumineuse est en fait un vecteur T = (T);.1 n dont les n composantes i représentent les canaux d'analyse retenus. Rappelons que dans le cas le plus simple où seule l'intensité est utilisée pour exprimer la fonction T de transfert, 25 la charge de calcul est faible mais ceci au détriment de la précision de l'extraction avant-plan/arrière-plan. Dans la suite, pour des raisons de lisibilité, l'indice i sera omis lorsqu'il ne sera pas nécessaire. Le procédé d'extraction mis en ceuvre par le module 40 repose sur la 30 construction d'une loi de correspondance entre les éléments d'image, ou pixels, du fond projeté et de l'arrière-plan de l'image enregistrée par la caméra 20. Cette loi peut s'exprimer à partir des fonctions H et T au moyen de la relation : T(I(s)) û E(Hs) = 0 exprimant l'égalité entre l'intensité lumineuse T(I(s)) à l'élément d'image s du fond projeté, corrigée par la fonction T de transfert lumineuse, et l'intensité lumineuse E(Hs) à l'élément d'image Hs de l'image enregistrée, image de l'élément d'image s par la fonction H de transformation géométrique. L'objet à extraire est alors défini comme l'ensemble des éléments de l'image enregistrée présentant un écart à la loi de correspondance T(I(s)) û E(Hs) = 0, à savoir Es = T(I(s)) û E(Hs) et Es # O. io La figure 3 indique les différentes étapes d'un procédé d'extraction conforme à l'invention, à savoir une étape d'initialisation, une étape d'extraction proprement dite et une étape de post-traitement. L'objet obtenu à l'issue de l'ensemble des étapes du procédé est transmis par exemple à l'ensemble des participants distants à une visioconférence. 15 L'étape d'extraction proprement dite va maintenant être décrite en détail en référence à la figure 5. Cette étape débute par le calcul des canaux d'analyse à partir des signaux vidéo. Ces canaux peuvent être limités à la seule intensité, ou correspondre aux trois canaux couleurs (RGB, Lab, Luv, etc.) (G. Wyszecki 20 and W.S. Stiles, Color Science : Concepts and Methods, John Wiley and Sons, 1982) et également à des analyses locales, telles que moyennes, variances, filtres de Gabor, etc. Puis, est effectuée une étape de réajustement des canaux. En effet, l'estimation de la fonction T de transfert sur chacun des canaux nécessite de 25 disposer de données suffisantes. Typiquement, cela exige de connaître pour chaque canal l'intervalle [Imin, (maxi où Imin et Imax sont les valeurs minimales et maximales observées pour 1 pour ce canal. En dehors de ces valeurs, on ne peut estimer la fonction de transfert car aucune donnée n'est disponible. Plutôt que de modifier l'ensemble de départ de la fonction de transfert en 30 fonction de l'image originale, il est préférable d'imposer une transformation de [0, 255] vers [Emin, Emax] où Emin et Emax sont les valeurs minimales et maximales observées pour E, en réalisant un rééchantillonnage linéaire de I sur cette dynamique. 35 >0 Une autre possibilité serait d'identifier le lieu des données manquantes pour adapter les paramètres à estimer, notés plus loin ak, pour la détermination de la fonction T de transfert. L'étape suivante consiste à estimer les fonctions H et T.

La fonction H de transformation géométrique peut être représentée dans le cas général de surface de projection plane par une homographie définie par 8 paramètres notés a,b,c,d,e,f,g et h selon la définition habituelle suivante : >0 X I I (ax+by+c)/gx+hy+1) Y (dx+ev+f)/(gx+hy+1) 1.5 où x,y désignent les coordonnées du pixel s de la grille S de l'image de fond et X,Y les coordonnées du pixel transformé par H. Dans le cas où l'axe de la caméra est perpendiculaire à la surface de projection, la transformation géométrique H peut être définie par 6 paramètres a,b,c,d,e et f selon la définition suivante: 20 ax+by+c dx+ey+f 25 La fonction T de transfert est modélisée par une décomposition sur une base de fonctions génératrices qui peuvent être indifféremment des ondelettes (S. Mallat, A Wavelet Tour of Signal Processing , Academic Press, 2nd Edition, 1999) ou des splines (B. Chalmond, Modeling and Inverse Problems in Image Analysis , Applied Mathematics, Springer Verlag, 30 Vol.155, Chap.3, pp.53-57, 2003). Par exemple, une implémentation sur une base de décomposition spline d'ordre 2 (continuité C(1)) conduit à l'expression suivante : T(x) = lk=1,...,g ak•R(x-kp) où ak sont les q paramètres de la décomposition spline, p le pas de la spline et R(x) est la fonction spline définie par : 13(t) = Ii=o 3 Op-t)+2 / f13î=oA (j-Ip) X Y 40 30 Il la fonction (.)+ représentant la fonction de Heaviside. Dans le cas où T est défini sur 256 niveaux de gris, p est choisi comme puissance de 2, et q vérifie la contrainte q=(2561p)+2. Si on retient une implémentation avec p=32, on obtient q=10.

La fonction F(H,T) de mesure de l'erreur cumulée entre l'image de fond projetée I et son enregistrement E est définie selon le modèle des M-estimateurs (voir article de P.J. Huber), à savoir : F(H, T) = 1sES p(T(I(s)) ù E(Hs)) io = 1ses p(rk=1 ak.(3(I(s) ù kp) ùE(Hs)) où p(.) est une fonction non négative prise ici égale à la fonction de Tukey (voir article de P.J. Huber). Bien entendu, d'autres fonctions pourraient être utilisées, comme celle de Huber. 15 A ce stade, trois options d'estimation se présentent :

1. Estimation de la fonction T seule C'est la version la plus simple à implémenter puisqu'alors F(H, T) est linéaire en ak. C'est aussi celle qui correspond à la situation fréquente où le 20 dispositif mécanique est suffisamment rigide pour limiter les effets de bougé. L'algorithme qui s'applique alors est l'algorithme connu sous le nom d'IRLS ( Iterative Least Square Algorithm ).

2. Estimation de la fonction H seule 25 La fonctionnelle n'offre pas de linéarité par rapport aux paramètres de la transformation géométrique (homographie ou affinité). Le principe de minimisation (et d'estimation) consiste à linéariser au premier ordre l'expression E(Hs) par rapport aux paramètres de la transformation géométrique, cjn écrivant: E((H + dh)s) = E(Hs)) + 1,_,,...,r (ôE/ôX.ôX/ôh, + ôE/ôY.ôY/ôh,)dh, où h, représente le lième paramètre de H et r le nombre de paramètres de H. La fonction à minimiser devient alors, à H fixé : 35 F (dh, T) = yses p(rk=1 gk.(3(I(s) ù kp) ù E(Hs)) + 1,_,,..., (ôE/ôX.ôX/ôh, + ôE/ôY.ôY/ôh,)dh, On posera 0 = (dh,),=,,..., Le principe de l'algorithme utilisé a été décrit notamment dans J.M. Odobez, P. Bouthemy, Robust Multiresolution Estimation of Parametric Models, Journal of Visual Communication and Image Representation, Vol.6, No.4, 1995 : - à l'étape t, on note Ht l'estimation de H : * on minimise F Ht en 0, à Ht fixé : linéaire en 0, la fonction F Ht permet une minimisation selon l'IRLS; *à la convergence de l'IRLS, on met à jour Ht+1 selon Ht+1 = Ht+e - on passe à l'étape t+1 - on poursuit l'itération tant que le critère d'arrêt n'est pas vérifié.

Un critère d'arrêt retenu peut-être est le suivant: itération tant que le rapport (F Ht+1 - F Ht)/ F Ht est supérieur à un seuil.

3. Estimation conjointe des fonctions H et T L'estimation conjointe de H et T est réalisée comme suit, en reprenant les notations ci-dessus : - à l'étape t, on note Ht l'estimation de H : * on minimise F Ht en 0 et a, à Ht fixé : linéaire en 0 et a, la fonction F Ht permet une minimisation selon l'IRLS; * à la convergence de l'IRLS, on met à jour Ht+1 selon Ht+1 = Ht + 0, a conservant sa valeur courante - on passe à l'étape t+1 - on poursuit l'itération tant que le critère d'arrêt n'est pas vérifié. Un critère d'arrêt retenu peut être le suivant : itération tant que le rapport (F Ht+1 - F Ht)/ F Ht est supérieur à un seuil.

L'extraction proprement dite met en oeuvre les M-estimateurs dont une propriété intéressante est d'offrir une mesure, appelée poids, de l'adéquation entre l'observation et la loi de correspondance. Cette mesure, normalisée entre 0 et 1 est définie en chaque pixel s et donnée par ws = p'(ss)/ss, p' est la dérivée de p (ici la fonction de Turkey) et Es = T(I(s)) û E(Hs). Ce poids prend une valeur proche de 0 lorsque l'erreur Es est grande, dans ce cas le pixel ne suit pas la loi de correspondance. De manière pratique, on peut considérer par exemple que le pixel est un pixel d'avant-plan si le poids ws estimé pour l'un au moins des canaux i utilisé est inférieur à 0,25. L'extraction et l'estimation des paramètres T ou H doivent être effectuées à chaque image, soit à plus de 25 Hz. Dans le cas général, les modifications d'une image à l'autre sont très faibles, voire inexistantes. A chaque étape, les valeurs des paramètres de H et T sont donc très proches des valeurs optimales. Une seule itération de l'IRLS peut alors être envisagée pour mettre à jour H et T, ce qui assure un fonctionnement du module 40 en temps réel avec les microprocesseurs actuellement disponibles sur le marché. Il est ainsi possible de suivre des changements de la lumière du jour, qui sont en général assez progressifs, et des petits bougés du dispositif de projection et d'enregistrement si celui-ci n'est pas rigide. Dans le cas de changement brusques, comme l'allumage de rampes électriques, on pourra observer un effet retard de l'adaptation de l'algorithme. Le nombre d'itérations de l'IRLS par image pourra être augmenté pour diminuer cet inconvénient, dans la limite des 25Hz de rafraîchissement.

Une autre possibilité est d'effectuer une itération par image ; compte tenu du faible nombre d'itérations, la réactualisation de l'estimation ne durera pas plus d'une seconde environ. Enfin, une ultime étape, dite de post-traitement, peut être réalisée afin de régulariser la segmentation binaire. Il s'agit d'éliminer de l'image fournie par le module 40 les éléments de fond présents dans l'objet extrait et, inversement, les éléments de fond identifiés comme devant être extraits. Une méthode possible consiste à utiliser successivement un filtre d'érosion morphologique puis un filtre de dilatation (C.R. Giardina and E.R. Dougherty, Morphological Methods in Image and Signal Processing, Englewood Cliffs, New Jersey : Prentice-Hall, 321, 1988). Pour des images en sous-résolution (194x120), le rayon d'érosion et de dilatation retenu est de 2. Pour réaliser l'estimation de la fonction H de transformation géométrique et de la fonction T de transfert lumineuse, il est préférable de disposer d'une estimation préalable qui soit proche de la solution. C'est l'objet de l'étape d'initialisation représentée à la figure 4 effectuée sur le fond projeté et son enregistrement par la caméra 20. Dans ce but, on cherche d'abord une valeur approchée de la transformation géométrique H. Une estimation grossière de H est effectuée manuellement en pointant sur l'image enregistrée quatre points particuliers de l'image projetée: les quatre coins par exemple si l'image enregistrée contient la totalité de l'image projetée, ou d'autres points dans le cas contraire. La correspondance entre les quatre points de l'image projetée et leur projection sur l'image enregistrée fournit huit équations linéaires permettant d'obtenir une identification des six ou huit paramètres de la transformation géométrique soit par inversion d'un système linéaire directe dans le cas de l'homographie, soit par minimisation aux moindres carrés dans le cas de l'affinité.

La fonction T de transfert ou les fonctions Ti de transfert sont initialisées avec la fonction identité. On peut procéder ensuite à une estimation fine de H et de T. Cette estimation est réalisée de manière analogue à l'étape d'estimation précédemment décrite en référence à la figure 5. Cependant, cette étape n'est cette fois affectée d'aucune contrainte de temps réel. L'estimation grossière initiale étant assez éloignée de la solution, surtout en ce qui concerne la fonction T de transfert, le nombre d'itérations peut être élevé. Afin d'optimiser toutefois le temps de calcul, un schéma multi-résolution utilisant trois niveaux de résolution est mis en ceuvre (voir article de J.M. Odobez).25

Claims

REVENDICATIONS

1. Procédé d'extraction, dans une image enregistrée, d'un objet situé en avant-plan d'un fond projeté, caractérisé en ce que ledit procédé comprend une étape d'extraction consistant à : - établir une loi de correspondance entre éléments d'image du fond projeté et 10 de l'arrière-plan de l'image enregistrée, - définir ledit objet comme l'ensemble des éléments de l'image enregistrée présentant un écart à ladite loi de correspondance.

2. Procédé selon la revendication 1, caractérisé en ce que ladite loi de correspondance est décrite par une fonction H de transformation géométrique 15 et une fonction T de transfert lumineuse au moyen de la relation : T(I(s)) = E(Hs) exprimant l'égalité entre l'intensité lumineuse T(I(s)) à l'élément d'image s du 20 fond projeté I, corrigée par la fonction T de transfert lumineuse, et l'intensité lumineuse observée E(Hs) de l'image enregistrée E à l'élément d'image Hs, image de l'élément d'image s par la fonction H de transformation géométrique.

3. Procédé selon la revendication 2, caractérisé en ce que ledit écart à la loi de correspondance est représenté par un bruit Es observé en chaque élément 25 d'image s : Es = T(I(s)) - E(Hs)

4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce 30 que ledit procédé comprend une étape d'initialisation comportant : -une estimation de la fonction H de transformation géométrique à partir de la mise en correspondance d'éléments d'image particuliers de l'image de fond projeté et de l'image enregistrée dudit fond projeté, - une initialisation de la fonction T de transfert lumineuse par la fonction 35 identité.

5 . Procédé selon les revendications 3 et 4, caractérisé en ce que ladite étape d'initialisation comporte en outre une estimation de la fonction H de transformation géométrique et de la fonction T de transfert lumineuse consistant à minimiser la fonction F(H, T) : F(H, T) = ~s p(T(I(s)) û E(Hs)) où p est une fonction de coût de l'erreur.

6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce 10 que ledit procédé comprend une étape de post-traitement consistant à régulariser l'objet extrait.

7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que l'étape d'extraction comporte une étape préalable d'ajustement des canaux de l'intensité lumineuse I du fond. 15

8. Module d'extraction, dans une image enregistrée, d'un objet situé en avant-plan d'un fond projeté, caractérisé en ce que ledit module (40) comprend des moyens pour : - établir une loi de correspondance entre éléments d'image du fond projeté et de l'arrière-plan de l'image enregistrée, 20 - définir ledit objet comme l'ensemble des éléments de l'image enregistrée présentant un écart à ladite loi de correspondance.

9. Module selon la revendication 8, caractérisé en ce que ledit module comprend des moyens de calcul d'une fonction H de transformation géométrique et d'une fonction T de transfert lumineuse minimisant la fonction 25 F(H, T) : F(H, T) = ~s p(T(I(s)) û E(Hs)) exprimant l'erreur cumulée sur l'ensemble des éléments d'image s entre 30 l'intensité lumineuse T(I(s)) à l'élément d'image s du fond projeté, corrigée par une fonction T de transfert lumineuse, et l'intensité lumineuse E(Hs) de l'image enregistrée E à l'élément d'image Hs, image de l'élément d'image s par une fonction H de transformation géométrique, et p étant une fonction de coût de l'erreur.10. Module selon l'une des revendications 8 et 9, caractérisé en ce que ledit module comprend des moyens de post-traitement aptes à régulariser l'objet extrait. 11. Module selon l'une quelconque des revendications 8 à 10, caractérisé en 5 ce que ledit module comprend des moyens d'ajustement de canaux issus de l'intensité lumineuse I du fond. 12. Programme d'ordinateur comprenant des instructions de code de programme pour mettre en oeuvre les étapes du procédé selon l'une quelconque des revendications 1 à 7 lorsque ledit programme est exécuté sur io un ordinateur.