FR2826225A1

FR2826225A1 - Segmentation spatio-temporelle hierarchique d'un signal numerique

Info

Publication number: FR2826225A1
Application number: FR0107882A
Authority: FR
Inventors: Isabelle Amonou
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-06-15
Filing date: 2001-06-15
Publication date: 2002-12-20
Anticipated expiration: 2021-06-15
Also published as: FR2826225B1

Abstract

L'invention concerne un procédé de segmentation d'une image contenue dans une séquence d'images, caractérisé en ce qu'il comporte les étapes de :- décomposition (E21) de l'image sur une pluralité de niveaux de résolution,- première segmentation (E22, E26) d'au moins une partie d'un niveau donné de résolution, ledit niveau donné de résolution n'étant pas le niveau de résolution la plus élevée dans la décomposition, la première segmentation ayant pour résultat un classement de régions en régions fixes et en régions mobiles,- projection (E25) des régions mobiles sur au moins une partie du niveau de résolution supérieure au niveau donné,- seconde segmentation (E26) des régions mobiles de l'au moins une partie du niveau de résolution supérieure au niveau donné.

Description

La présente invention concerne d'une manière générale le codage de signal numérique et plus particulièrement la segmentation spatio-temporelle hiérarchique de signal numérique.

Bien que l'invention s'applique à tout type de signal numérique, elle est plus destinée au traitement d'une séquence d'images numériques.

La segmentation d'une image numérique va permettre de réaliser une partition de l'image en régions homogènes, connexes et ne se recouvrant pas. Dans ce contexte, l'image est considérée comme constituée d'objets à deux dimensions. La segmentation est un processus de bas niveau ayant pour but de réaliser une partition de l'image en un certain nombre de sous éléments appelés régions. La partition est telle que les régions sont disjointes et que leur réunion constitue l'image. Les régions correspondent ou ne correspondent pas à des objets de l'image, le terme d'objet référant à une information de nature sémantique. Bien souvent cependant, un objet correspond à une région ou un ensemble de régions. Chaque région peut être représentée par une information représentative de sa forme, sa couleur ou de sa texture. L'homogénéité de la région dépend bien sur d'un critère particulier d'homogénéité : proximité des valeurs moyennes, conservation du contraste, de la couleur, par exemple.

Par objet, on entend une entité de l'image correspondant à une unité sémantique, par exemple le visage d'une personne. Un objet peut être constitué d'une ou plusieurs régions contenues dans l'image. Par la suite nous utiliserons indifféremment le terme d'objet ou de région.

Il existe trois types de segmentation.

- la segmentation spatiale travaille sur les données spatiales (de luminance ou chrominance) de l'image, en cherchant à regrouper des pixels satisfaisant un critère d'homogénéité, - la segmentation de mouvement qui prend en compte l'homogénéité du mouvement d'une image à l'autre dans une séquence d'images, - la segmentation spatio-temporelle qui définit des régions au sens du mouvement d'une image à l'autre dans une séquence d'images, mais avec des contours spatiaux, et non des contours de mouvement.

La segmentation de mouvement fournit en général de bons résultats de segmentation, mais les contours sont localisés de manière imprécise et ne correspondant pas aux contours réels des objets.

La segmentation spatio-temporelle permet de résoudre ce problème.

La plupart des méthodes de segmentation spatio-temporelle effectuent tout d'abord une segmentation spatiale puis divisent ou au contraire fusionnent des régions pour obtenir la segmentation finale. Il est également possible d'utiliser un critère de type débit-distorsion pour contrôler le niveau de la segmentation, puis de procéder à une estimation du mouvement sur chaque région spatiale et enfin de regrouper les régions qui ont le même mouvement. Il est encore possible de travailler sur l'erreur de prédiction induite par le mouvement calculé pour regrouper ou diviser les régions. Ces méthodes sont complexes à mettre en oeuvre.

Par ailleurs, le codage d'une image est lié à la manière dont elle est représentée. En particulier, l'image peut être une structure mono-résolution ou une structure multi-résolution, dite encore structure hiérarchique.

Une structure multi-résolution répartit l'information sur plusieurs niveaux de résolution, ce qui permet un codage progressif et une transmission progressive des données codées. Pour obtenir une représentation multirésolution d'une image, on peut par exemple utiliser des pyramides Gaussiennes/Laplaciennes, ou décomposer le signal en sous bandes de fréquences à plusieurs niveaux de résolution.

Dans la suite, on s'intéressera à ce second cas. La transformation en sous-bandes de fréquence, dite encore transformation en odelettes, ou

DWT (d'après l'anglais Discrete Wavelet Transform), offre une représentation spatiale et fréquentielle de l'image sur plusieurs niveaux de résolution. Elle est par ailleurs non-redondante, ce qui permet de conserver le même nombre d'échantillons que l'image d'origine.

Une décomposition en sous bandes de fréquence consiste à créer, à partir du signal numérique, un jeu de sous bandes contenant chacune un spectre limité de fréquences. Les sous bandes peuvent être de différentes résolutions, la résolution d'une sous bande étant le nombre d'échantillons par unité de longueur utilisé pour représenter cette sous bande. Dans le cas d'un signal numérique d'image, une sous bande de fréquence de ce signal peut être considérée comme une image, c'est-à-dire un tableau bidimensionel de valeurs numériques.

La décomposition d'un signal en sous bandes de fréquence permet de décorréler le signal de manière à éliminer la redondance existant dans l'image numérique préalablement à la compression proprement dite. Les sous bandes peuvent être alors compressées de manière plus efficace que le signal d'origine. Par ailleurs, la sous bande basse d'une telle décomposition est une reproduction fidèle à une résolution plus faible, de l'image d'origine. Elle est donc particulièrement bien adaptée à une segmentation.

La présente invention vise à fournir un procédé et un dispositif de segmentation hiérarchique spatio-temporelle d'un signal tel qu'une séquence d'images numériques.

A cette fin, l'invention propose un procédé de segmentation d'une image contenue dans une séquence d'images, caractérisé en ce qu'il comporte les étapes de : - décomposition de l'image sur une pluralité de niveaux de résolution, - première segmentation d'au moins une partie d'un niveau donné de résolution, ledit niveau donné de résolution n'étant pas le niveau de résolution la plus élevée dans la décomposition, la première segmentation ayant pour résultat un classement de régions en régions fixes et en régions mobiles,

- projection des régions mobiles sur au moins une partie du niveau de résolution supérieure au niveau donné, - seconde segmentation des régions mobiles de l'au moins une partie du niveau de résolution supérieure au niveau donné.

L'invention permet de construire une hiérarchie d'objets dans la séquence. Ces objets pourront ensuite être codés de manière sélective ou transmis de manière progressive.

Il est à noter que l'invention n'introduit pas de notion de profondeur sur les objets, la segmentation est réalisée pour chaque image de la séquence en utilisant l'information de mouvement entre deux image de la séquence. Il s'agit donc d'une approche de type 2D + t par opposition aux approches tridimensionnelles.

Selon une caractéristique préférée, la décomposition est à chaque niveau de résolution une décomposition en une pluralité de sous bandes de fréquence. Ce type de décomposition est bien adapté au traitement d'image et sa mise en oeuvre est simple.

Selon une caractéristique préférée, la première segmentation est effectuée sur une sous bande de basse fréquence du niveau donné de résolution. La sous bande de basse fréquence d'une image est une version réduite et simplifiée de cette image, il est par conséquent intéressant de l'utiliser pour effectuer une segmentation spatiale.

Selon une caractéristique préférée, les étapes de première segmentation, projection et de seconde segmentation sont effectuées de manière itérative depuis le niveau de résolution la plus faible jusqu'au niveau de résolution la plus élevée.

Selon une caractéristique préférée, la première segmentation comporte les étapes de : - calcul d'une différence entre l'au moins une partie de l'image et au moins une partie d'une image de référence incluse dans la séquence,

- segmentation de la différence, - segmentation de l'au moins une partie de l'image de référence, - détermination de la classe de chaque région résultant de la segmentation de l'au moins une partie de l'image de référence, en fonction du résultat de la segmentation de la différence.

Selon une caractéristique préférée, la seconde segmentation comporte les étapes de : - calcul d'une différence entre l'au moins une partie de l'image et au moins une partie d'une image de référence incluse dans la séquence, - segmentation de la différence, - segmentation de l'au moins une partie de l'image de référence, - détermination de la classe de chaque région résultant de la segmentation de l'au moins une partie de l'image de référence, en fonction du résultat de la segmentation de la différence.

Selon une caractéristique préférée, lors de la seconde segmentation, seules sont segmentées les régions correspondant à la projection des régions mobiles déterminées lors de la première segmentation.

Selon une caractéristique préférée, la détermination de la classe de chaque région résultant de la segmentation de l'au moins une partie de l'image de référence comporte les sous étapes de : - sélection des coefficients correspondant dans la segmentation de la différence, - comptage des coefficients sélectionnés qui sont en outre situés dans des régions mobiles, - comparaison du nombre de coefficients comptés avec un seuil prédéterminé et classement de la région en fonction du résultat de la comparaison.

Selon une caractéristique préférée, l'image de référence est une image précédant l'image courante dans la séquence d'images.

Corrélativement, l'invention concerne un dispositif de segmentation d'une image contenue dans une séquence d'images, caractérisé en ce qu'il comporte : - des moyens de décomposition de l'image sur une pluralité de niveaux de résolution, - des moyens de première segmentation d'au moins une partie d'un niveau donné de résolution, ledit niveau donné de résolution n'étant pas le niveau de résolution la plus élevée dans la décomposition, la première segmentation ayant pour résultat un classement de régions en régions fixes et en régions mobiles, - des moyens de projection des régions mobiles sur au moins une partie du niveau de résolution supérieure au niveau donné, - des moyens de seconde segmentation des régions mobiles de l'au moins une partie du niveau de résolution supérieure au niveau donné.

Le dispositif de segmentation présente des avantages analogues à ceux précédemment présentés.

L'invention concerne aussi un appareil numérique incluant le dispositif selon l'invention, ou des moyens de mise en oeuvre du procédé selon l'invention. Cet appareil numérique est par exemple un appareil photographique numérique, un caméscope numérique, un scanner, une imprimante, un photocopieur, un télécopieur. Les avantages du dispositif et de l'appareil numérique sont identiques à ceux précédemment exposés.

Un moyen de stockage d'information, lisible par un ordinateur ou par un microprocesseur, intégré ou non au dispositif, éventuellement amovible, mémorise un programme mettant en oeuvre le procédé de détermination ou de codage.

Un programme d'ordinateur lisible par un microprocesseur et comportant une ou plusieurs séquence d'instructions est apte à mettre en oeuvre les procédés selon l'invention.

Les caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture d'un mode préféré de réalisation illustré par les dessins ci-joints, dans lesquels : - la figure 1 représente un dispositif selon l'invention, - la figure 2 est un mode de réalisation d'un dispositif mettant en oeuvre l'invention, - la figure 3 est un mode de réalisation de procédé d'analyse selon l'invention, -les figures 4a, 4b et 5 sont des modes de réalisation de procédé de segmentation inclus dans le procédé de la figure 3, - la figure 6 est un mode de réalisation de procédé de sélection de régions mobiles inclus dans le procédé de la figure 4,

- la figure 7 est un circuit de décomposition en sous bandes de fréquence inclus dans le dispositif de la figure 1, - la figure 8 est une image numérique à analyser selon la présente invention, -la figure 9 est une image décomposée en sous-bandes selon la présente invention.

Selon un mode de réalisation choisi et représenté à la figure 1, un dispositif de traitement de données selon l'invention est un dispositif 2 de codage de données qui comporte une entrée 12 à laquelle est reliée une source 1 de données non codées.

La source 1 comporte par exemple un moyen de mémoire, telle que mémoire vive, disque dur, disquette, disque compact, pour mémoriser des données non codées, ce moyen de mémoire étant associé à un moyen de lecture approprié pour y lire les données. Un moyen pour enregistrer les données dans le moyen de mémoire peut également être prévu.

On considérera plus particulièrement dans la suite que les données à coder sont une suite d'échantillons numériques représentant une séquence d'images.

La source 1 fournit un signal numérique d'image SI à l'entrée du circuit de codage 2. Le signal d'image SI est une suite de mots numériques, par exemple des octets. Chaque valeur d'octet représente un pixel d'image, ici à 256 niveaux de gris, ou image noir et blanc. Les images peuvent être des images multispectrales, par exemple des images en couleur ayant des composantes dans trois bandes de fréquence, de type rouge-vert-bleu ou luminance et chrominances. Chaque bande est alors traitée de manière analogue à l'image monospectrale. En variante, pour des images en couleur, la segmentation hiérarchique calculée sur la luminance sera appliquée aux composantes de chrominance.

Le dispositif de codage de données comporte des moyens d'analyse de signal numérique, qui ont pour but de réaliser une segmentation spatiotemporelle hiérarchique de ce signal.

Le dispositif comporte : - des moyens de décomposition de l'image sur une pluralité de niveaux de résolution, - des moyens de première segmentation d'au moins une partie d'un niveau donné de résolution, ledit niveau donné de résolution n'étant pas le niveau de résolution la plus élevée dans la décomposition, la première segmentation ayant pour résultat un classement de régions en régions fixes et en régions mobiles, - des moyens de projection des régions mobiles sur au moins une partie du niveau de résolution supérieure au niveau donné, - des moyens de seconde segmentation des régions mobiles de l'au moins une partie du niveau de résolution supérieure au niveau donné.

Le fonctionnement du dispositif 2 sera détaillé dans la suite à l'aide d'algorithmes.

Des moyens 3 utilisateurs de données codées sont reliés en sortie 13 du dispositif de codage 2.

Les moyens utilisateurs 3 comportent par exemple des moyens de mémorisation de données codées, et/ou des moyens de transmission des données codées.

Le dispositif selon l'invention est intégré dans un appareil, qui est par exemple un appareil photographique numérique, un caméscope numérique, un scanner, une imprimante, un photocopieur, un télécopieur, un système de gestion de base de données, ou encore un ordinateur.

La figure 2 représente un dispositif mettant en oeuvre l'invention sous la forme d'un micro-ordinateur 10 connecté à différents périphériques, par exemple une caméra numérique 107 (ou un scanner, ou tout moyen d'acquisition ou de stockage d'image) reliée à une carte graphique et fournissant des informations à traiter selon l'invention.

Le dispositif 10 comporte une interface de communication 112 reliée à un réseau 113 apte à transmettre des données numériques à traiter ou inversement à transmettre des données traitées par le dispositif. Le dispositif 10 comporte également un moyen de stockage 108 tel que par exemple un disque dur. Il comporte aussi un lecteur 109 de disque 110. Ce disque 110 peut être une disquette, un CD-ROM, ou un DVD-ROM, par exemple. Le disque 110 comme le disque 108 peuvent contenir des données traitées selon l'invention ainsi que le ou les programmes mettant en oeuvre l'invention qui, une fois lu par le dispositif 10, sera stocké dans le disque dur 108. Selon une variante, le programme permettant au dispositif de mettre en oeuvre l'invention, pourra être stocké en mémoire morte 102 (appelée ROM sur le dessin). En seconde variante, le programme pourra être reçu pour être stocké de façon identique à celle décrite précédemment par l'intermédiaire du réseau de communication 113.

Le dispositif 10 est relié à un microphone 111. Les données à traiter selon l'invention seront dans ce cas du signal audio.

Ce même dispositif possède un écran 104 permettant de visualiser les données à traiter ou de servir d'interface avec l'utilisateur qui peut ainsi paramétrer certains modes de traitement, à l'aide du clavier 114 ou de tout autre moyen (souris par exemple).

L'unité centrale 100 (appelée CPU sur le dessin) exécute les instructions relatives à la mise en oeuvre de l'invention, instructions stockées dans la mémoire morte 102 ou dans les autres éléments de stockage. Lors de la mise sous tension, les programmes de traitement stockés dans une mémoire non volatile, par exemple la ROM 102, sont transférés dans la mémoire vive RAM 103 qui contiendra alors le code exécutable de l'invention ainsi que des registres pour mémoriser les variables nécessaires à la mise en oeuvre de l'invention.

De manière plus générale, un moyen de stockage d'information, lisible par un ordinateur ou par un microprocesseur, intégré ou non au dispositif, éventuellement amovible, mémorise un programme mettant en oeuvre le procédé selon l'invention.

Le bus de communication 101 permet la communication entre les différents éléments inclus dans le micro-ordinateur 10 ou reliés à lui. La représentation du bus 101 n'est pas limitative et notamment l'unité centrale 100 est susceptible de communiquer des instructions à tout élément du microordinateur 10 directement ou par l'intermédiaire d'un autre élément du microordinateur 10.

La figure 3 représente un mode de réalisation de procédé de codage d'une séquence d'images, selon l'invention. Ce procédé est mis en oeuvre dans le dispositif de codage et comporte des étapes E20 à E30.

Le procédé est réalisé sous la forme d'un algorithme qui peut être mémorisé en totalité ou en partie dans tout moyen de stockage d'information capable de coopérer avec le microprocesseur. Ce moyen de stockage est lisible par un ordinateur ou par un microprocesseur. Ce moyen de stockage est intégré ou non au dispositif, et peut être amovible. Par exemple, il peut

comporter une bande magnétique, une disquette ou un CD-ROM (disque compact à mémoire figée).

L'étape E20 est une initialisation à laquelle un paramètre t est mis à la valeur 1. Le paramètre t est un entier qui représente l'ordre de l'image courante It dans la séquence.

L'étape E21 est la décomposition de l'image courante It en une pluralité de niveau de résolution et plus particulièrement en une pluralité de sous bandes de fréquence à différentes résolutions comme il sera détaillé dans la suite en référence à la figure 9. Par exemple, la décomposition est réalisée

3 3 sur trois niveaux de résolution fournissant ainsi des sous bandes LLt3, HLt3, 3 3 2 2 2 LHt3 et HHt3 de plus faible résolution RES3, les sous bandes HLt2, LH et HH de résolution intermédiaire RES2, et les sous bandes HLt1, LHt1 et HHt1 de plus haute résolution RES1. Il est à remarquer que lors de cette étape, toutes les

n n n n sous-bandes LLt", HLt, LHt"HHt"d'un niveau de résolution RESn, où n est un entier, peuvent être mémorisées, ou la sous-bande de basse fréquence LLt" peut n'être mémorisée que pour le niveau de résolution la plus faible, et synthétisée pour les autres niveaux.

Il est à noter que la décomposition de l'image It-1 va être utilisée pour segmenter l'image It. Cette décomposition pourra avoir été mémorisée à l'itération précédente, ou recalculée à cette itération. Lors du premier passage par cette étape, les images I0 et 11 sont décomposée.

L'étape suivante E22 consiste à segmenter la sous bande basse LLtN de l'image courante It afin de fournir une segmentation de niveau N, N étant un entier égal par exemple à 3 si trois niveaux de décomposition sont réalisés ; la sous bande basse LLtN est la sous bande LLt3 dans notre exemple.

Le résultat de la segmentation est une segmentation SStN contenant des régions fixes et des régions mobiles couvrant la totalité de la sous bande segmentée. Cette étape de segmentation est détaillée dans la suite en référence à la figure 4a.

Au cours de l'étape suivante E23, un paramètre i est initialisé à la valeur 0. Le paramètre i indique le niveau de résolution courant N-i, où N

correspond au nombre total de niveaux de décomposition, ici trois. Cet indicateur sera par la suite remis à jour à chaque itération.

L'étape E23 est suivie de l'étape E24, au cours de laquelle au moins une région de la segmentation de niveau de résolution N-i est mémorisée afin d'être utilisée ultérieurement lors de l'étape de segmentation du niveau de résolution immédiatement supérieur.

L'étape E24 est suivie de l'étape E25 qui, dans le cas ou les sous bandes basses des différents niveaux de résolution n'ont pas été mémorisées, effectue une synthèse sur les sous bandes du niveau de résolution N-i considéré. L'étape de synthèse a pour résultat une sous bande basse reconstruite LLStN-i-1, de résolution immédiatement supérieure aux sous bandes

3 3 3 qui ont servi à la synthèse. Ainsi, à partir des sous bandes LLt3, LHt3, HLt3 et 3 2 HHt3 on reconstruit une sous bande basse LLSt2 de niveau 2. Bien sûr, cette synthèse est remplacée par une simple lecture en mémoire de la sous bande basse du niveau de résolution supérieure dans le cas où la totalité des sous bandes a été mémorisée lors de la décomposition.

L'étape E25 comporte également une projection des régions mobiles

de la segmentation SStN-i sur la sous bande basse LLStN-i-1 reconstruite ou lue en mémoire. La projection est réalisée par élargissement, ou zoom d'un facteur deux dans chaque dimension et interpolation des points manquants.

L'étape E26 est une seconde segmentation d'au moins une partie du niveau reconstruit et plus précisément de la projection des régions mobiles sur la sous bande basse LLStN-i-1 obtenue au cours de l'étape E25. Cette seconde segmentation dite assistée dépend du résultat de la segmentation SStN-i mémorisée à l'étape E24. Cette étape de segmentation assistée a pour but de fournir une segmentation au niveau de résolution courant N-i-1, cohérent avec le niveau de résolution précédent N-i.

Par cohérent, on entend que la segmentation est continue, c'est à dire qu'une région voire un objet peut être suivie d'un niveau sur l'autre. En particulier, cette cohérence implique qu'un objet de niveau N-i existe toujours au niveau N-i-1, et descende d'au moins un objet parent de niveau N-i+1, si ce niveau existe ; lors du passage au niveau N-i-1 de résolution supérieure, l'objet

de résolution N-i peut avoir été subdivisé en plusieurs sous objets, mais ne peut avoir été fusionné avec d'autres objets de niveau de résolution N-i ; il ne peut non plus avoir débordé sur un autre objet de niveau de résolution N-i. La segmentation assistée sera décrite plus en détail dans la suite en référence à la figure 4b.

L'étape suivante E27 est un test afin de déterminer si tous les niveaux de la décomposition ont été traités, c'est-à-dire si le paramètre i est égal à N-1. Si le test est négatif, il reste encore au moins un niveau à traiter, et dans ce cas l'étape E27 est suivie de l'étape E28, qui incrémente le paramètre i de une unité pour considérer le niveau de résolution supérieure. L'étape E28 est suivie de l'étape E24 précédemment décrite.

Si le test de l'étape E27 est positif, alors cette étape est suivie de l'étape E29 qui est un test pour déterminer si la séquence a été complètement analysée. Si le test est négatif, il reste encore au moins une image à traiter, et dans ce cas l'étape E29 est suivie de l'étape E30, qui incrémente le paramètre t de une unité pour considérer une image suivante dans la séquence. L'étape E30 est suivie de l'étape E21 précédemment décrite.

Si le test de l'étape E29 est positif, alors l'analyse de la séquence d'image numérique est terminée.

L'étape E22 de segmentation d'une partie d'un niveau de résolution et plus particulièrement d'une sous bande est détaillée à la figure 4a et comporte les sous étapes E80 à E84.

L'étape E80 est le calcul de la différence D entre la sous bande basse LLtN de niveau de résolution N de l'image It et celle LLt-1N de l'image It-1.

Ce calcul peut être effectué selon la technique dite DFD, d'après l'anglais Deplaced Frame Difference .

L'étape suivante E81 est la segmentation de la différence D précédemment calculée. La segmentation sera détaillée dans la suite en

N référence à la figure 5. Elle a pour résultat une segmentation temporelle STtN.

A l'étape suivante E82, les régions déterminées par la segmentation temporelle sont classées en deux groupes, les régions dites de fond, ou

régions statiques et les régions d'avant plan ou régions mobiles. Une région est classée comme région d'avant plan si sa valeur moyenne est supérieure à un seuil prédéterminé T. Inversement, une région est classée comme région de fond si sa valeur moyenne est inférieure au seuil prédéterminé T.

L'étape suivante E83 est la segmentation spatiale de la sous bande basse LLt-1N issue de la décomposition de l'image It-1. Un mode de réalisation de segmentation sera détaillé dans la suite en référence à la figure 5. Le

N résultat est une segmentation SPt-1N.

L'étape suivante E84 est une sélection des régions mobiles dans la segmentation SPt-1N par comparaison des résultats de segmentation des étapes E81 et E83. La segmentation spatiale SPt-1N et la segmentation temporelle STtN sont comparées pour ne conserver que les régions de la segmentation spatiale SPt-1N pour lesquelles les régions correspondantes d'avant plan de la segmentation temporelle STtN comportent un nombre de points supérieur à un seuil prédéterminé T2. Le résultat est une segmentation

N spatio-temporelle SStN. L'étape E84 est détaillée dans la suite en référence à la figure 6.

La figure 4b détaille l'étape E26 de segmentation spatio-temporelle assistée. Cette étape est analogue à l'étape E22 précédemment décrite (figure 4a), à la différence près que seules sont segmentées les régions correspondant à la projection des régions mobiles déterminées lors de la segmentation du niveau de résolution inférieure.

Plus précisément, l'étape E26 comporte des sous-étapes E800 à E840. Ces étapes correspondent respectivement aux étapes E80 à E84 précédemment décrites, les étapes de segmentation E810 et E830 étant modifiées comme exposé ci-après.

L'étape E800 est le calcul de la différence DtN-i-1 entre la sous bande basse LLtN-i-1 de niveau de résolution N-i-1 de l'image It et celle LLt-i'-' de l'image It-1. Ce calcul peut être effectué selon la technique dite DFD, d'après l'anglais Deplaced Frame Difference .

N-i-1 A l'étape E810 de segmentation temporelle de la différence DtN-i-1 entre les sous bandes basses du niveau de résolution N-i-1, seules sont segmentées les zones correspondant à la projection des régions mobiles de la segmentation SStN-i (étape E25).

Ainsi, les frontières de régions de la segmentation précédente sont considérées comme des murs infranchissables pour la nouvelle segmentation. La nouvelle segmentation est donc contrainte de respecter les régions qui ont été établies à l'étape de segmentation précédente au niveau de résolution inférieure. De nouveaux objets mobiles peuvent apparaître à l'intérieur d'un objet mobile de résolution N-i, mais un nouvel objet mobile ne peut apparaître en chevauchant deux régions mobiles définies au niveau N-i. On assure ainsi une continuité (cohérence) de la segmentation hiérarchique.

N-i-1 Le résultat est une segmentation temporelle STtN-i-1.

A l'étape suivante E820, les régions déterminées par la N-i-1 segmentation temporelle STtN-i-1 sont classées en deux groupes, les régions dites de fond, ou régions statiques et les régions d'avant plan ou régions mobiles. Une région est classée comme région d'avant plan si sa valeur moyenne est supérieure à un seuil prédéterminé T. Inversement, une région est classée comme région de fond si sa valeur moyenne est inférieure au seuil prédéterminé T.

A l'étape E830 de segmentation spatiale de la sous bande basse de niveau N-i-1 de l'image It-1, on segmente uniquement les zones correspondant à la projection des régions mobiles de la segmentation SSt''.

Ainsi, comme précédemment, les frontières de régions de la segmentation précédente sont considérées comme des murs infranchissables pour la nouvelle segmentation. La nouvelle segmentation est donc contrainte de respecter les régions qui ont été établies à l'étape de segmentation précédente au niveau de résolution inférieure. De nouveaux objets mobiles peuvent apparaître à l'intérieur d'un objet mobile de résolution N-i, mais un nouvel objet mobile ne peut apparaître en chevauchant deux régions mobiles

définies au niveau N-i. On assure ainsi une continuité (cohérence) de la segmentation hiérarchique.

Le résultat est une segmentation spatiale SPt-1N-i-1.

L'étape suivante E840 est une sélection des régions mobiles par comparaison des résultats de segmentation des étapes E810 et E830. La segmentation spatiale Spot-il et la segmentation temporelle STtN-i-1 sont comparées pour ne conserver que les régions de la segmentation spatiale SPt- 1N-i-1 pour lesquelles les régions d'avant plan de la segmentation temporelle STtN-I-1 comportent un nombre de points supérieur à un seuil prédéterminé T2.

Le résultat est une segmentation spatio-temporelle ! ie SS'\ L'étape E840 est détaillée dans la suite à la figure 6.

Un exemple de segmentation (étapes E81, E83, E810, E830) est détaillé à la figure 5 et comporte les sous étapes E90 à E92.

L'étape E90 réalise une simplification du signal à segmenter. Une version simplifiée de ce signal, plus généralement d'une image, sera par exemple obtenue en appliquant à cette dernière un opérateur morphologique d'ouverture/fermeture, suivi d'une reconstruction morphologique. Une description complète de ce procédé peut être trouvée dans l'article de Philippe Salembier intitulé"Morphological multiscale segmentation for image coding" paru dans le magazine "Signal Processing" numéro 38 de 1994. Ce type de traitement élimine les objets plus petits qu'une certaine taille, et restaure les contours des objets qui n'ont pas été supprimés. A l'issue de cette étape on dispose donc d'une version simplifiée du signal à segmenter, qui va être plus facile à traiter par les étapes suivantes.

L'étape suivante E91 est le marquage, ou extraction des marqueurs, du signal simplifié. Cette étape identifie la présence des régions homogènes du signal simplifié, en utilisant un critère qui peut être par exemple un critère d'homogénéité de l'intensité de la région (régions plates). Concrètement, on utilise ici par exemple un algorithme de croissance de régions : le signal est balayé dans sa totalité. On recherche un"germe"c'est-à-dire un point, ici un coefficient, représentatif d'une nouvelle région (le premier coefficient du signal

en sera automatiquement un). La caractéristique de cette région (valeur moyenne) est calculée sur la base de ce point. Puis tous les voisins de ce point sont alors examinés, et pour chacun des voisins s'offrent deux possibilités : - si le point rencontré possède une intensité proche de la valeur moyenne de la région considérée, il est affecté à la région courante, et les statistiques de cette région sont remises à jour en fonction de ce nouvel élément, - si le point rencontré possède une intensité différente (au sens d'un critère de proximité) de la valeur moyenne de la région, il n'est pas affecté à la région (il pourra par la suite être considéré comme un nouveau"germe" représentatif d'une nouvelle région).

Tous les points affectés à la région courante sont alors eux-mêmes soumis à examen, c'est à dire que tous leurs voisins sont examinés (phase de croissance).

Le traitement de la région continue ainsi jusqu'à ce que tous les points voisins des points appartenant à la région aient été examinés. A l'issue de ce traitement, la région est considérée bonne ou mauvaise. Si elle est mauvaise (typiquement, trop petite), c'est l'étape de décision qui traitera les points de la région en question. Si elle est bonne, le traitement est terminé pour elle. Un label ou identifiant unique est alors affecté à tous les points de la région. Le traitement global se poursuit alors par la recherche d'un nouveau germe.

L'étape suivante E92 est la décision. Elle consiste à rattacher à une région tous les points qui n'ont pas de label à l'issue de l'étape de marquage E91 (typiquement, les points qui ont été rattachés à des régions trop petites). Cette étape peut être effectuée simplement en considérant chacun des points qui ne possède pas de label, et en l'affectant à la région voisine dont il est le plus proche (au sens d'un critère de proximité).

La figure 6 représente l'étape E84 de la figure 4a, de sélection des régions mobiles dans la segmentation spatiale SPt-1N en utilisant la

N segmentation temporelle STtN. Il est à noter que l'étape E840 de la figure 4b

pour le niveau de résolution N-i-1 est analogue. Elle représente alors la sélection des régions mobiles dans la segmentation spatiale SPt-i en

N-i-1 utilisant la segmentation temporelle STti-1.

L'étape E84 comporte les sous étapes E70 à E76.

L'étape E70 est une initialisation à laquelle une première région de la segmentation spatiale SPt-1N est considérée.

L'étape suivante E71 est la sélection des points correspondants

N dans la segmentation temporelle STtN.

A l'étape suivante E72, on compte le nombre P de points déterminés à l'étape précédente qui sont en outre situés dans des régions d'avant-plan de la segmentation temporelle STtN.

L'étape suivante E73 est la comparaison du nombre P précédemment déterminé avec le seuil prédéterminé T2.

Si le nombre P est inférieur au seuil T2, alors l'étape E73 est suivie de l'étape E74 à laquelle la région courante est classée comme région fixe. Un label correspondant à une région fixe est alors attribué à la région courante.

Si le nombre P est supérieur au seuil T2, la région est alors mobile ou il s'agit une nouvelle région qui n'était pas présente à l'image précédente. Dans ces deux cas, la région est considérée comme mobile et l'étape E73 est suivie de l'étape E75 à laquelle la région courante est classée comme région mobile. Un label correspondant à une région mobile est alors attribué à la région courante.

Les étapes E74 et E75 sont suivies de l'étape E76 à laquelle une région suivante est considérée, tant qu'il reste au moins une région à prendre en compte dans la segmentation spatiale. L'étape E76 est alors suivie de l'étape E71 précédemment décrite. Lorsque toutes les régions ont été traitées, la segmentation spatio-temporelle SStN est déterminée.

Pour l'étape E840, le résultat de ces sous étapes E70 à E76 est la segmentation spatio-temporelle SStN-i-1.

Selon la figure 7, un circuit d'analyse inclus dans le dispositif 2 (figure 1) comporte trois blocs successifs d'analyse pour décomposer une image IM en des sous-bandes selon trois niveaux de résolution.

De manière générale, la résolution d'un signal est le nombre d'échantillons par unité de longueur utilisés pour représenter ce signal. Dans le cas d'un signal d'image, la résolution d'une sous-bande est liée au nombre d'échantillons par unité de longueur pour représenter cette sous-bande. La résolution dépend notamment du nombre de décimations effectuées.

Le premier bloc d'analyse reçoit le signal numérique d'image et l'applique à deux filtres numériques respectivement passe-bas et passe-haut 601 et 602 qui filtrent le signal d'image selon une première direction, par exemple horizontale dans le cas d'un signal d'image. Après passage par des décimateurs par deux 6100 et 6200, les signaux filtrés résultant sont respectivement appliqués à deux filtres passe-bas 603 et 605, et passe-haut 604 et 606, qui les filtrent selon une seconde direction, par exemple verticale dans le cas d'un signal d'image. Chaque signal filtré résultant passe par un décimateur par deux respectif 6300,6400, 6500 et 6600. Le premier bloc

délivre en sortie quatre sous-bandes LL1, LH1, HL1 et HH1 de résolution RES1 la plus élevée dans la décomposition.

La sous-bande LL1 comporte les composantes, ou coefficients, de basse fréquence, selon les deux directions, du signal d'image. La sous-bande LH1 comporte les composantes de basse fréquence selon une première direction et de haute fréquence selon une seconde direction, du signal d'image.

La sous-bande HL1 comporte les composantes de haute fréquence selon la première direction et les composantes de basse fréquence selon la seconde direction. Enfin, la sous-bande HH1 comporte les composantes de haute fréquence selon les deux directions.

Chaque sous-bande est une image construite à partir de l'image d'origine, qui contient de l'information correspondant à une orientation respectivement verticale, horizontale et diagonale de l'image, dans une bande de fréquence donnée.

La sous-bande LL1 est analysée par un bloc d'analyse analogue au précédent pour fournir quatre sous-bandes LL2, LH2, HL2 et HH2 de niveau de résolution RES2 intermédiaire dans la décomposition. La sous-bande LL2 comporte les composantes de basse fréquence selon les deux directions d'analyse, et est à son tour analysée par le troisième bloc d'analyse analogue aux deux précédents. Le troisième bloc d'analyse fournit des sous-bandes LL3, LH3, HL3 et HH3, de résolution RES3 la plus faible dans la décomposition, résultant du découpage en sous-bandes de la sous-bande LL2.

Chacune des sous-bandes de résolution RES2 et RES3 correspond également à une orientation dans l'image.

La décomposition effectuée par le circuit 60 est telle qu'une sousbande d'une résolution donnée est découpée en quatre sous-bandes de résolution inférieure et a donc quatre fois plus de coefficients que chacune des sous-bandes de résolution inférieure.

Une image numérique IM en sortie de la source d'image 30 est représentée de manière schématique à la figure 8, tandis que la figure 9 représente l'image IMD résultant de la décomposition de l'image IM, en dix sous-bandes selon trois niveaux de résolution, par le circuit 60. L'image IMD comporte autant d'information que l'image d'origine IM, mais l'information est fréquentiellement découpée selon trois niveaux de résolution.

Le niveau de plus basse résolution RES3 comporte les sous-bandes LL3, HL3, LH3 et HH3, c'est-à-dire les sous-bandes de basse fréquence selon les deux directions d'analyse. Le second niveau de résolution RES2 comporte les sous-bandes HL2, LH2 et HH2 et le niveau de plus haute résolution RES1 comporte les sous-bandes de plus haute fréquence HL1, LH1 et HH1.

La sous-bande LL3 de plus basse fréquence est une réduction de l'image d'origine. Les autres sous-bandes sont des sous-bandes de détail.

Bien entendu, le nombre de niveaux de résolution, et par conséquent de sous-bandes, peut être choisi différemment, par exemple 13 sous-bandes et quatre niveaux de résolution, pour un signal bi-dimensionnel tel qu'une image. Le nombre de sous-bandes par niveau de résolution peut

également être différent. Les circuits d'analyse et de synthèse sont adaptés à la dimension du signal traité.

Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits et représentés, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.

Claims

REVENDICATIONS

1. Procédé de segmentation d'une image contenue dans une séquence d'images, caractérisé en ce qu'il comporte les étapes de : - décomposition (E21) de l'image sur une pluralité de niveaux de résolution, - première segmentation (E22, E26) d'au moins une partie d'un niveau donné de résolution, ledit niveau donné de résolution n'étant pas le niveau de résolution la plus élevée dans la décomposition, la première segmentation ayant pour résultat un classement de régions en régions fixes et en régions mobiles, - projection (E25) des régions mobiles sur au moins une partie du niveau de résolution supérieure au niveau donné, - seconde segmentation (E26) des régions mobiles de l'au moins une partie du niveau de résolution supérieure au niveau donné.

2. Procédé selon la revendication 1, caractérisé en ce que la décomposition (E21) est à chaque niveau de résolution une décomposition en une pluralité de sous bandes de fréquence.

3. Procédé selon la revendication 2, caractérisé en ce que la première segmentation (E22, E26) est effectuée sur une sous bande de basse fréquence du niveau donné de résolution.

4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que les étapes de première segmentation, projection et de seconde segmentation sont effectuées de manière itérative depuis le niveau de résolution la plus faible jusqu'au niveau de résolution la plus élevée.

5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que la première segmentation (E22, E26) comporte les étapes de : - calcul (E80, E800) d'une différence entre l'au moins une partie de l'image et au moins une partie d'une image de référence incluse dans la séquence, - segmentation (E81, E810) de la différence, - segmentation (E83, E830) de l'au moins une partie de l'image de référence, - détermination (E84, E840) de la classe de chaque région résultant de la segmentation (E83, E830) de l'au moins une partie de l'image de référence, en fonction du résultat de la segmentation de la différence.

6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que la seconde segmentation (E26) comporte les étapes de : - calcul (E800) d'une différence entre l'au moins une partie de l'image et au moins une partie d'une image de référence incluse dans la séquence, - segmentation (E810) de la différence, - segmentation (E830) de l'au moins une partie de l'image de référence, - détermination (E840) de la classe de chaque région résultant de la segmentation (E830) de l'au moins une partie de l'image de référence, en fonction du résultat de la segmentation de la différence.

7. Procédé selon la revendication 6, caractérisé en ce que, lors de la seconde segmentation, seules sont segmentées les régions correspondant à la projection (E25) des régions mobiles déterminées lors de la première segmentation.

8. Procédé selon l'une quelconque des revendications 5 à 7, caractérisé en ce que la détermination (E84, E840) de la classe de chaque

région résultant de la segmentation de l'au moins une partie de l'image de référence comporte les sous étapes de : - sélection (E71) des coefficients correspondant dans la segmentation de la différence, - comptage (E72) des coefficients sélectionnés qui sont en outre situés dans des régions mobiles, - comparaison du nombre de coefficients comptés avec un seuil prédéterminé et classement de la région en fonction du résultat de la comparaison.

9. Procédé selon l'une quelconque des revendications 5 à 8, caractérisé en ce que l'image de référence est une image précédant l'image courante dans la séquence d'images.

10. Dispositif de segmentation d'une image contenue dans une séquence d'images, caractérisé en ce qu'il comporte (2) : - des moyens de décomposition de l'image sur une pluralité de niveaux de résolution, - des moyens de première segmentation d'au moins une partie d'un niveau donné de résolution, ledit niveau donné de résolution n'étant pas le niveau de résolution la plus élevée dans la décomposition, la première segmentation ayant pour résultat un classement de régions en régions fixes et en régions mobiles, - des moyens de projection des régions mobiles sur au moins une partie du niveau de résolution supérieure au niveau donné, - des moyens de seconde segmentation des régions mobiles de l'au moins une partie du niveau de résolution supérieure au niveau donné.

11. Dispositif selon la revendication 10, caractérisé en ce que les moyens de décomposition mettent en oeuvre à chaque niveau de résolution une décomposition en une pluralité de sous bandes de fréquence.

12. Dispositif selon la revendication 11, caractérisé en ce que les moyens de première segmentation sont adaptés à effectuer la première segmentation sur une sous bande de basse fréquence du niveau donné de résolution.

13. Dispositif selon l'une quelconque des revendications 10 à 12, caractérisé en ce qu'il est adapté à réitérer le fonctionnement des moyens de première segmentation, projection et de seconde segmentation depuis le niveau de résolution la plus faible jusqu'au niveau de résolution la plus élevée.

14. Dispositif selon l'une quelconque des revendications 10 à 13, caractérisé en ce que les moyens de première segmentation comportent : - des moyens de calcul d'une différence entre l'au moins une partie de l'image et au moins une partie d'une image de référence incluse dans la séquence, - des moyens de segmentation de la différence, - des moyens de segmentation de l'au moins une partie de l'image de référence, - des moyens de détermination de la classe de chaque région résultant de la segmentation de l'au moins une partie de l'image de référence, en fonction du résultat de la segmentation de la différence.

15. Dispositif selon l'une quelconque des revendications 10 à 14, caractérisé en ce que les moyens de seconde segmentation comportent : - des moyens de calcul d'une différence entre l'au moins une partie de l'image et au moins une partie d'une image de référence incluse dans la séquence, - des moyens de segmentation de la différence, - des moyens de segmentation de l'au moins une partie de l'image de référence,

- des moyens de détermination de la classe de chaque région résultant de la segmentation de l'au moins une partie de l'image de référence, en fonction du résultat de la segmentation de la différence.

16. Dispositif selon la revendication 15, caractérisé en ce que les moyens de seconde segmentation sont adaptés à ne segmenter que les régions correspondant à la projection des régions mobiles déterminées lors de la première segmentation.

17. Dispositif selon l'une quelconque des revendications 14 à 16, caractérisé en ce que les moyens de détermination de la classe de chaque région résultant de la segmentation de l'au moins une partie de l'image de référence comportent : - des moyens de sélection des coefficients correspondant dans la segmentation de la différence, - des moyens de comptage des coefficients sélectionnés qui sont en outre situés dans des régions mobiles, - des moyens de comparaison du nombre de coefficients comptés avec un seuil prédéterminé et classement de la région en fonction du résultat de la comparaison.

18. Dispositif selon l'une quelconque des revendications 14 à 17, caractérisé en ce qu'il est adapté à considérer une image de référence qui est une image précédant l'image courante dans la séquence d'images.

19. Dispositif de segmentation selon l'une quelconque des revendications 10 à 18, caractérisé en ce que les moyens de décomposition, projection, et première et seconde segmentation sont incorporés dans : - un microprocesseur (100), - une mémoire morte (102) comportant un programme pour traiter les données, et

- une mémoire vive (103) comportant des registres adaptés à enregistrer des variables modifiées au cours de l'exécution dudit programme.

20. Appareil de traitement (10) d'une image numérique, caractérisé en ce qu'il comporte le dispositif selon l'une quelconque des revendications 10 à 19.