FR2822618A1

FR2822618A1 - Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile

Info

Publication number: FR2822618A1
Application number: FR0103829A
Authority: FR
Inventors: Sebastien Roux; Eric Petit
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2001-03-21
Filing date: 2001-03-21
Publication date: 2002-09-27
Anticipated expiration: 2021-03-21
Also published as: FR2822618B1; EP1374580A1; WO2002076095A1

Abstract

Le dispositif comprend un moyen d'acquisition de l'image courante, des moyens de traitement MT de l'image acquise comportant un étage de codage ETC de l'image acquise comportant une mémoire d'image MM stockant une image reconstruite précédente, un bloc d'estimation de mouvement BEM relié à la sortie des moyens d'acquisition pour élaborer une estimation de mouvement et un bloc de prédiction BEM élaborant une image prédite à partir de l'image reconstruite précédente et de l'information d'estimation de mouvement, et des moyens d'émission de l'image délivrée par les moyens de traitement. L'étage de codage ETC comporte en outre un bloc de détection du visage DVS dans l'image, relié aux moyens d'acquisition et fournissant une indication de localisation de la zone du visage dans ladite image, et la sortie du bloc de détection du visage est reliée à une entrée du bloc d'estimation de mouvement.

Description

Procédé et dispositif de transmission d'une séquence vidéo comportant un visage, en particulier dans un système de visiophonie mobile.

L'invention concerne la transmission d'images, et notamment l'amélioration du codage vidéo et l'assistance au cadrage, en particulier pour un système de visiophonie mobile.

Avec les nouvelles normes de communication mobile, des services incluant de la vidéo peuvent être aujourd'hui envisagés. La visiophonie mobile est l'un d'entre eux. Elle permet à deux utilisateurs équipés chacun d'un terminal mobile, tel qu'un téléphone mobile, de dialoguer à distance, chaque utilisateur pouvant voir le visage de son interlocuteur sur l'écran de son terminal.

Cependant, du fait des contraintes de consommation et des qualités de service, des efforts de réduction de la complexité des codeurs vidéo sont encore nécessaires.

La majeure partie de la complexité des algorithmes se trouve dans le bloc de traitement exploitant la redondance temporelle, appelé "estimation de mouvement". C'est pourquoi, de nombreux algorithmes d'estimation de mouvement rapides existent et permettent une réduction drastique de la complexité. Cependant, ces algorithmes rapides ont un impact sur la qualité de l'image. En effet, ils dégradent uniformément l'image et par conséquent le visage dans le cas d'une application de visiophonie.

Seul un codage orienté objet, du type de celui défini par la norme MPEG-4, permet un bon codage d'objets d'intérêts de la scène. Malheureusement, un codeur MPEG-4, orienté objet, ne respecte pas la contrainte de complexité pour les très bas débits.

En fait, pour l'application visée de visiophonie mobile, la norme MPEG-4 spécifie une configuration particulière pour les très bas débits, à savoir la norme MPEG-4 Profil simple (MPEG-4 simple Profile). Cette norme spécifie un codage basé"bloc", c'est-à-dire un codage travaillant sur un découpage de l'image en blocs de taille 16x16 pixels ou 8x8 pixels. Un tel codage est très similaire à un codage du type H263 défini dans la

norme UIT-T et bien connu de l'homme du métier.

Et, un tel codeur du type H263 compatible avec les applications de visiophonie mobile, ne donne pas aujourd'hui entière satisfaction quant à la qualité de l'image transmise.

L'invention vise à apporter une solution à ce problème.

Les débits disponibles sur les réseaux mobiles resteront encore dans les prochaines années faibles pour des applications incluant de la vidéo. L'invention a donc pour but d'exploiter au mieux le débit disponible afin d'obtenir une qualité satisfaisante de l'image.

La durée moyenne de fonctionnement d'un terminal mobile doit être au minimum de quatre heures pour être exploitable. Cependant, la puissance embarquée est limitée et les futurs algorithmes de codage canal pour les mobiles de troisième génération nécessitent une forte puissance de calcul, ce qui ne laisse plus beaucoup de ressource pour des traitements vidéo. L'invention a par conséquent également pour but de réduire drastiquement la complexité du codeur vidéo pour envisager ce genre de service sur un mobile.

Dans une vidéocommunication, l'image n'a de sens que si elle ne détériore pas l'intelligibilité de la conversation. On considère qu'une fréquence de rafraîchissement des lèvres inférieure à 15 Hz nuit à la conversation. De plus, lors d'une visiophonie, l'oeil est plus sensible au visage de premier plan qu'à l'arrière plan. Un but de l'invention est donc également de garantir une fréquence minimale sur les lèvres afin d'assurer une bonne synchronisation des lèvres et de la voix. Par ailleurs, l'invention a également pour but de garantir une qualité supérieure d'image sur le visage pour le confort visuel.

Par ailleurs, du fait de la faible taille d'un terminal portable, due au problème d'encombrement, et des contraintes de consommation, la taille de l'écran associé n'atteint pas, actuellement, des dimensions suffisantes pour permettre l'affichage à la fois de la propre image de l'utilisateur et de l'image de l'interlocuteur de cet utilisateur. Il s'ensuit des problèmes de fonctionnalité pour un système de visiophonie mobile. En effet, la caméra étant a priori solidaire du terminal que l'utilisateur tient dans sa main, il semble relativement difficile pour lui de bien se positionner par rapport à l'objectif s'il ne possède pas de retour de son

image sur l'écran. L'invention a donc encore pour but de proposer une assistance au cadrage qui soit très simple à mettre en oeuvre et compatible avec la taille d'un écran actuel, typiquement un écran de deux ou trois pouces.

L'invention propose donc dans un mode de mise en oeuvre, un traitement permettant de détecter la présence d'un visage, d'extraire sa position et de l'encadrer dans une fenêtre rectangulaire. Ce système, associé à un codeur vidéo de type H263, permet de maintenir une fréquence suffisante sur le visage de l'utilisateur (dans la fenêtre rectangulaire) nécessaire à la bonne synchronisation des lèvres et de la voix, de définir un profil de qualité spatiale sur l'image conduisant à une meilleure qualité subjective (répartition de la bande passante non uniforme sur l'image).

Le traitement selon l'invention présente par exemple une complexité algorithmique d'environ un million d'opérations élémentaires par image au format QCIF (176x144 pixels), ce qui représente de l'ordre de 10 à 30% de la complexité des traitements d'un codeur vidéo H263.

Cependant, l'adjonction de ce traitement selon l'invention permet de mettre en oeuvre une technique de commande de l'estimateur de mouvement conduisant à une complexité globalement plus faible du codeur.

Par ailleurs, le traitement selon l'invention fournissant l'information de position du visage, il est alors possible de connaître la position relative de l'utilisateur par rapport à la caméra. Aussi, un moyen simple d'assistance au cadrage est donc également mis en oeuvre par le biais d'un icône indiquant le bon ou le mauvais positionnement de l'usager par rapport à la caméra.

Les résultats obtenus montrent une nette amélioration du compromis qualité de la vidéo/complexité/ergonomie, par rapport à un codeur H263 classique utilisant une recherche exhaustive des vecteurs mouvement. Le rapport signal à bruit sur le visage est meilleur d'environ 1 dB pour la luminance et les chrominances de l'image dans le cas du codage à 15 Hz de séquences au format QCIF avec une bande passante d'environ 24 kbits/s, et la complexité du codeur est réduite d'un facteur 10.

Plus généralement, l'invention propose donc un procédé de

transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile, comprenant : - une phase d'acquisition de l'image courante, - une phase de codage de l'image acquise comportant l'élaboration d'une image prédite à partir d'une image reconstruite précédente et d'une estimation du mouvement utilisant l'image acquise, et - une phase d'émission de l'image codée.

Selon une caractéristique générale de l'invention, la phase de codage comporte en outre une étape de détection du visage dans l'image fournissant une indication de localisation de la zone du visage dans ladite image. L'estimation de mouvement utilise alors cette indication de localisation.

Plus précisément, selon un mode de mise en oeuvre de l'invention, l'image étant traitée par macroblocs, on utilise pour chaque macrobloc deux algorithmes différents d'estimation de mouvement selon que le macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.

Ainsi, pour des macroblocs situés à l'extérieur de la zone du visage, on utilise de préférence un algorithme rapide d'estimation de mouvement, et pour un macrobloc situé à l'intérieur de la zone du visage, on utilise un algorithme plus adapté aux objets qui ont un mouvement global avec des déformations locales (par exemple déformation des lèvres plus des clignements d'yeux). A titre d'exemple, on pourra utiliser un algorithme du type gradient descendant.

Généralement, la phase de codage de l'image acquise comporte une étape de quantification. Selon un mode de mise en oeuvre de l'invention, on utilise avantageusement l'indication de localisation du visage pour commander le pas de quantification. Ainsi, à titre indicatif, si l'on n'a plus assez de bits pour coder l'image, on code uniquement le visage. En variante, on peut utiliser un pas de quantification plus fin pour un macrobloc du visage, ce qui assure une qualité minimale sur le visage.

L'invention prévoit également d'utiliser avantageusement l'indication de localisation du visage pour commander la fréquence de rafraîchissement de l'image. On assure ainsi une bonne synchronisation entre le mouvement des lèvres et la voix.

Selon un mode de mise en oeuvre de l'invention, l'étape de détection du visage comporte : - une sous-étape de partition des pixels de l'image en N classes, par exemple quatre classes, chaque classe étant définie par un représentant affecté d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes, (dénommée classe-visage) étant représentative des chrominances d'un visage, - une sous-étape d'élaboration d'un masque binaire de l'image, comportant l'affectation à chaque pixel appartenant à ladite classevisage, d'une première valeur binaire, par exemple la valeur 1, et l'affectation à chaque pixel appartenant à une autre classe, de la deuxième valeur binaire, par exemple la valeur 0, - un traitement de corrélation entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées, par exemple rectangulaires, comportant chacune des points tous affectés d'une même valeur binaire, par exemple la valeur 1. Le traitement de corrélation vise ainsi à sélectionner l'une de ces fenêtres, la fenêtre sélectionnée définissant alors ladite indication de la zone du visage.

Alors qu'il serait possible en théorie d'effectuer la corrélation sur le masque binaire de l'image totale, il est préférable d'effectuer un filtrage et un sous-échantillonnage d'un masque binaire primaire de façon à générer ledit masque binaire, qui est alors de taille plus réduite. Et, le masque binaire primaire est le masque binaire résultant de l'affectation à chaque pixel de l'image appartenant à ladite classe-visage, de la première valeur binaire, et l'affectation à chaque pixel de l'image appartenant à une autre classe, de la deuxième valeur binaire.

Le filtrage et le sous-échantillonnage du masque binaire primaire peut comporter : - une décomposition du masque binaire primaire en blocs de pixels, - une prise de décision sur l'appartenance ou non de chaque bloc à ladite classe-visage en fonction d'un critère de décision prédéterminé,

- l'affectation à chaque bloc d'une valeur de marquage (étiquette) ayant ladite première valeur binaire si le bloc appartient à

ladite classe-visage, et la deuxième valeur binaire dans le cas contraire. L'ensemble des valeurs de marquage forme alors le masque binaire, qui est de taille plus réduite que le masque binaire primaire de l'image totale.

Selon un mode de mise en oeuvre, le critère de décision comporte, pour chaque bloc, la comptabilisation du nombre de pixels du bloc appartenant à ladite classe-visage, et la comparaison de ce nombre à un seuil prédéterminé.

Le traitement de corrélation comporte avantageusement des corrélations successives avec des fenêtres de tailles de plus en plus importantes. La fenêtre sélectionnée est celle présentant le meilleur score de corrélation.

Pour classer un pixel dans une classe, on peut utiliser la technique du plus proche voisin en utilisant les valeurs de chrominances.

Plus précisément, un pixel est classé dans la classe dont il est le plus proche voisin du représentant, vis-à-vis des valeurs de chrominances.

Par ailleurs, l'étape de détection du visage comporte avantageusement une mise à jour, par exemple entre chaque image, des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant les valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe.

Selon un mode de mise en oeuvre de l'invention, on utilise par ailleurs l'information de localisation de la zone du visage pour une assistance au cadrage du visage.

L'invention a également pour objet un dispositif de transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile. Ce dispositif comprend : - un moyen d'acquisition de l'image courante, tel qu'une caméra, - des moyens de traitement de l'image acquise comprenant un étage de codage de l'image acquise comportant une mémoire d'image stockant une image reconstruite précédente, un bloc d'estimation de mouvement relié à la sortie des moyens d'acquisition pour élaborer une estimation de mouvement et un bloc de prédiction élaborant une image prédite à partir de l'image reconstruite précédente et de l'information d'estimation de mouvement, et

- des moyens d'émission de l'image délivrée par les moyens de traitement.

Selon une caractéristique générale de l'invention, l'étage de codage comporte en outre un bloc de détection du visage dans l'image, relié au moyen d'acquisition, et fournissant une indication de localisation de la zone du visage dans ladite image. La sortie du bloc de détection du visage est reliée à une entrée du bloc d'estimation de mouvement.

Selon un mode de réalisation de l'invention, l'image étant traitée par macroblocs, le bloc d'estimation de mouvement utilise pour chaque macrobloc deux algorithmes différents d'estimation de mouvement selon que le macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.

Selon un mode de réalisation de l'invention dans lequel l'étage de codage comporte des moyens de quantification, ceux-ci comportent avantageusement une entrée de commande pour commander le pas de quantification, cette entrée de commande étant reliée à la sortie du bloc de détection de visage.

Selon un mode de réalisation de l'invention, le bloc de détection du visage comporte : - des moyens de partitionnement aptes à partitionner des pixels de l'image en N classes, chaque classe étant définie par un représentant affecté d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes étant représentative des chrominances d'un visage, - des moyens d'élaboration aptes à élaborer un masque binaire de l'image, comportant des moyens d'affectation aptes à affecter à chaque pixel appartenant à ladite classe-visage, une première valeur binaire, et à affecter à chaque pixel appartenant à une autre classe, la deuxième valeur binaire, -des moyens de corrélation aptes à effectuer un traitement de corrélation entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées comportant chacune des points tous affectés d'une même valeur binaire, - des moyens de sélection aptes à sélectionner l'une de ces fenêtres en fonction du résultat du traitement de corrélation, la fenêtre

sélectionnée définissant ladite indication de la zone du visage.

Les moyens d'élaboration du masque binaire comportent avantageusement, outre les moyens d'affectation générant un masque binaire primaire, des moyens de filtrage et de sous-échantillonnage du masque binaire primaire de façon à générer le masque binaire, qui est alors de taille plus réduite que celle du masque binaire primaire.

Selon un mode de réalisation de l'invention, les moyens de filtrage et de sous-échantillonnage comportent : - des moyens de décomposition aptes à décomposer le masque binaire primaire en blocs de pixels, - des moyens de prise de décision aptes à prendre une décision sur l'appartenance ou non de chaque bloc à ladite classe-visage en fonction d'un critère de décision prédéterminé, - des moyens d'affectation supplémentaires aptes à affecter à chaque bloc une valeur de marquage ayant ladite première valeur binaire si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire dans le cas contraire, l'ensemble des valeurs de marquage formant ledit masque binaire.

Les moyens de prise de décision comportent par exemple des moyens de calcul aptes pour chaque bloc à comptabiliser le nombre de pixels du bloc appartenant à ladite classe-visage, et des moyens de comparaison aptes à comparer ce nombre à un seuil prédéterminé.

Les moyens de corrélation sont avantageusement aptes à effectuer les corrélations successives avec des fenêtres de tailles de plus en plus importantes et les moyens de sélection sélectionnent la fenêtre présentant le meilleur score de corrélation.

Selon un mode de réalisation de l'invention, les moyens de partitionnement sont aptes à classer un pixel dans la classe dont il est le plus proche voisin du représentant, vis-à-vis des valeurs de chrominances.

Le bloc de détection du visage comporte avantageusement des moyens de mise à jour aptes à effectuer une mise à jour des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant des valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe.

Selon un mode de réalisation de l'invention, plus particulièrement adapté à l'assistance au cadrage, le dispositif comporte : - des moyens de contrôle aptes à élaborer une information de cadrage relative au cadrage du visage d'un utilisateur dans le champ des moyens d'acquisition, à partir de l'information de localisation délivrée par le bloc de détection de visage, et - un indicateur commandé par les moyens de contrôle pour fournir à l'utilisateur une indication relative au cadrage de son visage dans le champ des moyens d'acquisition.

Plus précisément, le dispositif comporte un écran apte à afficher une image reçue par le dispositif et ledit indicateur est par exemple une jauge, par exemple en forme de bâtonnet, disposée en bordure d'écran et dont le degré de remplissage fournit ladite indication de cadrage.

D'autres avantages et caractéristiques de l'invention apparaîtront à l'examen de la description détaillée de modes de mise en oeuvre et de réalisation nullement limitatifs, et des dessins annexés, sur lesquels : - la figure 1 illustre schématiquement l'architecture générale d'un système de visiophonie mobile selon l'invention ;

la figure 2 illustre plus en détail mais toujours schématiquement les moyens de traitement d'un dispositif de transmission appartenant au système de visiophonie mobile de la figure 1 ; - la figure 3 représente un organigramme illustrant le contrôle d'une estimation de mouvement à partir de l'information de localisation du visage ; -la figure 4 représente des valeurs de chrominances d'un visage ; - la figure 5 représente un partitionnement de l'espace des chrominances en quatre classes ;

- la figure 6 illustre plus en détail mais toujours schématiquement une mise en oeuvre de la détection du visage, conformément à l'invention ; et - la figure 7 illustre plus particulièrement une mise en oeuvre de l'assistance au cadrage, selon l'invention.

Sur la figure 1, la référence DM désigne un dispositif de transmission d'image selon l'invention, par exemple incorporé au sein

d'un téléphone mobile, et la référence DR désigne un dispositif de réception, par exemple également un téléphone mobile. Ces deux dispositifs, qui peuvent être fonctionnellement interchangeables, font partie d'un système de visiophonie mobile SVM. Chaque téléphone mobile est équipé d'une caméra CM et d'un écran ECR. Une image courante IMA de l'utilisateur du dispositif DM, comportant son visage VS, est acquise par une caméra CM puis traitée dans des moyens de traitement MT qui effectuent un codage de source du type de celui effectué dans un codeur H263, mais comportant comme on le verra plus en détail, un prétraitement supplémentaire affectant le traitement effectué dans le bloc d'estimateur de mouvement. Le flux de bits délivré par les moyens de traitement est reçu par des moyens de codage de canal MCC, de structure classique et connue en soi, et les informations sont délivrées sur un canal hertzien via une antenne ANT1 en direction de l'antenne ANT2 du téléphone mobile DR. Celui-ci comporte de façon classique des moyens de décodage de canal MDC, ainsi que des moyens de décodage de source MT2 et l'image IMA est ensuite restituée sur l'écran ECR du téléphone.

Sur la figure 2, on voit que les moyens de traitement MT comportent un étage de codage ETC dont la structure est similaire à celle d'un codeur H263. Plus précisément, comme il est classique et connu par l'homme du métier, l'image IMA est formée d'une image de luminance de 144x176 pixels et de deux images de chrominance de 72x88 pixels. Ces images sont classiquement décomposées en macroblocs, par exemple en macroblocs de 16x16 pixels pour l'image de luminance. Tous les moyens composant les moyens de traitement MT peuvent être réalisés de façon logicielle au sein d'un processeur. D'une façon générale, les moyens de traitement élaborent pour chaque image courante reçue, une image prédite à partir d'une image reconstruite précédente stockée dans une mémoire d'image MM, et d'une estimation de mouvement utilisant l'image acquise et délivrée par un bloc BEM. Ce bloc BEM comporte fonctionnellement un bloc d'estimation de mouvement et un bloc de prédiction. L'image prédite est soustraite à l'image courante de façon à délivrer une erreur de prédiction qui est transposée du domaine spatial au domaine fréquentiel par des moyens de transformation en cosinus discret DCT. Puis, une quantification permettant de réduire l'amplitude des coefficients et le

nombre de bits à transmettre, est effectuée par des moyens de quantification Q de structure classique. Des moyens de codage de longueur variable VLC effectuent alors un codage de longueur variable et une compression de façon à délivrer un flux de bits FLX aux moyens de codage de canal MCC.

Par ailleurs, l'erreur de prédiction quantifiée est recalculée dans des moyens de quantification inverses Q-1, puis dans des moyens de transformée inverse en cosinus discret IDCT. La sortie de ces moyens IDCT est sommée avec l'image prédite pour fournir l'image reconstruite courante qui sera utilisée au cycle suivant.

L'invention prévoit ici d'utiliser un bloc de détection du visage DVS qui va fournir une indication de localisation de la zone du visage dans l'image IMA de façon à contrôler le bloc d'estimation de mouvement BEM.

Plus précisément, si l'on se réfère à la figure 3, on verra plus en détail ci-après que l'indication de la zone du visage est en fait une fenêtre rectangulaire FN comportant un nombre entier de macroblocs MCBi de l'image IMA.

L'indication de localisation du visage fournie par le bloc de détection du visage DVS est en fait la forme de la fenêtre FN ainsi que sa position dans l'image. Il s'ensuit que l'on peut aisément définir pour chaque macrobloc s'il se situe à l'intérieur ou à l'extérieur de la fenêtre FN (étape 30).

Pour un macrobloc MCBi situé dans la fenêtre FN, le bloc d'estimation de mouvement BEM va utiliser un premier algorithme d'estimation de mouvement ALG1 (étape 32).

On peut à cet égard utiliser pour l'algorithme ALG 1 un algorithme adapté aux objets qui ont un mouvement global avec des déformations locales (mouvement des lèvres plus clignement de l'oeil). On pourra par exemple utiliser l'algorithme du type gradient descendant tel que celui décrit dans l'article de L.-K. Liu et E. Feig, "A block-based gradient descent search algorithm for block motion estimation in video coding", IEEE Transaction on Circuits and Systems for Video Technology, Vol 6, NO4, pp 419-422,1996, ou bien l'algorithme GPS décrit dans l'article de Jer Min Jou, intitulé"The Gray Prediction Search Algorithm for Block Motion Estimation", IEEE Transactions On Circuits

And Systems For Video Technology, Vol. 9, NO 6, Septembre 1999, pages 843-848.

Si le macrobloc MCBi se situe à l'extérieur de la fenêtre FN, on utilisera un algorithme ALG2 (étape 31) qui est un algorithme d'estimation rapide de mouvement bien adapté à l'arrière plan. A cet

égard, on peut utiliser les algorithmes"2D-log search","three step search", "four step search", décrits respectivement dans les articles de J. R. Jain et A. K. "Displacement measurement and its application in interframe image coding", IEEE trans. commun., vol.

COM-29, dec. 1981,
T. Koga, K. linuma, A. Hirano, Y. lijima et T. Ishiguro,"Motion compensated interframe coding for video conferencing", Proc. Nat. telecommun. conf., 29 Nov. -3 Dec. 1981, L. -M. Po et W. -C. Ma,"A Ma, "Anovel four step search algorithm for fast block motion estimation", IEEE Transaction on Circuits and Systems for Video Technology, Vol. 6, NO3, pp 313-317,1996.

Le bloc d'estimation de mouvement délivre alors un vecteur de mouvement pour chaque macrobloc, ce qui permet d'élaborer l'image prédite.

On voit également sur la figure 2 que la sortie du bloc de détection de visage DVS est reliée à une entrée de commande des moyens de quantification Q et de quantification inverse Q-1. Ceci permet de régler le pas de quantification, par exemple de façon plus fine sur le visage.

On va maintenant décrire plus en détail en se référant plus particulièrement aux figures 4 à 6, le fonctionnement et la structure interne du bloc de détection de visage.

Il convient de noter ici que la structure et le fonctionnement du bloc de détection de visage qui sont décrits ici dans l'application particulière de transmission d'une image en visiophonie mobile, peuvent être considérés en fait comme totalement indépendants de cette application et être utilisés dans toute autre application.

La détection du visage dans une image part de la considération que la texture de la peau est localisée dans une région elliptique R (figure 4) de l'espace des chrominances, c'est-à-dire les chrominances rouges Cr et les chrominances bleues Cb.

Par ailleurs, l'invention prévoit une partition de l'espace des chrominances selon l'algorithme de Lloyd-Max (bien connu de l'homme du métier et décrit notamment dans l'ouvrage de N. Moreau,"Technique de compression des signaux", Masson, 1995). Cette partition consiste à diviser l'espace des chrominances en N classes de façon à mettre en avant une région de géométrie voisine de celle de l'ellipse R. Le nombre de classes N doit être suffisamment grand pour que la classe associée à la peau soit une bonne approximation de cette région R. Il a été observé que la valeur 4 pour le nombre N était un nombre acceptable. Par ailleurs, selon la norme utilisée, on obtient des régions de géométrie différente.

Ainsi, comme illustré sur la figure 5, pour une norme euclidienne, la région du visage CL1 est un triangle qui fournit une bonne approximation de l'ellipse R.

La figure 5 illustre le partitionnement de l'espace en quatre classes CLl-CL4, la classe CL1 étant la classe-visage.

Chaque classe est représentée par un représentant RPl-RP4 ayant une valeur de chrominance bleue et une valeur de chrominance rouge prédéterminées.

Un pixel sera considéré comme appartenant à une classe CLi s'il est le plus proche voisin du représentant RPi de cette classe. Le plus

proche voisin s'apprécie ici en utilisant la norme euclidienne telle que définie par la formule (I) ci-dessous :

dist (M, A) = (Cr-Cr + (Cb-Cb (I)

Dans cette formule, M désigne un pixel courant, A désigne le représentant d'une classe, CrM et CbM désignent respectivement les valeurs de chrominance rouges et bleues du pixel M, tandis que CrA et CbA désignent respectivement les valeurs des chrominances rouges et bleues du représentant.

On va maintenant décrire en se référant plus particulièrement à la figure 6, l'algorithme de détection de la zone du visage.

Tout d'abord, un bloc de traitement BT1 va déterminer un masque binaire dit"primaire"MBP. Pour cela, le bloc de traitement BT1 effectue un traitement au niveau pixel en utilisant pour chaque pixel sa

valeur de chrominance rouge Cr et sa valeur de chrominance bleue Cb.

Tout d'abord, des moyens de partitionnement MPI classent le pixel courant dans l'une des N classes en utilisant la norme quadratique défnie par la formule (I) ci-dessus.

Puis, des moyens d'élaboration MEB 1 attribuent une première valeur binaire, par exemple la valeur 1, à chaque pixel appartenant à la classe-visage CL1, et une deuxième valeur binaire, par exemple la valeur 0, à chaque pixel appartenant à une autre classe.

Puis, le masque binaire MBP est filtré et sous-échantillonné de façon à fournir un masque binaire MB de taille plus réduite que celle du masque binaire MBP.

Plus précisément, les moyens de filtrage FLT comportent des moyens de décomposition qui vont décomposer chaque image de chrominance de taille 88x72 pixels en blocs de 4x4 pixels.

Puis, des moyens de prise de décision vont prendre une décision sur l'appartenance ou non de chaque bloc à la classe-visage CL1 en fonction d'un critère de décision prédéterminé.

A titre d'exemple, un bloc sera considéré comme appartenant à la classe-visage CL1 si le nombre de pixels des blocs affectés de la valeur 1 est supérieur à un seuil prédéterminé, par exemple 50%.

Et, des moyens d'affectation supplémentaires vont affecter à chaque bloc une valeur de marquage ayant la première valeur binaire (1 dans l'exemple décrit) si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire (0 dans l'exemple décrit) dans le cas contraire. L'ensemble des valeurs de marquage forme alors le masque binaire, qui est un masque de 18x22.

Puis, des moyens de corrélation MCOR effectuent une corrélation entre le masque binaire de 18x22 points avec des fenêtres de forme et de taille différentes, stockées dans une mémoire de fenêtre MMF.

Chaque fenêtre est ici une fenêtre rectangulaire dont les points sont affectés de la valeur 1 (dans l'exemple décrit). Et, c'est la fenêtre qui présente le meilleur score de corrélation qui sera sélectionnée comme étant la fenêtre FN définissant la zone du visage dans l'image.

A titre d'exemple, le traitement de corrélation peut s'effectuer de la façon suivante.

On effectue un premier traitement de corrélation avec la plus petite des fenêtres disponibles. On examine le score de corrélation. Si ce score est supérieur à 70%, on considère qu'un visage se situe dans la fenêtre. Dans le cas contraire, on estime qu'il n'y a pas de visage.

Dans le cas où un visage a été détecté avec la première fenêtre, on passe à la fenêtre de taille supérieure. Si le score de corrélation est toujours supérieur ou égal à 70%, on continue le processus avec une fenêtre de taille encore plus importante. Si par contre le score est supérieur de 70%, on considère que c'est la fenêtre précédente qui est la fenêtre sélectionnée FN.

Bien entendu, la valeur de 70% n'est ici donnée qu'à titre indicatif.

Par ailleurs, des moyens MCL vont mettre à jour les valeurs de chrominances des représentants pour le traitement des pixels de l'image suivante.

Pour cela, les moyens MCL vont par exemple effectuer pour chaque classe la moyenne des valeurs de chrominances bleues et rouges (respectivement) de tous les pixels ayant été classés dans cette classe. Il s'ensuit pour chaque classe de nouvelles valeurs VRj pour les représentants.

Puis, les moyens MCL déterminent si l'un de ces représentants se situe dans un rectangle circonscrit à l'ellipse R. Si tel est le cas, ce représentant est le nouveau représentant de la classe-visage.

Dans le cas contraire, les valeurs VRj des représentants sont réinitialisées avec les valeurs initiales de chrominances des représentants VRIj.

On se réfère maintenant plus particulièrement à la figure 7 pour décrire une façon extrêmement simple de fournir une assistance au cadrage.

On a vu précédemment que le bloc de détection de visage DVS fournissait une fenêtre FN dont la position et la taille étaient prédéterminées et définissaient la zone du visage.

L'invention va utiliser ici l'information de position et de forme de la fenêtre FN pour fournir l'assistance au cadrage.

On suppose sur la figure 7 que deux interlocuteurs A et B

dialoguent via leur téléphone mobile. L'interlocuteur A est filmé par la caméra de son téléphone mobile et son image apparaît sur l'écran ECR du téléphone mobile de l'utilisateur B.

Réciproquement, l'utilisateur B est filmé par la caméra CM de son téléphone mobile et son image apparaît sur l'écran ECR du téléphone mobile de l'utilisateur A.

On voit sur la figure 7 que l'utilisateur A ne se cadre pas très bien dans le champ de la caméra CM, ce qui fait que son image apparaît décentrée sur la gauche dans l'écran ECR du téléphone de l'utilisateur B.

Par contre, on voit que l'utilisateur B est à peu près correctement cadré dans le champ de la caméra CM, ce qui a pour conséquence que son image apparaisse relativement bien centrée sur l'écran ECR du téléphone de l'utilisateur A.

L'invention prévoit alors de disposer en bordure d'écran une jauge JG dont le degré de remplissage va définir la qualité du cadrage de l'interlocuteur. Plus précisément, l'utilisateur B qui est relativement bien centré dans le champ de la caméra CM verra sur son écran sa jauge JG quasiment complètement remplie.

Par contre, l'utilisateur A qui est moins bien centré verra sa jauge JG que partiellement remplie. Il convient de noter ici que la notion de remplissage peut se traduire par une zone colorée de la jauge JG.

Claims

REVENDICATIONS

1. Procédé de transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile, comprenant une phase d'acquisition de l'image courante, une phase de codage de l'image acquise comportant l'élaboration d'une image prédite à partir d'une image reconstruite précédente et d'une estimation de mouvement utilisant l'image acquise, et une phase d'émission de l'image codée, caractérisé par le fait que la phase de codage comporte en outre une étape de détection du visage (VS) dans l'image courante fournissant une indication de localisation (FN) de la zone du visage dans ladite image courante, et par le fait que l'estimation de mouvement utilise cette indication de localisation.

2. Procédé selon la revendication 1, caractérisé par le fait que l'image étant traitée par macrobloc, on utilise pour chaque macrobloc deux algorithmes différents (ALG1, ALG2) d'estimation de mouvement selon que le macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.

3. Procédé selon la revendication 2, caractérisé par le fait que pour un macrobloc situé à l'intérieur de la zone, on utilise un algorithme du type gradient descendant.

4. Procédé selon l'une des revendications précédentes, caractérisé par le fait que la phase de codage de l'image acquise comporte une étape de quantification (Q), et par le fait qu'on utilise l'indication de localisation du visage pour commander le pas de quantification.

5. Procédé selon l'une des revendications précédentes, caractérisé par le fait qu'on utilise l'indication de localisation du visage pour commander la fréquence de rafraîchissement de l'image.

6. Procédé selon l'une des revendications précédentes, caractérisé par le fait que l'étape de détection du visage comporte une sous-étape de partition des pixels de l'image en N classes (CLi), chaque classe étant définie par un représentant affectée d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes étant représentative des chrominances d'un visage, une sous-étape d'élaboration d'un masque binaire de l'image

(MB), comportant l'affectation à chaque pixel appartenant à ladite classe- visage, d'une première valeur binaire, et l'affectation à chaque pixel appartenant à une autre classe, de la deuxième valeur binaire, un traitement de corrélation (MCOR) entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées comportant chacune des points tous affectés d'une même valeur binaire, de façon à sélectionner l'une de ces fenêtres, la fenêtre sélectionnée définissant ladite indication de la zone du visage.

7. Procédé selon la revendication 6, caractérisé par le fait que la sous-étape d'élaboration du masque binaire comporte l'affectation à chaque pixel appartenant à ladite classe-visage, d'une première valeur binaire, et l'affectation à chaque pixel appartenant à une autre classe de la deuxième valeur binaire, de façon à générer un masque binaire primaire (MBP), un filtrage et un sous-échantillonnage du masque binaire primaire de façon à générer ledit masque binaire (MB) de taille plus réduite.

8. Procédé selon la revendication 7, caractérisé par le fait que le filtrage et le sous-échantillonnage du masque binaire primaire comporte une décomposition du masque binaire primaire en blocs de pixels, une prise de décision sur l'appartenance ou non de chaque bloc à ladite classe-visage en fonction d'un critère de décision prédéterminé, l'affectation à chaque bloc d'une valeur de marquage ayant ladite première valeur binaire si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire dans le cas contraire, l'ensemble des valeurs de marquage formant ledit masque binaire.

9. Procédé selon la revendication 8, caractérisé par le fait que ledit critère de décision comporte pour chaque bloc, la comptabilisation du nombre de pixels du bloc appartenant à ladite classe-visage, et la comparaison de ce nombre à un seuil prédéterminé.

10. Procédé selon l'une des revendications 6 à 9, caractérisé par le fait que le traitement de corrélation comporte des corrélations successives avec des fenêtres des tailles de plus en plus importantes, et par le fait que la fenêtre sélectionnée est celle présentant le meilleur score de

corrélation.

11. Procédé selon l'une des revendications 6 à 10, caractérisé par le fait qu'un pixel est classé dans la classe dont il est le plus proche voisin du représentant, vis à vis des valeurs de chrominances.

12. Procédé selon l'une des revendications 6 à 11, caractérisé par le fait que l'étape de détection du visage comporte une mise à jour (MCL) des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant les valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe.

13. Procédé selon l'une des revendications précédentes, caractérisé par le fait qu'on utilise l'information de localisation de la zone du visage pour une assistance au cadrage du visage.

14. Dispositif de transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile, comprenant un moyen d'acquisition de l'image courante (CM), des moyens de traitement (MT) de l'image acquise comportant un étage de codage de l'image acquise comportant une mémoire d'image (MM) stockant une image reconstruite précédente, un bloc d'estimation de mouvement relié à la sortie des moyens d'acquisition pour élaborer une estimation de mouvement et un bloc de prédiction élaborant une image prédite à partir de l'image reconstruite précédente et de l'information d'estimation de mouvement, et des moyens d'émission de l'image délivrée par les moyens de traitement, caractérisé par le fait que l'étage de codage comporte en outre un bloc de détection du visage (DVS) dans l'image courante, relié aux moyens d'acquisition et fournissant une indication de localisation de la zone du visage dans ladite image courante, et par le fait que la sortie du bloc de détection du visage est reliée à une entrée du bloc d'estimation de mouvement.

15. Dispositif selon la revendication 14, caractérisé par le fait que l'image étant traitée par macrobloc, le bloc d'estimation de mouvement utilise pour chaque macrobloc deux algorithmes différents d'estimation de mouvement (ALG1, ALG2) selon que la macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.

16. Dispositif selon la revendication 15, caractérisé par le fait que pour un macrobloc situé à l'intérieur de la zone du visage, le bloc d'estimation de mouvement utilise un algorithme du type gradient descendant.

17. Dispositif selon l'une des revendications 14 à 16, caractérisé par le fait que l'étage de codage comporte des moyens de quantification, et par le fait que les moyens de quantification (Q) comportent une entrée de commande pour commander le pas de quantification, cette entrée de commande étant reliée à la sortie du bloc de détection du visage.

18. Dispositif selon l'une des revendications 14 à 17, caractérisé par le fait que le bloc de détection du visage comporte des moyens de partitionnement (MPl) aptes à partitionner des pixels de l'image en N classes, chaque classe étant définie par un représentant affectée d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes étant représentative des chrominances d'un visage, des moyens d'élaboration (MEB1) aptes à élaborer un masque binaire de l'image, comportant des moyens d'affectation aptes à affecter à chaque pixel appartenant à ladite classe-visage, une première valeur binaire, et à affecter à chaque pixel appartenant à une autre classe, la deuxième valeur binaire, des moyens de corrélation (MCOR) aptes à effectuer un traitement de corrélation entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées comportant chacune des points tous affectés d'une même valeur binaire, des moyens de sélection aptes à sélectionner l'une de ces fenêtres en fonction du résultat du traitement de corrélation, la fenêtre sélectionnée définissant ladite indication de la zone du visage.

19. Dispositif selon la revendication 18, caractérisé par le fait que les moyens d'élaboration du masque binaire comportent, outre les moyens d'affectation générant un masque binaire primaire, des moyens de filtrage et de sous-échantillonnage (FLT) du masque binaire primaire de façon à générer ledit masque binaire de taille plus réduite que celle du masque binaire primaire.

20. Dispositif selon la revendication 19, caractérisé par le fait

que les moyens de filtrage et de sous-échantillonnage (FLT) comportent des moyens de décomposition aptes à décomposer le masque binaire primaire en blocs de pixels, des moyens de prise de décision aptes à prendre une décision sur l'appartenance ou non de chaque bloc à ladite classe-visage en fonction d'un critère de décision prédéterminé, des moyens d'affectation supplémentaires aptes à affecter à chaque bloc une valeur de marquage ayant ladite première valeur binaire si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire dans le cas contraire, l'ensemble des valeurs de marquage formant ledit masque binaire.

21. Dispositif selon la revendication 20, caractérisé par le fait que les moyens de prise de décision comportent des moyens de calcul aptes pour chaque bloc, à comptabiliser le nombre de pixels du bloc appartenant à ladite classe-visage, et des moyens de comparaison aptes à comparer ce nombre à un seuil prédéterminé.

22. Dispositif selon l'une des revendications 18 à 21, caractérisé par le fait que les moyens de corrélation (MCOR) sont aptes à effectuer des corrélations successives avec des fenêtres des tailles de plus en plus importantes, et par le fait que les moyens de sélection sélectionnent la fenêtre présentant le meilleur score de corrélation.

23. Dispositif selon l'une des revendications 18 à 22, caractérisé par le fait que les moyens de partitionnement sont aptes à classer un pixel dans la classe dont il est le plus proche voisin du représentant, vis à vis des valeurs de chrominances.

24. Dispositif selon l'une des revendications 18 à 23, caractérisé par le fait que le bloc de détection du visage comporte des moyens de mise à jour (MCL) aptes effectuer une mise à jour des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant les valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe.

25. Dispositif selon l'une des revendications 18 à 24, caractérisé par le fait que N est égal à 4.

26. Dispositif selon l'une des revendications 14 à 25, caractérisé

par le fait qu'il comporte des moyens de contrôle aptes à élaborer une information de cadrage relative au cadrage du visage d'un utilisateur dans le champ des moyens d'acquisition, à partir de l'information de localisation délivrée par le bloc de détection de visage, et un indicateur (JG) commandé par les moyens de contrôle pour fournir à l'utilisateur une indication relative au cadrage de son visage dans le champ des moyens d'acquisition.

27. Dispositif selon la revendication 26, caractérisé par le fait qu'il comprend un écran (ECR) apte à afficher une image reçue par le dispositif, et par le fait que ledit indicateur est une jauge, par exemple en forme de bâtonnet, disposée en bordure d'écran et dont le degré de remplissage fournit ladite indication de cadrage.

28. Dispositif selon l'une des revendications 14 à 27, caractérisé par le fait que le dispositif est incorporé au sein d'un téléphone mobile.