FR2843220A1

FR2843220A1 - "procede et systeme de localisation automatique de zones de texte dans une image"

Info

Publication number: FR2843220A1
Application number: FR0209749A
Authority: FR
Inventors: Walid Mahdi; Mohsen Ardebilian; Liming Chen
Original assignee: Ecole Centrale de Lyon
Current assignee: Ecole Centrale de Lyon
Priority date: 2002-07-31
Filing date: 2002-07-31
Publication date: 2004-02-06
Anticipated expiration: 2022-07-31
Also published as: CN1685358A; AU2003269080A1; WO2004013802A3; WO2004013802A2; EP1525553A2; FR2843220B1

Abstract

Le système de localisation automatique de zones de texte dans une image numérique comprend une unité (150, 160) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives mises en évidence par l'unité de localisation (170). L'unité (170) de localisation de zones de texte potentielles comprend avantageusement des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire. L'unité (180) de sélection met en oeuvre un procédé de découpage de l'intensité appliqué à l'image en niveaux de gris issue d'une unité de traitement (160) contenue dans l'unité (150, 160) de conversion en image binaire.

Description

Domaine de l'invention La présente invention a pour objet un procédé et un

système de

localisation automatique de zones de texte dans une image.

Art antérieur Il existe déjà de nombreux articles présentant des travaux relatifs à

la reconnaissance automatique de caractères dans une image numérique.

A titre d'exemple, on peut se référer à l'article de Ohya, J., Shio, A., Akomatsu, S. intitulé "Recognizing characters in scene images" paru dans

IEEE Trans. On PAMI, Vol. 16, No. 2, pp. 214-220, février 1994.

De telles techniques de reconnaissance optique de caractères (OCR) procèdent de la façon suivante: il est d'abord formé une image

binaire par application d'un seuil local sur l'image en niveaux de gris.

Ensuite, des composants connexes sont extraits de l'image binaire pour obtenir des segments de caractères potentiels. Chaque segment de caractère potentiel est alors examiné par une technique de reconnaissance

de caractères.

De tels procédés de reconnaissance optique de caractères créent malheureusement deux problèmes majeurs lorsqu'ils sont appliqués à des images numériques présentant des arrière-plans complexes comme c'est le cas avec des images vidéo. De fait, il s'avère que chaque segment de caractère peut être divisé par erreur en plusieurs composants connexes du fait de divers bruits présents dans les images numériques. De plus, ces procédés sont très coteux en termes de calcul, car ils appliquent les

techniques de l'OCR à chaque segment de caractère candidat.

En vue de limiter le nombre de segments devant faire l'objet d'une vérification de caractère, dans un article de Zhong, Y., Kary, K., Jain, A. K. intitulé "Locating text in complex color images" paru dans "Pattern recognition", Vol. 28, no. 10, 1995, pp. 1523-1535, il a été proposé deux procédés particuliers de détection automatique de zones de texte dans des images en couleurs. Le premier procédé utilise la segmentation de composants connexes. Ce procédé fonctionne difficilement avec des images vidéo, car il présuppose qu'un caractère est un composant connexe qui est séparé des autres objets à l'intérieur de l'image. Le second procédé se fonde sur le principe de la variance spatiale. De fait, la variance spatiale de régions de texte est généralement plus importante que le fond d'une image. Les essais pratiqués ont montré que ceci pouvait contribuer à faciliter la détection de texte mais que cela restait en soi insuffisant. Le document WO 01/69529 A2 décrit un procédé pour localiser du texte dans des images numériques. Selon ce procédé, une image numérique est d'abord mise à l'échelle en images de résolutions différentes, puis un réseau neuronal est utilisé pour déterminer si les pixels dans les images de résolutions différentes font partie de zones de texte ou non. Les résultats obtenus sont alors représentés par des boîtes initiales englobant du texte. Ces boîtes initiales englobant du texte sont ensuite examinées en utilisant des profils de projection horizontale ou

verticale ayant des seuils adaptatifs.

Le document WO 00/63833 décrit un procédé pour segmenter une image en zones de texte et zones sans texte. Ce procédé est basé sur une simple quantification spatiale, basée sur des blocs, de l'histogramme des

niveaux de gris à 15 niveaux d'intensité.

Les différentes techniques connues d'extraction de texte dans des images manquent ainsi de fiabilité ou de finesse ou sont limitées à des

images de caractéristiques particulières.

Objet et description succincte de l'invention

La présente invention a pour but de remédier aux inconvénients des systèmes et procédés de l'art antérieur et de permettre une détection fiable de zones de texte dans une image, de telle sorte que les zones de texte localisées par le procédé et le système selon l'invention puissent ensuite faire l'objet d'un traitement classique de reconnaissance optique

de caractères afin d'obtenir des textes complets.

L'invention vise en particulier à permettre la localisation de zones de texte dans des images vidéo de différents types de programmes (publicité, informations télévisées, films de court ou long métrage,...) et quelle que soit la présentation de ce texte, avec différents types et styles

de caractères et même dans le cas o le fond d'image est complexe.

L'invention vise ainsi à permettre une recherche par le contenu sémantique dans des séquences d'images, en prenant en compte aussi bien des indications sous forme de texte naturel apparaissant dans des images, tels que des noms de rues ou des enseignes de magasins, que

sous forme de texte artificiel introduit, par exemple sous forme de soustitres, dans un post-traitement des images, après la prise de vue.

Ces buts sont atteints grâce à un procédé de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une première étape de conversion de l'image numérique en image binaire, une deuxième étape de localisation de zones de texte potentielles et une troisième étape de sélection de zones de texte effectives. Avantageusement, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir

du texte, dans l'image d'origine.

Au cas o l'image ou les images à traiter ne seraient pas déjà sous forme numérique, une étape préalable peut simplement consister en une

conversion analogique-numérique des images à traiter.

Selon l'invention, la première étape comprend une étape de conversion d'une image numérique en une image définie par des niveaux

de gris.

Avantageusement, la première étape de conversion de l'image numérique en image binaire comprend une étape de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois

celle de l'image d'entrée I, avec 0 < M < 1.

Selon un autre aspect de l'invention, la première étape de conversion de l'image numérique en image binaire comprend une étape de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image

binaire BW en une valeur i correspondant au blanc.

Lorsque l'on effectue à la fois un traitement de multirésolution et une binarisation utilisant un procédé de seuillage, l'ordre des deux

opérations peut être interchangé en fonction des applications envisagées.

La deuxième étape de localisation de zones de texte potentielles comprend l'application de différents masques morphologiques selon un ordre qui peut être adapté aux contextes particuliers de mise en oeuvre de l'invention. De façon plus particulière, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur i à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité

de cette ligne ou de cette colonne présentent tous les deux la valeur 1.

Selon un autre aspect, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce

rectangle ou de ce carré présentent tous les deux la valeur 1.

Avantageusement, après une étape de multirésolution, la deuxième étape de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à 100% de la dimension de l'image résultant de l'étape de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés d'une valeur 0. On peut choisir à titre d'exemple ce seuil à 75% de la largeur de l'image résultant de l'étape de multirésolution lorsque la ligne est la direction privilégiée. Selon un autre aspect de l'invention, la deuxième étape de localisation de zones de texte potentielles peut comprendre en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de l'image binaire qui est entouré de pixels qui présentent

tous la valeur 0.

Selon un mode de réalisation particulier, lors de la deuxième étape de localisation de zones de texte potentielles, on applique les opérations morphologiques en considérant exclusivement les lignes de l'image binaire. Dans ce cas, selon un premier mode de réalisation possible, on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée tG et on applique à cette matrice transposée tG les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les lignes de l'image binaire. Selon un deuxième mode de réalisation possible, on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image binaire grâce à l'utilisation d'opérateurs

morphologiques transposés.

Selon une caractéristique avantageuse, la troisième étape de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un découpage de l'intensité appliqué à l'image en niveaux de

gris.

Dans ce cas, selon un premier mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L] selon la fonction v = f(a) avec a si a < u v= { L si a> u o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Selon un autre mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'espace [u, L], o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec u si a < u v- {

Lsia>u.

La valeur de la constante u peut être déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante: l/ L est initialisée avec la valeur N représentant la couleur blanche, 2/ pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur N, puis on additionne progressivement au nombre NG le nombre de pixels ayant la couleur (NI), puis (N-2) et ainsi de suite jusqu'à ce que le nombre NG soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image, et 3/ on affecte à u la dernière couleur de l'histogramme H prise

en compte dans cette opération.

Avantageusement, le seuil est fixé à 2% du nombre total de pixels

de l'image, mais ce seuil peut être modifié en fonction de l'application.

Selon une caractéristique préférentielle du procédé selon l'invention, après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement P1 et P2 et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(P1, P2) est supérieure à un seuil prédéterminé S et en ignorant toute autre

zone de texte potentielle ne répondant pas à cette condition.

Le procédé selon l'invention comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhig(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhig(i) avec la ligne adjacente qui précède immédiatement Rhig(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhig(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos RhIg(i) et Pos RhIg(i-1) ou respectivement entre les ensembles Pos RhIg(i) et Pos RhIg(i+1) qui concernent des positions pour les pixels des lignes Rhig(i) et Rhig(i-1), ou respectivement des lignes Rhig(i) et Rhig(i+I), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective considérée orientées selon ladite

première direction privilégiée.

Le procédé selon l'invention peut en outre comprendre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhig(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des pixels formant ladite ligne représentative Rhig(i) et on ajoute à la ligne représentative Rhig(i) exclusivement les pixels présentant la même couleur que les pixels de la ligne représentative Rhig(i). La première direction privilégiée peut être une direction

horizontale ou verticale.

De façon particulière, la ligne représentative Rhig(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur

maximale L correspondant au blanc.

Selon l'invention, les blocs fermés produits susceptibles de

contenir du texte présentent avantageusement la forme de parallélogrammes et de préférence la forme de rectangles.

Pour certaines applications, après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les

autres étapes de traitement visant à localiser des zones de texte.

L'invention concerne également un système de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une unité de conversion d'une image numérique d'entrée en image binaire, une unité de localisation de zones de texte potentielles appliquées à l'image binaire et une unité de sélection de zones

de texte effectives mises en évidence par ladite unité de localisation.

Avantageusement, l'unité de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image

numérique en image binaire.

De préférence, l'unité de conversion d'une image numérique d'entrée I en image binaire comprend des moyens de conversion d'une

image numérique I en une image G définie par des niveaux de gris.

Selon une caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de multirésolution comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution. Selon une autre caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage pour transformer une image d'entrée en niveaux de

gris en une image binaire BW.

Avantageusement, le système comprend des moyens de transposition de matrices représentatives d'images ou de masques

morphologiques.

Le procédé et le système selon l'invention peuvent donner lieu à un

très grand nombre d'applications.

L'invention permet par exemple, pour des raisons de sécurité, d'extraire automatiquement et d'enregistrer les mentions portées sur des plaques d'immatriculation de véhicules automobiles à partir d'images filmées dans diverses situations: par exemple, aux entrées de parcs de

stationnement, aux barrières de péage d'autoroutes, dans des stationsservice de distribution de carburant, aux points de contrôle de frontières,...

Un tel système de détection et de reconnaissance de plaques minéralogiques peut comprendre un dispositif de capture d'images numériques, tel qu'une caméra vidéo numérique, un module d'analyse d'image et un système de gestion de base de données pour le stockage et la comparaison de données. Dans ce contexte, le module d'analyse d'image doit d'abord localiser la zone de la plaque d'immatriculation, puis extraire cette zone et fournir les informations relatives à cette zone, le cas il échéant après un post-traitement, à l'entrée d'un système de type OCR pour obtenir, sous la forme d'un texte alphanumérique, les indications du

numéro d'immatriculation.

Une autre application possible du procédé et du système selon l'invention consiste en la détection de logos et la reconnaissance de ceuxci dans des émissions de télévision. Lors de la vente d'espaces publicitaires pour une diffusion en direct d'un événement, par exemple dans le cadre d'un match de football ou dans une émission de télévision, les opérateurs ont besoin de connaître exactement la visibilité et la durée d'exposition d'une marque qui est affichée dans un espace publicitaire. Pour cela, il est nécessaire de mettre en oeuvre un procédé tel que celui de la présente invention, qui est capable d'extraire des zones de texte à partir d'images de l'événement concerné, pour permettre ensuite une comparaison avec des noms de marque ou de désignation préalablement stockés dans une base de données.

Brève description des dessins

D'autres caractéristiques et avantages de l'invention ressortiront de

la description suivante de modes particuliers de réalisation, donnés à titre

d'exemples, en référence aux dessins qui l'accompagnent, sur lesquels: la Figure 1 est un organigramme montrant de façon schématique les étapes principales du procédé de localisation automatique de zones de texte dans une image, conformément à l'invention, - la Figure 2A montre un exemple d'image de départ comportant deux zones de texte sur un fond d'image complexe, - la Figure 2B représente une image binaire de sortie ayant fait l'objet d'un premier traitement de rehaussement des formes de zones de texte potentielles, conformément à l'invention, - la Figure 2C représente une image binaire ayant donné lieu en outre à une élimination de zones de texte potentielles manifestement incorrectes, - la Figure 2D représente une image telle que celle de la Figure 2C ayant en outre donné lieu, conformément à l'invention, à une étape de localisation de zones de texte potentielles par l'application de masques morphologiques, - la Figure 3 montre à une plus grande échelle l'image de la Figure 2D, - les Figures 4 à 8 montrent les histogrammes des différentes régions de texte potentielles de la Figure 3, après application d'une étape de séparation des pixels des zones de texte potentielles par rapport au fond de l'image, - les Figures 9 à 15 représentent divers exemples d'application de masques morphologiques à une image telle que celle de la Figure 2C ou le cas échéant de la Figure 2B, - la Figure 16 montre divers exemples d'images présentant du texte sur un fond complexe et auxquelles peut s'appliquer le procédé selon l'invention, et - la Figure 17 est un schéma- bloc montrant les composants essentiels d'un exemple de système de localisation automatique de zones

de texte dans une image, conformément à l'invention.

Description détaillée de modes particuliers de réalisation

Le système et le procédé selon l'invention peuvent s'appliquer à la détection de texte naturel inclus dans les images dès la prise de vue, comme par exemple des noms d'enseignes de magasins, des noms de rues ou des indications portées sur des panneaux indicateurs ou tableaux d'affichage. C'est le cas par exemple de l'image 143 de la Figure 16 qui

fait apparaître sur une porte un nom de fonction "gardien".

L'invention s'applique également à la détection de texte artificiel

superposé à des images au montage.

C'est le cas par exemple des images 141 et 142, de la Figure 16.

Ces textes constituent par exemple des logos ("ECL" sur l'image 142), des génériques, des sous-titres de commentaires annonçant un sujet, traduisant des paroles ou donnant des précisions (par exemple, le nom et

la fonction de la personne représentée sur l'image 141).

Le texte naturel présente certaines caractéristiques particulières qui peuvent être utilisées pour faciliter la détection - les caractères du texte sont à l'avant-plan, - les caractères du texte présentent un bon contraste par rapport au fond car ils sont prévus pour être lus facilement, - les caractères du texte sont monochromes, - les caractères du texte présentent des dimensions encadrées dans certaines limites (par exemple, une lettre n'est jamais aussi grande que la surface de l'écran et la taille minimale des caractères comprend un

nombre minimum de pixels pour que les caractères soient lisibles).

Le procédé selon l'invention s'applique à des images numériques présentant un fond complexe, pouvant présenter une faible résolution et

être affectées par le bruit, et sans paramètres de contrôle.

Le procédé peut ainsi s'appliquer à des images vidéo, limite les fausses détections et permet de localiser et extraire avec une très grande

fiabilité les zones de texte, même avec des images de faible qualité.

La Figure 1 montre les étapes principales du procédé selon

l'invention.

A partir d'une image numérique couleur, on procède d'abord à l'étape 10 à une transformation de l'image numérique en une image

numérique en niveaux de gris.

Cette dernière image est soumise à l'étape 20 à un rehaussement

des formes des zones de texte.

L'étape 20 peut comprendre une étape 21 de multirésolution et une

étape 22 de binarisation, l'ordre des étapes 21 et 22 étant interchangeable.

Avec l'image binaire issue de l'étape 20, on procède à l'étape 30 à une localisation des zones de texte potentielles pour obtenir une image binaire avec des zones de texte potentielles délimitées par des blocs blancs. A l'étape finale 40, on procède à la sélection des zones de texte effectives, lesquelles peuvent ensuite être soumises dans l'image numérique de départ à un processus classique de reconnaissance optique

de caractères (OCR).

On décrira maintenant de façon plus détaillée différents traitements d'image mis en oeuvre au cours des différentes étapes du procédé selon l'invention. Pour l'étape 10 de transformation de l'image numérique énoncée sur la Figure 1, on considérera que l'image de départ est une image numérique représentée par une ou plusieurs matrices. Si ce n'est pas le cas, par exemple si l'image d'entrée est dans un format compressé tel que par exemple le format 3PEG, on convertit d'abord l'image d'entrée en une image numérique sous une forme matricielle. De la même façon, si l'on dispose d'images d'entrée sous forme analogique, on convertit d'abord par des techniques classiques, ces images analogiques sous une forme numérique. Lorsque l'image numérique d'entrée I est une image couleur, on

convertit celle-ci en une image G en niveaux de gris.

Cette étape 10 de conversion peut être réalisée par des techniques classiques. Elle consiste en une simple conversion d'une image couleur numérique, généralement représentée par trois matrices dans l'espace couleur, par exemple RVB, en une matrice en niveaux de gris. Cette étape est nécessaire et indispensable pour l'étape 22 de binarisation qui sera

décrite plus en détail dans la suite de la description.

L'étape 10 initiale peut également le cas échéant s'accompagner d'une étape supplémentaire de calcul de la matrice transposée de la matrice G. La matrice transposée tG résultant de cette opération peut être

utilisée par exemple pour la détection de régions de texte vertical.

On rappellera que si A est une matrice m x n, la transposée tA de la matrice A est formée en interchangeant les rangées et les colonnes de la matrice A. Ainsi, la ième ligne de la matrice A devient la ième colonne de la matrice transposée tA quel que soit i. La matrice transposée tA est ainsi

une matrice n x m.

Une image numérique I et un opérateur morphologique M peuvent être considérés tous deux comme des matrices, dont les matrices transposées peuvent être déterminées selon la définition donnée plus

haut.

Dans le procédé selon la présente invention, l'étape 30 de localisation de zones de texte potentielles comprend l'application de filtres

morphologiques. Un filtre morphologique est un masque.

Pour la mise en évidence de zones de texte verticales plutôt qu'horizontales, on peut donc procéder d'abord à la transposition d'une image numérique d'entrée, représentée par une matrice I, pour obtenir une nouvelle image représentée par la matrice tI, puis appliquer ensuite un ensemble d'opérateurs morphologiques g Mn F adaptés à l'origine pour

des détections de zones de texte potentielles horizontales.

Selon une alternative, on peut appliquer également un jeu d'opérateurs morphologiques transposés q tM F directement à l'image d'entrée I.

Les deux façons de faire conduisent au même résultat final.

Dans le cas o l'on connaît à l'avance les régions de l'image dans lesquelles du texte est susceptible d'apparaître, par exemple dans le cas de détection de texte artificiel, tel que des sous-titres, il estégalement possible dès l'étape initiale 10, de définir une région préférentielle dans laquelle les zones de texte seront recherchées. Une telle définition de région préférentielle permet d'accélérer le processus de localisation en limitant l'étendue de l'image à laquelle est appliqué l'ensemble des étapes

à 40 du procédé illustré sur la Figure 1.

On décrira maintenant l'étape 20 de rehaussement des formes des

zones de texte.

La localisation de zones probables de présence de texte dans une image fait partie d'un pré-traitement d'image qui est fondamental pour

permettre la détection correcte de texte.

Il existe divers procédés dans le domaine de la reconnaissance de formes qui sont basés sur des techniques de seuillage, de regroupement de pixels ou de détection de contours utilisant des méthodes statistiques, la logique floue ou les réseaux neuronaux. Des procédés récents mais coteux font appel à une représentation des textures et des couleurs par une modélisation en champs de Markov. Toutefois, aucune technique ne

s'avère adaptée à toutes les applications.

Selon la présente invention, on utilise une approche multirésolution et une conversion de l'image en niveaux de gris en une image binaire pour

la mise en évidence des formes de zones de texte probables.

La conversion d'une image d'entrée en niveaux de gris I en une image binaire BW (étape 22) s'opère par seuillage. Ainsi, l'image binaire de sortie BW présente une valeur de 0 (noir) pour tous les pixels de l'image d'entrée I qui ont une valeur inférieure à un seuil prédéterminé et

une valeur de 1 (blanc) pour tous les autres pixels.

La mise en oeuvre d'un procédé de multirésolution (étape 21) pour la localisation de lignes de texte se fonde sur la caractéristique de base selon laquelle une ligne de texte apparaît sous la forme d'une ligne pleine

dans une image de faible résolution.

Le procédé de multirésolution, lorsqu'il est appliqué à une image d'entrée I, conduit à produire une image de sortie J qui a M fois la taille de l'image I. Si M est compris entre O et 1,0, l'image J est plus petite que l'image I. Si M est supérieur à 1,0, l'image J est plus grande que l'image I. On passe d'une image I à une image J de résolution différente par un procédé

d'interpolation spécifique.

On peut choisir pour M la valeur 0,125 à titre d'exemple de valeur inférieure à 1,0. On peut par ailleurs utiliser un procédé d'interpolation par le plus proche voisin. Toutefois, d'autres techniques d'interpolation, telles

qu'une interpolation linéaire, pourraient également être utilisées.

Le paramètre M peut varier et être adapté par exemple à la taille de l'image. Le procédé selon l'invention ne dépend pas de la valeur du

paramètre M, dès lors que celui-ci est compris entre O et 1.

On peut également changer la valeur de seuil utilisée pour convertir une image en niveaux de gris en une image binaire, par exemple en fonction de l'image d'entrée. A titre d'exemple, cette valeur de seuil peut

être de l'ordre de 0,7.

La Figure 2B montre clairement que le procédé de multirésolution permet de filtrer l'image d'entrée en ne conservant que des composants connexes ayant une couleur homogène correspondant à une zone significative. L'étape 30 de localisation de zones de texte potentielles consiste en l'application de masques morphologiques à des images binaires telles que celles des Figures 2B ou 2C en vue d'obtenir la fermeture de blocs susceptibles de contenir du texte, en remplissant les zones vides entre

caractères ou mots.

Si l'image binaire de départ est une image telle que celles des Figures 2B ou 2C, issue de l'étape 20, on applique de façon répétée plusieurs opérations morphologiques binaires jusqu'à ce que l'image obtenue J ne présente plus beaucoup de changements par rapport à l'image précédente et présente une apparence avec des blocs fermés telle

que celle de la Figure 2D.

A titre préférentiel, on peut utiliser trois masques morphologiques différents pour réaliser la fermeture des blocs susceptibles de contenir du texte. Ces différents masques morphologiques peuvent être combinés

entre eux et appliqués selon des ordres différents.

Le premier masque morphologique M1 est représenté sur la Figure 9. En considérant une ligne 50 de pixels 51 à 58, tous les pixels intermédiaires 52 à 57 sont mis à la valeur "1" quelle que soit leur valeur initiale "0" ou "1", lorsque les pixels d'extrémité 51 et 58, à gauche et à droite présentent la valeur 1. La même opération peut être faite sur des colonnes, par exemple en utilisant la matrice transposée de M1, comme indiqué plus haut, ou en utilisant la transposée de la matrice représentant

l'image d'entrée.

Le deuxième masque morphologique M2 est représenté sur la Figure 10. Des rectangles de départ 60 et 70 comprenant des pixels 61 à 66 et 71 à 76 sont transformés en un rectangle 80 comprenant des pixels

81 à 86.

Le rectangle de départ 60, respectivement 70, comprend des pixels 63, 64, respectivement 71, 76, situés à l'extrémité de diagonales, qui présentent tous deux une valeur "1". Dans ce cas, le rectangle 80 de l'image transformée comprend des pixels 81 à 86 qui ont tous la valeur "1". Comme dans le cas du masque morphologique M1, l'opération du masque morphologique M2 peut s'appliquer à des lignes ou à des colonnes

en utilisant des matrices transposées.

Le troisième masque morphologique M3 est représenté sur la Figure 11. Ce masque M3 est très semblable au masque morphologique M2 et vise

à obtenir la fermeture de diagonales.

A partir d'éléments carrés 90A, 90B d'une image de départ, on

obtient un élément carré 100 d'image convertie.

Lorsque deux pixels 92A, 93A respectivement 91B, 94B d'un carré initial 90A respectivement 90B présentent tous deux la valeur "1" quelle que soit la valeur des autres pixels 91A, 94A respectivement 92B, 93B, tous les pixels 111 à 114 du carré 100 de l'image transformée ont la

valeur "1".

A titre d'exemples, on a représenté sur les Figures 12 et 13 deux

exemples d'application du-troisième masque morphologique M3.

Dans le cas de la Figure 12, on procède en deux temps à partir du carré 90C comportant deux pixels en diagonale 92C, 93C présentant la

valeur "1" et les deux autres pixels 91C, 94C qui présentent la valeur "0".

Dans un premier temps, on donne la valeur "1" au pixel 94C situé en bas à droite tandis que les autres pixels 91C à 93C gardent des valeurs inchangées pour former des pixels 91C' à 94C. Dans un deuxième temps, on donne la valeur "1" au pixel 91C' situé en haut à gauche, tandis que les autres pixels 92C' à 94C' sont inchangés, de telle sorte que l'on obtient un

carré 100 dont tous les pixels 111 à 114 présentent la valeur 1.

La Figure 13 représente un cas similaire à celui de la Figure 12 mais o l'on procède de façon symétrique. Dans le carré de départ 90D, on commence par donner la valeur "1" au pixel 90D situé en haut à gauche qui présente au départ la valeur 0, les autres pixels 92D à 94D présentant des valeurs inchangées égales à "1" pour les pixels 92D, 93D et égale à 0 pour le pixel 94D. On donne ensuite la valeur "1" au pixel 94D' situé en bas à droite tandis que les autres pixels 91D' à 93D' présentent une valeur "1" inchangée. On obtient ainsi de même un carré 100 dont tous les pixels 111 à 114 présentent la valeur 1. On peut procéder aux opérations des Figures 12 à 13 en parallèle, ce qui correspond au processus illustré sur la

Figure 11.

Les Figures 2D et 3 montrent toutes les régions sous la forme de blocs fermés 1 à 5 ayant une probabilité de contenir du texte. On peut noter que l'on peut recenser cinq zones candidates 1 à 5 susceptibles de contenir du texte alors que dans l'image initiale de la Figure 2A on ne voit que deux zones contenant effectivement du texte. La détection de régions de texte potentielles sur l'image d'entrée I peut être dérivée par le mappage entre les coordonnées de blocs de texte potentiel dans l'image binaire et celles de l'image d'entrée I. On peut ensuite appliquer aux régions de texte potentielles détectées sur l'image

d'entrée diverses techniques d'OCR.

La sélection des zones de texte effectives correspond à une étape

(Figure 1) et sera explicitée en référence aux Figures 4 à 8.

La présence, dans l'image de la Figure 3, de zones 1 à 3 ayant une probabilité de contenir du texte, mais n'en comportant pas en réalité, s'explique par le fait que l'étape 20 basée sur la multirésolution et la binarisation est un procédé efficace lorsqu'il est appliqué à un document contenant du texte, dans lequel un pixel appartient soit au fond de l'image, soit à un certain objet significatif de l'image. En revanche, dans le cas d'une image numérique comprenant un fond complexe, comme dans le cas d'images vidéo, il existe en général sur une image plusieurs objets distincts de couleurs différentes, ce qui peut induire de fausses détections

par ce procédé de rehaussement.

Dans le cas du procédé selon l'invention, l'étape 21 de multirésolution ne constitue qu'un prétraitement permettant d'effectuer une première localisation de régions candidates susceptibles de contenir du texte. Chaque région candidate 1 à 5 (Figure 3) est ensuite examinée à nouveau au cours d'une étape 40 de sélection afin de déterminer si cette

région candidate contient effectivement du texte ou non.

L'étape 40 de sélection de zones de texte effectives comprend ellemême deux étapes qui comprennent la séparation des pixels du fond de

l'image et le filtrage des régions de texte effective.

L'étape de séparation des pixels de fond de l'image vise à mettre en évidence les pixels des caractères par rapport au fond de l'image. Pour cela, il est appliqué un procédé de découpage de l'intensité à l'image en niveaux de gris obtenue après la première étape de transformation d'image. Cette technique est utile lorsque différentes caractéristiques

- ----d'une image sont contenues dans différents niveaux de gris.

On procède à un mappage de chaque niveau de gris appartenant à l'intervalle [0, L] en un niveau de gris v appartenant à l'intervalle [0, L] selon la transformation définie par l'équation (1) v = f(a) (1) qui peut être définie simplement par l'équation (2) a, a < u v= { (2) sinon L o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Une autre transformation possible pour augmenter la mise en évidence des pixels de caractères par rapport au fond est définie par l'équation (3): u, a < u v= { (3) sinon L De plus, la valeur de u est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G (par exemple en 256 nuances) obtenus de l'image d'entrée I après l'étape 10, de la façon suivante:

1. L est initialisée avec la valeur 256 (couleur blanche).

2. Pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur 256, puis on additionne progressivement au nombre Nb le nombre de pixels ayant la couleur 255, puis 254 et ainsi de suite jusqu'à ce que le nombre Nb soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image. La dernière couleur de l'histogramme H, prise en compte dans

cette opération, est affectée à u.

Avantageusement, le seuil est fixé à 2% du nombre total de pixels,

mais ce seuil peut être modifié en fonction des applications.

Le filtrage des régions de texte effectives s'effectue par une simple analyse de la variation spatiale de toutes les régions candidates susceptibles de contenir du texte, après transformation par l'opération précédemment décrite de séparation des pixels représentant des

caractères par rapport au fond de l'image.

Cette analyse est fondée sur la caractéristique selon laquelle les caractères d'un texte présentent généralement un contraste important par

rapport au fond.

On procède ainsi, pour l'histogramme de chaque région de texte potentielle transformée, à la localisation des deux pics les plus importants

(maximums locaux) afin de repérer leur position Pl et P2.

Les Figures 4 à 8 représentent une telle démarche appliquée aux

régions de texte potentielles 1 à 5 identifiées sur la Figure 3.

Une variation spatiale de chaque région de texte potentielle est caractérisée par l'équation (4): D(Pi, P2) = abs (Pl-P2) (4) Si la distance D(P1, P2) est supérieure à un seuil prédéfini, la région

de texte potentielle est considérée comme une région de texte effective.

Sinon, elle est simplement ignorée.

Comme on peut le voir sur les Figures 4 à 6, les régions 1, 2 et 3 de la Figure 3 ont une faible variation spatiale, dès lors que les distances entre les maximums locaux 101, 102 (Figure 4), 201 à 204 (Figure 5), 301 à 305 (Figure 6) sont faibles. En conséquence, ces régions seront ensuite ignorées. En revanche, les régions 4 et 5 de la Figure 3 ont une forte variation spatiale, dès lors que les distances D(P1, P2) entre les maximums locaux 401, 402 (Figure 7) ou 501, 502 (Figure 8) sont élevées. Ces

régions 4 et 5 seront donc retenues.

La valeur de seuil peut être choisie par exemple comme étant égale à 15% du nombre total dans les niveaux d'échelle de gris. La précision du

procédé est d'autant meilleure que la valeur de seuil est élevée.

Le procédé selon l'invention peut présenter diverses variantes et étapes supplémentaires visant à mieux délimiter les frontières des régions de texte ou à accélérer l'ensemble du processus en éliminant quelques

régions de texte potentielles qui sont de façon évidente négatives.

En particulier, on peut améliorer la localisation des régions de texte, et notamment la prise en compte de l'intégralité d'une zone de texte, en appliquant de façon récursive un processus de séparation des pixels par rapport au fond, à chaque région du texte effective déjà transformée. Ceci conduit à mieux définir les frontières horizontales et verticales de chaque

zone de texte.

Pour mieux délimiter horizontalement les frontières d'une zone de texte, on sélectionne d'abord une ligne horizontale représentative Rhig(i) parmi toutes les lignes d'une zone de texte qui a été identifiée selon le

procédé de base conforme à l'invention.

Le choix de Rhig(i) peut être effectué en sélectionnant la ligne qui est formée par le maximum de pixels alignés horizontalement et appartenant à des caractères. En général, la ligne sélectionnée Rhig(i) sera la ligne formée par le nombre maximum de pixels ayant une valeur égale à L car après la transformation consistant à séparer les pixels du fond, les caractères d'une région de texte sont considérés comme étant

monochromes et contrastent avec le fond de l'image.

On procède ensuite à une comparaison de Rhig(i) avec la ligne adjacente Rhig(i-1) qui précède immédiatement (respectivement avec la ligne adjacente Rhig(i+1) qui suit immédiatement), afin de décider de

fusionner ou non les deux lignes dans un même bloc de texte.

Le critère de fusion est fondé sur la distribution spatiale des valeurs de gris et le principe de pixels monochromes connexes de la façon suivante: Soit Pos Rhlg(i) et Pos Rhlg(i-1) (respectivement Pos RhIg(i+1)) deux ensembles qui décrivent les positions des pixels dans la ligne Rhig(i) et Rhig(i-1) (respectivement Rhig(i+1)) qui ont une valeur de gris égale à L. On considère l'équation (5) suivante: Pos RhIg(i) n Pos RhIg(i-1) É 0, respectivement Pos Rhlg(i) n PoS RhIg(i+1) É 0, Si l'équation (5) est satisfaite, on remplace la ligne Rhig(i) par la ligne Rhig(i-1), (respectivement la ligne Rhig(i+l)), et le processus est appliqué de façon récursive jusqu'à une complète stabilisation des

frontières horizontales inférieure et supérieure de la zone de texte.

Pour la délimitation verticale des frontières des zones de texte, on peut ajouter à la ligne représentative Rhig(i) tous les pixels qui satisfont les conditions suivantes: - on ne prend en considération que les pixels qui sont à gauche ou à droite des pixels formant la ligne représentative Rhig(i), - on n'ajoute à la ligne Rhig(i) que les pixels ayant la même valeur de couleur que les pixels de Rhig(i), - les pixels adjacents à la ligne Rhig(i) doivent respecter le principe

d'élimination sous forme négative qui sera présenté plus loin.

Pour la détection de zones de texte situées en position verticale dans une image numérique, on peut appliquer les principes de délimitation qui viennent d'être exposés, par exemple en effectuant d'abord une délimitation verticale. Mais cela revient à travailler sur la transposition de la matrice qui représente l'image d'entrée, comme cela a été exposé plus

haut en relation avec la transformation d'images numériques.

Le procédé de localisation de régions de texte peut être accéléré lorsque l'on a une certaine connaissance préalable des régions

susceptibles de contenir du texte.

Notamment pour le cas d'images vidéo, on peut appliquer un procédé d'élimination de forme négative, qui consiste à éliminer tous les composants connexes de couleur homogène touchant le bord d'une image, ainsi que toutes les lignes horizontales qui ont une longueur

supérieure à un seuil prédéfini It.

Ce dernier opérateur d'élimination peut être représenté par l'opérateur morphologique M4 illustré sur la Figure 14. La Figure 2C illustre le résultat d'un tel procédé d'élimination de forme négative appliqué à

l'image de la Figure 2B.

Sur la Figure 14, on voit que, pour une ligne 120 comportant des pixels 121 à 128, dont les deux pixels d'extrémité 121 et 128 présentent la valeur "1", tandis que les autres pixels 122 à 127 présentent chacun une valeur "0" ou "1", dans le cas o la longueur de la ligne est supérieure à un seuil It (par exemple égal à 75% de la taille de l'image résultant du processus de multirésolution), alors tous les pixels 121 à 128 sont mis à la

valeur "0" correspondant au noir.

La Figure 15 montre un autre exemple d'amélioration possible consistant en un remplissage de diagonales pour éliminer un pixel isolé dans le fond de l'image. L'opérateur morphologique M5 illustré sur la Figure 15 consiste, dans un carré 130 de neuf pixels, à donner la valeur "0" à un pixel central isolé 135 de valeur "1" entouré de huit pixels 131 à

134, 136 à 139 de valeur "0".

Lorsque l'on applique l'opérateur morphologique M5 de la Figure 15 avant les opérateurs morphologiques M1, M2; M3 des Figures 9 à 13, on augmente la précision des frontières des zones de texte détectées dans l'image en éliminant les pixels isolés qui pourraient être intégrés dans des régions de texte effectives lorsque l'on applique l'opérateur morphologique M1. On a représenté sur la Figure 17 le schéma bloc d'un exemple de système de localisation automatique de zones de texte dans une image

mettant en oeuvre l'invention.

Une image numérique d'entrée I est d'abord appliquée à une unité de traitement 150 qui assure la conversion de l'image numérique d'entrée

I en une image G définie par des niveaux de gris.

L'image G en niveaux de gris est elle-même appliquée à une unité

*de traitement 160.

L'unité de traitement 160 comprend un module d'entrée 163, qui peut assurer par exemple le calcul de la transposée de la matrice de l'image G en niveaux de gris, ou de la transposée de matrices

représentatives de masques morphologiques.

Le module d'entrée 163 peut également, le cas échéant, permettre de définir (a priori) des régions de l'image G qui constituent des sousensembles dans lesquels se fera le processus de recherche de zones de texte. Le module d'entrée 163 coopère avec un module 161 de multirésolution qui comprend des moyens d'interpolation pour transformer

une image qui lui est appliquée en une image de plus faible résolution.

Le module d'entrée 163 coopère également avec un module 162 de seuillage qui transforme une image en niveaux de gris qui lui est

appliquée en une image binaire BW.

Le module d'entrée 163 peut faire appel aux modules 161 et 162 dans un ordre quelconque. Chacun des modules 161, 162 peut également utiliser comme image d'entrée directement une image produite par l'autre module. L'image binaire fournie en sortie de l'unité de traitement 160 est

appliquée à une unité 170 de localisation de zones de texte potentielles.

L'unité 170 de localisation comprend un ou plusieurs filtres morphologiques et permet d'appliquer des masques morphologiques sur l'image binaire issue de l'unité de traitement 160 pour réaliser la fermeture

de blocs susceptibles de contenir du texte.

On obtient ainsi en sortie de l'unité de localisation 170 une image binaire dans laquelle les régions de texte potentielles sont représentées

par des blocs blancs rectangulaires fermés.

L'unité de sélection 180 permet ensuite de sélectionner les zones de texte effectives à partir des zones de texte potentielles mises en

évidence par l'unité de localisation 170.

L'unité de sélection 180 met en oeuvre le procédé précédemment décrit de découpage de l'intensité appliqué à l'image en niveaux de gris issue de l'unité de traitement 160, et applique à toutes les régions candidates susceptibles de contenir du texte mises en évidence par l'unité de localisation 170 un filtrage consistant en une analyse de la variation spatiale des régions candidates, après avoir réalisé une séparation des

pixels du fond de l'image.

Les unités et modules du système de localisation automatique de zones de texte dans une image peuvent être réalisés sous une forme

matérielle ou logicielle.

Une unité de traitement 190 agit sur l'image numérique de départ I, dans les zones localisées et sélectionnées par les unités de localisation 170 et de sélection 180, pour effectuer divers traitements classiques de reconnaissance optique de caractères. Ces traitements classiques ne sont ainsi appliqués que sur des régions ciblées très limitées de l'image d'entrée. 4

Claims

REVENDICATIONS

1. Procédé de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une première étape (10, 20) de conversion de l'image numérique en image binaire, une deuxième étape (30) de localisation de zones de texte potentielles et une troisième étape

(40) de sélection de zones de texte effectives.

2. Procédé selon la revendication 1, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir du texte, dans

l'image d'origine.

3. Procédé selon la revendication 1 ou la revendication 2, caractérisé en ce que la première étape (10, 20) comprend une étape (10) de conversion d'une image numérique en une image définie par des

niveaux de gris.

4. Procédé selon la revendication 3, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (21) de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois celle de l'image

d'entrée I, avec 0 < M < 1.

5. Procédé selon la revendication 3 ou la revendication 4, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (22) de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image binaire BW

en une valeur 1 correspondant au blanc.

6. Procédé selon l'une quelconque des revendications 1 à 5,

caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité

de cette ligne ou de cette colonne présentent tous les deux la valeur 1.

7. Procédé selon l'une quelconque des revendications 1 à 6,

caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce

rectangle ou de ce carré présentent tous les deux la valeur 1.

8. Procédé selon la revendication 4, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à % de la dimension de l'image résultant de l'étape (20) de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés

d'une valeur 0.

9. Procédé selon la revendication 8, caractérisé en ce que ledit

pourcentage définissant ledit seuil est de l'ordre de 75%.

10. Procédé selon l'une quelconque des revendications 6 et 7,

caractérisé en ce que la deuxième étape de localisation (30) de zones de texte potentielles comprend en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de

l'image binaire qui est entouré de pixels qui présentent tous la valeur 0.

11. Procédé selon l'une quelconque des revendications 6 à 8,

caractérisé en ce que lors de la deuxième étape (30) de localisation de zones de texte potentielles, on applique les opérations morphologiques en

considérant exclusivement les lignes de l'image binaire.

12. Procédé selon la revendication 3 et la revendication 11, caractérisé en ce qu'on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée tG et on applique à cette matrice transposée tG les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant

exclusivement les lignes de l'image binaire.

13. Procédé selon la revendication 3 et la revendication 11, caractérisé en ce qu'on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image

binaire grâce à l'utilisation d'opérateurs morphologiques transposés.

14. Procédé selon l'une quelconque des revendications 1 à 13,

caractérisé en ce que la troisième étape (40) de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un

découpage de l'intensité appliquée à l'image en niveaux de gris.

15. Procédé selon la revendication 14, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L], selon la fonction v = f(a) avec a si a < u v= { L si a > u o u est une constante représentant une valeur de niveau de gris compris entre 0 et L.

16. Procédé selon la revendication 14, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L], o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [u,L] o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec u si a < u v= {

L si a > u.

17. Procédé selon la revendication 3 et l'une quelconque des

revendications 15 et 16, caractérisé en ce que la valeur de la constante u

est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante: l/ L est initialisée avec la valeur N représentant la couleur blanche, 2/ pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur N, puis on additionne progressivement au nombre NG le nombre de pixels ayant la couleur (N1), puis (N-2) et ainsi de suite jusqu'à ce que le nombre NG soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image, et 3/ on affecte à u la dernière couleur de l'histogramme H prise

en compte dans cette opération.

18. Procédé selon la revendication 17, caractérisé en ce que ledit

seuil représente 2% du nombre total de pixels de l'image.

19. Procédé selon l'une quelconque des revendications 14 à 18,

caractérisé en ce qu'après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement P1 et P2 et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(P1, P2) est supérieure à un seuil prédéterminé S et en ignorant toute autre zone de texte potentielle ne répondant pas à cette condition.

20. Procédé selon la revendication 19, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhig(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhig(i) avec la ligne adjacente qui précède immédiatement Rhig(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhig(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos RhIg(i) et Pos Rhig(i-1) ou respectivement entre les ensembles Pos Rhig(i) et Pos Rhlg(i+1) qui concernent des positions pour les pixels des lignes Rhig(i) et Rhig(i-1), ou respectivement des lignes Rhig(i) et Rhig(i+1), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective

considérée orientées selon ladite première direction privilégiée.

21. Procédé selon la revendication 19 ou la revendication 20, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhigli) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des pixels formant ladite ligne représentative Rhig(i) et on ajoute à la ligne représentative Rhig(i) exclusivement les pixels présentant la même couleur que les pixels

de la ligne représentative Rhig(i).

22. Procédé selon l'une quelconque des revendications 19 à 21,

caractérisé en ce que la première direction privilégiée est une direction horizontale.

23. Procédé selon l'une quelconque des revendications 19 à 21,

caractérisé en ce que la première direction privilégiée est une direction verticale.

24. Procédé selon l'une quelconque des revendications 19 à 21,

caractérisé en ce que la ligne représentative Rhig(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur

maximale L correspondant au blanc.

25. Procédé selon l'une quelconque des revendications 1 à 24,

caractérisé en ce que les blocs fermés produits susceptibles de contenir du

texte présentent la forme de parallélogrammes.

26. Procédé selon la revendication 25, caractérisé en ce que les blocs fermés produits susceptibles de contenir du texte présentent la

forme de rectangles.

27. Procédé selon la revendication 3, caractérisé en ce que, après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les autres étapes de traitement visant à localiser des

zones de texte.

28. Système de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une unité (150; ) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives

mises en évidence par ladite unité (170) de localisation.

29. Système selon la revendication 28, caractérisé en ce que l'unité (170) de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image

binaire résultant de la conversion de l'image numérique en image binaire.

30. Système selon l'une quelconque des revendications 28 et 29,

caractérisé en ce que l'unité de conversion d'une image numérique d'entrée I en image binaire comprend des moyens (150) de conversion

d'une image numérique I en une image G définie par des niveaux de gris.

31. Système selon l'une quelconque des revendications 28 à 30,

caractérisé en ce que l'unité (150; 160) de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de multirésolution (161) comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution.

32. Système selon l'une quelconque des revendications 28 à 31,

caractérisé en ce que l'unité (150; 160) de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage (162) pour transformer une image d'entrée en niveaux de gris en

une image binaire BW.

33. Système selon l'une quelconque des revendications 28 à 32,

caractérisé en ce qu'il comprend des moyens (163) de transposition de

matrices représentatives d'images ou de masques morphologiques.

34. Procédé selon l'une quelconque des revendications 1 à 27,

caractérisé en ce qu'il est appliqué à la détection et à la reconnaissance de

logos dans des émissions de télévision.