FR2843220A1 - "procede et systeme de localisation automatique de zones de texte dans une image" - Google Patents

"procede et systeme de localisation automatique de zones de texte dans une image" Download PDF

Info

Publication number
FR2843220A1
FR2843220A1 FR0209749A FR0209749A FR2843220A1 FR 2843220 A1 FR2843220 A1 FR 2843220A1 FR 0209749 A FR0209749 A FR 0209749A FR 0209749 A FR0209749 A FR 0209749A FR 2843220 A1 FR2843220 A1 FR 2843220A1
Authority
FR
France
Prior art keywords
image
pixels
text
value
rhig
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0209749A
Other languages
English (en)
Other versions
FR2843220B1 (fr
Inventor
Walid Mahdi
Mohsen Ardebilian
Liming Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ecole Centrale de Lyon
Original Assignee
Ecole Centrale de Lyon
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ecole Centrale de Lyon filed Critical Ecole Centrale de Lyon
Priority to FR0209749A priority Critical patent/FR2843220B1/fr
Priority to AU2003269080A priority patent/AU2003269080A1/en
Priority to PCT/FR2003/002406 priority patent/WO2004013802A2/fr
Priority to EP03750862A priority patent/EP1525553A2/fr
Priority to CNA038235072A priority patent/CN1685358A/zh
Publication of FR2843220A1 publication Critical patent/FR2843220A1/fr
Application granted granted Critical
Publication of FR2843220B1 publication Critical patent/FR2843220B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

Le système de localisation automatique de zones de texte dans une image numérique comprend une unité (150, 160) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives mises en évidence par l'unité de localisation (170). L'unité (170) de localisation de zones de texte potentielles comprend avantageusement des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image numérique en image binaire. L'unité (180) de sélection met en oeuvre un procédé de découpage de l'intensité appliqué à l'image en niveaux de gris issue d'une unité de traitement (160) contenue dans l'unité (150, 160) de conversion en image binaire.

Description

Domaine de l'invention La présente invention a pour objet un procédé et un
système de
localisation automatique de zones de texte dans une image.
Art antérieur Il existe déjà de nombreux articles présentant des travaux relatifs à
la reconnaissance automatique de caractères dans une image numérique.
A titre d'exemple, on peut se référer à l'article de Ohya, J., Shio, A., Akomatsu, S. intitulé "Recognizing characters in scene images" paru dans
IEEE Trans. On PAMI, Vol. 16, No. 2, pp. 214-220, février 1994.
De telles techniques de reconnaissance optique de caractères (OCR) procèdent de la façon suivante: il est d'abord formé une image
binaire par application d'un seuil local sur l'image en niveaux de gris.
Ensuite, des composants connexes sont extraits de l'image binaire pour obtenir des segments de caractères potentiels. Chaque segment de caractère potentiel est alors examiné par une technique de reconnaissance
de caractères.
De tels procédés de reconnaissance optique de caractères créent malheureusement deux problèmes majeurs lorsqu'ils sont appliqués à des images numériques présentant des arrière-plans complexes comme c'est le cas avec des images vidéo. De fait, il s'avère que chaque segment de caractère peut être divisé par erreur en plusieurs composants connexes du fait de divers bruits présents dans les images numériques. De plus, ces procédés sont très coteux en termes de calcul, car ils appliquent les
techniques de l'OCR à chaque segment de caractère candidat.
En vue de limiter le nombre de segments devant faire l'objet d'une vérification de caractère, dans un article de Zhong, Y., Kary, K., Jain, A. K. intitulé "Locating text in complex color images" paru dans "Pattern recognition", Vol. 28, no. 10, 1995, pp. 1523-1535, il a été proposé deux procédés particuliers de détection automatique de zones de texte dans des images en couleurs. Le premier procédé utilise la segmentation de composants connexes. Ce procédé fonctionne difficilement avec des images vidéo, car il présuppose qu'un caractère est un composant connexe qui est séparé des autres objets à l'intérieur de l'image. Le second procédé se fonde sur le principe de la variance spatiale. De fait, la variance spatiale de régions de texte est généralement plus importante que le fond d'une image. Les essais pratiqués ont montré que ceci pouvait contribuer à faciliter la détection de texte mais que cela restait en soi insuffisant. Le document WO 01/69529 A2 décrit un procédé pour localiser du texte dans des images numériques. Selon ce procédé, une image numérique est d'abord mise à l'échelle en images de résolutions différentes, puis un réseau neuronal est utilisé pour déterminer si les pixels dans les images de résolutions différentes font partie de zones de texte ou non. Les résultats obtenus sont alors représentés par des boîtes initiales englobant du texte. Ces boîtes initiales englobant du texte sont ensuite examinées en utilisant des profils de projection horizontale ou
verticale ayant des seuils adaptatifs.
Le document WO 00/63833 décrit un procédé pour segmenter une image en zones de texte et zones sans texte. Ce procédé est basé sur une simple quantification spatiale, basée sur des blocs, de l'histogramme des
niveaux de gris à 15 niveaux d'intensité.
Les différentes techniques connues d'extraction de texte dans des images manquent ainsi de fiabilité ou de finesse ou sont limitées à des
images de caractéristiques particulières.
Objet et description succincte de l'invention
La présente invention a pour but de remédier aux inconvénients des systèmes et procédés de l'art antérieur et de permettre une détection fiable de zones de texte dans une image, de telle sorte que les zones de texte localisées par le procédé et le système selon l'invention puissent ensuite faire l'objet d'un traitement classique de reconnaissance optique
de caractères afin d'obtenir des textes complets.
L'invention vise en particulier à permettre la localisation de zones de texte dans des images vidéo de différents types de programmes (publicité, informations télévisées, films de court ou long métrage,...) et quelle que soit la présentation de ce texte, avec différents types et styles
de caractères et même dans le cas o le fond d'image est complexe.
L'invention vise ainsi à permettre une recherche par le contenu sémantique dans des séquences d'images, en prenant en compte aussi bien des indications sous forme de texte naturel apparaissant dans des images, tels que des noms de rues ou des enseignes de magasins, que
sous forme de texte artificiel introduit, par exemple sous forme de soustitres, dans un post-traitement des images, après la prise de vue.
Ces buts sont atteints grâce à un procédé de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une première étape de conversion de l'image numérique en image binaire, une deuxième étape de localisation de zones de texte potentielles et une troisième étape de sélection de zones de texte effectives. Avantageusement, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir
du texte, dans l'image d'origine.
Au cas o l'image ou les images à traiter ne seraient pas déjà sous forme numérique, une étape préalable peut simplement consister en une
conversion analogique-numérique des images à traiter.
Selon l'invention, la première étape comprend une étape de conversion d'une image numérique en une image définie par des niveaux
de gris.
Avantageusement, la première étape de conversion de l'image numérique en image binaire comprend une étape de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois
celle de l'image d'entrée I, avec 0 < M < 1.
Selon un autre aspect de l'invention, la première étape de conversion de l'image numérique en image binaire comprend une étape de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image
binaire BW en une valeur i correspondant au blanc.
Lorsque l'on effectue à la fois un traitement de multirésolution et une binarisation utilisant un procédé de seuillage, l'ordre des deux
opérations peut être interchangé en fonction des applications envisagées.
La deuxième étape de localisation de zones de texte potentielles comprend l'application de différents masques morphologiques selon un ordre qui peut être adapté aux contextes particuliers de mise en oeuvre de l'invention. De façon plus particulière, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur i à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité
de cette ligne ou de cette colonne présentent tous les deux la valeur 1.
Selon un autre aspect, la deuxième étape de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce
rectangle ou de ce carré présentent tous les deux la valeur 1.
Avantageusement, après une étape de multirésolution, la deuxième étape de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à 100% de la dimension de l'image résultant de l'étape de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés d'une valeur 0. On peut choisir à titre d'exemple ce seuil à 75% de la largeur de l'image résultant de l'étape de multirésolution lorsque la ligne est la direction privilégiée. Selon un autre aspect de l'invention, la deuxième étape de localisation de zones de texte potentielles peut comprendre en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de l'image binaire qui est entouré de pixels qui présentent
tous la valeur 0.
Selon un mode de réalisation particulier, lors de la deuxième étape de localisation de zones de texte potentielles, on applique les opérations morphologiques en considérant exclusivement les lignes de l'image binaire. Dans ce cas, selon un premier mode de réalisation possible, on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée tG et on applique à cette matrice transposée tG les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les lignes de l'image binaire. Selon un deuxième mode de réalisation possible, on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image binaire grâce à l'utilisation d'opérateurs
morphologiques transposés.
Selon une caractéristique avantageuse, la troisième étape de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un découpage de l'intensité appliqué à l'image en niveaux de
gris.
Dans ce cas, selon un premier mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L] selon la fonction v = f(a) avec a si a < u v= { L si a> u o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Selon un autre mode de réalisation possible, lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'espace [u, L], o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec u si a < u v- {
Lsia>u.
La valeur de la constante u peut être déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante: l/ L est initialisée avec la valeur N représentant la couleur blanche, 2/ pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur N, puis on additionne progressivement au nombre NG le nombre de pixels ayant la couleur (NI), puis (N-2) et ainsi de suite jusqu'à ce que le nombre NG soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image, et 3/ on affecte à u la dernière couleur de l'histogramme H prise
en compte dans cette opération.
Avantageusement, le seuil est fixé à 2% du nombre total de pixels
de l'image, mais ce seuil peut être modifié en fonction de l'application.
Selon une caractéristique préférentielle du procédé selon l'invention, après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement P1 et P2 et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(P1, P2) est supérieure à un seuil prédéterminé S et en ignorant toute autre
zone de texte potentielle ne répondant pas à cette condition.
Le procédé selon l'invention comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhig(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhig(i) avec la ligne adjacente qui précède immédiatement Rhig(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhig(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos RhIg(i) et Pos RhIg(i-1) ou respectivement entre les ensembles Pos RhIg(i) et Pos RhIg(i+1) qui concernent des positions pour les pixels des lignes Rhig(i) et Rhig(i-1), ou respectivement des lignes Rhig(i) et Rhig(i+I), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective considérée orientées selon ladite
première direction privilégiée.
Le procédé selon l'invention peut en outre comprendre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhig(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des pixels formant ladite ligne représentative Rhig(i) et on ajoute à la ligne représentative Rhig(i) exclusivement les pixels présentant la même couleur que les pixels de la ligne représentative Rhig(i). La première direction privilégiée peut être une direction
horizontale ou verticale.
De façon particulière, la ligne représentative Rhig(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur
maximale L correspondant au blanc.
Selon l'invention, les blocs fermés produits susceptibles de
contenir du texte présentent avantageusement la forme de parallélogrammes et de préférence la forme de rectangles.
Pour certaines applications, après l'étape de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les
autres étapes de traitement visant à localiser des zones de texte.
L'invention concerne également un système de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une unité de conversion d'une image numérique d'entrée en image binaire, une unité de localisation de zones de texte potentielles appliquées à l'image binaire et une unité de sélection de zones
de texte effectives mises en évidence par ladite unité de localisation.
Avantageusement, l'unité de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image binaire résultant de la conversion de l'image
numérique en image binaire.
De préférence, l'unité de conversion d'une image numérique d'entrée I en image binaire comprend des moyens de conversion d'une
image numérique I en une image G définie par des niveaux de gris.
Selon une caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de multirésolution comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution. Selon une autre caractéristique particulière, l'unité de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage pour transformer une image d'entrée en niveaux de
gris en une image binaire BW.
Avantageusement, le système comprend des moyens de transposition de matrices représentatives d'images ou de masques
morphologiques.
Le procédé et le système selon l'invention peuvent donner lieu à un
très grand nombre d'applications.
L'invention permet par exemple, pour des raisons de sécurité, d'extraire automatiquement et d'enregistrer les mentions portées sur des plaques d'immatriculation de véhicules automobiles à partir d'images filmées dans diverses situations: par exemple, aux entrées de parcs de
stationnement, aux barrières de péage d'autoroutes, dans des stationsservice de distribution de carburant, aux points de contrôle de frontières,...
Un tel système de détection et de reconnaissance de plaques minéralogiques peut comprendre un dispositif de capture d'images numériques, tel qu'une caméra vidéo numérique, un module d'analyse d'image et un système de gestion de base de données pour le stockage et la comparaison de données. Dans ce contexte, le module d'analyse d'image doit d'abord localiser la zone de la plaque d'immatriculation, puis extraire cette zone et fournir les informations relatives à cette zone, le cas il échéant après un post-traitement, à l'entrée d'un système de type OCR pour obtenir, sous la forme d'un texte alphanumérique, les indications du
numéro d'immatriculation.
Une autre application possible du procédé et du système selon l'invention consiste en la détection de logos et la reconnaissance de ceuxci dans des émissions de télévision. Lors de la vente d'espaces publicitaires pour une diffusion en direct d'un événement, par exemple dans le cadre d'un match de football ou dans une émission de télévision, les opérateurs ont besoin de connaître exactement la visibilité et la durée d'exposition d'une marque qui est affichée dans un espace publicitaire. Pour cela, il est nécessaire de mettre en oeuvre un procédé tel que celui de la présente invention, qui est capable d'extraire des zones de texte à partir d'images de l'événement concerné, pour permettre ensuite une comparaison avec des noms de marque ou de désignation préalablement stockés dans une base de données.
Brève description des dessins
D'autres caractéristiques et avantages de l'invention ressortiront de
la description suivante de modes particuliers de réalisation, donnés à titre
d'exemples, en référence aux dessins qui l'accompagnent, sur lesquels: la Figure 1 est un organigramme montrant de façon schématique les étapes principales du procédé de localisation automatique de zones de texte dans une image, conformément à l'invention, - la Figure 2A montre un exemple d'image de départ comportant deux zones de texte sur un fond d'image complexe, - la Figure 2B représente une image binaire de sortie ayant fait l'objet d'un premier traitement de rehaussement des formes de zones de texte potentielles, conformément à l'invention, - la Figure 2C représente une image binaire ayant donné lieu en outre à une élimination de zones de texte potentielles manifestement incorrectes, - la Figure 2D représente une image telle que celle de la Figure 2C ayant en outre donné lieu, conformément à l'invention, à une étape de localisation de zones de texte potentielles par l'application de masques morphologiques, - la Figure 3 montre à une plus grande échelle l'image de la Figure 2D, - les Figures 4 à 8 montrent les histogrammes des différentes régions de texte potentielles de la Figure 3, après application d'une étape de séparation des pixels des zones de texte potentielles par rapport au fond de l'image, - les Figures 9 à 15 représentent divers exemples d'application de masques morphologiques à une image telle que celle de la Figure 2C ou le cas échéant de la Figure 2B, - la Figure 16 montre divers exemples d'images présentant du texte sur un fond complexe et auxquelles peut s'appliquer le procédé selon l'invention, et - la Figure 17 est un schéma- bloc montrant les composants essentiels d'un exemple de système de localisation automatique de zones
de texte dans une image, conformément à l'invention.
Description détaillée de modes particuliers de réalisation
Le système et le procédé selon l'invention peuvent s'appliquer à la détection de texte naturel inclus dans les images dès la prise de vue, comme par exemple des noms d'enseignes de magasins, des noms de rues ou des indications portées sur des panneaux indicateurs ou tableaux d'affichage. C'est le cas par exemple de l'image 143 de la Figure 16 qui
fait apparaître sur une porte un nom de fonction "gardien".
L'invention s'applique également à la détection de texte artificiel
superposé à des images au montage.
C'est le cas par exemple des images 141 et 142, de la Figure 16.
Ces textes constituent par exemple des logos ("ECL" sur l'image 142), des génériques, des sous-titres de commentaires annonçant un sujet, traduisant des paroles ou donnant des précisions (par exemple, le nom et
la fonction de la personne représentée sur l'image 141).
Le texte naturel présente certaines caractéristiques particulières qui peuvent être utilisées pour faciliter la détection - les caractères du texte sont à l'avant-plan, - les caractères du texte présentent un bon contraste par rapport au fond car ils sont prévus pour être lus facilement, - les caractères du texte sont monochromes, - les caractères du texte présentent des dimensions encadrées dans certaines limites (par exemple, une lettre n'est jamais aussi grande que la surface de l'écran et la taille minimale des caractères comprend un
nombre minimum de pixels pour que les caractères soient lisibles).
Le procédé selon l'invention s'applique à des images numériques présentant un fond complexe, pouvant présenter une faible résolution et
être affectées par le bruit, et sans paramètres de contrôle.
Le procédé peut ainsi s'appliquer à des images vidéo, limite les fausses détections et permet de localiser et extraire avec une très grande
fiabilité les zones de texte, même avec des images de faible qualité.
La Figure 1 montre les étapes principales du procédé selon
l'invention.
A partir d'une image numérique couleur, on procède d'abord à l'étape 10 à une transformation de l'image numérique en une image
numérique en niveaux de gris.
Cette dernière image est soumise à l'étape 20 à un rehaussement
des formes des zones de texte.
L'étape 20 peut comprendre une étape 21 de multirésolution et une
étape 22 de binarisation, l'ordre des étapes 21 et 22 étant interchangeable.
Avec l'image binaire issue de l'étape 20, on procède à l'étape 30 à une localisation des zones de texte potentielles pour obtenir une image binaire avec des zones de texte potentielles délimitées par des blocs blancs. A l'étape finale 40, on procède à la sélection des zones de texte effectives, lesquelles peuvent ensuite être soumises dans l'image numérique de départ à un processus classique de reconnaissance optique
de caractères (OCR).
On décrira maintenant de façon plus détaillée différents traitements d'image mis en oeuvre au cours des différentes étapes du procédé selon l'invention. Pour l'étape 10 de transformation de l'image numérique énoncée sur la Figure 1, on considérera que l'image de départ est une image numérique représentée par une ou plusieurs matrices. Si ce n'est pas le cas, par exemple si l'image d'entrée est dans un format compressé tel que par exemple le format 3PEG, on convertit d'abord l'image d'entrée en une image numérique sous une forme matricielle. De la même façon, si l'on dispose d'images d'entrée sous forme analogique, on convertit d'abord par des techniques classiques, ces images analogiques sous une forme numérique. Lorsque l'image numérique d'entrée I est une image couleur, on
convertit celle-ci en une image G en niveaux de gris.
Cette étape 10 de conversion peut être réalisée par des techniques classiques. Elle consiste en une simple conversion d'une image couleur numérique, généralement représentée par trois matrices dans l'espace couleur, par exemple RVB, en une matrice en niveaux de gris. Cette étape est nécessaire et indispensable pour l'étape 22 de binarisation qui sera
décrite plus en détail dans la suite de la description.
L'étape 10 initiale peut également le cas échéant s'accompagner d'une étape supplémentaire de calcul de la matrice transposée de la matrice G. La matrice transposée tG résultant de cette opération peut être
utilisée par exemple pour la détection de régions de texte vertical.
On rappellera que si A est une matrice m x n, la transposée tA de la matrice A est formée en interchangeant les rangées et les colonnes de la matrice A. Ainsi, la ième ligne de la matrice A devient la ième colonne de la matrice transposée tA quel que soit i. La matrice transposée tA est ainsi
une matrice n x m.
Une image numérique I et un opérateur morphologique M peuvent être considérés tous deux comme des matrices, dont les matrices transposées peuvent être déterminées selon la définition donnée plus
haut.
Dans le procédé selon la présente invention, l'étape 30 de localisation de zones de texte potentielles comprend l'application de filtres
morphologiques. Un filtre morphologique est un masque.
Pour la mise en évidence de zones de texte verticales plutôt qu'horizontales, on peut donc procéder d'abord à la transposition d'une image numérique d'entrée, représentée par une matrice I, pour obtenir une nouvelle image représentée par la matrice tI, puis appliquer ensuite un ensemble d'opérateurs morphologiques g Mn F adaptés à l'origine pour
des détections de zones de texte potentielles horizontales.
Selon une alternative, on peut appliquer également un jeu d'opérateurs morphologiques transposés q tM F directement à l'image d'entrée I.
Les deux façons de faire conduisent au même résultat final.
Dans le cas o l'on connaît à l'avance les régions de l'image dans lesquelles du texte est susceptible d'apparaître, par exemple dans le cas de détection de texte artificiel, tel que des sous-titres, il estégalement possible dès l'étape initiale 10, de définir une région préférentielle dans laquelle les zones de texte seront recherchées. Une telle définition de région préférentielle permet d'accélérer le processus de localisation en limitant l'étendue de l'image à laquelle est appliqué l'ensemble des étapes
à 40 du procédé illustré sur la Figure 1.
On décrira maintenant l'étape 20 de rehaussement des formes des
zones de texte.
La localisation de zones probables de présence de texte dans une image fait partie d'un pré-traitement d'image qui est fondamental pour
permettre la détection correcte de texte.
Il existe divers procédés dans le domaine de la reconnaissance de formes qui sont basés sur des techniques de seuillage, de regroupement de pixels ou de détection de contours utilisant des méthodes statistiques, la logique floue ou les réseaux neuronaux. Des procédés récents mais coteux font appel à une représentation des textures et des couleurs par une modélisation en champs de Markov. Toutefois, aucune technique ne
s'avère adaptée à toutes les applications.
Selon la présente invention, on utilise une approche multirésolution et une conversion de l'image en niveaux de gris en une image binaire pour
la mise en évidence des formes de zones de texte probables.
La conversion d'une image d'entrée en niveaux de gris I en une image binaire BW (étape 22) s'opère par seuillage. Ainsi, l'image binaire de sortie BW présente une valeur de 0 (noir) pour tous les pixels de l'image d'entrée I qui ont une valeur inférieure à un seuil prédéterminé et
une valeur de 1 (blanc) pour tous les autres pixels.
La mise en oeuvre d'un procédé de multirésolution (étape 21) pour la localisation de lignes de texte se fonde sur la caractéristique de base selon laquelle une ligne de texte apparaît sous la forme d'une ligne pleine
dans une image de faible résolution.
Le procédé de multirésolution, lorsqu'il est appliqué à une image d'entrée I, conduit à produire une image de sortie J qui a M fois la taille de l'image I. Si M est compris entre O et 1,0, l'image J est plus petite que l'image I. Si M est supérieur à 1,0, l'image J est plus grande que l'image I. On passe d'une image I à une image J de résolution différente par un procédé
d'interpolation spécifique.
On peut choisir pour M la valeur 0,125 à titre d'exemple de valeur inférieure à 1,0. On peut par ailleurs utiliser un procédé d'interpolation par le plus proche voisin. Toutefois, d'autres techniques d'interpolation, telles
qu'une interpolation linéaire, pourraient également être utilisées.
Le paramètre M peut varier et être adapté par exemple à la taille de l'image. Le procédé selon l'invention ne dépend pas de la valeur du
paramètre M, dès lors que celui-ci est compris entre O et 1.
On peut également changer la valeur de seuil utilisée pour convertir une image en niveaux de gris en une image binaire, par exemple en fonction de l'image d'entrée. A titre d'exemple, cette valeur de seuil peut
être de l'ordre de 0,7.
La Figure 2B montre clairement que le procédé de multirésolution permet de filtrer l'image d'entrée en ne conservant que des composants connexes ayant une couleur homogène correspondant à une zone significative. L'étape 30 de localisation de zones de texte potentielles consiste en l'application de masques morphologiques à des images binaires telles que celles des Figures 2B ou 2C en vue d'obtenir la fermeture de blocs susceptibles de contenir du texte, en remplissant les zones vides entre
caractères ou mots.
Si l'image binaire de départ est une image telle que celles des Figures 2B ou 2C, issue de l'étape 20, on applique de façon répétée plusieurs opérations morphologiques binaires jusqu'à ce que l'image obtenue J ne présente plus beaucoup de changements par rapport à l'image précédente et présente une apparence avec des blocs fermés telle
que celle de la Figure 2D.
A titre préférentiel, on peut utiliser trois masques morphologiques différents pour réaliser la fermeture des blocs susceptibles de contenir du texte. Ces différents masques morphologiques peuvent être combinés
entre eux et appliqués selon des ordres différents.
Le premier masque morphologique M1 est représenté sur la Figure 9. En considérant une ligne 50 de pixels 51 à 58, tous les pixels intermédiaires 52 à 57 sont mis à la valeur "1" quelle que soit leur valeur initiale "0" ou "1", lorsque les pixels d'extrémité 51 et 58, à gauche et à droite présentent la valeur 1. La même opération peut être faite sur des colonnes, par exemple en utilisant la matrice transposée de M1, comme indiqué plus haut, ou en utilisant la transposée de la matrice représentant
l'image d'entrée.
Le deuxième masque morphologique M2 est représenté sur la Figure 10. Des rectangles de départ 60 et 70 comprenant des pixels 61 à 66 et 71 à 76 sont transformés en un rectangle 80 comprenant des pixels
81 à 86.
Le rectangle de départ 60, respectivement 70, comprend des pixels 63, 64, respectivement 71, 76, situés à l'extrémité de diagonales, qui présentent tous deux une valeur "1". Dans ce cas, le rectangle 80 de l'image transformée comprend des pixels 81 à 86 qui ont tous la valeur "1". Comme dans le cas du masque morphologique M1, l'opération du masque morphologique M2 peut s'appliquer à des lignes ou à des colonnes
en utilisant des matrices transposées.
Le troisième masque morphologique M3 est représenté sur la Figure 11. Ce masque M3 est très semblable au masque morphologique M2 et vise
à obtenir la fermeture de diagonales.
A partir d'éléments carrés 90A, 90B d'une image de départ, on
obtient un élément carré 100 d'image convertie.
Lorsque deux pixels 92A, 93A respectivement 91B, 94B d'un carré initial 90A respectivement 90B présentent tous deux la valeur "1" quelle que soit la valeur des autres pixels 91A, 94A respectivement 92B, 93B, tous les pixels 111 à 114 du carré 100 de l'image transformée ont la
valeur "1".
A titre d'exemples, on a représenté sur les Figures 12 et 13 deux
exemples d'application du-troisième masque morphologique M3.
Dans le cas de la Figure 12, on procède en deux temps à partir du carré 90C comportant deux pixels en diagonale 92C, 93C présentant la
valeur "1" et les deux autres pixels 91C, 94C qui présentent la valeur "0".
Dans un premier temps, on donne la valeur "1" au pixel 94C situé en bas à droite tandis que les autres pixels 91C à 93C gardent des valeurs inchangées pour former des pixels 91C' à 94C. Dans un deuxième temps, on donne la valeur "1" au pixel 91C' situé en haut à gauche, tandis que les autres pixels 92C' à 94C' sont inchangés, de telle sorte que l'on obtient un
carré 100 dont tous les pixels 111 à 114 présentent la valeur 1.
La Figure 13 représente un cas similaire à celui de la Figure 12 mais o l'on procède de façon symétrique. Dans le carré de départ 90D, on commence par donner la valeur "1" au pixel 90D situé en haut à gauche qui présente au départ la valeur 0, les autres pixels 92D à 94D présentant des valeurs inchangées égales à "1" pour les pixels 92D, 93D et égale à 0 pour le pixel 94D. On donne ensuite la valeur "1" au pixel 94D' situé en bas à droite tandis que les autres pixels 91D' à 93D' présentent une valeur "1" inchangée. On obtient ainsi de même un carré 100 dont tous les pixels 111 à 114 présentent la valeur 1. On peut procéder aux opérations des Figures 12 à 13 en parallèle, ce qui correspond au processus illustré sur la
Figure 11.
Les Figures 2D et 3 montrent toutes les régions sous la forme de blocs fermés 1 à 5 ayant une probabilité de contenir du texte. On peut noter que l'on peut recenser cinq zones candidates 1 à 5 susceptibles de contenir du texte alors que dans l'image initiale de la Figure 2A on ne voit que deux zones contenant effectivement du texte. La détection de régions de texte potentielles sur l'image d'entrée I peut être dérivée par le mappage entre les coordonnées de blocs de texte potentiel dans l'image binaire et celles de l'image d'entrée I. On peut ensuite appliquer aux régions de texte potentielles détectées sur l'image
d'entrée diverses techniques d'OCR.
La sélection des zones de texte effectives correspond à une étape
(Figure 1) et sera explicitée en référence aux Figures 4 à 8.
La présence, dans l'image de la Figure 3, de zones 1 à 3 ayant une probabilité de contenir du texte, mais n'en comportant pas en réalité, s'explique par le fait que l'étape 20 basée sur la multirésolution et la binarisation est un procédé efficace lorsqu'il est appliqué à un document contenant du texte, dans lequel un pixel appartient soit au fond de l'image, soit à un certain objet significatif de l'image. En revanche, dans le cas d'une image numérique comprenant un fond complexe, comme dans le cas d'images vidéo, il existe en général sur une image plusieurs objets distincts de couleurs différentes, ce qui peut induire de fausses détections
par ce procédé de rehaussement.
Dans le cas du procédé selon l'invention, l'étape 21 de multirésolution ne constitue qu'un prétraitement permettant d'effectuer une première localisation de régions candidates susceptibles de contenir du texte. Chaque région candidate 1 à 5 (Figure 3) est ensuite examinée à nouveau au cours d'une étape 40 de sélection afin de déterminer si cette
région candidate contient effectivement du texte ou non.
L'étape 40 de sélection de zones de texte effectives comprend ellemême deux étapes qui comprennent la séparation des pixels du fond de
l'image et le filtrage des régions de texte effective.
L'étape de séparation des pixels de fond de l'image vise à mettre en évidence les pixels des caractères par rapport au fond de l'image. Pour cela, il est appliqué un procédé de découpage de l'intensité à l'image en niveaux de gris obtenue après la première étape de transformation d'image. Cette technique est utile lorsque différentes caractéristiques
- ----d'une image sont contenues dans différents niveaux de gris.
On procède à un mappage de chaque niveau de gris appartenant à l'intervalle [0, L] en un niveau de gris v appartenant à l'intervalle [0, L] selon la transformation définie par l'équation (1) v = f(a) (1) qui peut être définie simplement par l'équation (2) a, a < u v= { (2) sinon L o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L. Une autre transformation possible pour augmenter la mise en évidence des pixels de caractères par rapport au fond est définie par l'équation (3): u, a < u v= { (3) sinon L De plus, la valeur de u est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G (par exemple en 256 nuances) obtenus de l'image d'entrée I après l'étape 10, de la façon suivante:
1. L est initialisée avec la valeur 256 (couleur blanche).
2. Pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur 256, puis on additionne progressivement au nombre Nb le nombre de pixels ayant la couleur 255, puis 254 et ainsi de suite jusqu'à ce que le nombre Nb soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image. La dernière couleur de l'histogramme H, prise en compte dans
cette opération, est affectée à u.
Avantageusement, le seuil est fixé à 2% du nombre total de pixels,
mais ce seuil peut être modifié en fonction des applications.
Le filtrage des régions de texte effectives s'effectue par une simple analyse de la variation spatiale de toutes les régions candidates susceptibles de contenir du texte, après transformation par l'opération précédemment décrite de séparation des pixels représentant des
caractères par rapport au fond de l'image.
Cette analyse est fondée sur la caractéristique selon laquelle les caractères d'un texte présentent généralement un contraste important par
rapport au fond.
On procède ainsi, pour l'histogramme de chaque région de texte potentielle transformée, à la localisation des deux pics les plus importants
(maximums locaux) afin de repérer leur position Pl et P2.
Les Figures 4 à 8 représentent une telle démarche appliquée aux
régions de texte potentielles 1 à 5 identifiées sur la Figure 3.
Une variation spatiale de chaque région de texte potentielle est caractérisée par l'équation (4): D(Pi, P2) = abs (Pl-P2) (4) Si la distance D(P1, P2) est supérieure à un seuil prédéfini, la région
de texte potentielle est considérée comme une région de texte effective.
Sinon, elle est simplement ignorée.
Comme on peut le voir sur les Figures 4 à 6, les régions 1, 2 et 3 de la Figure 3 ont une faible variation spatiale, dès lors que les distances entre les maximums locaux 101, 102 (Figure 4), 201 à 204 (Figure 5), 301 à 305 (Figure 6) sont faibles. En conséquence, ces régions seront ensuite ignorées. En revanche, les régions 4 et 5 de la Figure 3 ont une forte variation spatiale, dès lors que les distances D(P1, P2) entre les maximums locaux 401, 402 (Figure 7) ou 501, 502 (Figure 8) sont élevées. Ces
régions 4 et 5 seront donc retenues.
La valeur de seuil peut être choisie par exemple comme étant égale à 15% du nombre total dans les niveaux d'échelle de gris. La précision du
procédé est d'autant meilleure que la valeur de seuil est élevée.
Le procédé selon l'invention peut présenter diverses variantes et étapes supplémentaires visant à mieux délimiter les frontières des régions de texte ou à accélérer l'ensemble du processus en éliminant quelques
régions de texte potentielles qui sont de façon évidente négatives.
En particulier, on peut améliorer la localisation des régions de texte, et notamment la prise en compte de l'intégralité d'une zone de texte, en appliquant de façon récursive un processus de séparation des pixels par rapport au fond, à chaque région du texte effective déjà transformée. Ceci conduit à mieux définir les frontières horizontales et verticales de chaque
zone de texte.
Pour mieux délimiter horizontalement les frontières d'une zone de texte, on sélectionne d'abord une ligne horizontale représentative Rhig(i) parmi toutes les lignes d'une zone de texte qui a été identifiée selon le
procédé de base conforme à l'invention.
Le choix de Rhig(i) peut être effectué en sélectionnant la ligne qui est formée par le maximum de pixels alignés horizontalement et appartenant à des caractères. En général, la ligne sélectionnée Rhig(i) sera la ligne formée par le nombre maximum de pixels ayant une valeur égale à L car après la transformation consistant à séparer les pixels du fond, les caractères d'une région de texte sont considérés comme étant
monochromes et contrastent avec le fond de l'image.
On procède ensuite à une comparaison de Rhig(i) avec la ligne adjacente Rhig(i-1) qui précède immédiatement (respectivement avec la ligne adjacente Rhig(i+1) qui suit immédiatement), afin de décider de
fusionner ou non les deux lignes dans un même bloc de texte.
Le critère de fusion est fondé sur la distribution spatiale des valeurs de gris et le principe de pixels monochromes connexes de la façon suivante: Soit Pos Rhlg(i) et Pos Rhlg(i-1) (respectivement Pos RhIg(i+1)) deux ensembles qui décrivent les positions des pixels dans la ligne Rhig(i) et Rhig(i-1) (respectivement Rhig(i+1)) qui ont une valeur de gris égale à L. On considère l'équation (5) suivante: Pos RhIg(i) n Pos RhIg(i-1) É 0, respectivement Pos Rhlg(i) n PoS RhIg(i+1) É 0, Si l'équation (5) est satisfaite, on remplace la ligne Rhig(i) par la ligne Rhig(i-1), (respectivement la ligne Rhig(i+l)), et le processus est appliqué de façon récursive jusqu'à une complète stabilisation des
frontières horizontales inférieure et supérieure de la zone de texte.
Pour la délimitation verticale des frontières des zones de texte, on peut ajouter à la ligne représentative Rhig(i) tous les pixels qui satisfont les conditions suivantes: - on ne prend en considération que les pixels qui sont à gauche ou à droite des pixels formant la ligne représentative Rhig(i), - on n'ajoute à la ligne Rhig(i) que les pixels ayant la même valeur de couleur que les pixels de Rhig(i), - les pixels adjacents à la ligne Rhig(i) doivent respecter le principe
d'élimination sous forme négative qui sera présenté plus loin.
Pour la détection de zones de texte situées en position verticale dans une image numérique, on peut appliquer les principes de délimitation qui viennent d'être exposés, par exemple en effectuant d'abord une délimitation verticale. Mais cela revient à travailler sur la transposition de la matrice qui représente l'image d'entrée, comme cela a été exposé plus
haut en relation avec la transformation d'images numériques.
Le procédé de localisation de régions de texte peut être accéléré lorsque l'on a une certaine connaissance préalable des régions
susceptibles de contenir du texte.
Notamment pour le cas d'images vidéo, on peut appliquer un procédé d'élimination de forme négative, qui consiste à éliminer tous les composants connexes de couleur homogène touchant le bord d'une image, ainsi que toutes les lignes horizontales qui ont une longueur
supérieure à un seuil prédéfini It.
Ce dernier opérateur d'élimination peut être représenté par l'opérateur morphologique M4 illustré sur la Figure 14. La Figure 2C illustre le résultat d'un tel procédé d'élimination de forme négative appliqué à
l'image de la Figure 2B.
Sur la Figure 14, on voit que, pour une ligne 120 comportant des pixels 121 à 128, dont les deux pixels d'extrémité 121 et 128 présentent la valeur "1", tandis que les autres pixels 122 à 127 présentent chacun une valeur "0" ou "1", dans le cas o la longueur de la ligne est supérieure à un seuil It (par exemple égal à 75% de la taille de l'image résultant du processus de multirésolution), alors tous les pixels 121 à 128 sont mis à la
valeur "0" correspondant au noir.
La Figure 15 montre un autre exemple d'amélioration possible consistant en un remplissage de diagonales pour éliminer un pixel isolé dans le fond de l'image. L'opérateur morphologique M5 illustré sur la Figure 15 consiste, dans un carré 130 de neuf pixels, à donner la valeur "0" à un pixel central isolé 135 de valeur "1" entouré de huit pixels 131 à
134, 136 à 139 de valeur "0".
Lorsque l'on applique l'opérateur morphologique M5 de la Figure 15 avant les opérateurs morphologiques M1, M2; M3 des Figures 9 à 13, on augmente la précision des frontières des zones de texte détectées dans l'image en éliminant les pixels isolés qui pourraient être intégrés dans des régions de texte effectives lorsque l'on applique l'opérateur morphologique M1. On a représenté sur la Figure 17 le schéma bloc d'un exemple de système de localisation automatique de zones de texte dans une image
mettant en oeuvre l'invention.
Une image numérique d'entrée I est d'abord appliquée à une unité de traitement 150 qui assure la conversion de l'image numérique d'entrée
I en une image G définie par des niveaux de gris.
L'image G en niveaux de gris est elle-même appliquée à une unité
*de traitement 160.
L'unité de traitement 160 comprend un module d'entrée 163, qui peut assurer par exemple le calcul de la transposée de la matrice de l'image G en niveaux de gris, ou de la transposée de matrices
représentatives de masques morphologiques.
Le module d'entrée 163 peut également, le cas échéant, permettre de définir (a priori) des régions de l'image G qui constituent des sousensembles dans lesquels se fera le processus de recherche de zones de texte. Le module d'entrée 163 coopère avec un module 161 de multirésolution qui comprend des moyens d'interpolation pour transformer
une image qui lui est appliquée en une image de plus faible résolution.
Le module d'entrée 163 coopère également avec un module 162 de seuillage qui transforme une image en niveaux de gris qui lui est
appliquée en une image binaire BW.
Le module d'entrée 163 peut faire appel aux modules 161 et 162 dans un ordre quelconque. Chacun des modules 161, 162 peut également utiliser comme image d'entrée directement une image produite par l'autre module. L'image binaire fournie en sortie de l'unité de traitement 160 est
appliquée à une unité 170 de localisation de zones de texte potentielles.
L'unité 170 de localisation comprend un ou plusieurs filtres morphologiques et permet d'appliquer des masques morphologiques sur l'image binaire issue de l'unité de traitement 160 pour réaliser la fermeture
de blocs susceptibles de contenir du texte.
On obtient ainsi en sortie de l'unité de localisation 170 une image binaire dans laquelle les régions de texte potentielles sont représentées
par des blocs blancs rectangulaires fermés.
L'unité de sélection 180 permet ensuite de sélectionner les zones de texte effectives à partir des zones de texte potentielles mises en
évidence par l'unité de localisation 170.
L'unité de sélection 180 met en oeuvre le procédé précédemment décrit de découpage de l'intensité appliqué à l'image en niveaux de gris issue de l'unité de traitement 160, et applique à toutes les régions candidates susceptibles de contenir du texte mises en évidence par l'unité de localisation 170 un filtrage consistant en une analyse de la variation spatiale des régions candidates, après avoir réalisé une séparation des
pixels du fond de l'image.
Les unités et modules du système de localisation automatique de zones de texte dans une image peuvent être réalisés sous une forme
matérielle ou logicielle.
Une unité de traitement 190 agit sur l'image numérique de départ I, dans les zones localisées et sélectionnées par les unités de localisation 170 et de sélection 180, pour effectuer divers traitements classiques de reconnaissance optique de caractères. Ces traitements classiques ne sont ainsi appliqués que sur des régions ciblées très limitées de l'image d'entrée. 4

Claims (34)

REVENDICATIONS
1. Procédé de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une première étape (10, 20) de conversion de l'image numérique en image binaire, une deuxième étape (30) de localisation de zones de texte potentielles et une troisième étape
(40) de sélection de zones de texte effectives.
2. Procédé selon la revendication 1, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'opérations morphologiques sur l'image binaire afin de produire des blocs fermés susceptibles de contenir du texte, dans
l'image d'origine.
3. Procédé selon la revendication 1 ou la revendication 2, caractérisé en ce que la première étape (10, 20) comprend une étape (10) de conversion d'une image numérique en une image définie par des
niveaux de gris.
4. Procédé selon la revendication 3, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (21) de multirésolution utilisant un procédé d'interpolation pour transformer une image d'entrée I en une image de sortie J de plus faible résolution dont la taille est M fois celle de l'image
d'entrée I, avec 0 < M < 1.
5. Procédé selon la revendication 3 ou la revendication 4, caractérisé en ce que la première étape (10, 20) de conversion de l'image numérique en image binaire comprend une étape (22) de binarisation utilisant un procédé de seuillage pour transformer une image d'entrée I en niveaux de gris en une image binaire BW, chaque pixel de l'image d'entrée I ayant une valeur inférieure à un seuil prédéfini étant converti dans l'image binaire BW en une valeur 0 correspondant au noir et tous les autres pixels de l'image d'entrée I étant convertis dans l'image binaire BW
en une valeur 1 correspondant au blanc.
6. Procédé selon l'une quelconque des revendications 1 à 5,
caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'une ligne ou d'une colonne lorsque dans l'image binaire les pixels d'extrémité
de cette ligne ou de cette colonne présentent tous les deux la valeur 1.
7. Procédé selon l'une quelconque des revendications 1 à 6,
caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend l'application d'au moins un masque morphologique pour effectuer sur l'image binaire au moins une opération morphologique selon laquelle on affecte la valeur 1 à tous les pixels d'un rectangle ou d'un carré défini sur deux lignes ou deux colonnes lorsque dans l'image binaire deux pixels situés en diagonale aux extrémités de ce
rectangle ou de ce carré présentent tous les deux la valeur 1.
8. Procédé selon la revendication 4, caractérisé en ce que la deuxième étape (30) de localisation de zones de texte potentielles comprend une étape initiale selon laquelle on applique un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle, pour chaque ligne ou chaque colonne comportant à ses extrémités deux pixels de valeur 1 et présentant une longueur supérieure à un seuil correspondant à un pourcentage inférieur à % de la dimension de l'image résultant de l'étape (20) de multirésolution, tous les pixels de la ligne ou colonne considérée sont affectés
d'une valeur 0.
9. Procédé selon la revendication 8, caractérisé en ce que ledit
pourcentage définissant ledit seuil est de l'ordre de 75%.
10. Procédé selon l'une quelconque des revendications 6 et 7,
caractérisé en ce que la deuxième étape de localisation (30) de zones de texte potentielles comprend en premier lieu l'application d'un masque morphologique pour effectuer sur l'image binaire une opération morphologique selon laquelle on affecte la valeur 0 à chaque pixel de
l'image binaire qui est entouré de pixels qui présentent tous la valeur 0.
11. Procédé selon l'une quelconque des revendications 6 à 8,
caractérisé en ce que lors de la deuxième étape (30) de localisation de zones de texte potentielles, on applique les opérations morphologiques en
considérant exclusivement les lignes de l'image binaire.
12. Procédé selon la revendication 3 et la revendication 11, caractérisé en ce qu'on procède à une transposition de l'image définie par des niveaux de gris et représentée par une matrice G en une image transposée représentée par une matrice transposée tG et on applique à cette matrice transposée tG les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant
exclusivement les lignes de l'image binaire.
13. Procédé selon la revendication 3 et la revendication 11, caractérisé en ce qu'on applique à nouveau à l'image G définie par des niveaux de gris et représentée par une matrice G les opérations morphologiques de la deuxième étape (30) de localisation de zones de texte potentielles en considérant exclusivement les colonnes de l'image
binaire grâce à l'utilisation d'opérateurs morphologiques transposés.
14. Procédé selon l'une quelconque des revendications 1 à 13,
caractérisé en ce que la troisième étape (40) de sélection de zones de texte effectives comprend une étape préalable de séparation des pixels appartenant au fond de l'image, au cours de laquelle on procède à un
découpage de l'intensité appliquée à l'image en niveaux de gris.
15. Procédé selon la revendication 14, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L] o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [0, L], selon la fonction v = f(a) avec a si a < u v= { L si a > u o u est une constante représentant une valeur de niveau de gris compris entre 0 et L.
16. Procédé selon la revendication 14, caractérisé en ce que lors de l'étape préalable de séparation de pixels appartenant au fond de l'image, on effectue un mappage de chaque niveau de gris a appartenant à l'intervalle [0, L], o 0 correspond au niveau de noir et L correspond au niveau de blanc en un niveau de gris v appartenant à l'intervalle [u,L] o u est une constante représentant une valeur de niveau de gris comprise entre 0 et L, selon la fonction v = f(a) avec u si a < u v= {
L si a > u.
17. Procédé selon la revendication 3 et l'une quelconque des
revendications 15 et 16, caractérisé en ce que la valeur de la constante u
est déterminée d'une manière dynamique à partir de l'histogramme H de l'image en niveaux de gris G comportant N nuances, obtenues de l'image d'entrée I après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, de la façon suivante: l/ L est initialisée avec la valeur N représentant la couleur blanche, 2/ pour déterminer la valeur de u, on commence par calculer le nombre de pixels Nb ayant la couleur N, puis on additionne progressivement au nombre NG le nombre de pixels ayant la couleur (N1), puis (N-2) et ainsi de suite jusqu'à ce que le nombre NG soit supérieur à un seuil représentant un faible pourcentage du nombre total de pixels de l'image, et 3/ on affecte à u la dernière couleur de l'histogramme H prise
en compte dans cette opération.
18. Procédé selon la revendication 17, caractérisé en ce que ledit
seuil représente 2% du nombre total de pixels de l'image.
19. Procédé selon l'une quelconque des revendications 14 à 18,
caractérisé en ce qu'après l'étape préalable de séparation des pixels appartenant au fond de l'image, on procède à un filtrage des zones de texte effectives en localisant les deux pics les plus importants de l'histogramme de chacune des zones de texte potentielles, ces deux pics les plus importants étant identifiés par leurs positions respectivement P1 et P2 et en classifiant comme zone de texte effective toute zone pour laquelle la distance D(P1, P2) est supérieure à un seuil prédéterminé S et en ignorant toute autre zone de texte potentielle ne répondant pas à cette condition.
20. Procédé selon la revendication 19, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives selon une première direction privilégiée, selon laquelle pour chaque zone de texte effective on sélectionne d'abord une ligne représentative Rhig(i) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, on compare la ligne Rhig(i) avec la ligne adjacente qui précède immédiatement Rhig(i-1) et respectivement avec la ligne adjacente qui suit immédiatement Rhig(i+1), pour chaque couple de lignes, on décide de fusionner les deux lignes en un seul bloc de texte si l'intersection n'est pas vide entre les ensembles Pos RhIg(i) et Pos Rhig(i-1) ou respectivement entre les ensembles Pos Rhig(i) et Pos Rhlg(i+1) qui concernent des positions pour les pixels des lignes Rhig(i) et Rhig(i-1), ou respectivement des lignes Rhig(i) et Rhig(i+1), qui présentent une valeur de gris égale à la valeur maximale L correspondant au blanc, et on réitère le procédé de manière récursive jusqu'à ce que l'on obtienne une stabilisation complète des frontières de la zone de texte effective
considérée orientées selon ladite première direction privilégiée.
21. Procédé selon la revendication 19 ou la revendication 20, caractérisé en ce qu'il comprend en outre une étape de délimitation des frontières des zones de texte effectives orientées selon une deuxième direction privilégiée perpendiculaire à la première direction privilégiée, selon laquelle, pour chaque zone de texte effective, on sélectionne d'abord une ligne représentative Rhigli) orientée selon la première direction privilégiée parmi toutes les lignes de la zone de texte effective considérée orientées selon cette première direction privilégiée, à chaque itération, on ne considère que les pixels se situant de part et d'autre des pixels formant ladite ligne représentative Rhig(i) et on ajoute à la ligne représentative Rhig(i) exclusivement les pixels présentant la même couleur que les pixels
de la ligne représentative Rhig(i).
22. Procédé selon l'une quelconque des revendications 19 à 21,
caractérisé en ce que la première direction privilégiée est une direction horizontale.
23. Procédé selon l'une quelconque des revendications 19 à 21,
caractérisé en ce que la première direction privilégiée est une direction verticale.
24. Procédé selon l'une quelconque des revendications 19 à 21,
caractérisé en ce que la ligne représentative Rhig(i) orientée selon la première direction privilégiée est constituée par la ligne comportant le nombre maximum de pixels présentant une valeur égale à la valeur
maximale L correspondant au blanc.
25. Procédé selon l'une quelconque des revendications 1 à 24,
caractérisé en ce que les blocs fermés produits susceptibles de contenir du
texte présentent la forme de parallélogrammes.
26. Procédé selon la revendication 25, caractérisé en ce que les blocs fermés produits susceptibles de contenir du texte présentent la
forme de rectangles.
27. Procédé selon la revendication 3, caractérisé en ce que, après l'étape (10) de conversion d'une image numérique en une image définie par des niveaux de gris, on présélectionne une zone limitée de l'image à laquelle on applique les autres étapes de traitement visant à localiser des
zones de texte.
28. Système de localisation automatique de zones de texte dans une image numérique, caractérisé en ce qu'il comprend une unité (150; ) de conversion d'une image numérique d'entrée en image binaire, une unité (170) de localisation de zones de texte potentielles appliquées à l'image binaire et une unité (180) de sélection de zones de texte effectives
mises en évidence par ladite unité (170) de localisation.
29. Système selon la revendication 28, caractérisé en ce que l'unité (170) de localisation de zones de texte potentielles comprend des moyens d'application d'au moins un filtre morphologique sur l'image
binaire résultant de la conversion de l'image numérique en image binaire.
30. Système selon l'une quelconque des revendications 28 et 29,
caractérisé en ce que l'unité de conversion d'une image numérique d'entrée I en image binaire comprend des moyens (150) de conversion
d'une image numérique I en une image G définie par des niveaux de gris.
31. Système selon l'une quelconque des revendications 28 à 30,
caractérisé en ce que l'unité (150; 160) de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de multirésolution (161) comprenant des moyens d'interpolation pour transformer une image d'entrée en une image de sortie de plus faible résolution.
32. Système selon l'une quelconque des revendications 28 à 31,
caractérisé en ce que l'unité (150; 160) de conversion d'une image numérique d'entrée en image binaire comprend au moins un module de seuillage (162) pour transformer une image d'entrée en niveaux de gris en
une image binaire BW.
33. Système selon l'une quelconque des revendications 28 à 32,
caractérisé en ce qu'il comprend des moyens (163) de transposition de
matrices représentatives d'images ou de masques morphologiques.
34. Procédé selon l'une quelconque des revendications 1 à 27,
caractérisé en ce qu'il est appliqué à la détection et à la reconnaissance de
logos dans des émissions de télévision.
FR0209749A 2002-07-31 2002-07-31 "procede et systeme de localisation automatique de zones de texte dans une image" Expired - Fee Related FR2843220B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR0209749A FR2843220B1 (fr) 2002-07-31 2002-07-31 "procede et systeme de localisation automatique de zones de texte dans une image"
AU2003269080A AU2003269080A1 (en) 2002-07-31 2003-07-30 Method and system for automatically locating text areas in an image
PCT/FR2003/002406 WO2004013802A2 (fr) 2002-07-31 2003-07-30 Procede et systeme de localisation automatique de zones de texte dans une image
EP03750862A EP1525553A2 (fr) 2002-07-31 2003-07-30 Procede et systeme de localisation automatique de zones de texte dans une image
CNA038235072A CN1685358A (zh) 2002-07-31 2003-07-30 图像中文本区域自动定位方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0209749A FR2843220B1 (fr) 2002-07-31 2002-07-31 "procede et systeme de localisation automatique de zones de texte dans une image"

Publications (2)

Publication Number Publication Date
FR2843220A1 true FR2843220A1 (fr) 2004-02-06
FR2843220B1 FR2843220B1 (fr) 2005-02-18

Family

ID=30129584

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0209749A Expired - Fee Related FR2843220B1 (fr) 2002-07-31 2002-07-31 "procede et systeme de localisation automatique de zones de texte dans une image"

Country Status (5)

Country Link
EP (1) EP1525553A2 (fr)
CN (1) CN1685358A (fr)
AU (1) AU2003269080A1 (fr)
FR (1) FR2843220B1 (fr)
WO (1) WO2004013802A2 (fr)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667251B (zh) * 2008-09-05 2014-07-23 三星电子株式会社 具备辅助定位功能的ocr识别方法和装置
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN102411707A (zh) * 2011-10-31 2012-04-11 世纪龙信息网络有限责任公司 一种图片中文本的识别方法及识别装置
CN103186786A (zh) * 2011-12-30 2013-07-03 鸿富锦精密工业(深圳)有限公司 封闭图形识别系统及方法
CN108959287B (zh) 2017-05-17 2021-08-03 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
WO2021226821A1 (fr) * 2020-05-12 2021-11-18 Polycom Communications Technology (Beijing) Co. Ltd. Systèmes et procédés de détection et d'affichage d'un texte de tableau blanc et/ou d'un locuteur actif
CN113312990A (zh) * 2021-05-13 2021-08-27 汕头市同行网络科技有限公司 一种基于光学字符识别的电竞比赛赛况实时输出方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BLOOMBERG D S ET AL: "Document image summarization without OCR", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) LAUSANNE, SEPT. 16 - 19, 1996, NEW YORK, IEEE, US, vol. 1, 16 September 1996 (1996-09-16), pages 229 - 232, XP010202636, ISBN: 0-7803-3259-8 *
DEFORGES O ET AL: "Segmentation d'images de documents par une approche multirésolution", TRAITEMENT DU SIGNAL, 1995, GRETSI, FRANCE, vol. 12, no. 6, pages 527 - 539, XP008011651, ISSN: 0765-0019 *
DIMITROVA N ET AL: "MPEG-7 Videotext description scheme for superimposed text in images and video", SIGNAL PROCESSING. IMAGE COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 16, no. 1-2, September 2000 (2000-09-01), pages 137 - 155, XP004216273, ISSN: 0923-5965 *
LIANG J ET AL: "Document layout structure extraction using bounding boxes of different entitles", APPLICATIONS OF COMPUTER VISION, 1996. WACV '96., PROCEEDINGS 3RD IEEE WORKSHOP ON SARASOTA, FL, USA 2-4 DEC. 1996, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 2 December 1996 (1996-12-02), pages 278 - 283, XP010206444, ISBN: 0-8186-7620-5 *
MESSELODI S ET AL: "Automatic identification and skew estimation of text lines in real scene images", PATTERN RECOGNITION, PERGAMON PRESS INC. ELMSFORD, N.Y, US, vol. 32, no. 5, May 1999 (1999-05-01), pages 791 - 810, XP004222747, ISSN: 0031-3203 *
WERNICKE A ET AL: "On the segmentation of text in videos", IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, XX, XX, vol. 3, 30 July 2000 (2000-07-30), pages 1511 - 1514, XP002178986 *
YU ZHONG ET AL: "Automatic caption localization in compressed video", IMAGE PROCESSING, 1999. ICIP 99. PROCEEDINGS. 1999 INTERNATIONAL CONFERENCE ON KOBE, JAPAN 24-28 OCT. 1999, PISCATAWAY, NJ, USA,IEEE, US, 24 October 1999 (1999-10-24), pages 96 - 100, XP010368958, ISBN: 0-7803-5467-2 *

Also Published As

Publication number Publication date
CN1685358A (zh) 2005-10-19
AU2003269080A1 (en) 2004-02-23
WO2004013802A3 (fr) 2004-04-08
WO2004013802A2 (fr) 2004-02-12
EP1525553A2 (fr) 2005-04-27
FR2843220B1 (fr) 2005-02-18

Similar Documents

Publication Publication Date Title
BE1017547A6 (fr) Compression d&#39;images numeriques de documents scannes.
EP1298588B1 (fr) Procédé de traitement d&#39;images pour l&#39;extraction automatique d&#39;éléments sémantiques
CA3043090C (fr) Procede de reconnaissance de caracteres
Singh et al. Adaptive binarization of severely degraded and non-uniformly illuminated documents
WO2009141378A1 (fr) Procede et systeme d&#39;indexation et de recherche de documents video
FR3081244A1 (fr) Procede de reconnaissance de caracteres
CA2457271C (fr) Procede pour la reconnaissance optique d&#39;envois postaux utilisant plusieurs images
Fazlali et al. Single image rain/snow removal using distortion type information
FR2843220A1 (fr) &#34;procede et systeme de localisation automatique de zones de texte dans une image&#34;
EP0769760B1 (fr) Procédé de détection automatique des zones expertisables dans des images de pièces mécaniques
EP1390905B1 (fr) Procede de detection de zones de texte dans une image video
Gllavata et al. Finding text in images via local thresholding
Mahale et al. Copy-Move Image Forgery Detection Using Discrete Wavelet Transform
Ranjitha et al. A review on text detection from multi-oriented text images in different approaches
CN113888758B (zh) 一种基于复杂场景中的弯曲文字识别方法和系统
Saha et al. Npix2Cpix: A GAN-based Image-to-Image Translation Network with Retrieval-Classification Integration for Watermark Retrieval from Historical Document Images
Khan et al. Target detection in cluttered FLIR imagery using probabilistic neural networks
EP1768049B1 (fr) Procédé et système de reproduction de documents par segmentation et amélioration sélective des images et des textes
Huang et al. Focal stack based image forgery localization
Shetty et al. Automated Identity Document Recognition and Classification (AIDRAC)-A Review
FR2910670A1 (fr) Procede et systeme de binarisation d&#39;une image comprenant un texte
FR3049094A1 (fr) Procede d&#39;identification d&#39;un ensemble de livres ranges pour etablir automatiquement leur liste
Bouaziz et al. Automatic text regions location in video frames.
WO2021144427A1 (fr) Procede de traitement d&#39;une image candidate
Chandel et al. Evaluate and Propose a Novel Technique to Check Genuineness of the Currency Using Image Processing

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20140331