FR2737930A1 - Procede et systeme de reconnaissance de caracteres manuscrits - Google Patents

Procede et systeme de reconnaissance de caracteres manuscrits Download PDF

Info

Publication number
FR2737930A1
FR2737930A1 FR9510031A FR9510031A FR2737930A1 FR 2737930 A1 FR2737930 A1 FR 2737930A1 FR 9510031 A FR9510031 A FR 9510031A FR 9510031 A FR9510031 A FR 9510031A FR 2737930 A1 FR2737930 A1 FR 2737930A1
Authority
FR
France
Prior art keywords
elements
predetermined
document
boxes
handwritten characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9510031A
Other languages
English (en)
Other versions
FR2737930B1 (fr
Inventor
Didier Charpentier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Itesoft SA
Original Assignee
Itesoft SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Itesoft SA filed Critical Itesoft SA
Priority to FR9510031A priority Critical patent/FR2737930B1/fr
Publication of FR2737930A1 publication Critical patent/FR2737930A1/fr
Application granted granted Critical
Publication of FR2737930B1 publication Critical patent/FR2737930B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

Procédé et système de reconnaissance des caractères manuscrits sur un document de type formulaire contenant des cases prédéfinies par des motifs prédéterminés constitués d'éléments caractérisés par au moins un paramètre vérifiant une relation prédéterminée alors que la relation n'est pas vérifiée pour les caractères manuscrits placés dans les cases par un scripteur et destinés à être lus par un dispositif de reconnaissance optique. Le procédé consiste à lire des zones élémentaires successives du document, déterminer si le ou les paramètres caractérisant un objet lu dans un ensemble de zones élémentaires vérifient la relation prédéterminée, et éliminer les objets pour lesquels la relation prédéterminée est vérifiée comme étant des éléments constituant les motifs prédéterminés.

Description

La présente invention concerne la reconnaissance de caractères écrits à la main, et en particulier un procédé et un système de reconnaissance de caractères manuscrits sur des documents de type formulaire à remplir.
Les technologies modernes liées à l'informatique permettent de nos jours la lecture automatique de documents manuscrits dans des conditions où le coût de revient est très inférieur au coût d'une saisie manuelle.
Toutefois le traitement automatique de documents manuscrits n'est possible avec une grande efficacité que si on utilise des documents de type formulaire qui ont été préalablement imprimés en pré-casant les zones utiles qui devront être lues.
Le précasage oblige un utilisateur, ou scripteur, qui remplit un document du type formulaire à bien positionner ses caractères et à écrire lisiblement un caractère dans chaque case. Dans chacune des cases, le scripteur est invité à écrire une lettre (généralement en lettre majuscule), un chiffre ou une croix.
Le document manuscrit est ensuite lu par un capteur électro-optique qui délivre généralement un signal pouvant prendre deux niveaux, un premier niveau correspondant à la teinte des caractères manuscrits, et un deuxième niveau correspondant à la couleur du papier dans les cases. Un moyen de traitement d'images effectue ensuite une reconnaissance des caractères manuscrits se trouvant dans les cases et fait correspondre à chaque case une suite d'informations binaires selon des techniques connues.
Lors du traitement, il est évidemment nécessaire de séparer ou d'éliminer le précasage préalablement imprimé sur le document. Lorsqu'on utilise un précasage imprimé en noir, il est toujours possible que, du fait des débordements d'écriture sur les traits des cases, le traitement d'élimination des cases supprime une partie des caractères manuscrits et donc induise des erreurs dans la reconnaissance des caractères. Ainsi, un "O" ayant débordé sur le bord droit de la case sera reconnu comme un "C", et un "P" pourra être reconnu comme un "F".
Cet inconvénient a été surmonté par l'utilisation d'un précasage inactinique consistant à imprimer les cases dans une couleur claire (par exemple bleu clair, jaune clair) différente de celle du papier, mais qui n'est toutefois pas lue par le scanner ou capteur électrooptique. Un premier inconvénient d'un tel document exige qu'il ne fasse pas l'objet de photocopies, qui soit feraient disparaître les cases, soit les feraient apparaître en noir. Un deuxième inconvénient est qu'il est nécessaire de l'imprimer avec au moins deux couleurs, l'une pour les informations typographiques et l'autre pour les cases, ce qui induit un coût d'impression prohibitif et des contraintes lourdes d'exploitation. En outre, le contraste entre le fond du papier et les cases est nécessairement faible et le scripteur n'est pas suffisamment incité à cadrer son écriture dans la case.
C'est pourquoi le but principal de l'invention est de réaliser un procédé et un système de reconnaissance de caractères ne présentant pas de risque d'erreurs concernant les caractères reconnus.
Un autre but de l'invention est de réaliser un procédé et un système de reconnaissance de caractères manuscrits sur un document de type formulaire qui permette une élimination fiable et efficace des cases pré-imprimées sur le document.
Encore un autre but de l'invention est de fournir un document de type formulaire dont le précasage est éliminé facilement à la lecture par un dispositif de reconnaissance optique et qui puisse être utilisé même s'il s'agit d'une photocopie.
L'objet principal de l'invention est donc un système de reconnaissance de caractères manuscrits se trouvant dans des cases prédéfinies d'un document, à l'aide d'un dispositif de reconnaissance optique apte à reconnaître les caractères manuscrits. Les cases du document dans lesquelles sont écrits les caractères sont définies par des motifs prédéterminés imprimés sur le document et contenant des éléments caractérisés par un ou plusieurs paramètres vérifiant une relation prédéterminée.Le dispositif de reconnaissance optique comprend une source lumineuse pour éclairer le document, un moyen de lecture des zones successives du document, un moyen d'analyse pour déterminer si la relation prédéterminée est vérifiée par le ou les paramètres caractérisant les objets lus sur le document, et un moyen d'élimination pour éliminer les objets pour lesquels la relation prédéterminée est vérifiée comme étant des éléments constituants les motifs prédéterminés, de manière à ce que seuls les caractères manuscrits soient conservés à la sortie du dispositif de reconnaissance optique.
Un autre objet de 1 invention est un document de type formulaire contenant des cases imprimées pour y écrire des caractères manuscrits destinés à être lus par un dispositif de reconnaissance optique, les cases étant prédéfinies par des motifs prédéterminés constitués d'éléments caractérisés par au moins un paramètre vérifiant une relation prédéterminée de manière à pouvoir éliminer facilement, lors de la lecture du document, les objets dont le ou les paramètres vérifiant la relation prédéterminée comme étant des éléments constituants les motifs prédéterminés.
Encore un autre objet de l'invention est un procédé de reconnaissance de caractères manuscrits sur un document tel que défini ci-dessus, consistant à lire les zones élémentaires successives du document, déterminer si le ou les paramètres caractérisant un objet lu dans un ensemble de zones élémentaires vérifient la relation prédéterminée, et éliminer les objets pour lesquels la relation prédéterminée est vérifiée comme étant des éléments constituants les motifs prédéterminés.
Les buts, objets et caractéristiques de l'invention ressortiront mieux à la lecture de la description qui suit faite en référence aux dessins dans lesquels
la figure 1 représente une portion du document de type formulaire utilisé pour mettre en oeuvre l'invention,
les figures 2A à 2L représentent des exemples de motifs de positionnement utilisés dans le cadre de l'invention, les figures 2A à 2D illustrant des motifs dont les éléments constitutifs sont des traits fins obliques, les figures 2E à 2H illustrant des motifs dont les éléments constitutifs sont des points et les figures 21 à 2L illustrant des motifs dont les éléments constitutifs sont des logos de forme déterminée,
la figure 3 représente une case du document prédéfinie par des traits fins obliques, dans laquelle un caractère "A" majuscule a été écrit,
la figure 4 représente schématiquement un dispositif de reconnaissance de caractères utilisés pour la lecture du document selon l'invention,
la figure 5 représente un ensemble de zones élémentaires du document comportant un trait fin vertical en tant qu'élément du motif de positionnement et une portion de trait de caractère manuscrit,
la figure 6 représente un ensemble de zones élémentaires du document comportant des points en tant qu'éléments du motif de positionnement et une portion de trait de caractère manuscrit,
la figure 7 est un organigramme d'un logiciel utilisé pour l'élimination de traits fins comme éléments du motif de positionnement, et
la figure 8 est un organigramme d'un logiciel utilisé pour l'élimination des éléments de motif de positionnement dont la caractéristique est la croissance progressive de la densité de gauche à droite.
Un formulaire à remplir se présente généralement comme illustré sur la figure l. Le scripteur doit remplir des cases en suivant les indications imprimées pour chaque groupe de cases. Ainsi il doit inscrire son nom dans les cases de la première ligne 10, généralement en lettres majuscules, puis son prénom dans les cases de la deuxième ligne 12. Dans la troisième ligne 14, il doit indiquer son age en inscrivant deux chiffres. Dans certaines lignes comme la ligne 16 indiquée "SEXE", il doit mettre une croix dans une case, soit celle indiquée "M" (pour masculin), soit celle indiquée "F" (pour féminin).
Comme mentionné précédemment, les formulaires classiques dans lesquels les contours des cases sont imprimés, présentent des inconvénients au moment de la lecture du formulaire rempli par le scripteur. L'invention permet donc d'éviter ces inconvénients en définissant les cases par des motifs imprimés à chaque emplacement de case tels que représentés sur les figures 2A à 2L.
Sur les figures 2A à 2D, le motif de positionnement est constitué de traits fins parallèles inclinés à environ 45 par rapport à l'horizontale. Sur la figure 2A, les traits occupent toute la case ; sur la figure 2B, les traits ne sont imprimés que sur tout le contour ; et sur la figure 2D, les traits occupent toute la partie basse de la case. Dans le cas des figures 2C et 2D, l'ensemble des cases est appelé "peigne".
Sur les figures 2E à 2H, le motif de positionnement est constitué de points fins. le remplissage des cases par les éléments du motif est effectué de façon identique à celui des figures 2A à 2D, c'est à dire que sur la figure 2E, les points occupent toute la case ; sur la figure 2F, ils sont imprimés sur tout le contour ; sur la figure 2G, ils sont imprimés sur la partie basse du contour ; et sur la figure 2H, ils occupent toute la partie basse de la case.
Sur les figures 21 à 2L, le motif de positionnement est constitué d'éléments tous formés d'une ligne fine de forme prédéterminée, et qui seront appelés "logos" dans la suite de la description. Le remplissage des cases par les logos est identique respectivement à celui des figures 2A à 2D ou à celui des figures 2E à 2H.
Comme déjà mentionné, les éléments constituant les motifs sont caractérisés par un ou plusieurs paramètres vérifiant une relation prédéterminée. Ainsi, comme on le verra par la suite, dans le cas des figures 2A à 2D les éléments ont une dimension (la largueur) inférieure à une valeur prédéterminée, alors que dans le cas des figures 2E à 2H, c'est la surface des points (déterminée par deux dimensions) qui est inférieure à une valeur prédéterminée.
De façon générale, une relation prédéterminée doit être vérifiée par un ou plusieurs paramètres caractérisant les éléments du motif tels que une ou les deux dimensions d'un élément, la surface d'un élément, la position de chaque élément, l'écartement ente les deux éléments, ou des paramètres caractérisant la forme de l'élément.
Quel que soit le motif de positionnement utilisé pour définir les cases, il est imprimé avec la même encre que les indications imprimées telles que "NOM", "PRENOM",...
Bien que les exemples de motifs de positionnement illustrés par les figures 2A à 2L comportent des éléments identiques dans chaque case, il est possible de prévoir des combinaisons d'éléments différents, comme par exemple la moitié haute d'une case remplie de lignes parallèles inclinées alors que la moitié basse de la case est remplie de points. De même, les cases d'un même formulaire ne comportent pas forcément des motifs de positionnement identiques. Ainsi, dans la figure l, les cases correspondant au "NOM" peuvent être remplies de points alors que les cases correspondant au "PRENOM" sont remplies de logos.
Il est également possible de remplir par des éléments d'un motif donné seulement une partie de la case et dont le contour forme une indication pour guider le scripteur.
Ainsi, un ensemble de cases indiquant la date de naissance pourra être formé de deux cases dont le contour du motif forme un "J" (pour jour), deux cases dont le contour du motif forme un "M" (pour mois) et deux cases dont le contour du motif forme un "A" (pour année). Dans le même ordre d'idées, lorsqu'il s'agit de cases à remplir avec des chiffres, on peut prévoir des cases contenant des " 8 " en pointillés ou autres traits fins de sorte que le scripteur n'a plus qu'à accentuer avec son stylo certains traits du " 8 " pour faire apparaître clairement un chiffre de O à 9.
Enfin, on peut également choisir un motif dont la densité moyenne s'accroît progressivement, par exemple avec des éléments de plus en plus épais, de gauche à droite de la case.
Lorsque le scripteur remplit le formulaire, il utilise généralement un stylo à bille ou à pointe feutre pour tracer un caractère, un chiffre ou une croix ayant une largueur de trait sensiblement uniforme tel qu'illustré sur la figure 3 représentant un "A" manuscrit dans une case dont le motif est formé de traits fins inclinés. Même si les traits du caractère manuscrit ne sont pas de largeur uniforme, cette largeur est toutefois bien plus importante que celle des traits du motif.
Une fois rempli par le scripteur, le formulaire est lu au moyen d'un scanner, et, de façon générale, par un dispositif de reconnaissance optique ayant pour but de capter les images des zones du formulaire et d'identifier les caractères manuscrits ajoutés au formulaire.
Le traitement effectué par le dispositif de reconnaissance optique est principalement l'élimination des éléments du motif de positionnement de chaque case pour en reconnaître le caractère qui s'y trouve. Le traitement d'élimination peut avoir lieu directement par le capteur électronique du dispositif de reconnaissance de caractères lorsque le capteur a une faible résolution, ou postérieurement à la capture de l'image, au moyen d'un traitement numérique lorsque le capteur a une forte résolution.
Un dispositif de reconnaissance optique utilisé dans le cadre de l'invention est représenté sur la figure 4. Le dispositif dispose d'une source lumineuse 20 fournissant au document 22 un éclairement déterminé. Adjacent à la source lumineuse 20, est placé un capteur électro-optique 24 chargé de recueillir l'éclairement réfléchi par le document au fur et à mesure qu'il avance dans le sens de la flèche.
Les signaux fournis par le capteur 24 sont ensuite convertis en signaux numériques par le convertisseur analogique-numérique 26. Les signaux numériques résultants sont fournis à un processeur (ou micro-processeur) de façon à éliminer les motifs de positionnement, ou pour les emmagasiner dans une mémoire 30.
Lorsque le traitement d'élimination est effectué par le capteur électro-optique 24, ce dernier peut agir de façon analogique ou discrète. S'il agit de façon analogique (c'est à dire à la manière d'un photocopieur), les motifs à utiliser pour le précasage du document devront être composés d'éléments dont une dimension est inférieure au seuil de résolution du capteur. A la sortie du capteur, les éléments du motif n'ayant pas été lus par le capteur du fait de sa faible résolution, auront disparu et les signaux fournis ne représenteront que les seuls caractères manuscrits dont la largeur est généralement bien au-dessus du seuil de résolution du capteur. Les signaux peuvent ensuite être convertis en signaux numériques pour traitement ultérieur et reconnaissance des caractères.
Les capteurs électro-optiques les plus couramment utilisés sont en fait constitués d'une rangée de cellules photo-sensibles chargées de recueillir l'éclairement réfléchi d'autant de zones élémentaires correspondantes du document au fur et à mesure que celui-ci avance sous le capteur. Pour chacune des cellules photo-sensibles ayant recueilli l'éclairement réfléchi d'une zone élémentaire, le capteur émet un signal électrique représentatif de l'éclairement reçu par la zone élémentaire correspondante.
Le signal représentatif possède deux signaux de sortie en fonction d'un seuil d'éclairement choisi de telle manière que le fond du document corresponde à un premier niveau et que la teinte utilisée pour écrire les caractères corresponde à un second niveau du signal. Les signaux issus du capteur 24 sont ensuite convertis en signaux numériques par le convertisseur 26, les signaux de premier niveau étant convertis en "O" et les signaux de deuxième niveau étant convertis en "1".
Dans ce mode de réalisation, les dimensions des éléments du motif sont choisies de telle sorte que, lorsqu'un élément se trouve en face d'une cellule photosensible du capteur, celui-ci perçoive un éclairement inférieur au signal de premier niveau alors que l'éclairement réfléchi par un trait de caractère manuscrit provoque l'émission d'un signal de second niveau.
A titre d'exemple, on peut supposer que chaque zone élémentaire du document corresponde à un carré de 1 mm2, que le seuil d'éclairement du capteur est de 50 lux, et que les zones du document non imprimées procurent un éclairement de 100 lux alors que les zones imprimées du document réfléchissent un éclairement d'environ 10 lux. Dans ce cas, la portion de zone maximale occupée par un élément de motif et qui pourrait être perçue par le capteur, devrait être S répondant à l'équation
S x 10 + (l-S) x 100 > 50
c'est à dire S < 50/(l00-l0)
soit S < 55%
Pour illustrer cet exemple, la figure 5 montre une partie du document divisée en zones élémentaires 32 de 1 mm2. Le motif est constitué de traits fins 34. Une portion de caractère manuscrit 36 est également représentée sur la figure.Pour satisfaire la condition précédente, la largeur 1 des traits du motif devrait donc être inférieure à 0,55 mm, soit un diamètre inférieur à 0,838 mm.
On doit noter que dans l'exemple illustré sur la figure 6, les points ronds pourraient être remplacés par des points ayant une autre forme, par exemple rectangulaire, la relation prédéterminée restant toujours que la surface des points soit inférieure à une valeur donnée.
Dans les deux figures 5 et 6, la portion de caractère manuscrit 36 doit avoir une largeur supérieure à la largeur de cellule, c'est à dire à 1 mm dans cet exemple, pour que, même si l'image réfléchie de cette portion se trouve à cheval sur deux cellules photosensibles du capteur, l'une des deux zones au moins, fournisse un signal du second niveau.
Comme il a été mentionné précédemment, le traitement d'élimination des motifs imprimés peut également avoir lieu postérieurement à la capture des informations par le capteur, après avoir enregistré des bits l pour les zones élémentaires comportant des éléments de motifs imprimés ou des portions de caractères manuscrits. Bien entendu, ceci suppose que la capteur électro-optique ait un seuil de résolution lui permettant de capter l'image des éléments du motif.
Ainsi, on peut mettre en oeuvre un logiciel simple lorsque les motifs sont constitués d'éléments simples par exemple des lignes fines verticales ou obliques. En supposant que les cellules du capteur détectent des zones élémentaires de 0,1 mm, de telles lignes auront une largeur également de 0,1 mm. Par conséquent, une suite de 4 bits sur une zone sans caractère manuscrit ne pourra comporter au maximum que deux bits 1 consécutifs, soit 0110. Par contre, les traits d'un caractère manuscrit ont au minimum une largeur de 0,3 mm, résultant en des suites de bits comportant au minimum trois bits 1 consécutifs, soit 01110.
Le traitement à posteriori, effectué par le processeur 28 du dispositif de reconnaissance optique (voir figure 4) fait alors appel au logiciel représenté par l'organigramme de la figure 7, dans lequel i est le numéro de la zone dans une ligne, c'est à dire le rang du bit dans la suite à analyser, et "initiale (i)" est la valeur attribuée au bit de rang i par le traitement opéré.
Il est clair que dans ce traitement, les suites de bits dans lesquelles le premier et le quatrième bits sont 0, en particulier les suites 0110 correspondant aux éléments du motif, sont remplacées par des suites de bits
O. Les éléments du motif imprimé seront donc éliminés. A l'inverse, les suites comportant au moins trois bits 1 consécutifs du type 01110 correspondant à l'image d'un trait de caractère manuscrit ne seront pas éliminées.
Cependant, le traitement permettant d'éliminer les motifs dont les éléments sont caractérisés par leur forme, fait appel à une matrice comme expliqué ci-dessous.
En effet, on peut admettre que l'élément du motif d'une forme déterminée est contenu à l'intérieur d'un rectangle de zones élémentaires dont les zones périphériques ne contiennent pas de portion de l'élément.
Il en sera ainsi pour les logos en forme de croissants du motif représenté sur les figures 21 à 2L. Pour simplifier, on supposera que chacun des éléments occupe un carré de 0,4 mm x 0,4 mm, c'est à dire un carré maximum de 5 x 5 zones, les zones étant des carrés de 0,1 mm de côté. Dans ce cas, l'image du logo enregistrée par le capteur peut être représentée par la matrice de bits suivante
O O O O O O O
O Xl Yl Zl T1 Ul O
O X2 Y2 Z2 T2 U2 0
0 X3 Y3 Z3 T3 U3 0
0 X4 Y4 Z4 T4 U4 0
0 X5 Y5 Z5 T5 U5 0
O O O O O O O
dans laquelle Xl, Yl, Zi, Ti, Ui sont des bits 1 ou O selon que la cellule est occupée par une portion de logo ou non.
Le traitement consiste alors à utiliser la matrice de référence suivante
1 1 1 1 1 1 1
1 0 0 0 0 0 1
1 0 0 0 0 0 1
1 0 0 0 0 0 1
1 0 0 0 0 0 1
1 0 0 0 0 0 1
1 1 1 1 1 1 1
qui est multipliée, point par point, par la matrice précédente. Ensuite, on fait la somme de tous les résultats obtenus. Dans le cas présent, chaque produit ayant donné 0, la somme est égale à O. Dans ce cas, les bits Xi, Yi, Zi,
Ti, Ui sont tous remplacés par zéro. De la sorte, les éléments du motif tels que des logos seront éliminés en l'absence de caractère manuscrit.
Par contre, un caractère manuscrit a toujours une de ses dimensions supérieure à 7 zones élémentaires. Par conséquent, lors du traitement ci-dessus, au moins un des produits du bit correspondant à une portion du caractère par un bit 1 de contour de la matrice de référence sera égal à 1 et la somme de tous les produits sera au moins égale à 1. Dans ce cas, les bits de la matrice traitée ne sont pas modifiés et sont conservés comme étant représentatifs d'un caractère manuscrit.
Ce traitement par matrice de référence peut être appliqué au cas simple des motifs constitués de lignes verticales ou obliques vu précédemment. Il suffit en effet d'utiliser une matrice de référence d'une seule ligne telle que 1001 en supposant toujours que les éléments du motif ne peuvent pas occuper plus de 2 cellules consécutives.
On doit noter que, bien que dans l'exemple ci-dessus la matrice de référence ne contient qu'un élément, on peut imaginer d'utiliser une matrice de référence contenant deux ou plusieurs éléments de motif sans sortir du cadre de l'invention.
Il a été mentionné au début de cette description que la caractéristique du motif utilisé pouvait être d'avoir une densité moyenne qui s'accroît progressivement de gauche à droite. Dans ce cas, le traitement représenté par l'organigramme de la figure 8 peut être le suivant
- calcul du gradient de gauche à droite en soustrayant les valeurs des couples des zones successives sur chaque ligne horizontale, un tel gradient pouvant prendre une valeur positive (zone de droite fournissant un signal de niveau supérieur à la zone de gauche) ou négative (cas opposé),
- un seuillage avec une valeur de seuil supérieure au gradient maximal du motif, et fournissant trois valeurs +1 lorsque le gradient est supérieur au seuil, -1 lorsque le gradient est inférieur à l'opposé du seuil, 0 dans les autres cas,
- une intégration du résultat (en utilisant l'intégrale de Riemann par exemple) sur chaque ligne.
En sortie d'un tel traitement, soit la valeur de "couleur" est égale à O dans les zones sans caractère manuscrit, soit la valeur de "couleur" est égale à l pour les zones où se trouve un caractère manuscrit.
Enfin, les éléments constituant les motifs de positionnement peuvent être caractérisés par des paramètres définissant une forme particulière. Dans ce cas, le dispositif de reconnaissance optique devra d'abord reconnaître les éléments du motif pour pouvoir les éliminer. Une telle reconnaissance peut faire appel à différentes techniques bien connues qu'il est inutile de développer ici.

Claims (3)

REVENDICATIONS
1. Procédé de reconnaissance des caractères manuscrits sur un document de type formulaire contenant des cases imprimées (10, 12, 14, 16) pour y écrire des caractères manuscrits destinés à être lus par un dispositif de reconnaissance, lesdites cases étant prédéfinies par des motifs prédéterminés (figures 2A à 2L) constitués d'éléments caractérisés par au moins un paraiiètre vérifiant une relation prédéterminée alors que ladite relation prédéterminée n'est pas vérifiée pour les caractères manuscrits , ledit procédé comprenant les étapes suivantes::
- lecture des zones élémentaires successives du document,
- détermination si le ou les paramètres caractérisant un objet lu dans un ensemble de zones élémentaires, vérifient ladite relation prédéterminée, et
- élimination des objets pour lesquels ladite relation prédéterminée est vérifiée comme étant des éléments constituant lesdits motifs prédéterminés ;;
ledit procédé étant caractérisé en ce que lesdits motifs prédéterminés sont constitués d'éléments ayant une forme prédéterminée et l'étape de détermination consiste à comparer l'éclairement réfléchi par un ensemble de zones élémentaires du document pouvant contenir entièrement un ou plusieurs desdits éléments à une matrice de référence dont les éléments correspondent respectivement aux zones élémentaires dudit ensemble, de manière à éliminer, lors de l'étape d'élimination, les objets entièrement contenus dans tout ensemble dont la comparaison avec ladite matrice donne un résultat donné comme étant des éléments desdits motifs prédéterminés, et à ne conserver que les objets pour lesquels la comparaison avec ladite matrice donne un résultat opposé comme étant des portions de caractères manuscrits.
2. Procédé de reconnaissance des caractères manuscrits sur un document de type formulaire contenant des cases imprimées (10, 12, 14, 16) pour y écrire des caractères manuscrits destinés à être lus par un dispositif de reconnaissance, lesdites cases étant prédéfinies par des motifs prédéterminés (figures 2A à 2L) constitués d'éléments caractérisés par au moins un paramètre vérifiant une relation prédéterminée alors que ladite relation prédéterminée n'est pas vérifiée pour les caractères manuscrits , ledit procédé comprenant les étapes suivantes::
- lecture des zones élémentaires successives du document,
- détermination si le ou les paramètres caractérisant un objet lu dans un ensemble de zones élémentaires, vérifient ladite relation prédéterminée, et
- élimination des objets pour lesquels ladite relation prédéterminée est vérifiée comme étant des éléments constituant lesdits motifs prédéterminés
ledit procédé étant caractérisé en ce lesdits motifs prédéterminés sont constitués d'éléments dont la densité moyenne s'accroît progressivement de gauche à droite, et l'étape de détermination comprend les étapes de::
- calcul du gradient de densité de gauche à droite pour tout objet lu par le dispositif de reconnaissance optique obtenu en soustrayant les valeurs des couples des zones successives sur chaque ligne horizontale, un tel gradient pouvant prendre une valeur positive (zone de droite fournissant un signal de niveau supérieur à la zone de gauche) ou négative (cas opposé),
- seuillage avec une valeur de seuil supérieure au gradient maximal du motif, et fournissant trois valeurs +1 lorsque le gradient est supérieur au seuil, -1 lorsque le gradient est inférieur à l'opposé du seuil, 0 dans les autres cas,
- intégration du résultat sur chaque ligne, notamment en utilisant l'intégrale de Riemann, la valeur de "couleur" de sortie étant égale à 0 dans les zones sans caractère manuscrit, ou égale à 1 pour les zones où se trouve le caractère manuscrit.
3. Système de reconnaissance de caractères manuscrits se trouvant dans des cases prédéfinies d'un document (22) à l'aide d'un dispositif de reconnaissance optique apte a reconnaître lesdits caractères manuscrits en utilisant le procédé selon la revendication 1 ou 2;
ledit système étant caractérisé en ce que
- ledit dispositif de reconnaissance optique comprend une source lumineuse (20) pour éclairer le document, un moyen de lecture (24) des objets se trouvant dans des zones successives dudit document, un moyen d'analyse pour déterminer si ladite relation prédéterminée est vérifiée par le ou les paramètres caractérisant les objets lus par ledit moyen de lecture, et un moyen d'élimination pour éliminer les objets pour lesquels ladite relation prédéterminée est vérifiée comme étant des éléments constituant lesdits motifs prédéterminés, de manière à ce que seuls les caractères manuscrits soient conservés en sortie dudit dispositif de reconnaissance optique.
FR9510031A 1995-08-18 1995-08-18 Procede et systeme de reconnaissance de caracteres manuscrits Expired - Fee Related FR2737930B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR9510031A FR2737930B1 (fr) 1995-08-18 1995-08-18 Procede et systeme de reconnaissance de caracteres manuscrits

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9510031A FR2737930B1 (fr) 1995-08-18 1995-08-18 Procede et systeme de reconnaissance de caracteres manuscrits

Publications (2)

Publication Number Publication Date
FR2737930A1 true FR2737930A1 (fr) 1997-02-21
FR2737930B1 FR2737930B1 (fr) 1997-10-31

Family

ID=9482050

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9510031A Expired - Fee Related FR2737930B1 (fr) 1995-08-18 1995-08-18 Procede et systeme de reconnaissance de caracteres manuscrits

Country Status (1)

Country Link
FR (1) FR2737930B1 (fr)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0863476A2 (fr) * 1997-03-06 1998-09-09 Canon Kabushiki Kaisha Procédé d'amélioration du rapport signal sur bruit dans une image de pixels d'un symbole manuscrit
EP0896294A2 (fr) * 1997-08-04 1999-02-10 Xerox Corporation Méthode pour la représentation de documents et l'extraction de caractères
WO2000060531A2 (fr) * 1999-04-07 2000-10-12 Raf Technology, Inc. Extraction de donnees d'utilisateur de l'image scannee d'un formulaire pre-imprime
EP1310904A1 (fr) * 2000-06-02 2003-05-14 Japan Science and Technology Corporation Procede de traitement de document, support sur lequel est enregistre un programme de traitement de document et processeur de document

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A. HAMBURGEN: "Filterable preprinted guidelines for optical character recognition", IBM TECHNICAL DISCLOSURE BULLETIN, vol. 15, no. 10, March 1973 (1973-03-01), US, pages 3115 - 6, XP002001627 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0863476A2 (fr) * 1997-03-06 1998-09-09 Canon Kabushiki Kaisha Procédé d'amélioration du rapport signal sur bruit dans une image de pixels d'un symbole manuscrit
EP0863476A3 (fr) * 1997-03-06 1999-09-15 Canon Kabushiki Kaisha Procédé d'amélioration du rapport signal sur bruit dans une image de pixels d'un symbole manuscrit
EP0896294A2 (fr) * 1997-08-04 1999-02-10 Xerox Corporation Méthode pour la représentation de documents et l'extraction de caractères
EP0896294A3 (fr) * 1997-08-04 1999-11-03 Xerox Corporation Méthode pour la représentation de documents et l'extraction de caractères
US6023534A (en) * 1997-08-04 2000-02-08 Xerox Corporation Method of extracting image data from an area generated with a halftone pattern
WO2000060531A2 (fr) * 1999-04-07 2000-10-12 Raf Technology, Inc. Extraction de donnees d'utilisateur de l'image scannee d'un formulaire pre-imprime
WO2000060531A3 (fr) * 1999-04-07 2001-04-05 Raf Technology Inc Extraction de donnees d'utilisateur de l'image scannee d'un formulaire pre-imprime
EP1310904A1 (fr) * 2000-06-02 2003-05-14 Japan Science and Technology Corporation Procede de traitement de document, support sur lequel est enregistre un programme de traitement de document et processeur de document
EP1310904A4 (fr) * 2000-06-02 2007-03-28 Japan Science & Tech Agency Procede de traitement de document, support sur lequel est enregistre un programme de traitement de document et processeur de document

Also Published As

Publication number Publication date
FR2737930B1 (fr) 1997-10-31

Similar Documents

Publication Publication Date Title
US9596378B2 (en) Method and apparatus for authenticating printed documents that contains both dark and halftone text
CA2688399C (fr) Procede et dispositif de securisation de documents
EP2054836B1 (fr) Procedes et dispositifs de securisation et d&#39;authentification de documents
US8306325B2 (en) Text character identification system and method thereof
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
EP2476244B1 (fr) Procédé de détection de pages blanches et machine multifonction correspondante
FR2724521A1 (fr) Systeme de traitement d&#39;image a multiples plages de tonalites
FR2913791A1 (fr) Appareil et procede d&#39;elimination de bruits lies a des caracteres
BE1026159A1 (fr) Système de traitement d’image et procede de traitement d’image
EP1063606A2 (fr) Reconnaissance automatique de caractères sur fond structuré par combinaison des modèles de fond et des caractères
FR2737930A1 (fr) Procede et systeme de reconnaissance de caracteres manuscrits
WO2008078009A1 (fr) Procede de caracterisation d&#39;elements aleatoires de la reproduction de graphismes leur conferant les proprietes d&#39;un sceau
JPH11110481A (ja) フォームレンダリング及び文字抽出方法
FR2872609A1 (fr) Dispositif et procede de synthese d&#39;images d&#39;empreinte, et programme de synthese d&#39;images d&#39;empreinte
JP2000182115A (ja) 紙葉類の状態識別装置と紙葉類の汚れ具合識別装置と紙葉類の印刷状態識別装置と紙葉類の表裏識別装置
FR2756952A1 (fr) Systeme de reconnaissance de caracteres manuscrits
CN113177556A (zh) 一种文本图像增强模型、训练方法、增强方法及电子设备
WO2020144225A1 (fr) Procédé de traitement d&#39;images numériques
CN101106630A (zh) 图像处理设备和方法
EP3440827A1 (fr) Procede et systeme de separation de documents lors d&#39;une numerisation par lot
EP2901415B1 (fr) Procédé d&#39;identification de cellules dans un tissu biologique
EP2082336B1 (fr) Procede de recherche et de reconnaissance rapides d&#39;une image numerique representative d&#39;au moins un motif graphique dans une banque d&#39;images numeriques
EP0863476A2 (fr) Procédé d&#39;amélioration du rapport signal sur bruit dans une image de pixels d&#39;un symbole manuscrit
JP3679993B2 (ja) 画像処理装置
FR2532773A1 (fr) Procede de lecture et de transmission de caracteres

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20100430

RN Application for restoration
FC Decision of inpi director general to approve request for restoration
PLFP Fee payment

Year of fee payment: 20