BE1020588A5 - METHOD OF RECOGNIZING FORMS, COMPUTER PROGRAM PRODUCT, AND MOBILE TERMINAL. - Google Patents

METHOD OF RECOGNIZING FORMS, COMPUTER PROGRAM PRODUCT, AND MOBILE TERMINAL. Download PDF

Info

Publication number
BE1020588A5
BE1020588A5 BE201200548A BE201200548A BE1020588A5 BE 1020588 A5 BE1020588 A5 BE 1020588A5 BE 201200548 A BE201200548 A BE 201200548A BE 201200548 A BE201200548 A BE 201200548A BE 1020588 A5 BE1020588 A5 BE 1020588A5
Authority
BE
Belgium
Prior art keywords
reliable
pattern recognition
distance
models
character
Prior art date
Application number
BE201200548A
Other languages
French (fr)
Inventor
Muelenaere Pierre De
Michel Dauw
Olivier Dupont
Patrick Verleysen
Original Assignee
Iris Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/427,062 external-priority patent/US9496359B2/en
Priority claimed from US13/442,192 external-priority patent/US8463054B2/en
Application filed by Iris Sa filed Critical Iris Sa
Application granted granted Critical
Publication of BE1020588A5 publication Critical patent/BE1020588A5/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/168Smoothing or thinning of the pattern; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

Procédé de reconnaissance de formes, produit de programme d'ordinateur et terminal mobileShape recognition method, computer program product and mobile terminal

Domaine techniqueTechnical area

La présente invention concerne un procédé de reconnaissance de formes. La présente invention concerne également un produit de programme d'ordinateur pour mettre en oeuvre ledit procédé de reconnaissance de formes et un terminal mobile doté dudit procédé de reconnaissance de caractères dans un format exécutable sur le terminal mobile.The present invention relates to a pattern recognition method. The present invention also relates to a computer program product for implementing said pattern recognition method and a mobile terminal having said character recognition method in executable format on the mobile terminal.

Art antérieurPrior art

Les systèmes de reconnaissance optique de caractères (ROC) sont connus dans la technique. Ils convertissent l'image du texte imprimé en code lisible par machine en utilisant un procédé de reconnaissance de caractères. Dans un système ROC, les images de ce qui pourrait être des caractères sont isolées et un procédé de reconnaissance de caractères est utilisé pour identifier le caractère.Optical Character Recognition (OCR) systems are known in the art. They convert the image of the printed text into machine readable code using a character recognition method. In an OCR system, images of what could be characters are isolated and a character recognition method is used to identify the character.

Un procédé de reconnaissance de caractères, tel que celui montré sur la figure 1, comprend en général: (a) un processus d'extraction des caractéristiques 102 qui extrait un vecteur de caractéristiques de l'image d'entrée de caractère 101.A character recognition method, such as that shown in FIG. 1, generally comprises: (a) a feature extraction process 102 that extracts a feature vector from the character input image 101.

(b) un processus de classification 103 qui compare le vecteur de caractéristiques avec des modèles 104 et assigne le vecteur de caractéristiques à une classe d’un ensemble donné de classes, qui est la sortie 105.(b) a classification process 103 that compares the feature vector with models 104 and assigns the feature vector to a class of a given set of classes, which is the output 105.

Dans les systèmes ROC de l'état de la technique, le processus de" classification doit non seulement produire une classe mais aussi des classes alternatives et des niveaux de confiance. Le système ROC comprend alors un système de décision contextuelle qui utilisera ces informations avec des informations contextuelles linguistiques ou typographiques pour produire le texte présentant la meilleure reconnaissance.In prior art ROC systems, the "classification process must not only produce a class but also alternative classes and confidence levels, and the ROC system includes a contextual decision system that will use this information with linguistic or typographical contextual information to produce the text with the best recognition.

L'ensemble des caractéristiques qui sont calculées décrit les formes des caractères à reconnaître. Elles doivent être discriminantes, insensibles à la déformation des caractères et aux bruits additionnels et offrir des niveaux de confiance fiables.The set of characteristics that are calculated describes the shapes of the characters to be recognized. They must be discriminating, insensitive to distortion of characters and additional noise and offer reliable levels of confidence.

D'autre part, certains processus de reconnaissance de caractères sont basés sur la correspondance avec des modèles mais ces processus de reconnaissance de caractères ne peuvent reconnaître que du texte écrit dans un nombre limité de polices de caractères. Cependant, les niveaux de confiance offerts par ces processus de reconnaissance de caractères sont normalement plus fiables que les systèmes de reconnaissance de caractères basés sur les caractéristiques.On the other hand, some character recognition processes are based on matching patterns, but these character recognition processes can only recognize text written in a limited number of fonts. However, the confidence levels offered by these character recognition processes are normally more reliable than feature-based character recognition systems.

Divulgation de l'inventionDisclosure of the invention

Un but de cette invention est de fournir un procédé de reconnaissance de formes qui offre des niveaux de confiance fiables sans être restreint à un nombre limité de polices de caractères.An object of this invention is to provide a pattern recognition method that provides reliable levels of confidence without being restricted to a limited number of fonts.

Un autre but de cette invention est de fournir un procédé de reconnaissance de formes qui est suffisamment pètit et rapide pour être intégré dans un copieur numérique ou utilisé dans un terminal mobile tel qu'un smartphone ou une tablette PC.Another object of this invention is to provide a pattern recognition method which is fast and fast enough to be integrated in a digital copier or used in a mobile terminal such as a smartphone or tablet PC.

Un autre but de cette invention est de fournir un produit de programme d'ordinateur pour mettre en oeuvre ledit procédé de reconnaissance de formes et un terminal mobile doté dudit procédé de reconnaissance de formes dans un format exécutable sur le terminal mobile.Another object of this invention is to provide a computer program product for implementing said pattern recognition method and a mobile terminal having said pattern recognition method in executable format on the mobile terminal.

Ces buts sont atteints selon l'invention telle que décrite dans les revendications indépendantes.These objects are achieved according to the invention as described in the independent claims.

Telle qu'utilisée ici, la "reconnaissance de formes" est censée signifier toute forme de reconnaissance d'une forme ou image numérique comme par exemple des caractères ou des combinaisons de caractères, des éléments graphiques, des sons (par exemple dans la reconnaissance vocale) ou autres, au moyen d'un quelconque type de dispositif informatique. Il est à noter que, quand il est utilisé pour des caractères, le système de reconnaissance de cette invention n'est pas limité à la reconnaissance d'un caractère mais peut aussi reconnaître de multiples caractères tels que des ligatures (par exemple fi, ffi) ou d'autres caractères se touchant (par exemple rn, vv, des parties d'un caractère telles qu'un accent (par exemple un accent aigu dans é) ou même d'autres symboles graphiques. Cette invention peut aussi prévoir de reconnaître des caractères traversés par un soulignement ou un autre élément graphique.As used herein, "pattern recognition" is meant to mean any form of recognition of a form or digital image such as characters or combinations of characters, graphics, sounds (eg in speech recognition ) or others, by means of any type of computer device. It should be noted that, when used for characters, the recognition system of this invention is not limited to character recognition but may also recognize multiple characters such as ligatures (e.g. ) or other characters touching (for example, rn, vv, parts of a character such as an accent (for example an acute accent in é) or even other graphic symbols. characters crossed by an underline or other graphic element.

Tel qu'utilisé ici, "modèle" est censé signifier la combinaison d'au moins une image binaire contenant au moins des bits fiables d'une forme reconnue et une classe à laquelle le modèle appartient. Par exemple, un modèle pour un "a" minuscule peut contenir une image binaire de bits fiables du caractère "a" dans une police de caractères donnée, éventuellement des images binaires pour des versions normale et en gras, et un code ou identifiant représentant la classe du caractère "a". Donc les modèles pour "a" minuscule dans différentes polices de caractères contiennent différentes images binaires, étant donné que la forme du caractère diffère d'une police de caractères à l'autre, mais appartiennent à la même classe.As used herein, "template" is meant to mean the combination of at least one binary image containing at least reliable bits of a recognized form and a class to which the template belongs. For example, a template for a lowercase "a" may contain a binary bit image of the "a" character in a given font, possibly binary images for normal and bold versions, and a code or identifier representing the class of the character "a". So the templates for "a" lowercase in different fonts contain different binary images, since the shape of the character differs from one font to another, but belong to the same class.

Dans un premier aspect, la présente invention fournit un processus de reconnaissance de formes qui comprend, en partant d'une forme d'entrée: a) la normalisation de la forme d’entrée en une forme normalisée de" taille prédéterminée; b) la génération d'une forme fiable de la forme normalisée en utilisant au moins un opérateur morphologique; c) le calcul d'une distance entre la forme fiable et les modèles sélectionnés qui sont sélectionnés dans une bibliothèque de modèles dans laquelle chaque modèle appartient à une classe; d) la classification de la forme fiable dans au moins une des classes des modèles sélectionnés au moyen d'au moins une méthode de classification non paramétrique qui utilise lesdites classes de modèles sélectionnés et lesdites distances calculées comme entrées et donne des classes identifiées ainsi que des niveaux de confiance.In a first aspect, the present invention provides a pattern recognition process that comprises, from an input form: a) normalizing the input form into a standardized form of "predetermined size; generating a reliable form of the normalized form using at least one morphological operator; c) calculating a distance between the trusted form and the selected models that are selected from a model library in which each model belongs to a class (d) classifying the reliable form in at least one of the classes of the selected models by means of at least one nonparametric classification method that uses said selected model classes and said calculated distances as inputs and gives identified classes as well as levels of trust.

On a constaté qu'en combinant ces étapes, on peut obtenir un procédé de reconnaissance de formes qui offre des niveaux de confiance fiables sans être restreint à un nombre limité de polices de caractères. En premier lieu, la fiabilité de la forme à reconnaître est notamment améliorée par la normalisation et l'opérateur morphologique. De plus, les distances calculées entre les formes fiables et les modèles sont transformées en niveaux de confiance de classe par la méthode de classification non paramétrique. Comme la classification continue à fournir des niveaux de confiance, ceux-ci peuvent être pris én compte lors d'étapes subséquentes pour décider entre, par exemple, une combinaison de caractères ou une autre sur la base de, par exemple, une analyse contextuelle (regarder dans le dictionnaire, comparer les tailles de caractère, etc.).It has been found that by combining these steps, a pattern recognition method can be obtained which provides reliable levels of confidence without being restricted to a limited number of fonts. In the first place, the reliability of the shape to be recognized is notably improved by the normalization and the morphological operator. In addition, calculated distances between reliable forms and models are transformed into class confidence levels by the nonparametric classification method. As the classification continues to provide confidence levels, these can be taken into account in subsequent steps to decide between, for example, a combination of characters or another based on, for example, a contextual analysis ( look in the dictionary, compare character sizes, etc.).

Dans des formes de réalisation selon l'invention, la normalisation peut comprendre, par exemple pour des caractères, une normalisation d'une image d'entrée,de caractère en une image binaire qui peut avoir une largeur et une hauteur sélectionnées entre une hauteur et une largeur prédéfinies. Le processus de normalisation peut également accroître l'épaisseur des traits de caractère pour les traits minces et diminuer" l'épaisseur pour les traits épais.In embodiments of the invention, the normalization may include, for example for characters, normalization of an input image, character to a binary image which may have a selected width and height between a height and a predefined width. The normalization process can also increase the thickness of character lines for thin lines and decrease the thickness for thick lines.

Dans des formes de réalisation selon l'invention, la génération de formes fiables à partir de la forme normalisée en utilisant un ou plusieurs opérateurs morphologiqués peut, par exemple, comprendre l'utilisation d'opérateurs de dilatation et d'érosion. La morphologie mathématique est une théorie et une technique d'analyse et de traitement de structures géométriques. L'idée de base dans la morphologie binaire est de sonder une image avec une forme simple prédéfinie et de tirer des conclusions sur la mesure dans laquelle cette forme correspond ou non aux formes dans l'image. Cette simple "sonde" est appelée élément structurant et est elle-même une image binaire. On peut trouver d'autres informations dans Serra, J. et al, “Mathematical morphology and its applications to image processing”, Kluwer Academie Publishers, 1994, qui est incorporé par référence dans son entièreté dans le présent document.In embodiments according to the invention, the generation of reliable forms from the normalized form using one or more morphological operators may, for example, include the use of expansion and erosion operators. Mathematical morphology is a theory and a technique for analyzing and processing geometric structures. The basic idea in the binary morphology is to probe an image with a predefined simple form and to draw conclusions about the extent to which this shape corresponds or not to the shapes in the image. This simple "probe" is called structuring element and is itself a binary image. Further information can be found in Serra, J. et al, "Mathematical morphology and its applications to image processing", Kluwer Academie Publishers, 1994, which is incorporated by reference in its entirety herein.

Dans des formes de réalisation selon l'invention, le calcul d'une distance (qui est une mesure pour la différence mutuelle) entre les formes fiables et les modèles sélectionnés peut être effectué au moyen d'un arbre de décision. Dans le cas des caractères, la distance peut être, par exemple, le nombre de pixels qui sont différents, mais d'autres distances sont possibles.In embodiments according to the invention, the calculation of a distance (which is a measure for the mutual difference) between the reliable forms and the selected models can be performed by means of a decision tree. In the case of characters, the distance may be, for example, the number of pixels that are different, but other distances are possible.

Au lieu de calculer les distances des formes fiables par rapport à chacun des modèles de forme comme cela se fait dans l'art antérieur, la présente invention décrit des formes de réalisation avec un arbre de décision qui peut accélérer ce calcul sans pertë de précision.Instead of calculating the distances of the reliable shapes with respect to each of the shape models as is done in the prior art, the present invention describes embodiments with a decision tree that can speed up this calculation without the need for precision.

Dans des formes de réalisation selon l'invention, la classification des formes fiables en utilisant une ou plusieurs méthodes de classification non paramétrique peut comprendre, par exemple, une des méthodes de classification non paramétrique suivantes: K plus proches voisins (KNN), fenêtres de Parzen, réseau de neurones probabiliste, fonction de base radiale (RBF).In embodiments according to the invention, the classification of reliable forms using one or more non-parametric classification methods may include, for example, one of the following non-parametric classification methods: K nearest neighbors (KNN); Parzen, probabilistic neural network, radial base function (RBF).

L'utilisation de méthodes de classification non paramétrique pour la" reconnaissance de formes présente l'avantage de partir de l'hypothèse que les formes de la fonction de densité sous-jacente ne sont pas connues. Les fonctions de densité p (x / wi) peuvent être estimées à partir de formes échantillons (par exemple fenêtres de Parzen - réseau de neurones probabiliste). D'autres méthodes peuvent être utilisées, lesquelles estiment directement les probabilités postérieures (les k plus proches voisins). On peut trouver d'autres informations dans Ripley, B.D., “Pattern Récognition and Neural Networks”, Cambridge University Press, 1996, ISBN 0 521 46086 7, qui est incorporé ici par référence dans son entièreté.The use of nonparametric classification methods for pattern recognition has the advantage of assuming that the forms of the underlying density function are not known.The density functions p (x / wi ) can be estimated from sample forms (eg Parzen windows - probabilistic neural network) Other methods can be used which directly estimate the posterior probabilities (the k nearest neighbors). information in Ripley, BD, "Pattern Recognition and Neural Networks", Cambridge University Press, 1996, ISBN 0 521 46086 7, which is incorporated herein by reference in its entirety.

Dans d'autres aspects, l'invention concerne un programme informatique comprenant des fragments de code de logiciel permettant d'exécuter les étapes du procédé décrit ici, lesquels sont stockés sur un support de stockage et prévus pour être chargés dans une mémoire de dispositif informatique pour exécution; ou un dispositif informatique comportant un tel programme informatique tel que par exemple un terminal mobile ou un copieur numérique; ou un dispositif informatique comportant un programme informatique permettant d'exécuter certaines étapes décrites ici et prévu pour communiquer avec un serveur externe qui est prévu pour exécuter d'autres étapes décrites ici.In other aspects, the invention relates to a computer program comprising software code fragments for performing the steps of the method described herein, which are stored on a storage medium and intended to be loaded into a computing device memory. for execution; or a computer device comprising such a computer program such as for example a mobile terminal or a digital copier; or a computer device having a computer program for performing certain steps described herein and provided for communicating with an external server that is intended to perform other steps described herein.

Brève description des dessins L'invention sera expliquée de manière plus détaillée au moyen de la description qui suit et des dessins annexés.Brief Description of the Drawings The invention will be explained in more detail by way of the following description and the accompanying drawings.

La figure 1 montre un schéma fonctionnel d'un procédé de reconnaissance de caractères de l'art antérieur basée sur les caractéristiques.Figure 1 shows a block diagram of a feature-based character recognition method of the prior art.

La figure 2, montre un schéma fonctionnel d'une forme de réalisation d'un procédé de reconnaissance de caractères selon l'invention.Figure 2 shows a block diagram of an embodiment of a character recognition method according to the invention.

La figure 3 montre un schéma fonctionnel d'une forme de" réalisation d'une étape de normalisation d'un procédé de reconnaissance de caractères selon l'invention.Figure 3 shows a block diagram of a form of performing a normalization step of a character recognition method according to the invention.

La figure 4 montre un schéma fonctionnel d'une forme de réalisation de la génération de premières et deuxièmes images binaires fiables d'un procédé de reconnaissance de caractères selon l'invention.Fig. 4 shows a block diagram of one embodiment of generating reliable first and second binary images of a character recognition method according to the invention.

La figure 5 montre un schéma fonctionnel d'une forme de réalisation du calcul des distances entre un caractère examiné et des modèles, qui peut être utilisée dans un procédé de reconnaissance de caractères selon l'invention.Fig. 5 shows a block diagram of an embodiment of calculating the distances between an examined character and patterns, which may be used in a character recognition method according to the invention.

La figure 6 montre un schéma fonctionnel de la classification non paramétrique qui peut être utilisée dans un procédé de reconnaissance de caractères selon l'invention.Figure 6 shows a block diagram of the non-parametric classification that can be used in a character recognition method according to the invention.

La figure 7 montre un schéma fonctionnel d'une forme de réalisation du calcul des distances entre le caractère examiné et les modèles en utilisant arbre de décision à décision souple.Figure 7 shows a block diagram of one embodiment of calculating the distances between the examined character and the models using a soft decision decision tree.

La figure 8 illustre également une forme de réalisation de la génération de premières et deuxièmes images binaires fiables.Figure 8 also illustrates an embodiment of generating reliable first and second binary images.

La figure 9 illustre en outre la comparaison entre une image binaire fiable de pixels noirs d'un caractère et une image binaire fiable de pixels blancs d'un modèle.Figure 9 further illustrates the comparison between a reliable black pixel image of a character and a reliable bit image of white pixels of a model.

La figure 10 illustre en outre un arbre de décision binaire.Figure 10 further illustrates a binary decision tree.

La figure 11 montre le calcul de la distance courante autour d'un noeud de l'arbre de décision binaire.Figure 11 shows the calculation of the current distance around a node of the binary decision tree.

La figure 12 illustre une imagé binaire d'un caractère souligné et l'image binaire compagnon de pixels cachés.Figure 12 illustrates a binary image of an underlined character and the binary companion image of hidden pixels.

Modes de mise en oeuvre de l'inventionModes of implementing the invention

La présente invention sera décrite en rapport avec des formes de réalisation particulières et en référence à certains dessins mais l'invention" n'est toutefois pas limitée à cela mais uniquement par les revendications. Les dessins décrits ne sont que schématiques et sont non limitatifs.The present invention will be described in connection with particular embodiments and with reference to certain drawings, but the invention is however not limited thereto but only by the claims The drawings described are only schematic and are nonlimiting.

En outre, les termes premier, deuxième, troisième et similaire dans la description et dans les revendications sont utilisés pour faire la distinction entre éléments similaires et pas nécessairement pour décrire un ordre séquentiel ou chronologique. Les termes sont interchangeables dans les circonstances appropriées et les formes de réalisation de l'invention peuvent fonctionner dans d'autres séquences que celles décrites ou illustrées dans le présent document.In addition, the terms first, second, third and similar in the description and in the claims are used to distinguish between similar elements and not necessarily to describe a sequential or chronological order. The terms are interchangeable under the appropriate circumstances and the embodiments of the invention may operate in other sequences than those described or illustrated herein.

De plus, les diverses formes de réalisation, bien que qualifiées de "préférées" doivent être interprétées comme des façons exemplaires dont l'invention peut être mise en oeuvre plutôt que comme limitant la portée de l'invention.In addition, the various embodiments, although referred to as "preferred", should be interpreted as exemplary ways in which the invention can be implemented rather than as limiting the scope of the invention.

Le terme "comprenant", utilisé dans les revendications, ne doit pas être interprété comme étant limité aux moyens ou étapes énumérés ci-dessous; il n'exclut pas d'autres éléments ou étapes. Il doit être interprété comme spécifiant la présence des éléments, nombres entiers, étapes ou composants cités auxquels il est fait référence mais n'exclut pas la présence ou l'ajout d'un ou plusieurs autres éléments, nombres entiers, étapes ou composants ou groupes de ceux-ci. Donc, la portée de l'expression "un dispositif comprenant A et B" ne devrait pas être limitée à des dispositifs comprenant uniquement les composants A et B, au contraire, en ce qui concerne la présënte invention, les seuls composants énumérés du dispositif sont A et B, et la revendication devrait également être interprétée comme incluant les équivalents de ces composants.The term "comprising", as used in the claims, should not be construed as being limited to the means or steps listed below; it does not exclude other elements or steps. It must be interpreted as specifying the presence of the elements, integers, steps or components referred to but does not exclude the presence or addition of one or more other elements, integers, steps or components or groups of these. Therefore, the scope of the term "a device comprising A and B" should not be limited to devices comprising only components A and B, on the contrary, with respect to the present invention, the only listed components of the device are A and B, and the claim should also be interpreted to include the equivalents of these components.

Une forme de réalisation d'un procédé de reconnaissance de caractères selon l'invention, montrée sur la figure 2, comprend les étapes suivantes, commençant par une image d'entrée de caractère 201 : (a) normalisation 202 du caractère en une image binaire ayant une largeur et une hauteur sélectionnées entre hauteur et largeur prédéfinies. Ce processus de normalisation peut également accroître l'épaisseur des" traits de caractère pour les traits minces et diminuer l'épaisseur pour les traits épais; (b) génération d'images binaires fiables 203 à partir de l'image binaire de caractère normalisée en utilisant des opérateurs morphologiques tels que, par exemple, les opérateurs de dilatation et d'érosion; (c) calcul d'une distance 204 entre les images binaires fiables et les modèles sélectionnés; (d) classification 206 en utilisant une ou plusieurs méthodes de classification non paramétrique telles que, par exemple, celles des k plus proches voisins (KNN), des fenêtres de Parzen, du réseau de neurones probabiliste, de la fonction de base radiale (RBF) qui donnent des classes et niveaux de confiance comme sortie 207.An embodiment of a character recognition method according to the invention, shown in FIG. 2, comprises the following steps, starting with a character input image 201: (a) normalizing 202 of the character into a binary image having a selected width and height between pre-defined height and width. This normalization process can also increase the thickness of "character traits for thin lines and decrease thickness for thick lines; (b) generation of reliable binary images 203 from the normalized character binary image to using morphological operators such as, for example, dilation and erosion operators, (c) calculating a distance 204 between the reliable bit images and the selected models, (d) classifying 206 using one or more methods of non-parametric classifications such as, for example, those of the k nearest neighbors (KNN), Parzen windows, probabilistic neural network, radial base function (RBF) which give classes and levels of confidence as output 207 .

Dans ce qui suit, des formes de réalisation préférées de ces étapes seront décrites de manière plus détaillée.In the following, preferred embodiments of these steps will be described in more detail.

Normalisation d'imageImage normalization

Le processus de normalisation, représenté sur la figure 3, transforme l'image d'entrée de caractère en une image binaire 307 ayant une largeur et une hauteur fixes. Largeur et hauteur sont sélectionnées à l'étape 303 dans une liste 304 de largeurs et hauteurs prédéfinies. Les largeur et hauteur sélectionnées sont celles qui ont le rapport largeur/hauteur le plus proche du rapport largeur/hauteur du caractère qui est calculé à l'étape 302. Par exemple, des largeur et hauteur prédéfinies pourraient être 24x30, 16x30 ou 8x30. Pour la reconnaissance de petits symboles tels que le point, la virgule ou les guillemets, les largeur et hauteur prédéfinies peuvent être plus petites.The normalization process, shown in Fig. 3, transforms the character input image into a binary image 307 having a fixed width and height. Width and height are selected at step 303 in a list 304 of predefined widths and heights. The selected width and height are those that have the width / height ratio closest to the character width / height ratio that is calculated in step 302. For example, predefined width and height could be 24x30, 16x30, or 8x30. For the recognition of small symbols such as the dot, comma or quotation marks, the predefined width and height may be smaller.

Le processus.de normalisation peut épaissir les traits minces, par exemple des traits de 1 ou 2 pixels sont épaissis à 3 pixels. Le processus de normalisation peut également amincir les traits épais en épaississant par exemple les minces coulées blanches.The normalization process can thicken the thin lines, for example lines of 1 or 2 pixels are thickened to 3 pixels. The normalization process can also thin thick lines by thickening, for example, thin white flows.

L'image d'entrée du caractère peut être binaire ou en nuances de gris mais l'image normalisée 307 est binaire, un pixel ayant la valeur 1 pour noir et 0 pour blanc (ou vice-versa). Le processus peut également prévoir une image binaire compagnon appelée image binaire de pixels cachés ayant la valeur 0 pour "ne sait pas" et 1 autrement. Cette image binaire peut être utilisée pour traiter un caractère traversé par un soulignement ou un autre élémént graphique (voir exemple sur la figure 12). Dans ce cas, la couleur de certains pixels n'est pas connue et la valeur "ne sait pas" est donnée.The input image of the character may be binary or grayscale but the normalized image 307 is binary, a pixel having a value of 1 for black and 0 for white (or vice versa). The process may also provide a companion binary image called hidden pixels binary image of 0 for "do not know" and 1 otherwise. This binary image may be used to process a character crossed by an underline or other graphic element (see example in Figure 12). In this case, the color of some pixels is not known and the value "do not know" is given.

Génération d'images binaires fiablesGeneration of reliable binary images

Des pixels entourés par d'autres pixels de la même couleur sont plus fiables que des pixels au bord des caractères. En utilisant l'opérateur morphologique d'érosion (voir exemples sur les figures 8 et 9), une image binaire avec des pixels noirs fiables peut être formée et en utilisant l'opérateur morphologique d'érosion sur l'image binaire inversée, une image binaire avec des pixels blancs fiables peut être formée. L'élément structurant de l'opération d'érosion peut être, par exemple, un carré noir 3x3 ou une croix avec une ligne horizontale et une ligne verticale ayant chacune 3 pixels noirs.Pixels surrounded by other pixels of the same color are more reliable than pixels at the edge of the characters. Using the morphological erosion operator (see examples in Figures 8 and 9), a binary image with reliable black pixels can be formed and using the morphological erosion operator on the inverted binary image, an image binary with reliable white pixels can be formed. The structuring element of the erosion operation may be, for example, a 3x3 black square or a cross with a horizontal line and a vertical line each having 3 black pixels.

Dans une forme de réalisation, montrée sur la figure 4, un premier jeu d'images binaires fiables de pixels noirs et blancs 403, 4Ö6 est généré respectivement par érosion 402 d'une image de d'entrée de caractère 401 (qui peut être l'image binaire normalisée 307 générée sur la figure 3) et par inversion 404 et érosion 405 de cette image 401. Un deuxième jeu additionnel d'images binaires fiables de pixels noirs et blancs 409, 410 sont créées par érosion du premier jeu d'images binaires fiables au moyen d'étapes d'érosion subséquentes 407, suivies par une étape OU (OR) 408.In one embodiment, shown in Fig. 4, a first set of reliable bit images of black and white pixels 403, 406 are respectively generated by erosion 402 of a character input image 401 (which may be the normalized binary image 307 generated in FIG. 3) and by inversion 404 and erosion 405 of this image 401. A second additional set of reliable bit images of black and white pixels 409, 410 are created by erosion of the first set of images reliable binaries through subsequent erosion steps 407, followed by OR step 408.

Dans cette forme de réalisation, 4 éléments de structure sont utilisés pour les étapes d'érosion 407: une ligne horizontale, une ligne verticale et deux lignes diagonales de 3 pixels noirs.In this embodiment, 4 structural elements are used for the erosion steps 407: a horizontal line, a vertical line and two diagonal lines of 3 black pixels.

Il est à noter que l'érosion sur une image binaire peut être effectuée très rapidement en utilisant des opérations logiques sur des octets machine.It should be noted that erosion on a binary image can be performed very quickly using logical operations on machine bytes.

Modèlesmodels

Un modèle 205 dans des formes de réalisation de l'invention peut comprendre un nombre prédéfini d'images binaires ayant une largeur et une hauteur prédéfinies et la classe associée (par exemple, identification de caractère).A model 205 in embodiments of the invention may include a predefined number of binary images having a predefined width and height and the associated class (e.g., character identification).

Dans une première forme de réalisation, un modèle contient l'image binaire d'un caractère qui a été normalisée à une largeur et une hauteur prédéfinies. Des images binaires fiables peuvent être générées pendant le processus de reconnaissance de caractères en utilisant les mêmes opérations que pour le caractère examiné.In a first embodiment, a template contains the binary image of a character that has been normalized to a predefined width and height. Reliable bitmaps can be generated during the character recognition process using the same operations as for the examined character.

Dans une deuxième forme de réalisation, un modèle contient des images binaires fiables pré-calculées en utilisant les mêmes opérations que pour le caractère examiné.In a second embodiment, a template contains pre-computed reliable binary images using the same operations as for the examined character.

Dans une troisième forme de réalisation, les images binaires fiables contiennent des images binaires fiables pré-calculées mais en agrégeant différents exemples d'images binaires de caractère. Cela peut se faire pour réduire le nombre de modèles. Par exemple, une version normale et une version en gras d'un caractère peuvent se trouver dans le même modèle.In a third embodiment, the reliable bit images contain pre-calculated reliable binary images but aggregating different examples of binary character images. This can be done to reduce the number of models. For example, a normal version and a bold version of a character may be in the same template.

Le calcul de distance entre le caractère examiné et un modèle.The distance calculation between the examined character and a model.

Une forme de réalisation de l'étape de calcul de distance 204 est montrée sur la figure 5. Des modèles sont sélectionnés aux étapes 501, 502 et des opérations OU exclusif (XOR) 503 sont effectuées entre images binaires fiables du caractère examiné et images binaires fiables du modèle.An embodiment of the distance calculation step 204 is shown in FIG. 5. Models are selected in steps 501, 502 and exclusive OR (XOR) operations 503 are performed between reliable binary images of the examined character and binary images. reliable model.

Des opérations OU exclusif (XOR) sont effectuées entre les images" binaires fiables de pixels noirs et les images binaires fiables de pixels blancs. Le nombre de pixels "allumés" dans le résultat est utilisé pour calculer une distance à l'étape 504.Exclusive OR (XOR) operations are performed between the "reliable black pixel" and "white pixel" reliable bit images The number of "lit" pixels in the result is used to calculate a distance at step 504.

Dans la forme de réalisation préférée, si: - A1b est la première image binaire fiable de pixels noirs du caractère examiné; - A1w est la première image binaire fiable de pixels blancs du caractère examiné; - T1b est la première image binaire fiable de pixels noirs du modèle; - T1w est la première image binaire fiable de pixels blancs du modèle; - A2b est la première image binaire fiable de pixels noirs du caractère examiné; - A2w est la première image binaire fiable de pixels blancs du caractère examiné; - T2b est la première image binaire fiable de pixels noirs du modèle; - T2w est la première image binaire fiable de pixels blancs du modèle; les opérations suivantes sont effectuéès à l'étape 503: R1 = (A1b XOR T1w) OR (A1w XOR T1b) R2 = (A2b XOR T2w) OR (A2w XOR T2b)In the preferred embodiment, if: - A1b is the first reliable black pixel image of the examined character; A1w is the first reliable bit image of white pixels of the examined character; T1b is the first reliable black pixel image of the model; T1w is the first reliable bit image of white pixels of the model; A2b is the first reliable black pixel image of the examined character; A2w is the first reliable bit image of white pixels of the examined character; - T2b is the first reliable binary image of black pixels of the model; - T2w is the first reliable bit image of white pixels of the model; the following operations are performed in step 503: R1 = (A1b XOR T1w) OR (A1w XOR T1b) R2 = (A2b XOR T2w) OR (A2w XOR T2b)

Distance = #(R1) +4 x#(R2) avec #() la fonction qui calcule le nombre de pixels "allumés".Distance = # (R1) +4 x # (R2) with # () the function that calculates the number of "on" pixels.

Dans une forme de réalisation, A1h l'image binaire de pixels cachés est utilisée et une opération ET (AND)est effectuée pour calculer RT et R2' RT = R1 AND A1h R2' = T2 AND,A1h Distance = #(R T) + 4 x#(R2’) avec #() la fonction qui calcule lé nombre de pixels "allumés".In one embodiment, A1h the binary image of hidden pixels is used and an AND operation is performed to calculate RT and R2 'RT = R1 AND A1h R2' = T2 AND, A1h Distance = # (RT) + 4 x # (R2 ') with # () the function that calculates the number of "on" pixels.

Il est à noter que les opérations OU exclusif (XOR), OU (OR) et ET (AND) sur une image binaire sont effectuées très rapidement en utilisant les opérations logiques correspondantes sur dès octets machine.It should be noted that exclusive OR (XOR), OR (OR) and AND (AND) operations on a binary image are performed very quickly using the corresponding logic operations on machine bytes.

Classification non paramétriqueNon parametric classification

La classification est effectuée en utilisant une méthode de classification non paramétrique qui donne des classes et des niveaux de confiance, voir figure 6. L'entrée 601 est constituée des classes sélectionnées et des distances obtenues par le processus de la figure 5. Celle-ci est soumises à l'étape de classification non paramétrique 602 et la sortie résultante 603 est constituée des classes et niveaux de confiance identifiés.The classification is performed using a non-parametric classification method that gives classes and confidence levels, see Figure 6. Input 601 consists of the selected classes and the distances obtained by the process of Figure 5. This is subjected to the non-parametric classification step 602 and the resulting output 603 consists of the identified classes and confidence levels.

La modélisation paramétrique de fonctions de densité de probabilité part de l'hypothèse que les formes des fonctions de densité de probabilité sont connues. Cette connaissance provient typiquement soit d'une analyse scientifique du processus physique soit d'une analyse empirique des données observées, par exemple une distribution gaussienne. Ce qu'il reste alors à faire, en inférence statistique, c'est d'estimer les paramètres associés à la fonction de densité de probabilité.Parametric modeling of probability density functions is based on the assumption that the forms of probability density functions are known. This knowledge typically comes from either a scientific analysis of the physical process or an empirical analysis of the observed data, for example a Gaussian distribution. What remains to be done, in statistical inference, is to estimate the parameters associated with the probability density function.

L'estimation de densité non paramétrique plus sophistiquée qui est utilisée selon l'invention comprend des techniques qui ne font aucune hypothèse sur les formes des fonctions de; densité de probabilité - à l'exception de la faible hypothèse que les fonctions dè densité de probabilité sont des fonctions lisses - et peuvent représenter des fonctions de densité de probabilité arbitraires avec suffisamment d'échantillons. Une technique de ce type est l'estimation de densité par les fenêtres de Parzen. D'autres techniques possibles sont celles des k plus proches voisins (KNN), du réseau de neurones probabiliste ou de la fonction de base radiale (RBF). »The more sophisticated nonparametric density estimation that is used according to the invention includes techniques that make no assumptions about the forms of the functions of; probability density - with the exception of the weak assumption that probability density functions are smooth functions - and may represent arbitrary probability density functions with enough samples. A technique of this type is the density estimation by the Parzen windows. Other possible techniques are those of the k nearest neighbors (KNN), the probabilistic neural network or the radial base function (RBF). "

La classification non paramétrique est en général plus lente que la classification paramétrique, mais la vitesse est améliorée dans cette forme de réalisation préférée en utilisant la priorisation de classes possibles, par' exemple en donnant à des polices de caractères fréquemment utilisées une priorité plus élevée dans la classification. Les caractères non classifiés ou mal classifiés sont utilisés à des fins d'entraînement, par exemple pour l'entraînement du processus de classification.The nonparametric classification is generally slower than the parametric classification, but the speed is improved in this preferred embodiment using the prioritization of possible classes, for example by giving frequently used fonts a higher priority in the classification. Unclassified or misclassified characters are used for training purposes, for example for training the classification process.

Par exemple, la vitesse peut être améliorée en sélectionnant un nombre limité de modèles représentatifs. La sélection des modèles peut se faire dans un processus d'entraînement sur un grand nombre d'échantillons de caractère dans diverses polices de caractères. Les échantillons de caractère sont ordonnés en partant des caractères appartenant à la police de caractères la plus fréquente vers la police de caractères la moins fréquente. Une bibliothèque de modèles est tout d'abord construite avec les modèles correspondant aux caractères des polices de caractères les plus fréquentes. Des modèles sont ensuite ajoutés dans la bibliothèque pour les caractères non classifiés ou mal classifiés.For example, speed can be improved by selecting a limited number of representative models. The selection of models can be done in a training process on a large number of character samples in various fonts. Character samples are ordered from characters in the most common font to the least frequent font. A template library is first constructed with the templates corresponding to the characters of the most frequent fonts. Templates are then added to the library for unclassified or misclassified characters.

Arbre de décisionDecision tree

Les arbres de décision sont bien connus dans l'art. Une décision est prise en traversant l'arbre du noeud racine vers un noeud terminal. À chaque noeud non terminal d'un arbre, une décision locale est prise pour sélectionner un chemin vers un noeud enfant. Cette décision locale est prise en examinant une sélection de caractéristiques. Un arbre de décision est rapide mais souffre d'une perté de préfcision due à l'accumulation d'erreurs de décision locale.Decision trees are well known in the art. A decision is made by traversing the tree from the root node to a terminal node. At each non-terminal node of a tree, a local decision is made to select a path to a child node. This local decision is made by examining a selection of features. A decision tree is fast but suffers from a prefect loss due to the accumulation of local decision errors.

Dans des formes de réalisation préférées de l'invention, dont des exemples sont expliqués au moyen des figures 7a-b et 10, un arbre de décision comportant des décisions "souples" est utilisé pour exécuter les étapes qui combineQt la sélection de modèles et le calcul de distances. À chaque noeud, une distance courante est calculée et tous les noeuds sont visités à moins que la distance courante dépasse un seuil.In preferred embodiments of the invention, examples of which are explained by means of FIGS. 7a-b and 10, a decision tree with "soft" decisions is used to perform the steps that combine the selection of models and the distance calculation. At each node, a current distance is calculated and all nodes are visited unless the current distance exceeds a threshold.

Dans la forme de réalisation de la figure 7a, des images binaires" fiables de caractère sont entrées 701 et soumises à l'étape 703 à un arbre de décision 702. L'étape 703 comprend le calcul de distances au moyen de décisions souples et produit des classes de modèles sélectionnées et des distances à l'étape 704. L'arbre de décision peut être un arbre binaire comme montré sur la figure 10, c'est-à-dire que chaque noeud 1001, 1002, 1003 a toujours deux noeuds enfants 1002, 1003, 1004, 1005. Un noeud terminal 1006 correspond à un modèle.In the embodiment of Fig. 7a, "reliable" character binary images are inputted 701 and subjected to step 703 to a decision tree 702. Step 703 includes calculating distances by means of soft decisions and produces selected model classes and distances at step 704. The decision tree may be a binary tree as shown in FIG. 10, i.e. each node 1001, 1002, 1003 always has two nodes children 1002, 1003, 1004, 1005. A terminal node 1006 corresponds to a model.

Chaque noeud 1001-1006 contient une liste de pixels noirs fiables et de pixels blancs fiables. Une distance locale est dout est calculée à chaque noeud en comparant les pixels fiablesidu caractère examiné avec les pixels fiables dans la liste. La distance courante dout de ce noeud est la distance courante c/,n du noeud parent incrémenté par la distance locale Ad, voir figure 11. Au noeud terminal 1006, la distance courante est la distance entre le caractère et le modèle et donc l'arbre de décision donne la même précision que la comparaison directe des images binaires fiables.Each node 1001-1006 contains a list of reliable black pixels and reliable white pixels. A local distance is calculated at each node by comparing the reliable pixels of the examined character with the reliable pixels in the list. The current distance dout of this node is the current distance c /, n of the parent node incremented by the local distance Ad, see FIG. 11. At the terminal node 1006, the current distance is the distance between the character and the model and therefore the decision tree gives the same precision as direct comparison of reliable binary images.

Quand la distance courante dépasse un seuil prédéfini pour un noeud, ce noeud et tous ses noeuds enfants sont éliminés.When the current distance exceeds a predefined threshold for a node, that node and all of its child nodes are discarded.

La valeur du seuil est choisie en équilibrant la vitesse attendue et la précision attendue.The value of the threshold is chosen by balancing the expected speed and the expected accuracy.

Quand un hoeud terminal 1006 est atteint, la classe du modèle et la distance sont enregistrées. La classe des modèles sélectionnés et les distances calculées sont utilisées dans la méthode de classification non paramétrique qui donne les classes identifiées ainsi que des valeurs de confiance. Quand aucun noeud terminal n'est àtteint, le caractère examiné est rejeté comme n'étant pas un caractère.When a terminal hoop 1006 is reached, the class of the model and the distance are recorded. The class of selected models and calculated distances are used in the nonparametric classification method which gives the identified classes as well as confidence values. When no terminal node is reached, the examined character is rejected as not being a character.

Dans la forme de réalisation de la figure 7b, des images binaires fiables de caractère sont entrées 705 et l'arbre de décision 7Ö6 examine uniquement les pixels appartenant aux deuxièmes images binaires fiables. Les distances calculées à l'étape 707 correspondent alors à 4 x #(R2) et un résultat intermédiaire est produit 708 comprenant des modèles sélectionnés et des premières parties de distances. À l'étape 710, #(R1)" est alors calculé en comparant directement les premières images binaires fiables du caractère examiné et les premières images binaires fiables du modèle sélectionné 709 afin d'obtenir la distance totale, produite à l'étape 711 avec les classes de modèles sélectionnés.In the embodiment of Figure 7b, reliable bit images of character are inputted 705 and decision tree 7Ö6 only examines the pixels belonging to the second reliable bit images. The distances calculated in step 707 then correspond to 4 x # (R2) and an intermediate result is produced 708 including selected patterns and first portions of distances. In step 710, # (R1) "is then calculated by directly comparing the first reliable bit images of the examined character and the first reliable bit images of the selected template 709 to obtain the total distance, produced in step 711 with the selected model classes.

i t !i t!

Construction de l'arbre de décisionConstruction of the decision tree

Dans la forme de réalisation préférée, l'arbre de décision est construit du bas vers le haut. Les noeuds terminaux sont ajoutés en premier. Chaque noeud terminal est associé à un modèle. Ils forment une liste de modèles. Les 2 modèles qui sont les plus semblables dans cette liste sont sélectionnés et un noeud est ajouté. Ses enfants sont les noeuds correspondant aux modèles sélectionnés. Un nouveau modèle est construit et associé au nouveau noeud: ses images binaires fiables contiennent les pixels fiables qui sont communs aux 2 modèles. Chacun des 2 noeuds enfants reçoit une liste de pixels fiables que l'on ne trouve que dans son modèle.In the preferred embodiment, the decision tree is constructed from bottom to top. Terminal nodes are added first. Each terminal node is associated with a model. They form a list of models. The 2 models that are most similar in this list are selected and a node is added. His children are the nodes corresponding to the selected models. A new model is built and associated with the new node: its reliable binary images contain the reliable pixels that are common to both models. Each of the 2 child nodes receives a list of reliable pixels that can only be found in its model.

Les modèles correspondant aux 2 noeuds enfants sont enlevés de la liste des modèles et le nouveau modèle est ajouté. Les modèles sont de nouveau examinés pour sélectionner les 2 modèles qui sont les plus semblables et un autre noeud est ajouté de la même manière. Des noeuds sont ajoutés jusqu'à ce que la liste des modèles soit vide et l'arbre de décision est alors terminé. Les modèles peuvent alors être retirés de l'arbre.The models corresponding to the 2 child nodes are removed from the model list and the new model is added. The models are again examined to select the 2 models that are the most similar and another node is added in the same way. Nodes are added until the model list is empty and the decision tree is then complete. Models can then be removed from the tree.

D'autres formes de réalisationOther embodiments

Les formes de réalisation selon l'inventión sont des processus, des algorithmes et un code de logiciel pour exécuter les étapes comme décrit dans le présent document, des supports de stockage sur lesquels ces processus, algorithmes et code de logiciel sont stockés et des dispositifs et systèmes pour exécuter ces processus, algorithmes et code de logiciel.Embodiments according to the invention are processes, algorithms and software code for performing the steps as described herein, storage media on which these processes, algorithms and software code are stored and devices and systems to execute these processes, algorithms and software code.

Des formes de réalisation selon l'invention peuvent comprendre des" dispositions, par exemple des fragments de code de logiciel, pour combiner l'image d'entrée numérique contenant une ou plusieurs formes d'entrée avec l'information textuelle numérique obtenue par la reconnaissance et stocker le tout dans un fichier combiné. Le fichier combiné est de préférence compressé de telle manière que différentes parties ou couches du fichier ou de l'image soient compressées avec des algorithmes de compression différents optimisés vers la partie ou couche concernée. Un algorithme d'hyper-compression est de préférence utilisé. Des exemples d'un tel procédé de compression élevée sont divulgués, par exemple, dans les demandes de brevet des États-Unis US 5778092 (A) et US 2008273807 (A1) qui sont toutes les deux incorporées ici par référence dans leur entièreté. Les deux algorithmes utilisent un plan d'avant-plan de faible résolution et un plan d'arrière-plan de faible résolution et un plan binaire de haute résolution afin d'obtenir la compression requise ainsi qu'une résolution élevée pour le texte. Par conséquent, dans une forme de réalisation du système de la présente invention, le code de logiciel de système comprend également des fragments de code pour compresser l'image résultant de la combinaison de l'image d'entrée graphique et du tèxte reconnu en utilisant un procédé de compression élevée qui segmente l'image en données bitonales et données de couleur et compressent ces données séparément avec un procédé de compression adapté au type de données. Le procédé de compression élevée pourrait suivre le modèle MRC (Mixed Raster Content - contenu de trame graphique mixte), objet de la recommandation T.44 de l'ITU-T.Embodiments of the invention may include provisions, eg software code fragments, for combining the digital input image containing one or more input forms with the digital textual information obtained by the recognition The combined file is preferably compressed in such a way that different parts or layers of the file or image are compressed with different compression algorithms optimized for the part or layer concerned. Hyper-compression is preferably used Examples of such a high compression process are disclosed, for example, in US Patent Applications US 5778092 (A) and US 2008273807 (A1) both of which are incorporated herein by reference. incorporated herein by reference in their entirety Both algorithms use a low-resolution foreground plane and a low-level background plane resolution and a high-resolution bitmap to obtain the required compression as well as a high resolution for the text. Therefore, in one embodiment of the system of the present invention, the system software code also includes code fragments for compressing the image resulting from the combination of the graphic input image and the recognized protocol using a high compression method that segments the image into bitonal data and color data and compresses the data separately with a compression method adapted to the data type. The high compression method could follow the Mixed Raster Content (MRC) model, which is the subject of the ITU-T Recommendation T.44.

Avec les mesures prises comme décrit dans le présent document, l'invention peut prendre la forme d'une application d'exécution sur un terminal mobile ou d'un terminal mobile exécutant cette application. Le terminal mobile peut fonctionner avec un système d'exploitation Windows® standard de Microsoft® tel que Windows XP® ou Windows 7® de Microsoft®, mais d'autres systèmes d'exploitation peuvent aussi être" utilisés comme, par exemple, iOS, Android, Blackberry OS, Windows Phone 7, webOS de HP, ou autre.With the measurements taken as described herein, the invention may take the form of an execution application on a mobile terminal or a mobile terminal executing this application. The handheld can work with a Microsoft® standard Windows® operating system such as Microsoft® Windows XP® or Windows 7®, but other operating systems can also be "used as, for example, iOS, Android, Blackberry OS, Windows Phone 7, HP webOS, or whatever.

Les étapes mentionnées dans le présent document peuvent être appliquées comme des programmes indépendants ou peuvent être incorporées ou intégrées dans les logiciels pilotes ou peuvent être prévues comme plugiciels pour coopérer avec des applications logicielles existantes mais peuvent aussi être prévues d'autres façons connues de la personne de métier.The steps mentioned in this document may be applied as independent programs or may be incorporated or integrated into the pilot software or may be provided as plug-ins to cooperate with existing software applications but may also be provided in other ways known to the individual business.

Les étapes mentionnées dans le présent document peuvent également être exécutées de manière distribuée sur différents dispositifs, certaines étapes par exemple étant exécutées sur un terminal mobile et d'autres étapes étant exécutées sur un serveur externe, en utilisant par exemple un modèlé de livraison SaaS (Software as a Service - logiciel en tant que service).The steps mentioned in this document may also be performed in a distributed manner on different devices, for example some steps being performed on a mobile terminal and other steps being performed on an external server, for example using a SaaS delivery model ( Software as a Service - software as a service).

Claims (24)

1. Procédé de reconnaissance de formes comprenant, en commençant par une forme d'entrée, les étapes de: a) normalisation de la forme d'entrée en une forme normalisée de taille prédéterminée; b) génération d'une forme fiable à partir de la forme normalisée en utilisant au moins un opérateur morphologique; c) calcul d'une distance entre la forme fiable et les modèles sélectionnés qui sont sélectionnés dans une bibliothèque de modèles dans laquelle chaque modèle appartient à une classe; caractérisé en ce que ladite sélection est effectuée au moyen d’un arbre de décision comprenant une pluralité de nœuds conduisant à une pluralité de nœuds terminaux, chaque nœud contenant une liste de pixels noirs fiables et de pixels blancs fiables et chaque nœud terminal formant un desdits modèles sélectionnés; en ce que ledit calcul de distance comprend : le calcul d'une distance locale à chaque nœud en comparant les pixels fiables de ladite forme fiable avec lesdits pixels noirs et blancs fiables dans ladite liste; l'incrémentation à chaque nœud d'une distance courante par la distance locale, de sorte que la distance courante au nœud terminal est ladite distance entre la forme fiable et le modèle sélectionné; et l’élimination des nœuds pour lesquels ladite distance courante dépasse un seuil prédéterminé; et en ce que le procédé comprend en outre une étape de: d) classification de la forme fiable dans au moins une des classes des modèles sélectionnés au moyen d'au moins une méthode de classification non paramétrique qui utilise lesdites classes des modèles sélectionnés et lesdites distances calculées comme entrées et produit des classes identifiées ainsi que des niveaux de confiance.A pattern recognition method comprising, beginning with an input form, the steps of: a) normalizing the input form into a standardized form of predetermined size; b) generating a reliable form from the normalized form using at least one morphological operator; c) calculating a distance between the trusted form and the selected models that are selected in a model library in which each model belongs to a class; characterized in that said selecting is performed by means of a decision tree comprising a plurality of nodes leading to a plurality of terminal nodes, each node containing a list of reliable black pixels and reliable white pixels and each terminal node forming one of said nodes selected models; in that said distance calculation comprises: calculating a local distance at each node by comparing the reliable pixels of said reliable form with said reliable black and white pixels in said list; incrementing at each node a current distance by the local distance, so that the current distance at the terminal node is said distance between the trusted form and the selected model; and eliminating nodes for which said current distance exceeds a predetermined threshold; and in that the method further comprises a step of: d) classifying the reliable form in at least one of the classes of the selected models by means of at least one nonparametric classification method which uses said classes of the selected models and said calculated distances as inputs and product of identified classes as well as confidence levels. 2. Procédé de reconnaissance de formes comme dans la revendication 1, dans lequel la normalisation comprend un changement de l'épaisseur des traits de caractères de la forme d'entrée.A pattern recognition method as in claim 1, wherein the normalization comprises a change in the thickness of the character strokes of the input form. 3. Procédé de reconnaissance de formes comme dans la revendication 2, dans lequel le changement de l'épaisseur comprend une augmentation de l'épaisseur pour les minces traits de caractère et une diminution de l'épaisseur pour les épais traits de caractère.The pattern recognition method as in claim 2, wherein the change in thickness comprises an increase in thickness for thin character lines and a decrease in thickness for thick character traits. 4. Procédé de reconnaissance de formes comme dans la revendication 1, dans lequel un dudit au moins un opérateur morphologique est l'érosion.4. A pattern recognition method as in claim 1, wherein one of said at least one morphological operator is erosion. 5. Procédé de reconnaissance de formes comme dans la revendication 4, dans lequel une première forme fiable est générée par ladite érosion et dans lequel une deuxième forme fiable est générée par érosion de la première forme fiable.A method of pattern recognition as in claim 4, wherein a first reliable form is generated by said erosion and wherein a second reliable form is generated by erosion of the first reliable form. 6. Procédé de reconnaissance de formes comme dans la revendication 4, dans lequel ladite érosion est effectuée en utilisant des opérations logiques sur des octets machine.The method of pattern recognition as in claim 4, wherein said erosion is performed using logic operations on machine bytes. 7. Procédé de reconnaissance de formes comme dans la revendication 1, dans lequel un dudit au moins un opérateur morphologique est la dilatation.The method of pattern recognition as in claim 1, wherein one of said at least one morphological operator is the dilation. 8. Procédé de reconnaissance de formes comme dans la revendication 1, dans lequel ladite sélection de modèles dans la bibliothèques de modèles est effectuée par un processus d'appariement de modèles.The pattern recognition method as in claim 1, wherein said selection of patterns in the model library is performed by a pattern matching process. 9. Procédé de reconnaissance de formes comme dans la revendication 1, dans lequel ladite sélection de modèles dans la bibliothèque de modèles est effectuée au moyen d'un arbre de décision suivi par un processus d'appariement de modèles.The pattern recognition method as in claim 1, wherein said selection of templates in the template library is performed by means of a decision tree followed by a pattern matching process. 10. Procédé de reconnaissance de formes comme dans la revendication 1, dans lequel ladite au moins une méthode de classification non paramétrique est choisie dans le groupe consistant en: estimation de densité par fenêtres de Parzen, K voisins les plus proches, réseau de neurones probabiliste, fonction de base radiale.The method of pattern recognition as in claim 1, wherein said at least one non-parametric classification method is selected from the group consisting of: Parzen window density estimation, K nearest neighbors, probabilistic neural network , radial basic function. 11. Procédé de reconnaissance de formes comme dans la revendication 1, dans lequel ladite classification comprend la priorisation d'un ensemble prédéterminé de modèles parmi tous les modèles possibles.The method of pattern recognition as in claim 1, wherein said classification comprises prioritizing a predetermined set of patterns from all possible patterns. 12. Procédé de reconnaissance de formes comme dans la revendication 11, dans lequel ladite priorisation comprend l'attribution aux modèles correspondant à des polices de caractères fréquemment utilisées d'une priorité plus élevée.The method of pattern recognition as in claim 11, wherein said prioritization comprises assigning to patterns corresponding to frequently used character fonts a higher priority. 13. Produit de programme d'ordinateur pouvant être directement chargé dans une mémoire d'ordinateur, comprend des parties de code de logiciel pour exécuter, en commençant par une forme d'entrée, les étapes de: a) normalisation de la forme d'entrée en une forme normalisée de taille prédéterminée; b) génération d'une forme fiable à partir de la forme normalisée en utilisant au moins un opérateur morphologique; c) calcul d'une distance entre la forme fiable et les modèles sélectionnés qui sont sélectionnés dans une bibliothèque de modèles dans laquelle chaque modèle appartient à une classe; d) classification de la forme fiable dans au moins une des classes des modèles sélectionnés au moyen d'au moins une méthode de classification non paramétrique qui utilise lesdites classes des modèles sélectionnés et lesdites distances calculées comme entrées et produit des classes identifiées ainsi que des niveaux de confiance.A computer program product that can be directly loaded into a computer memory, includes software code portions for executing, beginning with an input form, the steps of: a) normalizing the form of entering a standardized form of predetermined size; b) generating a reliable form from the normalized form using at least one morphological operator; c) calculating a distance between the trusted form and the selected models that are selected in a model library in which each model belongs to a class; d) classifying the reliable form in at least one of the classes of the selected models using at least one non-parametric classification method that uses said classes of the selected models and said distances calculated as inputs and outputs of the identified classes as well as levels of confidence. 14. Produit de programme d'ordinateur comme dans la revendication 13, dans lequel la normalisation comprend un changement de l'épaisseur des traits de caractères de la forme d'entrée, dans lequel le changement de l'épaisseur comprend une augmentation de l'épaisseur pour de minces traits de caractère et une diminution de l'épaisseur pour d'épais traits de caractère.The computer program product as in claim 13, wherein the normalization comprises a change in the thickness of the character strokes of the input form, wherein the change in thickness comprises an increase of the Thickness for thin character lines and a decrease in thickness for thick character traits. 15. Produit de programme d'ordinateur comme dans la revendication 13, dans lequel un dudit au moins un opérateur morphologique est l'érosion par laquelle une première forme fiable est générée et dans lequel une deuxième forme fiable est générée par érosion de la première forme fiable.The computer program product as in claim 13, wherein one of said at least one morphological operator is erosion whereby a first reliable form is generated and wherein a second reliable form is generated by erosion of the first form reliable. 16. Produit de programme d'ordinateur comme dans la revendication 15, dans lequel ladite érosion est effectuée en utilisant des opérations logiques sur des octets machine.The computer program product as in claim 15, wherein said erosion is performed using logic operations on machine bytes. 17. Produit de programme d'ordinateur comme dans la revendication 13, dans lequel ladite sélection de modèles dans la bibliothèque de modèles est effectuée au moyen d'un arbre de décision.The computer program product as in claim 13, wherein said selection of models in the model library is performed by means of a decision tree. 18. Produit de programme d'ordinateur comme dans la revendication 17, dans lequel ledit arbre de décision comprend une pluralité de noeuds conduisant à une pluralité de noeuds terminaux, chaque noeud contenant une liste de pixels noirs fiables et de pixels blancs fiables et chaque noeud terminal formant un desdits modèles sélectionnés; dans lequel ledit calcul de distance comprend: le calcul d'une distance locale à chaque noeud en comparant les pixels fiables de ladite forme fiable avec lesdits pixels noirs et blancs fiables dans ladite liste; l'incrémentation à chaque noeud d'une distance courante par la distance locale, de sorte que la distance courante au noeud terminal est ladite distance entre la forme fiable et le modèle sélectionné; et dans lequel ladite sélection de modèles comprend l'élimination des noeuds auxquels ladite distance courante dépasse un seuil prédéterminé.The computer program product as in claim 17, wherein said decision tree comprises a plurality of nodes leading to a plurality of terminal nodes, each node containing a list of reliable black pixels and reliable white pixels and each node. terminal forming one of said selected models; wherein said distance calculation comprises: calculating a local distance to each node by comparing the reliable pixels of said reliable form with said reliable black and white pixels in said list; incrementing at each node a current distance by the local distance, so that the current distance to the terminal node is said distance between the trusted form and the selected model; and wherein said model selection comprises eliminating nodes at which said current distance exceeds a predetermined threshold. 19. Produit de programme d'ordinateur comme dans la revendication 13, dans lequel ladite au moins une méthode de classification non paramétrique est choisie dans le groupe consistant en: estimation de densité par fenêtres de Parzen, K voisins les plus proches, réseau de neurones probabiliste, fonction de base radiale.The computer program product as in claim 13, wherein said at least one non-parametric classification method is selected from the group consisting of: Parzen window density estimation, K nearest neighbors, neural network probabilistic, radial basic function. 20. Produit de programme d'ordinateur comme dans la revendication 13, dans lequel ladite classification comprend la priorisation d'un ensemble prédéterminé de modèles parmi tous les modèles possibles, dans lequel ladite priorisation comprend l'attribution aux modèles correspondant à des polices de caractères fréquemment utilisées d'une priorité plus élevée.The computer program product as in claim 13, wherein said classification comprises prioritizing a predetermined set of patterns from all possible models, wherein said prioritizing comprises assigning to the models corresponding to fonts. frequently used higher priority. 21. Produit de programme d'ordinateur selon la revendication 13, stocké sur un support utilisable par un ordinateur.21. Computer program product according to claim 13, stored on a medium usable by a computer. 22. Terminal mobile ayant un procédé de reconnaissance de formes exécutable sur ledit terminal mobile et comprenant des parties de code de logiciel pour exécuter, en commençant par une forme d'entrée, les étapes de: a) normalisation de la forme d'entrée en une forme normalisée de taille prédéterminée; b) génération d'une forme fiable de la forme normalisée en utilisant au moins un opérateur morphologique; c) calcul d'une distance entre la forme fiable et les modèles sélectionnés qui sont sélectionnés dans une bibliothèque de modèles dans laquelle chaque modèle appartient à une classe; d) classification de la forme fiable dans au moins une des classes des modèles sélectionnés au moyen d'au moins une méthode de classification non paramétrique qui utilise lesdites classes des modèles sélectionnés et lesdites distances calculées comme entrées et produit des classes identifiées ainsi que des niveaux de confiance.A mobile terminal having a pattern recognition method executable on said mobile terminal and including software code portions for executing, starting with an input form, the steps of: a) normalizing the input form into a standardized form of predetermined size; b) generating a reliable form of the normalized form using at least one morphological operator; c) calculating a distance between the trusted form and the selected models that are selected in a model library in which each model belongs to a class; d) classifying the reliable form in at least one of the classes of the selected models using at least one non-parametric classification method that uses said classes of the selected models and said distances calculated as inputs and outputs of the identified classes as well as levels of confidence. 23. Terminal mobile selon la revendication 22, ledit terminal mobile étant un smartphone.23. Mobile terminal according to claim 22, said mobile terminal being a smartphone. 24. Terminal mobile selon la revendication 22, ledit terminal mobile étant un ordinateur tablette.24. Mobile terminal according to claim 22, said mobile terminal being a tablet computer.
BE201200548A 2011-08-11 2012-08-13 METHOD OF RECOGNIZING FORMS, COMPUTER PROGRAM PRODUCT, AND MOBILE TERMINAL. BE1020588A5 (en)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201161522274P 2011-08-11 2011-08-11
US201161522274 2011-08-11
US13/427,062 US9496359B2 (en) 2011-03-28 2012-03-22 Integrated circuit having chemically modified spacer surface
US201213427062 2012-03-22
US13/442,192 US8463054B2 (en) 2011-08-11 2012-04-09 Hierarchical OCR using decision tree and nonparametric classifier
US201213442192 2012-04-09

Publications (1)

Publication Number Publication Date
BE1020588A5 true BE1020588A5 (en) 2014-01-07

Family

ID=49911015

Family Applications (1)

Application Number Title Priority Date Filing Date
BE201200548A BE1020588A5 (en) 2011-08-11 2012-08-13 METHOD OF RECOGNIZING FORMS, COMPUTER PROGRAM PRODUCT, AND MOBILE TERMINAL.

Country Status (1)

Country Link
BE (1) BE1020588A5 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990003012A2 (en) * 1988-09-07 1990-03-22 Harry James Etherington Image recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990003012A2 (en) * 1988-09-07 1990-03-22 Harry James Etherington Image recognition

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CASEY R G ET AL: "Decision tree design using a probabilistic model", IEEE TRANSACTIONS ON INFORMATION THEORY, IEEE PRESS, USA, vol. IT-30, no. 1, 1 January 1984 (1984-01-01), pages 93 - 99, XP002078009, ISSN: 0018-9448, DOI: 10.1109/TIT.1984.1056834 *
LIU CHENG-LIN AND FUJISAWA HIROMICHI: "Classification and learning for character recognition: comparison of methods and remaining problems", INT. WORKSHOP ON NEURAL NETWORKS AND LEARNING IN DOCUMENT ANALYSIS AND RECOGNITION, 2005, XP002700782 *
YEFENG ZHENG, CHANGSONG LIU, XIAOQING DING: "Single character type identification", DOCUMENT RECOGNITION AND RETRIEVAL, vol. 4670, no. 2, 18 December 2001 (2001-12-18), pages 49 - 56, XP002700779 *

Similar Documents

Publication Publication Date Title
US20190130232A1 (en) Font identification from imagery
BE1022562B1 (en) Optical character recognition method
US11593552B2 (en) Performing semantic segmentation of form images using deep learning
BE1025504B1 (en) Pattern recognition system
BE1025503B1 (en) LINE SEGMENTATION METHOD
US8463054B2 (en) Hierarchical OCR using decision tree and nonparametric classifier
IL273446A (en) Method and system for image content recognition
FR2974433A1 (en) EVALUATION OF IMAGE QUALITY
BE1026039B1 (en) IMAGE PROCESSING METHOD AND IMAGE PROCESSING SYSTEM
JP2013206187A (en) Information conversion device, information search device, information conversion method, information search method, information conversion program and information search program
US11663840B2 (en) Method and system for removing noise in documents for image processing
BE1025502B1 (en) SYSTEM AND METHOD FOR FORM RECOGNITION USING GABOR FUNCTIONS
CN113836128A (en) Abnormal data identification method, system, equipment and storage medium
Shah et al. Deep Learning model-based Multimedia forgery detection
CN114863431A (en) Text detection method, device and equipment
CN112884075A (en) Traffic data enhancement method, traffic data classification method and related device
BE1025006B1 (en) COMPUTER-IMPLEMENTED PROCESS AND OPTICAL CHARACTER RECOGNITION SYSTEM
BE1020588A5 (en) METHOD OF RECOGNIZING FORMS, COMPUTER PROGRAM PRODUCT, AND MOBILE TERMINAL.
KR102472447B1 (en) A system and method for automatically blocking specific content in complex documents using machine learning
US20150332173A1 (en) Learning method, information conversion device, and recording medium
CN113591657B (en) OCR layout recognition method and device, electronic equipment and medium
EP3506170A2 (en) Method for forming a neural network for recognising a sequence of characters and associated recognition method
Carrasco et al. Laconic image classification: Human vs. machine performance
JP2008123245A (en) Image processor and image processing program
EP1390905A1 (en) Method for detecting text zones in a video image