-
Procédé d'interprétation de documents acquis par voie numérique
Domaine Technique La présente invention concerne un procédé d'interprétation d'informations présentes sur un document acquis par voie numérique, en particulier des cartes de visite, mais ne se limitant pas à cela.
État antérieur de la technique Un document est un ensemble de pages qui contiennent du texte, mais qui peuvent également contenir des graphiques, des images, des logos, des dessins, ... Un document peut être, par exemple, une lettre, une carte de visite, une facture, un formulaire, un article d'une revue ou d'un journal. Les documents sont convertis en images numériques par un dispositif appelé dispositif de balayage. Ils peuvent également être convertis en images numériques par un appareil photo numérique.
Les documents sont balayés de sorte à pouvoir être gardés électroniquement et être par la suite traités par un ordinateur.
L'application de traitement principale est une reconnaissance de texte ou une ROC (reconnaissance optique de caractères) qui permet le traitement ultérieur du texte reconnu.
Par exemple, une carte de visite est balayée en une image en couleur. Le texte est reconnu et ensuite interprété et décomposé dans différents champs comme le nom, la société, le titre, l'adresse, etc. Cette information est gardée dans une base de données avec l'image en couleur.
Les utilisateurs peuvent consulter la base de données et visualiser les images en couleur de la carte de visite.
Les systèmes courants de lecture de carte de visite fonctionnent en deux étapes : la reconnaissance optique de caractères (ROC) et l'identification des champs (analyse syntaxique du champ). Ils utilisent des engins de ROC pouvant reconnaître les caractères en provenance d'un ensemble réduit de langues, une langue à la fois. Ils utilisent un module d'analyse syntaxique de champ spécifiquement conçu en fonction d'un pays, permettant de ce fait des règles d'identification de champ spécifiques à ce pays uniquement.
En conséquence, les solutions de lecture de carte de visite courantes peuvent uniquement reconnaître des cartes de visite d'un nombre très limité de pays, par exemple de 6 à 10 pays.
Divulgation de l'invention
Une tâche de l'invention est celle qui consiste à présenter un procédé pouvant interpréter les informations présentes sur des documents acquis par voie numérique, en particulier des cartes de visite, mais ne se limitant pas à cela, provenant d'une large gamme de pays, de préférence de pratiquement tous les pays du monde.
Cette tâche est atteinte, conformément à l'invention, avec le procédé comprenant les étapes de la revendication indépendante.
Conformément à l'invention, un procédé est présenté permettant l'interprétation des informations présentes sur des documents acquis par voie numérique.
Le procédé comporte les étapes suivantes : (i) la détermination d'un pays d'origine du document acquis par voie numérique ,<'>(ii) l'identification d'une liste de langues et d'ensembles de caractères utilisés dans ledit pays ,<'>(iii) l'exécution d'une reconnaissance optique de caractères sur les informations présentes dans le document acquis par voie numérique, en utilisant simultanément toutes les langues et tous les ensembles de caractères de la liste<'>, (iv) l'exécution d'une analyse syntaxique du champ permettant d'identifier des champs dans le document acquis par voie numérique sur la base de règles de reconnaissance de champs internationales ainsi que spécifiques au pays I (v) la sauvegarde dans une base de données des informations reconnues conformément aux champs identifiés.
Ce procédé est conçu pour traiter, par exemple,
des cartes de visite provenant d'une large gamme de pays, provenant, de préférence, de pratiquement tous les pays du monde. Cette tâche est atteinte en ce que le procédé, basé sur une première sélection de pays, est organisé de sorte à considérer de multiples alphabets et/ou de multiples langues simultanément et de sorte à utiliser des règles de reconnaissance de champs internationales ainsi que spécifiques au pays. Dans des modes de réalisation préférés, l'étape (i) comprend le fait de permettre à un utilisateur de sélectionner le pays à partir d'une liste de pays prédéterminée.
Dans des modes de réalisation préférés, l'étape (iii) comprend l'utilisation de lexiques pour toutes les langues identifiées de la liste.
Dans des modes de réalisation préférés, l'étape (iv) comprend une étape de reconnaissance de mot-clé sur la base d'un dictionnaire avec une partie spécifique au pays et une partie internationale commune au moins à un grand nombre de pays.
Dans des modes de réalisation préférés, l'étape (iv) comprend une étape de reconnaissance de motifs spécifiques, où des numéros de téléphone, des adresses et des mots contenant des mots-clés sont reconnus avec des routines spécifiques aux pays.
Dans des modes de réalisation préférés, l'étape (iv) comprend, en outre, une étape du traitement de règle permettant d'identifier à quel champ les modèles spécifiques reconnus appartiennent, ledit traitement de règle étant commun pour tous les pays.
Le procédé peut par exemple être appliqué pour récupérer des données, comme par exemple des noms, des adresses,
des numéros de téléphone, des adresses de courrier électronique et autre élément similaire à partir de cartes de visite balayées ou des en-têtes de lettre, mais ne se limitant pas à cela.
Brève description des dessins L'invention sera ultérieurement expliquée à l'aide de la description qui suit et des figures annexées.
La Figure 1 montre un ordinogramme d'un procédé d'interprétation d'informations sur un document acquis par voie numérique, conformément à un mode de réalisation préféré de l'invention.
Les Figures de 2 à 4 montrent des résultants de l'application du procédé de la figure 3 sur des cartes de visites provenant de pays différents.
Modes de réalisation de l'invention
Un aspect de l'invention concerne l'interprétation des documents balayés, en particulier de cartes de visite,
mais ne se limitant pas à cela.
La figure 3 présente un procédé de traitement de cartes de visite provenant d'une large gamme de pays et de préférence de pratiquement tous les pays du monde. Sur la base d'une première sélection du pays, le procédé est organisé de sorte à considérer de multiples alphabets et/ou de multiples langues simultanément et pour utiliser des règles de reconnaissance de champs internationales ainsi que spécifiques au pays.
Dans des modes de réalisation préférés l'on décrit une nouvelle architecture de système et un nouvel algorithme, lequel est organisé également pour lire des cartes de visite provenant de pays où plusieurs langues sont parlées ou où plusieurs alphabets sont employés (par exemple : la Belgique avec 3 langues officielles :
français, flamand et allemand ><'>ou Taiwan où des pictogrammes chinois traditionnels et/ou l'alphabet anglais sont utilisés. Le système permet un entretien facile, permettant d'incorporer de nouvelles améliorations des algorithmes d'identification de champ et de ROC. L'algorithme de l'invention peut par exemple fonctionner comme il s'en suit (voir ordinogramme illustré dans la Figure l):
1. Les utilisateurs sélectionnent, à priori, le pays de la carte de visite à partir d'une liste de pays ISO 3166. Dans la mise en oeuvre courante 217 y figurent. 2. Sur la base du pays sélectionné, l'algorithme assemble, de manière transparente, une liste de langues et d'ensembles de caractères (alphabets) étant utilisés dans ce pays.
3.
L'algorithme utilise des modules spéciaux de ROC qui permettent la reconnaissance simultanée de différentes langues, par exemple en permettant la reconnaissance de l'allemand, du néerlandais, du français ou du chinois et de l'anglais.
4. Ce module international de ROC est appelé avec les ensembles de caractères sélectionnés et les langues sélectionnées. Plusieurs langues et alphabets sont considérés simultanément par l'engin de ROC. Par conséquent, l'algorithme peut précisément reconnaître des caractères à partir de données de cartes de visite qui comportent un mélange de langues et d'alphabets (par exemple<'>des caractères latins de mots anglais sur des cartes de visite chinoises ou des caractères latins sur des cartes de visite grecques). 5. Une fois que les caractères sont reconnus, un module d'analyse syntaxique du champ est appelé.
L'on tire profit des règles d'analyse syntaxique du champ spécifiques au pays des cartes de visite, si elles sont disponibles. Ensuite, le module d'analyse syntaxique le plus international est appelé. -
6
Les Figures de 2 à 4 montrent des exemples des résultats des règles d'analyse syntaxique de champs internationales vis-à-vis de celles qui sont spécifiques au pays.
Ce qui suit est une description plus détaillée d'un mode de réalisation préféré de l'algorithme de reconnaissance / d'analyse syntaxique de champs. L'algorithme comprend trois étapes (voir cidessous) : la reconnaissance de mot-clé de ROC, reconnaissance de modèles spécifiques, le traitement de la règle.
Les étapes 1 & 2 se servent des règles spécifiques au pays et des règles communes, alors que l'étape 3 se fonde sur des règles spécifiques au pays uniquement.
Étape l ' Reconnaissance de mot-clé
Reconnaissance de mots-clés à partir d'un dictionnaire o Le dictionnaire présente une partie spécifique pour chaque pays. o Le dictionnaire présente également une partie qui est commune à chaque pays. o Soit la partie commune soit la partie spécifique au pays du pays en question est utilisée pendant la reconnaissance de champs. o Toutes les parties de dictionnaire sont compilées en un grand fichier crypté. Étape 2 '' Reconnaissance de modèles spécifiques
Reconnaissance de numéros de téléphone o Les formats de numéro de téléphone sont spécifiques au pays.
Pour chaque pays, il y a une routine consacrée qui reconnaît les numéros de téléphone.
Reconnaissance des adresses o Les formats de code postal sont spécifiques au pays. Pour chaque pays, il y a une routine consacrée qui reconnaît les adresses. -
Reconnaissance de mots contenant des mots-clés (comme "strasse" - rue en allemand) o Pour chaque pays qui en a besoin, il y a une routine consacrée qui reconnaît ces mots spéciaux (par exemple, Allemagne - Pays Bas...)
Étape c?-' Traitement de la règle
Cette étape est un Post-traitement du résultat sur la base de "règles" définies dans une langue en usage interprétée à partir de fichiers cryptés. o Ces règles sont responsables de choisir les champs corrects parmi les mots-clés et les modèles qui ont été trouvés dans l'étape précédente. o Ces règles sont partagées parmi tous les pays.
En raison de l'utilisation de ces règles spécifiques au pays ainsi que des règles internationales, le procédé de l'invention peut être appliqué partout dans le monde avec une qualité suffisante de la reconnaissance des informations sur la carte de visite balayée ou sur tout autre document.
-
Method of interpreting digitally acquired documents
TECHNICAL FIELD The present invention relates to a method for interpreting information present on a document acquired digitally, in particular business cards, but not limited thereto.
PRIOR ART A document is a set of pages that contain text, but which may also contain graphics, images, logos, drawings, etc. A document may be, for example, a letter, a card visit, an invoice, a form, an article from a magazine or newspaper. The documents are converted into digital images by a device called a scanner. They can also be converted to digital images by a digital camera.
The documents are scanned so that they can be kept electronically and subsequently processed by a computer.
The main processing application is a text recognition or OCR (Optical Character Recognition) that allows the subsequent processing of recognized text.
For example, a business card is scanned into a color image. The text is recognized and then interpreted and broken down into different fields such as name, company, title, address, etc. This information is kept in a database with the color image.
Users can view the database and view the color images of the business card.
Current business card reading systems operate in two steps: optical character recognition (OCR) and field identification (field parsing). They use OCR machines that can recognize characters from a small set of languages, one language at a time. They use a country-specific field parsing module, thus allowing country-specific field identification rules only.
As a result, common business card reading solutions can only recognize business cards from a very limited number of countries, for example from 6 to 10 countries.
Disclosure of the invention
A task of the invention is that of presenting a method that can interpret the information present on digitally acquired documents, particularly business cards, but not limited to that, from a wide range of countries. , preferably from virtually every country in the world.
This task is achieved according to the invention with the method comprising the steps of the independent claim.
According to the invention, a method is presented allowing the interpretation of information present on documents acquired digitally.
The method comprises the steps of: (i) determining a country of origin of the digitally acquired document, <'> (ii) identifying a list of languages and sets of characters used in said document country, <'> (iii) the performance of an optical character recognition on the information present in the digitally acquired document, simultaneously using all the languages and sets of characters in the <'> list, ( iv) performing a field parsing to identify fields in the digitally acquired document based on international and country-specific field recognition rules I (v) saving to a database data of recognized information in accordance with the identified fields.
This process is designed to treat, for example,
business cards from a wide range of countries, preferably from almost every country in the world. This task is achieved in that the method, based on a first selection of countries, is organized so as to consider multiple alphabets and / or multiple languages simultaneously and so to use rules of recognition of international fields as well as specific to the country. In preferred embodiments, step (i) includes allowing a user to select the country from a predetermined list of countries.
In preferred embodiments, step (iii) includes the use of lexicons for all identified languages of the list.
In preferred embodiments, step (iv) includes a keyword recognition step based on a dictionary with a country-specific portion and an international portion common to at least a large number of countries.
In preferred embodiments, step (iv) includes a pattern-specific recognition step, wherein phone numbers, addresses, and keywords-containing words are recognized with country-specific routines.
In preferred embodiments, step (iv) further comprises a rule processing step for identifying which field the particular recognized patterns belong to, wherein said rule processing is common for all countries.
The method can for example be applied to retrieve data, such as names, addresses,
phone numbers, e-mail addresses and the like from scanned business cards or letterheads, but not limited to that.
BRIEF DESCRIPTION OF THE DRAWINGS The invention will be explained later with the aid of the description which follows and the appended figures.
Figure 1 shows a flowchart of a method of interpreting information on a digitally acquired document, in accordance with a preferred embodiment of the invention.
Figures 2 to 4 show results of the application of the method of Figure 3 on business cards from different countries.
Embodiments of the invention
One aspect of the invention relates to the interpretation of scanned documents, particularly business cards,
but not limited to that.
Figure 3 shows a method of processing business cards from a wide range of countries and preferably from virtually every country in the world. On the basis of a first selection of the country, the method is organized so as to consider multiple alphabets and / or multiple languages simultaneously and to use international and country-specific field recognition rules.
In preferred embodiments there is described a new system architecture and a new algorithm, which is also organized to read business cards from countries where several languages are spoken or where several alphabets are used (for example: Belgium with 3 official languages:
French, Flemish and German> <'> or Taiwan where traditional Chinese pictograms and / or the English alphabet are used. The system allows for easy maintenance, allowing for the incorporation of new improvements in field identification and OCR algorithms. The algorithm of the invention can for example function as it follows (see flow chart illustrated in Figure l):
1. The users select, a priori, the country of the business card from an ISO 3166 country list. In the current implementation 217 there appear. 2. On the basis of the selected country, the algorithm transparently assembles a list of languages and sets of characters (alphabets) being used in that country.
3.
The algorithm uses special OCR modules that allow simultaneous recognition of different languages, for example by allowing the recognition of German, Dutch, French or Chinese and English.
4. This international OCR module is called with the selected character sets and the selected languages. Several languages and alphabets are simultaneously considered by the OCR machine. As a result, the algorithm can accurately recognize characters from business card data that include a mixture of languages and alphabets (for example, <'> Latin characters of English words on Chinese business cards or characters. latins on Greek business cards). 5. Once the characters are recognized, a parser module of the field is called.
One takes advantage of the country-specific field-specific syntax rules for business cards, if they are available. Then, the most international parsing module is called. -
6
Figures 2 through 4 show examples of the results of the syntactical rules from international fields to those that are country specific.
The following is a more detailed description of a preferred embodiment of the field recognition / parsing algorithm. The algorithm consists of three steps (see below): OCR keyword recognition, pattern recognition, rule processing.
Steps 1 & 2 use country-specific rules and common rules, while Step 3 is based on country-specific rules only.
Step the Keyword Recognition
Recognizing keywords from a dictionary o The dictionary presents a specific part for each country. o The dictionary also has a part that is common to each country. o Either the common part or the country-specific part of the country in question is used during field recognition. o All dictionary parts are compiled into a large encrypted file. Step 2 '' Recognition of specific models
Phone Number Recognition o Phone number formats are country specific.
For each country, there is a dedicated routine that recognizes phone numbers.
Address Recognition o Postal code formats are country specific. For each country, there is a dedicated routine that recognizes addresses. -
Recognition of words containing keywords (such as "strasse" - street in German) o For each country that needs it, there is a dedicated routine that recognizes these special words (eg Germany - Netherlands ...)
Step c? - 'Rule Processing
This step is a post-processing of the result based on "rules" defined in a language in use interpreted from encrypted files. o These rules are responsible for choosing the correct fields from the keywords and templates that were found in the previous step. o These rules are shared among all countries.
Because of the use of these country-specific rules as well as international rules, the method of the invention can be applied anywhere in the world with sufficient quality of the information recognition on the scanned business card or on any other document.