BE1017577A6 - Information interpreting method for document i.e. address card, involves realizing field syntactical analysis to identify fields in document, and protecting recognized information according to identified fields in data base - Google Patents

Information interpreting method for document i.e. address card, involves realizing field syntactical analysis to identify fields in document, and protecting recognized information according to identified fields in data base Download PDF

Info

Publication number
BE1017577A6
BE1017577A6 BE2008/0455A BE200800455A BE1017577A6 BE 1017577 A6 BE1017577 A6 BE 1017577A6 BE 2008/0455 A BE2008/0455 A BE 2008/0455A BE 200800455 A BE200800455 A BE 200800455A BE 1017577 A6 BE1017577 A6 BE 1017577A6
Authority
BE
Belgium
Prior art keywords
country
document
fields
languages
list
Prior art date
Application number
BE2008/0455A
Other languages
French (fr)
Inventor
Michel Dauw
Patrick Verleysen
Xavier Gallez
Muelenaere Pierre De
Original Assignee
Iris Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iris Sa filed Critical Iris Sa
Application granted granted Critical
Publication of BE1017577A6 publication Critical patent/BE1017577A6/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)

Abstract

The method involves determining country of origin of a document acquired by a digital path. A list of languages and characters used in the country are identified. The optical recognition of the characters is realized on information presented in the document by simultaneously using the languages and the characters in the list. A field syntactical analysis is realized to identify fields e.g. name field, in the document based on international field reorganization rules specific to the country. The recognized information is protected according to the identified fields in a data base. An independent claim is also included for a software program product comprising a set of instructions for performing an information interpreting method.

Description

       

  -
Procédé d'interprétation de documents acquis par voie numérique
Domaine Technique La présente invention concerne un procédé d'interprétation d'informations présentes sur un document acquis par voie numérique, en particulier des cartes de visite, mais ne se limitant pas à cela.
État antérieur de la technique Un document est un ensemble de pages qui contiennent du texte, mais qui peuvent également contenir des graphiques, des images, des logos, des dessins, ... Un document peut être, par exemple, une lettre, une carte de visite, une facture, un formulaire, un article d'une revue ou d'un journal. Les documents sont convertis en images numériques par un dispositif appelé dispositif de balayage. Ils peuvent également être convertis en images numériques par un appareil photo numérique.

   Les documents sont balayés de sorte à pouvoir être gardés électroniquement et être par la suite traités par un ordinateur.
L'application de traitement principale est une reconnaissance de texte ou une ROC (reconnaissance optique de caractères) qui permet le traitement ultérieur du texte reconnu.
Par exemple, une carte de visite est balayée en une image en couleur. Le texte est reconnu et ensuite interprété et décomposé dans différents champs comme le nom, la société, le titre, l'adresse, etc. Cette information est gardée dans une base de données avec l'image en couleur.

   Les utilisateurs peuvent consulter la base de données et visualiser les images en couleur de la carte de visite.
Les systèmes courants de lecture de carte de visite fonctionnent en deux étapes : la reconnaissance optique de caractères (ROC) et l'identification des champs (analyse syntaxique du champ). Ils utilisent des engins de ROC pouvant reconnaître les caractères en provenance d'un ensemble réduit de langues, une langue à la fois. Ils utilisent un module d'analyse syntaxique de champ spécifiquement conçu en fonction d'un pays, permettant de ce fait des règles d'identification de champ spécifiques à ce pays uniquement.

   En conséquence, les solutions de lecture de carte de visite courantes peuvent uniquement reconnaître des cartes de visite d'un nombre très limité de pays, par exemple de 6 à 10 pays.
Divulgation de l'invention
Une tâche de l'invention est celle qui consiste à présenter un procédé pouvant interpréter les informations présentes sur des documents acquis par voie numérique, en particulier des cartes de visite, mais ne se limitant pas à cela, provenant d'une large gamme de pays, de préférence de pratiquement tous les pays du monde.
Cette tâche est atteinte, conformément à l'invention, avec le procédé comprenant les étapes de la revendication indépendante.
Conformément à l'invention, un procédé est présenté permettant l'interprétation des informations présentes sur des documents acquis par voie numérique.

   Le procédé comporte les étapes suivantes : (i) la détermination d'un pays d'origine du document acquis par voie numérique ,<'>(ii) l'identification d'une liste de langues et d'ensembles de caractères utilisés dans ledit pays ,<'>(iii) l'exécution d'une reconnaissance optique de caractères sur les informations présentes dans le document acquis par voie numérique, en utilisant simultanément toutes les langues et tous les ensembles de caractères de la liste<'>, (iv) l'exécution d'une analyse syntaxique du champ permettant d'identifier des champs dans le document acquis par voie numérique sur la base de règles de reconnaissance de champs internationales ainsi que spécifiques au pays I (v) la sauvegarde dans une base de données des informations reconnues conformément aux champs identifiés.
Ce procédé est conçu pour traiter, par exemple,

   des cartes de visite provenant d'une large gamme de pays, provenant, de préférence, de pratiquement tous les pays du monde. Cette tâche est atteinte en ce que le procédé, basé sur une première sélection de pays, est organisé de sorte à considérer de multiples alphabets et/ou de multiples langues simultanément et de sorte à utiliser des règles de reconnaissance de champs internationales ainsi que spécifiques au pays. Dans des modes de réalisation préférés, l'étape (i) comprend le fait de permettre à un utilisateur de sélectionner le pays à partir d'une liste de pays prédéterminée.
Dans des modes de réalisation préférés, l'étape (iii) comprend l'utilisation de lexiques pour toutes les langues identifiées de la liste.

   Dans des modes de réalisation préférés, l'étape (iv) comprend une étape de reconnaissance de mot-clé sur la base d'un dictionnaire avec une partie spécifique au pays et une partie internationale commune au moins à un grand nombre de pays.
Dans des modes de réalisation préférés, l'étape (iv) comprend une étape de reconnaissance de motifs spécifiques, où des numéros de téléphone, des adresses et des mots contenant des mots-clés sont reconnus avec des routines spécifiques aux pays.
Dans des modes de réalisation préférés, l'étape (iv) comprend, en outre, une étape du traitement de règle permettant d'identifier à quel champ les modèles spécifiques reconnus appartiennent, ledit traitement de règle étant commun pour tous les pays.
Le procédé peut par exemple être appliqué pour récupérer des données, comme par exemple des noms, des adresses,

   des numéros de téléphone, des adresses de courrier électronique et autre élément similaire à partir de cartes de visite balayées ou des en-têtes de lettre, mais ne se limitant pas à cela.
Brève description des dessins L'invention sera ultérieurement expliquée à l'aide de la description qui suit et des figures annexées.
La Figure 1 montre un ordinogramme d'un procédé d'interprétation d'informations sur un document acquis par voie numérique, conformément à un mode de réalisation préféré de l'invention.
Les Figures de 2 à 4 montrent des résultants de l'application du procédé de la figure 3 sur des cartes de visites provenant de pays différents.
Modes de réalisation de l'invention
Un aspect de l'invention concerne l'interprétation des documents balayés, en particulier de cartes de visite,

   mais ne se limitant pas à cela.
La figure 3 présente un procédé de traitement de cartes de visite provenant d'une large gamme de pays et de préférence de pratiquement tous les pays du monde. Sur la base d'une première sélection du pays, le procédé est organisé de sorte à considérer de multiples alphabets et/ou de multiples langues simultanément et pour utiliser des règles de reconnaissance de champs internationales ainsi que spécifiques au pays.
Dans des modes de réalisation préférés l'on décrit une nouvelle architecture de système et un nouvel algorithme, lequel est organisé également pour lire des cartes de visite provenant de pays où plusieurs langues sont parlées ou où plusieurs alphabets sont employés (par exemple : la Belgique avec 3 langues officielles :

   français, flamand et allemand ><'>ou Taiwan où des pictogrammes chinois traditionnels et/ou l'alphabet anglais sont utilisés. Le système permet un entretien facile, permettant d'incorporer de nouvelles améliorations des algorithmes d'identification de champ et de ROC. L'algorithme de l'invention peut par exemple fonctionner comme il s'en suit (voir ordinogramme illustré dans la Figure l):
1. Les utilisateurs sélectionnent, à priori, le pays de la carte de visite à partir d'une liste de pays ISO 3166. Dans la mise en oeuvre courante 217 y figurent. 2. Sur la base du pays sélectionné, l'algorithme assemble, de manière transparente, une liste de langues et d'ensembles de caractères (alphabets) étant utilisés dans ce pays.
3.

   L'algorithme utilise des modules spéciaux de ROC qui permettent la reconnaissance simultanée de différentes langues, par exemple en permettant la reconnaissance de l'allemand, du néerlandais, du français ou du chinois et de l'anglais.
4. Ce module international de ROC est appelé avec les ensembles de caractères sélectionnés et les langues sélectionnées. Plusieurs langues et alphabets sont considérés simultanément par l'engin de ROC. Par conséquent, l'algorithme peut précisément reconnaître des caractères à partir de données de cartes de visite qui comportent un mélange de langues et d'alphabets (par exemple<'>des caractères latins de mots anglais sur des cartes de visite chinoises ou des caractères latins sur des cartes de visite grecques). 5. Une fois que les caractères sont reconnus, un module d'analyse syntaxique du champ est appelé.

   L'on tire profit des règles d'analyse syntaxique du champ spécifiques au pays des cartes de visite, si elles sont disponibles. Ensuite, le module d'analyse syntaxique le plus international est appelé. -
6
Les Figures de 2 à 4 montrent des exemples des résultats des règles d'analyse syntaxique de champs internationales vis-à-vis de celles qui sont spécifiques au pays.
Ce qui suit est une description plus détaillée d'un mode de réalisation préféré de l'algorithme de reconnaissance / d'analyse syntaxique de champs. L'algorithme comprend trois étapes (voir cidessous) : la reconnaissance de mot-clé de ROC, reconnaissance de modèles spécifiques, le traitement de la règle.

   Les étapes 1 & 2 se servent des règles spécifiques au pays et des règles communes, alors que l'étape 3 se fonde sur des règles spécifiques au pays uniquement.
Étape l ' Reconnaissance de mot-clé
Reconnaissance de mots-clés à partir d'un dictionnaire o Le dictionnaire présente une partie spécifique pour chaque pays. o Le dictionnaire présente également une partie qui est commune à chaque pays. o Soit la partie commune soit la partie spécifique au pays du pays en question est utilisée pendant la reconnaissance de champs. o Toutes les parties de dictionnaire sont compilées en un grand fichier crypté. Étape 2 '' Reconnaissance de modèles spécifiques
Reconnaissance de numéros de téléphone o Les formats de numéro de téléphone sont spécifiques au pays.

   Pour chaque pays, il y a une routine consacrée qui reconnaît les numéros de téléphone.
Reconnaissance des adresses o Les formats de code postal sont spécifiques au pays. Pour chaque pays, il y a une routine consacrée qui reconnaît les adresses. -
Reconnaissance de mots contenant des mots-clés (comme "strasse" - rue en allemand) o Pour chaque pays qui en a besoin, il y a une routine consacrée qui reconnaît ces mots spéciaux (par exemple, Allemagne - Pays Bas...)
Étape c?-' Traitement de la règle
Cette étape est un Post-traitement du résultat sur la base de "règles" définies dans une langue en usage interprétée à partir de fichiers cryptés. o Ces règles sont responsables de choisir les champs corrects parmi les mots-clés et les modèles qui ont été trouvés dans l'étape précédente. o Ces règles sont partagées parmi tous les pays.

   En raison de l'utilisation de ces règles spécifiques au pays ainsi que des règles internationales, le procédé de l'invention peut être appliqué partout dans le monde avec une qualité suffisante de la reconnaissance des informations sur la carte de visite balayée ou sur tout autre document.



  -
Method of interpreting digitally acquired documents
TECHNICAL FIELD The present invention relates to a method for interpreting information present on a document acquired digitally, in particular business cards, but not limited thereto.
PRIOR ART A document is a set of pages that contain text, but which may also contain graphics, images, logos, drawings, etc. A document may be, for example, a letter, a card visit, an invoice, a form, an article from a magazine or newspaper. The documents are converted into digital images by a device called a scanner. They can also be converted to digital images by a digital camera.

   The documents are scanned so that they can be kept electronically and subsequently processed by a computer.
The main processing application is a text recognition or OCR (Optical Character Recognition) that allows the subsequent processing of recognized text.
For example, a business card is scanned into a color image. The text is recognized and then interpreted and broken down into different fields such as name, company, title, address, etc. This information is kept in a database with the color image.

   Users can view the database and view the color images of the business card.
Current business card reading systems operate in two steps: optical character recognition (OCR) and field identification (field parsing). They use OCR machines that can recognize characters from a small set of languages, one language at a time. They use a country-specific field parsing module, thus allowing country-specific field identification rules only.

   As a result, common business card reading solutions can only recognize business cards from a very limited number of countries, for example from 6 to 10 countries.
Disclosure of the invention
A task of the invention is that of presenting a method that can interpret the information present on digitally acquired documents, particularly business cards, but not limited to that, from a wide range of countries. , preferably from virtually every country in the world.
This task is achieved according to the invention with the method comprising the steps of the independent claim.
According to the invention, a method is presented allowing the interpretation of information present on documents acquired digitally.

   The method comprises the steps of: (i) determining a country of origin of the digitally acquired document, <'> (ii) identifying a list of languages and sets of characters used in said document country, <'> (iii) the performance of an optical character recognition on the information present in the digitally acquired document, simultaneously using all the languages and sets of characters in the <'> list, ( iv) performing a field parsing to identify fields in the digitally acquired document based on international and country-specific field recognition rules I (v) saving to a database data of recognized information in accordance with the identified fields.
This process is designed to treat, for example,

   business cards from a wide range of countries, preferably from almost every country in the world. This task is achieved in that the method, based on a first selection of countries, is organized so as to consider multiple alphabets and / or multiple languages simultaneously and so to use rules of recognition of international fields as well as specific to the country. In preferred embodiments, step (i) includes allowing a user to select the country from a predetermined list of countries.
In preferred embodiments, step (iii) includes the use of lexicons for all identified languages of the list.

   In preferred embodiments, step (iv) includes a keyword recognition step based on a dictionary with a country-specific portion and an international portion common to at least a large number of countries.
In preferred embodiments, step (iv) includes a pattern-specific recognition step, wherein phone numbers, addresses, and keywords-containing words are recognized with country-specific routines.
In preferred embodiments, step (iv) further comprises a rule processing step for identifying which field the particular recognized patterns belong to, wherein said rule processing is common for all countries.
The method can for example be applied to retrieve data, such as names, addresses,

   phone numbers, e-mail addresses and the like from scanned business cards or letterheads, but not limited to that.
BRIEF DESCRIPTION OF THE DRAWINGS The invention will be explained later with the aid of the description which follows and the appended figures.
Figure 1 shows a flowchart of a method of interpreting information on a digitally acquired document, in accordance with a preferred embodiment of the invention.
Figures 2 to 4 show results of the application of the method of Figure 3 on business cards from different countries.
Embodiments of the invention
One aspect of the invention relates to the interpretation of scanned documents, particularly business cards,

   but not limited to that.
Figure 3 shows a method of processing business cards from a wide range of countries and preferably from virtually every country in the world. On the basis of a first selection of the country, the method is organized so as to consider multiple alphabets and / or multiple languages simultaneously and to use international and country-specific field recognition rules.
In preferred embodiments there is described a new system architecture and a new algorithm, which is also organized to read business cards from countries where several languages are spoken or where several alphabets are used (for example: Belgium with 3 official languages:

   French, Flemish and German> <'> or Taiwan where traditional Chinese pictograms and / or the English alphabet are used. The system allows for easy maintenance, allowing for the incorporation of new improvements in field identification and OCR algorithms. The algorithm of the invention can for example function as it follows (see flow chart illustrated in Figure l):
1. The users select, a priori, the country of the business card from an ISO 3166 country list. In the current implementation 217 there appear. 2. On the basis of the selected country, the algorithm transparently assembles a list of languages and sets of characters (alphabets) being used in that country.
3.

   The algorithm uses special OCR modules that allow simultaneous recognition of different languages, for example by allowing the recognition of German, Dutch, French or Chinese and English.
4. This international OCR module is called with the selected character sets and the selected languages. Several languages and alphabets are simultaneously considered by the OCR machine. As a result, the algorithm can accurately recognize characters from business card data that include a mixture of languages and alphabets (for example, <'> Latin characters of English words on Chinese business cards or characters. latins on Greek business cards). 5. Once the characters are recognized, a parser module of the field is called.

   One takes advantage of the country-specific field-specific syntax rules for business cards, if they are available. Then, the most international parsing module is called. -
6
Figures 2 through 4 show examples of the results of the syntactical rules from international fields to those that are country specific.
The following is a more detailed description of a preferred embodiment of the field recognition / parsing algorithm. The algorithm consists of three steps (see below): OCR keyword recognition, pattern recognition, rule processing.

   Steps 1 & 2 use country-specific rules and common rules, while Step 3 is based on country-specific rules only.
Step the Keyword Recognition
Recognizing keywords from a dictionary o The dictionary presents a specific part for each country. o The dictionary also has a part that is common to each country. o Either the common part or the country-specific part of the country in question is used during field recognition. o All dictionary parts are compiled into a large encrypted file. Step 2 '' Recognition of specific models
Phone Number Recognition o Phone number formats are country specific.

   For each country, there is a dedicated routine that recognizes phone numbers.
Address Recognition o Postal code formats are country specific. For each country, there is a dedicated routine that recognizes addresses. -
Recognition of words containing keywords (such as "strasse" - street in German) o For each country that needs it, there is a dedicated routine that recognizes these special words (eg Germany - Netherlands ...)
Step c? - 'Rule Processing
This step is a post-processing of the result based on "rules" defined in a language in use interpreted from encrypted files. o These rules are responsible for choosing the correct fields from the keywords and templates that were found in the previous step. o These rules are shared among all countries.

   Because of the use of these country-specific rules as well as international rules, the method of the invention can be applied anywhere in the world with sufficient quality of the information recognition on the scanned business card or on any other document.


    

Claims (8)

8 Revendications8 Claims 1. Procédé d'interprétation des informations présentes sur des documents acquis par voie numérique, comprenant les étapes suivantes : A method of interpreting information present on digitally acquired documents, comprising the steps of: (i) la détermination d'un pays d'origine du document acquis par voie numérique > (ii) l'identification d'une liste de langues et d'ensembles de caractères étant utilisés dans ledit pays ; (iii) la réalisation de la reconnaissance optique de caractères sur des informations présentes dans le document acquis par voie numérique, en utilisant simultanément toutes les langues et les ensembles de caractères de la liste ,<'>(iv) la réalisation d'une analyse syntaxique du champ afin d'identifier des champs dans le document acquis par voie numérique sur la base de règles de reconnaissance de champs internationales ainsi que spécifiques au pays ! (v) la sauvegarde des informations reconnues conformément aux champs identifiés dans une base de données. (i) the determination of a country of origin of the document acquired digitally> (ii) the identification of a list of languages and sets of characters being used in that country; (iii) performing optical character recognition on information in the digitally acquired document, using all languages and character sets in the list simultaneously, <'> (iv) performing an analysis Syntax of the field to identify fields in the digitally acquired document based on international field recognition rules as well as country-specific! (v) the backup of the recognized information according to the fields identified in a database. 2. Procédé selon la revendication 1, où l'étape (i) comprend le fait de permettre à un utilisateur de sélectionner le pays parmi une liste de pays prédéterminée. The method of claim 1, wherein step (i) comprises allowing a user to select the country from a predetermined list of countries. 3. Procédé selon la revendication 1 ou 2, où l'étape (iii) comprend l'utilisation de lexiques pour toutes les langues identifiées de la liste. The method of claim 1 or 2, wherein step (iii) comprises using lexicons for all identified languages of the list. 4. Procédé selon une des revendications de 1 à 3, où l'étape (iv) comprend une étape de reconnaissance de mot-clé sur la base d'un - The method of one of claims 1 to 3, wherein step (iv) comprises a keyword recognition step based on a - 9 9 dictionnaire avec une partie spécifique au pays et une partie internationale commune à au moins un large nombre de pays. dictionary with a country-specific part and an international part common to at least a large number of countries. 5. Procédé selon une des revendications de 1 à 4, où l'étape (iv) comprend une étape de reconnaissance de modèle spécifique dans laquelle des numéros de téléphone, des adresses et des mots contenant des mots-clés sont reconnus avec des routines spécifiques au pays. Method according to one of claims 1 to 4, wherein step (iv) comprises a specific model recognition step in which phone numbers, addresses and words containing keywords are recognized with specific routines. in the country. 6. Procédé selon la revendication 5, où l'étape (iv) comprend en outre une étape de traitement de règle permettant d'identifier à quel champ le modèle spécifique reconnu appartient, ledit traitement de règle étant commun à tous les pays. The method of claim 5, wherein step (iv) further comprises a rule processing step for identifying which field the particular recognized pattern belongs to, said rule processing being common to all countries. 7. Produit de programme informatique directement chargeable dans une mémoire d'un ordinateur, comprenant des parties de code logiciel pour exécuter les étapes de l'une quelconque des revendications de 1 à 6 lorsque ledit produit est exécuté sur un ordinateur. A computer program product directly loadable into a memory of a computer, comprising software code portions for performing the steps of any one of claims 1 to 6 when said product is run on a computer. 8. Produit de programme informatique selon la revendication 7, mémorisé sur un support utilisable par ordinateur. 8. Computer program product according to claim 7, stored on a computer usable medium.
BE2008/0455A 2007-08-15 2008-08-18 Information interpreting method for document i.e. address card, involves realizing field syntactical analysis to identify fields in document, and protecting recognized information according to identified fields in data base BE1017577A6 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US95606507P 2007-08-15 2007-08-15
EP08060713 2008-08-14

Publications (1)

Publication Number Publication Date
BE1017577A6 true BE1017577A6 (en) 2008-12-02

Family

ID=40084524

Family Applications (1)

Application Number Title Priority Date Filing Date
BE2008/0455A BE1017577A6 (en) 2007-08-15 2008-08-18 Information interpreting method for document i.e. address card, involves realizing field syntactical analysis to identify fields in document, and protecting recognized information according to identified fields in data base

Country Status (1)

Country Link
BE (1) BE1017577A6 (en)

Similar Documents

Publication Publication Date Title
US9256783B2 (en) Systems and methods for tax data capture and use
US8249347B1 (en) Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device
US20040015775A1 (en) Systems and methods for improved accuracy of extracted digital content
WO2002067142A2 (en) Device for retrieving data from a knowledge-based text
CN110348346A (en) A kind of bill classification recognition methods and system
US20240054802A1 (en) System and method for spatial encoding and feature generators for enhancing information extraction
WO2015010453A1 (en) Systems and methods for spam interception
CN110955796B (en) Case feature information extraction method and device based on stroke information
BE1017577A6 (en) Information interpreting method for document i.e. address card, involves realizing field syntactical analysis to identify fields in document, and protecting recognized information according to identified fields in data base
CN111078871A (en) Method and system for automatically classifying contracts based on artificial intelligence
CN115756486A (en) Data interface analysis method and device
Berclaz et al. Image-based mobile service: automatic text extraction and translation
US20220405499A1 (en) Method and system for extracting information from a document
US20150032830A1 (en) Systems and Methods for Spam Interception
CN116758565B (en) OCR text restoration method, equipment and storage medium based on decision tree
CN113505570B (en) Reference is made to empty checking method, device, equipment and storage medium
US20240037972A1 (en) Contextual analysis for digital image processing
US20140201223A1 (en) Intelligent system and method for processing data to provide recognition and extraction of an informative segment
Ricker et al. AI-Generated Faces in the Real World: A Large-Scale Case Study of Twitter Profile Images
FR3061573A1 (en) METHOD AND SYSTEM FOR AUTOMATIC PROCESSING OF DOCUMENTS
EP3213255B1 (en) Device and method for recording a document exhibiting a marking
CN113240556A (en) Infringement processing method, device, equipment and medium based on intelligent decision
CN116152480A (en) Data extraction and structuring processing system and implementation method
WO2024002959A1 (en) Image classification method, and corresponding electronic device and computer program product
EP1796007A1 (en) Method for automatically collecting business card data relating to a single person, from a plurality of electronic files

Legal Events

Date Code Title Description
RE20 Patent expired

Owner name: S.A.* I.R.I.S.

Effective date: 20140818