FR2837011A1 - Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants - Google Patents

Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants Download PDF

Info

Publication number
FR2837011A1
FR2837011A1 FR0202804A FR0202804A FR2837011A1 FR 2837011 A1 FR2837011 A1 FR 2837011A1 FR 0202804 A FR0202804 A FR 0202804A FR 0202804 A FR0202804 A FR 0202804A FR 2837011 A1 FR2837011 A1 FR 2837011A1
Authority
FR
France
Prior art keywords
document
label
information
documents
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0202804A
Other languages
English (en)
Other versions
FR2837011B1 (fr
Inventor
Didier Caplan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
COMPTACOM
Original Assignee
COMPTACOM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by COMPTACOM filed Critical COMPTACOM
Priority to FR0202804A priority Critical patent/FR2837011B1/fr
Priority to PCT/FR2003/000714 priority patent/WO2003075211A1/fr
Priority to AU2003229857A priority patent/AU2003229857A1/en
Publication of FR2837011A1 publication Critical patent/FR2837011A1/fr
Application granted granted Critical
Publication of FR2837011B1 publication Critical patent/FR2837011B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

L'invention concerne un procédé de lecture automatique de documents comprenant au moins une information pertinente. Selon l'invention, un tel procédé comprend les étapes suivantes :- apposition d'au moins une étiquette de format prédéterminé sur un document à lire;- ladite étiquette est complétée au moyen d'au moins une information complémentaire;- analyse logicielle dudit document en vue de localiser ladite étiquette sur ledit document;- extraction d'au moins certaines desdites informations complémentaires par reconnaissance de caractères.

Description

<Desc/Clms Page number 1>
Procédé de lecture automatique d'un document sur lequel est apposée une étiquette pré-imprimée à compléter, étiquette, système et procédé de comptabilité correspondants.
Le domaine de l'invention est celui de la lecture automatique de documents. Plus précisément, l'invention concerne un procédé et un système de lecture automatique de documents comprenant au moins une information pertinente que l'on souhaite lire et/ou extraire.
Elle permet notamment d'apporter des solutions aux différents problèmes généralement associés aux techniques de lecture automatique de documents connues, à savoir : la recherche de modèles de reconnaissance de format. En effet, il est nécessaire, pour pouvoir appliquer un procédé de lecture automatique à un document, de déterminer au préalable le modèle de format de ce document ; l'extraction de données figurant sur le document à lire ; - le contrôle de cohérence des données extraites du document ; l'indexation des documents lus ; - la gestion de l'accès aux informations extraites du document, en fonction de leur confidentialité.
On connaît à ce jour plusieurs techniques de lecture automatique de documents ou de reconnaissance d'écriture appliquées notamment à des documents de type formulaires.
Une première technique consiste à réaliser une reconnaissance générale du document par une technique du type OCR (pour l'anglais"Optical Character Recognition", en français"reconnaissance optique de caractère"). On recherche ensuite, parmi les caractères reconnus, des chaînes de caractères identiques à des chaînes de caractères pré-enregistrées dans une bibliothèque correspondante, de manière à déterminer la nature du document, et éventuellement certaines informations y figurant.
<Desc/Clms Page number 2>
Un inconvénient de cette technique de l'art antérieur est qu'elle est peu fiable et qu'elle ne permet d'analyser que les documents sur lesquels figurent des chaînes de caractères connues. Toutes les informations qui n'ont pas fait l'objet d'une mémorisation préalable dans la bibliothèque ne sont pas reconnues selon cette technique. En outre, le traitement d'un document dans son intégralité s'avère souvent très long.
Une deuxième technique consiste à scanner le document que l'on souhaite lire, et à rechercher sur ce document des guides de lecture. On opère ensuite une reconnaissance de caractères sur le document, de manière à identifier une information lue, dont on peut déduire la signification en fonction de sa position par rapport aux guides de lecture. Par exemple, on part du postulat selon lequel une adresse figure toujours, sur un document, dans un cadre rectangulaire. Une fois le cadre rectangulaire localisé sur le document, on en déduit que la chaîne de caractères qu'il contient correspond à l'adresse du destinataire ou de l'expéditeur du document.
Un inconvénient de cette technique de l'art antérieur est qu'elle ne fonctionne que pour les documents dont le format est conforme à un certain nombre de critères de présentation prédéterminés. Elle ne permet notamment pas de lire les informations figurant sur un document de format nouveau ou inhabituel.
On connaît également différents types de dispositifs de lecture automatique de documents (ou LAD), notamment utilisés dans les secteurs administratifs, ou dans les domaines d'activités nécessitant le traitement d'un volume important de documents papiers.
La lecture automatique de documents nécessite la création préalable de modèles de format de document, de façon que le dispositif reconnaisse rapidement la zone du document dans lequel il doit appliquer la reconnaissance de caractères, ainsi que la signification des chaînes de caractères lues, en fonction de leur position sur le document. La création de ces modèles est, suivant les procédés,
<Desc/Clms Page number 3>
plus ou moins complexe et longue, compte tenu de la grande diversité de formats que le dispositif peut avoir à traiter.
Par conséquent, en fonctionnement, la recherche du modèle spécifique applicable à un document peut s'avérer très longue, si le nombre de modèles utilisés dans le dispositif de LAD est élevé.
En outre, si la qualité de la numérisation est mauvaise, la lecture automatique du document n'est pas fiable.
Afin de faciliter le traitement, et d'accroître la qualité des résultats, les documents doivent généralement être triés et regroupés en lots homogènes de documents de même format. Un intercalaire est classiquement interposé entre deux lots de natures distinctes, afin de décrire la nature des informations du lot suivant à traiter. Ce traitement préalable est long et fastidieux.
Enfin, dans certains domaines d'activité, et notamment celui de la comptabilité, il est fréquent d'ajouter des informations sous forme de visas sur les documents reçus, en vue de leur traitement ultérieur. Cet ajout se fait par exemple par apposition, par le comptable, d'un tampon encreur sur une facture, indiquant qu'elle peut être réglée.
Les techniques de lecture automatique de documents et de reconnaissance de caractères de l'art antérieur ont pour inconvénient de ne pas être adaptées au traitement de ce genre de documents. En effet, la reconnaissance des caractères figurant sur le tampon n'est possible que si le tampon a été apposé sur une zone blanche du document ; dans le cas contraire, la superposition des caractères du tampon et des caractères pré-imprimés du document rend impossible toute reconnaissance fiable des informations. En outre, l'intensité et l'épaisseur des traits du tampon est variable, en fonction de la quantité d'encre déposée sur le tampon, ce qui rend difficile la reconnaissance de la forme du tampon par le dispositif de LAD.
L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur.
<Desc/Clms Page number 4>
Plus précisément, un objectif de l'invention est de fournir une technique de lecture automatique de documents permettant le traitement de tous types de documents, même s'ils sont de natures hétérogènes.
L'invention a également pour objectif de fournir une telle technique permettant d'extraire des informations d'un document, quelle qu'en soit la nature.
Un autre objectif de l'invention est de mettre en oeuvre une telle technique qui présente une fiabilité et une rapidité de traitement accrues par rapport aux techniques de l'art antérieur.
L'invention a également pour objectif de fournir une telle technique, qui soit simple et peu coûteuse à mettre en oeuvre.
L'invention a aussi pour objectif de proposer une telle technique qui présente les avantages combinés des techniques de lecture automatique de documents et des techniques d'apposition de visas, notamment utilisées dans le domaine comptable.
L'invention a encore pour objectif de fournir une telle technique qui permette une indexation et un archivage électronique efficace des documents traités.
Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de lecture automatique de documents comprenant au moins une information pertinente.
Selon l'invention, un tel procédé comprend les étapes suivantes : apposition d'au moins une étiquette de format prédéterminé sur un document à lire ; ladite étiquette est complétée au moyen d'au moins une information complémentaire ; analyse logicielle dudit document en vue de localiser ladite étiquette sur ledit document ; extraction d'au moins certaines desdites informations complémentaires par reconnaissance de caractères.
<Desc/Clms Page number 5>
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de la lecture automatique de documents, consistant à ajouter des informations, sous forme d'une étiquette, sur le document à traiter, en vue de faciliter et d'accroître la fiabilité de l'extraction des informations pertinentes figurant sur le document. La connaissance préalable du format de l'étiquette permet de localiser plus rapidement l'étiquette sur le document, et donc d'extraire plus aisément les informations complémentaires qu'elle contient. On notera que l'étiquette peut être indifféremment apposée sur le document avant ou après avoir été complétée au moyen des informations complémentaires.
Préférentiellement, lesdites informations complémentaires sont apposées manuellement et/ou dactylographiées par un opérateur dans au moins un champ de ladite étiquette.
Avantageusement, ladite étiquette comprend en outre au moins une information pré-imprimée.
Selon une caractéristique avantageuse de l'invention, au moins certaines desdites informations complémentaires sont fonction du contenu dudit document.
Ainsi, l'opérateur peut compléter l'étiquette à l'aide de données qu'il lit sur le document, ou qu'il déduit des informations figurant sur le document. Par exemple, si le document est une facture, l'opérateur peut remplir l'étiquette avec le montant hors taxe de la facture, et les coordonnées de l'expéditeur. Il peut également, en fonction de ces renseignements, indiquer sur l'étiquette que cette facture devra être payée par chèque, ou par virement bancaire.
De manière préférentielle, ladite étiquette est apposée dans une zone dudit document ne comprenant pas ladite ou lesdites information (s) pertinente (s).
De cette façon, la présence de l'étiquette sur le document ne gêne pas la lecture des informations y figurant. L'étiquette peut être collée sur une zone vierge du document, ou sur une zone ne comprenant que des informations jugées peu ou pas importantes par l'opérateur.
Préférentiellement, ladite étiquette comprend au moins un champ d'identification d'une donnée appartenant au groupe comprenant :
<Desc/Clms Page number 6>
une source dudit document ; un destinataire dudit document ; une référence numérique et/ou alphanumérique relative audit document ; un traitement à appliquer audit document ; un montant ; un objet dudit document ; la nature dudit document ; un modèle de format dudit document ; une date dudit document.
Ainsi, l'opérateur peut par exemple compléter l'étiquette avec l'adresse de l'expéditeur du document, le numéro d'un dossier ou d'un client auquel se rapporte ce document, le libellé du document, et sa date de réception. Lorsqu'il s'agit d'un document de format connu (par exemple, la facture d'un fournisseur régulier), il
Figure img00060001

peut également indiquer sur l'étiquette le modèle de format auquel se rapporte le Zn document (par exemple le modèle des factures EDF (marque déposée)), afin de faciliter la lecture automatique ultérieure du document. En effet, l'extraction des informations complémentaires de l'étiquette permettra ainsi de déterminer, sans qu'aucune recherche ne soit nécessaire, le modèle de format du document, mémorisé dans la bibliothèque du système de lecture automatique, à utiliser.
Selon une autre caractéristique avantageuse de l'invention, ladite étiquette comprend en outre au moins un champ de gestion d'accès audit document.
L'information écrite dans ce champ par l'opérateur correspond par exemple à un niveau de confidentialité du document, et permet de déterminer une liste de personnes autorisées à le consulter. Si le document est ensuite archivé électroniquement, cette information peut être utilisée pour déterminer si le document doit être mémorisée sous forme cryptée, ou en accès libre.
Préférentiellement, ledit procédé comprend en outre au moins une étape de recherche de ladite ou desdites information (s) pertinente (s) dudit document par reconnaissance de caractères imprimés.
<Desc/Clms Page number 7>
Outre les informations complémentaires de l'étiquette, on peut ainsi également accéder aux données figurant sur le document lui-même.
Selon un mode de réalisation préféré de l'invention, à l'issue de ladite étape de recherche, ledit procédé met en oeuvre une étape de contrôle de cohérence mettant en oeuvre une comparaison desdites informations complémentaires et de ladite ou desdites information (s) pertinente (s).
De cette façon, on peut vérifier, non seulement que l'opérateur n'a pas commis d'erreur en remplissant l'étiquette, mais également que le dispositif de lecture automatique a opéré une reconnaissance de caractères correcte lors de l'extraction des informations pertinentes du document et de l'extraction des informations complémentaires de l'étiquette. Ce contrôle de cohérence confère une grande fiabilité au procédé de l'invention, qui est donc très avantageux par rapport aux techniques de lecture automatique de documents de l'art antérieur.
De manière préférentielle, ledit document est scanné, de façon à obtenir une image dudit document, sur laquelle est effectuée ladite étape d'analyse logicielle.
On notera que l'étiquette apposée sur le document ne gêne en rien cette opération, car elle n'induit qu'une surépaisseur locale très faible sur le document.
Avantageusement, ledit procédé comprend en outre une étape d'indexation dudit document par association d'au moins certaines desdites informations complémentaires et de ladite image dudit document et une étape de mémorisation dudit document indexé.
Les documents lus selon le procédé de l'invention peuvent ainsi être archivés électroniquement dans une base de données, et leur recherche dans cette base peut se faire par mots-clefs, à partir des informations complémentaires figurant sur l'étiquette. Ainsi, si le document considéré correspond à un résultat d'analyse médicale, et si l'étiquette associée mentionne le nom du patient, le nom de son médecin traitant, la date de l'analyse, et un diagnostic correspondant, le document archivé électroniquement peut être extrait de la base de données à partir de l'un quelconque de ces paramètres, qui constituent son index.
<Desc/Clms Page number 8>
Selon une variante préférentielle de l'invention, ladite étape d'analyse logicielle permet d'obtenir une image de ladite étiquette, et ledit procédé comprend en outre une étape de redressement de ladite image, destinée à faciliter la mise en oeuvre de ladite étape d'extraction desdites informations complémentaires à partir de ladite image redressée.
Par exemple, le document est scanné, puis on identifie la position de l'étiquette sur le document, et on extrait, de l'image globale du document, une image de l'étiquette. Si l'étiquette a par exemple été collée de travers par l'opérateur, il peut être nécessaire de redresser l'image de l'étiquette, de façon par exemple à faire coïncider ses bords avec un repère géométrique prédéterminé. Si le bord inférieur de l'étiquette est parallèle à l'axe horizontal de lecture du dispositif de reconnaissance de caractères, il est ensuite plus aisé d'extraire les informations complémentaires.
Avantageusement, ladite reconnaissance de caractères met en oeuvre au moins une technique appartenant au groupe comprenant : la reconnaissance intelligente de caractères ou ICR (en anglais"Intelligent
Character Recognition") ; la reconnaissance optique de caractères ou OCR (en anglais"Optical
Character Recognition") ; la reconnaissance de cases à cocher ou OMR (en anglais"Optical Mark
Recognition") ; la reconnaissance de codes à barres.
Le procédé décrit précédemment s'applique avantageusement à la lecture de l'un au moins des documents appartenant au groupe comprenant : les documents comptables, et notamment les factures ; les registres d'état civil ; les formulaires administratifs ; les dossiers médicaux ; les documents judiciaires ; les bons de livraison ;
<Desc/Clms Page number 9>
les inventaires ; - les recensements et sondages.
L'invention concerne également une étiquette de format prédéterminé comprenant au moins une information pré-imprimée et au moins un champ destiné à être complété par un opérateur au moyen d'informations complémentaires manuscrites et/ou dactylographiées. Cette étiquette est apposée sur au moins un document auquel est appliqué le procédé de lecture automatique de documents décrit précédemment.
Préférentiellement, elle est autocollante et/ou repositionnable.
Elle comprend avantageusement des moyens de fixation d'au moins un document de petite taille sur lequel elle est apposée à au moins un support de plus grand format.
Ainsi, si le document que l'on cherche à lire est une note de taxi, de petit format, on peut la fixer à l'aide de l'étiquette sur une feuille de papier A4, de façon que tous les documents que l'on traite à l'aide du procédé de l'invention soient sensiblement de mêmes dimensions.
L'invention concerne encore un système de lecture automatique de documents comprenant au moins une information pertinente, comprenant : des moyens d'impression, à partir d'une bibliothèque d'étiquettes, d'au moins une étiquette de format prédéterminé comprenant au moins une information pré-imprimée et au moins un champ destiné à être complété par un opérateur au moyen d'informations complémentaires manuscrites et/ou dactylographiées ; des moyens d'apposition de ladite étiquette sur au moins un document à lire ; des moyens, reliés à ladite bibliothèque, d'analyse logicielle dudit document permettant de localiser ladite étiquette sur ledit document ; des moyens d'extraction desdites informations complémentaires de ladite étiquette.
<Desc/Clms Page number 10>
Les moyens d'impression et les moyens d'analyse logicielle étant tous deux reliés à la même bibliothèque, dans laquelle sont mémorisés tous les formats possibles d'étiquettes, la recherche du format de l'étiquette, et donc l'extraction des données correspondantes est accélérée et simplifiée.
Un tel système comprend en outre : des moyens, reliés à ladite bibliothèque, d'identification dudit format prédéterminé ; des moyens de lecture de ladite ou desdites information (s) pertinente (s) dudit document ; des moyens de contrôle de cohérence mettant en oeuvre une comparaison desdites informations complémentaires et de ladite ou lesdites information (s) pertinente (s). des moyens d'indexation et d'archivage d'une image dudit document obtenue en scannant ledit document.
L'invention concerne aussi un procédé de comptabilité mettant en oeuvre le procédé de lecture automatique de documents décrit précédemment, appliqué à au moins un document comptable. Selon l'invention, à l'issue de ladite étape de contrôle de cohérence, ce procédé met en oeuvre une étape de rapprochement d'au moins certaines desdites informations complémentaires et/ou desdites informations pertinentes avec au moins une information extraite d'un document bancaire, de façon à réaliser une comptabilité automatique.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 présente, sous forme d'un organigramme simplifié, un schéma fonctionnel général de la présente invention ; la figure 2 illustre, de manière schématique, un mode de réalisation du procédé de la figure 1 appliqué à la lecture automatique de factures ;
<Desc/Clms Page number 11>
la figure 3 décrit, de manière schématique, un mode de réalisation du procédé de la figure 1 appliqué au traitement de documents circulant dans un service administratif à niveau important de confidentialité, tel que par exemple un service du domaine judiciaire ou médical ; la figure 4 décrit un synoptique du procédé de comptabilité automatique de l'invention.
Le principe général de l'invention repose sur l'apposition d'une étiquette pré-imprimée, qui peut être complétée de manière manuscrite, sur un document que l'on cherche à traiter par lecture automatique. Le traitement du document met en ccuvre, d'une part, une reconnaissante des caractères manuscrits ajoutés sur l'étiquette, et d'autre part, une reconnaissance des caractères pré-imprimés sur l'étiquette et des caractères imprimés du document. La connaissance préalable du format de l'étiquette permet de faciliter l'extraction des informations qui y figurent. En outre, la redondance des informations figurant sur le document et sur l'étiquette permet d'accroître la fiabilité du procédé de l'invention.
On présente, en relation avec la figure 1, un exemple de mode de réalisation de l'invention.
Une base de données informatique 11 est reliée à un dispositif d'impression d'étiquettes amovibles autocollantes qui n'a pas été représenté sur la figure 1. On sélectionne, à partir de cette base de données 11, certains libellés préenregistrés (par exemple,"expéditeur","destinataire","montant HT"), afin de les ordonner et d'imprimer sur une ou plusieurs planches, une pluralité d'étiquettes identiques 12 pré-imprimées suivant le libellé sélectionné. Ces étiquettes peuvent comporter différentes zones 13, appelées champs, comprenant par exemple : un champ d'identification de l'expéditeur du document, sous forme de zones pré-casées d'un champ vierge, destiné à être complété à l'aide d'informations manuscrites ou dactylographiées ; un champ d'identification du client, du dossier ou du destinataire du document, sous forme numérique ou alphanumérique, sous forme de codes à barres, du logo du client, ou de toute autre technique adaptée. Dans un
<Desc/Clms Page number 12>
mode de réalisation préféré de l'invention, ce champ est pré-imprimé, mais il peut également être renseigné manuellement par un opérateur lors du traitement d'un document particulier ; un champ indiquant le mode de traitement des information extraites du document et/ou de l'étiquette à mettre en oeuvre. Ce champ se présente par exemple sous la forme de cases à cocher ou d'une ou plusieurs zones de saisie ; un champ relatif à un contrôle de cohérence des informations figurant sur l'étiquette d'une part, et sur le document sur lequel elle va être apposée d'autre part.
Cette liste des champs de l'étiquette n'est bien sûr pas limitative et peut être complétée en fonction de la nature du document à traiter ou des besoins liés aux particularités d'un domaine d'activité considéré.
Un certain de nombre de feuillets 12 comportant une pluralité d'étiquettes peuvent être imprimés à l'avance et archivés, en fonction de leur destination. Aux fins de l'archivage, ces feuillets 12 peuvent par exemple être perforés et rangés dans un classeur.
En vue de la mise en oeuvre du procédé de LAD de l'invention, une étiquette pré-imprimée 14 est décollée de son support d'impression 12 et apposée sur une partie quelconque d'un formulaire ou d'un document 15 devant être numérisé.
Les champs de l'étiquette 14 sont ensuite remplis à la main par le ou les utilisateurs 16 du document 15. Par exemple, un opérateur lit le document 15, et renseigne de manière manuscrite (ou dactylographiée) les différents champs de l'étiquette, en fonction par exemple du contenu du document.
Le document 15 et son étiquette 14 sont ensuite scannés ensemble 17, soit dans un lot hétérogène, soit isolément. On notera que l'étiquette 14 est sans inconvénient à l'utilisation du scanner, car elle n'induit qu'une faible surépaisseur sur le document 15.
<Desc/Clms Page number 13>
L'étiquette 14 peut également servir de moyen de fixation pour des documents de petites tailles telles que des tickets, notes ou justificatifs, sur des feuilles blanches de plus grand format et facilite ainsi l'utilisation du scanner. En effet, beaucoup de scanners ne sont pas adaptés à traiter des documents dont le format n'est pas standard (typiquement, de format différent du format A4 en Europe), et il est donc particulièrement avantageux de coller ces documents, à l'aide de l'étiquette 14, sur un support de format adapté à l'utilisation du scanner.
L'image est analysée 18 par un logiciel, afin de rechercher et de localiser, à un endroit quelconque du document 15, la forme de l'étiquette 14, par comparaison avec la bibliothèque 11 des formes d'étiquettes utilisées lors du processus d'impression.
L'image de l'étiquette 14 est ensuite redressée afin de faciliter le processus d'extraction des données d'identification imprimées. En effet, si l'étiquette a été collée de travers sur le document 15, la reconnaissance de caractères sur l'étiquette sera plus complexe. On redresse donc l'image de l'étiquette obtenue par numérisation, de façon que ses bords coïncident avec les axes de recherche du logiciel de reconnaissance de caractères.
Le procédé de l'invention met en suite en oeuvre des logiciels de reconnaissance d'écritures imprimées (OCR), d'écritures manuscrites (ICR), de cases à cocher (OMR) et de codes à barres, qui extraient les informations préimprimées et manuscrites de l'étiquette, ainsi que les informations figurant sur le document, suivant un ordre d'instructions prédéterminé ou imposé par exemple par un opérateur.
A l'issue des traitements effectués par ces différents logiciels, on effectue des contrôles de cohérence et une indexation 19. Ces contrôles de cohérence consistent à comparer les informations extraites de l'étiquette 14 d'une part, et du document 15 d'autre part, de façon à vérifier leur conformité. Le document 15 peut ensuite être indexé, c'est-à-dire qu'on associe son image aux informations qui en ont été extraites, dans une base de données adaptée. Lorsque l'on souhaite consulter le document 15, on peut ensuite aisément l'extraire de la zone
<Desc/Clms Page number 14>
d'archivage électronique en utilisant des mots-clefs ou des références numériques correspondant aux informations extraites.
On présente désormais, en relation avec la figure 2, un exemple d'application du procédé de l'invention à la lecture automatique de factures.
Un service informatique 21 d'une entreprise imprime des pages d'étiquettes autocollantes 22 comprenant chacune une pluralité de champs, par exemple du type des champs décrits précédemment en relation avec la figure 1. Le service informatique 21 les remet au service comptable 24, qui collecte les factures envoyées par les fournisseurs 23. Il décolle une étiquette, l'appose sur chaque facture 25, complète les champs vierges à la main sur l'étiquette, puis numérise 26 chaque document complété par l'étiquette et les informations manuscrites.
Le service informatique 21 extrait par un logiciel d'ICR le nom du fournisseur sur les étiquettes, pour déterminer le modèle de format du document 25. En effet, les factures 25 d'un fournisseur 23 donné sont généralement toujours de même format : ce format est avantageusement mémorisé dans une base de données de l'entreprise. Après rapprochement du nom figurant sur l'étiquette et sur la facture 25, un logiciel d'OCR et de lecture de code à barres extrait par exemple, en s'aidant du format déterminé, la référence de la commande, les ventilations analytiques ainsi que les montants, prix unitaire (PU) et quantités.
Ces informations sont contrôlées automatiquement par rapprochement avec les informations redondantes extraites des étiquettes telles que les libellés, montants, PU et quantités. Les factures ainsi vérifiées et validées automatiquement sont insérées dans le système informatique 27. En cas d'erreur de concordance, les factures sont renvoyées au service de comptabilité 24 pour vérification.
On présente maintenant, en relation avec la figure 3, un exemple de mode de réalisation du traitement de documents circulant dans un service administratif à niveau important de confidentialité, tel que par exemple un service du domaine judiciaire ou médical.
<Desc/Clms Page number 15>
Après réception par courrier de différents documents, et décompte, en fonction du nombre de documents, du nombre d'étiquettes nécessaire, le secrétariat 31 imprime chaque jour des étiquettes numérotées 32 comportant la liste des services dans lesquels les différents doivent circuler, ainsi que les différents niveaux d'accès à l'information, en fonction de son degré de confidentialité.
Le secrétariat 31 ouvre le courrier, appose (33) une étiquette à un endroit quelconque de chacun des documents, et complète cette étiquette en remplissant (34) à la main la date de réception du courrier considéré.
Le ou les responsables, à qui le secrétariat 31 remet le courrier, complètent ensuite les différents champs de l'étiquette 32, en inscrivant (35) à la main par exemple le nom du ou des dossiers auxquels se rapporte le courrier, les différents niveaux d'indexation et d'accès confidentiels des services concernés, ainsi que leurs visas, indiquant que le courrier leur a bien été remis.
Le document est ensuite scanné 36 avant d'être archivé 37 sous forme papier. Une analyse logicielle de l'image du document scanné permet de détecter le format de l'étiquette, ainsi que le numéro qui y est pré-imprimé.
Les données manuscrites telles que par exemple les dates, signatures ou visas, noms de dossier, cases à cocher, codes à barres, ajoutés par le secrétariat 31 ou les responsables du dossier sont extraites 38 de l'étiquette, par reconnaissance de caractères de type ICR ou OCR par exemple.
Les données manuscrites reconnues sont rapprochées de la base de données, afin d'indexer le document. Les données relatives à la confidentialité sont utilisées pour autoriser ou interdire l'accès à l'information figurant sur le document, après cryptage, aux différents services concernés, ainsi qu'à d'éventuels intervenants externes 39 (par exemple des médecins ou des avocats).
On présente désormais, en relation avec la figure 4, un exemple de mode de réalisation d'un procédé de comptabilité automatique, mettant en oeuvre le procédé de lecture automatique de documents décrit précédemment.
<Desc/Clms Page number 16>
Un prestataire comptable 41 imprime et remet à la Société XYZ 44, qui est son client, plusieurs feuilles d'étiquettes personnalisées 42 de plusieurs modèles différents, correspondant par exemple, d'une aux frais généraux 421 et d'autres part, aux factures 422.
Sur chaque pièce comptable 43, la société XYZ 44 appose une étiquette, en fonction de la nature (421 ou 422) de la pièce 43. La société 44 complète à la main les zones pré-établies des étiquettes 42 et scanne (45) les documents ainsi complétés. Les documents scannés sont ensuite transmis par voie télématique (ou par tout autre moyen de télécommunication adapté, comme par exemple via le réseau Internet) sur le système informatique 46 du prestataire comptable 41. Cette transmission peut se faire sous forme cryptée, pour des raisons de confidentialité de l'information transmise.
Le système informatique 46 du prestataire comptable 41 détecte, par traitement logiciel, l'étiquette des documents, extrait le nom XYZ de la société 44, appelle le modèle de format de document correspondant (en effet, une base de données reliée au système informatique 46 du prestataire comptable 41 répertorie les modèles de format de document des pièces comptables 43 de chacun de ses clients), et rapproche les montants figurant sur les pièces comptables 43 avec les informations redondantes extraites des étiquettes 42.
Les pièces 43 dont les montants ont été ainsi validés 471 sont codifiées automatiquement par appel du plan comptable et des librairies d'écritures comptable type de la société XYZ 44. En cas d'erreur de concordance 472, les pièces sont vidéo-codées par le prestataire 41. Ainsi vérifiées et validées automatiquement, les écritures comptables sont insérées dans le système informatique 48.
Le pointage entre les paiements (ou les encaissements) avec les pièces comptables est effectué par rapprochement entre les fichiers bancaires 49 et les références extraites des étiquettes (par exemple les dates, numéros de chèques et libellés).
<Desc/Clms Page number 17>
Les analyses liées à l'indépendance des exercices comptables, comme par exemple la répartition des charges à payer ou les charges payées d'avance sont effectuées par recoupement entre les références de dates extraites des étiquettes 42 et celles extraites des pièces justificatives 43.
Figure img00170001
Les images des documents scannés sont automatiquement indexées aux ZD écritures comptables afin d'être affichées par une simple instruction informatique (par exemple par un clic de souris ou une impulsion sur une touche du clavier).
Après l'ensemble des analyses, les données financières sont transmises (50) aux organismes concernés, comme l'Etat, les Caisses sociales...
On notera que l'invention n'est pas limitée aux exemples qui viennent d'être décrits et de nombreux aménagements peuvent être apportés sans sortir du cadre de l'invention. Ainsi, le format, la texture, la couleur ou la transparence de l'étiquette peuvent être quelconques. Il en est de même pour la forme et les caractéristiques des zones pré-codifiées et de saisie sur l'étiquette.

Claims (21)

  1. REVENDICATIONS 1. Procédé de lecture automatique de documents comprenant au moins une information pertinente, caractérisé en ce qu'il comprend les étapes suivantes : apposition d'au moins une étiquette de format prédéterminé sur un document à lire ; ladite étiquette est complétée au moyen d'au moins une information complémentaire ; analyse logicielle dudit document en vue de localiser ladite étiquette sur ledit document ; - extraction d'au moins certaines desdites informations complémentaires par reconnaissance de caractères.
  2. 2. Procédé de lecture automatique de documents selon la revendication 1, caractérisé en ce que lesdites informations complémentaires sont apposées manuellement et/ou dactylographiées par un opérateur dans au moins un champ de ladite étiquette.
  3. 3. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 et 2, caractérisé en ce que ladite étiquette comprend en outre au moins une information pré-imprimée.
  4. 4. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'au moins certaines desdites informations complémentaires sont fonction du contenu dudit document.
  5. 5. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ladite étiquette est apposée dans une zone dudit document ne comprenant pas ladite ou lesdites information (s) pertinente (s).
  6. 6. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ladite étiquette comprend au moins un champ d'identification d'une donnée appartenant au groupe comprenant : une source dudit document ; un destinataire dudit document ;
    <Desc/Clms Page number 19>
    une référence numérique et/ou alphanumérique relative audit document ; un traitement à appliquer audit document ; un montant ; un objet dudit document ; la nature dudit document ; un modèle de format dudit document ; une date dudit document.
  7. 7. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ladite étiquette comprend en outre au moins un champ de gestion d'accès audit document.
  8. 8. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 7, caractérisé en ce qu'il comprend en outre au moins une étape de recherche de ladite ou desdites information (s) pertinente (s) dudit document par reconnaissance de caractères imprimés.
  9. 9. Procédé de lecture automatique de documents selon la revendication 8, caractérisé en ce qu'à l'issue de ladite étape de recherche, ledit procédé met en oeuvre une étape de contrôle de cohérence mettant en oeuvre une comparaison desdites informations complémentaires et de ladite ou desdites information (s) pertinente (s).
  10. 10. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 9, caractérisé en ce que ledit document est scanné, de façon à obtenir une image dudit document, sur laquelle est effectuée ladite étape d'analyse logicielle.
  11. 11. Procédé de lecture automatique de documents selon la revendication 10, caractérisé en ce qu'il comprend en outre une étape d'indexation dudit document par association d'au moins certaines desdites informations complémentaires et de
    Figure img00190001
    ladite image dudit document et une étape de mémorisation dudit document indexé.
    ZD
  12. 12. Procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 11, caractérisé en ce que ladite étape d'analyse logicielle permet d'obtenir une image de ladite étiquette, et en ce que ledit procédé
    <Desc/Clms Page number 20>
    comprend en outre une étape de redressement de ladite image, destinée à faciliter la mise en oeuvre de ladite étape d'extraction desdites informations complémentaires à partir de ladite image redressée.
  13. 13. Procédé selon l'une quelconque des revendications 1 à 12, caractérisé en ce que ladite reconnaissance de caractères met en oeuvre au moins une technique appartenant au groupe comprenant : la reconnaissance intelligente de caractères ou ICR (en anglais"Intelligent
    Character Recognition") ; la reconnaissance optique de caractères ou OCR (en anglais"Optical
    Character Recognition") ; la reconnaissance de cases à cocher ou OMR (en anglais"Optical Mark
    Recognition") ; - la reconnaissance de codes à barres.
  14. 14. Application du procédé selon l'une quelconque des revendications 1 à 13 à la lecture de l'un au moins des documents appartenant au groupe comprenant : les documents comptables, et notamment les factures ; les registres d'état civil ; - les formulaires administratifs les dossiers médicaux ; les documents judiciaires ; les bons de livraison ; les inventaires ; les recensements et sondages.
  15. 15. Etiquette de format prédéterminé comprenant au moins une information pré-imprimée et au moins un champ destiné à être complété par un opérateur au moyen d'informations complémentaires manuscrites et/ou dactylographiées, ladite étiquette étant apposée sur au moins un document auquel est appliqué le procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 13.
    <Desc/Clms Page number 21>
  16. 16. Etiquette selon la revendication 15, caractérisé en ce qu'elle est autocollante et/ou repositionnable ;
  17. 17. Etiquette selon l'une quelconque des revendications 15 et 16, caractérisé en ce qu'elle comprend des moyens de fixation d'au moins un document de petite taille sur lequel elle est apposée à au moins un support de plus grand format.
  18. 18. Système de lecture automatique de documents comprenant au moins une information pertinente, caractérisé en ce qu'il comprend : des moyens d'impression, à partir d'une bibliothèque d'étiquettes, d'au moins une étiquette de format prédéterminé comprenant au moins une information pré-imprimée et au moins un champ destiné à être complété par un opérateur au moyen d'informations complémentaires manuscrites et/ou dactylographiées ; des moyens d'apposition de ladite étiquette sur au moins un document à lire ; des moyens, reliés à ladite bibliothèque, d'analyse logicielle dudit document permettant de localiser ladite étiquette sur ledit document ; des moyens d'extraction desdites informations complémentaires de ladite étiquette.
  19. 19. Système de lecture automatique de documents selon la revendication 18, caractérisé en ce qu'il comprend en outre : des moyens, reliés à ladite bibliothèque, d'identification dudit format prédéterminé ; des moyens de lecture de ladite ou desdites information (s) pertinente (s) dudit document ; des moyens de contrôle de cohérence mettant en oeuvre une comparaison desdites informations complémentaires et de ladite ou lesdites information (s) pertinente (s).
  20. 20. Système de lecture automatique de documents selon l'une quelconque des revendications 18 et 19, caractérisé en ce qu'il comprend en outre des moyens
    <Desc/Clms Page number 22>
    d'indexation et d'archivage d'une image dudit document obtenue en scannant ledit document.
  21. 21. Procédé de comptabilité mettant en oeuvre le procédé de lecture automatique de documents selon l'une quelconque des revendications 1 à 13, appliqué à au moins un document comptable, caractérisé en ce qu'à l'issue de ladite étape de contrôle de cohérence, il met en oeuvre une étape de rapprochement d'au moins certaines desdites informations complémentaires et/ou desdites informations pertinentes avec au moins une information extraite d'un document bancaire, de façon à réaliser une comptabilité automatique.
FR0202804A 2002-03-05 2002-03-05 Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants Expired - Fee Related FR2837011B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR0202804A FR2837011B1 (fr) 2002-03-05 2002-03-05 Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants
PCT/FR2003/000714 WO2003075211A1 (fr) 2002-03-05 2003-03-05 Procede de lecture automatique d'un document sur lequel est apposee une pre-imprimee a completer
AU2003229857A AU2003229857A1 (en) 2002-03-05 2003-03-05 Method for automatic reading of a document whereon is affixed a pre-printed label to be completed

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0202804A FR2837011B1 (fr) 2002-03-05 2002-03-05 Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants

Publications (2)

Publication Number Publication Date
FR2837011A1 true FR2837011A1 (fr) 2003-09-12
FR2837011B1 FR2837011B1 (fr) 2004-05-28

Family

ID=27763570

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0202804A Expired - Fee Related FR2837011B1 (fr) 2002-03-05 2002-03-05 Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants

Country Status (3)

Country Link
AU (1) AU2003229857A1 (fr)
FR (1) FR2837011B1 (fr)
WO (1) WO2003075211A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738180B2 (ja) 2006-01-17 2011-08-03 株式会社リコー 画像処理装置および電子ファイル生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0592238A2 (fr) * 1992-10-09 1994-04-13 Matsushita Electric Industrial Co., Ltd. Reconnaissance optique de caractères vérifiables
US5758574A (en) * 1992-04-15 1998-06-02 Bernardo; Joseph A. Manually written, machine readable code system
WO2000062242A1 (fr) * 1999-04-09 2000-10-19 Ivaylo Nicolaev Popov Procede servant d'interface homme-machine pour des documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758574A (en) * 1992-04-15 1998-06-02 Bernardo; Joseph A. Manually written, machine readable code system
EP0592238A2 (fr) * 1992-10-09 1994-04-13 Matsushita Electric Industrial Co., Ltd. Reconnaissance optique de caractères vérifiables
WO2000062242A1 (fr) * 1999-04-09 2000-10-19 Ivaylo Nicolaev Popov Procede servant d'interface homme-machine pour des documents

Also Published As

Publication number Publication date
FR2837011B1 (fr) 2004-05-28
WO2003075211A1 (fr) 2003-09-12
AU2003229857A1 (en) 2003-09-16

Similar Documents

Publication Publication Date Title
US9552516B2 (en) Document information extraction using geometric models
US9002838B2 (en) Distributed capture system for use with a legacy enterprise content management system
US20140108456A1 (en) Image triggered transactions
US9390089B2 (en) Distributed capture system for use with a legacy enterprise content management system
CA2502811A1 (fr) Systeme et procede de capture, de stockage et de traitement de recepisses et de donnees associees
CN1387652A (zh) 将书面商业文档与经计算机网络输入的计算机可读数据集成在一起的系统和方法
AU2019366169B2 (en) Sensitive data detection and replacement
US10528807B2 (en) System and method for processing and identifying content in form documents
CN110298340A (zh) 图像处理装置、图像处理方法以及计算机可读存储介质
JP2009225263A (ja) 印刷物への広告出力方法及び装置
CN109271951A (zh) 一种提升记账审核效率的方法及系统
CH716698B1 (fr) Hachage d&#39;image perceptuel partiel pour la déconstruction de factures.
CN1204522C (zh) 文档、文档处理系统和文档产生系统
TWI273474B (en) Method, systems and mediums of processing printed documents
US8593697B2 (en) Document processing
FR3068807B1 (fr) Procede de traitement d&#39;une image montrant un document structure comprenant une zone d&#39;inspection visuelle a partir d&#39;une zone de lecture automatique ou de type code-barres
US20200327320A1 (en) System and Method for Processing and Identifying Content in Form Documents
US20220092878A1 (en) Method and apparatus for document management
FR2837011A1 (fr) Procede de lecture automatique d&#39;un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants
CN105718846A (zh) 票据信息的录入方法及装置
US8234237B2 (en) System and method for automatic return letter generation
WO2006105607A1 (fr) Procede et systeme de transfert de donnees
EP2070027A1 (fr) Procede d&#39;edition personnalisee de courriers interactifs
Fernando Intelligent Document Processing: A Guide For Building RPA Solutions
CN1711541A (zh) 收集、储存和处理收据和有关数据的系统和方法

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20111130