FR2830106A1 - Dispositif et procede de reconnaissance de structure de document - Google Patents
Dispositif et procede de reconnaissance de structure de document Download PDFInfo
- Publication number
- FR2830106A1 FR2830106A1 FR0109451A FR0109451A FR2830106A1 FR 2830106 A1 FR2830106 A1 FR 2830106A1 FR 0109451 A FR0109451 A FR 0109451A FR 0109451 A FR0109451 A FR 0109451A FR 2830106 A1 FR2830106 A1 FR 2830106A1
- Authority
- FR
- France
- Prior art keywords
- document
- storage
- structures
- recognition
- structure recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
Abstract
L'invention concerne un dispositif et un procédé permettant de reconnaître une structure de document. La présente invention concerne en outre un programme mettant en oeuvre le dispositif et le procédé. Une structure étant constituée de tableaux, colonnes et lignes. Chaque cellule est définie comme étant soit une zone vide soit une étiquette (101) soit une donnée (103). Les lignes ou les colonnes peuvent selon des dispositions particulières avoir un nombre d'occurrence (102). L'invention peut être utilisée dans un dispositif de lecture de document ou d'identification de document.
Description
<Desc/Clms Page number 1>
Dispositif et procédé de reconnaissance de structures de document.
La présente invention concerne un dispositif et un procédé de lecture automatique de document ainsi qu'un dispositif et un procédé d'identification de document. La présente invention concerne en outre un programme mettant en oeuvre le dispositif et le procédé.
La lecture automatique de document s'effectue le plus souvent par une approche basée sur les positions. Cela consiste à paramétrer géographiquement les zones que l'on souhaite récupérer. Cependant lorsque les documents sont trop variés (comme par exemple les factures), le temps de création des formats amoindri les gains de productivité.
Une première solution présentée dans la demande française nO 99 15306 permet de traiter des documents sans paramétrage
Il géographique préalable en se basant sur un principe d'association d'une information lue avec une information de signification. Mais ce procédé montre ses limites dès lors que l'information lue est inexistante ou ambiguë (Par exemple dans le cas d'une adresse, le mot adresse n'est pas forcément indiqué à côté). En outre le procédé ne permet pas de traiter les documents à taille variable comme les relevés bancaires par exemple.
Il géographique préalable en se basant sur un principe d'association d'une information lue avec une information de signification. Mais ce procédé montre ses limites dès lors que l'information lue est inexistante ou ambiguë (Par exemple dans le cas d'une adresse, le mot adresse n'est pas forcément indiqué à côté). En outre le procédé ne permet pas de traiter les documents à taille variable comme les relevés bancaires par exemple.
En matière d'identification de document, l'état actuel de la technique utilise un système de mots clés comprenant
r éventuellement une notion de position. La demande française n FR9902925 est un exemple de ce type de procédé. D'autres procédés utilisent la reconnaissance de forme. Mais aucun n'analyse la structure même du document alors que ceci permet d'une part de déterminer la nature du document. Ainsi la structure d'une facture est totalement différente de celle d'un relevé bancaire. D'autre part cette méthode permet aussi d'identifier plus précisément un
document et de différencier ainsi deux relevés bancaires ayant des p émetteurs différents.
r éventuellement une notion de position. La demande française n FR9902925 est un exemple de ce type de procédé. D'autres procédés utilisent la reconnaissance de forme. Mais aucun n'analyse la structure même du document alors que ceci permet d'une part de déterminer la nature du document. Ainsi la structure d'une facture est totalement différente de celle d'un relevé bancaire. D'autre part cette méthode permet aussi d'identifier plus précisément un
document et de différencier ainsi deux relevés bancaires ayant des p émetteurs différents.
<Desc/Clms Page number 2>
La présente invention propose donc une solution technique basée sur la structure d'un document pour améliorer significativement la lecture automatique et l'identification dudit document.
Selon un premier aspect, l'invention vise un dispositif de reconnaissance de structures d'un document. Le point de départ du procédé est un document sous forme numérique comprenant des caractères et accessoirement des éléments graphiques. Il peut s'agir d'un fichier HTML, XML, d'un fichier texte ou le résultat d'un processus de reconnaissance de caractères effectué sur un document numérisé. Le dispositif comprend donc : - Un moyen de récupération du document sous une forme numérique.
- Un moyen permettant de reconnaître la structure dudit document.
- Un moyen de sortie des résultats.
Le point central de la présente invention est la définition de la structure du document.
La structure d'un document contient au moins un tableau. Un tableau comprend au moins une ligne et au moins une colonne.
Chaque cellule contient soit une zone vide, soit une étiquette soit une donnée. Des dispositions particulières peuvent prévoire un assemblage mixte des deux derniers éléments.
Une étiquette est un élément récurrent entre deux documents ayant les mêmes structures. Il peut entre autres s'agir d'un élément présent dans le but de préciser la nature des données comme par exemple les mots débit , crédit . Il peut aussi s'agir d'éléments graphiques comme des images ou des traits.
Une donnée est une information porteuse de sens. L'objet du document est de fournir ces informations. Il s'agit par exemple pour une facture d'un montant hors taxe, d'un montant TTC, de la date ou du libellé...
<Desc/Clms Page number 3>
Ainsi le moyen de reconnaissance de la structure dudit document est caractérisé en ce qu'elle comporte : - Un moyen de stockage de la structure dudit document permettant de conserver au moins un tableau. Un tableau répondant à la description succincte ci dessus.
- Un moyen de reconnaissance de structures permettant de tester l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.
Le moyen de reconnaissance de structures est adapté à déterminer le positionnement physique de la structure dans ledit document si l'adéquation entre les deux structures est vérifiée. A partir de ce positionnement physique, le moyen de reconnaissance de structures peut récupérer les informations nécessaires.
Selon des dispositions plus particulières que celles exposées ci dessus : - Concernant les étiquettes, le moyen de stockage permet d'associer à une même étiquette plusieurs mots ou éléments graphiques. Ainsi pour une étiquette représentant la colonne libellé d'un relevé bancaire on pourra associer les mots vos opérations ou libellé des opérations . En outre lesdits mots pourront contenir des caractères jokers. Ces dispositions permettent de couvrir un nombre plus important de documents avec la même structure ce qui diminue le nombre de structures à créer. Le moyen de reconnaissance de structures teste parmi plusieurs mots ou éléments graphiques afin d'identifier une étiquette.
- Concernant les données, le moyen de stockage permet d'associer à une donnée au moins un formatage. Le formatage permet de vérifier l'adéquation des chaînes de caractères avec la donnée attendue. Il peut par exemple s'agir d'un formatage numérique indiquant le nombre de chiffres après la virgule ou un formatage très spécifique comme un numéro de sécurité social.
Cette disposition permet d'invalider des informations qui seraient incohérentes par rapport à la donnée attendue. Le moyen de reconnaissance de structures vérifie la conformité de chaque donnée du document avec les formatages spécifiés dans la structure.
<Desc/Clms Page number 4>
Selon des caractéristiques plus particulières que celles décrites précédemment : - Concernant les lignes et les colonnes, le moyen de stockage permet de conserver pour chaque ligne et/ou colonne le nombre d'occurrences. Ainsi on indiquera pour une ligne d'un relevé
r bancaire comprenant entre autres les données représentant la date, un libellé, un débit et un crédit qu'elle est présente de 1 à n fois. Cette disposition permet de traiter les tableaux à taille variable. Le moyen de reconnaissance de structures est adapté à reconnaître des structures dont au moins un tableau a un nombre de lignes et/ou de colonnes variable. Ledit moyen respecte les bornes indiquées par le moyen de stockage.
r bancaire comprenant entre autres les données représentant la date, un libellé, un débit et un crédit qu'elle est présente de 1 à n fois. Cette disposition permet de traiter les tableaux à taille variable. Le moyen de reconnaissance de structures est adapté à reconnaître des structures dont au moins un tableau a un nombre de lignes et/ou de colonnes variable. Ledit moyen respecte les bornes indiquées par le moyen de stockage.
- En outre le moyen de stockage peut accessoirement regrouper
p les lignes et/ou les colonnes en séquences. Ces séquences pouvant êtres elles même regroupées dans d'autres séquences. Le moyen de stockage permet pour chaque séquence de conserver le nombre d'occurrence possible. Ceci permet de traiter des documents ayant des groupes de lignes ou de colonnes récurrentes. Le moyen de reconnaissance de structures est adapté à reconnaître des structures dont au moins un des tableaux possède une ou plusieurs séquence.
p les lignes et/ou les colonnes en séquences. Ces séquences pouvant êtres elles même regroupées dans d'autres séquences. Le moyen de stockage permet pour chaque séquence de conserver le nombre d'occurrence possible. Ceci permet de traiter des documents ayant des groupes de lignes ou de colonnes récurrentes. Le moyen de reconnaissance de structures est adapté à reconnaître des structures dont au moins un des tableaux possède une ou plusieurs séquence.
Ledit moyen respecte les bornes indiquées par le moyen de stockage.
- Concernant les cellules, en plus de pouvoir associer à une cellule une étiquette ou une donnée, le moyen de stockage permet d'associer un autre tableau. Cette disposition donne la possibilité de traiter les documents de type annuaire téléphonique. Le moyen de reconnaissance de structures est adapté repérer la présence d'un tableau dans une cellule et à en déduire la structure correspondante.
- Concernant les cellules, le moyen de stockage laisse la possibilité d'un fusionnement de cellules. Ceci consiste à associer à plusieurs lignes ou à plusieurs colonnes la même cellule. Cette disposition permet la lecture de document où les informations sont à cheval sur plusieurs lignes et/ou colonnes. Le moyen de reconnaissance de structures prend en compte le fusionnement de cellules.
<Desc/Clms Page number 5>
Selon des caractéristiques plus particulières que celles décrites précédemment, le moyen de stockage des structures est complété par un moyen de création de structures.
Le moyen de création de structures est une interface homme/machine permettant la création d'une structure inexistante telle que décrite précédemment. Ledit moyen permet notamment la création de tableaux, de lignes, de colonnes. En outre, il permet d'associer le contenu d'une cellule à une étiquette, à une donnée, à un élément vide ou éventuellement à un tableau. De manière facultative, le moyen de création de structures permet d'indiquer un
r nombre d'occurrences et un séquençage tel que décrit précédemment.
r nombre d'occurrences et un séquençage tel que décrit précédemment.
Grâce à l'ensemble de ces dispositions, il est possible de récupérer les informations de la structure (données et étiquettes) dudit document sans paramétrage graphique préalable. Afin de permettre l'identification des documents le dispositif doit être complété.
Il est d'abord nécessaire de définir les termes de format et de famille de formats. Une famille de formats correspond à une structure de document. Un format appartient à une famille de formats et en respecte la structure. Le format est une présentation physique de la structure. On peut citer comme exemple de familles de formats, les familles relevé bancaire , facture ou
balance . Pour la famille de format relevé bancaire , il y'a autant de format que de mises en forme possibles d'un relevé bancaire.
balance . Pour la famille de format relevé bancaire , il y'a autant de format que de mises en forme possibles d'un relevé bancaire.
Pour identifier le format du document analysé, le dispositif compare les caractéristiques précises de la structure reconnue dans ledit document avec les caractéristiques conservées pour chaque format. Par exemple pour la famille de formats Relevé bancaire , le dispositif part du principe que les caractéristiques physiques et/ou sémantiques de la structure d'un relevé varie en fonction de la banque émettrice. Par exemple l'étiquette libellé correspondra à Détails des opérations dans une banque et à Opérations dans une autre. Il en est de même pour la taille des colonnes, la police de caractère, l'espacement entre deux lignes...
<Desc/Clms Page number 6>
Le dispositif comporte donc : - Un dispositif de reconnaissance de structures tel que décrit précédemment.
- Un moyen de stockage associant une structure à une famille de format.
- Un moyen de stockage des caractéristiques physiques et sémantiques propre au format pour chaque étiquette et un moyen de stockage des caractéristiques physiques de chaque donnée. En effet il est inutile de conserver les mots pour une donnée puisque par définition ils sont amenés à changer d'un document à un autre. Ledit moyen de stockage conserve aussi des éléments plus généraux relatifs à la taille du tableau et de ses colonnes ou en encore l'espacement entre les lignes.
- Un moyen de comparaison des caractéristiques graphiques et/ou sémantiques précises de la structure reconnue dans ledit document avec les caractéristiques conservées pour chaque format. Ainsi le dispositif va comparer cellules à cellules, données à données, étiquettes à étiquettes, par ligne et par colonne les caractéristiques précises de ces éléments. Le dispositif va en outre comparer des composantes physiques comme la largeur des tableaux ou la taille des colonnes.
Selon un second aspect, l'invention vise un procédé de reconnaissance de structures d'un document caractérisé par : - Une opération de récupération du document sous forme numérique.
- Une opération de reconnaissance de structures caractérisée par : - Une opération de stockage de la structure dudit document permettant de stocker au moins un tableau.
- Une opération de reconnaissance de structures testant l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.
L'opération de reconnaissance de structures détermine le positionnement physique de la structure dans ledit document si l'adéquation entre les deux structures est vérifiée. A partir de ce
<Desc/Clms Page number 7>
positionnement physique, une opération de récupération des informations peut avoir lieu.
Selon des dispositions particulières : - L'opération de stockage des étiquettes permet d'associer à une même étiquette plusieurs mots et éléments graphiques. L'opération de reconnaissance de structures teste plusieurs mots ou éléments graphiques afin d'identifier une étiquette.
- L'opération de stockage des données permet d'associer à une même donnée au moins un formatage. L' opération de reconnaissance de structures vérifiant la conformité de chaque donnée du document avec les formatages spécifiés dans la structure.
Selon des caractéristiques plus particulières que celles décrites précédemment : - L'opération de stockage conserve pour chaque ligne et/ou colonne le nombre d'occurrence. L'opération de reconnaissance de structures teste la présence de plusieurs lignes et/ou colonnes dans ledit document pour une structure. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
- L'opération de stockage peut regrouper les lignes et/ou les colonnes en séquences en conservant pour chaque séquence le nombre d'occurrences possible. Ces séquences pouvant êtres elles même regroupées dans d'autres séquences. L'opération de reconnaissance de structures teste la présence de plusieurs séquences dans ledit document pour une structure si la structure analysée en possède. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
- L'opération de stockage permet d'associer à une cellule un tableau. L'opération de reconnaissance de structures teste la présence d'un tableau dans une cellule et en déduit la structure correspondante.
- L'opération de stockage laisse la possibilité d'un fusionnement de cellules. L'opération de reconnaissance prend en compte le fusionnement de cellules dans l'analyse.
<Desc/Clms Page number 8>
Selon des caractéristiques plus particulières que celles décrites précédemment, l'opération de stockage des structures est complétée par une opération de création de structures.
L'opération de création de structures est caractérisée par la création de tableaux, de lignes, de colonnes dans le cadre d'une interface homme/machine. En outre elle comprend une opération associant à une cellule une étiquette, une donnée, un élément vide ou éventuellement un tableau. De manière facultative, le moyen de création de structures permet d'indiquer un nombre d'occurrence et un séquençage tel que décrit précédemment.
Afin de permettre l'identification des documents le procédé est complété par une opération de comparaison des caractéristiques précises de la structure reconnue dans ledit document avec les
r caractéristiques conservées pour chaque format. Le procédé comprend donc.
r caractéristiques conservées pour chaque format. Le procédé comprend donc.
- Une opération de stockage associant une structure à une famille de format.
- Une opération de stockage des caractéristiques physiques et sémantiques propre au format.
- Une opération de comparaison des caractéristiques physiques et/ou sémantiques précises de la structure reconnue dans ledit document avec les caractéristiques conservées pour chaque format.
Les dessins annexés illustrent l'invention en fournissant des exemples concrets de mise en oeuvre. Cette description ne restreint en aucune manière le domaine de l'invention.
La figure 1 propose un exemple de structure pour un relevé bancaire.
La figure 2 représente un document respectant la structure de la figure 1.
La figure 3 représente un mode de réalisation du dispositif de lecture automatique de document basé sur une reconnaissance de structures.
La figure 4 représente un mode de réalisation d'un dispositif de lecture automatique de document comprenant un dispositif
<Desc/Clms Page number 9>
d'identification de document et un dispositif de traitement des spécificités d'un format.
La figure 1 représente une structure d'un relevé bancaire.
Cette structure s'applique à une multitude de banque. La structure est composée d'étiquettes symbolisées en grisée (101) et de données (103). Pour chaque ligne et colonne, il est indiqué le nombre d'occurrence (102). Ainsi le 0-1 signifie que la ligne n'est pas indispensable. Dans le cas présenté, cela signifie que la colonne euro n'est pas obligatoire. Cette structure est donc adaptée aux relevés bancaires en franc et aux relevés bancaires en francs et en euros.
La structure ne fait pas apparaître de système de séquence car le document n'en nécessite pas.
La figure 2 est un exemple concret de document respectant la structure présentée dans la figure 1. On notera la présence de plusieurs lignes sur le relevé. Concernant l'étiquette libellé (101), le moyen de stockage de la structure correspondant à la figure 1 a associé à cette étiquette le groupe de mot Détail des opérations . Il est à noter que l'exemple présenté comprend un tableau qui dispose de bordures. Cependant l'invention fonctionne aussi lorsqu'il n'y a pas de bordures. C'est notamment le cas sur la plupart des factures.
La figure 3 montre un mode de réalisation du dispositif de lecture automatique de document basé sur une reconnaissance de structures. Le dispositif comprend un moyen d'acquisition de l'image qui est ici un scanner (301). La présente invention fonctionne aussi avec des documents de type HTML, XML ou texte.
Ce périphérique est relié à un module de reconnaissance optique de caractère (302) par une connexion symbolisée par une flèche (307). Les connexions peuvent être au choix réseaux (locales ou à distances) ou si les deux éléments sont sur la même unité centrale, via bus. En outre le terme module peut correspondre soit à un circuit électronique dédié, soit à une application programmée sur un ordinateur classique. Le choix des composants matériels et leur
<Desc/Clms Page number 10>
assemblage n'est ni déterminant ni hors du commun dans l'invention et n'est pas plus détaillé.
Le module de reconnaissance optique de caractère analyse l'image produite par le scanner pour ressortir les caractères et
il certains éléments graphiques. Le résultat de ce traitement est envoyé au module de reconnaissance de structures (304) qui utilise le module de stockage des structures (305) pour effectuer son analyse.
il certains éléments graphiques. Le résultat de ce traitement est envoyé au module de reconnaissance de structures (304) qui utilise le module de stockage des structures (305) pour effectuer son analyse.
Ceci fait l'objet d'une étude plus approfondie ci-après. Le moyen de stockage des structures peut être par exemple une base de donnée ou des fichiers. L'interface homme/machine de création de structures (303) permet la création, suppression et modification de structures.
Une fois ces traitements terminés, le ou les résultats ainsi que tous les éléments utiles sont envoyés par un port de sortie. Il est possible d'effectuer des traitements complémentaires afin d'améliorer la qualité du résultat. Ainsi on peut indiquer la possibilité de rajouter des tests sur des règles de gestion (par exemple un total TTC est égal à un montant HT plus un montant de TVA sur une facture).
La description ci après détaille le module de reconnaissance de structures (304) étant entendu qu'il existe d'autres possibilités pour obtenir un même résultat à partir des structures stockées (305). Le module teste parmi un ensemble composé d'au moins une structure celle qui correspond le plus au document. Pour cela le module attribue une note à chacune des structures en fonction de son adéquation avec le document. Le module recherche d'abord l'ensemble des tableaux en adéquation avec le document.
Le premier traitement consiste à rechercher dans ledit document l'ensemble des mots ou des groupes de mots associés à des étiquettes. Il en résulte un certain nombre d'étiquettes qui permet au module d'éliminer les tableaux dont les étiquettes obligatoires n'ont pas été trouvées.
La seconde étape consiste à valider ou invalider chaque ligne et chaque colonne du tableau en testant si les étiquettes sont bien positionnées relativement. Cette étape prend en considération l'ordre, l'occurrence, et les séquences des lignes et des colonnes.
Dans le cas particulier ou le contenu de la cellule attendue est un
<Desc/Clms Page number 11>
tableau, la validation de la ligne a lieu à la fin du traitement. Il en r résulte un nombre plus faible de tableau.
La troisième étape consiste en une première évaluation de la taille et du positionnement de chaque tableau et colonne. Cette étape se base sur des éléments graphiques comme des lignes si le document en est pourvu et du positionnement des étiquettes.
La quatrième étape consiste à valider ou invalider chaque ligne et chaque colonne du tableau en testant si les caractères présents sur le document respectent le formatage précisé dans chaque cellule de donnée. L'ordre, l'occurrence, et les séquences des lignes et des colonnes sont là aussi pris en considération. Cette
p étape affine le positionnement des colonnes à l'aide du formatage. Il en résulte un nombre plus faible de tableaux.
p étape affine le positionnement des colonnes à l'aide du formatage. Il en résulte un nombre plus faible de tableaux.
La cinquième étape consiste à valider les tableaux ayant des cellules contenant des tableaux.
La sixième étape consiste à déduire les structures à partir des tableaux restants. Il en résulte des structures.
La septième étape consiste à choisir parmi ces structures celle qui est la mieux notée.
La figure 4 représente le dispositif décrit en figure 3 auquel il a été adjoint un dispositif d'identification basé sur les structures et un dispositif de traitement des spécificités d'un format.
Le module de stockage des structures (305) est le même que celui de la figure 3 sauf qu'il permet d'associer une structure à une famille de format. L'interface homme/machine de création de structure (303) permet d'associer une structure à une famille de format.
Le module de comparaison des structures (401) compare les caractéristiques physiques de la structure reconnue par le module de reconnaissance de structures (304) avec celles conservées par le moyen de stockage des caractéristiques physiques d'un format (402). La comparaison s'effectue sur plusieurs critères qui sont entre autres des éléments sémantiques et physiques pour les étiquettes, physiques pour les données, la taille des colonnes... Si la comparaison montre de très faibles différences, le format analysé est identifié. Il est à noter que des techniques classiques d'identification
<Desc/Clms Page number 12>
peuvent être utilisées en complément. Il peut s'agir de reconnaissance de formes, d'identification de mots clés.
Si aucun format n'est identifié, l'interface homme/machine de création de format (403) propose la création d'un format.
L'utilisateur va ainsi indiquer le nom du format et le moyen de stockage va créer un nouveau format automatiquement en conservant les caractéristiques physiques de la structure reconnue.
L'interface permet l'ajout de paramètres spécifiques au format dans le cas où la reconnaissance de structures serait incomplète ou partiellement erronée ou encore afin d'améliorer les traitements. Par exemple, si une colonne est mal positionnée, l'utilisateur de l'interface peut la repositionner. Le moyen de stockage des caractéristiques physiques d'un format (402) conserve en plus des informations précédentes, les modifications et compléments apportés par l'utilisateur.
Le module de traitement des spécificités d'un format (404) utilise l'ensemble des compléments apportés par l'utilisateur pour affiner le traitement.
Le fichier de sorti (306) comprend en plus des informations récupérées décrites précédemment, le format précis qui a été reconnu. Cette dernière information permet entre autre l'indexation automatique du document.
Les applications concrètes sont nombreuses car l'invention permet le traitement automatique d'un nombre très large de document. Le procédé peut entre autre servir à reconnaître la structure d'un document et d'en déduire sa nature afin de l'indexer dans un système de gestion électronique de document. Il est ainsi possible d'automatiser la saisie et/ou l'indexation de documents de type facture, relevé bancaire, annuaire, bon de commande, fiche de stock, balance comptable, bulletins de salaire...
Claims (23)
- < Revendications > 1) Dispositif de reconnaissance de structures à partir d'un document numérique comportant : - Un moyen de stockage de structure. Une structure est composée d'au moins un tableau lui-même contenant une ou plusieurs lignes et une ou plusieurs colonnes. Chaque cellule est catégorisée soit comme une zone vide, une étiquette ou une donnée.- Un moyen de reconnaissance de structures permettant de tester l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.- Un moyen de sortie d'information.
- 2) Dispositif de reconnaissance de structures selon la revendication 1 caractérisé par : - Un moyen de stockage de structures adapté à conserver pour une même étiquette plusieurs mots ou éléments graphiques.- Un moyen de reconnaissance de structures adapté à détecter des étiquettes en utilisant plusieurs mots ou éléments graphiques pour une même étiquette.
- 3) Dispositif de reconnaissance de structures selon la revendication 1 ou 2 caractérisé par : - Un moyen de stockage de structures adapté à conserver pour une donnée au moins un formatage.- Un moyen de reconnaissance de structures vérifiant la conformité de chaque donnée du document avec les formatages spécifiés dans la structure
- 4) Dispositif de reconnaissance de structures selon l'une quelconque des revendications précédentes caractérisées par : - Un moyen de stockage de structures adapté à conserver les occurrences des lignes et des colonnes.- Un moyen de reconnaissance de structures adapté à reconnaître des structures dont au moins un tableau a un nombre de lignes et/ou de colonnes variable. Ledit moyen respecte les bornes indiquées par le moyen de stockage.<Desc/Clms Page number 14>
- 5) Dispositif de reconnaissance de structures selon la revendication 4 caractérisé par : - Un moyen de stockage de structures adapté à regrouper les lignes ou les colonnes en séquences. Le moyen de stockage permettant de conserver le nombre d'occurrence de chaque séquence.- Un moyen de reconnaissance de structures adapté à reconnaître des structures dont au moins un des tableaux possède une ou plusieurs séquence. Ledit moyen respecte les bornes indiquées par le moyen de stockage.
- 6) Dispositif de reconnaissance de structures selon l'une quelconque des revendications précédentes caractérisé par : - Un moyen de stockage de structures adapté à associer un tableau à une cellule.- Un moyen de reconnaissance de structures adapté à repérer la présence d'un tableau dans une cellule et à en déduire la structure correspondante.
- 7) Dispositif de reconnaissance de structures selon l'une quelconque des revendications précédentes caractérisé par : - Un moyen de stockage laissant la possibilité d'un fusionnement de cellules.- Un moyen de reconnaissance de structures prenant en compte le fusionnement de cellules.
- 8) Dispositif de lecture automatique de document comportant : - Un moyen adapté à donner une image numérique d'un document analogique.- Un moyen permettant la lecture des caractères et des éléments graphiques dudit document.- Un moyen de stockage et de reconnaissance de structures selon l'une quelconque des revendications précédentes.- Un moyen de sortie d'information.
- 9) Dispositif de lecture automatique de documents selon la revendication 8 caractérisée par un moyen de création de structure.<Desc/Clms Page number 15>
- 10) Dispositif d'identification de documents comportant : - Un moyen de stockage et de reconnaissance de structures selon l'une quelconque des revendications 1 à 7.- Un moyen de stockage des caractéristiques physiques d'un format.- Un moyen de comparaison des structures.
- 12) Procédé de reconnaissance de structures à partir d'un document numérique comportant : - Une opération de stockage de structures. Une structure est composée d'au moins un tableau lui-même contenant une ou plusieurs lignes et une ou plusieurs colonnes. Chaque cellule est identifiée comme étant soit une zone vide, une étiquette ou une donnée.- Une opération de reconnaissance de structures testant l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.- Une opération de sortie d'information.
- 13) Procédé de reconnaissance de structures selon la revendication 12 caractérisé par : - Une opération de stockage des étiquettes permettant d'associer à une même étiquette plusieurs mots et éléments graphiques.- Une opération de reconnaissance de structures testant plusieurs mots ou éléments graphiques afin d'identifier une étiquette.<Desc/Clms Page number 16>
- 14) Procédé de reconnaissance de structures selon la revendication 12 ou 13 caractérisé par : - Une opération de stockage des données permettant d'associer à une même donnée au moins un formatage.- Une opération de reconnaissance de structures vérifiant la conformité de chaque donnée du document avec les formatages spécifiés dans la structure.
- 15) Procédé de reconnaissance de structures selon l'une quelconque des revendications 12 à 14 caractérisées par : - Une opération de stockage de structures conservant pour chaque ligne et/ou colonne un nombre d'occurrences.- Une opération de reconnaissance de structures testant la présence de plusieurs lignes et/ou colonnes dans ledit document pour une structure. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
- 16) Procédé de reconnaissance de structures selon la revendication 15 caractérisé par : - Une opération de stockage de structures pouvant regrouper les lignes ou les colonnes en séquences en conservant pour chaque séquence le nombre d'occurrences possible.- Une opération de reconnaissance de structures testant la présence de plusieurs séquences dans ledit document pour une structure. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
- 17) Procédé de reconnaissance de structures selon l'une quelconque des revendications 12 à 16 caractérisé par : - Une opération de stockage de structures pouvant associer un tableau à une cellule.- Une opération de reconnaissance de structures testant la présence d'un tableau dans une cellule et en déduisant la structure correspondante.
- 18) Procédé de reconnaissance de structures selon l'une quelconque des revendications 12 à 17 caractérisé par :<Desc/Clms Page number 17>- Une opération de stockage laissant la possibilité d'un fusionnement de cellules.- Une opération de reconnaissance de structures prenant en compte le fusionnement de cellules.
- 19) Procédé de lecture automatique de document comportant : - Une opération donnant une image numérique d'un document analogique.- Une opération de lecture des caractères et des éléments graphiques dudit document.- Une opération de stockage et de reconnaissance de structures selon l'une quelconque des revendications 12 à 18.- Une opération de sortie d'information.
- 20) Procédé de lecture automatique de document selon la revendication 19 caractérisé par une opération de création de structure.
- 21) Procédé d'identification de document comportant : - Une opération de stockage et de reconnaissance de structures selon l'une quelconque des revendications 12 à 18.- Une opération de stockage des caractéristiques physiques d'un format.- Une opération de comparaison des structures.
- 22) Procédé de lecture automatique de document et d'identification de document caractérisé par : - Une opération de lecture automatique de document selon la revendication 19 ou 20.- Une opération d'identification de document selon la revendication 21.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0109451A FR2830106B1 (fr) | 2001-07-13 | 2001-07-13 | Dispositif et procede de reconnaissance de structure de document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0109451A FR2830106B1 (fr) | 2001-07-13 | 2001-07-13 | Dispositif et procede de reconnaissance de structure de document |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2830106A1 true FR2830106A1 (fr) | 2003-03-28 |
FR2830106B1 FR2830106B1 (fr) | 2004-04-23 |
Family
ID=8865546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0109451A Expired - Fee Related FR2830106B1 (fr) | 2001-07-13 | 2001-07-13 | Dispositif et procede de reconnaissance de structure de document |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2830106B1 (fr) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012104583A1 (fr) * | 2011-01-31 | 2012-08-09 | Keywordlogic Limited | Système pour l'extraction et le traitement de données |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0637811A2 (fr) * | 1993-08-02 | 1995-02-08 | International Business Machines Corporation | Procédé pour définir plusieurs jeux de données de définition de formulaire |
EP0758775A2 (fr) * | 1995-08-11 | 1997-02-19 | Canon Kabushiki Kaisha | Système d'extraction de caractéristiques |
US5666549A (en) * | 1992-03-10 | 1997-09-09 | Hitachi, Ltd. | Method and system for processing a document transmitted via facsimile in an initially input form stored in a knowledge base |
EP0809219A2 (fr) * | 1996-05-22 | 1997-11-26 | NCR International, Inc. | Système et procédé pour l'analyse de documents |
-
2001
- 2001-07-13 FR FR0109451A patent/FR2830106B1/fr not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5666549A (en) * | 1992-03-10 | 1997-09-09 | Hitachi, Ltd. | Method and system for processing a document transmitted via facsimile in an initially input form stored in a knowledge base |
EP0637811A2 (fr) * | 1993-08-02 | 1995-02-08 | International Business Machines Corporation | Procédé pour définir plusieurs jeux de données de définition de formulaire |
EP0758775A2 (fr) * | 1995-08-11 | 1997-02-19 | Canon Kabushiki Kaisha | Système d'extraction de caractéristiques |
EP0809219A2 (fr) * | 1996-05-22 | 1997-11-26 | NCR International, Inc. | Système et procédé pour l'analyse de documents |
Non-Patent Citations (2)
Title |
---|
CASEY R G ET AL: "INTELLIGENT FORMS PROCESSING", IBM SYSTEMS JOURNAL, IBM CORP. ARMONK, NEW YORK, US, vol. 29, no. 3, 1990, pages 435 - 450, XP000265375, ISSN: 0018-8670 * |
LUO Q ET AL: "STRUCTURE RECOGNITION OF VARIOUS KINDS OF TABLE-FORM DOCUMENTS", SYSTEMS & COMPUTERS IN JAPAN, SCRIPTA TECHNICA JOURNALS. NEW YORK, US, vol. 25, no. 10, 1 September 1994 (1994-09-01), pages 82 - 97, XP000483412, ISSN: 0882-1666 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012104583A1 (fr) * | 2011-01-31 | 2012-08-09 | Keywordlogic Limited | Système pour l'extraction et le traitement de données |
Also Published As
Publication number | Publication date |
---|---|
FR2830106B1 (fr) | 2004-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1364316A2 (fr) | Dispositif d'extraction d'informations d'un texte a base de connaissances | |
US8949241B2 (en) | Systems and methods for interactive disambiguation of data | |
US20080317346A1 (en) | Character and Object Recognition with a Mobile Photographic Device | |
WO2023273686A1 (fr) | Procédé et appareil de recherche d'informations, dispositif informatique et support de stockage | |
JP2003085190A (ja) | 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム | |
CN111104798A (zh) | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 | |
FR2880709A1 (fr) | Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants | |
WO2005101240A1 (fr) | Procede de recherche d'informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede | |
US9460199B2 (en) | Application of text analytics to determine provenance of an object | |
CN115982388B (zh) | 案件质控图谱建立、案件文书质检方法、设备及存储介质 | |
US20100205175A1 (en) | Cap-sensitive text search for documents | |
FR2830106A1 (fr) | Dispositif et procede de reconnaissance de structure de document | |
CN107943965B (zh) | 相似文章检索方法及装置 | |
KR100624465B1 (ko) | 디지털 사진의 상황변환 검출 장치 및 방법 및 이를 이용한디지털 사진 앨범의 상황 기반 클러스터링 방법 및 장치 | |
CN111753537B (zh) | 离婚纠纷裁判文书标签提取方法及装置 | |
WO2005069166A1 (fr) | Systeme automatique de traitement des informations portees par des textes courts | |
Yan et al. | Cross media entity extraction and linkage for chemical documents | |
WO2001077890A1 (fr) | Moteur de recherche de ressources hypermedia et procede d'indexation associe | |
CN115210708A (zh) | 信息跟踪系统的数据条目特征 | |
CN113626385B (zh) | 一种基于文本数据读取的方法和系统 | |
Rigaud et al. | Text block segmentation in comic speech bubbles | |
FR2986882A1 (fr) | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe | |
CN111324711B (zh) | 一种帖子时效性判别方法、装置、及存储介质 | |
WO2024146958A1 (fr) | Procede pour ameliorer l'exploitation de donnees partagee par une pluralite d'utilisateurs | |
FR2880708A1 (fr) | Procede de recherche dans l'encre par conversion dynamique de requete. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TP | Transmission of property | ||
TP | Transmission of property | ||
ST | Notification of lapse |
Effective date: 20060331 |
|
RN | Application for restoration | ||
FC | Decision of inpi director general to approve request for restoration | ||
PLFP | Fee payment |
Year of fee payment: 16 |
|
PLFP | Fee payment |
Year of fee payment: 17 |
|
PLFP | Fee payment |
Year of fee payment: 18 |
|
PLFP | Fee payment |
Year of fee payment: 19 |
|
TP | Transmission of property |
Owner name: CEGEDIM, FR Effective date: 20191002 |
|
PLFP | Fee payment |
Year of fee payment: 20 |