FR2830106A1 - Dispositif et procede de reconnaissance de structure de document - Google Patents

Dispositif et procede de reconnaissance de structure de document Download PDF

Info

Publication number
FR2830106A1
FR2830106A1 FR0109451A FR0109451A FR2830106A1 FR 2830106 A1 FR2830106 A1 FR 2830106A1 FR 0109451 A FR0109451 A FR 0109451A FR 0109451 A FR0109451 A FR 0109451A FR 2830106 A1 FR2830106 A1 FR 2830106A1
Authority
FR
France
Prior art keywords
document
storage
structures
recognition
structure recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0109451A
Other languages
English (en)
Other versions
FR2830106B1 (fr
Inventor
Alban Giroux
Julien Lemaitre
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cegedim SA
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to FR0109451A priority Critical patent/FR2830106B1/fr
Publication of FR2830106A1 publication Critical patent/FR2830106A1/fr
Application granted granted Critical
Publication of FR2830106B1 publication Critical patent/FR2830106B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

L'invention concerne un dispositif et un procédé permettant de reconnaître une structure de document. La présente invention concerne en outre un programme mettant en oeuvre le dispositif et le procédé. Une structure étant constituée de tableaux, colonnes et lignes. Chaque cellule est définie comme étant soit une zone vide soit une étiquette (101) soit une donnée (103). Les lignes ou les colonnes peuvent selon des dispositions particulières avoir un nombre d'occurrence (102). L'invention peut être utilisée dans un dispositif de lecture de document ou d'identification de document.

Description

<Desc/Clms Page number 1>
Dispositif et procédé de reconnaissance de structures de document.
La présente invention concerne un dispositif et un procédé de lecture automatique de document ainsi qu'un dispositif et un procédé d'identification de document. La présente invention concerne en outre un programme mettant en oeuvre le dispositif et le procédé.
La lecture automatique de document s'effectue le plus souvent par une approche basée sur les positions. Cela consiste à paramétrer géographiquement les zones que l'on souhaite récupérer. Cependant lorsque les documents sont trop variés (comme par exemple les factures), le temps de création des formats amoindri les gains de productivité.
Une première solution présentée dans la demande française nO 99 15306 permet de traiter des documents sans paramétrage
Figure img00010001

Il géographique préalable en se basant sur un principe d'association d'une information lue avec une information de signification. Mais ce procédé montre ses limites dès lors que l'information lue est inexistante ou ambiguë (Par exemple dans le cas d'une adresse, le mot adresse n'est pas forcément indiqué à côté). En outre le procédé ne permet pas de traiter les documents à taille variable comme les relevés bancaires par exemple.
En matière d'identification de document, l'état actuel de la technique utilise un système de mots clés comprenant
Figure img00010002

r éventuellement une notion de position. La demande française n FR9902925 est un exemple de ce type de procédé. D'autres procédés utilisent la reconnaissance de forme. Mais aucun n'analyse la structure même du document alors que ceci permet d'une part de déterminer la nature du document. Ainsi la structure d'une facture est totalement différente de celle d'un relevé bancaire. D'autre part cette méthode permet aussi d'identifier plus précisément un
Figure img00010003

document et de différencier ainsi deux relevés bancaires ayant des p émetteurs différents.
<Desc/Clms Page number 2>
La présente invention propose donc une solution technique basée sur la structure d'un document pour améliorer significativement la lecture automatique et l'identification dudit document.
Selon un premier aspect, l'invention vise un dispositif de reconnaissance de structures d'un document. Le point de départ du procédé est un document sous forme numérique comprenant des caractères et accessoirement des éléments graphiques. Il peut s'agir d'un fichier HTML, XML, d'un fichier texte ou le résultat d'un processus de reconnaissance de caractères effectué sur un document numérisé. Le dispositif comprend donc : - Un moyen de récupération du document sous une forme numérique.
- Un moyen permettant de reconnaître la structure dudit document.
- Un moyen de sortie des résultats.
Le point central de la présente invention est la définition de la structure du document.
La structure d'un document contient au moins un tableau. Un tableau comprend au moins une ligne et au moins une colonne.
Chaque cellule contient soit une zone vide, soit une étiquette soit une donnée. Des dispositions particulières peuvent prévoire un assemblage mixte des deux derniers éléments.
Une étiquette est un élément récurrent entre deux documents ayant les mêmes structures. Il peut entre autres s'agir d'un élément présent dans le but de préciser la nature des données comme par exemple les mots débit , crédit . Il peut aussi s'agir d'éléments graphiques comme des images ou des traits.
Une donnée est une information porteuse de sens. L'objet du document est de fournir ces informations. Il s'agit par exemple pour une facture d'un montant hors taxe, d'un montant TTC, de la date ou du libellé...
<Desc/Clms Page number 3>
Ainsi le moyen de reconnaissance de la structure dudit document est caractérisé en ce qu'elle comporte : - Un moyen de stockage de la structure dudit document permettant de conserver au moins un tableau. Un tableau répondant à la description succincte ci dessus.
- Un moyen de reconnaissance de structures permettant de tester l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.
Le moyen de reconnaissance de structures est adapté à déterminer le positionnement physique de la structure dans ledit document si l'adéquation entre les deux structures est vérifiée. A partir de ce positionnement physique, le moyen de reconnaissance de structures peut récupérer les informations nécessaires.
Selon des dispositions plus particulières que celles exposées ci dessus : - Concernant les étiquettes, le moyen de stockage permet d'associer à une même étiquette plusieurs mots ou éléments graphiques. Ainsi pour une étiquette représentant la colonne libellé d'un relevé bancaire on pourra associer les mots vos opérations ou libellé des opérations . En outre lesdits mots pourront contenir des caractères jokers. Ces dispositions permettent de couvrir un nombre plus important de documents avec la même structure ce qui diminue le nombre de structures à créer. Le moyen de reconnaissance de structures teste parmi plusieurs mots ou éléments graphiques afin d'identifier une étiquette.
- Concernant les données, le moyen de stockage permet d'associer à une donnée au moins un formatage. Le formatage permet de vérifier l'adéquation des chaînes de caractères avec la donnée attendue. Il peut par exemple s'agir d'un formatage numérique indiquant le nombre de chiffres après la virgule ou un formatage très spécifique comme un numéro de sécurité social.
Cette disposition permet d'invalider des informations qui seraient incohérentes par rapport à la donnée attendue. Le moyen de reconnaissance de structures vérifie la conformité de chaque donnée du document avec les formatages spécifiés dans la structure.
<Desc/Clms Page number 4>
Selon des caractéristiques plus particulières que celles décrites précédemment : - Concernant les lignes et les colonnes, le moyen de stockage permet de conserver pour chaque ligne et/ou colonne le nombre d'occurrences. Ainsi on indiquera pour une ligne d'un relevé
Figure img00040001

r bancaire comprenant entre autres les données représentant la date, un libellé, un débit et un crédit qu'elle est présente de 1 à n fois. Cette disposition permet de traiter les tableaux à taille variable. Le moyen de reconnaissance de structures est adapté à reconnaître des structures dont au moins un tableau a un nombre de lignes et/ou de colonnes variable. Ledit moyen respecte les bornes indiquées par le moyen de stockage.
- En outre le moyen de stockage peut accessoirement regrouper
Figure img00040002

p les lignes et/ou les colonnes en séquences. Ces séquences pouvant êtres elles même regroupées dans d'autres séquences. Le moyen de stockage permet pour chaque séquence de conserver le nombre d'occurrence possible. Ceci permet de traiter des documents ayant des groupes de lignes ou de colonnes récurrentes. Le moyen de reconnaissance de structures est adapté à reconnaître des structures dont au moins un des tableaux possède une ou plusieurs séquence.
Ledit moyen respecte les bornes indiquées par le moyen de stockage.
- Concernant les cellules, en plus de pouvoir associer à une cellule une étiquette ou une donnée, le moyen de stockage permet d'associer un autre tableau. Cette disposition donne la possibilité de traiter les documents de type annuaire téléphonique. Le moyen de reconnaissance de structures est adapté repérer la présence d'un tableau dans une cellule et à en déduire la structure correspondante.
- Concernant les cellules, le moyen de stockage laisse la possibilité d'un fusionnement de cellules. Ceci consiste à associer à plusieurs lignes ou à plusieurs colonnes la même cellule. Cette disposition permet la lecture de document où les informations sont à cheval sur plusieurs lignes et/ou colonnes. Le moyen de reconnaissance de structures prend en compte le fusionnement de cellules.
<Desc/Clms Page number 5>
Selon des caractéristiques plus particulières que celles décrites précédemment, le moyen de stockage des structures est complété par un moyen de création de structures.
Le moyen de création de structures est une interface homme/machine permettant la création d'une structure inexistante telle que décrite précédemment. Ledit moyen permet notamment la création de tableaux, de lignes, de colonnes. En outre, il permet d'associer le contenu d'une cellule à une étiquette, à une donnée, à un élément vide ou éventuellement à un tableau. De manière facultative, le moyen de création de structures permet d'indiquer un
Figure img00050001

r nombre d'occurrences et un séquençage tel que décrit précédemment.
Grâce à l'ensemble de ces dispositions, il est possible de récupérer les informations de la structure (données et étiquettes) dudit document sans paramétrage graphique préalable. Afin de permettre l'identification des documents le dispositif doit être complété.
Il est d'abord nécessaire de définir les termes de format et de famille de formats. Une famille de formats correspond à une structure de document. Un format appartient à une famille de formats et en respecte la structure. Le format est une présentation physique de la structure. On peut citer comme exemple de familles de formats, les familles relevé bancaire , facture ou
Figure img00050002

balance . Pour la famille de format relevé bancaire , il y'a autant de format que de mises en forme possibles d'un relevé bancaire.
Pour identifier le format du document analysé, le dispositif compare les caractéristiques précises de la structure reconnue dans ledit document avec les caractéristiques conservées pour chaque format. Par exemple pour la famille de formats Relevé bancaire , le dispositif part du principe que les caractéristiques physiques et/ou sémantiques de la structure d'un relevé varie en fonction de la banque émettrice. Par exemple l'étiquette libellé correspondra à Détails des opérations dans une banque et à Opérations dans une autre. Il en est de même pour la taille des colonnes, la police de caractère, l'espacement entre deux lignes...
<Desc/Clms Page number 6>
Le dispositif comporte donc : - Un dispositif de reconnaissance de structures tel que décrit précédemment.
- Un moyen de stockage associant une structure à une famille de format.
- Un moyen de stockage des caractéristiques physiques et sémantiques propre au format pour chaque étiquette et un moyen de stockage des caractéristiques physiques de chaque donnée. En effet il est inutile de conserver les mots pour une donnée puisque par définition ils sont amenés à changer d'un document à un autre. Ledit moyen de stockage conserve aussi des éléments plus généraux relatifs à la taille du tableau et de ses colonnes ou en encore l'espacement entre les lignes.
- Un moyen de comparaison des caractéristiques graphiques et/ou sémantiques précises de la structure reconnue dans ledit document avec les caractéristiques conservées pour chaque format. Ainsi le dispositif va comparer cellules à cellules, données à données, étiquettes à étiquettes, par ligne et par colonne les caractéristiques précises de ces éléments. Le dispositif va en outre comparer des composantes physiques comme la largeur des tableaux ou la taille des colonnes.
Selon un second aspect, l'invention vise un procédé de reconnaissance de structures d'un document caractérisé par : - Une opération de récupération du document sous forme numérique.
Figure img00060001
- Une opération de reconnaissance de structures caractérisée par : - Une opération de stockage de la structure dudit document permettant de stocker au moins un tableau.
- Une opération de reconnaissance de structures testant l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.
L'opération de reconnaissance de structures détermine le positionnement physique de la structure dans ledit document si l'adéquation entre les deux structures est vérifiée. A partir de ce
<Desc/Clms Page number 7>
positionnement physique, une opération de récupération des informations peut avoir lieu.
Selon des dispositions particulières : - L'opération de stockage des étiquettes permet d'associer à une même étiquette plusieurs mots et éléments graphiques. L'opération de reconnaissance de structures teste plusieurs mots ou éléments graphiques afin d'identifier une étiquette.
- L'opération de stockage des données permet d'associer à une même donnée au moins un formatage. L' opération de reconnaissance de structures vérifiant la conformité de chaque donnée du document avec les formatages spécifiés dans la structure.
Selon des caractéristiques plus particulières que celles décrites précédemment : - L'opération de stockage conserve pour chaque ligne et/ou colonne le nombre d'occurrence. L'opération de reconnaissance de structures teste la présence de plusieurs lignes et/ou colonnes dans ledit document pour une structure. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
- L'opération de stockage peut regrouper les lignes et/ou les colonnes en séquences en conservant pour chaque séquence le nombre d'occurrences possible. Ces séquences pouvant êtres elles même regroupées dans d'autres séquences. L'opération de reconnaissance de structures teste la présence de plusieurs séquences dans ledit document pour une structure si la structure analysée en possède. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
- L'opération de stockage permet d'associer à une cellule un tableau. L'opération de reconnaissance de structures teste la présence d'un tableau dans une cellule et en déduit la structure correspondante.
- L'opération de stockage laisse la possibilité d'un fusionnement de cellules. L'opération de reconnaissance prend en compte le fusionnement de cellules dans l'analyse.
<Desc/Clms Page number 8>
Selon des caractéristiques plus particulières que celles décrites précédemment, l'opération de stockage des structures est complétée par une opération de création de structures.
L'opération de création de structures est caractérisée par la création de tableaux, de lignes, de colonnes dans le cadre d'une interface homme/machine. En outre elle comprend une opération associant à une cellule une étiquette, une donnée, un élément vide ou éventuellement un tableau. De manière facultative, le moyen de création de structures permet d'indiquer un nombre d'occurrence et un séquençage tel que décrit précédemment.
Afin de permettre l'identification des documents le procédé est complété par une opération de comparaison des caractéristiques précises de la structure reconnue dans ledit document avec les
Figure img00080001

r caractéristiques conservées pour chaque format. Le procédé comprend donc.
- Un procédé de reconnaissance de structures tel que décrit précédemment.
Figure img00080002
- Une opération de stockage associant une structure à une famille de format.
- Une opération de stockage des caractéristiques physiques et sémantiques propre au format.
- Une opération de comparaison des caractéristiques physiques et/ou sémantiques précises de la structure reconnue dans ledit document avec les caractéristiques conservées pour chaque format.
Les dessins annexés illustrent l'invention en fournissant des exemples concrets de mise en oeuvre. Cette description ne restreint en aucune manière le domaine de l'invention.
La figure 1 propose un exemple de structure pour un relevé bancaire.
La figure 2 représente un document respectant la structure de la figure 1.
La figure 3 représente un mode de réalisation du dispositif de lecture automatique de document basé sur une reconnaissance de structures.
La figure 4 représente un mode de réalisation d'un dispositif de lecture automatique de document comprenant un dispositif
<Desc/Clms Page number 9>
d'identification de document et un dispositif de traitement des spécificités d'un format.
La figure 1 représente une structure d'un relevé bancaire.
Cette structure s'applique à une multitude de banque. La structure est composée d'étiquettes symbolisées en grisée (101) et de données (103). Pour chaque ligne et colonne, il est indiqué le nombre d'occurrence (102). Ainsi le 0-1 signifie que la ligne n'est pas indispensable. Dans le cas présenté, cela signifie que la colonne euro n'est pas obligatoire. Cette structure est donc adaptée aux relevés bancaires en franc et aux relevés bancaires en francs et en euros.
La structure ne fait pas apparaître de système de séquence car le document n'en nécessite pas.
La figure 2 est un exemple concret de document respectant la structure présentée dans la figure 1. On notera la présence de plusieurs lignes sur le relevé. Concernant l'étiquette libellé (101), le moyen de stockage de la structure correspondant à la figure 1 a associé à cette étiquette le groupe de mot Détail des opérations . Il est à noter que l'exemple présenté comprend un tableau qui dispose de bordures. Cependant l'invention fonctionne aussi lorsqu'il n'y a pas de bordures. C'est notamment le cas sur la plupart des factures.
La figure 3 montre un mode de réalisation du dispositif de lecture automatique de document basé sur une reconnaissance de structures. Le dispositif comprend un moyen d'acquisition de l'image qui est ici un scanner (301). La présente invention fonctionne aussi avec des documents de type HTML, XML ou texte.
Ce périphérique est relié à un module de reconnaissance optique de caractère (302) par une connexion symbolisée par une flèche (307). Les connexions peuvent être au choix réseaux (locales ou à distances) ou si les deux éléments sont sur la même unité centrale, via bus. En outre le terme module peut correspondre soit à un circuit électronique dédié, soit à une application programmée sur un ordinateur classique. Le choix des composants matériels et leur
<Desc/Clms Page number 10>
assemblage n'est ni déterminant ni hors du commun dans l'invention et n'est pas plus détaillé.
Le module de reconnaissance optique de caractère analyse l'image produite par le scanner pour ressortir les caractères et
Figure img00100001

il certains éléments graphiques. Le résultat de ce traitement est envoyé au module de reconnaissance de structures (304) qui utilise le module de stockage des structures (305) pour effectuer son analyse.
Ceci fait l'objet d'une étude plus approfondie ci-après. Le moyen de stockage des structures peut être par exemple une base de donnée ou des fichiers. L'interface homme/machine de création de structures (303) permet la création, suppression et modification de structures.
Une fois ces traitements terminés, le ou les résultats ainsi que tous les éléments utiles sont envoyés par un port de sortie. Il est possible d'effectuer des traitements complémentaires afin d'améliorer la qualité du résultat. Ainsi on peut indiquer la possibilité de rajouter des tests sur des règles de gestion (par exemple un total TTC est égal à un montant HT plus un montant de TVA sur une facture).
La description ci après détaille le module de reconnaissance de structures (304) étant entendu qu'il existe d'autres possibilités pour obtenir un même résultat à partir des structures stockées (305). Le module teste parmi un ensemble composé d'au moins une structure celle qui correspond le plus au document. Pour cela le module attribue une note à chacune des structures en fonction de son adéquation avec le document. Le module recherche d'abord l'ensemble des tableaux en adéquation avec le document.
Le premier traitement consiste à rechercher dans ledit document l'ensemble des mots ou des groupes de mots associés à des étiquettes. Il en résulte un certain nombre d'étiquettes qui permet au module d'éliminer les tableaux dont les étiquettes obligatoires n'ont pas été trouvées.
La seconde étape consiste à valider ou invalider chaque ligne et chaque colonne du tableau en testant si les étiquettes sont bien positionnées relativement. Cette étape prend en considération l'ordre, l'occurrence, et les séquences des lignes et des colonnes.
Dans le cas particulier ou le contenu de la cellule attendue est un
<Desc/Clms Page number 11>
Figure img00110001

tableau, la validation de la ligne a lieu à la fin du traitement. Il en r résulte un nombre plus faible de tableau.
La troisième étape consiste en une première évaluation de la taille et du positionnement de chaque tableau et colonne. Cette étape se base sur des éléments graphiques comme des lignes si le document en est pourvu et du positionnement des étiquettes.
La quatrième étape consiste à valider ou invalider chaque ligne et chaque colonne du tableau en testant si les caractères présents sur le document respectent le formatage précisé dans chaque cellule de donnée. L'ordre, l'occurrence, et les séquences des lignes et des colonnes sont là aussi pris en considération. Cette
Figure img00110002

p étape affine le positionnement des colonnes à l'aide du formatage. Il en résulte un nombre plus faible de tableaux.
La cinquième étape consiste à valider les tableaux ayant des cellules contenant des tableaux.
La sixième étape consiste à déduire les structures à partir des tableaux restants. Il en résulte des structures.
La septième étape consiste à choisir parmi ces structures celle qui est la mieux notée.
La figure 4 représente le dispositif décrit en figure 3 auquel il a été adjoint un dispositif d'identification basé sur les structures et un dispositif de traitement des spécificités d'un format.
Le module de stockage des structures (305) est le même que celui de la figure 3 sauf qu'il permet d'associer une structure à une famille de format. L'interface homme/machine de création de structure (303) permet d'associer une structure à une famille de format.
Le module de comparaison des structures (401) compare les caractéristiques physiques de la structure reconnue par le module de reconnaissance de structures (304) avec celles conservées par le moyen de stockage des caractéristiques physiques d'un format (402). La comparaison s'effectue sur plusieurs critères qui sont entre autres des éléments sémantiques et physiques pour les étiquettes, physiques pour les données, la taille des colonnes... Si la comparaison montre de très faibles différences, le format analysé est identifié. Il est à noter que des techniques classiques d'identification
<Desc/Clms Page number 12>
peuvent être utilisées en complément. Il peut s'agir de reconnaissance de formes, d'identification de mots clés.
Si aucun format n'est identifié, l'interface homme/machine de création de format (403) propose la création d'un format.
L'utilisateur va ainsi indiquer le nom du format et le moyen de stockage va créer un nouveau format automatiquement en conservant les caractéristiques physiques de la structure reconnue.
L'interface permet l'ajout de paramètres spécifiques au format dans le cas où la reconnaissance de structures serait incomplète ou partiellement erronée ou encore afin d'améliorer les traitements. Par exemple, si une colonne est mal positionnée, l'utilisateur de l'interface peut la repositionner. Le moyen de stockage des caractéristiques physiques d'un format (402) conserve en plus des informations précédentes, les modifications et compléments apportés par l'utilisateur.
Le module de traitement des spécificités d'un format (404) utilise l'ensemble des compléments apportés par l'utilisateur pour affiner le traitement.
Le fichier de sorti (306) comprend en plus des informations récupérées décrites précédemment, le format précis qui a été reconnu. Cette dernière information permet entre autre l'indexation automatique du document.
Les applications concrètes sont nombreuses car l'invention permet le traitement automatique d'un nombre très large de document. Le procédé peut entre autre servir à reconnaître la structure d'un document et d'en déduire sa nature afin de l'indexer dans un système de gestion électronique de document. Il est ainsi possible d'automatiser la saisie et/ou l'indexation de documents de type facture, relevé bancaire, annuaire, bon de commande, fiche de stock, balance comptable, bulletins de salaire...

Claims (23)

  1. < Revendications > 1) Dispositif de reconnaissance de structures à partir d'un document numérique comportant : - Un moyen de stockage de structure. Une structure est composée d'au moins un tableau lui-même contenant une ou plusieurs lignes et une ou plusieurs colonnes. Chaque cellule est catégorisée soit comme une zone vide, une étiquette ou une donnée.
    - Un moyen de reconnaissance de structures permettant de tester l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.
    - Un moyen de sortie d'information.
  2. 2) Dispositif de reconnaissance de structures selon la revendication 1 caractérisé par : - Un moyen de stockage de structures adapté à conserver pour une même étiquette plusieurs mots ou éléments graphiques.
    - Un moyen de reconnaissance de structures adapté à détecter des étiquettes en utilisant plusieurs mots ou éléments graphiques pour une même étiquette.
  3. 3) Dispositif de reconnaissance de structures selon la revendication 1 ou 2 caractérisé par : - Un moyen de stockage de structures adapté à conserver pour une donnée au moins un formatage.
    - Un moyen de reconnaissance de structures vérifiant la conformité de chaque donnée du document avec les formatages spécifiés dans la structure
  4. 4) Dispositif de reconnaissance de structures selon l'une quelconque des revendications précédentes caractérisées par : - Un moyen de stockage de structures adapté à conserver les occurrences des lignes et des colonnes.
    - Un moyen de reconnaissance de structures adapté à reconnaître des structures dont au moins un tableau a un nombre de lignes et/ou de colonnes variable. Ledit moyen respecte les bornes indiquées par le moyen de stockage.
    <Desc/Clms Page number 14>
  5. 5) Dispositif de reconnaissance de structures selon la revendication 4 caractérisé par : - Un moyen de stockage de structures adapté à regrouper les lignes ou les colonnes en séquences. Le moyen de stockage permettant de conserver le nombre d'occurrence de chaque séquence.
    - Un moyen de reconnaissance de structures adapté à reconnaître des structures dont au moins un des tableaux possède une ou plusieurs séquence. Ledit moyen respecte les bornes indiquées par le moyen de stockage.
  6. 6) Dispositif de reconnaissance de structures selon l'une quelconque des revendications précédentes caractérisé par : - Un moyen de stockage de structures adapté à associer un tableau à une cellule.
    - Un moyen de reconnaissance de structures adapté à repérer la présence d'un tableau dans une cellule et à en déduire la structure correspondante.
  7. 7) Dispositif de reconnaissance de structures selon l'une quelconque des revendications précédentes caractérisé par : - Un moyen de stockage laissant la possibilité d'un fusionnement de cellules.
    - Un moyen de reconnaissance de structures prenant en compte le fusionnement de cellules.
  8. 8) Dispositif de lecture automatique de document comportant : - Un moyen adapté à donner une image numérique d'un document analogique.
    - Un moyen permettant la lecture des caractères et des éléments graphiques dudit document.
    - Un moyen de stockage et de reconnaissance de structures selon l'une quelconque des revendications précédentes.
    - Un moyen de sortie d'information.
  9. 9) Dispositif de lecture automatique de documents selon la revendication 8 caractérisée par un moyen de création de structure.
    <Desc/Clms Page number 15>
  10. 10) Dispositif d'identification de documents comportant : - Un moyen de stockage et de reconnaissance de structures selon l'une quelconque des revendications 1 à 7.
    - Un moyen de stockage des caractéristiques physiques d'un format.
    - Un moyen de comparaison des structures.
  11. 11) Dispositif de lecture automatique de documents et
    Figure img00150001
    d'identification de documents caractérisé par : - Un dispositif de lecture automatique de documents selon la revendication 8 ou 9.
    - Un dispositif d'identification de documents selon la revendication 10.
  12. 12) Procédé de reconnaissance de structures à partir d'un document numérique comportant : - Une opération de stockage de structures. Une structure est composée d'au moins un tableau lui-même contenant une ou plusieurs lignes et une ou plusieurs colonnes. Chaque cellule est identifiée comme étant soit une zone vide, une étiquette ou une donnée.
    - Une opération de reconnaissance de structures testant l'adéquation dudit document avec une ou plusieurs structures stockées en se basant sur des éléments graphiques et/ou sémantiques.
    - Une opération de sortie d'information.
  13. 13) Procédé de reconnaissance de structures selon la revendication 12 caractérisé par : - Une opération de stockage des étiquettes permettant d'associer à une même étiquette plusieurs mots et éléments graphiques.
    - Une opération de reconnaissance de structures testant plusieurs mots ou éléments graphiques afin d'identifier une étiquette.
    <Desc/Clms Page number 16>
  14. 14) Procédé de reconnaissance de structures selon la revendication 12 ou 13 caractérisé par : - Une opération de stockage des données permettant d'associer à une même donnée au moins un formatage.
    - Une opération de reconnaissance de structures vérifiant la conformité de chaque donnée du document avec les formatages spécifiés dans la structure.
  15. 15) Procédé de reconnaissance de structures selon l'une quelconque des revendications 12 à 14 caractérisées par : - Une opération de stockage de structures conservant pour chaque ligne et/ou colonne un nombre d'occurrences.
    - Une opération de reconnaissance de structures testant la présence de plusieurs lignes et/ou colonnes dans ledit document pour une structure. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
  16. 16) Procédé de reconnaissance de structures selon la revendication 15 caractérisé par : - Une opération de stockage de structures pouvant regrouper les lignes ou les colonnes en séquences en conservant pour chaque séquence le nombre d'occurrences possible.
    - Une opération de reconnaissance de structures testant la présence de plusieurs séquences dans ledit document pour une structure. Ladite opération respecte les bornes conservées lors de l'opération de stockage.
  17. 17) Procédé de reconnaissance de structures selon l'une quelconque des revendications 12 à 16 caractérisé par : - Une opération de stockage de structures pouvant associer un tableau à une cellule.
    - Une opération de reconnaissance de structures testant la présence d'un tableau dans une cellule et en déduisant la structure correspondante.
  18. 18) Procédé de reconnaissance de structures selon l'une quelconque des revendications 12 à 17 caractérisé par :
    <Desc/Clms Page number 17>
    - Une opération de stockage laissant la possibilité d'un fusionnement de cellules.
    - Une opération de reconnaissance de structures prenant en compte le fusionnement de cellules.
  19. 19) Procédé de lecture automatique de document comportant : - Une opération donnant une image numérique d'un document analogique.
    - Une opération de lecture des caractères et des éléments graphiques dudit document.
    - Une opération de stockage et de reconnaissance de structures selon l'une quelconque des revendications 12 à 18.
    - Une opération de sortie d'information.
  20. 20) Procédé de lecture automatique de document selon la revendication 19 caractérisé par une opération de création de structure.
  21. 21) Procédé d'identification de document comportant : - Une opération de stockage et de reconnaissance de structures selon l'une quelconque des revendications 12 à 18.
    - Une opération de stockage des caractéristiques physiques d'un format.
    - Une opération de comparaison des structures.
  22. 22) Procédé de lecture automatique de document et d'identification de document caractérisé par : - Une opération de lecture automatique de document selon la revendication 19 ou 20.
    - Une opération d'identification de document selon la revendication 21.
  23. 23) Produit ou programme d'ordinateur caractérisé en ce qu'il comporte les instructions pour la mise en oeuvre du procédé et du
    Figure img00170001
    r il dispositif selon l'une quelconque des revendications précédentes.
FR0109451A 2001-07-13 2001-07-13 Dispositif et procede de reconnaissance de structure de document Expired - Fee Related FR2830106B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR0109451A FR2830106B1 (fr) 2001-07-13 2001-07-13 Dispositif et procede de reconnaissance de structure de document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0109451A FR2830106B1 (fr) 2001-07-13 2001-07-13 Dispositif et procede de reconnaissance de structure de document

Publications (2)

Publication Number Publication Date
FR2830106A1 true FR2830106A1 (fr) 2003-03-28
FR2830106B1 FR2830106B1 (fr) 2004-04-23

Family

ID=8865546

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0109451A Expired - Fee Related FR2830106B1 (fr) 2001-07-13 2001-07-13 Dispositif et procede de reconnaissance de structure de document

Country Status (1)

Country Link
FR (1) FR2830106B1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012104583A1 (fr) * 2011-01-31 2012-08-09 Keywordlogic Limited Système pour l'extraction et le traitement de données

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0637811A2 (fr) * 1993-08-02 1995-02-08 International Business Machines Corporation Procédé pour définir plusieurs jeux de données de définition de formulaire
EP0758775A2 (fr) * 1995-08-11 1997-02-19 Canon Kabushiki Kaisha Système d'extraction de caractéristiques
US5666549A (en) * 1992-03-10 1997-09-09 Hitachi, Ltd. Method and system for processing a document transmitted via facsimile in an initially input form stored in a knowledge base
EP0809219A2 (fr) * 1996-05-22 1997-11-26 NCR International, Inc. Système et procédé pour l'analyse de documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666549A (en) * 1992-03-10 1997-09-09 Hitachi, Ltd. Method and system for processing a document transmitted via facsimile in an initially input form stored in a knowledge base
EP0637811A2 (fr) * 1993-08-02 1995-02-08 International Business Machines Corporation Procédé pour définir plusieurs jeux de données de définition de formulaire
EP0758775A2 (fr) * 1995-08-11 1997-02-19 Canon Kabushiki Kaisha Système d'extraction de caractéristiques
EP0809219A2 (fr) * 1996-05-22 1997-11-26 NCR International, Inc. Système et procédé pour l'analyse de documents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CASEY R G ET AL: "INTELLIGENT FORMS PROCESSING", IBM SYSTEMS JOURNAL, IBM CORP. ARMONK, NEW YORK, US, vol. 29, no. 3, 1990, pages 435 - 450, XP000265375, ISSN: 0018-8670 *
LUO Q ET AL: "STRUCTURE RECOGNITION OF VARIOUS KINDS OF TABLE-FORM DOCUMENTS", SYSTEMS & COMPUTERS IN JAPAN, SCRIPTA TECHNICA JOURNALS. NEW YORK, US, vol. 25, no. 10, 1 September 1994 (1994-09-01), pages 82 - 97, XP000483412, ISSN: 0882-1666 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012104583A1 (fr) * 2011-01-31 2012-08-09 Keywordlogic Limited Système pour l'extraction et le traitement de données

Also Published As

Publication number Publication date
FR2830106B1 (fr) 2004-04-23

Similar Documents

Publication Publication Date Title
EP1364316A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
US8949241B2 (en) Systems and methods for interactive disambiguation of data
US20080317346A1 (en) Character and Object Recognition with a Mobile Photographic Device
WO2023273686A1 (fr) Procédé et appareil de recherche d&#39;informations, dispositif informatique et support de stockage
JP2003085190A (ja) 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム
CN111104798A (zh) 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
FR2880709A1 (fr) Procede de recherche, reconnaissance et localisation dans l&#39;encre, dispositif, programme et langage correspondants
WO2005101240A1 (fr) Procede de recherche d&#39;informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede
US9460199B2 (en) Application of text analytics to determine provenance of an object
CN115982388B (zh) 案件质控图谱建立、案件文书质检方法、设备及存储介质
US20100205175A1 (en) Cap-sensitive text search for documents
FR2830106A1 (fr) Dispositif et procede de reconnaissance de structure de document
CN107943965B (zh) 相似文章检索方法及装置
KR100624465B1 (ko) 디지털 사진의 상황변환 검출 장치 및 방법 및 이를 이용한디지털 사진 앨범의 상황 기반 클러스터링 방법 및 장치
CN111753537B (zh) 离婚纠纷裁判文书标签提取方法及装置
WO2005069166A1 (fr) Systeme automatique de traitement des informations portees par des textes courts
Yan et al. Cross media entity extraction and linkage for chemical documents
WO2001077890A1 (fr) Moteur de recherche de ressources hypermedia et procede d&#39;indexation associe
CN115210708A (zh) 信息跟踪系统的数据条目特征
CN113626385B (zh) 一种基于文本数据读取的方法和系统
Rigaud et al. Text block segmentation in comic speech bubbles
FR2986882A1 (fr) Procede d&#39;identification d&#39;un ensemble de phrases d&#39;un document numerique, procede de generation d&#39;un document numerique, dispositif associe
CN111324711B (zh) 一种帖子时效性判别方法、装置、及存储介质
WO2024146958A1 (fr) Procede pour ameliorer l&#39;exploitation de donnees partagee par une pluralite d&#39;utilisateurs
FR2880708A1 (fr) Procede de recherche dans l&#39;encre par conversion dynamique de requete.

Legal Events

Date Code Title Description
TP Transmission of property
TP Transmission of property
ST Notification of lapse

Effective date: 20060331

RN Application for restoration
FC Decision of inpi director general to approve request for restoration
PLFP Fee payment

Year of fee payment: 16

PLFP Fee payment

Year of fee payment: 17

PLFP Fee payment

Year of fee payment: 18

PLFP Fee payment

Year of fee payment: 19

TP Transmission of property

Owner name: CEGEDIM, FR

Effective date: 20191002

PLFP Fee payment

Year of fee payment: 20