FR2716987A1

FR2716987A1 - Procédé et système informatiques de fusion de documents ayant des présentations de données hétérogènes.

Info

Publication number: FR2716987A1
Application number: FR9402689A
Authority: FR
Inventors: Dugast Jean-Philippe; Badard Jacques
Original assignee: Individual
Current assignee: Individual
Priority date: 1994-03-03
Filing date: 1994-03-03
Publication date: 1995-09-08
Anticipated expiration: 2014-03-03
Also published as: FR2716987B1

Abstract

Afin d'effectuer à moindre coût la saisie et la fusion de documents (D1, D2) ayant des présentations hétérogènes, le procédé consiste en temps réel: - à numériser (SC) les documents (D1, D2) à fusionner, - à stocker dans une base de reconnaissance (B2) des fichiers (F2) contenant les images numériques (I(D2)) des documents non structurés (D2) et les données (S(D1)) extraites des images (I(D1)) numériques des documents structurés (D1), et en temps différé: - à extraire les données (S(D2)) des documents non structurés (D2) à partir des images numériques (I(D2)) des fichiers (F2) issus de la base de reconnaissance (B2), - à stocker dans une base de résultats (B1) des fichiers (F1) contenant les données (S(D1), S(D2)) de deux catégories de documents (D1, D2). Application notamment à la fusion des Titres Interbancaires de Paiement et des Relevés d'Identité Bancaire.

Description

PROCEDE ET SYSTEXE INFORMATIQUES DE FUSION DE DOCUMENTS
AYANT DES PRESENTATIONS DE DONNEES HETEROGENES.

L'invention se situe dans le domaine des systèmes de saisie et de lecture automatique de documents tels que les formulaires imprimés ou manuscrits couramment utilisés par de nombreuses administrations ou organismes tels que les compagnies d'assurance et les banques.

La réalisation pratique de tels systèmes pose des problèmes de niveaux différents selon que la présentation des données inscrites sur les documents est structurée ou non. Dans le cas d'une présentation structurée, l'information contenue dans chaque document est elle-même structurée selon des champs prédéfinis comportant chacun un nombre fixe de caractères. La disposition des différents champs est par ailleurs fixée et généralement la police et la taille des caractères utilisés sont imposées. Les documents ou formulaires ayant des présentations structurées font généralement l'objet d'une norme nationale ou internationale comme par exemple les titres interbancaires de paiement "TIP" qui permettent le règlement de factures par simple débit d'un compte bancaire, postal ou d'épargne. Le problème de la lecture automatique de tels formulaires est généralement bien maîtrisé et, pour certaines applications telles que la lecture des TIP, il existe sur le marché des appareils de lecture automatique adaptés.

Le cas des documents qui ne respectent pas des normes de présentation établies est généralement beaucoup plus difficile à traiter. I1 est en effet nécessaire de mettre en oeuvre des algorithmes d'analyses d'images utilisant par exemple les techniques de l'intelligence artificielle. Bien que ces algorithmes peuvent être simplifiés en exploitant certaines propriétés de l'information, leur mise en oeuvre nécessite des moyens de traitement puissants si l'on veut un temps d'exécution réduit.

Le problème précédent se pose également dans le cas où les documents ont des présentations de données structurées mais hétérogènes et où le nombre de présentations possibles est élevé.

Dans le domaine bancaire, le cas précédent peut être illustré par les relevés d'identité bancaire RIB.

Ainsi, par exemple, sur un échantillon de 30 banques différentes, on trouvera environ 150 modèles distincts de RIB. Dans ce cas particulier, les données utiles sont les coordonnées du compte bancaire (domiciliation) organisées en plusieurs champs prédéfinis : code banque, code guichet, numéro de compte et clé de contrôle. Toutefois, les emplacements de ces champs et les caractères utilisés peuvent être très variables. La lecture automatique des RIB nécessitera donc un logiciel capable d'abord de localiser automatiquement et rapidement les données utiles à partir des images numérisées des RIB. I1 devra ensuite procéder à la reconnaissance des caractères, indépendamment des polices utilisées.

I1 est par ailleurs souvent nécessaire d'effectuer la fusion de documents, c'est-à-dire créer des fichiers rassemblant des informations inscrites sur plusieurs documents. Un problème particulier se pose lorsqu'il s'agit de fusionner des documents ayant respectivement des présentations structurées et non structurées. Dans le premier cas, la saisie et la lecture peuvent être automatisées par les moyens relativement peu coûteux, contrairement au second cas. Ainsi, pour fusionner un
RIB avec un TIP, on utilise habituellement un poste de lecture automatique capable de lire uniquement les informations inscrites sur le TIP. Celles extraites du
RIB sont par contre saisies manuellement et la fusion est ensuite réalisée.

L'automatisation complète de ces opérations pourrait être réalisée au moyen d'un poste de lecture muni d'un logiciel adapté à la lecture des RIB. Toutefois, ce poste devrait être suffisamment puissant pour ne pas ralentir le travail de l'opérateur chargé d'introduire ces formulaires dans la machine. I1 en résulterait alors une augmentation importante du coût de chaque poste de lecture.

Ainsi, l'invention a pour but de proposer une solution permettant de réaliser la fusion automatique de documents structurés et non structurés à un coût acceptable sans pour cela ralentir le débit des formulaires à traiter.

Dans ce but, l'invention a pour objet un procédé pour automatiser la fusion de documents respectivement d'une première et d'une seconde catégorie et sur lesquels sont inscrites des données selon des présentations respectivement structurées d'une part et non structurées ou hétérogènes d'autre part, ladite fusion visant à constituer une première base de données, ciaprès appelée "base de résultats", rassemblant des fichiers contenant chacun des données extraites d'au moins un document de la première catégorie et d'au moins un document de la seconde catégorie, ledit procédé étant caractérisé en ce qu'il consiste en temps réel - à créer les images numériques de documents de la première et seconde catégorie à fusionner, - à appliquer un premier procédé de reconnaissance apte à reconnaître les données inscrites sur le ou les document(s) de la première catégorie à partir de leur(s) image(s) numérique(s), - à créer un fichier informatique, ci-après appelé "fichier de reconnaissance", contenant lesdites données reconnues et ladite ou lesdites image(s) numérique(s) du ou des document(s) de la seconde catégorie, - à transférer ledit fichier de reconnaissance vers une seconde base de données, ci-après appelée "base de reconnaissance'1, ledit procédé étant en outre caractérisé en ce qu'il consiste en temps différé - à extraire lesdits fichiers de reconnaissance contenus dans ladite base de reconnaissance, - pour chaque fichier de reconnaissance extrait, à appliquer un second procédé de reconnaissance apte à reconnaître les données inscrites sur le ou les document(s) de la seconde catégorie à partir de leur(s) image(s) numérique(s), - à créer un fichier informatique, ci-après appelé "fichier de résultats", contenant lesdites données reconnues des documents de la première et de la seconde catégories à fusionner, - à transférer ledit fichier de résultat dans ladite base de résultats.

Comme les opérations en temps différé sont normalement destinées à être traitées par un serveur pouvant recevoir des fichiers de reconnaissance d'un très grand nombre de postes, le fait d'appliquer le premier procédé de reconnaissance avant la création des fichiers de reconnaissance a pour effet de réduire la charge du serveur. Par ailleurs, la taille de ces fichiers étant réduite, on diminue également la charge des liaisons de communication utilisées pour les transferts de ces fichiers.

Pour de nombreuses applications, la fiabilité des opérations de lecture est une exigence. Aussi, selon une caractéristique supplémentaire de l'invention, le premier procédé de reconnaissance est associé à un premier procédé de détection d'erreurs de reconnaissance des données des documents de la première catégorie et, en cas d'erreur de reconnaissance des données inscrites sur au moins un document de la première catégorie, ledit fichier de reconnaissance n'est pas créé.

Conformément à l'invention, dans les cas où les données inscrites sur les documents de la première catégorie comportent au moins une clé de contrôle, le premier procédé de détection d'erreurs utilise cette clé de contrôle.

En plus de la possibilité de détecter des erreurs, il est souhaitable également de pouvoir les corriger facilement. Aussi, selon un autre aspect de l'invention, le procédé est en outre caractérisé en ce qu'en cas d'erreur détectée par ledit premier procédé de détection d'erreurs, il consiste en outre en temps réel - à afficher sur un dispositif de visualisation la ou les image(s) numérique(s) du ou desdits document(s) de la première catégorie, - à saisir manuellement les données apparaissant sur ledit dispositif de visualisation, - à appliquer auxdites données saisies manuellement ledit premier procédé de détection d'erreurs, - en l'absence d'erreur, à créer un fichier de reconnaissance contenant ladite donnée saisie manuellement et la ou lesdites image(s) numérique(s) du ou desdits document(s) de la seconde catégorie et à transférer ledit fichier de reconnaissance dans ladite base de reconnaissance.

L'invention prévoit également des moyens pour détecter les erreurs de reconnaissance des documents de la seconde catégorie. Pour cela, ledit second procédé de reconnaissance est associé à un second procédé de détection des erreurs de reconnaissance des données des documents de la seconde catégorie et, en cas d'erreur portant sur un fichier de reconnaissance extrait, ledit fichier de résultat n'est pas créé et ledit fichier de reconnaissance extrait est transféré dans une troisième base de données, ci-après appelée "base de rejets".

Comme précédemment, si les données inscrites sur les documents de la seconde catégorie comportent une clé de contrôle, le second procédé de détection d'erreurs utilisera cette clé.

En vue d'utiliser le procédé de détection d'erreurs défini précédemment pour effectuer les corrections des données erronées, le procédé selon l'invention est en outre caractérisé en ce qu'il consiste en temps différé - à extraire de ladite base de rejets lesdits fichiers de reconnaissance qu'elle contient, - pour chacun desdits fichiers de reconnaissance extraits, à afficher sur un dispositif de visualisation la ou les image(s) numérique(s) du ou desdits document(s) de la seconde catégorie contenue(s) dans ledit fichier extrait, - à saisir manuellement les données apparaissant sur ledit dispositif de visualisation, - à appliquer auxdites données saisies manuellement ledit second procédé de détection d'erreurs, - en l'absence d'erreur, à créer un fichier de résultat contenant lesdites données reconnues du ou desdits document(s) de la première catégorie et lesdites données saisies manuellement et à transférer ledit fichier de résultat dans ladite base de résultats.

L'invention a également pour objet un système informatique pour la mise en oeuvre du procédé défini précédemment. Le système est caractérisé en ce qu'il comprend - au moins un poste de lecture muni d'un numériseur d'images et d'une unité de traitement, - un serveur en communication avec le ou lesdits poste(s) de lecture et comportant des moyens de traitement et des moyens de mémorisation contenant lesdites bases de résultats et de reconnaissance, en ce que ledit poste de lecture est prévu pour recevoir lesdits documents desdites première et seconde catégories et créer leurs images numériques, pour exécuter ledit premier procédé de reconnaissance, pour créer lesdits fichiers de reconnaissance et pour les transférer vers ledit serveur, en ce que ledit serveur est prévu pour recevoir lesdits fichiers de reconnaissance transférés et les stocker dans ladite base de reconnaissance, en ce que lesdits moyens de traitement sont programmés pour extraire les fichiers de reconnaissance contenus dans ladite base de reconnaissance, pour exécuter ledit second procédé de reconnaissance, pour créer lesdits fichiers de résultat et les transférer vers ladite base de résultats.

Pour mettre en oeuvre la correction des erreurs de reconnaissance des documents de la première catégorie, le système est en outre caractérisé en ce que chaque poste de lecture comporte des moyens de visualisation et de saisie manuelle reliés à ladite unité de traitement, ladite unité de traitement étant en outre programmée pour exécuter ledit premier procédé de détection d'erreurs et, en cas d'erreur détectée, pour commander l'affichage de l'image numérique du ou desdits document(s) de la première catégorie et pour prendre en compte lesdites données saisies manuellement.

Enfin, pour mettre en oeuvre le procédé de correction des erreurs de reconnaissance des documents de la seconde catégorie, le système est en outre caractérisé en ce que lesdits moyens de traitement sont programmés pour extraire les fichiers de reconnaissance de ladite base de reconnaissance, pour exécuter ledit second procédé de détection d'erreurs et, en l'absence d'erreur de reconnaissance, créer lesdits fichiers de résultats et les stocker dans ladite base de résultats ou, en cas d'erreur de reconnaissance, transférer les fichiers de reconnaissance correspondants dans ladite base de rejets, en ce que ledit système comprend en outre au moins un poste de correction en communication avec ledit serveur et comportant des moyens de visualisation et de saisie manuelle reliés à une unité de traitement et en ce que ladite unité de traitement est programmée pour extraire les fichiers de reconnaissance contenus dans ladite base de rejets, pour commander l'affichage de l'image numérique contenue dans chaque fichier de reconnaissance extrait et pour prendre en compte lesdites données saisies manuellement.

D'autres aspects et avantages de l'invention apparaitront dans la suite de la description en référence aux figures.

- La figure 1 est une représentation schématique du procédé et du système selon l'invention.

- La figure 2 est un synoptique du fonctionnement d'un poste de lecture de formulaires bancaires TIP et RIB.

- La figure 3 est un organigramme général d'un logiciel de reconnaissance des formulaires RIB.

La figure 1 représente une architecture de système informatique permettant la mise en oeuvre du procédé selon l'invention. Pour faciliter les explications, le système est réduit à un seul poste de lecture PL, un serveur S et un seul poste de correction PC.

Le poste de lecture PL est essentiellement constitué d'un numériseur SC, d'une unité de traitement CPU1 et de moyens de visualisation V1 et de saisie manuelle Cl.

Les éléments CPU1, V1 et C1 seront par exemple les éléments constitutifs d'un micro-ordinateur classique composé respectivement d'une unité centrale, d'un écran et d'un clavier. Ainsi, l'unité CPU1 est reliée par des interfaces adaptées au serveur S, au numériseur SC, à l'écran Vl, au clavier C1 ainsi qu'à une ou plusieurs unité(s) de disque (non représentée(s)). L'unité CPU1 est bien entendu gérée par un système d'exploitation servant à commander les échanges avec les périphériques précités ainsi qu'avec le serveur S. Dans le cas de l'invention, l'unité CPU1 est munie d'un premier logiciel de mise en oeuvre d'un procédé de reconnaissance PR1 des documents D1 à présentation structurée. On prévoit également un second logiciel de mise en oeuvre d'un procédé PD1 de détection d'erreurs de reconnaissance des données de ces documents.

Le numériseur SC peut être de type classique mais choisi de façon à accepter des documents d'une taille au moins égale de celle des documents à fusionner. En fonction des disponibilités du marché, on peut également utiliser un numériseur incorporant des fonctions de reconnaissance de caractères pour certaines polices prédéterminées. Ainsi, pour les applications bancaires, on pourra par exemple utiliser le modèle 7731 commercialisé par la Société NCR ou bien le modèle TR100 de la Société Recognition Equipment
Italia (REl). Ces appareils sont en particulier capables de reconnaître les caractères utilisés sur les formulaires TIP, ce qui signifie que le procédé de reconnaissance PR1 pourra être exécuté par le numériseur, l'unité CPU1 se chargeant par contre des autres fonctions telles que la détection des erreurs de reconnaissance.

Le serveur S est essentiellement constitué de moyens de traitement MT et de moyens de mémorisation MM. Les moyens de traitement MT sont en communication avec le poste de lecture PL et avec le poste de correction PC.

Les moyens de mémorisation MM servent de support physique pour des bases de résultats B1, de reconnaissance B2 et de rejets B3. Outre le logiciel du système d'exploitation, les moyens de traitement MT contiennent les logiciels de mise en oeuvre d'un procédé PR2 de reconnaissance des documents D2 à présentation non structurée ou hétérogène et d'un procédé PD2 de détection d'erreurs de ces documents.

Le poste de correction PC est constitué d'une unité de traitement CPU2 et de moyens de visualisation V2 et de saisie manuelle C2. Comme pour le poste de lecture, on peut utiliser un micro-ordinateur de type classique muni des interfaces appropriées pour permettre les échanges de données avec le serveur S, l'écran V2 et le clavier C2.

Le système de la figure 1 fonctionne de la façon suivante. Les documents à fusionner D1, D2 sont d'abord introduits physiquement dans le numériseur SC qui créé les images numériques I(D1), I(D2) correspondantes.

L'image numérique I(D1) du document D1 supposé normalisé est ensuite traitée par le procédé de reconnaissance PR1 pour élaborer la "sanction" S(D1) du document D1, c'est-à-dire les mots sous forme alphanumérique représentant les données utiles de ce document. La sanction S(D1) est ensuite traitée par le procédé de détection d'erreurs PD1 qui consiste par exemple en un contrôle de clé dans le cas où cette dernière fait partie des données utiles. Si le contrôle est positif O, la sanction S(D1) est associée à l'image numérique I(D2) du document D2 de façon à former un fichier de reconnaissance F2. Le fichier F2 est alors transmis, éventuellement par l'intermédiaire d'une mémoire tampon non représentée, au serveur S par un canal de transmission approprié.

Si le procédé PD1 détecte une erreur N1 dans la signature S(D1), l'image numérique I(D1) du document D1 est affichée sur l'écran V1 en vue d'un contrôle visuel par l'opérateur. Si l'image apparaissant sur l'écran permet de déchiffrer la sanction S(D1), celle-ci est saisie manuellement par l'opérateur au moyen du clavier
C1. La sanction S(D1) est ensuite vérifiée par le procédé de contrôle PD1. Si le contrôle est positif O, le fichier F2 est créé comme précédemment. Dans le cas contraire N2, un message d'erreur El est affiché sur l'écran V1.

Les fichiers F2 créés par le poste de lecture PL sont reçus par le serveur S qui les charge ensuite dans la base de reconnaissance B2 contenue dans les moyens de mémorisation MM. Les fichiers F2 mémorisés peuvent ensuite être extraits en temps différé de la base B2 par les moyens de traitement MT du serveur. L'image numérique I(D2) de chaque document D2 est alors traitée par le second procédé de reconnaissance PR2 qui élabore normalement la sanction S(D2) correspondante. La sanction S(D2) est ensuite vérifiée par le second procédé de détection d'erreurs PD2. En l'absence d'erreur 0, la sanction S(D2) du document D2 est associée à la sanction S(D1) du document D1 pour former un fichier de résultat F1. Le fichier F1 est alors stocké dans la base de résultats B1. Dans le cas où une erreur est détectée N, le fichier de reconnaissance F2 est mémorisé dans la base de rejets B3.

Indépendamment des fonctionnements du poste de lecture
PL et du serveur S, le poste de correction PC peut accéder à la base de rejets B3 par l'intermédiaire du serveur S. Pour chaque fichier F2 extrait de la base
B3, le poste de correction PC extrait l'image numérique
I(D2) du document D2 contenu dans ce fichier et la transfère vers l'écran V2. L'image affichée sur l'écran
V2 est alors vérifiée par l'opérateur. Si l'opérateur est en mesure de déchiffrer la sanction S(D2), celle-ci est saisie manuellement au moyen du clavier C2. Elle est ensuite contrôlée par le second procédé de détection d'erreurs PD2 grâce au logiciel correspondant exécuté par l'unité de traitement CPU2. En cas d'erreur
N, l'unité CPU2 émet un message d'erreur E2 à destination de l'écran V2. En l'absence d'erreur, la sanction S(D2) est associée à la sanction S(D1) du fichier F2 de façon à former un fichier de résultat F1.

Le fichier de résultat F1 est alors transféré dans la base de résultats B1 par l'intermédiaire du serveur S.

On notera que le système décrit ci-dessus a été simplifié à des fins de clarté. En pratique, le système pourra comporter plusieurs postes de lecture PL ainsi que plusieurs postes de correction PC. Les postes de lecture et de correction seront par exemple organisés en réseaux locaux, chaque réseau local étant relié au serveur directement ou par l'intermédiaire d'un réseau de télécommunication.

De même, bien que les postes de lecture et de correction aient été présentés comme des entités séparées, il est toujours possible de regrouper leurs fonctions dans un même matériel. I1 suffira pour cela de prévoir un numériseur associé à un micro-ordinateur chargé avec les logiciels d'exécution des procédés de reconnaissance et de détection d'erreurs des documents de première catégorie, et le logiciel d'exécution du procédé de détection d'erreurs des documents de seconde catégorie.

Enfin, pour faciliter l'exposé, les deux logiciels réalisant les procédés de reconnaissance et de détection d'erreurs ont été représentés sous la forme de modules séparés. En pratique, le procédé de reconnaissance pourra intégrer également des étapes de détection d'erreurs. De même, le cas où le procédé de reconnaissance détecte une impossibilité d'exécution peut être considéré comme une telle étape.

La figure 2 représente plus en détail le fonctionnement d'un poste de lecture dans le cas particulier de la fusion des formulaires bancaires TIP et RIB. Dans ce contexte, le problème est de fusionner un relevé d'identité bancaire RIB de présentation non normalisée avec un ou plusieurs titre(s) interbancaire(s) de paiement TIP normalisé(s).

Le fonctionnement du poste de lecture sera alors le suivant. Après l'initialisation du poste, l'opérateur introduit dans le numériseur le premier RIB (étape 1).

Une image numérique I(RIB) de ce document est obtenue après numérisation (étape 2). Optionnellement, l'opérateur a la possibilité de contrôler la qualité de la numérisation (étape 3). S'il choisit cette option, l'image I(RIB) est affichée sur l'écran (étape 4).

L'opérateur effectue alors un contrôle visuel de l'image affichée (étape 5). Si l'image n'est pas satisfaisante, l'opération est annulée (étape 6). Dans le cas contraire, comme dans le cas où l'option de contrôle à l'étape 3 n'est pas choisie, l'unité créé un nouveau fichier de reconnaissance F2 et y écrit l'image numérique I(RIB) (étape 7). L'étape 8 n'est pas exécutée dans le cas du premier RIB traité. Le système impose alors l'introduction d'un formulaire TIP (étape 9). Après l'introduction et la numérisation (étapes 1 et 2) de ce document, son image numérique
I(TIP) est traitée par le procédé de reconnaissance TIP (étape 10). La sanction obtenue S(TIP) est contrôlée à l'étape 11 au moyen de la clé associée au numéro de compte inscrit sur le TIP. En cas d'erreur détectée, l'image I(TIP) est affichée sur l'écran (étape 13).

L'opérateur a alors la possibilité de saisir manuellement la sanction S(TIP) (étape 14). En cas d'impossibilité, l'opération est annulée pour ce TIP.

Si aucune erreur n'est détectée à l'étape 12 ou si une saisie manuelle est possible, l'unité procède à l'écriture de la sanction S(TIP) dans le fichier F2 qui avait été créé à l'étape 7. Le système permet alors à l'opérateur de choisir le type de document suivant : TIP ou RIB (étape 9). Si le document suivant choisi est à nouveau un TIP, les étapes 10 à 14 sont à nouveau effectuées mais, à l'étape 15, le système créé un nouveau fichier de reconnaissance F2 contenant l'image numérique I(RIB) créée précédemment et la sanction S(TIP) du nouveau TIP. L'opération se répète autant de fois que l'opérateur choisit un TIP comme nouveau document (étape 9). S'il choisit par contre un
RIB, les étapes 1 à 7 sont effectuées comme indiqué précédemment. L'unité procède alors à l'envoi du ou des fichier(s) F2 contenant l'image numérique I(RIB) du RIB précédent. Ensuite, l'opérateur doit introduire le TIP suivant et les opérations se répètent comme précédemment.

La figure 3 montre les principales étapes d'un logiciel de reconnaissance de relevés d'identité bancaire RIB.

cet organigramme est donné à titre d'exemple pour illustrer dans un cas particulier la façon de mettre en oeuvre un procédé de reconnaissance de données inscrites sur un document selon une présentation non structurée ou hétérogène.

Nous rappelons que les données à reconnaître sont les données numériques définissant la domiciliation d'un compte bancaire. Ces données sont organisées en plusieurs champs, généralement séparés, ayant les affectations suivantes - un champs de 5 caractères pour le numéro de banque, - un champs de 5 caractères pour le numéro de guichet, - un champs de 11 caractères pour le numéro du compte et - un champs de 2 caractères pour une clé calculée à partir du numéro de compte.

Bien que cette disposition soit la plus fréquente, des variantes sont possibles. Par exemple, le numéro de compte et la clé associée peuvent être accolés pour former un champs unique.

Le procédé de reconnaissance porte sur l'image numérique binaire du RIB et débute par une détection et un masquage des cadres et des lignes imprimés sur le formulaire (étape 16). Cette opération permettra de faciliter la reconnaissance ultérieure des caractères.

L'opération se poursuit par une phase de localisation consistant d'abord à détecter les composantes élémentaires de l'image (étape 17) consistant à définir les coordonnées et les dimensions des ensembles de pixels contigus faisant partie de l'image. Par une analyse des espaces entre ces composants élémentaires, on effectue à l'étape 18 des fusions visant à former des structures de mots. Puis, à l'étape 19, s'effectuent des fusions pour former des structures de lignes. Les étapes 17 à 19 sont paramétrées par une analyse préalable des formulaires à traiter.

Le procédé se poursuit par la recherche des champs consistant d'abord à rechercher des descriptions de champs correspondant aux descriptions théoriques possibles (étape 20). Si plusieurs solutions sont possibles, un choix est effectué en tenant compte des descriptions les plus probables (étape 21).

L'étape 22 effectue une opération dite de "correction de la segmentation" consistant à passer en revue les différents cas où des espaces trop faibles ou trop importants sépareraient certains des caractères. Le procédé se poursuit à l'étape 23 par une reconnaissance des caractères utilisant par exemple un réseau neuronal du type RBF ("Radial Basis Function") programmé au préalable par une phase d'apprentissage. Les niveaux d'activités élaborés par le réseau neuronal permettent après seuillage de définir des hypothèses concernant les caractères reconnus (étape 24). Ces hypothèses sont vérifiées par ordre de niveaux d'activités décroissants au moyen de la clé de contrôle (étape 25).

En cas d'échec au niveau des étapes 21, 22, 23 et en cas de non-conformité entre la clé calculée à partir du numéro de compte et la clé lue, le logiciel génère un message de commande de rejet du fichier de reconnaissance associé au RIB.

Bien entendu, le procédé de reconnaissance qui vient d'être décrit dans un contexte d'application particulière n'est donné qu'à titre d'exemple. L'homme du métier sera en mesure de développer des logiciels spécifiques adaptés à d'autres applications en s'inspirant par exemple des indications données cidessus.

Claims

REVENDICATIONS

1. Procédé pour automatiser la fusion de documents (D1, D2) respectivement d'une première et d'une seconde catégorie et sur lesquels sont inscrites des données selon des présentations respectivement structurées d'une part et non structurées ou hétérogènes d'autre part, ladite fusion visant à constituer une première base de données, ci-après appelée "base de résultats" (B1), rassemblant des fichiers contenant chacun des données (S(D1), S(D2)) extraites d'au moins un document (D1) de la première catégorie et d'au moins un document (D2) de la seconde catégorie, ledit procédé étant caractérisé en ce qu'il consiste en temps réel - à créer les images numériques (I(D1), I(D2)) de documents (D1, D2) de la première et seconde catégorie à fusionner, - à appliquer un premier procédé de reconnaissance (PR1) apte à reconnaître les données (S(D1)) inscrites sur le ou les document(s) (D1) de la première catégorie à partir de leur(s) image(s) numérique(s) (I(D1)), - à créer un fichier informatique, ci-après appelé "fichier de reconnaissance" (F2), contenant lesdites données reconnues (S(D1)) et ladite ou lesdites image(s) numérique(s) (I(D2)) du ou des document(s) (D2) de la seconde catégorie, - à transférer ledit fichier de reconnaissance (F2) vers une seconde base de données, ci-après appelée "base de reconnaissance" (B2), ledit procédé étant en outre caractérisé en ce qu'il consiste en temps différé - à extraire lesdits fichiers de reconnaissance (F2) contenus dans ladite base de reconnaissance (B2), - pour chaque fichier de reconnaissance (F2) extrait, à appliquer un second procédé de reconnaissance (PR2) apte à reconnaître les données (S(D2)) inscrites sur le ou les document(s) (D2) de la seconde catégorie à partir de leur(s) image(s) numérique(s) (I(D2)), - à créer un fichier informatique, ci-après appelé "fichier de résultats" (F1), contenant lesdites données reconnues (S(D1), S(D2)) des documents (D1, D2) de la première et de la seconde catégories à fusionner, - à transférer ledit fichier de résultat (F1) dans ladite base de résultats (B1).

2. Procédé selon la revendication 1, caractérisé en ce que ledit premier procédé de reconnaissance (PR1) est associé à un premier procédé (PD1) de détection d'erreurs de reconnaissance des données des documents (D1) de la première catégorie et en ce qu'en cas d'erreur de reconnaissance des données inscrites sur au moins un document (D1) de la première catégorie, ledit fichier de reconnaissance (F2) n'est pas cree.

3. Procédé selon la revendication 2, caractérise en ce que les données inscrites sur les documents (D1) de la première catégorie comportant au moins une première clé de contrôle, ledit premier procédé de détection d'erreurs (PD1) utilise ladite première clé de contrôle.

4. Procédé selon l'une des revendications 2 ou 3, caractérisé en ce qu'en cas d'erreur détectée par ledit premier procédé de détection d'erreurs (PD1), il consiste en outre en temps réel - à afficher sur un dispositif de visualisation (V1) la ou les image(s) numérique(s) (I(D1)) du ou desdits document(s) (D1) de la première catégorie, - à saisir manuellement les données (S(D1)) apparaissant sur ledit dispositif de visualisation (xi), - à appliquer auxdites données saisies manuellement (S(D1)) ledit premier procédé de détection d'erreurs (PD1), - en l'absence d'erreur, à créer un fichier de reconnaissance (F2) contenant ladite donnée (S(D1)) saisie manuellement et la ou lesdites image(s) numérique(s) (I(D2)) du ou desdits document(s) (D2) de la seconde catégorie et à transférer ledit fichier de reconnaissance (F2) dans ladite base de reconnaissance (B2).

5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que ledit second procédé de reconnaissance (PR2) est associé à un second procédé (PD2) de détection des erreurs de reconnaissance des données des documents (D2) de la seconde catégorie et en ce qu'en cas d'erreur portant sur un fichier de reconnaissance (F2) extrait, ledit fichier de résultat (F1) n'est pas créé et ledit fichier de reconnaissance (F2) extrait est transféré dans une troisième base de données, ci-après appelée "base de rejets" (B3).

6. Procédé selon la revendication 5, caractérisé en ce que les données inscrites sur les documents (D2) de la seconde catégorie comportant au moins une seconde clé de contrôle, ledit second procédé de détection d'erreurs (PD2) utilise ladite seconde clé de contrôle.

7. Procédé selon l'une des revendications 5 ou 6, caractérisé en ce qu'il consiste en outre en temps différé - à extraire de ladite base de rejets (B3) lesdits fichiers de reconnaissance (F2) qu'elle contient, - pour chacun desdits fichiers de reconnaissance (F2) extraits, à afficher sur un dispositif de visualisation (V2) la ou les image(s) numérique(s) (I(D2)) du ou desdits document(s) (D2) de la seconde catégorie contenue(s) dans ledit fichier (F2) extrait, - à saisir manuellement les données (S(D2)) apparaissant sur ledit dispositif de visualisation (vu), - à appliquer auxdites données saisies manuellement (S(D2)) ledit second procédé de détection d'erreurs (PD2), - en l'absence d'erreur, à créer un fichier de résultat (F1) contenant lesdites données reconnues (S(D1)) du ou desdits document(s) (D1) de la première catégorie et lesdites données saisies manuellement (S(D2)) et à transférer ledit fichier de résultat (F1) dans ladite base de résultats (B1).

8. Système informatique pour la mise en oeuvre du procédé selon la revendication 1, caractérisé en ce qu'il comprend - au moins un poste de lecture (PL) muni d'un numériseur d'images (SC) et d'une unité de traitement (CPU1), - un serveur (S) en communication avec le ou lesdits poste(s) de lecture (PL) et comportant des moyens de traitement (MT) et des moyens de mémorisation (MM) contenant lesdites bases de résultats (B1) et de reconnaissance (B2), en ce que ledit poste de lecture (PL) est prévu pour recevoir lesdits documents (D1, D2) desdites première et seconde catégories et créer leurs images numériques (I(D1), I(D2)), pour exécuter ledit premier procédé de reconnaissance (PRI), pour créer lesdits fichiers de reconnaissance (F2) et pour les transférer vers ledit serveur (S), en ce que ledit serveur (S) est prévu pour recevoir lesdits fichiers de reconnaissance (F2) transférés et les stocker dans ladite base de reconnaissance (B2), en ce que lesdits moyens de traitement (MT) sont programmés pour extraire les fichiers de reconnaissance (F2) contenus dans ladite base de reconnaissance (B2), pour exécuter ledit second procédé de reconnaissance (PR2), pour créer lesdits fichiers de résultat (F1) et les transférer vers ladite base de résultats (B1).

9. Système informatique pour la mise en oeuvre du procédé selon la revendication 4, caractérisé en ce qu'il comprend - au moins un poste de lecture (PL) muni d'un numériseur d'images (SC) et d'une unité de traitement (CPU1), - un serveur (S) en communication avec le ou lesdits poste(s) de lecture (PL) et comportant des moyens de traitement (MT) et des moyens de mémorisation (MM) contenant lesdites bases de résultats (B1) et de reconnaissance (B2), en ce que ledit poste de lecture (PL) est prévu pour recevoir lesdits documents (D1, D2) desdites première et seconde catégories et créer leurs images numériques (I(D1), I(D2)), pour exécuter ledit premier procédé de reconnaissance (PRl), pour créer lesdits fichiers de reconnaissance (F2) et pour les transférer vers ledit serveur (S), en ce que ledit serveur (S) est prévu pour recevoir lesdits fichiers de reconnaissance (F2) transférés et les stocker dans ladite base de reconnaissance (B2), en ce que lesdits moyens de traitement (MT) sont programmés pour extraire les fichiers de reconnaissance (F2) contenus dans ladite base de reconnaissance (B2), pour exécuter ledit second procédé de reconnaissance (PR2), pour créer lesdits fichiers de résultat (F1) et les transférer vers ladite base de résultats (B1), ledit système étant en outre caractérisé en ce que chaque poste de lecture (PL) comporte des moyens de visualisation (V1) et de saisie manuelle (C1) reliés à ladite unité de traitement (CPU1), ladite unité de traitement (CPU1) étant en outre programmée pour exécuter ledit premier procédé de détection d'erreurs (PD1) et, en cas d'erreur détectée, pour commander l'affichage de l'image numérique (I(D1)) du ou desdits document(s) (D1) de la première catégorie et pour prendre en compte lesdites données saisies manuellement (S(D1)).

10. Système informatique pour la mise en oeuvre du procédé selon la revendication 7, caractérisé en ce qu'il comprend - au moins un poste de lecture (PL) muni d'un numériseur d'images (SC) et d'une unité de traitement (CPU1), - un serveur (S) en communication avec le ou lesdits poste(s) de lecture et comportant des moyens de traitement (MT) et des moyens de mémorisation (MM) contenant lesdites bases de résultats (B1) et de reconnaissance (B2), en ce que ledit poste de lecture (PL) est prévu pour recevoir lesdits documents (D1, D2) desdites première et seconde catégories et créer leurs images numériques (I(D1), I(D2)), pour exécuter ledit premier procédé de reconnaissance (PRl), pour créer lesdits fichiers de reconnaissance (F2) et pour les transférer vers ledit serveur (s) en ce que ledit serveur (s) est prévu pour recevoir lesdits fichiers de reconnaissance (F2) transférés et les stocker dans ladite base de reconnaissance (B2), en ce que lesdits moyens de traitement (MT) sont programmés pour extraire les fichiers de reconnaissance (F2) contenus dans ladite base de reconnaissance (B2), pour exécuter ledit second procédé de reconnaissance (PR2), pour créer lesdits fichiers de résultat (F1) et les transférer vers ladite base de résultats (B1), ledit système étant en outre caractérisé en ce que lesdits moyens de traitement (MT) sont programmés pour extraire les fichiers de reconnaissance (F2) de ladite base de reconnaissance (B2), pour exécuter ledit second procédé de détection d'erreurs (PD2) et, en l'absence d'erreur de reconnaissance, créer lesdits fichiers de résultats (F1) et les stocker dans ladite base de résultats (B1) ou, en cas d'erreur de reconnaissance, transférer les fichiers de reconnaissance (F2) correspondants dans ladite base de rejets (B3), en ce que ledit système comprend en outre au moins un poste de correction (PC) en communication avec ledit serveur (S) et comportant des moyens de visualisation (V2) et de saisie manuelle (C2) reliés à une unité de traitement (CPU2) et en ce que ladite unité de traitement (CPU2) est programmée pour extraire les fichiers de reconnaissance (F2) contenus dans ladite base de rejets (B3), pour commander l'affichage de l'image numérique (I(D2)) contenue dans chaque fichier de reconnaissance (F2) extrait et pour prendre en compte lesdites données (S(D2)) saisies manuellement.