FR2768825A1 - Document digitization, - Google Patents

Document digitization, Download PDF

Info

Publication number
FR2768825A1
FR2768825A1 FR9711748A FR9711748A FR2768825A1 FR 2768825 A1 FR2768825 A1 FR 2768825A1 FR 9711748 A FR9711748 A FR 9711748A FR 9711748 A FR9711748 A FR 9711748A FR 2768825 A1 FR2768825 A1 FR 2768825A1
Authority
FR
France
Prior art keywords
documents
computer
document
scanned
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9711748A
Other languages
French (fr)
Other versions
FR2768825B1 (en
Inventor
Alain Blondy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Airbus Group SAS
Original Assignee
Airbus Group SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Airbus Group SAS filed Critical Airbus Group SAS
Priority to FR9711748A priority Critical patent/FR2768825B1/en
Publication of FR2768825A1 publication Critical patent/FR2768825A1/en
Application granted granted Critical
Publication of FR2768825B1 publication Critical patent/FR2768825B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Abstract

Documents are scanned, by scanner (12) linked to one (10) of two networked computers, each document preceded by a corresponding divider with unique reference, which in turn corresponds to an information form. The image files produced are stored using a large capacity data storage system (18), which is also used to store searchable text files produced by the second computer (16) by OCR processing of these image files.

Description

Domaine de la technique
La présente invention concerne le domaine de la numérisation et du stockage automatiques de documents et plus particulièrement un dispositif permettant la constitution à partir de documents numérisés d'une banque de données interrogeable.
Technical area
The present invention relates to the field of automatic digitization and storage of documents and more particularly a device allowing the constitution from scanned documents of a searchable database.

Art antérieur
Les dispositifs de numérisation de documents, ou scanners, sont bien connus et leur association avec des supports de stockage de grande capacité de type magnétique ou optique, CD-ROM par exemple, pour la constitution de banques de données également.
Prior art
Document scanning devices, or scanners, are well known and their association with large capacity storage media of magnetic or optical type, CD-ROM for example, for the constitution of databases as well.

Le brevet FR 2 681 454 au nom de la demanderesse montre un tel ensemble de traitement de documents mettant en oeuvre un scanner pour la numérisation des documents imprimés, un support optique numérique pour le stockage des documents ainsi numérisés, et un ordinateur pour le pilotage du scanner et du support de stockage et pour la recherche de documents déterminés. Un écran de visualisation complémentaire de grand format et haute définition et une imprimante numérique de type laser sont en outre prévus pour visualiser les documents numérisés et imprimer à la demande les documents issus de la recherche. L'ensemble ainsi décrit est essentiellement destiné à la numérisation de publications de brevets à partir de catalogues imprimés et la recherche de documents particuliers est rendue possible par une reconnaissance optique de caractères (OCR) de ces publications numérisées. Patent FR 2 681 454 in the name of the applicant shows such a document processing assembly using a scanner for the digitization of printed documents, a digital optical medium for storing the documents thus scanned, and a computer for controlling the scanner and storage medium and for finding specific documents. A large-format, high-definition complementary display screen and a laser-type digital printer are also provided for viewing scanned documents and printing documents from research on demand. The assembly thus described is essentially intended for the digitization of patent publications from printed catalogs and the search for particular documents is made possible by optical character recognition (OCR) of these digitized publications.

On connaît également par la demande de brevet FR 2 705 808 un système de traitement de documents comptables organisé autour d'un ordinateur de type personnel comportant des moyens de visualisation et d'impression et des moyens de stockage de masse alimentés à partir d'une unité de numérisation. La recherche de documents particuliers est rendue possible par une identification préalable de chaque document au moyen d'un marquage effectué par une imprimante spécialement configurée. Also known from patent application FR 2 705 808 is a system for processing accounting documents organized around a personal computer comprising display and printing means and mass storage means supplied from a scanning unit. The search for particular documents is made possible by a prior identification of each document by means of a marking carried out by a specially configured printer.

Ces systèmes conventionnels présentent toutefois certains inconvénients. Par exemple, le brevet de la demanderesse ne concerne que les documents imprimés et dans la demande FUR 2 705 808, chaque document doit être indexé préalablement à sa numérisation pour qu'une recherche ultérieure soit possible. En outre, ces systèmes sont peu adaptés à un traitement en masse de documents, comme la numérisation complète d'archives, et ils présentent donc dans ce domaine spécifique des performances limitées. Le brevet français précité de la demanderesse mentionne notamment l'exemple antérieur d'un dispositif d'archivage permettant d'effectuer en deux ans et avec dix personnes la numérisation de 100 000 pages. These conventional systems however have certain drawbacks. For example, the applicant's patent relates only to printed documents and in application FUR 2,705,808, each document must be indexed before it is scanned so that subsequent research is possible. In addition, these systems are poorly suited to mass processing of documents, such as the complete digitization of archives, and they therefore exhibit limited performance in this specific field. The aforementioned French patent of the Applicant mentions in particular the previous example of an archiving device making it possible to digitize 100,000 pages in two years and with ten people.

Définition et objet de l'invention
La présente invention se propose de réaliser un dispositif permettant de numériser un très grand nombre de documents papiers de tout type, imprimés mais aussi manuscrits, et de tout format, de façon automatique sans nécessiter la présence d'un personnel nombreux et souvent spécialisé comme le requière les dispositifs actuels. Un but de l'invention est notamment de permettre une numérisation d'au moins 1 000 000 de pages de documents par an avec un unique opérateur non spécialiste. Un autre but de l'invention est de pouvoir effectuer le traitement des documents numérisés (en vue d'en faciliter la recherche), par exemple en cas de reprise complète d'un fonds documentaire, pratiquement sans interruption, c'est à dire 24 heures sur 24 et 7 jours sur 7, sans que ce traitement en continue n'interdise la consultation des documents du fonds déjà numérisé.
Definition and object of the invention
The present invention proposes to provide a device for scanning a very large number of paper documents of all types, printed but also handwritten, and of any format, automatically without requiring the presence of a large and often specialized staff such as requires current devices. An object of the invention is in particular to allow a digitization of at least 1,000,000 pages of documents per year with a single non-specialist operator. Another object of the invention is to be able to carry out the processing of the digitized documents (with a view to facilitating their search), for example in the event of complete recovery of a documentary fund, practically without interruption, that is to say 24 24 hours a day, 7 days a week, without this continuous processing prohibiting the consultation of documents from the fund already digitized.

Ces buts sont atteints par un procédé de numérisation et de recherche de documents en vue de la réalisation d'une banque de donnée interrogeable comportant les étapes suivantes - création pour chacun des documents d'un ensemble de documents à numériser d'un intercalaire papier comportant des mentions pré-imprimées et destiné à être placé devant le document correspondant, - numérisation automatique de cet ensemble de documents au niveau d'un premier ordinateur muni d'une unité de numérisation, - stockage au niveau d'une unité de stockage de grande capacité d'un premier fichier ( fichier image ) contenant l'image des documents numérisés, - traitement informatique de chacun des documents ainsi numérisés au niveau d'un second ordinateur et création d'un second fichier issu de ce traitement, et - stockage au niveau de l'unité de stockage de grande capacité de ce second fichier. These aims are achieved by a process of scanning and searching for documents with a view to producing a searchable database comprising the following steps - creation for each of the documents of a set of documents to be scanned from a paper interlayer comprising pre-printed information and intended to be placed in front of the corresponding document, - automatic scanning of this set of documents at the level of a first computer equipped with a scanning unit, - storage at the level of a large storage unit capacity of a first file (image file) containing the image of the scanned documents, - computer processing of each of the documents thus scanned at a second computer and creation of a second file resulting from this processing, and - storage at level of the large capacity storage unit of this second file.

Par ce procédé spécifique mettant en oeuvre un intercalaire papier entre chaque document à numériser, il est possible de réaliser une numérisation quasiment automatique d'un fond documentaire papier même hétérogène sans le recours à un personnel nombreux et spécialisé. By this specific process using a paper interlayer between each document to be scanned, it is possible to carry out an almost automatic scanning of a documentary background, even heterogeneous, without the use of numerous and specialized personnel.

L'étape de traitement des documents numérisés comporte une étape (OCR) de reconnaissance optique des caractères de ce document afin de permettre la création du second fichier, ou fichier texte , à partir duquel une recherche pourra être ensuite effectuée. The step of processing the scanned documents comprises a step (OCR) of optical recognition of the characters of this document in order to allow the creation of the second file, or text file, from which a search can then be carried out.

Dans un mode de réalisation préférentiel, l'étape de création d'un intercalaire papier pour chaque document devant être numérisé peut comporter une étape d'édition d'un intercalaire de référence unique et non renseigné dit intercalaire neutre . Dans ce cas, l'étape de numérisation automatique comporte une étape de génération d'une fiche documentaire non renseignée. In a preferred embodiment, the step of creating a paper insert for each document to be scanned may include a step of editing a single and unspecified reference insert called a neutral insert. In this case, the automatic digitization step includes a step of generating an unspecified document sheet.

L'emploi de cet intercalaire neutre devant chaque document d'un fond permet alors la numérisation et le traitement complets de ce fonds sans aucune saisie préalable. The use of this neutral interlayer in front of each document of a background then allows the complete digitization and processing of this fund without any prior input.

Dans un second mode de réalisation, L'étape de création d'un intercalaire papier pour chaque document devant être numérisé peut être précédée par une étape de génération d'une fiche documentaire renseignée suite à la saisie par un opérateur de données déterminées caractéristiques de ce document et à partir de laquelle une recherche pourra ensuite être effectuée. Ces données proviennent alors d'une saisie manuelle ou directement de la récupération automatique de fichiers issus par exemple de tableurs ou de traitements de texte. In a second embodiment, the step of creating a paper insert for each document to be scanned can be preceded by a step of generating a document file filled in after input by a given operator of specific data characteristic of this document and from which a search can then be performed. This data then comes from manual input or directly from the automatic recovery of files from, for example, spreadsheets or word processors.

La présente invention concerne également un dispositif de numérisation et de recherche de documents en vue de la réalisation d'une banque de données interrogeable comportant:
- un premier ordinateur relié à une unité de numérisation et destiné à assurer la numérisation de documents, chaque document étant précédé d'un intercalaire,
- une imprimante reliée au premier ordinateur et destinée notamment à une édition des intercalaires,
- un second ordinateur relié au premier ordinateur par une liaison informatique et destiné à assurer un traitement des documents ainsi numénsés,
- une unité de stockage de grande capacité reliée au second ordinateur et destinée à emmagasiner à la fois les documents numérisés et les documents issus du traitement.
The present invention also relates to a device for scanning and searching for documents with a view to producing a searchable database comprising:
- a first computer connected to a scanning unit and intended to ensure the scanning of documents, each document being preceded by an interlayer,
- a printer connected to the first computer and intended in particular for editing dividers,
a second computer linked to the first computer by a computer link and intended to process the documents thus scanned,
- a large capacity storage unit connected to the second computer and intended to store both the scanned documents and the documents resulting from the processing.

Ainsi, en séparant les fonctions de numérisation et de traitement des documents qui sont exécutées au niveau de deux ordinateurs distincts, il est possible d'obtenir des cadences de traitement des documents particulièrement élevées sans commune mesure avec celles existant actuellement. Thus, by separating the scanning and document processing functions which are performed on two separate computers, it is possible to obtain particularly high document processing rates without commensurate with those existing today.

Avantageusement, la liaison informatique est effectuée au travers d'un réseau de communication, avantageusement de type Ethernet. Advantageously, the computer link is made through a communication network, advantageously of the Ethernet type.

De préférence, le second ordinateur comporte des moyens de reconnaissance optique de caractère (OCR) pour assurer le traitement des documents numérisés. Preferably, the second computer includes optical character recognition (OCR) means for processing the scanned documents.

Dans un mode de réalisation préférentiel, le premier ordinateur comporte des moyens pour générer une fiche documentaire renseignée suite à la saisie par un opérateur de données déterminées caractéristiques de ce document. In a preferred embodiment, the first computer comprises means for generating a documentary file filled in following the input by an operator of specific data characteristics of this document.

Dans un second mode de réalisation, il comporte des moyens pour générer une fiche documentaire non renseignée à partir de la numérisation par l'unité de numérisation d'un intercalaire de référence prédéterminé appelé intercalaire neutre .  In a second embodiment, it includes means for generating a document sheet which is not filled in from the digitization by the digitization unit of a predetermined reference interlayer called neutral interlayer.

Brève description des figures
D'autres caractéristiques et avantages de la présente invention ressortiront mieux de la description suivante, faite à titre indicatif et non limitatif, en regard des dessins annexés, sur lesquels: - la figure 1 montre un schéma de la configuration matérielle d'un dispositif de numérisation et de recherche de documents selon l'invention, - la figure 2 est un organigramme explicitant de façon simplifiée les différentes étapes de mise en oeuvre du dispositif de la figure 1.
Brief description of the figures
Other characteristics and advantages of the present invention will emerge more clearly from the following description, given by way of non-limiting illustration, with reference to the appended drawings, in which: - Figure 1 shows a diagram of the hardware configuration of a device for digitization and search for documents according to the invention, - Figure 2 is a flowchart explaining in a simplified way the different stages of implementation of the device of Figure 1.

Description détaillée d'un mode de réalisation préférentiel
Conformément à la figure 1, un dispositif de numérisation et de recherche est articulé autour d'un premier ordinateur 10, avantageusement de type personnel (PC), auquel sont reliées d'une part une unité de numérisation 12, par exemple un scanner de format A4-A3 recto/verso, et d'autre part une imprimante numérique à usage général 14, par exemple une imprimante laser. Selon l'invention, ce dispositif comporte en outre un second ordinateur 16 relié au premier ordinateur 10 et muni d'une unité de stockage de grande capacité 18, tel un disque optique numérique par exemple. Ce second ordinateur est de préférence une station de travail multitâches muni d'un écran graphique au format A3, comme les stations commercialisées par les sociétés américaines Sun ou Hewlett packard, et la liaison entre les deux ordinateurs est une liaison informatique classique (liaison coaxiale par exemple). Toutefois, cette liaison peut aussi avantageusement être effectuée au travers d'un réseau de communication, par exemple un réseau informatique de type Ethernet. L'ensemble des données stockées sont en outre sauvegardées automatiquement, de façon classique, par sauvegarde glissante quotidienne ou hebdomadaire au moyen de cassettes de type DAT (digital audio tape) 20. Une sauvegarde mensuelle intégrale est de préférence aussi prévue au moyen d'un jeu spécifique de ces cassettes DAT.
Detailed description of a preferred embodiment
In accordance with FIG. 1, a scanning and research device is articulated around a first computer 10, advantageously of the personal type (PC), to which are connected on the one hand a scanning unit 12, for example a format scanner A4-A3 front / back, and on the other hand a general purpose digital printer 14, for example a laser printer. According to the invention, this device further comprises a second computer 16 connected to the first computer 10 and provided with a large capacity storage unit 18, such as a digital optical disc for example. This second computer is preferably a multitasking workstation provided with a graphical screen in A3 format, like the stations marketed by the American companies Sun or Hewlett packard, and the link between the two computers is a conventional computer link (coaxial link by example). However, this connection can also advantageously be carried out through a communication network, for example a computer network of the Ethernet type. All of the stored data are also automatically backed up, in a conventional manner, by daily or weekly sliding backup using DAT (digital audio tape) type cassettes 20. A full monthly backup is preferably also provided by means of a specific set of these DAT cassettes.

Cette architecture particulière à deux ordinateurs indépendants permet de séparer la fonction de numérisation proprement dit de la fonction de traitement des documents numérisés. Ainsi, le traitement des documents destiné à en faciliter la recherche ultérieure peut être effectué en continue. This particular architecture with two independent computers makes it possible to separate the scanning function proper from the processing function of the scanned documents. Thus, the processing of documents intended to facilitate subsequent research can be carried out continuously.

En pratique, le temps pour numériser un document représentant environ le tiers du temps nécessaire à son traitement, il est possible d'obtenir un fonctionnement continu de l'installation, sur 24 heures, en ne procédant à des numérisations que pendant une durée de 8 heures correspondant précisément à une journée de travail commune. In practice, the time to digitize a document representing about a third of the time necessary for its processing, it is possible to obtain continuous operation of the installation, over 24 hours, by scanning only for a period of 8 hours corresponding precisely to a common working day.

Le processus de numérisation, traitement et recherche des documents numérisés selon l'invention est décrit en regard de la figure 2. Il repose au départ sur la réalisation d'un intercalaire papier particulier qui va précéder chaque document lors de sa numérisation et auquel correspond une fiche informatique documentaire spécifique (à chaque document correspond une fiche et une seule). L'ensemble des fiches documentaires est avantageusement stocké au niveau de l'unité de stockage 18. Un intercalaire est une feuille de format A4, avantageusement en couleur pour en faciliter le repérage, munie de mentions pré-imprimées et qui sont ou non renseignées selon le type d'intercalaire considéré. Ces mentions préimprimées comportent au minimum un champ relatif à un numéro séquentiel de fiche documentaire et le nom du champ suivant: référence du document numérisé . Les noms de champ: date de création du document , cote de classement ou encore titre du document peuvent aussi être ajoutés au titre de ces inscriptions minimales. The process of scanning, processing and searching for scanned documents according to the invention is described with reference to FIG. 2. It is based initially on the production of a particular paper interlayer which will precede each document during its scanning and to which corresponds a specific documentary IT file (each file corresponds to one file and only one). All of the documentary sheets are advantageously stored at the level of the storage unit 18. An interlayer is a sheet of A4 format, advantageously in color to facilitate location, provided with pre-printed information and which may or may not be indicated according to the type of interlayer considered. These pre-printed information include at least one field relating to a sequential document file number and the name of the following field: reference of the scanned document. Field names: document creation date, classification symbol or document title can also be added to the title of these minimum inscriptions.

Le dispositif selon l'invention distingue principalement deux types d'intercalaire. Sur le premier type d'intercalaire appelé intercalaire neutre , le numéro séquentiel de fiche documentaire est égal à zéro et les différents champs ne sont pas renseignés. Eventuellement, l'indication fiche neutre > ) peut être inscrite dans le champ référence du document après le nom de ce champ. Au contraire, sur le second type d'intercalaire, le champ référence du document est obligatoirement renseigné, de même, si nécessaire, que les autres champs précités. En outre, avec ce second type d'intercalaire, la fiche documentaire comporte des noms de champs complémentaires, qui peuvent ou non également être renseignés, comme par exemple les noms suivants (sans bien entendu que le nombre de ces champs ou leur appellation soit limitatifs) : Numéro du document , Programme , Etablissement , Auteur , Résumé , Nombre de pages , Mots-clés , Numéro de bordereau d'expédition , Date du bordereau d'expédition , Numéro d'enregistrement , Date d'enregistrement , Classification , Numéro d'exemplaire reçu , Date de destruction de document . On notera, qu'avec ce type d'intercalaire, le numéro séquentiel de fiche documentaire est différent pour chaque intercalaire.  The device according to the invention mainly distinguishes two types of interlayer. On the first type of interlayer called neutral interlayer, the sequential number of the document sheet is equal to zero and the various fields are not completed. Optionally, the indication neutral card>) can be entered in the document reference field after the name of this field. On the contrary, on the second type of tab, the document reference field must be completed, as well, if necessary, as the other fields mentioned above. In addition, with this second type of interlayer, the documentary sheet includes names of complementary fields, which may or may not also be filled in, such as for example the following names (without of course that the number of these fields or their name is limiting ): Document number, Program, Establishment, Author, Summary, Number of pages, Keywords, Waybill number, Waybill date, Registration number, Date of registration, Classification, Number d 'copy received, Date of destruction of document. Note that with this type of tab, the sequential document sheet number is different for each tab.

L'impression des intercalaires est effectuée par l'imprimante 14 du premier ordinateur. L'impression des intercalaires de références, intercalaires neutres , qui sont tous identiques peut être réalisée à la demande par un opérateur (qui ne dispose d'aucune spécialisation particulière), à l'unité ou de préférence en grand nombre (par exemple correspondant à une journée de numérisation). Lors de la numérisation d'un document précédé de cet intercalaire neutre , il est créé automatiquement une fiche documentaire vide, c'est à dire non renseignée. Toutefois, il est à noter que cette fiche initialement vide peut ensuite être complétée manuellement par le procédé de saisie manuelle qui sera décrit plus avant. The printing of the dividers is carried out by the printer 14 of the first computer. The printing of reference dividers, neutral dividers, which are all identical can be carried out on request by an operator (who has no particular specialization), individually or preferably in large numbers (for example corresponding to a day of digitization). When scanning a document preceded by this neutral tab, an empty document sheet is created, that is to say not filled in. However, it should be noted that this initially empty form can then be completed manually by the manual entry process which will be described later.

Dans une variante, il est envisagé de créer directement un intercalaire renseigné à partir d'un traitement de texte, la numérisation du document associé à cet intercalaire permettant alors la création automatique de la fiche documentaire correspondante. In a variant, it is envisaged to directly create an informed part from a word processor, the scanning of the document associated with this part then allowing the automatic creation of the corresponding document file.

L'impression des intercalaires autres que les intercalaires de référence ou les intercalaires prérenseignés est obtenue également par cette imprimante 14 mais à l'issue de plusieurs procédés de saisie distincts. The printing of the dividers other than the reference dividers or the pre-filled dividers is also obtained by this printer 14 but at the end of several distinct input methods.

Un premier procédé, qualifié de saisie manuelle , consiste à faire apparaître à l'écran du premier ordinateur 10, par le biais d'un menu prédéterminé, une fiche documentaire qui reprend l'ensemble des noms de champs prédéfinis. L'opérateur n'a plus alors qu'à remplir ces différents champs avec les informations correspondantes du document dont il souhaite effectuer la numérisation. Une fois la saisie terminée, la fiche ainsi renseignée est stockée directement dans l'unité de stockage 18. L'édition immédiate de cette fiche par l'imprimante pour la réalisation de l'intercalaire correspondant peut alors être effectuée (mais des éditions multiples de plusieurs fiches saisies successivement peuvent aussi être envisagées). L'intercalaire reprend les seules données nécessaires préalablement saisies par l'opérateur et porte en outre un numéro séquentiel de numérisation déterminé et unique, chaque nouvelle création d'une fiche documentaire entraînant une incrémentation (y compris à partir d'un intercalaire neutre ) d'une unité de ce numéro. A first method, qualified as manual entry, consists in making the document computer appear on the screen of the first computer 10, by means of a predetermined menu, which includes all of the names of predefined fields. The operator then only has to fill in these different fields with the corresponding information of the document which he wishes to scan. Once the entry is complete, the file thus filled is stored directly in the storage unit 18. The immediate edition of this file by the printer for the production of the corresponding interlayer can then be carried out (but multiple editions of several files entered successively can also be envisaged). The tab contains the only necessary data previously entered by the operator and also carries a determined and unique sequential digitization number, each new creation of a document file leading to an incrementation (including from a neutral tab) 'a unit of this number.

Un second procédé, qui peut être qualifié de saisie automatique , consiste à générer les fiches documentaires à partir de données issues de fichiers de traitements de texte ou de tableurs (comme les progiciels Word ou Excel de la société Microsoft Corporation). Pour cela, le premier ordinateur comporte des moyens logiciels permettant au moins de récupérer directement des tableaux Exel, Word ou de tout autre progiciel du commerce équivalent. Ces données permettront de renseigner tout ou partie des fiches documentaires. L'impression des intercalaires correspondants est alors avantageusement effectuée par lot à l'issue de chaque saisie, chaque intercalaire ayant bien entendu un numéro de fiche documentaire différent. A second method, which can be qualified as automatic data entry, consists of generating document files from data from word processing files or spreadsheets (such as Word or Excel software packages from Microsoft Corporation). For this, the first computer includes software means allowing at least to directly recover Exel, Word or any other equivalent commercial software package. This data will be used to complete all or part of the documentary sheets. The printing of the corresponding dividers is then advantageously carried out in batches at the end of each entry, each divider of course having a different document file number.

On aura compris que l'opération de réalisation de ces intercalaires précède la numérisation des documents. Cette numérisation est effectuée avantageusement par lots (un lot peut par exemple comporter environ 1000 pages) de plusieurs documents, chaque document étant séparé par l'intercalaire correspondant. Comme il a été dit précédemment, cette numérisation peut être effectuée sans interruption pendant une journée normale de travail de 8 heures et l'interaction de l'opérateur avec le dispositif est réduite au minimum. Bien entendu, l'ordinateur 10 comporte des moyens logiciels qui permettent d'arrêter automatiquement la numérisation en cas d'incident technique (coupure de l'alimentation ou bourrage papier par exemple) et permettent à l'opérateur de reprendre cette numérisation à l'endroit précis de l'interruption (notamment en lui indiquant le prochain document à numériser). Il doit être noté que cet arrêt peut aussi être le fait de l'opérateur. Chaque document numérisé est emmagasiné au niveau de l'unité de stockage 18 dans un fichier image (images bitmap) auquel est associée la fiche documentaire correspondante. It will be understood that the operation of producing these dividers precedes the digitization of the documents. This digitization is advantageously carried out in batches (a batch can for example comprise around 1000 pages) of several documents, each document being separated by the corresponding interlayer. As mentioned above, this scanning can be done without interruption during a normal 8-hour working day and operator interaction with the device is minimized. Of course, the computer 10 includes software means which make it possible to automatically stop scanning in the event of a technical incident (power cut or paper jam for example) and allow the operator to resume this scanning at precise location of the interruption (in particular by indicating the next document to be scanned). It should be noted that this stop may also be the result of the operator. Each scanned document is stored at the storage unit 18 in an image file (bitmap images) with which the corresponding documentary file is associated.

Une fois la numérisation effectuée, les opérations de traitement sont automatiquement mises en oeuvre dès que le second ordinateur 16 est disponible. Tout d'abord et si nécessaire un redressement des pages mal positionnées est mis en oeuvre. Ensuite, lorsqu'elles existent, les pages blanches et les documents ayant déjà fait l'objet d'une numérisation sont éliminés (par vérification de la fiche documentaire du document correspondant). Les documents numérisés sont alors prêts pour une analyse informatique de leur contenu. Celle-ci implique tout d'abord une opération de segmentation qui consiste à séparer les données alphanumériques des données graphiques. Puis, une reconnaissance des données alphanumériques, afin de produire un fichier texte à partir de ces données, est réalisée par un logiciel de reconnaissance optique de caractère (OCR). Lorsque cette reconnaissance s avère impossible, il est procédé à une rotation de la page numérisée qui peut aller jusqu'à son retournement en cas de numérisation à ltenvers. Avantageusement, un procédé basé sur trois reconnaissances successives et un système décisionnel de choix du meilleur résultat (en terme de pourcentage de caractères reconnus) est mis en oeuvre. Once the scanning has been carried out, the processing operations are automatically implemented as soon as the second computer 16 is available. First of all and if necessary, a rectification of the badly positioned pages is implemented. Then, when they exist, the blank pages and documents that have already been scanned are eliminated (by checking the document file of the corresponding document). The scanned documents are then ready for a computer analysis of their content. This first involves a segmentation operation which consists in separating the alphanumeric data from the graphic data. Then, a recognition of the alphanumeric data, in order to produce a text file from this data, is carried out by an optical character recognition software (OCR). When this recognition proves to be impossible, the scanned page is rotated, which can go as far as being flipped in the event of scanning in reverse. Advantageously, a method based on three successive recognitions and a decision system for choosing the best result (in terms of percentage of recognized characters) is implemented.

Le texte reconnu peut ensuite éventuellement être remis en forme, voire compléter (par exemple par l'adjonction de mots-clés) pour en faciliter la consultation ultérieure. Les données graphiques sont quant à elles gardées en l'état sur leur forme image ou peuvent être vectorisées au moyen de logiciels spécialisés connus en soi sous la forme d'un fichier vecteur . De plus, le second ordinateur 16 comporte des moyens logiciels qui permettent d'effectuer des statistiques sur les différentes opérations réalisées par le dispositif selon l'invention. Ainsi, il est possible de disposer notamment et par exemple du nombre total de pages numérisées, du nombre de fiches documentaires créées, du nombre de documents traités par OCR, etc. Ces différentes informations peuvent faire l'objet d'un journal de bord qui peut par exemple être édité au début de chaque journée de numérisation pour contrôler le traitement de la veille.The recognized text can then possibly be reformatted, or even supplement (for example by adding keywords) to facilitate its later consultation. Graphic data are kept as is in their image form or can be vectorized using specialized software known per se in the form of a vector file. In addition, the second computer 16 includes software means which make it possible to perform statistics on the various operations carried out by the device according to the invention. Thus, it is possible in particular to have, for example, the total number of pages scanned, the number of document files created, the number of documents processed by OCR, etc. This various information can be the subject of a logbook which can, for example, be edited at the start of each scanning day to check the processing of the previous day.

Une fois le traitement des documents numérisés réalisé, chaque document se trouve associé à un fichier image , un fichier texte et une fiche documentaire stockés au niveau des moyens de stockage du second ordinateur et la consultation de ces documents en vue d'une recherche particulière devient alors possible. Cette recherche est effectuée sur la base d'une requête adressée au dispositif par l'opérateur à partir du premier ordinateur 10 (elle n'est alors possible que hors des phases de numérisation) ou bien du second ordinateur 16. Dans ce dernier cas, du fait de sa configuration multitâches, la recherche peut être effectuée même pendant les phases de traitement des documents numérisés. Once the processing of the scanned documents has been carried out, each document is associated with an image file, a text file and a document file stored at the storage means of the second computer and the consultation of these documents for a specific search becomes then possible. This search is carried out on the basis of a request addressed to the device by the operator from the first computer 10 (it is then only possible outside of the digitization phases) or else from the second computer 16. In the latter case, due to its multitasking configuration, the search can be carried out even during the processing phases of the scanned documents.

La recherche peut être effectuée selon différents modes en fonction de la nature de la requête. Dans un premier mode (mode plein texte), elle est basée sur une recherche exacte de mots, ou combinaison booléenne de mots, issus des fichiers textes des documents numérisés. Cette recherche s'effectue classiquement sur la totalité du document à partir des mots signifiants de la requête. Dans un second mode (mode plein texte évolué), la consultation repose également sur une recherche dans la totalité du fichier texte, mais elle n'est plus limitée aux seuls mots, ou combinaison de mots, correspondant exactement aux mots signifiants de la requête. En effet, elle peut prendre en compte des erreurs d'orthographe ou de typiste ayant affectées le document numérisé et s'étend donc également à des mots proches . Cette recherche permet de compenser les imperfections liées à la reconnaissance ainsi que celles résultant de l'énoncé de la requête. Enfin, dans un troisième mode (mode ligne), la consultation n'est effectuée qu'à partir du contenu des champs renseignés des fiches documentaires, par mots ou combinaison booléenne de mots. The search can be performed in different modes depending on the nature of the request. In a first mode (full text mode), it is based on an exact search for words, or Boolean combination of words, from the text files of the scanned documents. This search is conventionally carried out on the entire document using the words which signify the request. In a second mode (advanced full text mode), the consultation is also based on a search in the entire text file, but it is no longer limited to only words, or combinations of words, corresponding exactly to the significant words of the request. Indeed, it can take into account spelling or typist errors that affected the scanned document and therefore also extends to close words. This research makes it possible to compensate for the imperfections linked to recognition as well as those resulting from the statement of the request. Finally, in a third mode (line mode), the consultation is only carried out from the content of the fields filled in the document sheets, by words or Boolean combination of words.

A l'issue de la recherche, les documents retrouvés sont affichés en liste au niveau de l'écran de visualisation des premier ou second ordinateur selon leur degré de pertinence (en fonction du nombre d'apparition et de l'emplacement des mots signifiants par exemple). La consultation et si nécessaire l'impression (par l'imprimante 14) du ou des documents sélectionnés est alors possible. On notera que le document consulté est alors le fichier image ) > dans le but de s'affranchir des éventuelles imperfections de l'OCR. De préférence, cette consultation fera apparaître les différentes occurrences de recherche pour en vérifier la pertinence. At the end of the search, the documents found are displayed in a list on the display screen of the first or second computer according to their degree of relevance (depending on the number of appearance and the location of the words signifying example). Consultation and if necessary printing (by printer 14) of the selected document or documents is then possible. It will be noted that the document consulted is then the image file)> in order to overcome any possible imperfections of the OCR. Preferably, this consultation will reveal the various search occurrences to check their relevance.

Une configuration prototype a été développée autour d'une station de la société SUN, d'un ordinateur personnel de la société COMPAQ et d'un scanner A4/A3 de la société FUJITSU. Elle a permis la numérisation et le traitement par un seul opérateur non diplômé (agent d'atelier) de 20000 pages en moyenne par semaine (avec un maximum de 35000 pages), soit dès à présent, la numérisation complète d'un fonds documentaire de 320 000 pages de documents en quatre mois. L'objectif initial de numérisation de 1 000 000 pages de documents en une année est dors et déjà atteint. Cela résulte essentiellement du fait que avec l'utilisation des "intercalaires neutres", la numérisation de ces pages peut être effectuée totalement sans aucune saisie de données. Les seules interventions de l'opérateur se limitent alors à la séparation de chacun des documents à numériser par un intercalaire neutre et l'introduction de l'ensemble ainsi formé dans l'unité de numérisation.  A prototype configuration was developed around a station from SUN, a personal computer from COMPAQ and an A4 / A3 scanner from FUJITSU. It enabled the digitization and processing by a single non-qualified operator (workshop agent) of 20,000 pages on average per week (with a maximum of 35,000 pages), i.e. as of now, the complete digitization of a documentary collection of 320,000 pages of documents in four months. The initial objective of scanning 1,000,000 pages of documents in one year has already been achieved. This is mainly due to the fact that with the use of "neutral dividers", the scanning of these pages can be carried out completely without any data entry. The operator's only interventions are then limited to the separation of each of the documents to be scanned by a neutral interlayer and the introduction of the assembly thus formed into the scanning unit.

Claims (11)

REVENDICATIONS 1. Procédé de numérisation et de recherche de documents en vue de la réalisation d'une banque de donnée interrogeable, caractérisé en ce qu'il comporte les étapes suivantes - création pour chacun des documents d'un ensemble de documents à numériser d'un intercalaire papier comportant des mentions pré-imprimées et destiné à être placé devant le document correspondant, - numérisation automatique de cet ensemble de documents au niveau d'un premier ordinateur (10) muni d'une unité de numérisation (12), - stockage au niveau d'une unité de stockage de grande capacité (18) d'un premier fichier ( fichier image ) contenant l'image des documents numérisés, - traitement informatique de chacun des documents ainsi numérisés au niveau d'un second ordinateur (16) et création d'un second fichier issu de ce traitement, et - stockage au niveau de l'unité de stockage de grande capacité (18) de ce second fichier. 1. Method for scanning and searching for documents with a view to producing a searchable data bank, characterized in that it comprises the following steps - creation of a set of documents to be scanned for each of the documents paper interlayer comprising pre-printed information and intended to be placed in front of the corresponding document, - automatic scanning of this set of documents at a first computer (10) provided with a scanning unit (12), - storage at level of a large capacity storage unit (18) of a first file (image file) containing the image of the scanned documents, - computer processing of each of the documents thus scanned at a second computer (16) and creation of a second file resulting from this processing, and - storage at the level of the large capacity storage unit (18) of this second file. 2. Procédé selon la revendication 1, caractérisé en ce que l'étape de traitement des documents numérisés comporte une étape (OCR) de reconnaissance optique des caractères de ce document afin de permettre la création du second fichier, ou fichier texte , à partir duquel une recherche pourra être ensuite effectuée. 2. Method according to claim 1, characterized in that the step of processing the scanned documents comprises a step (OCR) of optical recognition of the characters of this document in order to allow the creation of the second file, or text file, from which a search can then be carried out. 3. Procédé selon la revendication 1, caractérisé en ce que l'étape de création d'un intercalaire papier pour chaque document devant être numérisé comporte une étape d'édition d'un intercalaire de référence unique et non renseigné dit intercalaire neutre .  3. Method according to claim 1, characterized in that the step of creating a paper insert for each document to be scanned comprises a step of editing a unique and unspecified reference insert called neutral insert. 4. Procédé selon la revendication 3, caractérisé en ce que l'étape de numérisation automatique comporte une étape de génération d'une fiche documentaire non renseignée. 4. Method according to claim 3, characterized in that the automatic digitization step comprises a step of generating an unspecified document sheet. 5. Procédé selon la revendication 1, caractérisé en ce que l'étape de création d'un intercalaire papier pour chaque document devant être numérisé est précédée par une étape de génération d'une fiche documentaire renseignée suite à la saisie par un opérateur de données déterminées caractéristiques de ce document et à partir de laquelle une recherche pourra ensuite être effectuée. 5. Method according to claim 1, characterized in that the step of creating a paper insert for each document to be scanned is preceded by a step of generating a document file filled in after input by a data operator determined characteristics of this document and from which a search can then be carried out. 6. Procédé selon la revendication 5, caractérisé en ce que lesdites données proviennent directement de la récupération automatique de fichiers issus par exemple de tableurs ou de traitements de texte. 6. Method according to claim 5, characterized in that said data come directly from the automatic recovery of files originating for example from spreadsheets or word processors. 7. Dispositif de numérisation et de recherche de documents en vue de la réalisation d'une banque de données interrogeable, caractérisé en ce qu'il comporte: 7. Device for scanning and searching for documents with a view to producing a searchable database, characterized in that it comprises: - un premier ordinateur (10) relié à une unité de numérisation (12) et destiné à assurer la numérisation de documents, chaque document étant précédé d'un intercalaire, a first computer (10) connected to a scanning unit (12) and intended to ensure the scanning of documents, each document being preceded by an interlayer, - une imprimante (14) reliée au premier ordinateur et destinée notamment à une édition des intercalaires, - a printer (14) connected to the first computer and intended in particular for editing dividers, -un second ordinateur (16) relié au premier ordinateur par une liaison informatique et destiné à assurer un traitement des documents ainsi numérisées,  a second computer (16) connected to the first computer by a computer link and intended to ensure processing of the documents thus scanned, - une unité de stockage de grande capacité (18) reliée au second ordinateur et destinée à emmagasiner à la fois les documents numérisés et les documents issus du traitement. - a large capacity storage unit (18) connected to the second computer and intended to store both the scanned documents and the documents resulting from the processing. 8. Dispositif selon la revendication 7, caractérisé en ce que ladite liaison informatique est effectuée au travers d'un réseau de communication, avantageusement de type Ethernet. 8. Device according to claim 7, characterized in that said computer link is made through a communication network, advantageously of the Ethernet type. 9. Dispositif selon la revendication 7 ou la revendication 8, caractérisé en ce que ledit second ordinateur comporte des moyens (16) de reconnaissance optique de caractère (OCR) pour assurer le traitement des documents numérisés. 9. Device according to claim 7 or claim 8, characterized in that said second computer comprises means (16) of optical character recognition (OCR) for processing the scanned documents. 10. Dispositif selon la revendication 7 ou la revendication 8, caractérisé en ce que ledit premier ordinateur comporte des moyens (10) pour générer une fiche documentaire renseignée suite à la saisie par un opérateur de données déterminées caractéristiques de ce document. 10. Device according to claim 7 or claim 8, characterized in that said first computer comprises means (10) for generating a documentary file filled in after the input by an operator of specific data characteristics of this document. 11. Dispositif selon la revendication 7 ou la revendication 8, caractérisé en ce que ledit premier ordinateur comporte des moyens (10) pour générer une fiche documentaire non renseignée à partir de la numérisation par l'unité de numérisation d'un intercalaire de référence prédéterminé appelé intercalaire neutre .  11. Device according to claim 7 or claim 8, characterized in that said first computer comprises means (10) for generating a document sheet not informed from the scanning by the scanning unit of a predetermined reference interlayer called neutral interlayer.
FR9711748A 1997-09-22 1997-09-22 DEVICE FOR DIGITIZING AND SEARCHING DOCUMENTS Expired - Fee Related FR2768825B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR9711748A FR2768825B1 (en) 1997-09-22 1997-09-22 DEVICE FOR DIGITIZING AND SEARCHING DOCUMENTS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9711748A FR2768825B1 (en) 1997-09-22 1997-09-22 DEVICE FOR DIGITIZING AND SEARCHING DOCUMENTS

Publications (2)

Publication Number Publication Date
FR2768825A1 true FR2768825A1 (en) 1999-03-26
FR2768825B1 FR2768825B1 (en) 2001-01-26

Family

ID=9511317

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9711748A Expired - Fee Related FR2768825B1 (en) 1997-09-22 1997-09-22 DEVICE FOR DIGITIZING AND SEARCHING DOCUMENTS

Country Status (1)

Country Link
FR (1) FR2768825B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002017166A2 (en) * 2000-08-24 2002-02-28 Olive Software Inc. System and method for automatic preparation and searching of scanned documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0251237A2 (en) * 1986-06-30 1988-01-07 Wang Laboratories Inc. Digital imaging file processing system
US5129016A (en) * 1986-05-16 1992-07-07 Hitachi, Ltd. System for registration of documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5129016A (en) * 1986-05-16 1992-07-07 Hitachi, Ltd. System for registration of documents
EP0251237A2 (en) * 1986-06-30 1988-01-07 Wang Laboratories Inc. Digital imaging file processing system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PELLETIER, FRANCIS: "Introduction à la GED / GEIDE", LE GUIDE: GESTION ELECTRONIQUE DE DOCUMENTS & D'INFORMATIONS, 18 February 1997 (1997-02-18), pages 5 - 28, XP002067145 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002017166A2 (en) * 2000-08-24 2002-02-28 Olive Software Inc. System and method for automatic preparation and searching of scanned documents
WO2002017166A3 (en) * 2000-08-24 2002-06-13 Olive Software Inc System and method for automatic preparation and searching of scanned documents

Also Published As

Publication number Publication date
FR2768825B1 (en) 2001-01-26

Similar Documents

Publication Publication Date Title
EP0928641B1 (en) Device for assisting mail sorting by hand
EP0533544A1 (en) Method and apparatus for processing graphic and alphanumeric data for constituting a database
US6775422B1 (en) Systems, processes, and products for storage and retrieval of physical paper documents, electro-optically generated electronic documents, and computer generated electronic documents
US8194274B2 (en) Apparatus and method for automated capture of document metadata and document imaging
US7965408B2 (en) Medical data recording system
DE19542842A1 (en) Electronic image storage and retrieval system for checks and the like
EP1733324A1 (en) Method for finding data, research engine and microprocessor therefor
EP1074397B1 (en) Automatic system to prepare a booklet on demand
JP2008271534A (en) Content-based accounting method implemented in image reproduction devices
WO2001088749A1 (en) Method for constituting a database concerning data contained in a document
EP0880748A1 (en) Method for operating a data communication management computer, and method for drawing up forms
FR2768825A1 (en) Document digitization,
Arlitsch et al. Microfilm, paper, and OCR: Issues in newspaper digitization. the Utah digital newspapers program
WO2006125831A1 (en) Devices and methods allowing a user to manage a plurality of objects in particular paper documents
US20070276886A1 (en) Method of and apparatus for backing up data and method of and apparatus for restoring data in data management system
EP0446149A1 (en) Automatic archiveing method of documents in a digital way
WO2018115688A1 (en) Method of editing an electronic message with elimination of redundant elements
FR2923645A1 (en) DATA RECORDING METHOD FOR LONG-TERM READING OF THESE DATA
EP0718785A1 (en) Method for storing and arranging data on a WORM compact optical disc
EP2131297A1 (en) Method and apparatus for digitilisation
WO2006000660A2 (en) Dynamic method for automatically putting on-line extracts from paper document holdings
WO2011113829A1 (en) Multi-dimensional methods for registering and searching for documents
FR2837011A1 (en) METHOD FOR AUTOMATIC READING OF A DOCUMENT ON WHICH A PRE-PRINTED LABEL TO BE COMPLETED, CORRESPONDING LABEL, SYSTEM AND ACCOUNTING METHOD
Ventress et al. The Banks Papers on CD-ROM Project at the State Library of New South Wales 1993-1996
FR2765008A1 (en) Processing and storage of accounting documents

Legal Events

Date Code Title Description
ST Notification of lapse