DE60120810T2

DE60120810T2 - Verfahren zur Dokumenterkennung und -indexierung

Info

Publication number: DE60120810T2
Application number: DE60120810T
Authority: DE
Inventors: Stephane Berche; Laurent Najman
Original assignee: Oce Industries SA
Current assignee: Oce Print Logic Technologies SA
Priority date: 2000-03-22
Filing date: 2001-03-09
Publication date: 2006-12-07
Anticipated expiration: 2021-03-10
Also published as: DE60120810D1; JP2001312500A; FR2806814B1; EP1136938A1; US7319799B2; JP4873787B2; US20010033690A1; EP1136938B1; FR2806814A1

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft das wissenschaftliche Fachgebiet des Erkennens und Indizierens von Dokumenten in einer Datenbank. Sie stellt insbesondere eine Vorrichtung und ein entsprechendes Verfahren zur Verfügung, welche es ermöglichen, technische Zeichnungen und Formulare durch Erkennen lediglich einiger ihrer Elemente zu indizieren.
Stand der Technik
Es gibt viele Verfahren zum Erkennen von Dokumenten, die wohlbekannt sind. Sie verwenden einen anfänglichen Scan-Schritt, gefolgt von einem Segmentierungsschritt, wiederum gefolgt von einem Schritt der optischen Zeichenerkennung (OCR, "optical character recognition"). Der Segmentierungsschritt (Unterteilen des Dokuments) kann auf das ganze Dokument (eine herkömmliche "ganze Seite" ("full page")) oder nur auf einen Teil des Dokuments angewandt werden.
Dennoch kann ein solches herkömmliches Verfahren, welches es ermöglicht, das Dokument nachfolgend automatisch zu indizieren, nur ins Auge gefaßt werden, wenn das zu erkennende Dokument nicht zu komplex ist. Es wird außerdem nicht auf technische Zeichnungen angewandt. Auf diesem speziellen Gebiet wird nur der anfängliche Schritt des Scannens durchgeführt, wobei die Schritte der Segmentierung und Erkennung durch einen Schritt ersetzt werden, der direkt von einem Bediener durchgeführt wird und darin besteht, manuell die zum Indizieren der Zeichnung benötigten speziellen Elemente aus einem oder mehreren Bereichen der Zeichnung einzugeben (die in der Praxis im Titelblock der Zeichnung vorliegen).
US 5 966 473 auf den Namen der IBM offenbart ein Verfahren zum automatischen Erkennen, mit nur einem Mausklick, von Positionsinformationen eines vierseitigen Objekts, das in einem Eingabebitmapbild enthalten ist. Offenbart ist die Verwendung dieses Verfahrens zum Entwerfen von OCR-Formularen.
Gegenstand und Definition der Erfindung
Die Erfindung schlägt also vor, diese Aufgabe auf eine einfache und preiswerte Weise zu lösen durch Implementieren eines Verfahrens des Erkennens und Indizierens von Dokumenten, welches Verfahren darin besteht, einen mit einem Computer verbundenen Scanner zu verwenden, um zuerst die Dokumente abzutasten, und dann ein Zeigeelement des Computers zu verwenden, um einen willkürlichen Punkt P in wenigstens einem Kasten der Dokumente zu bestimmen, und schließlich mittels OCR die Zeichen in besagtem Kasten zu erkennen, um sie in einer ersten, mit dem Computer verbundenen Datenbank zu speichern, um zu ermöglichen, auf diese Weise abgetastete Dokumente zu indizieren. Der Bestimmungsschritt umfaßt einen Schritt des Suchens nach und Identifizierens des Kastens des Dokuments, der den besagten, vom Benutzer bestimmten Punkt P enthält.
Folglich beschränkt sich mit dem Verfahren der Erfindung die frühere manuelle Eingabe auf das Bestimmen festgelegter Bereiche (die als "Kästen" bezeichnet werden), in denen eine automatische Erkennung von den für das Indizieren eines ersten Dokuments derselben Art notwendigen Elementen verfügbar ist. Die zu erkennenden und zu indizierenden Dokumente können durch einen Satz technischer Zeichnungen oder Formulare gebildet werden, und sie können optional von verschiedener Art sein.
Der Schritt des Suchens nach und Identifizierens des besagten Kastens wird durchgeführt, indem ein Formsuchalgorithmus über einen festgelegten Bereich angewandt wird, der den Punkt P umgibt, wie er zuvor vom Benutzer bestimmt wurde. Dieser Formsuchalgorithmus kann ein Algorithmus sein, der auf der Hough-Transformation basiert, oder kann ein Projektionsalgorithmus sein, der die Anzahl der in jeder vertikalen oder horizontalen Linie des besagten festgelegten Suchbereichs vorhandenen Pixel zählt und auf der Basis dieser Anzahlen Peaks in X- und Y-Projektionsprofilen untersucht, um die in dem Suchbereich vorhandenen horizontalen und vertikalen Linien zu finden.
Somit kann durch Begrenzung der Fläche, auf die der Algorithmus angewandt wird, dessen Ausführungsgeschwindigkeit beträchtlich erhöht werden, während die Anzahl der zum Erkennen eines Kastens des Dokuments benötigten Iterationen begrenzt wird.
Der Scan-Schritt wird vorzugsweise anfänglich durchgeführt für alle zu verarbeitenden Dokumente, wobei die besagten Schritte des Identifizierens des Kastens und der Anwendung von OCR auf seinen Inhalt nachfolgend aufeinanderfolgend für jedes der Dokumente durchgeführt werden. Nichtsdestotrotz könnte der Scan-Schritt ebenso gut anfänglich für ein erstes Dokument durchgeführt werden, wobei die besagten Schritte des Identifizierens des Kastens und des Anwendens von OCR auf dessen Inhalt dann für dasselbe Dokument durchgeführt werden, und wobei diese drei Schritte dann aufeinanderfolgend für alle der zu verarbeitenden Dokumente wiederholt werden.
Die Erfindung umfaßt auch eine zweite, mit dem Computer verbundene Datenbank zum Speichern von Daten (die als Charakterisierungsdaten bezeichnet werden), welche es ermöglichen, nachfolgend den Kasten automatisch zu identifizieren, ohne daß irgendein willkürlicher Punkt P des Kastens zuvor bestimmt wird.
Die Datenbanken können im Speicher des Computer integriert sein, oder sie können extern zu diesem sein. Das Zeigeelement kann durch die Tastatur des Computers oder durch den Finger des Benutzers ersetzt werden.
Kurze Beschreibung der Zeichnungen
Andere Merkmale und Vorteile der vorliegenden Erfindung werden sich besser beim Lesen der folgenden Beschreibung zeigen, die als nicht einschränkende Angabe und unter Bezug auf die begleitenden Zeichnungen gegeben wird, von denen:
1 ein Beispiel einer technischen Zeichnung zeigt;
2 ein Beispiel des Informationsblocks in einer Zeichnung von der Art wie in 1 gezeigt darstellt;
3 die allgemeine Struktur der Hardware einer Vorrichtung zum erfindungsgemäßen Erkennen und Indizieren von Dokumenten zeigt;
4 ein Flußdiagramm ist, das den Betriebsablauf der Vorrichtung aus 3 beim Erkennen und Indizieren der Zeichnung von 1 erläutert;
5 ein Flußdiagramm ist, das mehr Einzelheiten der Funktion zum Suchen und Identifizieren eines Kastens in dem Block aus 2 zeigt;
6A einen ersten Suchbereich zeigt, der einen Teil des zu identifizierenden Kastens beinhaltet;
6B und 6C aus dem Suchbereich von 6A erhaltene Projektionsprofile sind;
7A einen zweiten Suchbereich zeigt, der einen größeren Teil des zu identifizierenden Kastens beinhaltet;
7B und 7C aus dem Suchbereich von 7A erhaltene Projektionsprofile sind;
8A einen dritten Suchbereich zeigt, der den zu identifizierenden Kasten vollständig enthält; und
8B und 8C aus dem Suchbereich von 8A erhaltene Projektionsprofile sind.
Ausführliche Beschreibung einer bevorzugten Ausführungsform
Wie in den 1 und 2 gezeigt, enthält eine technische oder industrielle Zeichnung wie das Blatt 10 im wesentlichen die Zeichnung 12 selbst und einen Informationsblock 14, der aus einer Vielzahl von rechteckigen Kästen verschiedener Größen besteht.
Die meisten dieser Kästen enthalten bestimmte Angaben, die nicht alle gleich geeignet zum Indizieren einer technischen Zeichnung sind. Dies trifft beispielsweise auf die Angabe zu, die die Projektion, den Maßstab oder das Format der Zeichnung angibt. Angaben, die zur Indizierung wichtig sind, umfassen im allgemeinen wenigstens einen ersten Kasten 16, der eine die Zeichnung identifizierende Nummer enthält, einen zweiten Kasten 18, der den Titel der Zeichnung enthält, und einen dritten Kasten 20, der angibt, wer die Zeichnung erstellt hat. Natürlich sollen diese drei Angaben nicht in irgendeiner Weise als einschränkend aufgefaßt werden, und es ist in gleicher Weise möglich, ins Auge zu fassen, auch dem in einem vierten Kasten 22 zur Verfügung gestellten Datum ihrer letzten Aktualisierung oder ihrer Seitenzahl, die in einem fünften Kasten 24 zu finden ist, Rechnung zu tragen.
3 zeigt eine Mindest-Hardwarearchitektur, die von einem Computersystem benötigt wird, um es in die Lage zu versetzen, das Verfahren der Erfindung zum Erkennen und Indizieren von Dokumenten der in 1 gezeigten Art durchzuführen.
Dieses Computersystem umfaßt zunächst einen Digitalisierer oder Scanner 30 zum Scannen von Dokumenten (insbesondere Zeichnungsblättern), die nachfolgend zu indizieren sind. Der Scanner ist mit einem Computer oder Mikrocomputer herkömmlicher Art 32 verbunden, der mit herkömmlichen Softwaremitteln 100 für Scanzwecke ausgestattet ist. Eine ebenfalls mit dem Computer 32 verbundene erste Datenbank 34 dient dazu, auf diese Weise abgetastete Dokumente zu speichern. Es ist zu bemerken, daß, abhängig von der internen Speicherkapazität des Computers und dem Volumen der den abzutastenden Dokumenten entsprechenden Daten, diese erste Datenbank 34 entweder, wie dargestellt, extern oder direkt intern innerhalb des Computers aufgenommen sein kann. Der Computer enthält natürlich Softwaremittel 110 zum Steuern dieser ersten Datenbank (sie zu erstellen, abzufragen und sie zu modifizieren).
Um Dokumente in der ersten Datenbank 34 zu indizieren, ist es vorgesehen, daß der Computer 32 auch OCR-Softwaremittel 120 herkömmlicher Art zum Erkennen und Identifizieren bestimmter spezieller Elemente dieser Dokumente aufweist. Nichtsdestotrotz werden diese OCR-Mittel durch spezielle Software 130 in Verbindung mit einer zweiten Datenbank 38 gesteuert, die Charakterisierungsdaten enthält und es ermöglicht, diese Dokumente in einer besonders einfachen und schnellen Weise zu verarbeiten.
Bei der Erfindung wird diese Erkennung nur innerhalb festgelegter Bereiche der Dokumente durchgeführt, und insbesondere für eine technische Zeichnung nur in Kästen ihres Informationsblocks, deren Lage vom Benutzer unter Verwendung eines Zeigeelements 36 des Computers festgelegt wurde, wie beispielsweise einer Maus, einem Trackball oder jedem anderen entsprechenden Gerät (einschließlich des eigenen Fingers des Benutzers, wenn ein berührungssensitiver Bildschirm verwendet wird), mittels dessen jeder willkürliche Punkt P innerhalb des Kastens bestimmbar ist. Zusätzlich können diese Softwaremittel 130, nachdem die Bestimmungsoperation durchgeführt wurde und um die Verarbeitung weiter zu verbessern, optional den Benutzer bitten, die Art der Daten zu definieren, die in dem bestimmten Kasten erkannt werden sollen, beispielsweise eine Zeichenkette numerischer Zeichen (für die Identifizierungsnummer) oder eine Zeichenkette alphanumerischer Zeichen (beispielsweise für den Titel oder den Namen des Autors).
Das in der obigen Vorrichtung implementierte Verfahren ist in 4 dargestellt und folgt somit den folgenden Schritten. Nachdem in einem ersten Schritt 200 ein erstes Dokument von dem mit den Softwaremitteln 100 verbundenen Scanner 30 abgetastet wurde, wird das Bild des Dokuments in einem zweiten Schritt 210 temporär in dem Speicher des Computers 32 gespeichert, und es wird möglicherweise simultan auf dem Anzeigeschirm des Computers dargestellt (falls nötig, nach der Durchführung einer Vergrößerungs- oder "Zoom"-Operation). Falls die verarbeitenden Softwaremittel 130 die Art des gescannten Dokuments nicht auf der Basis der Daten aus der Charakterisierungsdatenbank 38 identifizieren kann (Test in Schritt 220), dann wird diese Identifizierung während der folgenden Schritte des Verfahrens durchgeführt, und es wird insbesondere ein Schritt 230 anfänglich durchgeführt unter Verwendung des mit seinen Softwaremitteln 130 verbundenen Zeigeelements 36, bei dem der Benutzer einen Punkt P in einem ersten vorbestimmten Bereich des Dokuments bestimmt, beispielsweise des Kastens 16 in dem Informationsblock 14 der Zeichnung, der die Identifizierungsnummer der Zeichnung enthält. Optional, und in Schritt 240 in gestrichelten Linien dargestellt, kann der Benutzer dann die in diesem Kasten zu erkennende Zeichenart spezifizieren. Diese Angabe kann dazu dienen, die Auswahl der zu erkennenden Zeichen zu beschränken (z.B. nur die Ziffern 0 bis 9), wodurch der nachfolgende OCR-Schritt verbessert wird.
Wenn dieser Punkt einmal bestimmt wurde (wobei seine Koordinaten dann relativ zu einem vorherbestimmten Ursprungspunkt bestimmt werden), wird ein neuer Schritt 250 durchgeführt, in welchem der den Punkt P enthaltene Kasten gesucht und identifiziert wird (d. h., die Begrenzungslinien des Kastens werden gesucht und identifiziert, wie ausführlicher mit Bezug auf 5 erläutert wird), und wenn der Kasten einmal identifiziert wurde (wobei beispielsweise der Umriß des Kastens mit erhöhter Helligkeit oder in einer anderen Farbe dargestellt wird), werden seine Charakterisierungselemente in einem Schritt 260 in der zweiten Datenbank 38 gespeichert (die Abmessungen des Kastens und die Lage seines Mittelpunkts werden ebenfalls gespeichert), und in dem unmittelbar nachfolgenden Schritt 270 wird OCR in herkömmlicher Weise auf die Zeichen in dem besagten Kasten unter Verwendung herkömmlicher Softwaremittel 120 angewandt, wobei das Ende dieser Erkennungsoperation beispielsweise dadurch angezeigt wird, indem von dem Computer die Kontrolle an den Benutzer zurückgegeben wird.
Die obigen fünf Schritte 230, optional 240, 250, 260 und 270 werden dann für einen zweiten festgelegten Bereich wiederholt, und dann für einen weiteren, bis das Dokument vollständig identifiziert wurde, d. h., bis das Softwaremittel 110 allen Bereichen Rechnung getragen hat, die zum Indizieren des Dokuments notwendig sind, wie zuvor in Abhängigkeit von der von ihm zu machenden Verwendung bestimmt worden ist. Wenn diese Operation einmal durchgeführt wurde, wird ein neuer Schritt 280 durchgeführt, in welchem das abgetastete Bild in der ersten Datenbank 34 gespeichert wird. Alle vorstehenden Schritte werden optional für eine Dokumentenart wiederholt, und so weiter, bis keine zu scannenden und zu indizierenden Dokumente mehr vorhanden sind. Danach kann die erste Datenbank 34 von den Softwaremitteln 110 abgefragt werden, die herkömmlicherweise dazu dienen, Zugriff auf jedes der Dokumente in der Datenbank als Funktion von von einem Benutzer selektierten Kriterien und entsprechend einem oder mehreren der anfänglich gekennzeichneten Indizierungselemente zu gewähren.
Der wichtige Punkt ist, daß die obigen Bestimmungsoperationen nur beim Indizieren eines ersten Dokuments einer gegebenen Art durchgeführt werden, denn unter der Voraussetzung, daß die folgenden zu verarbeitenden Dokumente von derselben Art sind, erhält dann der Test in Schritt 220 eine "Ja"-Antwort, und es besteht kein Bedarf mehr, auf dieselben Bereiche zu zeigen, auf denen sich die verschiedenen zum Indizieren benötigten Posten befinden. Da die Softwaremittel 130 die Koordinaten der Kästen in der Charakterisierungsdatenbank 38 gespeichert haben, nachdem sie anfänglich einmal bestimmt wurden, reicht es dann aus, lediglich nach denselben Kästen in den folgenden Dokumenten beginnend am Ursprungspunkt zu suchen (wobei die Ähnlichkeit über die Fläche des Kastens und mit einem bestimmten Toleranzmaß, wie mit Bezug auf 5 erläutert wird, getestet wird), und wenn jeder Kasten einmal identifiziert wurde, wird dessen Inhalt automatisch mittels OCR analysiert, ohne irgendeine vorherige Bestimmung irgendeines Punktes in den Kästen.
Es wird daher ohne weiteres verständlich sein, daß das Verfahren der Erfindung besonders schnell und effektiv ist, da für einen Satz ähnlicher Dokumente, nachdem einmal eine gegebene Art eines Dokuments zum ersten Mal identifiziert worden ist, währenddessen ein Eingriff eines Benutzers erforderlich ist, die folgenden Dokumente automatisch weiter identifiziert werden können, ohne daß der Benutzer weitere Maßnahmen ergreift. Jedes Mal wird OCR nur auf diejenigen Elemente angewandt, die zum Indizieren des Dokuments notwendig sind, und nicht auf das gesamte Dokument, wie es nach dem Stand der Technik der Fall war.
Es ist auch zu bemerken, daß ein Einzelscannen ("one by one"), wie oben beschrieben (ein Dokument nach dem anderen), durch das Scannen eines Stapels oder durch das Scannen aller Dokumente eines Satzes von zu verarbeitenden Dokumenten ersetzt werden kann (d. h., automatisch und unter Speichern der entsprechenden gescannten Bilder in dem Computer), wobei die Identifizierungs- und OCR-Schritte nachfolgend für jedes der Dokumente in dem Satz nacheinander angewandt werden, nachdem die anfängliche Scan-Operation abgeschlossen ist.
5 zeigt die verschiedenen Operationen, die von dem in den Softwaremitteln 130 implementierten Unterprogramm durchgeführt werden, um einen Kasten zu identifizieren, wie er allein durch das Bestimmen eines Punktes P in dem Kasten durch den Benutzer festgelegt ist. Diese Operationen basieren auf der Anwendung eines Formsuchalgorithmus wie beispielsweise eines Projektionsalgorithmus oder einer Hough-Transformation (für runde Formen). Insbesondere wird eine bestimmte Anwendung eines herkömmlichen Projektionsalgorithmus durchgeführt, die darin besteht, die Anzahl der in jeder vertikalen und horizontalen Linie eines Bildes vorhandenen Pixel zu zählen und auf der Basis dieser gezählten Anzahlen die horizontalen und vertikalen Linien in dem Bild des Kastens mittels X- und Y-Projektionsprofilen zu finden (wobei die Linien durch die Peaks in den besagten Projektionsprofilen bestimmt werden). Dieser Algorithmus hat den Vorteil, ein sehr hohes Signal-zu-Rauschverhältnis zu liefern, da das Vorhandensein irgendeines "Lochs" in einer Linie (d. h., eines Mischpixels) nur geringen Einfluß auf die Höhe des Peaks hat, und gleichermaßen hat es nur einen geringen Einfluß auf die Lage des Peaks, wenn die Linie etwas schräg verläuft.
Dennoch wird bei der Erfindung dieser Projektionsalgorithmus nicht auf das gesamte Dokument angewandt, sondern nur auf einen festgelegten Bereich desselben (mit einer in einem ersten Schritt 300 definierten Fläche Si), der um den Punkt P herum definiert ist, welcher während des Zeigeschritts 220 bestimmt wurde. Unter der Annahme, daß dieser Suchbereich den zu erkennenden Kasten vollständig enthält, ist es somit ausreichend, lediglich alle der vertikalen Linien rechts vom Punkt P zu projizieren, um die rechte Seite des Kastens zu finden (sie wird dort sein, wo der Peak am größten ist, oder größer als ein gegebener Schwellwert). Dasselbe wird mit den vertikalen Linien links von dem Punkt für die linke Seite des Kastens getan und mit den horizontalen Linien oberhalb und unterhalb des Punktes, um jeweils die obere und die untere Seite des Kastens zu finden. Nichtsdestotrotz wird in der Praxis dieser anfängliche Suchbereich entweder innerhalb des zu identifizierenden Kastens liegen oder diesen überlappen (siehe beispielsweise die Fläche S1 in 6A), so daß es daher zweckdienlich ist, die Fläche dieses Bereiches allmählich zu vergrößern (in aufeinanderfolgenden, festgelegten Schritten), bis sie den Kasten vollständig abdeckt und dadurch seine Identifizierung ermöglicht (siehe Fläche S3 in 8A). Jedes Mal wird der Projektionsalgorithmus (Schritt 310) angewandt. Die Identifizierung kommt zu einem Ende (Test in Schritt 330), wenn für zwei aufeinanderfolgende Flächen die Lage der in dem vorangegangenen Schritt 320 bestimmten Projektionspeaks dieselbe bleibt. Die Koordinaten des gefundenen Kastens werden dann in einem folgenden Schritt 340 gespeichert, um nachfolgend für eine automatische Erkennung der folgenden Dokumente verwendet zu werden. Ein Beispiel einer Implementierung des Algorithmus wird unter Bezug auf 6A bis 8C dargestellt, welche als Beispiel das implementierte Verfahren zur Identifizierung des Kastens 18 zeigen, der Information zum Indizieren beinhaltet.
Es wird angenommen, daß der Benutzer extrem weit rechts auf den Kasten geklickt hat. Die Softwaremittel 130 erzeugen dann einen ersten rechteckigen Suchbereich der Fläche S1 um diesen Punkt herum, wie in 6A gezeigt, welcher Bereich eine rechte vertikale Seite 400 und obere und untere Abschnitte 402 und 404 des zu identifizierenden Kastens enthält. Das Anwenden des Projektionsalgorithmus auf diesen ersten Suchbereich führt zu den horizontalen und vertikalen Projektionen der 6B und 6C. Die 6B zeigt klar zwei Peaks 412 und 414 entsprechend den jeweiligen horizontalen Seiten 402 und 404, und 6C zeigt einen einzelnen Peak 410 entsprechend der vertikalen Seite 400. Diese anfängliche Analyse ermöglicht es nicht, den Kasten 18 zu analysieren, also wird dann ein zweiter Suchbereich der Fläche S2 automatisch untersucht, und, wie in 7A gezeigt, enthält diese Fläche immer noch die rechte vertikale Seite 400 und Abschnitte, wenn auch längere Abschnitte, der beiden horizontalen Seiten 402, 404. Die Ergebnisse der horizontalen und vertikalen Projektionsalgorithmen sind in den 7B und 7C gezeigt. Dort sind die Peaks 410, 412, 414 zusammen mit anderen Peaks 418 und 420 zu sehen, die mehr oder weniger ausgeprägt sind, abhängig davon, wieviel der von Angabe "FLANK" in der horizontalen Projektion und in der vertikalen Projektion auftaucht. Da diese zweite Anwendung des Algorithmus immer noch keine vollständige Identifizierung des Kastens 18 ermöglicht, wird schließlich ein dritter Suchbereich der Fläche S3 automatisch definiert, der diesmal den ganzen Kasten 18 abdeckt (siehe 8A), und der insbesondere seine horizontalen Seiten 402 und 404 vollständig abdeckt zusammen mit seiner linken vertikalen Seite 406. Die horizontale Projektion, die aus dem entsprechenden Algorithmus resultiert, ist in 8B gezeigt, welche zwei Peaks 412 und 414 entsprechend den beiden horizontalen Seiten 402 und 404 aufweist. Jedoch deckt die vertikale Projektion nun zusätzlich zu der Serie von Peaks 420 nicht nur den Peak 410 auf, entsprechend der rechten Seite 400 des Kastens 18, sondern auch einen neuen Peak 416, entsprechend der linken Seite 406 des Kastens, so daß somit ermöglicht wird, den Kasten 18 vollständig zu identifizieren.
Es ist wichtig, zu bemerken, daß, obwohl das Verfahren und die Vorrichtung der Erfindung im wesentlichen im Hinblick auf das Erkennen und Indizieren von technischen Zeichnungen beschrieben wurden, es natürlich durchaus möglich ist, die Implementierung des Verfahrens für andere Arten von Dokumenten ins Auge zu fassen, und insbesondere liegt eine besonders vorteilhafte Anwendung im Erkennen und Indizieren von Formularen, z. B. von der Art für Aufträge/Bestellungen (insbesondere für den Versandhandel) oder sogar Arbeitsblätter ("operations sheets"). Gegenwärtig erfordert die Verarbeitung solcher Formulare, daß diese im Voraus mittels spezieller Symbole gekennzeichnet werden, die an speziellen Orten auf den Formularen angeordnet sind, welche Symbole es dann erlauben, die Art des Formulars automatisch zu identifizieren. Unter solchen Umständen ist das Charakterisieren eines Formulars ein langwieriger und komplizierter Vorgang und kann nur gerechtfertigt sein, wenn eine große Menge ähnlicher Dokumente gescannt werden müssen.
Bei der vorliegenden Erfindung entfällt dieser Abschnitt der vorherigen Kennzeichnung und wird ersetzt durch einen Schritt des Bestimmens/Identifizierens nur derjenigen Kästen des Formulars, die verarbeitet werden sollen.
Somit ist das Verfahren der Identifizierung insbesondere schnell (was wichtig ist, wenn nur wenige technische Zeichnungen oder Formulare verarbeitet werden sollen), einfach, und kann durchgeführt werden von einem beliebigen Bediener, auch wenn dieser nicht hochqualifiziert ist. Darüber hinaus ist es stabil gegen jegliches Eingaberauschen, das von einem Bewegen der zu scannenden Dokumente herrühren könnte.

Claims

Vorrichtung zum Erkennen und Indizieren von Dokumenten (10), welche Vorrichtung einen Scanner (30) zum Scannen eines Dokuments und Liefern eines Bildes des Dokuments, einen mit dem Scanner verbundenen Computer (32) zum Empfangen des besagten gescannten Bildes, eine erste, mit dem Computer verbundene Datenbank (34) zum Speichern des besagten gescannten Bildes und Softwaremittel (120, 130) zum Verwenden eines Zeigeelements (36) des Computers zum Bestimmen eines willkürlichen Punktes P in wenigstens einem Kasten (16–24) des Bildes zum Suchen nach und Identifizieren des den besagten, vom Benutzer bestimmten Punkt P enthaltenden Kastens und zum Erkennen der Zeichen in besagtem Kasten mittels OCR aufweist, um es zu ermöglichen, gescannte Bilder auf diese Weise zu indizieren, wobei die Vorrichtung dadurch gekennzeichnet ist, daß sie außerdem eine zweite, mit dem Computer (32) verbundene Datenbank (38) aufweist, um Daten zu Speichern, welche es ermöglichen, den Kasten nachfolgend automatisch zu identifizieren, ohne daß irgendein Punkt P innerhalb des Kastens für nächste Dokumente einer selben Art bestimmt wird.
Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß sie außerdem Softwaremittel (120, 130) zum Definieren der Art der Daten aufweist, die in dem besagten Dokumentenkasten erkannt werden sollen.
Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die ersten und zweiten Datenbanken (34, 38) in dem Speicher des Computers (32) integriert sind.
Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das Zeigeelement durch die Tastatur des Computers (32) oder durch einen Finger des Benutzers ersetzt ist.
Verfahren des Erkennens und Indizierens von Dokumenten (10), welches Verfahren darin besteht, einen mit einem Computer (32) verbundenen Scanner (30) zu verwenden, um zuerst die Dokumente zu scannen (200), und dann ein Zeigeelement (36) des Computers zu verwenden, um einen willkürlichen Punkt P in wenigstens einem Kasten (16–24) der Dokumente zu bestimmen (250), und mittels OCR (270) die Zeichen in dem Kasten zu erkennen, um sie in einer ersten, mit dem Computer verbundenen Datenbank (34) zu speichern (280), um es zu ermöglichen, gescannte Dokumente auf diese Weise zu indizieren, dadurch gekennzeichnet, daß das Verfahren auch den Schritt des Speicherns von Daten in einer zweiten Datenbank umfaßt, die es ermöglichen, den Kasten nachfolgend automatisch zu identifizieren, ohne daß irgendein Punkt P innerhalb des Kastens für nächste Dokumente einer selben Art bestimmt wird.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der besagte Bezeichnungsschritt einen Schritt des Suchens nach und Identifizierens des Kastens des Dokuments umfaßt, welcher den von dem Benutzer bestimmten Punkt P enthält.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Schritt des Suchens nach und Identifizierens des Kastens durchgeführt wird, indem ein Formsuchalgorithmus über einen festgelegten Suchbereich angewandt wird, welcher den Punkt P, wie er zuvor vom Benutzer bestimmt wurde, umgibt.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Formsuchalgorithmus ein Projektionsalgorithmus ist, der die Anzahl der in jeder vertikalen oder horizontalen Linie des festgelegten Suchbereichs vorhandenen Pixel zählt und der, auf der Basis dieser gezählten Anzahlen, die in dem Suchbereich vorhandenen horizontalen und vertikalen Linien durch Untersuchen der Peaks in den X- und Y-Projektionsprofilen findet.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Formsuchalgorithmus ein auf der Hough-Transformation basierender Algorithmus ist.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß dem OCR-Schritt ein Schritt (260) vorangeht, in welchem der Benutzer die Art der in dem Kasten des Dokuments zu erkennenden Zeichen definiert.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der besagte Scan-Schritt anfänglich für einen Satz von zu verarbeitenden Dokumenten durchgeführt wird, wobei die Schritte des Identifizierens des Kastens und des Anwendens von OCR auf seinen Inhalt nachfolgend aufeinanderfolgend für jedes der Dokumente durchgeführt werden.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der besagte Scan-Schritt anfänglich für ein erstes Dokument durchgeführt wird, wobei die Schritte des Identifizierens des Kastens und des Anwendens von OCR auf seinen Inhalt nachfolgend auf dieses Dokument angewandt werden, und wobei diese drei Schritte dann aufeinanderfolgend für alle der zu verarbeitenden Dokumente wiederholt werden.
Verfahren nach einem der Ansprüche 5 bis 12, dadurch gekennzeichnet, daß die zu erkennenden und indizierenden Dokumente durch einen Satz von technischen Zeichnungen, optional von verschiedener Art, gebildet werden.
Verfahren nach einem der Ansprüche 5 bis 12, dadurch gekennzeichnet, daß die zu erkennenden und indizierenden Dokumente durch einen Satz von Formularen, optimal von verschiedener Art, gebildet werden.