DE60120810T2 - Verfahren zur Dokumenterkennung und -indexierung - Google Patents

Verfahren zur Dokumenterkennung und -indexierung Download PDF

Info

Publication number
DE60120810T2
DE60120810T2 DE60120810T DE60120810T DE60120810T2 DE 60120810 T2 DE60120810 T2 DE 60120810T2 DE 60120810 T DE60120810 T DE 60120810T DE 60120810 T DE60120810 T DE 60120810T DE 60120810 T2 DE60120810 T2 DE 60120810T2
Authority
DE
Germany
Prior art keywords
box
documents
document
computer
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60120810T
Other languages
English (en)
Other versions
DE60120810D1 (de
Inventor
Stephane Berche
Laurent Najman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oce Print Logic Technologies SA
Original Assignee
Oce Industries SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Industries SA filed Critical Oce Industries SA
Application granted granted Critical
Publication of DE60120810D1 publication Critical patent/DE60120810D1/de
Publication of DE60120810T2 publication Critical patent/DE60120810T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft das wissenschaftliche Fachgebiet des Erkennens und Indizierens von Dokumenten in einer Datenbank. Sie stellt insbesondere eine Vorrichtung und ein entsprechendes Verfahren zur Verfügung, welche es ermöglichen, technische Zeichnungen und Formulare durch Erkennen lediglich einiger ihrer Elemente zu indizieren.
  • Stand der Technik
  • Es gibt viele Verfahren zum Erkennen von Dokumenten, die wohlbekannt sind. Sie verwenden einen anfänglichen Scan-Schritt, gefolgt von einem Segmentierungsschritt, wiederum gefolgt von einem Schritt der optischen Zeichenerkennung (OCR, "optical character recognition"). Der Segmentierungsschritt (Unterteilen des Dokuments) kann auf das ganze Dokument (eine herkömmliche "ganze Seite" ("full page")) oder nur auf einen Teil des Dokuments angewandt werden.
  • Dennoch kann ein solches herkömmliches Verfahren, welches es ermöglicht, das Dokument nachfolgend automatisch zu indizieren, nur ins Auge gefaßt werden, wenn das zu erkennende Dokument nicht zu komplex ist. Es wird außerdem nicht auf technische Zeichnungen angewandt. Auf diesem speziellen Gebiet wird nur der anfängliche Schritt des Scannens durchgeführt, wobei die Schritte der Segmentierung und Erkennung durch einen Schritt ersetzt werden, der direkt von einem Bediener durchgeführt wird und darin besteht, manuell die zum Indizieren der Zeichnung benötigten speziellen Elemente aus einem oder mehreren Bereichen der Zeichnung einzugeben (die in der Praxis im Titelblock der Zeichnung vorliegen).
  • US 5 966 473 auf den Namen der IBM offenbart ein Verfahren zum automatischen Erkennen, mit nur einem Mausklick, von Positionsinformationen eines vierseitigen Objekts, das in einem Eingabebitmapbild enthalten ist. Offenbart ist die Verwendung dieses Verfahrens zum Entwerfen von OCR-Formularen.
  • Gegenstand und Definition der Erfindung
  • Die Erfindung schlägt also vor, diese Aufgabe auf eine einfache und preiswerte Weise zu lösen durch Implementieren eines Verfahrens des Erkennens und Indizierens von Dokumenten, welches Verfahren darin besteht, einen mit einem Computer verbundenen Scanner zu verwenden, um zuerst die Dokumente abzutasten, und dann ein Zeigeelement des Computers zu verwenden, um einen willkürlichen Punkt P in wenigstens einem Kasten der Dokumente zu bestimmen, und schließlich mittels OCR die Zeichen in besagtem Kasten zu erkennen, um sie in einer ersten, mit dem Computer verbundenen Datenbank zu speichern, um zu ermöglichen, auf diese Weise abgetastete Dokumente zu indizieren. Der Bestimmungsschritt umfaßt einen Schritt des Suchens nach und Identifizierens des Kastens des Dokuments, der den besagten, vom Benutzer bestimmten Punkt P enthält.
  • Folglich beschränkt sich mit dem Verfahren der Erfindung die frühere manuelle Eingabe auf das Bestimmen festgelegter Bereiche (die als "Kästen" bezeichnet werden), in denen eine automatische Erkennung von den für das Indizieren eines ersten Dokuments derselben Art notwendigen Elementen verfügbar ist. Die zu erkennenden und zu indizierenden Dokumente können durch einen Satz technischer Zeichnungen oder Formulare gebildet werden, und sie können optional von verschiedener Art sein.
  • Der Schritt des Suchens nach und Identifizierens des besagten Kastens wird durchgeführt, indem ein Formsuchalgorithmus über einen festgelegten Bereich angewandt wird, der den Punkt P umgibt, wie er zuvor vom Benutzer bestimmt wurde. Dieser Formsuchalgorithmus kann ein Algorithmus sein, der auf der Hough-Transformation basiert, oder kann ein Projektionsalgorithmus sein, der die Anzahl der in jeder vertikalen oder horizontalen Linie des besagten festgelegten Suchbereichs vorhandenen Pixel zählt und auf der Basis dieser Anzahlen Peaks in X- und Y-Projektionsprofilen untersucht, um die in dem Suchbereich vorhandenen horizontalen und vertikalen Linien zu finden.
  • Somit kann durch Begrenzung der Fläche, auf die der Algorithmus angewandt wird, dessen Ausführungsgeschwindigkeit beträchtlich erhöht werden, während die Anzahl der zum Erkennen eines Kastens des Dokuments benötigten Iterationen begrenzt wird.
  • Der Scan-Schritt wird vorzugsweise anfänglich durchgeführt für alle zu verarbeitenden Dokumente, wobei die besagten Schritte des Identifizierens des Kastens und der Anwendung von OCR auf seinen Inhalt nachfolgend aufeinanderfolgend für jedes der Dokumente durchgeführt werden. Nichtsdestotrotz könnte der Scan-Schritt ebenso gut anfänglich für ein erstes Dokument durchgeführt werden, wobei die besagten Schritte des Identifizierens des Kastens und des Anwendens von OCR auf dessen Inhalt dann für dasselbe Dokument durchgeführt werden, und wobei diese drei Schritte dann aufeinanderfolgend für alle der zu verarbeitenden Dokumente wiederholt werden.
  • Die Erfindung umfaßt auch eine zweite, mit dem Computer verbundene Datenbank zum Speichern von Daten (die als Charakterisierungsdaten bezeichnet werden), welche es ermöglichen, nachfolgend den Kasten automatisch zu identifizieren, ohne daß irgendein willkürlicher Punkt P des Kastens zuvor bestimmt wird.
  • Die Datenbanken können im Speicher des Computer integriert sein, oder sie können extern zu diesem sein. Das Zeigeelement kann durch die Tastatur des Computers oder durch den Finger des Benutzers ersetzt werden.
  • Kurze Beschreibung der Zeichnungen
  • Andere Merkmale und Vorteile der vorliegenden Erfindung werden sich besser beim Lesen der folgenden Beschreibung zeigen, die als nicht einschränkende Angabe und unter Bezug auf die begleitenden Zeichnungen gegeben wird, von denen:
  • 1 ein Beispiel einer technischen Zeichnung zeigt;
  • 2 ein Beispiel des Informationsblocks in einer Zeichnung von der Art wie in 1 gezeigt darstellt;
  • 3 die allgemeine Struktur der Hardware einer Vorrichtung zum erfindungsgemäßen Erkennen und Indizieren von Dokumenten zeigt;
  • 4 ein Flußdiagramm ist, das den Betriebsablauf der Vorrichtung aus 3 beim Erkennen und Indizieren der Zeichnung von 1 erläutert;
  • 5 ein Flußdiagramm ist, das mehr Einzelheiten der Funktion zum Suchen und Identifizieren eines Kastens in dem Block aus 2 zeigt;
  • 6A einen ersten Suchbereich zeigt, der einen Teil des zu identifizierenden Kastens beinhaltet;
  • 6B und 6C aus dem Suchbereich von 6A erhaltene Projektionsprofile sind;
  • 7A einen zweiten Suchbereich zeigt, der einen größeren Teil des zu identifizierenden Kastens beinhaltet;
  • 7B und 7C aus dem Suchbereich von 7A erhaltene Projektionsprofile sind;
  • 8A einen dritten Suchbereich zeigt, der den zu identifizierenden Kasten vollständig enthält; und
  • 8B und 8C aus dem Suchbereich von 8A erhaltene Projektionsprofile sind.
  • Ausführliche Beschreibung einer bevorzugten Ausführungsform
  • Wie in den 1 und 2 gezeigt, enthält eine technische oder industrielle Zeichnung wie das Blatt 10 im wesentlichen die Zeichnung 12 selbst und einen Informationsblock 14, der aus einer Vielzahl von rechteckigen Kästen verschiedener Größen besteht.
  • Die meisten dieser Kästen enthalten bestimmte Angaben, die nicht alle gleich geeignet zum Indizieren einer technischen Zeichnung sind. Dies trifft beispielsweise auf die Angabe zu, die die Projektion, den Maßstab oder das Format der Zeichnung angibt. Angaben, die zur Indizierung wichtig sind, umfassen im allgemeinen wenigstens einen ersten Kasten 16, der eine die Zeichnung identifizierende Nummer enthält, einen zweiten Kasten 18, der den Titel der Zeichnung enthält, und einen dritten Kasten 20, der angibt, wer die Zeichnung erstellt hat. Natürlich sollen diese drei Angaben nicht in irgendeiner Weise als einschränkend aufgefaßt werden, und es ist in gleicher Weise möglich, ins Auge zu fassen, auch dem in einem vierten Kasten 22 zur Verfügung gestellten Datum ihrer letzten Aktualisierung oder ihrer Seitenzahl, die in einem fünften Kasten 24 zu finden ist, Rechnung zu tragen.
  • 3 zeigt eine Mindest-Hardwarearchitektur, die von einem Computersystem benötigt wird, um es in die Lage zu versetzen, das Verfahren der Erfindung zum Erkennen und Indizieren von Dokumenten der in 1 gezeigten Art durchzuführen.
  • Dieses Computersystem umfaßt zunächst einen Digitalisierer oder Scanner 30 zum Scannen von Dokumenten (insbesondere Zeichnungsblättern), die nachfolgend zu indizieren sind. Der Scanner ist mit einem Computer oder Mikrocomputer herkömmlicher Art 32 verbunden, der mit herkömmlichen Softwaremitteln 100 für Scanzwecke ausgestattet ist. Eine ebenfalls mit dem Computer 32 verbundene erste Datenbank 34 dient dazu, auf diese Weise abgetastete Dokumente zu speichern. Es ist zu bemerken, daß, abhängig von der internen Speicherkapazität des Computers und dem Volumen der den abzutastenden Dokumenten entsprechenden Daten, diese erste Datenbank 34 entweder, wie dargestellt, extern oder direkt intern innerhalb des Computers aufgenommen sein kann. Der Computer enthält natürlich Softwaremittel 110 zum Steuern dieser ersten Datenbank (sie zu erstellen, abzufragen und sie zu modifizieren).
  • Um Dokumente in der ersten Datenbank 34 zu indizieren, ist es vorgesehen, daß der Computer 32 auch OCR-Softwaremittel 120 herkömmlicher Art zum Erkennen und Identifizieren bestimmter spezieller Elemente dieser Dokumente aufweist. Nichtsdestotrotz werden diese OCR-Mittel durch spezielle Software 130 in Verbindung mit einer zweiten Datenbank 38 gesteuert, die Charakterisierungsdaten enthält und es ermöglicht, diese Dokumente in einer besonders einfachen und schnellen Weise zu verarbeiten.
  • Bei der Erfindung wird diese Erkennung nur innerhalb festgelegter Bereiche der Dokumente durchgeführt, und insbesondere für eine technische Zeichnung nur in Kästen ihres Informationsblocks, deren Lage vom Benutzer unter Verwendung eines Zeigeelements 36 des Computers festgelegt wurde, wie beispielsweise einer Maus, einem Trackball oder jedem anderen entsprechenden Gerät (einschließlich des eigenen Fingers des Benutzers, wenn ein berührungssensitiver Bildschirm verwendet wird), mittels dessen jeder willkürliche Punkt P innerhalb des Kastens bestimmbar ist. Zusätzlich können diese Softwaremittel 130, nachdem die Bestimmungsoperation durchgeführt wurde und um die Verarbeitung weiter zu verbessern, optional den Benutzer bitten, die Art der Daten zu definieren, die in dem bestimmten Kasten erkannt werden sollen, beispielsweise eine Zeichenkette numerischer Zeichen (für die Identifizierungsnummer) oder eine Zeichenkette alphanumerischer Zeichen (beispielsweise für den Titel oder den Namen des Autors).
  • Das in der obigen Vorrichtung implementierte Verfahren ist in 4 dargestellt und folgt somit den folgenden Schritten. Nachdem in einem ersten Schritt 200 ein erstes Dokument von dem mit den Softwaremitteln 100 verbundenen Scanner 30 abgetastet wurde, wird das Bild des Dokuments in einem zweiten Schritt 210 temporär in dem Speicher des Computers 32 gespeichert, und es wird möglicherweise simultan auf dem Anzeigeschirm des Computers dargestellt (falls nötig, nach der Durchführung einer Vergrößerungs- oder "Zoom"-Operation). Falls die verarbeitenden Softwaremittel 130 die Art des gescannten Dokuments nicht auf der Basis der Daten aus der Charakterisierungsdatenbank 38 identifizieren kann (Test in Schritt 220), dann wird diese Identifizierung während der folgenden Schritte des Verfahrens durchgeführt, und es wird insbesondere ein Schritt 230 anfänglich durchgeführt unter Verwendung des mit seinen Softwaremitteln 130 verbundenen Zeigeelements 36, bei dem der Benutzer einen Punkt P in einem ersten vorbestimmten Bereich des Dokuments bestimmt, beispielsweise des Kastens 16 in dem Informationsblock 14 der Zeichnung, der die Identifizierungsnummer der Zeichnung enthält. Optional, und in Schritt 240 in gestrichelten Linien dargestellt, kann der Benutzer dann die in diesem Kasten zu erkennende Zeichenart spezifizieren. Diese Angabe kann dazu dienen, die Auswahl der zu erkennenden Zeichen zu beschränken (z.B. nur die Ziffern 0 bis 9), wodurch der nachfolgende OCR-Schritt verbessert wird.
  • Wenn dieser Punkt einmal bestimmt wurde (wobei seine Koordinaten dann relativ zu einem vorherbestimmten Ursprungspunkt bestimmt werden), wird ein neuer Schritt 250 durchgeführt, in welchem der den Punkt P enthaltene Kasten gesucht und identifiziert wird (d. h., die Begrenzungslinien des Kastens werden gesucht und identifiziert, wie ausführlicher mit Bezug auf 5 erläutert wird), und wenn der Kasten einmal identifiziert wurde (wobei beispielsweise der Umriß des Kastens mit erhöhter Helligkeit oder in einer anderen Farbe dargestellt wird), werden seine Charakterisierungselemente in einem Schritt 260 in der zweiten Datenbank 38 gespeichert (die Abmessungen des Kastens und die Lage seines Mittelpunkts werden ebenfalls gespeichert), und in dem unmittelbar nachfolgenden Schritt 270 wird OCR in herkömmlicher Weise auf die Zeichen in dem besagten Kasten unter Verwendung herkömmlicher Softwaremittel 120 angewandt, wobei das Ende dieser Erkennungsoperation beispielsweise dadurch angezeigt wird, indem von dem Computer die Kontrolle an den Benutzer zurückgegeben wird.
  • Die obigen fünf Schritte 230, optional 240, 250, 260 und 270 werden dann für einen zweiten festgelegten Bereich wiederholt, und dann für einen weiteren, bis das Dokument vollständig identifiziert wurde, d. h., bis das Softwaremittel 110 allen Bereichen Rechnung getragen hat, die zum Indizieren des Dokuments notwendig sind, wie zuvor in Abhängigkeit von der von ihm zu machenden Verwendung bestimmt worden ist. Wenn diese Operation einmal durchgeführt wurde, wird ein neuer Schritt 280 durchgeführt, in welchem das abgetastete Bild in der ersten Datenbank 34 gespeichert wird. Alle vorstehenden Schritte werden optional für eine Dokumentenart wiederholt, und so weiter, bis keine zu scannenden und zu indizierenden Dokumente mehr vorhanden sind. Danach kann die erste Datenbank 34 von den Softwaremitteln 110 abgefragt werden, die herkömmlicherweise dazu dienen, Zugriff auf jedes der Dokumente in der Datenbank als Funktion von von einem Benutzer selektierten Kriterien und entsprechend einem oder mehreren der anfänglich gekennzeichneten Indizierungselemente zu gewähren.
  • Der wichtige Punkt ist, daß die obigen Bestimmungsoperationen nur beim Indizieren eines ersten Dokuments einer gegebenen Art durchgeführt werden, denn unter der Voraussetzung, daß die folgenden zu verarbeitenden Dokumente von derselben Art sind, erhält dann der Test in Schritt 220 eine "Ja"-Antwort, und es besteht kein Bedarf mehr, auf dieselben Bereiche zu zeigen, auf denen sich die verschiedenen zum Indizieren benötigten Posten befinden. Da die Softwaremittel 130 die Koordinaten der Kästen in der Charakterisierungsdatenbank 38 gespeichert haben, nachdem sie anfänglich einmal bestimmt wurden, reicht es dann aus, lediglich nach denselben Kästen in den folgenden Dokumenten beginnend am Ursprungspunkt zu suchen (wobei die Ähnlichkeit über die Fläche des Kastens und mit einem bestimmten Toleranzmaß, wie mit Bezug auf 5 erläutert wird, getestet wird), und wenn jeder Kasten einmal identifiziert wurde, wird dessen Inhalt automatisch mittels OCR analysiert, ohne irgendeine vorherige Bestimmung irgendeines Punktes in den Kästen.
  • Es wird daher ohne weiteres verständlich sein, daß das Verfahren der Erfindung besonders schnell und effektiv ist, da für einen Satz ähnlicher Dokumente, nachdem einmal eine gegebene Art eines Dokuments zum ersten Mal identifiziert worden ist, währenddessen ein Eingriff eines Benutzers erforderlich ist, die folgenden Dokumente automatisch weiter identifiziert werden können, ohne daß der Benutzer weitere Maßnahmen ergreift. Jedes Mal wird OCR nur auf diejenigen Elemente angewandt, die zum Indizieren des Dokuments notwendig sind, und nicht auf das gesamte Dokument, wie es nach dem Stand der Technik der Fall war.
  • Es ist auch zu bemerken, daß ein Einzelscannen ("one by one"), wie oben beschrieben (ein Dokument nach dem anderen), durch das Scannen eines Stapels oder durch das Scannen aller Dokumente eines Satzes von zu verarbeitenden Dokumenten ersetzt werden kann (d. h., automatisch und unter Speichern der entsprechenden gescannten Bilder in dem Computer), wobei die Identifizierungs- und OCR-Schritte nachfolgend für jedes der Dokumente in dem Satz nacheinander angewandt werden, nachdem die anfängliche Scan-Operation abgeschlossen ist.
  • 5 zeigt die verschiedenen Operationen, die von dem in den Softwaremitteln 130 implementierten Unterprogramm durchgeführt werden, um einen Kasten zu identifizieren, wie er allein durch das Bestimmen eines Punktes P in dem Kasten durch den Benutzer festgelegt ist. Diese Operationen basieren auf der Anwendung eines Formsuchalgorithmus wie beispielsweise eines Projektionsalgorithmus oder einer Hough-Transformation (für runde Formen). Insbesondere wird eine bestimmte Anwendung eines herkömmlichen Projektionsalgorithmus durchgeführt, die darin besteht, die Anzahl der in jeder vertikalen und horizontalen Linie eines Bildes vorhandenen Pixel zu zählen und auf der Basis dieser gezählten Anzahlen die horizontalen und vertikalen Linien in dem Bild des Kastens mittels X- und Y-Projektionsprofilen zu finden (wobei die Linien durch die Peaks in den besagten Projektionsprofilen bestimmt werden). Dieser Algorithmus hat den Vorteil, ein sehr hohes Signal-zu-Rauschverhältnis zu liefern, da das Vorhandensein irgendeines "Lochs" in einer Linie (d. h., eines Mischpixels) nur geringen Einfluß auf die Höhe des Peaks hat, und gleichermaßen hat es nur einen geringen Einfluß auf die Lage des Peaks, wenn die Linie etwas schräg verläuft.
  • Dennoch wird bei der Erfindung dieser Projektionsalgorithmus nicht auf das gesamte Dokument angewandt, sondern nur auf einen festgelegten Bereich desselben (mit einer in einem ersten Schritt 300 definierten Fläche Si), der um den Punkt P herum definiert ist, welcher während des Zeigeschritts 220 bestimmt wurde. Unter der Annahme, daß dieser Suchbereich den zu erkennenden Kasten vollständig enthält, ist es somit ausreichend, lediglich alle der vertikalen Linien rechts vom Punkt P zu projizieren, um die rechte Seite des Kastens zu finden (sie wird dort sein, wo der Peak am größten ist, oder größer als ein gegebener Schwellwert). Dasselbe wird mit den vertikalen Linien links von dem Punkt für die linke Seite des Kastens getan und mit den horizontalen Linien oberhalb und unterhalb des Punktes, um jeweils die obere und die untere Seite des Kastens zu finden. Nichtsdestotrotz wird in der Praxis dieser anfängliche Suchbereich entweder innerhalb des zu identifizierenden Kastens liegen oder diesen überlappen (siehe beispielsweise die Fläche S1 in 6A), so daß es daher zweckdienlich ist, die Fläche dieses Bereiches allmählich zu vergrößern (in aufeinanderfolgenden, festgelegten Schritten), bis sie den Kasten vollständig abdeckt und dadurch seine Identifizierung ermöglicht (siehe Fläche S3 in 8A). Jedes Mal wird der Projektionsalgorithmus (Schritt 310) angewandt. Die Identifizierung kommt zu einem Ende (Test in Schritt 330), wenn für zwei aufeinanderfolgende Flächen die Lage der in dem vorangegangenen Schritt 320 bestimmten Projektionspeaks dieselbe bleibt. Die Koordinaten des gefundenen Kastens werden dann in einem folgenden Schritt 340 gespeichert, um nachfolgend für eine automatische Erkennung der folgenden Dokumente verwendet zu werden. Ein Beispiel einer Implementierung des Algorithmus wird unter Bezug auf 6A bis 8C dargestellt, welche als Beispiel das implementierte Verfahren zur Identifizierung des Kastens 18 zeigen, der Information zum Indizieren beinhaltet.
  • Es wird angenommen, daß der Benutzer extrem weit rechts auf den Kasten geklickt hat. Die Softwaremittel 130 erzeugen dann einen ersten rechteckigen Suchbereich der Fläche S1 um diesen Punkt herum, wie in 6A gezeigt, welcher Bereich eine rechte vertikale Seite 400 und obere und untere Abschnitte 402 und 404 des zu identifizierenden Kastens enthält. Das Anwenden des Projektionsalgorithmus auf diesen ersten Suchbereich führt zu den horizontalen und vertikalen Projektionen der 6B und 6C. Die 6B zeigt klar zwei Peaks 412 und 414 entsprechend den jeweiligen horizontalen Seiten 402 und 404, und 6C zeigt einen einzelnen Peak 410 entsprechend der vertikalen Seite 400. Diese anfängliche Analyse ermöglicht es nicht, den Kasten 18 zu analysieren, also wird dann ein zweiter Suchbereich der Fläche S2 automatisch untersucht, und, wie in 7A gezeigt, enthält diese Fläche immer noch die rechte vertikale Seite 400 und Abschnitte, wenn auch längere Abschnitte, der beiden horizontalen Seiten 402, 404. Die Ergebnisse der horizontalen und vertikalen Projektionsalgorithmen sind in den 7B und 7C gezeigt. Dort sind die Peaks 410, 412, 414 zusammen mit anderen Peaks 418 und 420 zu sehen, die mehr oder weniger ausgeprägt sind, abhängig davon, wieviel der von Angabe "FLANK" in der horizontalen Projektion und in der vertikalen Projektion auftaucht. Da diese zweite Anwendung des Algorithmus immer noch keine vollständige Identifizierung des Kastens 18 ermöglicht, wird schließlich ein dritter Suchbereich der Fläche S3 automatisch definiert, der diesmal den ganzen Kasten 18 abdeckt (siehe 8A), und der insbesondere seine horizontalen Seiten 402 und 404 vollständig abdeckt zusammen mit seiner linken vertikalen Seite 406. Die horizontale Projektion, die aus dem entsprechenden Algorithmus resultiert, ist in 8B gezeigt, welche zwei Peaks 412 und 414 entsprechend den beiden horizontalen Seiten 402 und 404 aufweist. Jedoch deckt die vertikale Projektion nun zusätzlich zu der Serie von Peaks 420 nicht nur den Peak 410 auf, entsprechend der rechten Seite 400 des Kastens 18, sondern auch einen neuen Peak 416, entsprechend der linken Seite 406 des Kastens, so daß somit ermöglicht wird, den Kasten 18 vollständig zu identifizieren.
  • Es ist wichtig, zu bemerken, daß, obwohl das Verfahren und die Vorrichtung der Erfindung im wesentlichen im Hinblick auf das Erkennen und Indizieren von technischen Zeichnungen beschrieben wurden, es natürlich durchaus möglich ist, die Implementierung des Verfahrens für andere Arten von Dokumenten ins Auge zu fassen, und insbesondere liegt eine besonders vorteilhafte Anwendung im Erkennen und Indizieren von Formularen, z. B. von der Art für Aufträge/Bestellungen (insbesondere für den Versandhandel) oder sogar Arbeitsblätter ("operations sheets"). Gegenwärtig erfordert die Verarbeitung solcher Formulare, daß diese im Voraus mittels spezieller Symbole gekennzeichnet werden, die an speziellen Orten auf den Formularen angeordnet sind, welche Symbole es dann erlauben, die Art des Formulars automatisch zu identifizieren. Unter solchen Umständen ist das Charakterisieren eines Formulars ein langwieriger und komplizierter Vorgang und kann nur gerechtfertigt sein, wenn eine große Menge ähnlicher Dokumente gescannt werden müssen.
  • Bei der vorliegenden Erfindung entfällt dieser Abschnitt der vorherigen Kennzeichnung und wird ersetzt durch einen Schritt des Bestimmens/Identifizierens nur derjenigen Kästen des Formulars, die verarbeitet werden sollen.
  • Somit ist das Verfahren der Identifizierung insbesondere schnell (was wichtig ist, wenn nur wenige technische Zeichnungen oder Formulare verarbeitet werden sollen), einfach, und kann durchgeführt werden von einem beliebigen Bediener, auch wenn dieser nicht hochqualifiziert ist. Darüber hinaus ist es stabil gegen jegliches Eingaberauschen, das von einem Bewegen der zu scannenden Dokumente herrühren könnte.

Claims (14)

  1. Vorrichtung zum Erkennen und Indizieren von Dokumenten (10), welche Vorrichtung einen Scanner (30) zum Scannen eines Dokuments und Liefern eines Bildes des Dokuments, einen mit dem Scanner verbundenen Computer (32) zum Empfangen des besagten gescannten Bildes, eine erste, mit dem Computer verbundene Datenbank (34) zum Speichern des besagten gescannten Bildes und Softwaremittel (120, 130) zum Verwenden eines Zeigeelements (36) des Computers zum Bestimmen eines willkürlichen Punktes P in wenigstens einem Kasten (1624) des Bildes zum Suchen nach und Identifizieren des den besagten, vom Benutzer bestimmten Punkt P enthaltenden Kastens und zum Erkennen der Zeichen in besagtem Kasten mittels OCR aufweist, um es zu ermöglichen, gescannte Bilder auf diese Weise zu indizieren, wobei die Vorrichtung dadurch gekennzeichnet ist, daß sie außerdem eine zweite, mit dem Computer (32) verbundene Datenbank (38) aufweist, um Daten zu Speichern, welche es ermöglichen, den Kasten nachfolgend automatisch zu identifizieren, ohne daß irgendein Punkt P innerhalb des Kastens für nächste Dokumente einer selben Art bestimmt wird.
  2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß sie außerdem Softwaremittel (120, 130) zum Definieren der Art der Daten aufweist, die in dem besagten Dokumentenkasten erkannt werden sollen.
  3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die ersten und zweiten Datenbanken (34, 38) in dem Speicher des Computers (32) integriert sind.
  4. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß das Zeigeelement durch die Tastatur des Computers (32) oder durch einen Finger des Benutzers ersetzt ist.
  5. Verfahren des Erkennens und Indizierens von Dokumenten (10), welches Verfahren darin besteht, einen mit einem Computer (32) verbundenen Scanner (30) zu verwenden, um zuerst die Dokumente zu scannen (200), und dann ein Zeigeelement (36) des Computers zu verwenden, um einen willkürlichen Punkt P in wenigstens einem Kasten (1624) der Dokumente zu bestimmen (250), und mittels OCR (270) die Zeichen in dem Kasten zu erkennen, um sie in einer ersten, mit dem Computer verbundenen Datenbank (34) zu speichern (280), um es zu ermöglichen, gescannte Dokumente auf diese Weise zu indizieren, dadurch gekennzeichnet, daß das Verfahren auch den Schritt des Speicherns von Daten in einer zweiten Datenbank umfaßt, die es ermöglichen, den Kasten nachfolgend automatisch zu identifizieren, ohne daß irgendein Punkt P innerhalb des Kastens für nächste Dokumente einer selben Art bestimmt wird.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der besagte Bezeichnungsschritt einen Schritt des Suchens nach und Identifizierens des Kastens des Dokuments umfaßt, welcher den von dem Benutzer bestimmten Punkt P enthält.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Schritt des Suchens nach und Identifizierens des Kastens durchgeführt wird, indem ein Formsuchalgorithmus über einen festgelegten Suchbereich angewandt wird, welcher den Punkt P, wie er zuvor vom Benutzer bestimmt wurde, umgibt.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Formsuchalgorithmus ein Projektionsalgorithmus ist, der die Anzahl der in jeder vertikalen oder horizontalen Linie des festgelegten Suchbereichs vorhandenen Pixel zählt und der, auf der Basis dieser gezählten Anzahlen, die in dem Suchbereich vorhandenen horizontalen und vertikalen Linien durch Untersuchen der Peaks in den X- und Y-Projektionsprofilen findet.
  9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Formsuchalgorithmus ein auf der Hough-Transformation basierender Algorithmus ist.
  10. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß dem OCR-Schritt ein Schritt (260) vorangeht, in welchem der Benutzer die Art der in dem Kasten des Dokuments zu erkennenden Zeichen definiert.
  11. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der besagte Scan-Schritt anfänglich für einen Satz von zu verarbeitenden Dokumenten durchgeführt wird, wobei die Schritte des Identifizierens des Kastens und des Anwendens von OCR auf seinen Inhalt nachfolgend aufeinanderfolgend für jedes der Dokumente durchgeführt werden.
  12. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der besagte Scan-Schritt anfänglich für ein erstes Dokument durchgeführt wird, wobei die Schritte des Identifizierens des Kastens und des Anwendens von OCR auf seinen Inhalt nachfolgend auf dieses Dokument angewandt werden, und wobei diese drei Schritte dann aufeinanderfolgend für alle der zu verarbeitenden Dokumente wiederholt werden.
  13. Verfahren nach einem der Ansprüche 5 bis 12, dadurch gekennzeichnet, daß die zu erkennenden und indizierenden Dokumente durch einen Satz von technischen Zeichnungen, optional von verschiedener Art, gebildet werden.
  14. Verfahren nach einem der Ansprüche 5 bis 12, dadurch gekennzeichnet, daß die zu erkennenden und indizierenden Dokumente durch einen Satz von Formularen, optimal von verschiedener Art, gebildet werden.
DE60120810T 2000-03-22 2001-03-09 Verfahren zur Dokumenterkennung und -indexierung Expired - Lifetime DE60120810T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0003639A FR2806814B1 (fr) 2000-03-22 2000-03-22 Procede de reconnaissance et d'indexation de documents
FR0003639 2000-03-22

Publications (2)

Publication Number Publication Date
DE60120810D1 DE60120810D1 (de) 2006-08-03
DE60120810T2 true DE60120810T2 (de) 2006-12-07

Family

ID=8848371

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60120810T Expired - Lifetime DE60120810T2 (de) 2000-03-22 2001-03-09 Verfahren zur Dokumenterkennung und -indexierung

Country Status (5)

Country Link
US (1) US7319799B2 (de)
EP (1) EP1136938B1 (de)
JP (1) JP4873787B2 (de)
DE (1) DE60120810T2 (de)
FR (1) FR2806814B1 (de)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
ATE356389T1 (de) * 2003-08-20 2007-03-15 Oce Tech Bv Dokumentenscanner
US20050185225A1 (en) * 2003-12-12 2005-08-25 Brawn Dennis E. Methods and apparatus for imaging documents
GB2413420A (en) * 2004-04-23 2005-10-26 Hewlett Packard Development Co Interactive document reading
GB2415519A (en) * 2004-06-24 2005-12-28 Canon Europa Nv A scanning and indexing device
JPWO2006030687A1 (ja) * 2004-09-14 2008-07-31 日本電気株式会社 データ照合システム、データ照合装置、及びデータ照合方法
US8340476B2 (en) 2005-03-18 2012-12-25 The Invention Science Fund I, Llc Electronic acquisition of a hand formed expression and a context of the expression
US8823636B2 (en) * 2005-03-18 2014-09-02 The Invention Science Fund I, Llc Including environmental information in a manual expression
US20070273674A1 (en) * 2005-03-18 2007-11-29 Searete Llc, A Limited Liability Corporation Machine-differentiatable identifiers having a commonly accepted meaning
US8787706B2 (en) * 2005-03-18 2014-07-22 The Invention Science Fund I, Llc Acquisition of a user expression and an environment of the expression
US20060212430A1 (en) 2005-03-18 2006-09-21 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Outputting a saved hand-formed expression
US8749480B2 (en) * 2005-03-18 2014-06-10 The Invention Science Fund I, Llc Article having a writing portion and preformed identifiers
US8229252B2 (en) * 2005-03-18 2012-07-24 The Invention Science Fund I, Llc Electronic association of a user expression and a context of the expression
US7809215B2 (en) 2006-10-11 2010-10-05 The Invention Science Fund I, Llc Contextual information encoded in a formed expression
US7813597B2 (en) 2005-03-18 2010-10-12 The Invention Science Fund I, Llc Information encoded in an expression
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
EP1889207A4 (de) * 2005-05-09 2012-12-12 Google Inc System und verfahren zur ermöglichung der benutzung erfasster bilder durch erkennung
US7783135B2 (en) 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US20080177640A1 (en) 2005-05-09 2008-07-24 Salih Burak Gokturk System and method for using image analysis and search in e-commerce
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US7809192B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7657100B2 (en) 2005-05-09 2010-02-02 Like.Com System and method for enabling image recognition and searching of images
US7760917B2 (en) 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US8732025B2 (en) 2005-05-09 2014-05-20 Google Inc. System and method for enabling image recognition and searching of remote content on display
US7657126B2 (en) * 2005-05-09 2010-02-02 Like.Com System and method for search portions of objects in images and features thereof
US7542610B2 (en) * 2005-05-09 2009-06-02 Like.Com System and method for use of images with recognition analysis
US7660468B2 (en) * 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
WO2007041647A2 (en) * 2005-10-03 2007-04-12 Riya, Inc. System and method for use of images with recognition analysis
US9690979B2 (en) 2006-03-12 2017-06-27 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US8571272B2 (en) * 2006-03-12 2013-10-29 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US20070300295A1 (en) * 2006-06-22 2007-12-27 Thomas Yu-Kiu Kwok Systems and methods to extract data automatically from a composite electronic document
US8233702B2 (en) * 2006-08-18 2012-07-31 Google Inc. Computer implemented technique for analyzing images
US7986843B2 (en) 2006-11-29 2011-07-26 Google Inc. Digital image archiving and retrieval in a mobile device system
US20080162602A1 (en) * 2006-12-28 2008-07-03 Google Inc. Document archiving system
US8416981B2 (en) 2007-07-29 2013-04-09 Google Inc. System and method for displaying contextual supplemental content based on image content
US20090282009A1 (en) * 2008-05-09 2009-11-12 Tags Ltd System, method, and program product for automated grading
KR20110081802A (ko) * 2008-07-14 2011-07-14 구글 인코포레이티드 관심 있는 다른 콘텐츠 아이템들을 식별하기 위해 탐색 기준용 보충 콘텐츠 아이템들을 사용하는 시스템 및 방법
US9396540B1 (en) * 2012-03-28 2016-07-19 Emc Corporation Method and system for identifying anchors for fields using optical character recognition data
US9645729B2 (en) * 2012-10-18 2017-05-09 Texas Instruments Incorporated Precise object selection in touch sensing systems
US9811925B2 (en) 2014-10-15 2017-11-07 Texas Instruments Incorporated Method and apparatus to render lines on a display screen
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7111785B2 (ja) 2020-09-11 2022-08-02 矢崎総業株式会社 雌端子の製造方法
US11823476B2 (en) 2021-05-25 2023-11-21 Bank Of America Corporation Contextual analysis for digital image processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0488489A (ja) * 1990-08-01 1992-03-23 Internatl Business Mach Corp <Ibm> 一般化ハフ変換を用いた文字認識装置および方法
CA2215603A1 (en) * 1995-03-24 1996-10-03 United Parcel Service Of America, Inc. Method and apparatus of removing superimposed lines and restoring pixel values in images containing recurring patterns
US5822454A (en) * 1995-04-10 1998-10-13 Rebus Technology, Inc. System and method for automatic page registration and automatic zone detection during forms processing
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images
JPH09325854A (ja) * 1996-06-05 1997-12-16 Sharp Corp 画像処理型座標入力装置
JP3113827B2 (ja) * 1996-11-28 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 矩形オブジェクトの認識方法及び認識装置
JPH10240958A (ja) * 1996-12-27 1998-09-11 Fujitsu Ltd 画像から管理情報を抽出する管理情報抽出装置および方法
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US6621941B1 (en) * 1998-12-18 2003-09-16 Xerox Corporation System of indexing a two dimensional pattern in a document drawing

Also Published As

Publication number Publication date
DE60120810D1 (de) 2006-08-03
JP2001312500A (ja) 2001-11-09
FR2806814B1 (fr) 2006-02-03
EP1136938A1 (de) 2001-09-26
US7319799B2 (en) 2008-01-15
JP4873787B2 (ja) 2012-02-08
US20010033690A1 (en) 2001-10-25
EP1136938B1 (de) 2006-06-21
FR2806814A1 (fr) 2001-09-28

Similar Documents

Publication Publication Date Title
DE60120810T2 (de) Verfahren zur Dokumenterkennung und -indexierung
DE3650554T2 (de) Speicherungs- und Wiederauffindungsverfahren für Bilddaten
DE69724755T2 (de) Auffinden von Titeln und Photos in abgetasteten Dokumentbildern
DE69329380T2 (de) Verfahren zum Segmentieren von Bildern und Klassifizieren von Bildelementen zur Dokumentverarbeitung
DE3689416T2 (de) Mustermerkmalextraktion.
DE69516751T2 (de) Bildvorverarbeitung für Zeichenerkennungsanlage
DE68922772T2 (de) Verfahren zur Zeichenkettenermittlung.
DE69425607T2 (de) Selektive Einrichtung und Verfahren zur Dokumentenwiederauffindung.
DE69229468T2 (de) Verfahren und Gerät zur Bestimmung der Wortfrequenz in einem Dokument ohne Dokumentbilddekodierung
DE69619606T2 (de) Merkmalermittlungsanlage
DE69230631T2 (de) Verfahren zum Vergleichen von Wortgestalten
DE69610882T2 (de) Blockselektionsystem, bei dem überlappende Blöcke aufgespaltet werden
DE69033079T2 (de) Aufbereitung von Text in einem Bild
DE69425084T2 (de) Verfahren und Gerät zur Erkennung von Textzeilen, Wörtern und räumlichen Merkmalen von Zeichenzellen
DE69230092T2 (de) Verfahren und Gerät zur Zeichenerkennung
DE69230633T2 (de) Verfahren zur Ermittlung von Wortformen zum folgenden Vergleich
DE69630928T2 (de) Vorrichtung und Verfahren zum Anzeigen einer Übersetzung
DE69523970T2 (de) Dokumentspeicher- und Wiederauffindungssystem
DE69423168T2 (de) Spaltensuchverfahren für tabellenförmige Dokumente
DE69523137T2 (de) Verfahren zur handschrift-eingangsverbindung
DE69225678T2 (de) Verfahren und Gerät zur Dokumentbildverarbeitung
DE69616246T2 (de) Automatisches Verfahren zum Identifizieren von Wegfallwörtern in der Abbildung eines Dokumentes ohne Verwendung vom OCR
DE19953608B4 (de) Vorrichtung und Verfahren zum Erkennen eines Fonts eines Textes in einem Dokumentenverarbeitungssystem
DE69429853T2 (de) Verfahren zur Analyse ein Bild definierender Daten
DE69506610T2 (de) Programmierbare Funktionstasten für vernetzten persönlichen Bildcomputer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition