DE69523970T2 - Dokumentspeicher- und Wiederauffindungssystem - Google Patents

Dokumentspeicher- und Wiederauffindungssystem

Info

Publication number
DE69523970T2
DE69523970T2 DE69523970T DE69523970T DE69523970T2 DE 69523970 T2 DE69523970 T2 DE 69523970T2 DE 69523970 T DE69523970 T DE 69523970T DE 69523970 T DE69523970 T DE 69523970T DE 69523970 T2 DE69523970 T2 DE 69523970T2
Authority
DE
Germany
Prior art keywords
image
document
text
grayscale
grayscale image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69523970T
Other languages
English (en)
Other versions
DE69523970D1 (de
Inventor
Harry T. Garland
Roger D. Melen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69523970D1 publication Critical patent/DE69523970D1/de
Application granted granted Critical
Publication of DE69523970T2 publication Critical patent/DE69523970T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

  • Die Erfindung betrifft ein optisches Zeichenerkennungssystem und bezieht sich insbesondere auf Verfahren und Vorrichtungen zum Abtasten und Speichern von Bildern von Dokumenten in einem Computer, zum Segmentieren von Bildern des Dokuments in Text- und Nichttext-Blöcke und zum Ermitteln der Identität von Zeichen in den Textblöcken.
  • In den zurückliegenden Jahren wurde es möglich, Papierkopien von Dokumenten einzuscannen, um computerisierte Bilder solcher Dokumente zu erzeugen, und Bilder in Textbereichen des Dokuments zu analysieren, um individuelle Zeichen in den Textdaten zu erkennen und eine computerlesbare Datei von Zeichencodes entsprechend den erkannten Zeichen zu erzeugen. Solche Dateien können dann in einem Textverarbeitungsprogramm, einem Datenkompressionsprogramm oder in anderen Informationsverarbeitungsprogrammen manipuliert werden, und können darüber hinaus zum Wiedergewinnen der Bilder der Dokumente in Antwort auf ein abfragebasiertes Durchsuchen der Textdaten verwendet werden. Solche Systeme, die nachstehend als "Zeichenerkennungssysteme" bezeichnet werden, sind vorteilhaft, weil sie die Notwendigkeit des Neuschreibens oder anderweitigen Wiedereingebens von Textdaten von den Papierkopien der Dokumente beseitigen. Zum Beispiel ist es möglich, ein Dokument erkennungszuverarbeiten, das durch Telefax übertragen oder von einem Mikrofilm oder durch ein Fotokopiergerät reproduziert wurde, um Computer- Textdateien zu erzeugen, die Zeichencodes (zum Beispiel ASCII- Zeichencodes) der Zeichen und Ziffern in dem Dokument enthalten.
  • Konventionelle Zeichenerkennungssysteme tasten die Papierkopie des Dokuments ab, um ein Binärbild des Dokuments zu erzeugen. "Binärbild" bedeutet, daß jeder Pixel in dem Bild entweder eine binäre Null ist, die einen weißen Bereich des Dokuments repräsentiert, oder eine binäre Eins ist, die einen schwarzen Bereich repräsentiert. Das Binärbild (oder "Schwarz-Weiß- Bild") wird danach einer Erkennungsverarbeitung unterworfen, um die Identität von Zeichen in Textbereichen des Dokuments zu ermitteln.
  • Vor kurzem wurde entdeckt, daß die Erkennungsgenauigkeit dramatisch verbessert werden kann, wenn das Papierdokument so abgetastet wird, daß ein Graustufenbild des Dokuments erzeugt wird. "Graustufen" bedeutet, daß jeder Pixel des Dokuments nicht durch entweder eine binäre Eins oder eine binäre Null repräsentiert wird, sondern anstelle dessen durch irgendeines von mehr als zwei Intensitätsniveaus repräsentiert wird, wie beispielsweise irgendeines von vier Intensitätsniveaus, 16 Intensitätsniveaus oder 256 Intensitätsniveaus. Ein solches System ist in der Druckschrift EP-A-640934 "OCR Classification Based On Transition Ground Data", veröffentlicht am 1. März 1995, beschrieben. In manchen Fällen verbessert die Verwendung von Graustufenbildern von Dokumenten anstelle von Binärbildern die Erkennungsgenauigkeit von einem Fehler pro Dokumentseite auf weniger als einen Fehler pro 500 Dokumentseiten.
  • Fig. 1 veranschaulicht den Unterschied zwischen Binärbildern und Graustufenbildern und unterstützt das Verstehen, wie die vorstehend erwähnte Verbesserung der Erkennungsgenauigkeit erhalten wird. Fig. 1(a) veranschaulicht ein Zeichen "a", dem ein Gitter 1 überlagert ist, das die Pixelauflösung repräsentiert, mit der das Zeichen "a" durch eine lichtempfindliche Einrichtung wie beispielsweise ein CCD-Feld abgetastet wird. Zum Beispiel kann das Gitter 1 eine Auflösung von 400 Punkten pro Zoll (dot per inch, dpi; 1 Zoll = 2,54 cm) repräsentieren. Ein Binärbild des Zeichens "a" wird, wie in Fig. 1(b) gezeigt, durch Zuweisen einer binären Eins oder einer binären Null zu jedem Pixel in Abhängigkeit davon erzeugt, ob das Zeichen "a" die lichtempfindliche Einrichtung für den Pixel ausreichend abdunkelt, um diesen Pixel zu aktivieren. Folglich liegt ein Pixel 2a in Fig. 1(a) vollständig innerhalb eines schwarzen Abschnitts des Zeichens "a" und resultiert in einem schwarzem Pixel 2b in Fig. 1(b). Andererseits ist ein Pixel 3a vollkommen unbedeckt und resultiert in einem weißem Pixel 3b. Ein Pixel 4a ist teilweise abgedeckt, aber nicht ausreichend abgedeckt, um diesen Pixel zu aktivieren, und resultiert daher in einem weißen Pixel 4b. Andererseits ist ein Pixel 5a ausreichend abgedeckt, um ihn zu aktivieren, und resultiert in einem schwarzem Pixel 5b.
  • Fig. 1(c) zeigt ein Graustufenbild des gleichen Zeichens "a". Wie in Fig. 1(c) gezeigt, resultieren Pixel, die vollständig abgedeckt (2a) oder unbedeckt (3a) sind, in vollständig schwarzen oder weißen Graustufenniveaus, gleich wie in Fig. 1(b). Andererseits wird Pixeln, die teilweise abgedeckt sind, ein Graustufenniveau zugewiesen, das das Ausmaß der Abdeckung repräsentiert. Folglich erhalten aufgrund der relativen Abdeckung von Pixeln 4a bzw. 5a in Fig. 1(c), die ein vierstufiges Graustufenbild zeigt, ein Pixel 4c einen niedrigen Graustufenwert und ein Pixel 5c einen höheren Graustufenwert. Folglich kann wegen eines Artefakts des Abtastprozesses ein ursprünglich schwarzweißes Dokument, wie in Fig. 1(a) gezeigt, in ein Graustufenbild wie in Fig. 1(c) gezeigt abgetastet werden, mit Graustufenwerten, die primär an Zeichenrändern zugewiesen und von der Abdeckung der Pixel abhängig sind.
  • Ein Vergleich der Fig. 1(b) und 1(c) zeigt, daß in Fig. 1(c) speziell an Zeichenrändern zusätzliche Details vorhanden sind. Diese zusätzlichen Details sind primär für eine verbesserte Erkennungsgenauigkeit verantwortlich.
  • Ein Problem bleibt jedoch weiter dahingehend, wie einzelne Graustufenbilder von Zeichen aus einem Graustufenbild eines Dokuments zu extrahieren sind, um das einzelne Graustufenzeichenbild zur Erkennungsverarbeitung zu senden. Im einzelnen hängt die Erkennungsgenauigkeit stark von der Fähigkeit ab, zu ermitteln, wo ein Zeichen beginnt und ein anderes endet, so daß nur ein einzelnes Zeichen anstelle einer Gruppe von Zeichen der Erkennungsverarbeitung unterworfen wird.
  • Fig. 2 veranschaulicht diese Situation und zeigt eine Seite eines repräsentativen Dokuments. In Fig. 2 ist ein Dokument 10 in einem zweispaltigen Format angeordnet. Das Dokument umfaßt Titelblöcke 12, welche Textinformationen großer Zeichensatzgröße beinhalten, die für Titel geeignet sind, einen Bildblock 13, welcher ein Farb- oder Halbtonbild beinhaltet, Textblöcke 14, welche Zeilen einzelner Zeichen von Textinformationen beinhalten, einen Grafikblock 15, welcher grafische Bilder beinhaltet, die kein Text sind, einen Tabellenblock 16, welcher Tabellen von Text oder numerischen Informationen beinhaltet, die von Nichttexträndern oder Rahmen umgeben sind, und Bildunterschriftenblöcke 17, welche Textinformationen einer kleinen Zeichensatzgröße beinhalten, die für Bildunterschriften geeignet und normalerweise Blöcken von grafischen oder tabellarischen Informationen zugeordnet sind.
  • Wenn das Dokument 10 vor der Erkennungsverarbeitung abgetastet wird, um ein Graustufenbild des Dokuments zu erzeugen, ist es notwendig, zu ermitteln, welche Bereiche des Graustufenbilds Textbereiche und welche keine Textbereiche sind, und darüber hinaus für die Textbereiche zu ermitteln, wo sich einzelne Zeichen befinden. Diese Verarbeitung wird nachstehend als "Segmentierungsverarbeitung" bezeichnet. Erst nachdem die Segmentierungsverarbeitung einzelne Zeichen lokalisiert hat, können die Bilder dieser Zeichen der Erkennungsverarbeitung unterworfen werden, um die Zeichen zu identifizieren und eine Textdatei der Zeichen zu erzeugen.
  • Konventionelle Segmentierungsverarbeitungstechniken für Binärbilder sind generell dahingehend unbefriedigend, daß sie Textbereiche nicht präzise von Nichttextbereichen trennen und die Lage einzelner Zeichen in den Textbereichen nicht präzise identifizieren. Außerdem sind gegenwärtig keine Segmentierungsverarbeitungstechniken für Graustufenbilder bekannt.
  • NTT Review, Band 4, Nr. 6, 1. November 1992, Seiten 97 bis 102, XP 000329008, Yoshihiro Isomura et al., "Remote Accessible Image Document Filing Systems" offenbart ein Bilddokumentablagesystem, bestehend aus einer UNIX-Arbeitsstation, einem Platten-Subsystem mit wiederbeschreibbaren magneto-optischen Platten, einer Codierer- und Decodierer (CODEC)-Karte, Zeichenerkennungshardware und einem schnellen Bildscanner. Falls das einzuscannende Dokument ein Deckblatt aufweist, findet die Anwendung die Deckblattmarkierung, und die Erkennungshardware erkennt dieses. Das System verwendet diesen erkannten Text als den Namen und den Seitenzählwert des Dokuments, es kann jedoch ein beliebiger Schlüsselworttext erkannt werden. Der Dokumentname wird als der Dateiname auf der optischen Platte verwendet. Das Profil eines beliebigen Dokuments in der Datenbank kann als Deckblatt ausgedruckt werden. Auf der optischen Platte gespeicherte Dokumente sind mit der Dokumentdatenbank verknüpft, weil ein gemeinsamer Name für den Dokumentnamen und den Dateinamen verwendet wird.
  • Computer, Band 25, Nr. 7, 1. Juli 1992, Seiten 10 bis 22, XP 000307116, Nagy G et al., "A Prototype Document Image Analysis System For Technical Journals" offenbart ein System, das einen Fernzugriff auf gespeicherte technische Dokumente bereitstellen kann. Eine Seite wird entweder lokal eingescannt oder von einer CD-ROM erhalten. Bilder von Textblöcken werden unter Verwendung einer optischen Zeichenerkennung erkannt und umgewandelt, um eine sekundäre (ASCII-) Dokumentdarstellung zu erhalten. Weil zu viele visuelle Layout-Schlüsselinformationen (einschließlich einiger spezieller Zeichen) in dem Prozeß der optischen Zeichenerkennung verloren gehen, bewahrt das System die ursprünglichen Blockbilder zum Durchblättern durch einen Menschen. Die duale Textbilddarstellung stellt Möglichkeiten bereit, den Dokumentzugriff zu verbessern. Beispielsweise dann, wenn der Benutzer auf die Erwähnung einer Figur in dem Text trifft, bringt ein Druck auf die Maustaste die Figur in einem separaten Fenster auf den Bildschirm. Alternativ können alle in einem beliebigen Textabsatz auf dem Bildschirm erwähnten Figuren gleichzeitig mit verringerter Auflösung angezeigt werden.
  • Weil die Erkennungsverarbeitungstechniken eine Auflösung des Dokumentbilds erfordern, die viel höher ist als für normale menschliche visuelle Schärfewahrnehmung notwendig wäre, ist ein Gesichtspunkt der Erfindung auf ein Dokumentspeichersystem gerichtet, welches im Vergleich zu konventionellen Systemen den benötigten Speicherplatz reduziert. In Ubereinstimmung mit diesem Gesichtspunkt der Erfindung wird eine Dokumentspeichervorrichtung bereitgestellt, umfassend:
  • eine Erhalteeinrichtung zum Erhalten eines Bilds eines Dokuments mit einer ersten Auflösung, wobei die erste Auflösung zur optischen Erkennungsverarbeitung von Text in dem Dokument geeignet ist;
  • eine optische Erkennungsverarbeitungseinrichtung zum optischen Erkennen von Text in dem Bild und zum Erhalten einer computerlesbaren Datei von Zeichencodes für den Text;
  • dadurch gekennzeichnet, daß
  • die Erhalteeinrichtung zum Erhalten eines Graustufenbilds des Dokuments angeordnet ist und die optische Erkennungsverarbeitungseinrichtung zum optischen Erkennen von Text in dem Graustufenbild angeordnet ist; und
  • die Vorrichtung ferner umfaßt:
  • eine Reduziereinrichtung, die zum wesentlichen Reduzieren des Graustufenbilds auf eine zweite, für visuelle Wahrnehmung und Reproduktion des Graustufenbilds ausreichende Auflösung ausgelegt ist; und
  • eine Einrichtung zum Speichern des reduzierten Graustufenbilds in einer Speichereinrichtung in Zuordnung zu der computerlesbaren Textdatei derart, daß das reduzierte Graustufenbild auf der Grundlage einer Suche der Textdatei wieder aufgefunden werden kann. Nur das Bild mit verringerter Auflösung wird gespeichert, und wird in Zuordnung zu der computerlesbaren Datei gespeichert, so daß das Bild später unter Verwendung einer abfragebasierten Suche wiedergewonnen werden kann.
  • Dank dieser Anordnung werden, da ein Bild mit geringerer Auflösung gespeichert wird, Speicherplatzanforderungen reduziert, und können mehr Bilder gespeichert werden. Außerdem wird die Verarbeitungsgeschwindigkeit erhöht, da die Menge von Bilddaten kleiner ist und diese schneller bewegt, komprimiert und dekomprimiert und anderweitig verarbeitet werden kann.
  • Einzelne Zeichen in einem Graustufenbild eines Dokuments werden zur Erkennungsverarbeitung durch Schwellenwertverarbeiten des Graustufenbilds extrahiert, um ein Binärbild zu erhalten, das Binärbild wird segmentierungsverarbeitet, um einzelne Zeichen in dem Binärbild zu lokalisieren und die Form der einzelnen Zeichen zu ermitteln, und der Ort und die Form des Binärbilds wird zum Extrahieren des Graustufenbilds jedes einzelnen Zeichens aus dem Graustufenbild verwendet. Das extrahierte Graustufenbild jedes Zeichens wird dann der Erkennungsverarbeitung unterworfen.
  • Folglich identifiziert ein Zeichenerkennungssystem Zeichen in einem Dokument, in welchem die Zeichen ausgebildet sind, dürch Abtasten des Dokuments zum Erhalten eines Graustufenbilds des Dokuments, und durch Erzeugen eines Binärbilds aus dem Graustufenbild durch Vergleichen des Graustufenbilds mit einem Schwellenwert. Das Binärbild wird segmentiert, um einzelne Zeichen innerhalb des Binärbilds zu lokalisieren und die Form der einzelnen Zeichen zu bestimmen. Auf der Grundlage des Orts und der Form des Zeichens in dem Binärbild werden Graustufenbildinformationen aus dem Graustufenbild für jedes solche einzelne Zeichen extrahiert. Das extrahierte Graustufenbild wird dann erkennungsverarbeitet, um die Identität des Zeichens zu ermitteln, und die Identität des Zeichens wird in einer computerlesbaren Datei gespeichert.
  • Verbesserte Erkennungsgenauigkeit kann auch durch nicht nur Erkennungsverarbeiten des Graustufenbilds des Zeichens, wie vorstehend beschrieben wurde, sondern durch zusätzliches Erkennungsverarbeiten des Binärbilds des Zeichens erhalten werden. Irgendwelche Inkonsistenzen zwischen den aus dem Graustufenbild und dem Binärbild ermittelten Identitäten werden auf der Grundlage von physikalischen Bildattributen, wie beispielsweise Seitenverhältnis und Pixeldichte, des Binärbilds des Zeichens aufgelöst (oder "eindeutig gemacht").
  • Zusätzliche Erkennungsgenauigkeit kann durch Ermitteln von Zeichensatzeigenschaften der Zeichen erhalten werden, beispielsweise durch Ermitteln, ob die Zeichen gleichmäßig beabstandet, proportional beabstandet, oder sans-serif oder dergleichen sind. Auf der Grundlage der Zeichensatzeigenschaften wird eine von mehreren Erkennungsverarbeitungstechniken ausgewählt, und wird, wenn jedes Zeichen extrahiert wird, wie vorstehend beschrieben wurde, das extrahierte Zeichen der Erkennungsverarbeitung in Übereinstimmung mit der ausgewählten Erkennungsverarbeitungstechnik unterworfen.
  • Wenn ein Text in einem Dokument identifiziert und als computerlesbare Datei gespeichert worden ist, kann diese Textdatei dazu verwendet werden, das Dokumentbild wiederzugewinnen, beispielsweise unter Verwendung einer abfragebasierten Suche, um ein entsprechendes Dokumentbild wiederzugewinnen.
  • Diese kurze Zusammenfassung wurde bereitgestellt, damit die Natur der Erfindung schnell verstanden werden kann. Ein vollständigeres Verständnis der Erfindung kann unter Bezugnahme auf die folgende ausführliche Beschreibung des bevorzugten Ausführungsbeispiels derselben in Verbindung mit den angefügten Zeichnungen erhalten werden. Es zeigen:
  • Fig. 1(a), 1(b) und 1(c) Ansichten zum Erklären von Unterschieden zwischen Binärbildern und Graüstufenbildern;
  • Fig. 2 eine Darstellung einer repräsentativen Dokumentseite;
  • Fig. 3 eine teilweise ausgeschnittene Ansicht der äußeren Erscheinung eines persönlichen bildgebenden Computersystems gemäß der Erfindung;
  • Fig. 4 ein Diagramm, das eine Netzwerkverbindung der Vorrichtung nach Fig. 3 erklärt;
  • Fig. 5 ein ausführliches Blockdiagramm des internen Aufbaus der Vorrichtung nach Fig. 3;
  • Fig. 6 und 7 Nahansichten des Steuerfelds der Vorrichtung nach Fig. 3;
  • Fig. 8 ein Ablaufdiagramm zum Erklären der Speicherung und Wiedergewinnung eines Dokuments;
  • Fig. 9-1, 9-2 und 9-3 Ablaufdiagramme zum Erklären einer optischen Zeichenerkennung gemäß einem Ausfühtungsbeispiel der Erfindung;
  • Fig. 10(a) und 10(b) Ablaufdiagramme zum Erklären, wie eine Schräglage von Bildern beseitigt wird;
  • Fig. 11(a), 11(b) und 11(c) repräsentative Ansichten von schrägliegenden und nicht schrägliegenden Pixelbildern;
  • Fig. 12 ein Ablaufdiagramm zum Erklären, wie Binärbilder aus Graustufenbildern durch Schwellenwertbildung zu erzeugen sind;
  • Fig. 13(a) und 13(b) repräsentative Histogramme eines Graustufenbilds;
  • Fig. 14 ein Ablaufdiagramm zum Erklären einer Segmentierungsverarbeitung gemäß einem Ausführungsbeispiel der Erfindung;
  • Fig. 15 eine Ansicht zum Erklären der Ableitung verbundener Komponenten in einem Bild;
  • Fig. 16 für jede verbundene Komponente gespeicherte Bildattribute;
  • Fig. 17 ein Beispiel dafür, wie eine Bildverarbeitung das Bild des Worts "finally" beeinflußt;
  • Fig. 18, die Fig. 18(a) und 18(b) einschließt, ein Ablaufdiagramm zum Erklären einer Unterstrichentfernung;
  • Fig. 19(a) bis 19(e) Ansichten, die aufeinanderfolgende Stufen der Unterstrichentfernung zeigen, und wie diese Stufen ein Bild von unterstrichenen Zeichen beeinflussen;
  • Fig. 20 ein Ablaufdiagramm zum Erklären einer Analyse verbundener Komponenten;
  • Fig. 21 eine Ansicht, die zeigt, wie verbundene Komponenten für ein Bild des Worts "UNION" abgeleitet werden; und
  • Fig. 22, die Fig. 22(a) bis 22(f) einschließt, ein Ablaufdiagramm, das eine regelbasierte Verarbeitung verbundener Komponenten zeigt.
  • Die Struktur eines repräsentativen Ausführungsbeispiels der Erfindung ist in Fig. 3, 4 und 5 gezeigt, und der Betriebsablauf des repräsentativen Ausführungsbeispiels ist in den übrigen Figuren erklärt. Das hier beschriebene Ausführungsbeispiel ist ein "persönliches bildgebendes Computersystem", das heißt eine einzelne selbständige Einrichtung, die Dokumentabtast-, Speicher- und Verarbeitungsausrüstung enthält, welche mit einem computerisierten Lokalbereichsnetzwerk bzw. LAN oder einem Fernbereichsnetzwerk bzw. WAN verbindbar ist. Äquivalente Mehrzweckkomponenten können für die hierin beschriebene Ausrüstung substituiert werden. Es ist beispielsweise möglich, einen programmierbaren Mehrzweckcomputer durch geeignete periphere Ausrüstung auszutauschen.
  • [1.1 - Persönliches bildgebendes Computersystem]
  • Fig. 3 ist eine teilweise ausgeschnittene perspektivische Ansicht der äußeren Erscheinung eines persönlichen bildgebenden Computersystems (personal imaging cömputer system, "PICS"), das ein erfindungsgemäßes Graustufenzeichenerkennungssystem integriert. Wie in Fig. 3 gezeigt, umfaßt ein PICS-Gerät 20 in einem Gehäuse einen Dokumentzufuhrabschnitt 21, auf dem ein Stapel papierener Dokumente plaziert werden kann und von dem die papierenen Dokumente blattweise durch einen Dokumentscannerabschnitt 22 zugeführt werden. Der Dokumentscannerabschnitt 22, der bevorzugt einen doppelseitigen Scanner einschließt, tastet jede Dokumentseite unter Verwendung eines CCD-Zeilenfelds ab, um ein Graustufenbild des Dokuments zu erzeugen. Nach dem Abtasten werden die Dokumentseiten auf eine Auswurfablage 23 ausgeworfen, auf der sie gestapelt werden. Darüber hinaus werden leere Dokumentblätter in einer Papiervorratablage 25 (oder in einer nicht gezeigten Papierkassette) durch das PTCS-Gerät 20 über einen Druckerabschnitt 26 hinweg geführt, der Tonerbilder auf den leeren Blättern erzeugt und die neugedruckten Dokumente auf eine Auswurfablage 27 transportiert.
  • Das PIOS-Gerät 20 beinhaltet weiter eine Telefax/ Modem- Schnittstelle (gezeigt in Fig. 5), durch welche das PICS-Gerät 20 zu einer gewöhnlichen Sprache/Daten-Telefonleitung verbindet, um an einer Daten- und Telefax-Kommunikation mit entfernten Computern teilzunehmen und es einem Bediener zu erlauben, sich an einer gewöhnlichen Sprachkommunikation über einen Telefonhörer 30 zu beteiligen. Schnittstellen sind auch zu einem Lokalbereichsnetzwerk 31 und einem Fernbereichsnetzwerk 32 bereitgestellt, um eine Kommunikation mit Benutzern an entfernten Arbeitsstationen über solche Netzwerke zu erlauben.
  • Bedienersteuerungen und Anzeigen sind an einem Steuerfeld 34 bereitgestellt. Das Steuerfeld 34 beinhaltet einen Flachfeld- Anzeigeschirm 35 wie beispielsweise ein VGA-Flüssigkristall- Anzeigefeld. Eine Navigationskugel bzw. ein Trackball 36 ist bereitgestellt, um es einem Bediener zu erlauben, eine auf dem Anzeigeschirm 35 angezeigte Schreibmarke zu manipulieren, und um es einem Bediener zu erlauben, Objekte auf dem Anzeigebildschirm auszuwählen. Ein gewöhnliches Telefontastenfeld ist bei 33 bereitgestellt, konventionelle Telefax-Steuerknöpfe sind bei 37 bereitgestellt, und Start/Stop-Knöpfe sind bei 38 bereitgestellt. Programmierbare Funktionstasten sind bei 39 bereitgestellt, um es einem Bediener zu erlauben, verschiedene Bildverarbeitungsoperationen des PICS-Geräts 20 zu steuern.
  • Das PICS-Gerät 20 beinhaltet einen (in Fig. 5 genauer beschriebenen) Mehrzweckcomputer, durch den ein Bediener in der Lage ist, Dokumente einzulesen, die Dokumente segmentierungszuverarbeiten und erkennungszuverarbeiten, um Textdateien entsprechend Textbereichen in den Dokumenten zu erzeugen, Dokumentbilder auszudrucken, Dokumentbilder und Textdateien über den Trackball 36 und den Anzeigeschirm 35 zu manipulieren, und Dokumente und Bilder durch Telefax zu senden und zu empfangen. Andere Informationsverarbeitungstechniken, wie beispielsweise eine Textverarbeitung, eine Bildverarbeitung und eine Tabellenverarbeitung, können durch den Bediener in Übereinstimmung mit in das PICS-Gerät 20 geladener Software ausgeführt werden, wodurch dem Bediener ein mächtiges persönliches bildgebendes Computersystem zusammen mit einem Mehrzweck-Computersystem für andere Informationsverarbeitungsprojekte bereitgestellt wird.
  • [1.2 - Computerisierte Netzwerkverbindung]
  • Wenn es mit einem Lokalbereichsnetzwerk 31 und/oder einem Fernbereichsnetzwerk 32 verbunden ist, stellt das PICS-Gerät 20 die vorstehend beschriebenen Fähigkeiten für computerisierte Netzwerkbenutzer bereit. Im einzelnen kann, wie in Fig. 4 gezeigt, ein PICS-Gerät 20 mit einem Lokalbereichsnetzwerk 31 verbunden sein. Mehrere Arbeitsstationen, wie beispielsweise die Arbeitsstationen 40, sind ebenfalls mit dem Lokalbereichsnetzwerk 31 verbunden, und gesteuert durch das Netzwerkbetriebssystem sind die Arbeitsstationen 40 in der Lage, auf die bildgebenden Fähigkeiten des PICS-Geräts 20 zuzugreifen. Eine der Arbeitsstationen, wie beispielsweise die Arbeitsstation 43, kann zur Verwendung durch einen Netzwerkverwalter bestimmt sein. Darüber hinaus ist ein Dateiserver 41 mit dem Lokalbereichsnetzwerk 31 verbunden, welcher den Zugriff auf auf einer Netzwerkplatte 42 gespeicherte Dateien verwaltet. Ein Druckserver 44 stellt Druckdienste für Drucker 45 bereit. Andere, nicht gezeigte Peripheriegeräte können mit dem Lokalbereichsnetzwerk 31 verbunden sein. Dank dieser Anordnung können Bediener an einer der Arbeitsstationen 40 ein Dokument unter Verwendung des PICS-Geräts 20 einlesen, das Dokumentbild segmentierungsverarbeiten und erkennungsverarbeiten, um eine Textdatei entsprechend Textbereichen des Dokuments zu erhalten, das Dokumentbild und die zugeordnete Textdatei auf der Netzwerkplatte 42 speichern, das Dokumentbild und seine zugeordnete Textdatei, falls gewünscht, zur Manipulation bzw. Bearbeitung an der Arbeitsstation 40 wiedergewinnen, und das Original oder das manipulierte Dokumentbild und die Textdatei auf einem der Drucker 45 ausdrucken.
  • Typisch bedient ein Lokalbereichsnetzwerk, wie beispielsweise das bei 31 dargestellte, eine mehr oder weniger lokalisierte Gruppe von Benutzern, wie beispielsweise eine Gruppe von Benutzern auf einem Stockwerk oder auf aneinandergrenzenden Stockwerken in einem Gebäude. Wenn Benutzer weiter voneinander entfernt sind, zum Beispiel in verschiedenen Gebäuden oder verschiedenen Staaten, kann ein Fernbereichsnetzwerk geschaffen werden, welches im wesentlichen eine Sammlung mehrerer lokaler Netzwerke ist, die alle durch schnelle digitale Leitungen, wie beispielsweise schnelle ISDN-Telefonleitungen, verbunden sind. Folglich sind, wie in Fig. 4 gezeigt, Lokalbereichsnetzwerke 31, 46 und 48 verbunden, um ein Fernbereichsnetzwerk über einen Modem/Transponder 49 und eine Backbone- Einrichtung 50 zu bilden. Jedes Lokalbereichsnetzwerk beinhaltet seine eigenen Arbeitsstationen, und jedes beinhaltet für gewöhnlich seinen eigenen Dateiserver und Druckserver, obwohl dies nicht notwendigerweise der Fall ist.
  • Folglich beinhaltet, wie in Fig. 4 gezeigt, das Lokalbereichsnetzwerk 46 Arbeitsstationen 51, einen Dateiserver 52, eine Netzwerkplatte 54, einen Druckserver 55, und Drucker 56. Das Lokalbereichsnetzwerk 48 beinhaltet andererseits nur Arbeitsstationen 57. Über Fernbereichsnetzwerkverbindungen können Geräte in einem beliebigen der Lokalbereichsnetzwerke 31, 46 oder 48 auf die Fähigkeiten von Geräten in einem beliebigen der anderen Lokalbereichsnetzwerke zugreifen. Somit ist es zum Beispiel einer der Arbeitsstationen 57 möglich, auf die bildgebenden Fähigkeiten des PICS-Geräts 20 über die Backbone-Einrichtung 50 und den Modem/Transponder 49 zuzugreifen; ebenso ist es einer der Arbeitsstationen 51 möglich, ein Dokumentbild von der Netzwerkplatte 42 zu holen, es der Segmentierungs- und Erkennungsverarbeitung auf dem PICS-Gerät 20 zu unterwerfen, die Ergebnisse an der Arbeitsstation 51 zu empfangen und zu manipulieren, und eine Dokumentation auf einem der Drucker 56 auszudrucken. Andere Kombinationen sind natürlich möglich, so daß die vorstehend erwähnten Beispiele nicht als beschränkend zu betrachten sind.
  • [1.3 - Interner Aufbau]
  • Fig. 5 ist ein ausführliches Blockdiagramm, das den internen Aufbau und die internen Verbindungen des derzeit bevorzugten Ausführungsbeispiels des PICS-Geräts 20 in Übereinstimmung mit der Erfindung zeigt. Wie in Fig. 5 gezeigt, beinhaltet das PICS-Gerät 20 eine zentrale Verarbeitungseinheit ("CPU") 60, wie beispielsweise einen Intel 80486DX-Prozessor oder einen Computer mit reduziertem Befehlssatz (reduced instruction set computer, "RISC"), der mit einem Computerbus 61 verbunden ist. Darüber hinaus sind mit dem Computerbus 61 eine Ethernet- Schnittstelle 62 zum Verbinden zu dem Lokalbereichsnetzwerk 31, eine ISDN-Schnittstelle 64 zum Verbinden zu dem Fernbereichsnetzwerk 32, eine Modem/Telefax/Sprach-Telefonschnittstelle 65 zum Bereitstellen einer geeigneten Modem/Telefax/- Sprach-Telefonschnittstelle zu der Telefonleitung 29, eine Druckerschnittstelle 66 zum Verbinden zu dem Drucker 26, und eine Ablage/Papiertransport-Schnittstelle 67 zum Bereitstellen geeigneter Papiervorschubbefehle zum Transport aus der Dokumentablage 21 über den Scanner 22 und zu der Auswurfablage 23 und zum Transport aus dem Papiervorrat 25 über den Drucker 26 und zu der Auswurfablage 27 verbunden.
  • Eine Anzeigeschnittstelle 69 verbindet zwischen der Anzeige 35 und dem Computerbus 61, und eine Trackball/Tastatur-Schnittstelle 70 stellt eine Schnittstelle zwischen dem Computerbus 61, dem Trackball 36 und den Tasten 39 bereit.
  • Der Computerbus 61 verbindet zu dem Scanner 22 über eine Scannerschnittstelle 71 und einem "fliegend" arbeitenden JPEG ("Joint Photographic Expert Group")-Prozessor 72. Im einzelnen sendet dann, wenn der Scanner 22 ein Dokument abtastet und die Pixeldaten durch die Scannerschnittstelle 71 gesammelt sind, die Scannerschnittstelle 71 die Pixeldaten an den JPEG-Prozessor 72, so daß die Pixeldaten unter Verwendung der JPEG-Kompression komprimiert werden. Die komprimierten Pixeldaten werden auf dem Computerbus 61 bereitgestellt, wodurch der Betriebsablauf der Einrichtung durch Bereitstellen einer fliegenden JPEG-Kompression bei der Abtastung eines Dokuments beschleunigt wird.
  • Für den Kompressionsprozessor 72 wird bevorzugt, die JPEG- Kompression durchzuführen, weil die JPEG-Kompression gut bekannt ist und in der praktischen Anwendung der Erfindung leicht verwendet werden kann. Jedoch sind auch andere Kompressionsarten geeignet, obwohl eine verlustbehaftete Kompression wie JPEG bevorzugt wird.
  • Darüber hinaus kann der JPEG-Prozessor 72 über Befehle auf dem Bus 61 zum Dekomprimieren JPEG-komprimierter Dateien in Bitmap-Pixeldaten konfiguriert werden. Die dekomprimierten Bitmap-Pixeldaten werden dann über eine nicht gezeigte direkte Verbindung an die Druckschnittstelle 66 geliefert. Falls die Druckstation 26 nicht in der Lage ist, Graustufenpixel direkt zu drucken, dann kann ein über Software einstellbarer Schwellenkomparator in der direkten Verbindung bereitgestellt werden, um eine Umwandlung von Graustufenpixeldaten in binäre Pixeldaten bei einem beliebigen wählbaren Schwellenniveau zu erlauben. Dank dieser Anordnung können auf Wunsch JPEG-komprimierte Bilddateien schnell und ohne Notwendigkeit einer Software-Dekomprimierung durch Auslesen der Datei durch den JPEG- Prozessor 72 und daher direkt zur Druckschnittstelle 66, mit binärer Schwellenbewertung, gedruckt werden.
  • Die Platte 75, wie beispielsweise eine 1, 2 Gigabyte-Festplatte, ist mit einem Computerbus 71 über eine SCSI ("Small Computer Systems Interface")-Schnittstelle 76 verbunden. Auf der Platte sind sowohl Datendateien, wie beispielsweise Binär-, Graustufen- und Farbbilddatendateien, als auch Textdatendateien sowie gespeicherte Programmanweisungssequenzen, durch die die CPU 60 diese Datendateien manipuliert und erzeugt, gespeichert. Insbesondere beinhaltet die Platte 75 gespeicherte Programmanweisungssequenzen, welche Graustufenbilder von Dokumenten segmentierungsverarbeiten, um zwischen Text- und Nichttextbereichen des Dokumentbilds zu unterscheiden und um einzelne Zeichen aus den Textbereichen zu extrahieren, und gespeicherte Programmanweisungssequenzen, welche Bilder von Zeichen erkennungsverarbeiten, um die Identität der Zeichen zu ermitteln. Geeignete Erkennungsverarbeitungstechniken beinhalten - ohne Einschränkung hierauf - Merkmal- und/oder Typenanschlag-Extraktionssysteme, die Merkmal- und/oder Typenanschlag-Informationen aus Zeichenbildern zum Vergleich mit Wörterbüchern solcher Informationen extrahieren, neuronale Netzwerk-Erkennungssysteme, welche menschliche neuronale Zwischenverbindungen nachahmen, um Zeichenbilder zu identifizieren, und hybride Systeme, welche Aspekte sowohl der Merkmal/Typenanschlag-Erkennängssysteme als auch der neuronalen Netzwerk- Erkennungssysteme enthalten.
  • Ein Nur-Lese-Speicher ("ROM") 77 ist mit dem Computerbus 61 verbunden, um die CPU 60 mit spezialisierten und invarianten Funktionen wie beispielsweise Hochfahrprogrammen oder BIOS- Programmen zu versorgen. Ein Hauptspeicher mit wahlfreiem Zugriff ("RAM") 79 versorgt die CPU 60 bedarfsweise mit Speicherplatz sowohl für Daten als auch für Anweisungssequenzen. Insbesondere lädt dann, wenn gespeicherte Prögrammanweisungssequenzen wie beispielsweise Segmentierungsprogramme oder Zeichenerkennungsprogramme ausgeführt werden, die CPU 60 normalerweise diese Anweisungssequenzen von der Platte 75 (oder in dem Fall eines Netzwerkzugriffs von anderen Programmspeichermedien) in das RAM 79 und führt diese gespeicherten Programmanweisungssequenzen aus dem RAM aus. Arbeitsspeicherbereiche für die Datenmahipulation sind ebenfalls in dem RAM bereitgestellt und beinhalten, wie in Fig. 5 gezeigt, Arbeitsspeicherbereiche für Graustufenbilder, Binärbilder, verbundene Komponenten und Textdateien.
  • [2.0 - Betrieb]
  • Nachstehend wird der Betrieb des vorstehend beschriebenen repräsentativen Ausführungsbeispiels der Erfindung in Zusammenhang mit den übrigen Fig. 6 bis 22 beschrieben. Im allgemeinen werden in Übereinstimmung mit Bedieneranweisungen -- welche normalerweise über die Tastatur/Trackball-Schnittstelle 70 empfangen werden, die aber auch von anderen Quellen, wie beispielsweise über das Lokalbereichsnetzwerk 31, das Fernbereichsnetzwerk 32 oder über die Telefonleitung 29, durch Modem- oder DMTF-Befehle empfangen werden können - gespeicherte Anwendungsprogramme ausgewählt und aktiviert, um die Verarbeitung und Manipulation von Daten zu ermöglichen. Zum Beispiel können beliebige einer Vielfalt von Anwendungsprogrammen, wie beispielsweise Segmentierungsverarbeitungsprogramme, Erkennungsverarbeitungsprogramme, Textverarbeitungsprogramme, Bildbearbeitungsprogramme, Tabellenprogramme und ähnliche Informationsverarbeitungsprogramme, für die Auswahl und die Verwendung durch den Bediener bereitgestellt sein. Folglich kann ein Segmentierungsverarbeitungsprogramm aktiviert werden, durch welches ein Dokument durch den Scanner 22 abgetastet und ein Graustufenbild des Dokuments in dem RAM 79 gespeichert wird. Das Graustufenbild wird dann in Übereinstimmung mit den gespeicherten Programmanweisungen segmentierungsverarbeitet, wodurch Text- und Nichttextbereiche des Dokuments identifiziert und einzelne Zeichen aus den Textbereichen extrahiert werden. Danach können Erkennungsverarbeitungsprogramme aktiviert werden, welche die extrahierten Zeichenbilder erkennungsverarbeiten, um die Zeichen zu identifizieren und diese in einer Textdatei zu speichern. Die resultierende Textdatei kann dann dem Bediener zur Durchsicht und/oder Manipulation mit anderen Anwendungsprogrammen, wie beispielsweise Textverarbeitungsprogrammen, präsentiert werden, oder kann auf die Platte oder über das Lokalbereichsnetzwerk 31, das Fernbereichsnetzwerk 32 oder die Telefonleitung 29 gespeichert werden.
  • [2.1 - Programmierbare Funktionstasten]
  • Fig. 6 und 7 sind Nahansichten des Steuerfelds 34 in Zusammenhang mit der Verwendung und Programmierung von programmierbaren Funktionstasten 39.
  • Wie vorstehend erwähnt wurde, ist das PICS-Gerät 20 eine netzwerkfähige Einrichtung und kann von beliebigen verschiedener Netzwerkbenutzer, die sich gewöhnlich entfernt von dem PICS- Gerät 20 befinden, verwendet werden. Demzufolge trägt dann, wenn Dokumente von dem PICS-Gerät 20 verarbeitet werden müssen, ein Benutzer gewöhnlich die Dokumente von seiner Arbeitsstation zu dem PICS-Gerät 20. Es wird als zweckmäßig erachtet, es dem Benutzer zu erlauben, die genauen Dokumentverarbeitungsfunktionen, die von dem PICS-Gerät 20 durchgeführt werden werden, von der Arbeitsstation des Benutzers aus zu programmieren, so daß diese Verarbeitungsfunktionen durch das PICS- Gerät 20 mit minimalem Aufwand des Benutzers ausgeführt werden können, wenn der Benutzer physisch an dem PICS-Gerät 20 anwesend ist. Andererseits gibt es eine Zeitspanne zwischen dem Zeitpunkt, an dem der Benutzer die Bildverarbeitungsaufgaben definiert, die von dem PICS-Gerät 20 durchgeführt werden werden, und dem Zeitpunkt, in dem der Benutzer physisch an dem PICS-Gerät 20 angekommen ist, um diese Bildverarbeitungsaufgaben auszuführen; andere Benutzer sollten während dieser Zeitspanne nicht von der Benutzung des PICS-Geräts 20 ausgeschlossen sein.
  • Wie hierin beschrieben wurde, beinhaltet das PICS-Gerät 20 bevorzugt programmierbare Funktionstasten 39, welche durch Netzwerkbenutzer von ihren einzelnen Arbeitsstationen programmiert werden können, und welche durch die Netzwerkbenutzer ausgewählt werden können, wenn sie physisch an dem PICS-Gerät 20 zur Bildverarbeitung eintreffen. Die Bildverarbeitungsaufgaben können die Abtastung neuer Dokumente durch den Scanner 22 des MCS-Geräts 20, die Wiedergewinnung vorhandener Dokumentbilder aus verschiedenen Netzwerkspeichermedien, die Erkennungsverarbeitung von Dokumentbildern, um Textdateien zu erzeugen, und die Speicherung von Textdateien in verschiedenen Netzwerkspeichermedien, sowie verwandte Aufgaben, wie beispielsweise die Ausführung anderer Informationsverarbeitungsprogramme, wie beispielsweise Tabellen- oder berichterzeugende Textverarbeitungsprogramme, welche die gespeicherten Textdateien verwenden, beinhalten. Die Funktionstasten 39 können so programmiert werden, daß sie einige oder alle dieser Bildverarbeitungsaufgaben zusammenketten, um eine makroähnliche Fähigkeit bereitzustellen, durch welche eine Folge von Bildverarbeitungsaufgaben oder verwandten Aufgaben durch Berührung einer einzigen Funktionstaste 39 ausgeführt wird.
  • Bevorzugt sind die programmierbaren Funktionstasten 39 in zwei Gruppen aufgeteilt, wobei eine der Gruppen durch nur den Netzwerkverwalter 43 programmierbar ist und die andere der Gruppen durch einen beliebigen LAN-Benutzer programmierbar ist. Die genauen Bildverarbeitungsfunktionen, die durch eine beliebige der Tasten durchgeführt werden, können auf Wunsch auf der Anzeige 35 angezeigt werden.
  • Kurz gesagt werden die Fig. 6 und 7 zum Erklären eines persönlichen bildgebenden Computersystems verwendet, welches mit einem Lokalbereichsnetzwerk verbindbar ist und welches eine Erkennungsverarbeitung von Dokumentbildern durchführt, um Zeichen in den Dokumentbildern zu identifizieren. Eine Vielzahl programmierbarer Funktionstasten sind auf dem persönlichen bildgebenden Computer bereitgestellt, wobei jede der Funktionstasten durch einen Bediener manipulierbar ist, um das bildgebende Computersystem zu veranlassen, eine vorprogrammierte Bildverarbeitungsaufgabe durchzuführen. Die vielfachen programmierbaren Funktionstasten sind in zumindest zwei Gruppen gegliedert, wobei die erste Gruppe nur durch einen Netzwerkverwalter für das LAN programmierbar ist, und wobei die zweite Gruppe durch einen beliebigen LAN-Benutzer programmierbar ist. Eine Anzeigeeinrichtung ist zum Anzeigen eines Bilds der vielfachen Funktionstasten bereitgestellt. In Antwort auf die Auswahl eines Bilds einer der vielfachen Funktionstasten durch den Bediener zeigt die Anzeigeeinrichtung die durch diese Taste durchgeführte Funktion an.
  • Insbesondere wird, wie in Fig. 6 gezeigt, ein Bild 75 von programmierbaren Tasten 39 durch die Anzeige 35 angezeigt. Wie in Fig. 6 weiter gezeigt, ist das Bild in zwei Gruppen gegliedert; eine erste Gruppe 76 von programmierbaren Funktionstasten, die auf die Programmierung nur durch den Netzwerkverwalter 43 beschränkt sind, und eine zweite Gruppe 77 von programmierbaren Funktionstasten, die unbeschränkt und durch einen beliebigen LAN-Benutzer programmierbar sind. Bevorzugt beinhaltet, obwohl in Fig. 6 nicht gezeigt, jede bei 75 gezeigte Funktionstaste eine Anzeige einer Benutzeridentifikation für den Benutzer, der gegenwärtig die Taste programmiert hat.
  • Im Betrieb gibt ein Benutzer an seiner Arbeitsstation 40 Bildverarbeitungsaufgaben an, die von dem PICS-Gerät 20 durchgeführt werden sollen, wählt eine der programmierbaren Funktionstasten in der Gruppe 77 aus, und programmiert die Funktionstaste über das Lokalbereichsnetzwerk 31. Dann trägt der Benutzer beliebige Dokumente, die von dem PICS-Gerät 20 verarbeitet werden sollen, an den physischen Ort des PICS-Geräts 20. Bei der Ankunft an dem PICS-Gerät 20 wird dem Benutzer die in Fig. 6 gezeigte Anzeige angezeigt, woraufhin er unter Bezugnahme auf die angezeigten Benutzeridentifikationen die Taste lokalisieren kann, die er programmiert hat.
  • Unter Verwendung des Trackballs 36 kann der Benutzer dann eine beliebige der angezeigten Tasten, die eine durch den Netzwerkverwalter 43 piogrammierte Taste, eine durch ihn selbst programmierte Taste oder eine durch einen beliebigen anderen LAN- Benutzer programmierte Taste einschließen, auswählen. Bei Auswahl einer angezeigten Taste werden die aktuellen Funktionen, die dieser Taste zugeordnet sind, angezeigt, wie bei 78 in Fig. 7 gezeigt. Durch physisches Manipulieren bzw. Betätigen der eigentlichen Funktionstaste 39 führt das PICS-Gerät 20 die angegebene Funktion automatisch durch.
  • [2.2 - Einstellung der Bildauflösung]
  • Fig. 8 ist ein Ablaufdiagramm, das den Betriebsablauf des PICS-Geräts 20 zeigt, in dem ein Dokument mit einer ersten Auflösung abgetastet wird, um ein Graustufenbild des Dokuments zu erzeugen, wobei die erste Auflösung zum Erkennungsverarbeiten von Text in dem Dokument geeignet ist, Zeichenbilder in dem Graustufenbild erkennungsverarbeitet werden, um eine computerlesbare Datei des Texts zu erhalten, die Auflösung des Graustufenbilds auf eine zweite Auflösung reduziert wird, die niedriger als die erste Auflösung und für eine visuelle Wahrnehmung und Wiedergabe des Bilds geeignet ist, und das Bild mit der reduzierten Auflösung in Zuordnung zu der computerlesbaren Textdatei gespeichert wird. Wie bei den übrigen Ablaufdiagrammen in den beigefügten Figuren werden die in Fig. 8 gezeigten Prozeßschritte von der CPU 60 in Übereinstimmung mit gespeicherten Prograrrimanweisungsschritten ausgeführt, die auf der Computerplatte 75 (oder anderen Medien) gespeichert sind und durch die CPU 60 in das RAM 79 zur Ausführung von dort aus übertragen werden.
  • Im einzelnen wird bei Schritt S801 ein Dokument auf der Dokumentablage 21 über den Scanner 22 geführt, um das Dokument abzutasten und ein Bild des Dokuments zu erzeugen. Bevorzugt ist die Auflösung, mit der das Dokument abgetastet wird, für die Erkennungsverarbeitung geeignet, wie beispielsweise 400 dpi. Der fliegend arbeitende JPEG-Prozessor 72 komprimiert das Bild, wenn es eingelesen wird, und das komprimierte Bild wird beispielsweise auf der Platte 75 oder in dem RAM 79 gespeichert.
  • Bei Schritt S802 wird das Dokumentbild der optischen Zeichenerkennungsverarbeitung unterworfen, um eine Textdatei für Textbereiche des Dokuments zu erzeugen. Die optische Zeichenerkennungsverarbeitung wird nachstehend in zusätzlichen Einzelheiten unter Bezugnahme auf Fig. 9-1, 9-2 und 9-3 in Abschnitt 2.3 beschrieben.
  • Bei Schritt S803 wird die Auflösung des Dokumentbilds reduziert, um die Speicheranforderungen für das Dokumentbild zu verringern. Bevorzugt wird die Auflösung so verringert, daß sie für visuelle Wahrnehmung durch menschliche Bediener und für adäquate Wiedergabe durch Anzeigen auf einem Computerbildschirm oder Drucken auf Papier geeignet ist. Derzeit werden 70 dpi bevorzugt. Techniken zum Verringern der Bildauflösung sind bekannt, und es wird bevorzugt, eine Technik auszuwählen, die in möglichem Umfang jeden beliebigen Farb- oder Graustufeninhalt in dem ursprünglichen Bild bewahrt. Geeignete Techniken können auch Fehlerverteilungsverfahren, wie beispielsweise das Burkes- oder Stucki-Verfahren, verwenden, um das Aussehen des Bilds mit verringerter Auflösung zu verbessern.
  • Bei Schritt S804 wird das Dokumentbild mit verringerter Auflösung in nach Wunsch komprimierter oder unkomprimierter Form in Zuordnung zu der Textdatei aus Schritt S802 gespeichert. Die Speicherung kann auf die Platte 75 erfolgen, jedoch werden das Dokumentbild und seine zugeordnete Textdatei stärker bevorzugt auf einer von Netzwerkplatten 42 oder 54 als Teil einer durchsuchbaren Datenbank gespeichert.
  • Folglich kann, wie in Schritt S805 gezeigt, das Dokumentbild beispielsweise in Antwort auf ein abfragebasiertes Suchen in der Textdatei wiederhergestellt werden. Im einzelnen werden auf der Grundlage von Schlüsselwortsuchen oder anderen Suchen, die in Antwort auf Bedienerabfragen durchgeführt werden, Textdateien in der Datenbank gesucht, um Textdateien zu identifizieren, die durch Bediener eingegebene Abfragen erfüllen. Nachdem solche Textdateien identifiziert sind, werden zugeordnete Dokumentbilder wiedergewonnen und die Dokumentbilder dem Bediener in einer gewünschten Form, wie beispielsweise durch Anzeigen oder Drucken, präsentiert.
  • Weil das Dokument mit einer Auflösung eingelesen wird, die für die Erkennungsverarbeitung ausreichend ist, dann aber mit einer verringerten Auflösung zusammen mit einer zugeordneten Textdatei gespeichert wird, werden die Speicheranforderungen zum Speichern großer Datenbanken solcher Dokumente signifikant verringert.
  • [2.3 - Optische Zeichenerkennungsverarbeitung -- Zusammenfassung]
  • Fig. 9-1, 9-2 und 9-3 fassen die optische Zeichenerkennungsverarbeitung zusammen, durch welche Zeichen in einem Dokument identifiziert werden, wie vorstehend bei Schritt S802 beschrieben wurde. Kurz gesagt wird in Übereinstimmung mit einer beliebigen der Fig. 9 ein Dokument abgetastet, um ein Graustufenbild des Dokuments zu erhalten, wird ein Binärbild aus dem Graustufenbild durch Vergleichen des Graustufenbilds mit einer Schwelle erzeugt, wird das Binärbild segmentiert, um einzelne Zeichen innerhalb des Binärbilds zu lokalisieren und die Form der einzelnen Zeichen zu ermitteln, und wird Graustufenbildinformation für jedes einzelne Zeichen aus dem Graustufenbild unter Verwendung des Orts und der Form des Zeichens in dem Binärbild als Schablone extrahiert. Die extrahierte Graustufenbildinformation wird dann erkennungsverarbeitet, um die Identität des Zeichens zu ermitteln, und die Identität des Zeichens wird gespeichert.
  • Folglich wird, wie in Fig. 9-1 bei Schritt S901 gezeigt, ein Graustufenbild eines Dokuments eingegeben. Bevorzugt wird, um das Graustufenbild eines Dokuments einzugeben, das Dokument durch den Scanner 22 abgetastet, jedoch ist es ebenfalls möglich, ein Dokumentbild einzugeben, das anderswo erzeugt wurde, zum Beispiel ein Dokumentbild, das an einem entfernten Ort abgetastet und über die Telefonleitung 29, das Lokalbereichsnetzwerk 31 oder das Fernbereichsnetzwerk 32 an das PICS-Gerät 20 übertragen wurde.
  • Bei Schritt S902 wird das abgetastete Bild schräglagekorrigiert bzw. geradegerichtet. Eine Bildschräglage kann aus einer falschen Abtastung des Dokuments wie beispielsweise durch schiefes Führen des Dokumentbilds über den Scanner 22 resultieren, oder kann aus der Abtastung eines Dokuments, das eine fehlausgerichtete Kopie eines beliebigen anderen Originaldokuments ist, resultieren. Was auch immer ihr Ursprung ist, kann eine Schräglage Fehler bei der Zeichenerkennung verursachen, so daß deshalb die gegenwärtige Schräglage bei Schritt S902, wie in näheren Einzelheiten in Abschnitt 2.4 in Verbindung mit Fig. 10 und 11 beschrieben, entfernt wird. In dieser Hinsicht ist es möglich, die Schräglagekorrekturen, die in Schritt S902 durchgeführt werden, zu speichern, so daß die Schräglagekorrekturen nach der Erkennungsverarbeitung des Bilds und in Vorbereitung zur Bildspeicherung (vgl. Schritt S804) "rückgängig" gemacht werden können, jedoch wird für gewöhnlich das schrägliegende Bild einfach verworfen und nur das schräglagekorrigierte Bild behalten.
  • Bei Schritt S903 wird eine Kopie des Graustufenbilds in dem RAM 79 gehalten, damit aus ihm später Graustufenzeichenbilder für die Erkennungsverarbeitung extrahiert werden können (vgl. Schritte S907 und S908).
  • Bei Schritt S904 wird ein Binärbild aus dem Graustufenbild durch Vergleichen des Graustufenbilds mit einer Schwelle abgeleitet. Der Schwellenvergleich wird nachstehend unter Bezugnahme auf Fig. 12 und 13 in Abschnitt 2.5 näher beschrieben. Das so erhaltene Binärbild wird in dem RAM 79 gespeichert.
  • Bei Schritt S905 wird das Binärbild segmentierungsverarbeitet, um zwischen Text- und Nichttext-Bereichen des Dokuments zu unterscheiden und einzelne Zeichen innerhalb von Textbereichen des Dokuments zu lokalisieren. Die Segmentierungsverarbeitung wird nachstehend in Abschnitt 2.6 in Verbindung mit Fig. 14 beschrieben. Auf der Grundlage einzelner Zeichen innerhalb des Binärbilds werden Zeichenschablonen aus der Form der binären Zeichenbilder erhalten (Schritt S906).
  • In Schritt S907 werden Graustufenzeichenbilder aus dem in Schritt S903 gespeicherten Graustufenbild unter Verwendung der in Schritt S906 abgeleiteten Schablonen extrahiert. Die extrahierten Graustufenzeichenbilder werden dann erkennungsverarbeitet (Schritt S908, um jedes einzelne Zeichen in Textbereichen des Dokuments zu identifizieren.
  • In Schritt S915 werden die Zeichenidentitäten in einer computerlesbaren Textdatei, wie beispielsweise im ASCII-Format, gespeichert. Eine Seitenrekonstruktion wird durchgeführt, so daß die Lesereihenfolge der Textdatei die Lesereihenfolge in dem Originaldokument genau widerspiegelt. Zum Beispiel wird, kurz auf Fig. 2 Rückbezug nehmend, als vorteilhaft angesehen, daß einer Textzeile in der linken Spalte keine entsprechende Textzeile in der rechten Spalte folgt, sondern anstelle dessen allen Textzeilen in der linken Spalte alle Textzeilen in der rechten Spalte folgen. Schritt S915 schafft diese Seitenrekonstruktion, um eine korrekte Lesefolge für die Textdatei zu erhalten.
  • In Schritt S916 wird die Textdatei beispielsweise durch Ausgeben auf die Platte 75 oder die Netzwerkplatten 42 und 54 ausgegeben. Wie vorstehend bei Schritt S804 beschrieben wurde, wird die Textdatei häufig in Zuordnung zu ihrer Dokumentdatei gespeichert, um die Wiedergewinnung des Dokuments zu unterstützen.
  • Fig. 9-2 ist ein Ablaufdiagramm einer Zeichenerkennungsverarbeitungssystems, welches eine von mehreren Erkennungstechniken in Übereinstimmung mit Zeichensatzeigenschaften von Zeichen in Textbereichen des Dokuments auswählt. Die ausgewählte Erkennungsverarbeitungstechnik ist speziell auf die Zeichensatzeigenschaften abgestimmt, so daß zum Beispiel dann, wenn die Zeichensatzeigenschaften anzeigen, daß ein Zeichensatz mit einheitlichem Zeichenabstand verwendet wird, eine Erkennungsverarbeitungstechnik für einheitlichen Zeichenabstand ausgewählt wird, während dann, wenn die Zeichensatzeigenschaften anzeigen, daß ein serifenloser Zeichensatz verwendet wird, eine Erkennungsverarbeitungstechnik für serifenlose Zeichen ausgewählt wird.
  • Folglich wird in Übereinstimmung mit dem Zeichenerkennungsverarbeitungssystem von Fig. 9-2, welches die Identität von Zeichen aus Bildern der Zeichen ermittelt, ein Bild eines Dokuments, das Textbereiche beinhaltet, verarbeitet, um Zeilen von Zeichen zu lokalisieren, werden Zeichensatzeigenschaften der Zeichen in jeder Zeile ermittelt, wird eine von mehreren Erkennungsverarbeitungstechniken auf der Grundlage der so ermittelten Zeichensatzeigenschaften ausgewählt, werden einzelne Zeichenbilder aus jeder Zeile extrahiert, und wird jedes extrahierte Zeichenbild in Übereinstimmung mit der ausgewählten Erkennungsverarbeitungstechnik erkennungsverarbeitet.
  • Im einzelnen wird; in Schritten S901, S902, S903, S904, S905, S906 und 5907, ein Graustufenbild eingegeben, wird das Graustufenbild schräglagekorrigiert, wird eine Kopie des schräglagekorrigierten Bilds aufbewahrt, wird ein Binärbild durch globale Schwellenbewertung abgeleitet, wird das Binärbild segmentierungsverarbeitet, um Zeichenbilder zu lokalisieren, werden Zeichenschablonen aus der Form der Binärbilder erhalten, und werden Zeichen aus dem Graustufenbild unter Verwendung der Schablonen extrahiert, alles wie vorstehend in Bezug auf Fig. 9-1 beschrieben.
  • In Schritt S909 werden Zeichensatzeigenschaften von Zeichen in einer Zeile ermittelt. Die Ermittlung kann auf der Grundlage von während der Segmentierungsverarbeitung ermittelten Zeichenattributen erfolgen oder auf der Grundlage der extrahierten Zeichen aus dem Binär- oder Graustufenbild durchgeführt werden. Die "Zeichensatzeigenschaften" beinhalten den Zeichenabstand, wie beispielsweise einen gleichmäßigen oder proportionalen Abstand, sowie das Aussehen des Zeichensatzes, wie beispielsweise das eines sans serif- bzw. serifenlosen oder serif- bzw. Serifen enthaltenden Zeichensatzes, Kursivschrift, Fettdruck oder dergleichen.
  • In Schritt S910 wird eine von mehreren Erkennungsverarbeitungstechniken ausgewählt, wobei die ausgewählte Technik auf die in Schritt S909 ermittelten bestimmten Zeichensatzeigenschaften abgestimmt ist. Insbesondere kann dann, wenn bekannt ist, daß der Zeichensatz zum Beispiel Univers ist, welches ein serifenloser Zeichensatz ist, eine Erkennungsverarbeitungstechnik, die speziell auf einen serifenlosen Zeichensatz abgestimmt ist, verwendet werden. Eine solche Erkennungsverarbeitungstechnik ist insbesondere zur Erkennungsverarbeitung serifenloser Zeichen gut geeignet, da zum Beispiel bekannt ist, daß es in einem serifenlosen Zeichensatz weniger sich berührende Zeichen als in einem Serifen aufweisenden Zeichensatz geben wird. Ebenso kann dann, wenn Schritt S909 ermittelt, daß der Zeichensatz ein Zeichensatz mit gleichmäßigem Abstand ist, wie zum Beispiel Courier, eine Erkennungstechnik für gleichmäßigen Abstand ausgewählt werden, welche speziell auf diesen Zeichensatz abgestimmt ist.
  • In Schritt S910 werden extrahierte Graustüfenzeichenbilder unter Verwendung der ausgewählten Erkennungstechnik erkennungsverarbeitet. Dann wird in Schritten S915 und S916 eine Seitenrekonstruktion durchgeführt, um identifizierte Zeichen in der richtigen Reihenfolge zu ordnen, und die so erzeugte Textdatei dann ausgegeben, wie vorstehend in Verbindung mit Fig. 9-1 erklärt.
  • Fig. 9-3 zeigt eine alternative Verarbeitung gemäß der Erfindung, welche eine verbesserte Erkennungsgenauigkeit ergibt, besonders wenn schwer zu erkennende Zeichensätze, wie beispielsweise kursive und proportional beabstandete Zeichensätze, verarbeitet werden. In Übereinstimmung mit dem in Fig. 9-3 dargestellten Zeichenerkennungssystem wird die Identität von Zeichen in einem Dokument durch Schwellenbewertung eines Graustufenbilds des Dokuments, um ein Binärbild zu erhalten, und Segmentieren des Binärbilds ermittelt, um Binärbilder von Zeichen zu lokalisieren und Eigenschaften der Binärbilder der Zeichen zu bestimmen. Graustufenbilder der Zeichen werden auf der Grundlage der Form der Zeichen in dem segmentierten Binärbild extrahiert, und sowohl das Graustufenzeichenbild als auch das Binärzeichenbild werden erkennungsverarbeitet, um Identitäten für die Zeichen zu ermitteln. Irgendwelche Inkonsistenzen zwischen den Ergebnissen der Erkennungsverarbeitung des Graustufenzeichenbilds und der Erkennungsverarbeitung des Binärzeichenbilds werden dann auf der Grundlage der während der Segmentierungsverarbeitung ermittelten Zeichenattribute beseitigt.
  • Im einzelnen wird in den Schritten S901 bis S908 ein Graustufenbild eingegeben, wird das Graustufenbild schräglagenkorrigiert, wird ein Binärbild durch Schwellenbewertung ermittelt, wird das Binärbild segmentierungsverarbeitet, um Zeichenbilder zu lokalisieren, werden Zeichenschablonen aus der Form der Binärbilder erhalten, werden Graustufenzeichenbilder unter Verwendung der Schablonen extrahiert, und werden die extrahierten Graustufenzeichenbilder erkennungsverarbeitet, wie vorstehend in Verbindung mit Fig. 9-1 beschrieben.
  • In Schritt S913 werden Binärzeichenbilder, die während der Segmentierungsverarbeitung in Schritt S905 extrahiert wurden, erkennungsverarbeitet, um die Identität der Binärzeichenbilder zu ermitteln. In Schritt S914 werden irgendwelche Inkonsistenzen zwischen den Ergebnissen der Erkennungsverarbeitung der Graustufenzeichenbilder (in Schritt S908) und der Erkennungsverarbeitung der Binärzeichenbilder (in Schritt S913) auf der Grundlage physischer Bildattribute der während der Segmentierungsverarbeitung in Schritt S905 erhaltenen Zeichenbilder beseitigt. Zum Beispiel ist es häufig schwierig, zwischen einem kleinen "L" ("1"), einer Zahl Eins ("1") und rechteckigen Klammern ("[" oder "]") zu unterscheiden, so daß es aufgrund von Unterschieden in der Erkennungsverarbeitung in den Schritten S908 und S913 möglich ist, daß unterschiedliche Identitäten für ein beliebiges dieser Zeichen ermittelt werden. In dieser Situation werden die Inkonsistenzen unter Bezugnahme auf physische Eigenschaften beseitigt, die während der Segmentierungsverarbeitung in Schritt S905 erhalten wurden. Im einzelnen und wie in Bezug auf Fig. 14 näher beschrieben werden während der Segmentierungsverarbeitung physische Eigenschaften, wie beispielsweise die Pixeldichte und das Seitenverhältnis, für jedes Zeichenbild ermittelt (genauer, wie nachstehend erklärt wird, für jede verbundene Komponente in dem Bild). Auf der Grundlage dieser physischen Eigenschaften können die Ergebnisse der Erkennungsverarbeitung in den Schritten S908 und S913 eindeutig gemacht werden.
  • In Schritten S915 und S916 werden die Seitenrekonstruktion und die Textausgabe durchgeführt, wie vorstehend in Verbindung mit Fig. 9-1 beschrieben wurde.
  • [2.4 - Schräglagekorrektur]
  • Fig. 10(a) und 10(b) und Fig. 11(a) bis 11(c) werden zum Erklären der Schräglagekorrekturverarbeitung gemäß der Erfindung verwendet. Wie aus diesen Figuren ersichtlich ist, wird ein Bild durch Ermitteln der Schief- bzw. Schräglage des Bilds, Korrigieren der Schräglage durch mathematische Drehtransformation in dem Fall, in dem die Schräglage größer als ein vorbestimmter Grenzwert, wie beispielsweise ± 10º, ist, und Korrigieren der Schräglage durch vertikales Verschieben von Pixeldaten, falls die Schräglage kleiner als der vorbestimmte Grenzwert ist, schräglagekorrigiert. Das Korrigieren der Schräglage in Übereinstimmung mit dieser Technik spart beträchtliche Zeit, da es in den meisten Fällen nicht notwendig sein wird, eine mathematische Transformation von Pixeldaten durchzuführen. Mathematische Transformationen von Pixeldaten sind im Hinblick auf die Prozessorzeit teuer, insbesondere in Situationen, in denen Graustufenpixeldaten beteiligt sind, da jeder Pixel in dem schräglagekorrigierten Bild eine mathematische Kombination mehrerer Pixel in dem schrägliegenden Bild ist. Darüber hinaus wird, da schräglagekorrigierte Pixelwerte mathematisch berechnet werden, allgemein ausgedrückt ein schräglagekorrigierter Pixelwert nicht derselbe sein wie ein Pixelwert in dem ursprünglich abgetasteten Bild, welches zu erhöhten Erkennungsungenauigkeiten führt (z. B. resultiert das Ersetzen von Pixeln, deren Werte "1" bzw. "2" sind, durch ihren Mittelwert ("1 1/2") in Pixeln, deren Werte nirgendwo in dem ursprünglichen Bild vorkommen). Andererseits involviert ein einfaches Verschieben des schrägliegenden Bilds, um ein schräglagenkorrigiertes Bild zu erhalten, keine solchen mathematischen Kombinationen und resultiert darüber hinaus in Pixelwerten aus dem ursprünglich abgetasteten Bild. Natürlich können, da das vertikale Verschieben einige Bildverzerrungen einführt, falls die Schräglage des Bilds zu groß ist, dann mathematische Transformationen; die keine solchen Verzerrungen einführen, nicht vermieden werden.
  • Im einzelnen wird, wie in Fig. 10(a) gezeigt, in Schritten S1001 bis Schritten S1004 die Bildschräglage durch eine Grundlinienanalyse von Pixeldaten in dem Bild ermittelt, wie beispielsweise durch Anwendung einer modifizierten Hough-Transformation wie durch Hinds et al. in "A Document Skew Detection Method Using Run Length Encoding And The Hough Transform", IEEE 10th International Conference On Pattern Recognition, Juni 1990, Seite 464 beschrieben. Genauer wird in Schritt S1001 das Bild unterabgetastet, um die Datenmenge zu reduzieren, die verarbeitet werden muß. Bevorzugt wird das Bild unterabgetastet, um ein Bild mit einer Auflösung von etwa 100 dpi zu erzeugen, welches für eine genaue Schräglageerfassung ausreichend ist. Folglich wird, falls das schräglagekorrigierte Bild mit einer Auflösung von 400 dpi eingegeben wird, es in einem Verhältnis von 1 : 4 unterabgetastet, was bedeutet, daß nur jeder vierte Pixel in dem ursprünglichen Bild in dem unterabgetasteten Bild verwendet wird, um ein unterabgetastetes Bild mit 100 dpi zu erzeugen. Unterabtastverhältnisse werden auf die gleiche Weise für andere Eingabeauflösungen ausgewählt, wie beispielsweise ein Verhältnis von 1 : 6 für 600 dpi-Bilder.
  • In Schritt S1002 wird das unterabgetastete Bild binarisiert, wie beispielsweise durch Anwendung einer frei wählbaren Schwelle oder durch Anwendung der Schwelle, die in Verbindung mit Fig. 12 und 13 berechnet wird (vgl. unten).
  • In Schritt S1003 wird eine grobe Hough-Transformation auf die unterabgetasteten und binarisierten Daten angewandt, um grob den Schräglagewinkel in dem ursprünglichen Bild zu ermitteln. Im einzelnen kann die Hough-Transformation zwischen vorbestimmten Grenzen angewandt werden, wie beispielsweise ± 20º in grober Winkelauflösung von einem Grad. Falls gewünscht, kann vor der Hough-Transformation die Bildgrundlinienempfindlichkeit durch Ersetzen vertikaler Läufe von Pixeldaten mit der Länge des unten an dem vertikalen Lauf positionierten vertikalen Laufs und durch Weglassen von Pixeldaten, die Bilder und Zeilen repräsentieren, verstärkt werden.
  • In Schritt S1004 wird eine feine Hough-Transformation auf das unterabgetastete und binarisierte Bild unter Verwendung der in Schritt S1003 erhaltenen groben Schräglageinformation angewandt. Im einzelnen wird in einer ± 1º-Nachbarschaft um den in Schritt S1003 ermittelten groben Schräglagewinkel eine feine Hough-Transformation in feiner Winkelauflösung, wie beispielsweise 0,1º, angewandt.
  • In Schritt S1005 wird der in Schritt S1004 ermittelte Schräglagewinkel mit einem vorbestimmten Grenzwert, wie beispielsweise ± 10º, verglichen. Falls die Schräglage größer als der vorbestimmte Grenzwert ist, dann schreitet der Ablauf zu Schritt S1006 fort, in dem das Bild durch mathematische Transformation schräglagekorrigiert wird. Andererseits schreitet dann, wenn die Schräglage kleiner als der vorbestimmte Grenzwert ist, der Ablauf zu Schritt S1007 fort, in dem ein vertikaler Verschiebefaktor auf der Grundlage der Schräglage ermittelt wird. Im einzelnen wird, wie in Fig. 11(a gezeigt), zunächst ein Schräglagewinkel theta (θ) berechnet, wie vorstehend in den Schritten S1001 bis S1004 beschrieben. Dann wird aus dem Schräglagewinkel θ ein vertikaler Verschiebefaktor, der den Schräglagewinkel θ auf Null reduzieren wird, berechnet; in dem Beispiel von Fig. 11(a) ist der vertikale Verschiebefaktor ein Pixel nach unten nach jeweils 13 Pixel quer, entsprechend einem Schräglagewinkel von 4,4 Grad. Dann werden, wie in Fig. 11(b) gezeigt, von links nach rechts arbeitend alle Spalten des Bilds in Übereinstimmung mit dem Verschiebefaktor aufeinanderfolgend nach oben oder unten verschoben (Schritt S1008). Nach der Verschiebung wird beobachtet, daß der Schräglagewinkel θ auf Null reduziert worden ist.
  • Zu Fig. 10(a) zurückkehrend wird, nachdem das Bild entweder in Übereinstimmung mit einer mathematischen Transformation in Schritt S1006 oder in Übereinstimmung mit einer Pixelverschlebung in Schritt S1008 schräglagekorrigiert wurde, das schräglagekorrigierte Bild ausgegeben (Schritt S1009).
  • Obwohl vorteilhaft im Hinblick auf die Einsparung von Verarbeitungszeit, kann die Schräglagekorrektur durch Pixelverschieben manchmal, unter bestimmten Umständen, das Bild des Zeichens stören. Zum Beispiel wird, wie in Fig. 11(b) ersichtlich, jedes der Bilder des Zeichens "a" verfälscht, weil eine Verschiebung nach unten in der Mitte jedes dieser Zeichen vorgekommen ist. Fig. 10(b) zeigt eine Ablaufverarbeitung, die diese Art von Störung vermeidet.
  • In Fig. 10(b) sind die Schritte S1001 bis S1007 identisch zu denjenigen von Fig. 10(a). In Schritt S1010 ermittelt, wenn es Zeit ist, Spalten des Bilds in Übereinstimmung mit dem Verschiebefaktor nach oben oder unten zu verschieben, die CPU 60, ob das Bild in einem leeren Raum zwischen Zeichen liegt oder nicht. Falls die CPU 60 ermittelt, daß es zwischen Zeichen liegt, schreitet der Ablauf zu Schritt S1011 fort, in dem alle Spalten des Bilds in Übereinstimmung mit dem Verschiebefaktor aufeinanderfolgend relativ zu vorangehend verschobenen Spalten nach oben oder nach unten verschoben werden. Falls es andererseits nicht zwischen Zeichen liegt, wird der Verschiebefaktor einfach akkumuliert (Schritt S1012) und findet keine Verschiebung statt. Der Ablauf kehrt zu Schritt S1010 zurück, und eine Verschiebung findet nur bei einer Lage zwischen Zeichen statt. Folglich tritt, wie in Fig. 11(c) gezeigt, eine Verschiebung zwischen den beiden "a"-Zeichen und mit dem akkumulierten Verschiebefaktor auf, der in diesem Fall "2 nach unten" ist. Der Ablauf schreitet dann wie zuvor mit der Ausgabe des schräglagekorrigierten Bilds bei Schritt S1013 fort.
  • Durch die Verarbeitung in Übereinstimmung mit Fig. 10(b) ist es möglich, eine Verzerrung jedes Zeichens zu vermeiden, weil die Pixelverschiebung nur zwischen Zeichen und nicht in der Mitte von Zeichen vorkommt.
  • [2.5 - Schwellenbewertung)
  • Fig. 12 ist ein detailliertes Ablaufdiagramm, das den in Schritt S904 dargestellten Schwellenbewertungsvorgang zeigt. In Übereinstimmung mit dem in Fig. 12 gezeigten Schwellenbewertungssystem wird ein Binärbild aus einem Graustufenbild durch Bilden eines Histogramms von Pixelintensitäten des Graustufenbilds erzeugt, wodurch die oberen zwei Gruppen in dem Histogramm identifiziert werden, die durch zumindest eine Histogrammgruppe getrennt sind, wird eine globale Schwelle bei dem halben Abstand zwischen diesen beiden oberen Gruppen berechnet, wird jeder Pixel in dem Graustufenbild mit der globalen Schwelle verglichen, um jeden Pixel zu binarisieren, und wird ein Binärbild entsprechend dem Graustufenbild ausgegeben. Folglich wird in Schritt S1201 ein Histogramm von Pixeln in Pixelintensitäten für das Graustufenbild gebildet. Wie in Fig. 13(a) dargestellt, beinhaltet das Histogramm mehrere Gruppen von Pixelintensitäten, wobei die Höhe jeder Gruppe auf der Grundlage der Anzahl von Pixeln in dem Graustufenbild festgelegt ist, die in die Gruppe fallen. In Fig. 13(a) wurden acht Gruppen, I bis VIII, auf der Grundlage einer Graustufenbildintensität, die von 0 bis 255 variiert, gekennzeichnet. Andere Gruppierungen sind möglich, jedoch wird die in Fig. 13(a) gezeigte Gruppierung bevorzugt, weil sie einfach zu implementieren ist.
  • In Schritt S1202 wird das Histogramm untersucht, um zu ermitteln, ob das Graustufenbild ein "umgekehrtes Bild" ist, was bedeutet, daß das Bild nicht schwarzauf-weiß, wie in konventionellen Bildern, sondern anstelle dessen weiß-auf-schwarz ist. Falls das Histogramm anzeigt, daß das Graustufenbild ein umgekehrtes Bild ist, dann werden die Graustufen invertiert (Schritt S1203), um das Bild in ein konventionelles schwarzauf-weiß-Bild umzuwandeln.
  • In Schritt S1204 werden die Histogrammgruppen auf der Grundlage der Höhe der Gruppen in absteigender Reihenfolge sortiert. In dem Beispiel von Fig. 13(a) ist die Gruppe VIII, die den höchsten numerischen Wert hat, die erste Gruppe, und ist die Gruppe V, die den niedrigsten numerischen Wert hat, die letzte Gruppe. Folglich werden die Gruppen in Fig. 13(a) wie in Fig. 13(b) gezeigt sortiert.
  • In Schritt S1205 werden die oberen beiden Gruppen, die durch zumindest eine Gruppe getrennt sind, ausgewählt. Folglich werden, wie in Fig. 13(b) gezeigt, die Gruppen VIII und VII zuerst verglichen, weil sie die beiden oberen Gruppen sind. Jedoch werden die Gruppen VIII und VII nicht ausgewählt, weil sie nicht durch zumindest eine Gruppe getrennt sind (d. h. die Gruppe VIII numerisch gesehen unmittelbar zur Gruppe VII benachbart ist). Anstelle dessen werden die Gruppen VII und II, welche die nächsten oberen beiden Gruppen sind, verglichen. Da die Gruppen VII und II durch zumindest eine Gruppe getrennt sind (in diesem Beispiel sind sie numerisch durch vier Gruppen getrennt), werden in Schritt S905 die Gruppen VII und II ausgewählt.
  • In Schritt S1206 wird die globale Schwelle bei dem halben Abstand zwischen den beiden in Schritt S1205 ausgewählten Gruppen berechnet. Folglich sind, wie in Fig. 13(a) gezeigt, die Gruppen II und VII durch einen Abstand von 160 (d. h. 192-32) getrennt. Die globale Schwelle für dieses repräsentative Graustufenbild wird daher zu TH = 160 2 80 berechnet.
  • In Schritt S1207 wird die Intensität jedes Pixels in den Graustufenbildern mit der in Schritt S1206 berechneten globalen Schwelle verglichen, um das Graustufenbild zu binarisieren. Wie in Fig. 12 gezeigt, wird dann, wenn der Vergleich ergibt, daß die Pixelintensität kleiner als die globale Schwelle ist, der Pixel auf eine binäre "0" festgelegt, anzeigend, daß der Pixel weiß ist (Schritt S1208). Andererseits wird dann, wenn die Pixelintensität höher als die globale Schwelle ist, der Pixel auf eine binäre "1" festgelegt, anzeigend, daß der Pixel schwarz ist (Schritt S1209).
  • Nachdem alle Pixel des Graustufenbilds dementsprechend mit der globalen Schwelle verglichen und binarisiert worden sind, wird das Binärbild ausgegeben (Schritt S1210):
  • [2.6 - Segmentierungsverarbeitung]
  • Fig. 14 ist ein Ablaufdiagramm, das die Segmentierungsverarbeitung darstellt, wie vorstehend in Schritt S905 erwähnt, durch die Text- und Nichttext-Bereiche in einem Dokumentbild identifiziert werden und durch die einzelne Zeichen in Textbereichen extrahiert werden. Die Verarbeitung in Fig. 14 schreitet über eine Analyse verbundener Komponenten des in Schritt S904 abgeleiteten Binärbilds fort. Eine "verbundene Komponente" ist eine Gruppe verbundener schwarzer Pixel, die überall von weißen Pixeln umgeben sind. Für gewöhnliche gedruckte Seiten, wie diejenigen in einer gedruckten Kopie dieser Patentanmeldung, ist eine verbundene Komponente üblicherweise ein Zeichen oder ein separater Teil eines Zeichens, für unterstrichene Zeichen oder Kursivschrift kann eine verbundene Komponente jedoch eine Gruppe verbundener Zeichen sein.
  • Vorwiegend werden, wie in Fig. 14 gezeigt, Textbereiche in einem Dokumentbild, das sowohl Textbereiche als auch Nichttextbereiche beinhaltet, durch Identifizieren verbundener Komponenten in dem Dokumentbild, Ableiten von Bildattributen, wie beispielsweise der Pixeldichte und des Seitenverhältnisses für jede der verbundenen Komponenten, und Filtern jeder verbundenen Komponente auf der Grundlage von Bildattributen, um verbundene Komponenten, die einen Textbereich repräsentieren, von verbundenen Komponenten, die einen Nichttext-Bereich repräsentieren, zu trennen, lokalisiert. Die Filterung wird durch aufeinanderfolgendes Anwenden mehrerer Sätze von Regeln auf die Bildattribute für jede unbekannte Art einer verbundenen Komponente durchgeführt, bis ermittelt werden kann, ob die unbekannte verbundene Komponente Text oder kein Text ist.
  • Im einzelnen wird in Schritt S1401 ein segmentierungszuverarbeitendes Bild eingegeben. Bevorzugt ist das Bild das Binärbild, das durch die Schwellenbewertung in Schritt S904 abgeleitet wurde, im allgemeinen jedoch kann das Bild ein beliebiges Bild sein, das segmentierungsverarbeitet werden muß. Zum Beispiel kann das Bild ein Bild sein, das durch ein digitales Kopiergerät in Vorbereitung zur Bildwiedergabe abgetastet wird. In diesem Fall kann eine Segmentierungsverarbeitung notwendig sein, um zu ermitteln, welche Bereiche des Bilds aus Text bestehen und welche nicht aus Text bestehen, um Wiedergabeeigenschaften auf der Grundlage dieser Ermittlung zu steuern. Folglich kann die Segmentierungsverarbeitung, die hier beschrieben wird, in einer Ermittlung verwendet werden, welche Bereiche eines Bilds Textbereiche sind, so daß diese Bereiche durch ein digitales Kopiergerät unter Verwendung ausschließlich schwarzen Toners reproduziert werden können, und welche Bereiche eines Bilds Nichttext-Bereiche sind, so daß diese Bereiche durch ein digitales Kopiergerät unter Verwendung cyanfarbenen, magentafarbenen, gelben und schwarzen Toners in Kombination reproduziert werden können.
  • In Schritt S1402 werden Unterstreichungen in dem Bild erfaßt und entfernt. Unterstriche können die nachfolgende Analyse der verbundenen Komponenten dahingehend stören, daß alle unterstrichenen Zeichen nicht als mehrere separate verbundene Komponenten, sondern als eine einzige verbundene Komponente identifiziert werden. Die Unterstrichentfernung ist nachstehend in Abschnitt 2.6.1 in Verbindung mit Fig. 18 und 19 näher beschrieben.
  • In Schritt S1403 wird das Bild analysiert, um alle verbundenen Komponenten zu identifizieren. Wie vorstehend erwähnt wurde, ist eine "verbundene Komponente" eine Gruppe verbundener schwarzer Pixel, die überall von weißen Pixeln umgeben sind. Folglich werden, wie in Fig. 15 gezeigt, die ein Bild des Worts "finally" bildende Pixel darstellt, die verbundenen Komponenten durch eine Analyse jedes Pixels in dem Bild in acht Richtungen erhalten. Im einzelnen werden, beginnend an einem Anfangspixel wie beispielsweise dem Pixel 80, welches das am weitesten unten rechts liegende schwarze Pixel in dem in Fig. 15 gezeigten Bild ist, umgebende Pixel in acht Richtungen, wie durch eine Ansammlung 81 gezeigt, untersucht, um zu ermitteln, wo irgendwelche benachbarten schwarzen Pixel vorhanden sind. Der Pixel 82 ist ein solcher schwarzer Pixel, und die Verarbeitung in acht Richtungen schreitet wieder von Pixel 82 ausgehend fort, wodurch die Umgrenzung einer verbundenen Komponente wie durch Pfeile 84 gezeigt durchquert wird.
  • Jeder Pixel in dem Bild wird wie in Fig. 15 beschrieben analysiert, um den Ort jeder verbundenen Komponente in dem Bild zu identifizieren und zu erhalten, einschließlich innerer verbundener Komponenten wie beispielsweise einzelner Einträge in einer gerahmten Tabelle (vgl. 16 in Fig. 2). In diesem Ausführungsbeispiel ist der Ort jeder verbundenen Komponente durch den Ort eines umschreibenden Rechtecks, wie beispielsweise das Rechteck 85 in Fig. 15, definiert.
  • Obwohl die in Fig. 15 gezeigte Verarbeitung in acht Richtungen verbundene Komponenten präzise identifiziert, ist sie eine teure Prozedur im Hinblick auf CPU-Prozessorzeit und Speicheranforderungen, da das ganze Bild für gewöhnlich auf einmal im Speicher vorhanden sein muß. Die nachstehend in Abschnitt 2.6.2 in Verbindung mit Fig. 20 und 21 beschriebene Verarbeitung verbundener Komponenten ist eine effizientere Technik zum Erhalten verbundener Komponenten und wird daher in diesem Schritt S1403 bevorzugt.
  • In Schritt S1404 werden physische Bildattribute für jede verbundene Komponente abgeleitet. Folglich werden, wie in Fig. 16 gezeigt, für jede verbundene Komponente Bildattribute wie beispielsweise das Seitenverhältnis, ein Pixelzählwert, die Dichte, die Umgrenzung, das Umgrenzung/Breite-Verhältnis und das (Umgrenzung)2/Fläche-Verhältnis allesamt abgeleitet. Darüber hinaus wird auch ein "Typ"-Attribut jeder verbundenen Komponente zugeordnet. Zu Beginn ist das Typ-Attribut auf "unbekannt" festgelegt, jedoch wird schließlich der Typ für jede verbundene Komponente auf "Text" oder "Nichttext" in Übereinstimmung mit weiterer Verarbeitung festgelegt sein. Es sollte beachtet werden, daß die physischen Bildattribute, die in diesem Schritt S1404 abgeleitet werden, die Attribute sind, die in dem Mehrdeutigkeits-Auflösungs-Schritt S914 von Fig. 9-3 verwendet werden.
  • In Schritt S1405 werden die verbundenen Komponenten inspiziert, um zu ermitteln, ob das Bild als Hochformatbild oder Querformatbild orientiert ist. Im einzelnen ist, da die meisten Bilder in der Hochformat-Orientierung abgetastet werden, die hier beschriebene Verarbeitung so arrangiert, daß nur die Hochformat-Orientierung gehandhabt wird. Dementsprechend wechselt dann, wenn eine Querformat-Orientierung in Schritt S1405 erfaßt wird, der Ablauf zu Schritt S1406, der das Bild um 90 Grad dreht, um ein Hochformat-orientiertes Bild zu erhalten. Der Ablauf kehrt dann zu Schritt S1404 zurück, um erneut Attribute für jede verbundene Komponente abzuleiten.
  • Sobald ein Hochformat-orientiertes Bild erhalten worden ist, schreitet der Ablauf zu Schritt S1407 fort, in dem für jeden "unbekannten" Typ einer verbundenen Komponente mehrere Sätze von Regeln aufeinanderfolgend auf die verbundene Komponente angewandt werden, um zu ermitteln, ob die verbundene Komponente eine verbundene Text- oder Nichttext-Komponente ist. Die Regeln für verbundene Komponenten werden unter Bezugnahme auf Fig. 22 näher beschrieben, jedoch werden im allgemeinen die Regeln nicht auf die verbundene Komponente selbst, sondern auf die in Schritt S1404 ermittelten Attribute angewandt. Darüber hinaus sind die Regeln bevorzugt so organisiert, daß die ersten Regeln, die angewandt werden, einfache Regeln sind, die wenig Zeit zur Berechnung in Anspruch nehmen und die von früh an leicht zu unterscheidende verbundene Text- von Nichttext- Komponenten trennen. Spätere Regeln sind komplizierter und nehmen mehr Zeit für ihre Anwendung in Anspruch, und trennen schwer zu unterscheidende verbundene Text- von Nichttext- Komponenten. Weil es jedoch weniger "unbekannte" Typen verbundener Komponenten in dieser späteren Verarbeitungsphase gibt, werden diese späteren Regeln weniger häufig angewandt.
  • In Schritt S1408 werden verbundene "Texttyp"-Komponenten analysiert, um Textzeilen zu identifizieren. Textzeilen werden identifiziert, um den Seitenrekonstruktionsschritt S915 zu unterstützen. Darüber hinaus ist es durch die Identifizierung von Textzeilen auch möglich, Abschnitte von Zeichen, die durch die Analyse verbundener Komponenten getrennt wurden, wieder zu verbinden. Zum Beispiel wurde, wie in Fig. 15 ersichtlich, der Punkt 86 über dem "i" durch die Analyse verbundener Komponenten von dem Körper 87 des "i" getrennt. Durch die Identifizierung von Textzeilen, wie in Schritt S1408 gezeigt, ist es möglich, diese verbundenen Komponenten wieder zu verbinden, um ein vollständiges Zeichen "i" zu bilden, wenn Zeichen aufeinanderfolgend aus Textzeilen ausgeschnitten werden, wie nachstehend in Schritt S1411 beschrieben wird.
  • In Schritt S1409 werden, falls irgendwelche sich berührenden Textzeilen vorhanden sind, diese in Schritt S1410 getrennt. Dann werden in Schritt S1411 einzelne Zeichen aus der Textzeile zur weiteren Verarbeitung ausgeschnitten. Folglich werden zum Beispiel, in Verbindung mit Fig. 9-1 bis 9-3, die aus der Textzeile ausgeschnittenen einzelnen Zeichen in Schritt S906 als Schablonen verwendet, um Zeichen aus einem Graustufenbild der Zeichen in Schritt S907 zu extrahieren. Darüber hinaus werden die in diesem Schritt S1411 ausgeschnittenen Zeichen in Schritt S913 selbst erkennungsverarbeitet.
  • Fig. 17 zeigt, wie die vorstehende Verarbeitung das Bild des Worts "finally" beeinflußt. Wie in Fig. 17 gezeigt, und in Übereinstimmung mit Schritt S901, wird das Dokument 90, welches das gedruckte Wort "finally" beinhaltet, mit einer Pixelauflösung 91 eingelesen, um ein Graustufenbild 92 des Worts "finally" einzugeben. Nach der Schräglagekorrektur (Schritt S902) wird in Übereinstimmung mit Schritt S903 eine Kopie des Graustufenbilds bei 93 aufbewahrt. Dann wird in Übereinstimmung mit Schritt S904 das Graustufenbild schwellenbewertet, um ein Binärbild 94 zu erzeugen.
  • Das Binärbild wird dann segmentierungsverarbeitet, wie vorstehend in Schritt S905 beschrieben wurde. Im einzelnen werden, unter Bezugnahme auf Fig. 14, Unterstriche entfernt (Schritt S1402), um das Bild 95 zu erzielen. Durch die Analyse verbundener Komponenten (Schritte S1403 bis S1412) werden Zeichen 96 aus dem Bild 95 ausgeschnitten. Dann werden Schablonen 97 erhalten (Schritt S906) und die Schablonen auf die Kopie 93 des Graustufenbilds angewandt, um Graustufenzeichenbilder 98 zu extrahieren (Schritt S907). Es wird angemerkt, daß die Schablone um etwa zwei Pixel vergrößert werden kann, um sicher zu gehen, daß alle relevante Pixel aus dem Graustufenbild richtig extrahiert werden. Darüber hinaus wird angemerkt, daß, da das Graustufenbild 93 mit intakten Unterstrichen aufbewahrt wird, wenn Graustufenzeichenbilder subtrahiert werden, diese kleine Reste von Unterstrichen beinhalten können. Diese kleinen Reste interferieren jedoch nicht mit der Erkennungsverarbeitung. Die Erkennungsverarbeitung wird dann auf dem extrahierten Graustufenzeichenbild durchgeführt, um das extrahierte Zeichenbild zu identifizieren; in diesem Beispiel ergibt die Erkennungsverarbeitung für das Zeichen "f" den ASCII-Code "66hex", welcher der hexadezimale Wert des ASCII-Codes für das Zeichen "f" ist.
  • [2.6.1 - Unterstrichentfernung]
  • Fig. 18 ist ein Ablaufdiagramm zum Erklären, wie Unterstriche in Übereinstimmung mit Schritt S1402 entfernt werden. Unterstriche werden nicht im wörtlichen Sinne entfernt, sondern es werden unterstrichene Zeichen von dem Unterstrich getrennt. Die Analyse verbundener Komponenten ermittelt, daß die getrennten Unterstrichsegmente "Nichttext" sind und ignoriert sie in der nachfolgenden Erkennungsverarbeitung.
  • Allgemein ausgedrückt werden Unterstriche von unterstrichenen Zeichen in einem Bild durch Durchlaufen des Bilds Reihe für Reihe von oben nach unten getrennt, wobei für jede Reihe Lauflängen horizontaler Pixelläufe in dem Bild berechnet werden, die Lauflängen in jeder Reihe mit Lauflängen in einer vorangehenden Reihe verglichen werden, das Bild horizontal geteilt wird, wenn ermittelt wird, daß die Lauflänge einer aktuellen Reihe um mehr als einen vorbestimmten Wert gegenüber der Lauflänge einer vorangehenden Reihe zugenommen hat, das geteilte Bild Reihe für Reihe von oben nach unten durchlaufen wird, die Lauflängen für aktuelle Reihen berechnet und die Lauflängen mit vorangehenden Reihen verglichen werden, und das Bild vertikal geteilt und eine vorangehende horizontale Teilung wieder verbunden wird, wenn ermittelt wird, daß die Lauflänge einer aktuellen Reihe gegenüber einer vorangehenden Reihe in dem gleichen Bereich wie dort, wo eine vorangehende angrenzende horizontale Teilung in dem Bild vorhanden war, um mehr als den vorbestimmten Wert zugenommen hat. Darüber hinaus braucht durch Erfassen, wo eine vorangehende horizontale Teilung erfolgt war, das heißt, ob die Teilung in der Nähe des Zentrums eines Zeichens oder in der Nähe des Rands des Zeichens durchgeführt wurde, der zweite Teilungsvorgang nicht vertikal gemacht werden, sondern kann diagonal ausgeführt werden, um die Form bestimmter Zeichen, wie beispielsweise die eines "j" oder eines "g", zu bewahren.
  • Im einzelnen wird zunächst, wie bei Schritt S1801 gezeigt, die maximale Zeichenbreite "MAX" von Zeichen in dem Dokumentbild geschätzt. Eine genaue Schätzung der maximalen Zeichenbreite ist für den korrekten Betriebsablauf der in Fig. 18 gezeigten Unterstrichentfernungstechnik nicht notwendig, so daß nur eine grobe Schätzung der maximalen Zeichenbreite benötigt wird. Dementsprechend kann die maximale Zeichenbreite auf einen frei wählbaren festen Wert eingestellt werden, wie beispielsweise MAX = 50 Pixel, oder kann auf näherungsweise das Dreifache einer geschätzten durchschnittlichen Zeichenbreite eingestellt werden. In diesem Ausführungsbeispiel wird eine geschätzte durchschnittliche Zeichenbreite näherungsweise als die Bildauflösung geteilt durch von 16 berechnet und die maximale Zeichenbreite MAX auf das Dreifache dieses Werts eingestellt. Folglich ist für eine Bildauflösung von 400 dpi MAX = 3 · 400%16 = 75 Pixel.
  • In Schritt S1802 wird das Dokumentbild Reihe für Reihe von oben nach unten durchlaufen. Dann werden in Schritt S1803 die Lauflängen horizontaler Pixelläufe berechnet. Im einzelnen besteht, wie in Fig. 19(a) gezeigt, ein willkürlich gewähltes- Dokumentbild 101 aus Pixeln, die die Zeichenkette "Qqpygj" bilden. Für eine beliebige Reihe 102 von Pixeln in dem Bild wird die horizontale Lauflänge jedes horizontalen Laufs von Pixeln berechnet. Folglich wird, wie bei 104 gezeigt, die horizontale Lauflänge von Pixeln, die den sich am weitesten links befindenden Rand des Zeichens "q" umfassen, berechnet. Ähnliche Lauflängen werden für jeden horizontalen Lauf von Pixeln in der Reihe 102 berechnet.
  • In Schritt S1804 werden horizontale Lauflängen in der aktuellen Reihe mit horizontalen Lauflängen in der vorangehenden Reihe verglichen. Falls die horizontale Lauflänge in der aktuellen Reihe um nicht mehr als MAX gegenüber den horizontalen Lauflängen in der vorangehenden Reihe zunimmt, werden keine besonderen Verarbeitungsschritte unternommen, wird die nächste Reihe des Dokumentbilds zur Verarbeitung ausgewählt (Schritt S1805) und wird die Verarbeitung fortgesetzt (Schritt S1806), bis alle Reihen von oben nach unten durchlaufen worden sind. Andererseits wird dann, wenn die Berechnung in Schritt S1804 anzeigt, daß die Lauflängen in der aktuellen Reihe um mehr als MAX verglichen mit den Lauflängen in der vorangehenden Reihe zugenommen haben, das Bild bei dieser Reihe horizontal geteilt. Fig. 19(b) stellt diesen Prozeß dar.
  • Im einzelnen ist, wie in Fig. 19(b) gezeigt, die Verarbeitung zu einer Reihe fortgeschritten, bei der ermittelt wird, daß das Vorhandensein des Unterstrichs 103 bewirkt, daß die horizontale Lauflänge für die aktuelle Reihe um mehr als MAX gegenüber den horizontalen Lauflängen der vorangehenden Reihe zunimmt. Dementsprechend werden alle Pixel in dieser Reihe horizontal geteilt, wie bei 105 gezeigt. Die Verarbeitung fährt dann mit der nächsten und nachfolgenden Reihen fort (Schritte S1805 und S1806), bis alle Reihen von oben nach unten durchlaufen worden sind.
  • Der Ablauf schreitet dann zu Schritt S1808 fort, in dem das geteilte Bild Reihe für Reihe von unten nach oben durchlaufen wird. In Schritt S1809 werden die Lauflängen horizontaler Pixelläufe in der aktuellen Reihe berechnet, und in Schritt S1810 werden die Lauflängen in der aktuellen Reihe mit den Lauflängen in der vorangehenden Reihe verglichen. Wie zuvor findet dann, wenn die Lauflänge der aktuellen Reihe nicht um mehr als die Lauflänge in der vorangehenden Reihe zunimmt, keine besondere Verarbeitung statt, und wird die nächste Reihe zur Verarbeitung ausgewählt, bis alle Reihen in dem geteilten Bild von unten nach oben durchlaufen worden sind.
  • Andererseits schreitet dann, wenn in Schritt S1810 ermittelt wird, daß die Lauflänge der aktuellen Reihe um mehr als MAX gegenüber der Lauflänge der vorangehenden Reihe zugenommen hat, der Ablauf zu Schritt S1813 fort, der ermittelt, ob eine vorangehende horizontale Teilung (aus Schritt S1807) in einem benachbarten Bereich vorhanden war. Falls Schritt S1813 ermittelt, das keine vorangehende horizontale Teilung vorhanden war, dann wird wie zuvor keine spezielle Verarbeitung durchgeführt, und der Ablauf kehrt zu Schritt S1811 zurück, bis alle Reihen in dem Bild von unten nach oben durchlaufen worden sind.
  • Andererseits wird dann, wenn eine vorangehende horizontale Teilung in einem benachbarten Bereich vorhanden war, die horizontale Teilung wieder verbunden (oder geschlossen) und durch ein Paar von vertikalen oder diagonalen Teilungen ersetzt, wie in Schritten S1814 bis S1819 gezeigt. Im einzelnen schreitet dann, wenn in Schritt S1814 ermittelt wird, daß ein kleiner horizontaler Spalt nahe dem Zentrum eines Zeichens, wie beispielsweise den Zeichen "q", "p" und "y" in Fig. 19(c), vorhanden war, der Ablauf zu Schritt S1815 fort, in dem der horizontale Spalt wieder verbunden wird und ein Paar von vertikalen Teilungen eingefügt werden. Wie insbesondere in Fig. 19(c) gezeigt wird, da eine vorangehende horizontale Teilung nahe dem Zentrum der Zeichen "q", "p" und "y" aufgetreten ist, der horizontale Spalt geschlossen und durch ein Paar von vertikalen Teilungen ersetzt, wie bei 106 dargestellt.
  • In Schritt S1816 schreitet dann, wenn ein kleiner horizontaler Spalt nahe einem Zeichenrand vorhanden war, der Ablauf zu Schritt S1817 fort, in dem der horizontale Spalt wieder verbunden und durch ein Paar diagonaler Teilungen ersetzt wird. Im einzelnen wird, wie in Fig. 19(d) gezeigt, da horizontale Teilungen nahe dem Zeichenrand für die Zeichen "g" und "j" erfaßt worden sind, der horizontale Spalt geschlossen und durch Paare von diagonalen Teilungen 108 ersetzt.
  • In Schritt S1818 schreitet dann, wenn ermittelt wird, daß ein großer horizontaler Spalt vorhanden war, der Ablauf zu Schritt S1819 fort, in dem der horizontale Spalt wieder verbunden wird und Paare von diagonalen Teilungen mit größerem Abstand als diejenigen, die in Schritt S1817 eingefügt wurden, eingefügt werden. Wie insbesondere in Fig. 19(e) gezeigt wird, da ein großer horizontaler Spalt für das Zeichen "Q" erfaßt wurde, der horizontale Spalt geschlossen und durch ein Paar von diagonalen Teilungen 109 ersetzt.
  • [2.6.2 Analyse verbundener Komponenten]
  • Fig. 20 ist ein Ablaufdiagramm, das eine bevorzugte Technik zum Erhalten verbundener Komponenten darstellt (Schritt S1403). Insbesondere war die vorstehend in Abschnitt 2.6 beschriebene Technik zur Analyse verbundener Komponenten im Hinblick auf die CPU-Verarbeitungszeiten und Speicheranforderungen teuer, weil es für eine CPU notwendig war, einzelne Pixel- Bit in Bilddaten viele Male zu vergleichen, und es ebenfalls notwendig war, daß das gesamte Bild gleichzeitig im Speicher vorhanden ist. Die hier in Fig. 20 beschriebene Technik erfordert nur, daß zwei Reihen des Bilds im Speicher zu einer beliebigen Zeit vorhanden sind, und erfordert darüber hinaus nicht, daß die CPU auf einzelne Pixelbit und Bilddaten viele Male zugreift, sondern erlaubt der CPU, auf Pixeldaten nur einmal zuzugreifen, um horizontale Pixelsegmente zu erhalten. Danach arbeitet die CPU einfach mit dem Ort der horizontalen Pixelsegmente.
  • Kurz gesagt beinhaltet gemäß der in Verbindung mit Fig. 20 beschriebenen Technik ein Verfahren zum Erhalten verbundener Komponenten in Pixelbilddaten das Eröffnen einer Liste verbundener Komponenten, die zu Beginn keine verbundenen Komponenten enthält, das Durchlaufen des Bilds Reihe für Reihe, bevorzugt von unten nach oben, um verbundene Komponenten in richtiger Reihenfolge auszugeben, das Identifizieren aller horizontalen Pixelsegmente in einer aktuellen Reihe der Bilddaten, und das Vergleichen der horizontalen Segmente in der aktuellen Reihe mit horizontalen Segmenten in einer vorangehenden Reihe, um zu ermitteln, ob einer oder alle von vier Verschiedenen Fällen existieren: ein erster Fall, in dem das Segment der aktuellen Reihe zu einem offenen Bereich in der vorangehenden Reihe benachbart ist, ein zweiter Fall, in dem das horizontale Segment der aktuellen Reihe zu einem horizontalen Segment in einer vorangehenden Reihe benachbart ist, ein dritter Fall, in dem das Segment der aktuellen Reihe zumindest zwei verbundene Komponenten in der Liste verbundener Komponenten überbrückt, und ein vierter Fall, in dem das horizontale Segment der vorangehenden Reihe zu einem offenen Bereich in der aktuellen Reihe benachbart ist. Falls der erste Fall vorhanden ist, dann wird eine neue verbundene Komponente in der Liste verbundener Komponenten begonnen. Falls der zweite Fall vorhanden ist, dann wird die Spur von der vorhandenen verbundenen Komponente des horizontalen Segments aktualisiert. Falls der dritte Fall vorhanden ist, dann werden die zwei verbundenen Komponenten, die durch das horizontale Segment überbrückt werden, vereint. Schließlich wird dann, wenn der vierte Fall vorhanden ist, die Spur der verbundenen Komponente in der Liste verbundener Komponenten ausgeschlossen. Nachdem alle Reihen in dem Bild durchlaufen worden sind, wird die Liste verbundener Komponenten zur weiteren Verarbeitung ausgegeben.
  • Im einzelnen wird, wie in Schritt S2001 gezeigt, eine computerisierte Liste verbundener Komponenten eröffnet. Die Liste wird so initialisiert, daß sie keine verbundenen Komponenten enthält, jedoch wird die Liste am Ende alle verbundenen Komponenten in dem Bild enthalten.
  • In Schritt S2002 wird das Bild Reihe für Reihe, bevorzugt vom unteren Ende des Bilds nach oben, durchlaufen. Diese Reihenfolge wird bevorzugt, so daß die verbundenen Komponenten in der Liste verbundener Komponenten in richtiger sequentieller Reihenfolge geordnet werden.
  • In Schritt S2003 werden alle horizontalen Pixelsegmente in der aktuellen Reihe des Bilds identifiziert. Im einzelnen gibt es, wie in Fig. 21 für ein willkürlich gewähltes Bild 120 des Worts "UNION" gezeigt, für die Reihe 121 keine horizontalen Pixelsegmente. Andererseits gibt es für die Reihe 122 acht horizontale Pixelsegmente, die bei Bereichen 122a, b, c, d, e, f, g und h identifiziert werden. Jedes dieser acht horizontalen Pixelsegmente wird in Schritt S2003 identifiziert.
  • Der Ablauf schreitet dann zu Schritt S2004 fort, der ermittelt, ob die in Schritt S2003 identifizierten horizontalen Pixelsegmente zu horizontalen Segmenten in der vorangehenden Reihe des Bilds benachbart sind. Falls das horizontale Segment der aktuellen Reihe nicht zu einem horizontalen Segment in der vorangehenden Reihe benachbart ist, dann wurde ein neues horizontales Segment identifiziert, und der Ablauf schreitet zu Schritt S2005 fort, in dem eine neue verbundene Komponente in der Liste verbundener Komponenten begonnen wird. Folglich wird zum Beispiel eine neue verbundene Komponente für jedes der acht horizontalen Segmente 122a, b, c, d, e, f, g und h in Fig. 21 begonnen.
  • Andererseits wird dann, wenn Schritt S2004 ermittelt, daß das horizontale Segment der aktuellen Reihe zu einem horizontalen Segment in einer vorangehenden Reihe benachbart ist, in Schritt S2006 die Spur für die vorhandene verbundene Komponente, die dem horizontalen Segment entspricht, einfach aktualisiert. Im einzelnen ist, erneut auf Fig. 21 Bezug nehmend, für die Reihe 123 jedes von horizontalen Segmenten 123a bis 123/ zu einem horizontalen Segment in einer vorangehenden Reihe benachbart. Dementsprechend wird die Spur für die verbundene Komponente entsprechend diesen horizontalen Segmenten einfach aktualisiert. In dieser Hinsicht wird angemerkt, daß die horizontalen Segmente 123c und 123d beide in derselben verbundenen Komponente enthalten sind, da beide horizontalen Zeilesegmente mit einem einzelnen Zeilensegment begannen, nämlich dem horizontalen Pixelsegment 122c. Ebenso begannen die horizontalen Pixelsegmente 123 h und 123i beide an dem horizontalen Pixelsegment (122f) und sind ebenfalls beide in derselben verbundenen Komponente enthalten.
  • Schritt S2007 ermittelt, ob ein horizontales Pixelsegment zwei oder mehr verbundene Komponenten in der Liste verbundener Komponenten überbrückt. Falls das horizontale Pixelsegment zwei oder mehr verbundene Komponenten überbrückt, dann werden die Spuren für diese verbundenen Komponenten vereint (Schritt S2008). Im einzelnen überbrückt, wie für die Reihe 124 in Fig. 21 gezeigt, das horizontale Pixelsegment 124a die beiden verbundenen Komponenten, die für die horizontalen Segmente 122a und 122b begonnen wurden. Dementsprechend werden diese beiden verbundenen Komponenten vereint. Auf vergleichbare Art und Weise überbrückt das horizontale Segment 124c die verbundenen Komponenten, die für die horizontalen Segmente 122c und 122d begonnen wurden. Dementsprechend werden diese beiden verbundenen Komponenten vereint. Es wird angemerkt, daß das horizontale Pixelsegment 124e nicht zwei verschiedene verbundene Komponenten überbrückt, da bei 122f nur eine einzige verbundene Komponente begonnen wurde.
  • Schritt S2009 ermittelt, ob ein horizontales Pixelsegment in einer vorangehenden Reihe zu einem offenen Segment in der aktuellen Reihe benachbart ist. Falls das horizontale Segment der vorangehenden Reihe nun zu einem offenen Bereich benachbart ist, dann wurde die verbundene Komponente vervollständigt, und wird die entsprechende verbundene Komponente ausgeschlossen (Schritt S2010).
  • In jedem Fall schreitet der Ablauf dann zu Schritt S2011 fort, in dem die nächste Reihe in dem Bild verarbeitet wird, bis alle Reihen in dem Bild vervollständigt worden sind (Schritt S2012). Sobald das ganze Bild verarbeitet worden ist, wird die Liste verbundener Komponenten ausgeschlossen und die Liste zur Berechnung von Attributen verbundener Komponenten (vgl. ritt S1404) ausgegeben (Schritt S2013).
  • [2.5.3 - Regeln zum Unterscheiden von Text von Nichttext]
  • Fig. 22 ist ein Ablaufdiagramm, das die mehreren Sätze von Regeln darstellt, die auf Attribute verbundener Komponenten angewand werden, um zu ermitteln, ob die verbundene Komponente ein Text- oder ein Nichttext-Element ist. Die Regeln sind maß- stabinvariant, was bedeutet, daß sie für korrekte Funktion nicht von Vorkenntnissen der Zeichensatzgröße, anderen Größeninformationen oder dem analysierten Dokument abhängen.
  • Die Regeln sind so arrangiert, daß diejenigen Regeln, die schnell sind und die leicht zu unterscheidende Ermittlungen zwischen verbundenen Text- und Nichttext-Komponenten durchfühzuerst angewandt werden, während diejenigen, die schwieren g sind und schwer zu unterscheidende Ermittlungen zwischen verbundenen Text- und Nichttext-Komponenten durchführen, zuletzt angewandt werden. Weil jedoch die Regeln nur auf "unbekannte" Typen verbundener Komponenten angewandt werden, werden die letztgenannten Regeln nur selten angewandt, da Text- und Nichttext-Ermittlungen bereits durch die früher angewandten Regeln durchgeführt worden sein werden.
  • In Schritt S2201 wird die durchschnittliche Höhe verbundener Komponenten ermittelt, um die Berechnung von maßstabinvarianten Parametern zum Vergleich mit den verbundenen Komponenten-Attributen zu erlauben. Dann werden in Schritt S2202 die Paramater auf der Grundlage der durchschnittlichen Höhe verbundener Komponenten berechnet. Einige Parameter sind inhärent maßstabinvariant und brauchen nicht auf der Grundlage der durchschnittlichen Höhe verbundener Komponenten berechnet werden. Zum Beispiel ist, da das Seitenverhältnis das Verhältnis von Höhe zu Breite ist, dieses bereits maßstabinvariant. Andere Parameter jedoch, wie beispielsweise die minimale Höhe, sind nicht maßstabinvariant und werden daher in Schritt S2202 ermittelt.
  • Mehrfache Sätze von Regeln werden dann auf jede verbundene Komponente angewandt, deren Typ "unbekannt" bleibt, wie im Rest von Fig. 22 näher ausgeführt. Folglich werden in Übereinstimmung mit Regel Nummer 1 die Höhe, das Seitenverhältnis, die Dichte, das (Umgrenzung)²/Fläche-Verhältnis und das Urngrenzung/Breite-Verhältnis sämtlich inspiziert, um zu ermitteln, ob die verbundene Komponente näherungsweise die Höhe, das Seitenverhältnis, die Dichte, und die Parameter einer verbundenen Textkomponente hat. Falls dem so ist, dann werden zusätzliche Prüfungen bezüglich der Höhe, dem Seitenverhältnis und der Dichte der verbundenen Komponente durchgeführt, um zu ermitteln, ob sie Text oder Nichttext ist, und der Typ der verbundenen Komponente wird dementsprechend eingestuft.
  • Falls Regel Nummer 1 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 2 die Anzahl von Pixeln, die Umgrenzung, das Seitenverhältnis und die Höhe inspiziert, um zu ermitteln, ob die verbundene Komponente klein und dünner als ein "." ist. Falls dem so ist, dann wird die verbundene Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 2 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 3 die Höhe, das Seitenverhältnis und die Dichte der verbundenen Komponente inspiziert, um zu ermitteln, ob die verbundene Komponente ein Schrägstrich ("/") ist. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 3 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 4 das Seitenverhältnis, die Höhe und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein einzelnes kleines, dünnes Zeichen wie beispielsweise eine "1", ein "1" usw. ist. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 4 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 5, das Seitenverhältnis, die Höhe, die Dichte und das (Umgrenzung)2/Fläche-Verhältnis der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein einzelnes kleines, kurzes Zeichen wie "-", "-", "-", jeder Teil von "=" oder % ist. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 5 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 6 das Seitenverhältnis, die Höhe und die Dichte untersucht, um zu ermitteln, ob die verbundene Komponente ein kleines Zeichen wie ".",, und jeder Teil von ":" oder "; " ist. Falls dem so ist, wird der Typ der verbundenen Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 6 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 7 das Seitenverhältnis, die Höhe und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein einzelnes Zeichen mit einer kleinen Höhe und Dichte ist, wie "> ", "< ", "^", "u" oder ein "v". Falls dem so ist, dann wird der Typ der verbundenen Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 7 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 8 die Höhe, das Seitenverhältnis, die Dichte, das (Umgrenzung)2/Fläche-Verhältnis und das Umgrenzung/Breite-Verhältnis der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente breit und kurz ist, wie mehrere verbundene Zeichen in einer Reihe. Falls dem so ist, dann wird, falls das Umgrenzung/Breite-Verhältnis niedrig oder die Dichte hoch ist, wie eine Linie, dann wird der Typ der verbundenen Komponente auf Nichttext gesetzt; falls die Umgrenzung pro Breite hoch und die Dichte niedrig ist, dann wird die verbundene Komponente auf Text gesetzt.
  • Falls Regel Nummer 8 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 9 das Seitenverhältnis und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein hoher oder vertikaler Linienschlag wie " " ist. Falls dem so ist, dann wird der Typ der verbundenen Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 9 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 10 das Seitenverhältnis und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein langer horizontaler Linienschlag ist. Falls dem so ist, dann wird der Typ der verbundenen Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 10 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 11 die Höhe der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein großer Nichttextbereich ist, der in der Regel Nummer 9 nicht aufgegriffen wurde. Falls dem so ist, dann wird der Typ der verbundenen Komponente auf "Nichttext" gesetzt.
  • Falls Regel 11 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 12 die Höhe und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente eine nicht bereits aufgegriffene Randlinien-Textkomponente ist. Falls dem so ist, dann wird der Typ der verbundenen Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 12 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 13 das Seitenverhältnis, die Höhe, die Dichte, das (Umgrenzung)²/ Fläche-Verhältnis und das Umgrenzung/Breite-Verhältnis der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente eine Folge verbundener Buchstaben für kurze Wörter wie "ein", "der", "war" und dergleichen ist, die nicht bereits durch Regel Nummer 8 aufgegriffen wurden. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 13 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 14 das Seitenverhältnis und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein Nichttext-Fleck ist. Falls dem so ist, dann wird die verbundene Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 14 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann wird in Regel Nummer 15 die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente zum Beispiel ein Nichttext- Fleck mit sehr hoher Dichte, zum Beispiel detaillierte Grafik, oder ein Nichttext-Fleck mit sehr niedriger Dichte, zum Beispiel Text umgebende Rahmen, wie sie in Tabellen gefunden werden, ist. Falls dem so ist, wird die verbundene Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 15 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 16 die Höhe, die Dichte, das Seitenverhältnis, das (Umgrenzung)²/ Fläche-Verhältnis und das Umgrenzung/Breite-Verhältnis der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein Wort in einem größeren Zeichensatz ist, wie es typisch in Titeln und Kopfabschnitten gefunden wird. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 16 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 17 die Höhe, die Dichte, das Seitenverhältnis, das (Umgrenzung)²/ Fläche-Verhältnis und das Umgrenzung/Breite-Verhältnis der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein Nichttext-Element ist, das einem Wort in einem größeren Zeichensatz ähnlich ist, das aber eine niedrigere bzw. kleinere Umgrenzung hat und daher kein Text ist. Falls dem so ist, dann wird die verbundene Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 17 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 18 die Höhe und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein Randlinien- Textblock ist, der in Regel Nummer 12 nicht aufgegriffen wird. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 18 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 19 das (Umgrenzung)2/Fläche-Verhältnis, das Umgrenzung/Breite- Verhältnis und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente eine verbleibende, schwierig zu ermittelnde verbundene Textkomponente ist. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 19 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 20 das (Umgrenzung)2/Fläche-Verhältnis, das Umgrenzung/Breite- Verhältnis und die Dichte der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein schwierig zu ermittelndes Nichttext-Element ist, das in Regel Nummer 18 nicht aufgegriffen wird. Falls dem so ist, dann wird die verbundene Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 20 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 21 die Dichte, das Seitenverhältnis und das (Umgrenzung)2/Fläche- Verhältnis der verbundenen Komponente untersucht, um verbleibende schwierig zu ermittelnde, verbundene Texttypkomponenten zu finden, die durch Regel Nummer 19 nicht aufgegriffen werden. Falls die verbundene Komponente eine der verbleibenden schwierig zu ermittelnden, verbundenen Texttypkomponenten ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 21 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 22 die Höhe, das Umgrenzung/Breite-Verhältnis, das Seitenverhältnis und das (Umgrenzung)2/Fläche-Verhältnis der verbundenen Komponente allesamt untersucht, um zu ermitteln, ob die verbundene Komponente ein isoliertes Zeichen eines größeren Zeichensatzes wie beispielsweise ein Anfangsbuchstabe eines großen Zeichensatzes in einem Zeitschriftenartikel ist. Falls dem so ist, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 22 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 23 die Höhe, das Umgrenzung/Breite-Verhältnis und das Seitenverhältnis der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein isoliertes Nichttext- Element ähnlich Zeichen eines größeren Zeichensatzes wie der Zeichensatz in einem Kopfabschnitt oder einem Titel, aber trotzdem Nichttext ist. Falls dem so ist, dann wird die verbundene Komponente auf "Nichttext" gesetzt.
  • Falls Regel Nummer 23 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 24 das (Umgrenzung)2/Fläche-Verhältnis und das Umgrenzung/Breite- Verhältnis der verbundenen Komponente untersucht, um zu ermitteln, ob die verbundene Komponente ein sehr langes Wort oder ein Satz verbundener Wörter ist. An diesem Punkt in den Filterregeln findet dieser Filter sehr selten irgendetwas, er ist jedoch trotzdem eingeschlossen, um sicherzustellen, daß solche Folgen verbundener Wörter richtig als "Text" gekennzeichnet werden. Falls die Kriterien der Regel erfüllt sind, dann wird die verbundene Komponente auf "Text" gesetzt.
  • Falls Regel Nummer 24 nicht anwendbar war und die verbundene Komponente "unbekannt" bleibt, dann werden in Regel Nummer 25 verbleibende verbundene Komponenten auf "Nichttext" gesetzt.
  • In Regel Nummer 26 wird jede verbundene Textkomponente untersucht und dann, wenn die verbundene Textkomponente von anderen verbundenen Textkomponenten isoliert ist, die verbundene Komponente auf "Nichttext" gesetzt. Dies stellt sicher, daß isolierte Markierungen auf der Seite, wie sie beispielsweise durch verstreute Bleistiftmarkierungen oder Wasserzeichen erzeugt sein können, nicht irrtümlich als Text interpretiert werden.

Claims (29)

1. Dokumentspeichervorrichtung (20), umfassend:
eine Erhalteeinrichtung (71) zum Erhalten eines Bilds eines Dokuments mit einer ersten Auflösung, wobei die erste Auflösung zur optischen Erkennungsverarbeitung von Text in dem Dokument geeignet ist;
eine optische Erkennungsverarbeitungseinrichtung (60) zum optischen Erkennen von Text in dem Bild und zum Erhalten einer computerlesbaren Datei von Zeichencodes für den Text; dadurch gekennzeichnet, daß
die Erhalteeinrichtung (71) zum Erhalten eines Graustufenbilds des Dokuments angeordnet ist und die optische Erkennungsverarbeitungseinrichtung (60) zum optischen Erkennen von Text in dem Graustufenbild angeordnet ist; und
die Vorrichtung ferner umfaßt:
eine Reduziereinrichtung (60), die zum wesentlichen Reduzieren der Auflösung des Graustufenbilds auf eine zweite, für visuelle Wahrnehmung und Reproduktion des Graustufenbilds ausreichende Auflösung ausgelegt ist; und
eine Einrichtung (60) zum Speichern des Graustufenbilds mit reduzierter Auflösung in einer Speichereinrichtung in Zuordnung zu der computerlesbaren Textdatei derart, daß das Graustufenbild mit reduzierter Auflösung auf der Grundlage einer Suche der Textdatei wiederhergestellt werden kann.
2. Dokumentspeichervorrichtung (20) nach Anspruch 1, bei der die Einrichtung (60) zum Speichern zum Speichern des Graustufenbilds mit reduzierter Auflösung und der computerlesbaren Textdatei in einem computerisierten Lokalbereichsnetzwerk angeordnet ist.
3. Dokumentspeichervorrichtung (20) nach Anspruch 1 oder 2, bei der die Reduziereinrichtung (60) zum Verringern der Bildauflösung derart, daß das Graustufenbild mit reduzierter Auflösung den Farb- und Graustufeninhalt des Originalbilds bewahrt, angeordnet ist.
4. Dokumentspeichervorrichtung (20) nach einem der Ansprüche 1 bis 3, bei der die Erhalteeinrichtung eine Scannerschnittstelle (71) zum Sammeln von ein Graustufenbild des Dokuments repräsentierenden Dokumentinformationen von einer Abtasteinrichtung zum Abtasten des Dokuments umfaßt.
5. Dokumentspeichervorrichtung (20) nach Anspruch 4, bei der die Erhalteeinrichtung ferner eine Abtasteinrichtung zum Abtasten des Dokuments umfaßt.
6. Dokumentspeichervorrichtung (20) nach einem der Ansprüche 1 bis 5, bei der die Erhalteeinrichtung eine Einrichtung zum Wiederherstellen des Graustufenbilds aus einer Computerbilddatei umfaßt.
7. Dokumentspeichervorrichtung (20) nach einem der Ansprüche 1 bis 6, bei der die Einrichtung (60) zum Speichern zum Speichern des Graustufenbilds mit reduzierter Auflösung in komprimierter Form angeordnet ist.
8. Dokumentspeichervorrichtung (20) nach einem der Ansprüche 1 bis 7, ferner umfassend
einen Speicher (79) zum Speichern des Graustufenbilds eines Dokuments mit der ersten Auflösung, wobei der Speicher (79) darüber hinaus zum Speichern von Anweisungssequenzen angeordnet ist, durch welche das Graustufenbild verarbeitet wird; und
einen Prozessor (60) zum Ausführen der gespeicherten Anweisungssequenzen; wobei
die gespeicherten Anweisungssequenzen dazu ausgelegt sind, den Prozessor zu veranlassen, die Funktionen der optischen Erkennungsverarbeitungseinrichtung, der Reduziereinrichtung und der Einrichtung zum Speichern durchzuführen.
9. Dokument-Speicher- und -Wiederherstell-Einrichtung (20), umfassend die Dokumentspeichervorrichtung nach einem der Ansprüche 1 bis 8, und ferner umfassend eine Sucheinrichtung (60) zum Suchen mehrerer computerlesbarer Textdateien auf der Grundlage einer Suchabfrage, eine erste Wiederherstelleinrichtung (60) zum Wiederherstellen computerlesbarer Textdateien, die mit der Suchanfrage übereinstimmen, und eine zweite Wiederherstelleinrichtung (60) zum Wiederherstellen von Graustufenbildern mit reduzierter Auflösung, die die Speichereinrichtung in Zuordnung mit den wiederhergestellten computerlesbaren Textdateien gespeichert hat.
10. Dokument-Speicher- und -Wiederherstell-Einrichtung (20) nach Anspruch 9 wenn abhängig von Anspruch 7, bei der die zweite Wiederherstelleinrichtung (60) zum Dekomprimieren des wiederhergestellten Graustufenbilds mit reduzierter Auflösung vor dessen Anzeige oder Druck angeordnet ist.
11. Dokument-Speicher- und -Wiederherstell-Einrichtung (20) nach Anspruch 9 oder 10, ferner umfassend eine Anzeigeeinrichtung (69) zum Anzeigen wiederhergestellter Graustufenbilder mit reduzierter Auflösung.
12. Dokument-Speicher- und -Wiederherstell-Einrichtung (20) nach einem der Ansprüche 9 bis 11, ferner umfassend eine Druckeinrichtung (66) zum Drucken wiederhergestellter Graustufenbilder mit reduzierter Auflösung.
13. Dokument-Speicher- und -Wiederherstell-Einrichtung (20) nach einem der Ansprüche 9 bis 12, bei der die erste und die zweite Wiederherstelleinrichtung (60) zum Wiederherstellen computerlesbarer Textdateien und der Graustufenbilder mit reduzierter Auflösung aus einem computerisierten Lokalbereichsnetzwerk angeordnet sind.
14. Verfahren zum Speichern von Dokumenten, umfassend die Schritte:
Erhalten eines Bilds eines Dokuments mit einer ersten Auflösung, wobei die erste Auflösung zur optischen Erkennungsverarbeitung von Text in dem Dokument geeignet ist;
optisches Erkennen von Text in dem Bild und Erhalten einer computerlesbaren Datei von Zeichencodes für den Text; dadurch gekennzeichnet, daß
das durch den Erhalteschritt erhaltene Bild ein Graustufenbild des Dokuments ist und der Schritt der optischen Erkennung von Text optisch Text in dem Graustufenbild erkennt und das Verfahren ferner die Schritte umfaßt:
wesentliches Reduzieren der Auflösung des Graustufenbilds auf eine zweite, für visuelle Wahrnehmung und Reproduktion des Graustufenbilds ausreichende Auflösung; und
Speichern des Graustufenbilds mit reduzierter Auflösung in einer Speichereinrichtung in Zuordnung zu der computerlesbaren Textdatei derart, daß das Graustufenbild mit reduzierter Auflösung auf der Grundlage einer Suche der Textdatei wiederhergestellt werden kann.
15. Verfahren zum Speichern von Dokumenten nach Anspruch 14, bei dem das Graustufenbild mit reduzierter Auflösung und die computerlesbare Textdatei in einem computerisierten Lokalbereichsnetzwerk gespeichert werden.
16. Verfahren zum Speichern von Dokumenten nach Anspruch 14 oder 15, bei dem die zweite Auflösung derart ist, daß das Graustufenbild mit reduzierter Auflösung den Farb- und Graustufeninhalt des Originalbilds bewahrt.
17. Verfahren zum Speichern von Dokumenten nach einem der Ansprüche 14 bis 16, bei dem der Schritt des Erhaltens einen Schritt zum Sammeln von ein Graustufenbild des Dokuments repräsentierenden, durch Abtasten des Dokuments erzeugten Dokumentinformationen umfaßt.
18. Verfahren zum Speichern von Dokumenten nach Anspruch 17, bei dem der Schritt des Erhaltens darüber hinaus einen Schritt zum Abtasten des Dokuments, um ein Graustufenbild des Dokuments zu erzeugen, umfaßt.
19. Verfahren zum Speichern von Dokumenten nach einem der Ansprüche 14 bis 18, bei dem der Schritt des Erhaltens einen Schritt zum Wiederherstellen des Graustufenbilds des Dokuments aus einer Computerbilddatei umfaßt.
20. Verfahren zum Speichern von Dokumenten nach einem der Ansprüche 14 bis 18, bei dem die das Graustufenbild mit reduzierter Auflösung in komprimierter Form gespeichert wird.
21. Verfahren zum Speichern von Dokumenten, umfassend das Verfahren nach einem der Ansprüche 14 bis 20, und ferner umfassend die Schritte des Suchens mehrerer computerlesbarer Textdateien auf der Grundlage einer Suchabfrage, des Wiederherstellens computerlesbarer Textdateien, die mit der Suchanfrage übereinstimmen, und des Wiederherstellens von Graustufenbildern mit reduzierter Auflösung, die in Zuordnung mit den wiederhergestellten computerlesbaren Textdateien gespeichert sind.
22. Verfahren zum Speichern von Dokumenten nach 21 wenn abhängig von Anspruch 20, bei dem das wiederhergestellte Graustufenbilds mit reduzierter Auflösung vor der Anzeige oder dem Druck dekomprimiert wird.
23. Verfahren zum Speichern von Dokumenten nach Anspruch 21 oder 22, ferner umfassend einen Schritt des Anzeigens wiederhergestellter Graustufenbilder mit reduzierter Auflösung.
24. Verfahren zum Speichern von Dokumenten nach einem der Ansprüche 21 bis 23, ferner umfassend einen Schritt des Druckens wiederhergestellter Graustufenbilder mit reduzierter Auflösung.
25. Verfahren zum Speichern von Dokumenten nach einem der Ansprüche 21 bis 24, bei dem die computerlesbaren Textdateien und die Graustufenbilder mit reduzierter Auflösung aus einem computerisierten Lokalbereichsnetzwerk wiederhergestellt werden.
26. Verfahren zum Speichern von Dokumenten nach einem der Ansprüche 14 bis 25, bei dem die Schritte des optischen Erkennens von Text, des Reduzierens und des Speicherns durch einen Prozessor in Übereinstimmung mit in dem Prozessor gespeicherten Anweisungssequenzen durchgeführt werden.
27. Computerprogramm zum Steuern eines Computers, umfassend die Anweisungssequenzen nach Anspruch 26.
28. Computerprogramm zum Steuern eines Computers zum Ausführen des Verfahrens nach einem der Ansprüche 14 bis 25.
29. Trägermedium, das Computerprogramm nach Anspruch 27 oder 28 tragend.
DE69523970T 1994-04-15 1995-02-22 Dokumentspeicher- und Wiederauffindungssystem Expired - Lifetime DE69523970T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US22837194A 1994-04-15 1994-04-15

Publications (2)

Publication Number Publication Date
DE69523970D1 DE69523970D1 (de) 2002-01-03
DE69523970T2 true DE69523970T2 (de) 2002-07-04

Family

ID=22856913

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69523970T Expired - Lifetime DE69523970T2 (de) 1994-04-15 1995-02-22 Dokumentspeicher- und Wiederauffindungssystem

Country Status (4)

Country Link
US (1) US5867277A (de)
EP (1) EP0677812B1 (de)
JP (1) JP3696920B2 (de)
DE (1) DE69523970T2 (de)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU728856B2 (en) * 1995-12-21 2001-01-18 Canon Kabushiki Kaisha Zone segmentation for image display
JP3883579B2 (ja) * 1996-04-12 2007-02-21 アビッド テクノロジー インコーポレイテッド データ管理機構を改善したマルチメディア・システム
US6219382B1 (en) * 1996-11-25 2001-04-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for locating a caption-added frame in a moving picture signal
KR100295225B1 (ko) * 1997-07-31 2001-07-12 윤종용 컴퓨터에서 영상정보 검색장치 및 방법
US6404919B1 (en) * 1997-08-14 2002-06-11 Minolta Co., Ltd. Image processor for encoding image data
US6427032B1 (en) * 1997-12-30 2002-07-30 Imagetag, Inc. Apparatus and method for digital filing
JPH11306197A (ja) * 1998-04-24 1999-11-05 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US6226636B1 (en) * 1998-11-20 2001-05-01 Philips Electronics North America Corp. System for retrieving images using a database
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
US6389417B1 (en) * 1999-06-29 2002-05-14 Samsung Electronics Co., Ltd. Method and apparatus for searching a digital image
DE10009761A1 (de) * 2000-03-01 2001-09-20 Cgk Comp Ges Konstanz Mbh Bildaufnahmeverfahren und -Vorrichtung
US6944340B1 (en) * 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
US6930690B1 (en) * 2000-10-19 2005-08-16 Adobe Systems Incorporated Preserving gray colors
US8682077B1 (en) 2000-11-28 2014-03-25 Hand Held Products, Inc. Method for omnidirectional processing of 2D images including recognizable characters
US7020352B2 (en) * 2001-05-25 2006-03-28 Seiko Epson Corporation Photo extraction techniques
US7151864B2 (en) 2002-09-18 2006-12-19 Hewlett-Packard Development Company, L.P. Information research initiated from a scanned image media
JP4574313B2 (ja) 2004-10-04 2010-11-04 キヤノン株式会社 画像処理装置および方法
US7416125B2 (en) 2005-03-24 2008-08-26 Hand Held Products, Inc. Synthesis decoding and methods of use thereof
US7773822B2 (en) * 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
JP4911530B2 (ja) * 2005-05-31 2012-04-04 サイエンスパーク株式会社 監視システム、システム用のプログラム、及びプログラムを記録した記録媒体
US7792359B2 (en) * 2006-03-02 2010-09-07 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7889932B2 (en) * 2006-03-02 2011-02-15 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US8630498B2 (en) * 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US8437054B2 (en) 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US7864365B2 (en) * 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US8290270B2 (en) * 2006-10-13 2012-10-16 Syscom, Inc. Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
US20090041344A1 (en) * 2007-08-08 2009-02-12 Richard John Campbell Methods and Systems for Determining a Background Color in a Digital Image
US8121403B2 (en) 2007-10-30 2012-02-21 Sharp Laboratories Of America, Inc. Methods and systems for glyph-pixel selection
JP4902568B2 (ja) 2008-02-19 2012-03-21 キヤノン株式会社 電子文書生成装置、電子文書生成方法、コンピュータプログラム、および記憶媒体
US8200043B2 (en) * 2008-05-01 2012-06-12 Xerox Corporation Page orientation detection based on selective character recognition
JP5132416B2 (ja) * 2008-05-08 2013-01-30 キヤノン株式会社 画像処理装置およびその制御方法
US8131720B2 (en) 2008-07-25 2012-03-06 Microsoft Corporation Using an ID domain to improve searching
US8437036B2 (en) * 2008-10-27 2013-05-07 Xerox Corporation Image path utilizing sub-sampled cross-channel image values
WO2013164849A2 (en) * 2012-04-12 2013-11-07 Tata Consultancy Services Limited A system and method for detection and segmentation of touching characters for ocr
JP5983673B2 (ja) * 2014-05-01 2016-09-06 コニカミノルタ株式会社 電子文書生成システム、画像形成装置およびプログラム
JP6776805B2 (ja) * 2016-10-24 2020-10-28 富士通株式会社 文字認識装置、文字認識方法、文字認識プログラム
US11800036B2 (en) * 2020-01-23 2023-10-24 Hewlett, Packard Development Company, L.P. Determining minimum scanning resolution
US20230094787A1 (en) * 2021-09-30 2023-03-30 Adobe Inc. Utilizing machine-learning based object detection to improve optical character recognition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829453A (en) * 1987-03-05 1989-05-09 Sharp Kabushiki Kaisha Apparatus for cataloging and retrieving image data
US5163104A (en) * 1988-02-24 1992-11-10 Transtechnology Corporation Digital image processing technique including improved gray scale compression
FR2645984A1 (fr) * 1989-04-17 1990-10-19 Archivage Systemes Sarl Systeme d'archivage electronique dynamique multi-acces, a forte capacite de stockage et grande rapidite d'acces, notamment pour l'archivage de donnees graphiques complexes
US5307452A (en) * 1990-09-21 1994-04-26 Pixar Method and apparatus for creating, manipulating and displaying images
US5280367A (en) * 1991-05-28 1994-01-18 Hewlett-Packard Company Automatic separation of text from background in scanned images of complex documents

Also Published As

Publication number Publication date
US5867277A (en) 1999-02-02
JP3696920B2 (ja) 2005-09-21
DE69523970D1 (de) 2002-01-03
EP0677812B1 (de) 2001-11-21
EP0677812A1 (de) 1995-10-18
JPH0863583A (ja) 1996-03-08

Similar Documents

Publication Publication Date Title
DE69523970T2 (de) Dokumentspeicher- und Wiederauffindungssystem
DE69519323T2 (de) System zur Seitensegmentierung und Zeichenerkennung
DE69516751T2 (de) Bildvorverarbeitung für Zeichenerkennungsanlage
DE69506610T2 (de) Programmierbare Funktionstasten für vernetzten persönlichen Bildcomputer
DE69332459T2 (de) Verfahren und Vorrichtung zur Zeichenerkennung
US5619594A (en) Image processing system with on-the-fly JPEG compression
DE69724755T2 (de) Auffinden von Titeln und Photos in abgetasteten Dokumentbildern
DE69432585T2 (de) Verfahren und Gerät zur Auswahl von Text und/oder Non-Text-Blöcken in einem gespeicherten Dokument
DE69722971T2 (de) Automatisches sprachenerkennungssystem für die mehrsprachige optische zeichenerkennung
DE69132206T2 (de) Verfahren und Gerät zur Bildverarbeitung
DE69226846T2 (de) Verfahren zur Bestimmung von Wortgrenzen im Text
DE69226609T2 (de) Verfahren und Gerät zur Dokumentbildverarbeitung
DE69229537T2 (de) Verfahren und Gerät zur Dokumentverarbeitung
DE69230784T2 (de) Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung
DE69230631T2 (de) Verfahren zum Vergleichen von Wortgestalten
DE69226611T2 (de) Verfahren und Gerät zur Verarbeitung eines Dokumentbildes
DE69229468T2 (de) Verfahren und Gerät zur Bestimmung der Wortfrequenz in einem Dokument ohne Dokumentbilddekodierung
DE69230635T2 (de) Verfahren und Gerät zur Bild-/Handmarkierungsbestimmung
DE60129872T2 (de) Verfahren zur Extrahierung von Titeln aus numerischen Bildern
DE69230632T2 (de) Optische Worterkennung durch Wortgestaltuntersuchung
DE69225678T2 (de) Verfahren und Gerät zur Dokumentbildverarbeitung
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE69229536T2 (de) Verfahren und Gerät zum Auswahl linguistisch bezeichnender Bilder in einem Dokumentbild ohne Dekodierung des Bildinhalts
DE3650554T2 (de) Speicherungs- und Wiederauffindungsverfahren für Bilddaten
DE69230633T2 (de) Verfahren zur Ermittlung von Wortformen zum folgenden Vergleich

Legal Events

Date Code Title Description
8364 No opposition during term of opposition