DE10321944A1 - Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten - Google Patents

Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten Download PDF

Info

Publication number
DE10321944A1
DE10321944A1 DE10321944A DE10321944A DE10321944A1 DE 10321944 A1 DE10321944 A1 DE 10321944A1 DE 10321944 A DE10321944 A DE 10321944A DE 10321944 A DE10321944 A DE 10321944A DE 10321944 A1 DE10321944 A1 DE 10321944A1
Authority
DE
Germany
Prior art keywords
word
text
document
based electronic
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10321944A
Other languages
English (en)
Inventor
Steven J. Fort Collins Simske
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of DE10321944A1 publication Critical patent/DE10321944A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/246Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Abstract

Es werden Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten geschaffen. Kurz beschrieben, weist ein Ausführungsbeispiel eines Verfahrens zum Verarbeiten eines textbasierten elektronischen Dokuments folgende Schritte auf: Vergleichen von zumindest einem Wort in einem textbasierten elektronischen Dokument mit einem systemeigenen Sprachverzeichnis, um zu bestimmen, ob das zumindest eine Wort mit einer vordefinierten Regel konform ist; für jedes des zumindest einen Worts, das nicht mit der vordefinierten Regel konform ist, Fragmentieren des zumindest einen Worts in Worfragmente; Kombinieren von zumindest zwei aufeinanderfolgenden Wortfragmenten; und Vergleichen der Kombination der Wortfragmente mit dem systemeigenen Sprachverzeichnis.

Description

  • Die vorliegende Erfindung bezieht sich allgemein auf ein Dokumentverarbeiten und insbesondere auf Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten.
  • Optische Zeichenerkennungssysteme (OCR-Systeme; OCR = Optical Character Recognition) werden üblicherweise verwendet, um Text aus einem Dokument zu erfassen (z. B. einem maschinengedruckten Dokument, handgeschriebenen Dokument etc.), durch optisches Abtasten des Dokuments und Erzeugen einer zweidimensionalen digitalen Darstellung des Dokuments (z. B. einer Pixeldarstellung, einer Bitabbildung etc.). Die meisten OCR-Systeme sind konfiguriert, um die zweidimensionale digitale Darstellung in eine Reihe von Zeichen umzuwandeln, die durch einen Computer manipuliert werden können. OCR-Systeme wandeln z. B. üblicherweise die Textabschnitte in Code um, wie z. B. Code, der gemäß dem American Standard Code for Information Interchange (ASCII) oder dem Unicode-Standard formatiert ist, durch Durchführen einer Vielzahl von Zeichenerkennungsprozessen an der zweidimensionalen digitalen Darstellung. Viele OCR-Systeme sind konfiguriert, um die zeichencodierte Darstellung in einer Form zu liefern, die mit üblichen Softwareanwendungen kompatibel ist, wie z. B. Textverarbeitung etc.. OCR-Systeme führen eine Vielzahl von heuristischen und schablonen-getriebenen Aufgaben an der zweidimensionalen digitalen Darstellung durch, um die zeichencodierte Darstellung zu erzeugen, die in eine andere Softwareanwendung importiert werden kann, um angezeigt, gedruckt und/oder modifiziert zu werden.
  • Die Genauigkeit der Ausgabe aktueller OCR-Systeme kann jedoch sehr eingeschränkt sein. Zum Beispiel aufgrund der Ähnlichkeit zwischen individuellen Symbolen, Zeichen und/oder Kommentaren, sowie Kombinationen von Zeichen oder Symbolen (Glyphen), können aktuelle OCR-Systeme nicht in der Lage sein, Fehler zu beseitigen, die in dem Prozeß des Erkennens von Zeichen in der zweidimensionalen digitalen Darstellung des Dokuments auftreten. Üblicherweise weisen OCR-System ein Tendenz auf, Fehler von Glyphen (eines oder mehrere Zeichen), Ersetzungen, Einfügungen, Löschungen etc. zu erzeugen. Zusätzlich dazu ist die Ausgabe aktueller OCR-Systeme weitgehend abhängig von der Qualität des Originaldokuments und der Qualität der zweidimensionalen digitalen Darstellung, die abgetastet werden soll.
  • Ferner, um Zeichenerkennungsfehler zu reduzieren, muß ein aktuelles OCR-System evtl. komplexere Zeichenerkennungstechniken implementieren. Komplexe Zeichenerkennungstechniken sind jedoch teuerer und erfordern mehr Verarbeitungszeit. Ein aktuelles OCR-System kann z. B. eine sehr komplexe Zeichenerkennungstechnik implementieren, die entworfen ist, um eine sehr genaue Ausgabe zu erzeugen. Diese Systeme können jedoch aufgrund der erhöhten erforderlichen Verarbeitungszeit problematisch sein, wenn große Mengen von Text umgewandelt werden.
  • Es ist die Aufgabe der vorliegenden Erfindung, ein Verfahren zum Verarbeiten eines textbasierten elektronischen Dokuments, eine Vorrichtung zum Verarbeiten eines textbasierten elektronischen Dokuments und ein System zum Verarbeiten eines textbasierten elektronischen Dokuments mit verbesserten Charakteristika zu schaffen.
  • Diese Aufgabe wird durch ein Verfahren gemäß Anspruch 1 und eine Vorrichtung gemäß Anspruch 12 oder 25 gelöst.
  • Die vorliegende Erfindung schafft Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten.
  • Kurz beschrieben weist ein Ausführungsbeispiel eines Verfahrens zum Verarbeiten eines textbasierten elektronischen Dokuments folgende Schritte auf: Vergleichen von zumindest einem Wort in einem textbasierten elektronischen Dokument mit einem systemeigenen Sprachverzeichnis bzw. einem Muttersprachlichen Wörterbuch, um zu bestimmen, ob das zumindest eine Wort einer vordefinierten Regel entspricht; für jedes des zumindest einen Wortes, das der vordefinierten Regel nicht entspricht, Fragmentieren des zumindest einen Worts in Wortfragmente; Kombinieren von zumindest zwei aufeinanderfolgenden Wortfragmenten und Vergleichen der Kombination der Wortfragmente mit dem systemeigenen Sprachverzeichnis.
  • Ein anderes Ausführungsbeispiel weist ein System zum Verarbeiten eines textbasierten elektronischen Dokuments auf. Kurz beschrieben weist ein Ausführungsbeispiel eines solchen Systems eine Logik auf, die konfiguriert ist, um folgende Schritte auszuführen: Vergleichen von zumindest einem Wort in einem textbasierten elektronischen Dokument mit einem systemeigenen Sprachverzeichnis, um zu bestimmen, ob das zumindest eine Wort mit einer vordefinierten Regel konform ist, Fragmentieren von jedem des zumindest einen Worts, das nicht mit der vordefinierten Regel konform ist, in Wortfragmente, Kombinieren von zumindest zwei aufeinanderfolgenden Wortfragmenten und Vergleichen der Kombination der Wortfragmente mit dem systemeigenen Sprachverzeichnis.
  • Ein anderes Ausführungsbeispiel eines solchen Systems weist folgende Merkmale auf: eine Einrichtung zum Vergleichen von zumindest einem Wort in einem textbasierten elektronischen Dokuments mit einem systemeigenen Sprachverzeichnis, um zu bestimmen, ob das zumindest eine Wort mit einer vordefinierten Regel konform ist; eine Wortfragmentierungseinrichtung zum Fragmentieren von jedem des zumindest einen Worts, das nicht mit der vordefinierten Regel konform ist, in Wortfragmente; eine Wortfragment-Integrationseinrichtung zum Kombinieren von zumindest zwei aufeinanderfolgenden Wortfragmenten; und eine Einrichtung zum Vergleichen der Kombination der Wortfragmente mit dem systemeigenen Sprachverzeichnis.
  • Die Erfindung ist Bezug nehmend auf die nachfolgenden Zeichnungen besser verständlich. Die Komponenten in den Zeichnungen sind nicht notwendigerweise maßstabsgetreu, wobei die Betonung auf das klare Darstellen der Prinzipien der vorliegenden Erfindung gelegt ist. Ferner bezeichnen in den Zeichnungen gleiche Bezugszeichen entsprechende Teile in den unterschiedlichen Ansichten.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
  • 1 ein Blockdiagramm eines Ausführungsbeispiels eines Systems gemäß der vorliegenden Erfindung zum Verbessern der Genauigkeit eines optischen Zeichenerkennungssystems (OCR-System);
  • 2 ein Flußdiagramm, das den allgemeinen Betrieb des Systems aus 1 darstellt;
  • 3 ein Flußdiagramm, das die Funktionalität, Architektur und/oder Operation eines Ausführungsbeispiels der optischen Zeichenerkennungsmaschine des Systems aus 1 darstellt;
  • 4 ein Flußdiagramm, das die Funktionalität, Architektur und/oder Operation eines Ausführungsbeispiels des Nach-OCR-Verarbeitungsmoduls des Systems aus 1 darstellt;
  • 5 ein anderes Flußdiagramm, das die Funktionalität, Architektur und/oder Operation eines Ausführungsbeispiels des Nach-OCR-Verarbeitungsmoduls des Systems aus 1 darstellt; und
  • 6 ein Flußdiagramm, das ein Ausführungsbeispiel des Wortfragmentierungsmoduls und des Wortfragment-Integrationsmoduls aus 4 darstellt, die ein Nach-OCR-Verarbeiten an einem Musterabschnitt eines Texts aus einem Dokument durchführen.
  • Wie oben erwähnt schafft die vorliegende Erfindung Vorrichtung und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten (z. B. Dokumenten, die durch ein optisches Zeichenerkennungssystem (OCR) verarbeitet werden, Textdateien, Textverarbeitungsdateien, Hypertext-Markup-Textdateien (HTLM-Dateien), andere computerlesbare Textdateien etc.). Fachleute auf dem Gebiet werden unter spezifischer Bezugnahme auf dieses Dokument erkennen, abhängig von dem bestimmten Typ des textbasierten elektronischen Dokuments, das verarbeitet wird, daß die vorliegende Erfindung in einer Vielzahl von Umgebungen implementiert sein kann. Bei einer Anzahl von möglichen Ausführungsbeispielen können die Vorrichtungen und Verfahren gemäß der vorliegenden Erfindung verwendet werden, um ein Dokument zu verarbeiten, das durch ein OCR-System abgetastet wurde. Auf diese Weise kann die vorliegende Erfindung die Genauigkeit verbessern, mit der Text in dem abgetasteten Dokument in eine computerlesbare Form umgewandelt wird. Obwohl die Vorrichtungen und Verfahren gemäß der vorliegenden Erfindung verwendet werden können, um eine Vielzahl von alternativen textbasierten elektronischen Dokumenten zu verarbeiten, erörtert der Rest dieses Dokuments eine spezifische Implementierung innerhalb eines OCR-Systems.
  • 1 ist ein Blockdiagramm eines Systems 100, bei dem ein Ausführungsbeispiel eines optischen Zeichenerkennungssystems (OCR-System) 110 gemäß der vorliegenden Erfindung implementiert sein kann. Wie nachfolgend detaillierter beschrieben wird, verbessert das optische Zeichenerkennungssystem 110 die Genauigkeit, mit der Text in einem Dokument, das als ein Dokumentbild oder eine Bitabbildung (z. B. eine digitale Abbildung von Pixel) durch ein optisches Abtasten des Dokuments erfaßt wurde, in eine computerlesbare Form umgewandelt wird.
  • Das optische Zeichenerkennungssystem 110 kann in Software, Firmware, Hardware oder einer Kombination derselben implementiert sein. Bei einem Ausführungsbeispiel, das in 1 dargestellt ist, ist das optische Zeichenerkennungssystem 110 in Software als ein ausführbares Programm implementiert, das durch eine Verarbeitungsvorrichtung 102 ausgeführt wird. Allgemein, im Hinblick auf die Hardwarearchitektur, wie in 1 gezeigt ist, weist das System 100 eine Verarbeitungsvorrichtung 102, einen Speicher 104, eine Abtastvorrichtung 116, eine oder mehrere Netzwerkschnittstellenvorrichtungen 118 und eine oder mehrere Eingabeund/oder Ausgabe-Vorrichtungen (I/O-Vorrichtungen) 120 auf, die über eine lokale Schnittstelle 122 verbunden sind. Das System 100 kann ferner zusätzliche Komponenten aufweisen, die in 1 nicht dargestellt sind.
  • Die lokale Schnittstelle 122 kann z. B. aber nicht ausschließlich einer oder mehrere Busse sein, oder eine andere verdrahtete oder drahtlose Verbindung. Die lokale Schnittstelle 122 kann zusätzliche Elemente aufweisen, die der Einfachheit halber weggelassen sind, wie z. B. Steuerungen, Puffer (Cache-Speicher), Treiber, Repeater und Empfänger, um Kommunikationen zu ermöglichen. Ferner kann die lokale Schnittstelle 122 Adreß-, Steuerungs- und/oder Daten-Verbindungen umfassen, um geeignete Kommunikationen zwischen den zuvor genannten Komponenten zu ermöglichen.
  • Die Verarbeitungsvorrichtung 102 ist eine Hardwarevorrichtung zum Ausführen von Software, insbesondere der, die in dem Speicher 104 gespeichert ist. Die Verarbeitungsvorrichtung 102 kann ein kundenspezifisch hergestellter oder handelsüblich erhältlicher Prozessor, eine zentrale Verarbeitungseinheit (CPU = Central Processing Unit), ein Hilfsprozessor unter verschiedenen Prozessoren, die dem System 100 zugeordnet sind, ein halbleiterbasierter Mikroprozessor (in der Form eine Mikrochips oder eines Chipsatzes), ein Makroprozessor oder allgemein eine Vorrichtung zum Ausführen von Softwarebefehlen sein.
  • Wie in 1 dargestellt ist, weist der Speicher 104 ein Betriebssystem 106, zumindest eine Anwendung 108, und ein optisches Zeichenerkennungssystem 110 auf. Das optische Zeichenerkennungssystem 110 weist ferner zumindest eine OCR-Maschine 112 und zumindest ein Nach-OCR-Verarbeitungsmodul 114 auf. Der Speicher 104 kann eines oder eine Kombination aus flüchtigen Speicherelementen (z. B. Direktzugriffsspeicher (RAM, wie z. B. DRAM, SRAM, SDRAM etc.)) und nichtflüchtigen Speicherelementen (z. B. ROM, Festplatte, Band, CDROM etc.) aufweisen. Der Speicher 104 kann elektronische, magnetische, optische und/oder andere Typen von Speicherungsmedien einlagern. Ferner kann der Speicher 104 eine verteilte Architektur aufweisen, in der verschiedenen Komponenten entfernt voneinander positioniert sind, aber durch die Verarbeitungsvorrichtung 102 zugegriffen werden können.
  • Die Software in dem Speicher 104 kann eines oder mehrere separate Programme umfassen, wobei jedes derselben ausführbare Befehle zum Implementieren logischer Funktionen aufweist. In dem Beispiel aus 1 umfaßt die Software in dem Speicher 104 ein optisches Zeichenerkennungssystem 110 gemäß der vorliegenden Erfindung. Der Speicher 104 kann ferner ein geeignetes Betriebssystem 106 aufweisen, das die Ausführung von anderen Computerprogrammen steuert, wie z. B. einer oder mehrerer Anwendungen 108 und des optischen Zeichenerkennungssystem 110, und das Planung, Eingabe-Ausgabe-Steuerung, Datei- und Daten-Verwaltung, Speicherverwaltung und Kommunikationssteuerung und verwandte Dienste liefert.
  • Das optische Zeichenerkennungssystem 110 kann ein Quellprogramm, ein ausführbares Programm (Objektcode), ein Script oder eine andere Entität sein, die einen Satz von Befehlen aufweist, die ausgeführt werden sollen. Wenn dasselbe als ein Quellprogramm implementiert ist, dann wird das Programm über einen Kompilierer, Assemblierer, Interpretierer oder ähnliches übersetzt, das innerhalb des Speichers 104 umfaßt sein kann oder nicht, um ordnungsgemäß in Verbindung mit dem Betriebssystem 106 zu arbeiten.
  • Die Abtastvorrichtung 116 kann eine Vorrichtung sein, die konfiguriert ist, um ein Dokument 202, wie z. B. ein Papierdokument, in eine elektronische Darstellung des Dokuments umzuwandeln. Die Abtastvorrichtung 116 kann z. B. konfiguriert sein, um Text, Darstellungen etc. optisch zu erfassen, die auf Papier gedruckt sind, und die Informationen in eine computerlesbare Form zu translatieren. Anders ausgedrückt digitalisiert die Abtastvorrichtung 116 das Dokument 202 durch Teilen desselben in ein Gitter von Kästen und durch Darstellen jedes Kastens mit entweder einer 0 oder einer 1, abhängig davon, ob der Kasten ausgefüllt ist. Für Farb- und Grau-Skalieren gelten die selben Prinzipien, aber jeder Kasten ist dann durch mehr als ein Bit dargestellt. Die resultierende Bitmatrix, die als eine Bitabbildung bezeichnet wird, kann dann in dem Speicher 104 gespeichert und durch die OCR-Maschine 112 verarbeitet werden, wie nachfolgend beschrieben wird.
  • Ein Durchschnittsfachmann auf dem Gebiet wird erkennen, daß eine Vielzahl von Abtastvorrichtungen 116 verwendet werden kann. Eine Blattzuführabtastvorrichtung kann z. B. implementiert sein, in der mechanische Rollen das Dokument, das abgetastet werden soll, an einem Abtastkopf vorbei bewegen. Bei anderen Ausführungsbeispielen kann ein Flachbettscanner implementiert sein, bei dem das Dokument, das abgetastet werden soll, stationär ist, z. B. hinter einem Glasfenster, während sich der Abtastkopf an dem Dokument vorbei bewegt. Die Abtastvorrichtung 116 kann ferner eine Handhalte-Abtastvorrichtung sein, in der der Abtastkopf manuell über das Dokument bewegt wird, das abgetastet werden soll.
  • Eine oder mehrere Netzwerkschnittstellenvorrichtungen 118 können eine Vorrichtung sein, die konfiguriert ist, um eine Kommunikation zwischen dem System 100 und einem Kommunikationsnetzwerk zu ermöglichen, wie z. B. einem öffentlichen oder privaten Paketvermittlungsnetz oder einem anderen Datennetzwerk, das das Internet, ein schaltungsgeschaltetes Netzwerk, wie das öffentliche Fernsprechnetz, ein drahtloses Netzwerk, ein optisches Netzwerk oder eine andere gewünschte Kommunikationsinfrastruktur sein kann.
  • Eine Eingabe-/Ausgabe-Vorrichtung 120 kann eine Vorrichtung aufweisen, die konfiguriert ist, um mit der lokalen Schnittstelle 118 zu kommunizieren. Ein Durchschnittsfachmann auf dem Gebiet wird erkennen, daß abhängig von der Konfiguration des Systems 100 eine Eingabe-/Ausgabe-Vorrichtung 120 eines der nachfolgenden oder andere Vorrichtungen umfassen kann: eine Tastatur, eine Maus, eine Anzeigevorrichtung, wie z. B. einen Computermonitor, ein serielles Tor, ein paralleles Tor, einen Drucker, Lautsprecher, ein Mikrophon etc.
  • Während der Operation des Systems 100 ist die Verarbeitungsvorrichtung 102 konfiguriert, um eine Logik auszuführen, die innerhalb des Speichers 104 gespeichert ist, um Daten zu und von dem Speicher 104 zu kommunizieren, und um Operationen des Systems 100 gemäß der Software allgemein zu steuern. Das optische Zeichenerkennungssystem 110 und das Betriebssystem 106 werden ganz oder teilweise, aber typischerweise letzteres, durch die Verarbeitungsvorrichtung 102 gelesen, evtl. innerhalb der Verarbeitungsvorrichtung 102 gepuffert und dann ausgeführt.
  • Bei Ausführungsbeispielen, bei denen das optische Zeichenerkennungssystem 110 in Software implementiert ist, wie in 1 gezeigt ist, kann das optische Zeichenerkennungssystem 110 auf einem computerlesbaren Medium zur Verwendung durch oder in Verbindung mit einem computerverwandten Sy stem oder Verfahren gespeichert sein. In dem Kontext dieses Dokuments kann ein computerlesbares Medium eine elektronische, magnetische, optische oder andere physikalische Vorrichtung oder Einrichtung sein, die ein Computerprogramm zur Verwendung durch oder in Verbindung mit einem computerverwandten System oder Verfahren enthalten oder speichern kann. Das optische Zeichenerkennungssystem 110 kann in einem computerlesbaren Medium zur Verwendung durch oder in Verbindung mit einem Befehlsausführungs-System, einer -Einrichtung oder einer -Vorrichtung verkörpert sein, wie z. B. einem computerbasierten System, einem prozessorenthaltenden System oder einem anderen System, das die Befehle aus dem Befehlsausführungs-System, der -Einrichtung oder der -Vorrichtung abrufen und die Befehle ausführen kann.
  • In dem Kontext dieses Dokuments kann ein „computerlesbares Medium" eine Einrichtung sein, die das Programm zur Verwendung durch oder in Verbindung mit dem Befehlsausführungssystem, der Einrichtung oder der Vorrichtung speichern, kommunizieren, verbreiten oder transportieren kann. Das computerlesbare Medium kann z. B. aber nicht ausschließlich ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleiter-System, eine -Einrichtung, eine -Vorrichtung oder ein -Verteilmedium sein. Spezischere Beispiele (eine nichterschöpfende Liste) eines computerlesbaren Mediums würden folgende umfassen: einen elektrische Verbindung, eine tragbare Computerdiskette, einen Direktzugriffsspeicher (RAM = Random Access Memory), einen Nur-Lese-Speicher (ROM = Read Only Memory), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM, EEPROM oder Flash-Speicher), eine optische Faser und einen tragbaren CD-Platten-Nur-Lese-Speicher (CDROM). Es wird darauf hingewiesen, daß das computerlesbare Medium sogar Papier oder ein anderes geeignetes Medium sein könnte, auf das das Programm gedruckt ist, da das Programm elektronisch erfaßt werden kann, z. B. über ein optisches Abtasten des Papier oder eines anderen Mediums, geeignet verarbeitet und in einem Computerspeicher gespeichert werden kann.
  • Bei alternativen Ausführungsbeispielen, bei denen das optische Zeichenerkennungssystem 110 in Hardware implementiert ist, kann das optische Zeichenerkennungssystem 110 mit einer oder einer Kombination aus den nachfolgenden Techniken implementiert sein: einer oder mehreren Logikschaltungen, die Logikgatter zum Implementieren von Logikfunktionen auf Datensignalen aufweisen, eine anwendungsspezifische integrierte Schaltung (ASIC = Application Specific Integrated Circuit), die geeignete kombinatorische Logikgatter aufweist, einem oder mehreren programmierbaren Gatterarrays (PGA = Programmable Gate Array), einem feldprogrammierbaren Gatterarray (FPGA = Field Programmable Gate Array) etc., oder Techniken, die bereits bekannt sind oder in Zukunft entwickelt werden.
  • Wie oben erwähnt wurde, weist das optische Zeichenerkennungssystem 110 zumindest eine OCR-Maschine 112 und zumindest ein Nach-OCR-Verarbeitungsmodul 114 auf. Allgemein ausgedrückt verbessert das optische Zeichenerkennungssystem 110 die Zeichenerkennungsgenauigkeit des Gesamtsystems durch Verarbeiten der Ausgabe der OCR-Maschine 112 über ein Nach-OCR-Verarbeitungsmodul 114.
  • Bezugnehmend nun auf 2 wird die allgemeine Operation des Systems 100 beschrieben. Wie durch die Blöcke 204 und 206 dargestellt ist, erfaßt das OCR-System 100 Text aus einem Dokument 202 durch optisches Abtasten des Dokuments und Erzeugen eines Dokumentbildes. Bei Block 208 wandelt das OCR-System 100 Text innerhalb des Dokumentbildes in eine zeichencodierte Darstellung 210 um, z. B. eine computerlesbare Form (z. B. ASCII-Code (American Standard Code for Information Interchange) oder Unicode), durch Durchführen von einem aus einer Vielzahl von Zeichenerkennungsprozessen. Nachdem der Text in dem Dokument durch die OCR-Prozesse in eine computerlesbare Form übersetzt ist, kann das OCR-System 100 bei Block 212 eine Vielzahl von Nach-OCR-Prozessen durchführen, um eine zeichencodierte Darstellung 214 zu liefern, die eine verbesserte Zeichenerkennungsgenauigkeit aufweist.
  • Wie in 3 dargestellt ist, kann die OCR-Maschine 112 eine Vielzahl von logischen Modulen zum Umwandeln eines Dokumentbildes 300 (z. B. einer elektronischen Darstellung eines Dokuments, das abgetastet wurde) in eine zeichencodierte Darstellung 210 des Dokuments in eine computerlesbare Form. Die zeichencodierte Darstellung 210 kann in einer Vielzahl von Formen vorliegen, wie z. B. einem ASCII-Code oder Unicode. Um diese Übersetzung durchzuführen, kann die OCR-Maschine 112z. B. ein Zeichenextrahierermodul 202, eine Zeichenerkennungsmodul 304 und zumindest eine Zeichenschablone 306 aufweisen. Das Textextrahierermodul 302 kann konfiguriert sein, um ein Dokumentbild 300 zu empfangen und Textabschnitte von Nichttextabschnitten, wie z. B. Bildern, zu unterscheiden. Das Zeichenerkennungsmodul 304 kann konfiguriert sein, um die Textabschnitte des Dokumentbildes 300 zu verarbeiten und die Wörter, Buchstaben, Zahlen, Leerzeichen, Punktierung, diakritische Zeichen etc. zu identifizieren, um eine zeichencodierte Darstellung 210 zu erzeugen. Das Zeichenerkennungsmodul 304 kann z. B. eine Vielzahl von heuristischen und schablonengetriebenen Aufgaben an der zweidimensionalen digitalen Darstellung des Dokuments über einen Vergleich mit zumindest einer Zeichenschablone 306 durchführen. Ein Durchschnittsfachmann auf dem Gebiet wird erkennen, daß das Zeichenerkennungsmodul 304 eine aus einer Vielzahl von bekannten oder in Zukunft entwickelten Zeichenerkennungstechniken implementieren kann. Unabhängig von der verwendeten Zeichenerkennungstechnik erzeugt die OCR-Maschine 112 eine zeichencodierte Darstellung 210, die in einer computerlesbaren Form vorliegen kann. Wie nachfolgend detaillierter beschrieben wird, empfängt das Nach-OCR-Verarbeitungsmodul 114 die zeichencodierte Darstellung 210 von der OCR-Maschine 112, verarbeitet die zeichencodierte Darstellung 210 und erzeugt eine semantische Darstellung 212, die eine verbesserte Genauigkeit aufweist.
  • Wie oben erwähnt wurde, kann das Nach-OCR-Verarbeitungsmodul 114 verwendet werden, um das Verhalten der OCR-Maschine 212 zu verbessern, durch Verarbeiten der zeichencodierten Darstellung 210, die durch die OCR-Maschine 112 erzeugt wird. Allgemein ausgedrückt verarbeitet ein Nach-OCR-Verarbeitungsmodul 114 die zeichencodierte Darstellung 210 gemäß statistischen Informationen, die sich auf Erkennungsfehler beziehen, die durch die OCR-Maschine 112 und ein systemeigenes Sprachverzeichnis, sowie durch einen iterativen Prozeß zum Fragmentieren von Wörtern in der zeichencodierten Darstellung 210 und Kombinieren der resultierenden Wortfragmente gemacht werden.
  • Bei dem in 4 dargestellten Ausführungsbeispiel weist das Nach-OCR-Verarbeitungsmodul 114 ein Systemeigenes-Sprachverzeichnis-Modul bzw. muttersprachliches Wörterbuchmodul 402, ein Wortparsermodul (Modul zur syntaktischen Analyse eines Wortes) 404, ein OCR-Statistikmodul 406, ein Wortfragmentierungsmodul 408 und ein Wortfragmentintegrationsmodul 410 auf. Ein Durchschnittsfachmann auf dem Gebiet wird erkennen, daß das Systemeigenes-Sprachverzeichnis-Modul 402 in einer Vielzahl von Arten konfiguriert sein kann. Das Systemeigenes-Sprachverzeichnis-Modul 402 kann z. B. konfiguriert sein, um eine Sprache zu unterstützten. Ferner kann das Systemeigenes-Sprachverzeichnis-Modul 402 bei bestimmten Ausführungsbeispielen als ein Array von Zeichenfolgen konfiguriert sein. Jede Zeichenfolge kann eine separate Zeile aufweisen, z. B. durch Verwenden der digitalen Darstellung einer neuen Zeile oder eines Zeilenvorschubs (z. B. ASCII „10"). Somit kann bei dieser Konfiguration das Nach-OCR-Verarbeitungsmodul 114 ein Maximum von N Nachschlagungen durchführen, wobei 2" größer oder gleich der Anzahl von Wörtern in dem systemeigenen Sprachverzeichnis ist. Ein systemeigenes Sprachverzeichnis, das z. B. 65.636 Einträge aufweist, würden z. B. nicht mehr als 16 Nachschlagungen erfordern (216 = 65.536).
  • Das Wortparsermodul 404 kann ferner konfiguriert sein, um die Wörter in der zeichencodierten Darstellung 210 auf eine Vielzahl von Weisen syntaktisch zu analysieren bzw. zu zerlegen. Zum Beispiel können unterschiedliche Regeln angewendet werden, um das syntaktische Wortanalysieren bzw. Parsen zu erreichen. Ein Durchschnittsfachmann auf dem Gebiet wird erkennen, daß eine der nachfolgenden oder andere Regeln für das syntaktische Analysieren verwendet werden können: (1) Abgrenzung durch Zeichenfolgen alphabetischer Zeichen; (2) Abgrenzung durch alphabetische Zeichen plus übliche Punktuierung (z. B. das Apostrophzeichen ('), das für Abkürzungen verwendet wird) und Punktierungsfehler (z. B. Ersetzen von „i" durch „,.", etc.); (3) Abgrenzen wie in (1) und (2) oben mit der Zulassung eines weißen Raums und/oder Weißraum/Fortsetzung-Anzeigevorrichtungen (z. B. Trennungsstrich-Zeichen „-" zwischen Teilen eines Wortes auf zwei Zeilen), etc..
  • Wie nachfolgend detaillierter beschrieben wird, kann das Wortfragmentierungsmodul 408 konfiguriert sein, um einen Glyph (zumindest ein Zeichen) basierend auf einer Vielzahl von vordefinierten Regeln zu fragmentieren. Ein Wortfragmentierungsmodul 408 kann z. B. konfiguriert sein, um einen Glyph zu analysieren, um zu bestimmen, ob der Glyph ein eingebettetes oder ein „Wort-Fragment" enthält. Bei bestimmten Ausführungsbeispielen kann das Wortfragmentierungsmodul 408 konfiguriert sein, um Wortfragmente einer bestimmten Länge (z. B. sechs oder mehr Zeichen) zu extrahieren, die in einen längeren Glyphen eingebettet sind. Zusätzlich zu dem Extrahieren von Wortfragmenten aus einem Glyphen kann das Wortfragmentierungsmodul 408 konfiguriert sein, um einen Glyphen in einen Satz von kleinsten „Grundelement"-Teilen zu fragmentieren. Das Wortfragment-Integrationsmodul 410 ist konfiguriert, um zwei oder mehr Wortfragmente und/oder Glyphen basierend auf vordefinierten Regeln zu kombinieren.
  • Ein Durchschnittsfachmann auf dem Gebiet wird erkennen, daß das OCR-Statistikmodul 406 Informationen aufweisen kann, die sich auf die Zeichenerkennungsgenauigkeit der OCR-Maschine 112 beziehen. Beispielsweise kann das OCR-Statistikmodul 406 eine historische Statistik über verbreitete Fehler, Ersetzungen, Einfügungen, Löschungen etc. eines Glyph (Glyph ist gleich zumindest ein Zeichen) aufweisen. Ein Nach-OCR-Verarbeitungsmodul 114 kann auf solche Weise konfiguriert sein, daß Statistiken, die sich auf die OCR-Maschine 112 beziehen aus einem Kommunikationsnetzwerk über eine Netzwerkschnittstellenvorrichtung 118 heruntergeladen werden können. Ein Durchschnittsfachmann auf dem Gebiet wird ferner erkennen, daß das optische Zeichenerkennungssystem 110 als ein Rückkopplungssystem konfiguriert sein kann, derart, daß OCR-Statistikmodule 406 aktualisiert werden, wenn OCR-Fehler identifiziert werden. OCR-Fehler können z. B. durch einen Benutzer identifiziert werden oder alternativ durch ein Verfahren, das als „gründliche Überprüfung" bezeichnet wird. Ein „gründlich überprüftes Dokument" oder „geprüftes Dokument" umfaßt Dokumente, für die die exakte, korrekte Buchstabierung aller Wörter verfügbar ist. Diesbezüglich kann ein Benutzer manuell OCR-Fehler zu dem OCR-Statistikmodul 406 hinzufügen, oder das OCR-Statistikmodul 406 kann basierend auf einem Vergleich mit einem geprüften Dokument aktualisiert werden.
  • Es sollte darauf hingewiesen werden, daß das Nach-OCR-Verarbeitungsmodul 114 unabhängig von der OCR-Maschine 112 implementiert sein kann. Das Nach-OCR-Verarbeitungsmodul 114 kann z. B. verwendet werden, um ein elektronisches Dokument zu verarbeiten, das bereits existiert und/oder nicht über eine OCR-Maschine 112 verarbeitet wurde. Das Nach-OCR-Verarbeitungsmodul 114 kann verwendet werden, um ein elektronisches Dokument zu verarbeiten, das z. B. nicht abgetastet wurde, und/oder eines, das heruntergeladen wurde, um verarbeitet zu werden. Das Nach-OCR-Verarbeitungsmodul 119 kann verwendet werden, um z. B. Textverarbeitungsdateien, Hypertext Markup Language-Dateien (HTML-Dateien) oder ande re elektronische Dokumente zu verarbeiten, für die es wünschenswert ist, verbleibende OCR-Fehler oder andere Buchstabierfehler zu erfassen und/oder zu korrigieren, unabhängig von der Quelle. Auf diese Weise kann ein großer, vorangehend gründlich überprüfter Korpus verwendet werden, um eine statistisch relevante Liste von OCR, handgetippten, HTML-basierten Fehlern oder anderes zu erzeugen. Diesbezüglich wird darauf hingewiesen, daß das Nach-OCR-Verarbeitungsmodul 114 lokal und/oder entfernt von der OCR-Maschine 112 sein kann.
  • 5 ist ein Flußdiagramm eines Ausführungsbeispiels eines Nach-OCR-Verarbeitungsmoduls 114. Das Nach-OCR-Verarbeitungsmodul 114 beginnt bei Block 500. Das Nach-OCR-Verarbeitungsmodul 114 kann durch einen Benutzer über eine I/O-Vorrichtung 120 initiiert werden. Das Nach-OCR-Verarbeitungsmodul 114 kann ferner automatisch durch die OCR-Maschine 112 initiiert werden, oder einen anderen Auslöser.
  • Unabhängig von der Art und Weise, auf die dasselbe initiiert wird, analysiert das Nach-OCR-Verarbeitungsmodul 114 bei Block 502 die semantische Darstellung 210 des Dokuments analytisch in Wörtern.
  • Bei Block 504 vergleicht das Nach-OCR-Verarbeitungsmodul 114 jedes Wort, das syntaktisch analysiert wurde, mit einem systemeigenen Sprachverzeichnis, um zu bestimmen, ob das Wort mit einer vorbestimmten Regel konform ist. Das Nach-OCR-Verarbeitungsmodul 114 kann z. B. einen Standardvergleich durchführen, ausschließlich durch Vergleichen des syntaktisch analysierten Wortes mit dem systemeigenen Sprachverzeichnis, um zu bestimmen, ob dasselbe mit einem der Worteinträge übereinstimmt, die in dem systemeigenen Sprachverzeichnis enthalten sind. Dieser Typ von Vergleich kann z. B. verwendet werden, um zu bestimmen, ob das Wort richtig buchstabiert ist und/oder ordnungsgemäß durch die OCR-Maschine 112 erkannt wurde. Somit kann das Nach-OCR- Verarbeitungsmodul 114 verwendet werden, um Fehlbuchstabierungen zu identifizieren, die in dem Originaldokument 202 gemacht werden, sowie Fehlbuchstabierungen, die aus Zeichenerkennungsfehlern resultieren, die durch die OCR-Maschine 112 gemacht werden. Zusätzlich dazu werden „falsche Positive" (d. h. Situationen, in denen Wörter absichtlich derart buchstabiert wurden, daß dieselben in dem systemeigenen Sprachverzeichnis nicht gefunden werden), die durch das Nach-OCR-Verarbeitungsmodul 114 „korrigiert" werden, minimiert werden, ausschließlich durch Versuchen, Wörter zu finden, die von üblichen Fehlern von Glyphen, Zeichen, Punktierung, Einfügung und/oder Löschung von Leerraum etc. stammen. Auf diese Weise können absichtlich falsch buchstabierte Wörter, die Verzeichnisnachschlagungen nicht ähnlich sind, oder die nicht in Verzeichnisnachschlagungen übersetzt werden können, unter Verwendung von üblichen OCR-Fehlern, nicht durch das Nach-OCR-Verarbeitungsmodul 114 „korrigiert" werden.
  • Das Nach-OCR-Verarbeitungsmodul 114 kann komplexere Vergleiche durchführen, um die Funktionalität des systemeigenen Sprachverzeichnisses zu erweitern. Das Nach-OCR-Verarbeitungsmodul 114 kann z. B. jedes Wort mit dem systemeigenen Sprachverzeichnis vergleichen, in Kombination mit verschiedenen üblichen Nachsilben und/oder Vorsilben, um sicher zu stellen, daß Ableitungen von Wortwurzeln berücksichtigt werden. Das optische Zeichenerkennungssystem 110 kann z. B, mit einem relativ einfachen systemeigenen Sprachverzeichnis konfiguriert sein, das eine durchschnittliche Anzahl von Worteinträgen aufweist, und das das Wort „indecipherable" nicht enthält, das jedoch das Wort „decipher" enthält. Daher, unter Annahme, daß das syntaktisch analysierte Wort tatsächlich „indecipherable" ist, würde das Nach-OCR-Verarbeitungsmodul 114 keine exakte Übereinstimmung in dem systemeigenen Sprachverzeichnis finden. Wenn jedoch übliche Vorsilben und/oder Nachsilben bei dem Vergleich berücksichtigt werden (z. B. die Vorsilbe „in" und die Nachsilbe „able"), kann das Nach-OCR- Verarbeitungsmodul 114 in der Lage sein, zu bestimmen, daß das syntaktisch analysierte Wort „indecipherable" ordnungsgemäß buchstabiert wurde und/oder daß die OCR-Maschine 112 die Zeichen ordnungsgemäß erkannt hat.
  • Das Nach-OCR-Verarbeitungsmodul 114 kann ferner Vergleiche mit dem systemeigenen Sprachverzeichnis basierend auf vorbestimmten Statistiken durchführen, die sich auf die Zeichenerkennungsgenauigkeit der OCR-Maschine 112 beziehen. Das Nach-OCR-Verarbeitungsmodul 114 kann z. B. historische Statistiken über Fehler, Ersetzungen, Einfügungen, Löschungen etc. eines üblichen Glyphen (zumindest ein Zeichen) einlagern. Beispielsweise sei angenommen, daß die OCR-Maschine 112 eine statistisch bestimmte Tendenz aufweist, den Glyphen „rn" als das einzelne Zeichen „m" zu erkennen. Unter diesen Umständen kann die OCR-Maschine 112 das Wort „Journal" fälschlich als „Joumal" identifizieren. Unter Verwendung des Standardvergleichs und des Ergänzungsvergleichs basierend auf üblichen Vorsilben und/oder Nachsilben, wie oben beschrieben wurde, wäre die Nach-OCR-Verarbeitung 114 nicht in der Lage, ein übereinstimmenden Worteintrag in dem systemeigenen Sprachverzeichnis zu finden. Wenn jedoch OCR-Statistiken berücksichtigt werden, kann das Nach-OCR-Verarbeitungsmodul 114 in der Lage sein, zu bestimmen, daß diese fälschliche Ersetzung durch die OCR-Maschine 112 durchgeführt wurde.
  • Nach dem mißglückten Finden von „Joumal" in dem systemeigenen Sprachverzeichnis kann das Nach-OCR-Verarbeitungsmodul 114z. B. die Zeichen in dem Wort und der OCR-Statistik analysieren, um zu bestimmen, ob alternative Wörter vorliegen, die mit dem systemeigenen Sprachverzeichnis verglichen werden können. Bezugnehmend auf das vorliegende Beispiel kann das Nach-OCR-Verarbeitungsmodul 114 erkennen, daß das Wort das Zeichen „m" enthält, und daß die OCR-Maschine 112 eine statisch bestimmte Tendenz aufweist, den Glyphen „rn" als das einzelne Zeichen „m" zu erkennen. Basierend auf diesen Informationen kann das Nach-OCR-Verarbeitungsmodul 114 das modifizierte Wort mit dem systemeigenen Sprachverzeichnis vergleichen. Wenn das systemeigene Sprachverzeichnis einen Worteintrag enthält, der mit dem modifizierten Wort übereinstimmt, kann das Nach-OCR-Verarbeitungsmodul 114 bestimmen, daß das Originalwort durch die OCR-Maschine 112 falsch erkannt wurde. Das Nach-OCR-Verarbeitungsmodul 114 kann dann das Originalwort „Joumal" (aus der zeichencodierten Darstellung 210) durch das modifizierte Wort „Journal" ersetzen. Wie oben erwähnt wurde, können Statistiken über Fehler, andere Erscheinungen von „Journal" über „Joumal" sowohl innerhalb des vorliegenden Dokuments als auch in anderen Dokumenten in einem großen Korpus ebenfalls verwendet werden. Das Nach-OCR-Verarbeitungsmodul 114 kann die Wortersetzung innerhalb der zeichencodierten Originaldarstellung 210 durchführen, wodurch eine zeichencodierte Darstellung 212 erzeugt wird, die eine verbesserte Zeichenerkennungsgenauigkeit aufweist. Alternativ kann die zeichencodierte Darstellung 212, die eine verbesserte Zeichenerkennungsgenauigkeit aufweist, separat aus der zeichencodierten Originaldarstellung 210 erzeugt werden.
  • Wie oben erwähnt wurde, wenn der Standardvergleich und der Ergänzungsvergleich basierend auf üblichen Vorsilben und/oder Nachsilben keine erfolgreiche Übereinstimmung liefern, kann das Nach-OCR-Verarbeitungsmodul 114 die Zeichen in dem Wort und der OCR-Statistik analysieren, um zu bestimmen, ob alternative Wörter vorliegen, die mit dem systemeigenen Sprachverzeichnis verglichen werden sollen. Somit können mehrere alternative Wörter vorliegen. In diesen Umständen kann das Nach-OCR-Verarbeitungsmodul 114 die OCR-Statistik verwenden, um die Reihenfolge zu priorisieren, in der alternative Wörter mit dem systemeigenen Sprachverzeichnis verglichen werden. Alternative Wörter, die z. B. eine höhere Erscheinungswahrscheinlichkeit aufweisen, können mit dem systemeigenen Sprachverzeichnis verglichen werden, vor alternativen Wörtern, die eine niedrigere Erscheinungswahrscheinlichkeit aufweisen. Beispielsweise sei angenommen, daß die OCR-Maschine 112 eine statistisch bestimmte Tendenz aufweist, den Glyphen „rn" als das einzelne Zeichen „m" zu erkennen, und eine geringere statistisch bestimmte Tendenz, die Zahl „1" als den Kleinbuchstaben „1" zu erkennen. Das Nach-OCR-Verarbeitungsmodul 114 kann konfiguriert sein, das alternative Wort „Journal" zuerst zu vergleichen, da eine höhere Wahrscheinlichkeit besteht, daß die OCR-Maschine 112 diesen Fehler gemacht hat.
  • Bei Block 506 kann das Nach-OCR-Verarbeitungsmodul 114 jedes Wort fragmentieren, das bei zumindest einem der Vergleiche des systemeigenen Sprachverzeichnisses fehlschlägt, die oben basierend auf vordefinierten Wortfragmentierungsregeln beschrieben wurden. Das Nach-OCR-Verarbeitungsmodul 114 kann z. B. jedes Wort analysieren, um zu bestimmen, ob das Wort ein zusammengesetztes Wort ist und/oder ob das Wort andere eingebettete Wörter oder „Wortfragmente" enthält. Bei bestimmten Ausführungsbeispielen kann das Nach-OCR-Verarbeitungsmodul 114 konfiguriert sein, um Wortfragmente einer bestimmten Länge (z. B. sechs oder mehr Zeichen) zu extrahieren, die in längere Wörter eingebettet sind. Zusätzlich zu dem Extrahieren von Wortfragmenten aus jedem Wort, kann das Nach-OCR-Verarbeitungsmodul 114 konfiguriert sein, jedes falsch buchstabierte Wort und/oder jedes Wortfragment in einen Satz von kleinsten „Grundelement"-Teilen aufzuteilen. Dieser Prozeß des Extrahierens von Wortfragmenten und des Unterteilens von Wortfragmenten in einen Satz von kleinsten Grundelementteilen kann als „Spalten und Zusammenfügen" oder „Fragmentieren und Kombinieren" bezeichnet werden. Es ergibt einen optimalen Satz von relevanten Kombinationen von „Grundelementen" (oder noch besser „Atomen") für eine gegebene Textzeichenfolge, um Korrekturen von echten Fehlbuchstabierungen zu ermöglichen. Somit reduziert derselbe „falsche Negative" in denen plausible Korrekturen weggelassen werden, ohne zu viele „falsche Positive" einzubringen, die durch ein übereifriges Suchen nach „ähnlichen" Buchstabierungen in dem Verzeichnis verursacht werden. Anderes ausgedrückt kann das Nach-OCR-Verarbeitungsmodul 114 nur nach ähnlichen Buchstabierungen suchen, wenn die Fehler-Ersetzung, -Weglassung, -Austausch, -Einfügungen etc. typisch für die gegebenen OCR-Maschine sind.
  • Bei Block 508 kann das Nach-OCR-Verarbeitungsmodul 114 zwei oder mehr Wortfragmente kombinieren und/oder fehlerhaft buchstabierte Wörter mit dem systemeigenen Sprachverzeichnis vergleichen. Gruppen von ursprünglich falsch buchstabierten Wörtern und/oder Wortfragmenten können zum Beispiel kombiniert werden, durch Berücksichtigen von Wörtern und/oder Wortfragmenten vor und nach jedem Wort und/oder Wortfragment. Wie durch die Blöcke 510, 512 und 514 dargestellt ist, kann das Nach-OCR-Verarbeitungsmodul 114 den nachfolgenden iterativen Prozeß durchführen: (1) Kombinieren von zwei oder mehr falsch buchstabierten Wörtern und/oder Wortfragmenten; (2) Vergleichen des kombinierten Wortes mit dem systemeigenen Sprachverzeichnis, wie vorangehend beschrieben wurde; und (3) Modifizieren der semantischen Darstellung 210 des Dokuments mit dem kombinierten Wort, wenn das kombinierte Wort mit einem der Worteinträge in dem systemeigenen Sprachverzeichnis übereinstimmt. Wie oben erwähnt wurde, kann das Nach-OCR-Verarbeitungsmodul 114 das Originalwort durch das kombinierte Wort innerhalb der semantischen Originaldarstellung 210 ersetzen, wodurch eine semantische Darstellung 212 erzeugt wird, die eine verbesserte Zeichenerkennungsgenauigkeit aufweist. Alternativ dazu kann die semantische Darstellung 212, die eine verbesserte Zeichenerkennungsgenauigkeit aufweist, separat von der semantischen Originaldarstellung 210 erzeugt werden.
  • Ferner kann der iterative Prozeß durch eine Anzahl von vordefinierten Regeln getrieben werden. Bei bestimmten Ausführungsbeispielen kann das Nach-OCR-Verarbeitungsmodul 114z. B. eine vordefinierte Anzahl von Iterationen durchführen. Bei einem alternativen Ausführungsbeispiel kann das Nach-OCR-Verarbeitungsmodul 114 konfiguriert sein, um nur eine bestimmte Anzahl von aufeinanderfolgenden falsch buchsta bierten Wörtern und/oder Wortfragmenten zu kombinieren. Das Nach-OCR-Verarbeitungsmodul 114 endet bei Block 514.
  • Um die Konzepte der vorliegenden Erfindung weiter darzustellen, stellt 6 ein Ausführungsbeispiel eines Nach-OCR-Verarbeitungsmoduls 112 dar, das eine Nach-OCR-Verarbeitung an einem Probeabschnitt eines Texts aus einem Dokument 202 durchführt. Wie in 6 dargestellt ist, kann ein Dokument 202 einen Textabschnitt 600 enthalten. Zu Zwecken dieses Beispiels weist der Textabschnitt 600 das einzelne Wort „relationships" auf. Wie oben beschrieben ist, kann das OCR-System 100 den Textabschnitt 600 als Teil eines Dokumentbildes 300 erfassen, durch Abtasten des Dokuments 202. Die OCR-Maschine 112 kann das Dokumentbild 300 in eine semantische Darstellung 210 umwandeln, die einen Glyphen 602 enthält, der dem umgewandelten Textabschnitt 600 entspricht, über eine Vielzahl von Zeichenerkennungsprozessen. Aufgrund von Ungenauigkeiten, die dem Zeichenerkennungsprozeß zugeordnet sind, kann die OCR-Maschine 112 zumindest ein Zeichen in dem Glyphen 602 nicht ordnungsgemäß erkennen. Die OCR-Maschine 112 kann z. B. einen zusätzlichen weißen Raum zwischen den Zeichen „i" und „p" nicht ordnungsgemäß erkennen, wodurch zwei separate Glyphen 604 und 606 erzeugt werden: Glyph 604 weist die Zeichen „relationshi" auf, und der Glyph 606 weist die Zeichen „ps" auf.
  • Das Nach-OCR-Verarbeitungsmodul 114 kann die Glyphen 604 und 606 aus der semantischen Darstellung 210 syntaktisch analysieren und dann die Glyphen 604 und 606 mit einem systemeigenen Sprachverzeichnis vergleichen, wie oben im Hinblick auf 5 beschrieben ist. Wenn die OCR-Maschine 112 den Glyphen 602 ordnungsgemäß erkannt hätte, könnte das Nach-OCR-Verarbeitungsmodul 114 bestimmen, daß der Glyph 606 ordnungsgemäß buchstabiert wurde. Das Nach-OCR-Verarbeitungsmodul 112 könnte z. B. verifizieren, daß der Glyph 602 ordnungsgemäß buchstabiert wurde, unter Verwendung des Standardvergleichs, der oben beschrieben wurde, wenn das systemeigene Sprachverzeichnis das Wort „relati onships" enthalten würde. Das Nach-OCR-Verarbeitungsmodul 114 könnte ferner verifizieren, daß der Glyph 602 ordnungsgemäß buchstabiert wurde, unter Verwendung des Ergänzungsvergleichs basierend auf üblichen Vorsilben und/oder Nachsilben, wie oben beschrieben wurde, wenn das systemeigene Sprachverzeichnis das Wort „relationship" enthalten würde und das Nach-OCR-Verarbeitungsmodul 112 konfiguriert ist, die Nachsilbe „s" zu berücksichtigen. Bei diesem Beispiel jedoch, wo die Glyphen bzw. Zeichen oder Symbole 604 und 606 nicht durch den Vergleich des systemeigenen Sprachverzeichnisses verifiziert werden können, kann eine weitere Nach-OCR-Verarbeitung auftreten.
  • Die Glyphen 604 und 606 können weiter durch ein Wortfragmentierungsmodul 408 verarbeitet werden. Das Wortfragmentierungsmodul 408 kann die Glyphen 604 und 606 wie oben beschrieben fragmentieren. Das Wortfragmentierungsmodul 408 kann z. B. die Glyphen 604 und 606 analysieren, um zu bestimmen, ob der Glyph ein zusammengesetztes Wort aufweist und/oder ob das Wort andere eingebettete Wörter oder „Wortfragmente" enthält. Bei bestimmten Ausführungsbeispielen kann das Wortfragmentierungsmodul 408 konfiguriert sein, um Wortfragmente einer bestimmten Länge (z. B. sechs oder mehr Zeichen) zu extrahieren, die in Glyphen 604 und 606 eingebettet sind. Zusätzlich zu dem Extrahieren von Wortfragmenten kann das Wortfragmentierungsmodul 408 konfiguriert sein, jeden Glyphen in einen Satz von kleinsten „atomaren" Teilen zu unterteilen. Wie in 6 dargestellt ist, kann das Fragmentierungsmodul 408 den Glyphen 604 basierend auf den vordefinierten Fragmentierungsregeln in die Fragmente 608 und 610 fragmentieren. Das Fragment 608 weist das Wort „relations" auf, und das Fragment 610 weist das Wort „hi" auf.
  • Die Fragmente 608 und 610 und der Glyph 606 können dann durch das Wortfragmentintegrationsmodul 410 verarbeitet werden. Wie oben beschrieben kann das Wortfragmentintegrationsmodul 410 konfiguriert sein, um zwei oder mehr Wort fragmente und/oder falsch buchstabierte Wörter mit dem systemeigenen Sprachverzeichnis zu kombinieren. Zum Beispiel können Gruppen von ursprünglich falsch buchstabierten Wörtern und/oder Wortfragmenten miteinander kombiniert werden, durch Berücksichtigen von Wörtern und/oder Wortfragmenten vor und nach jedem Wort und/oder Wortfragment. Wie in 6 dargestellt ist, kann das Wortfragmentintegrationsmodul 410 die Fragmente 608 und 610 und den Glyphen 606 kombinieren (wodurch das Wort „relationships" erzeugt wird), und die Kombination mit dem systemeigenen Sprachverzeichnis vergleichen. Das Nach-OCR-Verarbeitungsmodul 112 kann verifizieren, daß die Kombination ein gültiges Wort ergibt (über den Standardvergleich, der oben beschrieben ist), wenn das systemeigene Sprachverzeichnis das Wort „relationships" enthält. Das Nach-OCR-Verarbeitungsmodul 114 kann ferner verifizieren, daß die Kombination ein gültiges Wort ergibt (über den Ergänzungsvergleich basierend auf üblichen Vorsilben und/oder Nachsilben, wie oben beschrieben ist), wenn das systemeigene Sprachverzeichnis das Wort „relationship" enthält und das Nach-OCR-Verarbeitungsmodul 112 konfiguriert ist, um die Nachsilbe „s" zu berücksichtigen. Wenn das Nach-OCR-Verarbeitungsmodul 112 verifiziert, daß die Kombination ein gültiges Wort ergibt, kann das Nach-OCR-Verarbeitungsmodul 114 den Glyphen 602 innerhalb der zeichencodierten Darstellung 210 durch die Kombination ersetzen, wodurch eine zeichencodierte Darstellung 212 erzeugt wird, die eine verbesserte Zeichenerkennungsgenauigkeit aufweist.
  • In Anbetracht der obigen Beschreibung wird ein Durchschnittsfachmann auf dem Gebiet erkennen, daß das OCR-System 110 mehrere OCR-Maschinen 112 aufweisen kann, die in das Nach-OCR-Verarbeitungsmodul 114 integriert sind. Auf diese Weise kann das Nach-OCR-Verarbeitungsmodul 114 die zeichencodierte Darstellung 210 aus mehreren OCR-Maschinen verarbeiten und entsprechende zeichencodierte Darstellungen 212 erzeugen, die eine verbesserte Zeichenerkennungsgenauigkeit aufweisen. Somit kann das OCR-System 110 Vergleichs daten für die OCR-Maschinen 112 liefern. Ferner können die zeichencodierten Darstellungen 212, die den OCR-Maschinen 112 entsprechen, verwendet werden, um eine bessere Gesamtausgabe zu erhalten. Das Nach-OCR-Verarbeitungsmodul 114 kann z. B. konfiguriert sein, um die OCR-Maschine 112 zu bestimmen, die die beste Gesamtgenauigkeit aufweist (z. B. basierend auf der Anzahl von Wörtern, die während des Vergleichs des systemeigenen Sprachverzeichnisses nicht erkannt wurden). Das Nach-OCR-Verarbeitungsmodul 112 kann konfiguriert sein, um die entsprechende zeichencodierte Darstellung 212 als die genaueste Ausgabe auszuwählen. Das Nach-OCR-Verarbeitungsmodul 114 kann ferner konfiguriert sein, um die zeichencodierten Darstellungen 212 zu kombinieren, um eine umfassendere Ausgabe zu erzeugen. Die Nach-OCR-Verarbeitungsmaschine 114 kann konfiguriert sein, um die zeichencodierten Darstellungen 212 basierend auf den OCR-Statistiken für jede OCR-Maschine 112 zu kombinieren. Das Nach-OCR-Verarbeitungsmodul 114 kann ferner konfiguriert sein, um Statistiken für jede OCR-Maschine 112 einzulagern, wie z. B. wie gut sich jede OCR-Maschine 112 an bestimmten Texttypen verhält (z. B. abgegrenzte Schriftartgröße, Typ, Familie, Attribut etc.).
  • Es sollte darauf hingewiesen werden, daß zusätzliche Techniken zum Vergrößern der OCR-Statistiken verwendet werden können. Das Dokument selbst kann z. B. zunehmend gewichtete Statistiken für eine vermeintliche Korrektur liefern, basierend auf der Anzahl von Erscheinungen der „korrigierten" Buchstabierung anderswo in dem Dokument. Sollten die Statistiken für „relationships" direkt unter jenen von „relations hi ps" sein, aber „relationships" (oder dessen Wurzeln, „relation", „relations", „relationship" mit einer geringeren aber ungleich Null Auswirkung auf die Gewichtung) tritt an mehreren anderen Stellen in demselben Dokument auf, dann kann dies zu einem Akzeptieren von „relationships" über „relations hi ps" führen, auch wenn die einzelne Instanz dies nicht tut. Diese „Erscheinungsgewichtungs"-Statistiken können durch das Nach-OCR-Verarbeitungsmodul 114 verwendet werden.
  • Es sollte darauf hingewiesen werden, daß die OCR-Maschine 112 und das Nach-OCR-Verarbeitungsmodul 114 in denselben lokalen Speicher 104 gespeichert sein können, wie in 1 dargestellt ist. Bei alternativen Ausführungsbeispielen kann das Nach-OCR-Verarbeitungsmodul 114 entfernt von der OCR-Maschine 112 in einem separaten Speicher angeordnet sein. Es sollte ferner darauf hingewiesen werden, daß verschiedene Aspekte des Nach-OCR-Verarbeitungsmoduls 114 in einem Speicher entfernt von einem Speicher angeordnet sein können, der die anderen Aspekte enthält.

Claims (28)

  1. Verfahren zum Verarbeiten eines textbasierten elektronischen Dokuments (210), wobei das Verfahren folgende Schritte aufweist: Vergleichen (504) von zumindest einem Wort (600) in einem textbasierten elektronischen Dokument (210) mit einem muttersprachlichen Wörterbuch (402), um zu bestimmen, ob das zumindest eine Wort (600) mit einer vordefinierten Regel konform ist; für jedes des zumindest einen Worts (600), das nicht mit der vordefinierten Regel konform ist, Fragmentieren (506) des zumindest einen Worts (600) in Wortfragmente (602); Kombinieren (500) von zumindest zwei aufeinanderfolgenden Wortfragmenten (602); und Vergleichen (508) der Kombination der Wortfragmente mit dem muttersprachlichen Wörterbuch.
  2. Verfahren gemäß Anspruch 1, das ferner den Schritt des Erzeugens des textbasierten elektronischen Dokuments (210) durch Verwenden von zumindest einem optischen Zeichenerkennungssystem (112) aufweist.
  3. Verfahren gemäß Anspruch 2, bei dem das Vergleichen folgende Schritte aufweist: Modifizieren des zumindest einen Worts (600) basierend auf vorbestimmten Statistiken, die sich auf die Zeichenerkennungsgenauigkeit des optischen Zeichenerkennungssystems (112) beziehen; und Bestimmen, ob das zumindest eine modifizierte Wort (600) mit einem der Worteinträge in dem muttersprachlichen Wörterbuch übereinstimmt.
  4. Verfahren gemäß Anspruch 3, bei dem das Modifizieren das Modifizieren des zumindest einen Worts (600) basierend auf vordefinierten Statistiken umfaßt, die sich auf zumindest eines der nachfolgenden beziehen: einen Zeichenfehler, eine Zeichenersetzung, eine Zeicheneinfügung und eine Zeichenlöschung.
  5. Verfahren gemäß Anspruch 3 oder 4, bei dem das Modifizieren das Modifizieren des zumindest einen Worts (600) basierend auf vordefinierten Statistiken umfaßt, die zwei oder mehr modifizierte Wörter definieren.
  6. Verfahren gemäß einem der Ansprüche 1 bis 5, das ferner das Modifizieren eines textbasierten elektronischen Dokuments (210) mit der Kombination der Wortfragmente (602) basierend auf dem Vergleich mit dem muttersprachlichen Wörterbuch aufweist.
  7. Verfahren gemäß einem der Ansprüche 1 bis 6, das ferner folgende Schritte aufweist: Empfangen des textbasierten elektronischen Dokuments (210) aus einem optischen Zeichenerkennungssystem (112); und syntaktisches Zerlegen (502) des textbasierten elektronischen Dokuments (210) in Worte (600).
  8. Verfahren gemäß einem der Ansprüche 1 bis 7, bei dem das Vergleichen das Bestimmen aufweist, ob das zumindest eine Wort (600) mit einem der Worteinträge in dem muttersprachlichen Wörterbuch übereinstimmt.
  9. Verfahren gemäß einem der Ansprüche 1 bis 8, bei dem das Vergleichen das Bestimmen aufweist, ob das zumindest eine Wort (600) mit einer Kombination aus einem der Worteinträge in dem muttersprachlichen Wörterbuch und mindestens entweder einer üblichen Vorsilbe oder einer üblichen Nachsilbe übereinstimmt.
  10. Verfahren gemäß einem der Ansprüche 1 bis 9, das ferner folgende Schritte aufweist: Abtasten eines Dokuments; Umwandeln des Dokuments in ein Dokumentbild; und Erzeugen des textbasierten elektronischen Dokuments (210) .
  11. Verfahren gemäß Anspruch 10, bei dem das Erzeugen des textbasierten elektronischen Dokuments (210) folgende Schritte aufweist: Extrahieren eines Textabschnitts aus dem Dokumentbild; und Erkennen von Zeichen in dem Textabschnitt.
  12. System zum Verarbeiten eines textbasierten elektronischen Dokuments (210), wobei das System folgende Merkmale aufweist: eine Logik, die konfiguriert ist, um: zumindest ein Wort in einem textbasierten elektronischen Dokument (210) mit einem muttersprachlichen Wörterbuch zu vergleichen, um zu bestimmen, ob das zumindest eine Wort (600) mit einer vordefinierten Regel konform ist; jedes des zumindest einen Worts (600) in Wortfragmente zu Fragmentieren, das nicht mit der vordefinierten Regel konform ist; zumindest zwei aufeinanderfolgende Wortfragmente zu kombinieren; und die Kombination der Wortfragmente mit dem muttersprachlichen Wörterbuch zu vergleichen.
  13. System gemäß Anspruch 12, das ferner einen Speicher aufweist, der das muttersprachlichen Wörterbuch enthält.
  14. System gemäß Anspruch 12 oder 13, bei dem das textbasierte elektronische Dokument ein Dokument aufweist, das durch zumindest ein optisches Zeichenerkennungssystem verarbeitet wird.
  15. System gemäß einem der Ansprüche 12 bis 14, bei dem das textbasierte elektronische Dokument eine Textdatei aufweist.
  16. System gemäß einem der Ansprüche 12 bis 15, bei dem die Logik konfiguriert ist, um das textbasierte elektronische Dokument (210) mit der Kombination der Wortfragmente basierend auf dem Vergleich mit dem muttersprachlichen Wörterbuch zu modifizieren.
  17. System gemäß einem der Ansprüche 12 bis 16, bei dem die Logik ferner konfiguriert ist, um: das textbasierte elektronische Dokument (210) aus einem optischen Zeichenerkennungssystem zu empfangen; und die Textdarstellung des Dokuments syntaktisch in Worte zu zerlegen.
  18. System gemäß einem der Ansprüche 12 bis 17, bei dem die Logik, die konfiguriert ist, um zu vergleichen, ferner konfiguriert ist, um zu bestimmen, ob das zumindest eine Wort (600) mit einem der Worteinträge in dem muttersprachlichen Wörterbuch übereinstimmt.
  19. System gemäß einem der Ansprüche 12 bis 18, bei dem die Logik, die konfiguriert ist, ferner konfiguriert ist, um zu bestimmen, ob das zumindest eine Wort mit einer Kombination von einem der Worteinträge in dem muttersprachlichen Wörterbuch und zumindest entweder einer üblichen Vorsilbe oder einer üblichen Nachsilbe übereinstimmt.
  20. System gemäß einem der Ansprüche 12 bis 19, bei dem die Logik, die konfiguriert ist, ferner konfiguriert ist, um: das zumindest eine Wort (600) basierend auf einer vorbestimmten Statistik, die sich auf die Zeichenerkennungsgenauigkeit des optischen Zeichenerkennungssystems bezieht, zu modifizieren; und zu bestimmen, ob das zumindest eine modifizierte Wort mit einem der Worteinträge in dem muttersprachlichen Wörterbuch übereinstimmt.
  21. System gemäß Anspruch 20, bei dem die vorbestimmte Statistik, die sich auf die Zeichenerkennungsgenauigkeit des optischen Zeichenerkennungssystems bezieht, sich auf zumindest eines der nachfolgenden bezieht: einen Zeichenfehler, eine Zeichenersetzung, eine Zeicheneinfügung und eine Zeichenlöschung.
  22. System gemäß Anspruch 20 oder 21, bei dem die vorbestimmte Statistik zumindest zwei modifizierte Wörter definiert, und bei dem die Logik, die konfiguriert ist, um zu bestimmen, ob das zumindest eine modifizierte Wort, das mit einem der Worteinträge in dem muttersprachlichen Wörterbuch übereinstimmt, basierend auf den vorbestimmten Statistiken prioritätsmäßig arbeitet.
  23. System gemäß einem der Ansprüche 12 bis 22, das ferner ein optisches Zeichenerkennungssystem aufweist.
  24. System gemäß Anspruch 23, bei dem das optische Zeichenerkennungssystem folgende Merkmale aufweist: eine Abtastvorrichtung, die konfiguriert ist, um ein Dokument in ein Dokumentbild umzuwandeln; und eine OCR-Maschine, die konfiguriert ist, um das textbasierte elektronische Dokument (210) durch Extrahieren eines Textabschnitts aus dem Dokumentbild und Erkennen von Zeichen in dem Textabschnitt zu erzeugen.
  25. System zum Verarbeiten eines textbasierten elektronischen Dokuments (210), wobei das System folgende Merkmale aufweist: eine Ein richtung zum Vergleichen des zumindest einen Worts (600) in einem textbasierten elektronischen Dokument (210) mit einem muttersprachlichen Wörterbuch (402), um zu bestimmen, ob das zumindest eine Wort (600) mit einer vordefinierten Regel konform ist; eine Wortfragmentierungseinrichtung (408) zum Fragmentieren von jedem des zumindest einen Worts (600), das nicht mit der vordefinierten Regel konform ist, in Wortfragmente (602); eine Wortfragmentintegrationseinrichtung (410) zum Kombinieren von zumindest zwei aufeinanderfolgenden Wortfragmenten (602); und eine Einrichtung zum Vergleichen der Kombination der Wortfragmente (602) mit dem muttersprachlichen Wörterbuch (402).
  26. System gemäß Anspruch 25, das ferner eine Einrichtung zum Speichern eines muttersprachlichen Wörterbuchs aufweist.
  27. System gemäß Anspruch 25 oder 26, das ferner folgende Merkmale aufweist: eine Einrichtung zum Empfangen des textbasierten elektronischen Dokuments (210) von einem optischen Zeichenerkennungssystem (112); und eine Wortparsereinrichtung (404) zum syntaktischen Zerlegen der Textdarstellung des Dokuments in Worte.
  28. System gemäß einem der Ansprüche 25 bis 27, das ferner folgende Merkmale aufweist: eine Einrichtung zum Abtasten (116) eines Dokuments in einem Dokumentbild (116); und eine Zeichenerkennungseinrichtung (110) zum Erzeugen des textbasierten elektronischen Dokuments (210) durch Extrahieren eines Textabschnitts aus dem Dokumentbild (300) und Erkennen von Zeichen in dem Textabschnitt.
DE10321944A 2002-08-23 2003-05-15 Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten Ceased DE10321944A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/227076 2002-08-23
US10/227,076 US7106905B2 (en) 2002-08-23 2002-08-23 Systems and methods for processing text-based electronic documents

Publications (1)

Publication Number Publication Date
DE10321944A1 true DE10321944A1 (de) 2004-03-04

Family

ID=27804811

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10321944A Ceased DE10321944A1 (de) 2002-08-23 2003-05-15 Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten

Country Status (3)

Country Link
US (1) US7106905B2 (de)
DE (1) DE10321944A1 (de)
GB (2) GB2422709A (de)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7310769B1 (en) 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
EP1665128A4 (de) * 2003-08-21 2007-10-17 Microsoft Corp Electronische tintebearbeitung
US7616333B2 (en) * 2003-08-21 2009-11-10 Microsoft Corporation Electronic ink processing and application programming interfaces
WO2005029393A1 (en) * 2003-08-21 2005-03-31 Microsoft Corporation Electronic ink processing
US7468801B2 (en) * 2003-08-21 2008-12-23 Microsoft Corporation Electronic ink processing
US8411958B2 (en) * 2004-05-04 2013-04-02 Nokia Corporation Apparatus and method for handwriting recognition
US8838562B1 (en) * 2004-10-22 2014-09-16 Google Inc. Methods and apparatus for providing query parameters to a search engine
JP4301515B2 (ja) * 2005-01-04 2009-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 文章表示方法、情報処理装置、情報処理システム、プログラム
US7599828B2 (en) * 2005-03-01 2009-10-06 Microsoft Corporation Grammatically correct contraction spelling suggestions for french
US8214754B2 (en) 2005-04-15 2012-07-03 Microsoft Corporation Registration of applications and complimentary features for interactive user interfaces
WO2007044091A2 (en) * 2005-06-02 2007-04-19 Fluidigm Corporation Analysis using microfluidic partitioning devices
TWI264184B (en) * 2005-06-14 2006-10-11 Inventec Appliances Corp Portable communication apparatus having optics character recognition function
US7539343B2 (en) * 2005-08-24 2009-05-26 Hewlett-Packard Development Company, L.P. Classifying regions defined within a digital image
US7826665B2 (en) 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
EP3002338B1 (de) 2006-02-02 2019-05-08 The Board of Trustees of The Leland Stanford Junior University Nicht-invasives fötales genetisches screening mittels digitaler analyse
US8379841B2 (en) 2006-03-23 2013-02-19 Exegy Incorporated Method and system for high throughput blockwise independent encryption/decryption
US8372584B2 (en) * 2006-06-14 2013-02-12 The General Hospital Corporation Rare cell analysis using sample splitting and DNA tags
WO2007147074A2 (en) * 2006-06-14 2007-12-21 Living Microsystems, Inc. Use of highly parallel snp genotyping for fetal diagnosis
US20080050739A1 (en) * 2006-06-14 2008-02-28 Roland Stoughton Diagnosis of fetal abnormalities using polymorphisms including short tandem repeats
US8137912B2 (en) * 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US8879727B2 (en) 2007-08-31 2014-11-04 Ip Reservoir, Llc Method and apparatus for hardware-accelerated encryption/decryption
US20080033822A1 (en) * 2007-10-03 2008-02-07 The Go Daddy Group, Inc. Systems and methods for filtering online advertisements containing third-party trademarks
US8019158B2 (en) * 2008-01-02 2011-09-13 International Business Machines Corporation Method and computer program product for recognition error correction data
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US7480411B1 (en) * 2008-03-03 2009-01-20 International Business Machines Corporation Adaptive OCR for books
US8196030B1 (en) 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
CA2737643C (en) * 2008-09-20 2020-10-06 Hei-Mun Fan Noninvasive diagnosis of fetal aneuploidy by sequencing
CN102439607B (zh) * 2009-05-21 2015-05-20 惠普开发有限公司 单独图示符的生成和用于检查单独图示符的系统和方法
US9055161B2 (en) * 2009-07-18 2015-06-09 Abbyy Development Llc Text processing method for a digital camera
US9251428B2 (en) 2009-07-18 2016-02-02 Abbyy Development Llc Entering information through an OCR-enabled viewfinder
TWI478074B (zh) * 2010-12-01 2015-03-21 Inst Information Industry 文字辨識方法、裝置以及儲存其之電腦可讀取紀錄媒體
US9007405B1 (en) * 2011-03-28 2015-04-14 Amazon Technologies, Inc. Column zoom
US20140037219A1 (en) * 2011-05-17 2014-02-06 Panasonic Corporation Character string extraction method and character string extraction device
US8798325B2 (en) * 2012-02-21 2014-08-05 Xerox Corporation Efficient and fault tolerant license plate matching method
US8971630B2 (en) * 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US9330323B2 (en) 2012-04-29 2016-05-03 Hewlett-Packard Development Company, L.P. Redigitization system and service
SG11201407901PA (en) 2012-05-21 2015-01-29 Fluidigm Corp Single-particle analysis of particle populations
US8908970B2 (en) * 2012-05-23 2014-12-09 Eastman Kodak Company Textual information extraction method using multiple images
US10380554B2 (en) 2012-06-20 2019-08-13 Hewlett-Packard Development Company, L.P. Extracting data from email attachments
WO2014012565A1 (en) * 2012-07-20 2014-01-23 Microsoft Corporation Color coding of layout structure elements in a flow format document
DE102013016732A1 (de) * 2012-10-09 2014-04-10 Htc Corp. Verfahren zum zoomen auf einem bildschirm und elektronische vorrichtung und computerlesbares medium, die selbiges verwenden
US9256592B1 (en) * 2012-11-07 2016-02-09 Amazon Technologies, Inc. System for detecting and correcting broken words
US9256798B2 (en) * 2013-01-31 2016-02-09 Aurasma Limited Document alteration based on native text analysis and OCR
US20150149952A1 (en) * 2013-11-27 2015-05-28 Qualcomm Incorporated Text input for abugida writing systems with conjuncts
RU2613847C2 (ru) 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
RU2665239C2 (ru) 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
US9483694B2 (en) * 2014-01-26 2016-11-01 Sang Hun Kim Image text search and retrieval system
RU2640322C2 (ru) 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
RU2648638C2 (ru) 2014-01-30 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов
WO2015113635A1 (en) * 2014-01-31 2015-08-06 Longsand Limited Optical character recognition
KR102063566B1 (ko) 2014-02-23 2020-01-09 삼성전자주식회사 메시지 운용 방법 및 이를 지원하는 전자 장치
US9940511B2 (en) * 2014-05-30 2018-04-10 Kofax, Inc. Machine print, hand print, and signature discrimination
US9589185B2 (en) 2014-12-10 2017-03-07 Abbyy Development Llc Symbol recognition using decision forests
JP6648421B2 (ja) * 2015-06-09 2020-02-14 富士通株式会社 文書を処理する情報処理装置、情報処理方法、およびプログラム
US10878186B1 (en) * 2017-09-18 2020-12-29 University Of South Florida Content masking attacks against information-based services and defenses thereto
GB2571530B (en) 2018-02-28 2020-09-23 Canon Europa Nv An image processing method and an image processing system
CN110991279B (zh) * 2019-11-20 2023-08-22 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
JP2021086308A (ja) * 2019-11-26 2021-06-03 京セラドキュメントソリューションズ株式会社 画像読取装置および情報処理装置
CN113822280A (zh) * 2020-06-18 2021-12-21 阿里巴巴集团控股有限公司 文本识别方法、装置、系统和非易失性存储介质
CN112101367A (zh) * 2020-09-15 2020-12-18 杭州睿琪软件有限公司 文本识别方法、图像识别分类方法、文档识别处理方法
CN112541505B (zh) * 2020-12-11 2021-07-23 上海云从企业发展有限公司 文本识别方法、装置以及计算机可读存储介质
US11941902B2 (en) * 2021-12-09 2024-03-26 Kpmg Llp System and method for asset serialization through image detection and recognition of unconventional identifiers

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969700A (en) * 1974-04-10 1976-07-13 International Business Machines Corporation Regional context maximum likelihood error correction for OCR, keyboard, and the like
US4701851A (en) * 1984-10-24 1987-10-20 International Business Machines Corporation Compound word spelling verification
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US5161245A (en) * 1991-05-01 1992-11-03 Apple Computer, Inc. Pattern recognition system having inter-pattern spacing correction
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
US6212299B1 (en) * 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
JP3445394B2 (ja) * 1993-12-17 2003-09-08 ゼロックス・コーポレーション 少なくとも二つのイメージセクションの比較方法
US5524066A (en) * 1994-03-31 1996-06-04 Xerox Corporation Text recognition by predictive composed shapes
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
DE19526264A1 (de) * 1995-07-19 1997-04-10 Daimler Benz Ag Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten
DK0912271T3 (da) * 1996-05-13 2000-11-06 Km Europa Metal Ag Væskekølet kokille
US6470362B1 (en) 1997-05-16 2002-10-22 Compaq Computer Corporation Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
US5987448A (en) * 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
US6219453B1 (en) * 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique

Also Published As

Publication number Publication date
US20040037470A1 (en) 2004-02-26
GB2392290A (en) 2004-02-25
GB0603774D0 (en) 2006-04-05
GB2422709A (en) 2006-08-02
GB0318214D0 (en) 2003-09-03
US7106905B2 (en) 2006-09-12

Similar Documents

Publication Publication Date Title
DE10321944A1 (de) Vorrichtungen und Verfahren zum Verarbeiten von textbasierten elektronischen Dokumenten
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE10162156B4 (de) Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren
DE60308952T2 (de) Verfahren und System zur Anzeige und Verknüpfung von Gegenständen aus elektronischer Tinte mit erkanntem Text und Objekten
DE60208604T2 (de) Automatisches Verfahren zur Erzeugung von Image-buttons
DE19709968C2 (de) Verfahren und System zum Übersetzen eines Dokumentes
DE69630928T2 (de) Vorrichtung und Verfahren zum Anzeigen einer Übersetzung
DE69631457T2 (de) Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung
EP1267277B1 (de) Verfahren, System und Computerprogrammprodukt zum Ändern der Datenstruktur mit der in einem Computersystem ein Anwendungsprogramm auf Datenbanksysteme zugreift
DE60219048T2 (de) Sektionsextrahierungswerkzeug für pdf-dokumente
DE19953608B4 (de) Vorrichtung und Verfahren zum Erkennen eines Fonts eines Textes in einem Dokumentenverarbeitungssystem
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
DE112007000855T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Vorsehen eines Rechtschreibprüfungs-Lern-Merkmals
JPH06203138A (ja) 画像編集システム
DE112015006325T5 (de) Informations-Bereitstellsystem
US20020054706A1 (en) Image retrieval apparatus and method, and computer-readable memory therefor
DE60024392T2 (de) Verringerung des Erscheinungsunterschieds zwischen kodierten und nichkodierten Texteinheiten
DE102015115797B4 (de) Verfahren zum Erzeugen von elektronischen Dokumenten
DE102018119908A1 (de) System zur optischen Zeichenerkennung (OCR)
CA2319913A1 (en) Technology to translate non-text display generation data representing an indicator into text variables
DE102023129110A1 (de) Netzwerkdienst zur stringgrössenbestimmung
DE4394624B4 (de) Verfahren und Vorrichtung zur Handschrifterkennung aus sequentiellen Eingabeinformationen
WO2022122947A1 (de) System zur erstellung und verwaltung von patentanmeldeentwürfen
WO2008086889A1 (de) Transkriptionsvorrichtung zur automatisierten transkription und transphrasierung sowie entsprechendes verfahren

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection