DE69230784T2 - Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung - Google Patents

Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung

Info

Publication number
DE69230784T2
DE69230784T2 DE69230784T DE69230784T DE69230784T2 DE 69230784 T2 DE69230784 T2 DE 69230784T2 DE 69230784 T DE69230784 T DE 69230784T DE 69230784 T DE69230784 T DE 69230784T DE 69230784 T2 DE69230784 T2 DE 69230784T2
Authority
DE
Germany
Prior art keywords
character
word
elements
bitmap image
recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69230784T
Other languages
English (en)
Other versions
DE69230784D1 (de
Inventor
Jean-Marie R. De La Beaujardiere
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of DE69230784D1 publication Critical patent/DE69230784D1/de
Application granted granted Critical
Publication of DE69230784T2 publication Critical patent/DE69230784T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Description

  • Die vorliegende Erfindung betrifft Dokumenten-Erkennung und besonders Verfahren und Vorrichtungen zum Erkennen textlicher und grafischer Strukturen in Dokumenten, die ursprünglich als Bitmap-Bilder, d. h. in einem digitalen Rastermuster aufgezeichnete Bilder, dargestellt sind, und zum Aufzeichnen der Ergebnisse des Erkennungsvorgangs.
  • Dokumentenerkennung ist die automatische Umformung von Papierdokumenten in ausgebbare Elektronikdokumente. Das bringt die graduelle Umformung von Bitmaps in strukturierte Komponenten durch aufeinanderfolgende und rekursive Eingriffe verschiedener Vorgänge mit sich. Diese Vorgänge enthalten: Seitensegmentierung, Zeichenerkennung, Graphikerkennung, Logikstruktur-Rekonstruktion, Orthographische Korrektur, semantische Analyse usw. Alle diese Vorgänge sind für Fehldeutung anfällig. Nicht alle Vorgänge halten eine Aufzeichnung der Fehldeutungen, deren sie gewahr sind, und diejenige, die eine Aufzeichnung aufrecht erhalten, haben keine allgemein festgelegte Ablaufvorschrift dafür. Als Folge sind nachfolgende Vorgänge im allgemeinen nicht darauf vorbereitet, mit der Aufzeichnung von Mehrdeutigkeiten umzugehen, die sie bei vorhergehenden Vorgängen angetroffen haben, und mißachten sie einfach. Wertvolle Information wird verloren, statt daß sie für automatische Verbesserung der Dokumentenerkennungsfunktion ausgenützt wird. Wenn andererseits die Mehrdeutigkeiten-Aufzeichnung in ihrem Rohzustand an den Benutzer weitergeleitet wird, kann die lästige Aufgabe, Handkorrekturen herzustellen, rasch die Vorteile der automatischen Erkennung gegenüber manueller Umstellung des gesamten Dokuments überwiegen.
  • US-A-4 914 709 und 4 974 260 (Rudak) beschreiben eine Vorrichtung und ein Verfahren zum Identifizieren und Korrigieren von Zeichen, die nicht maschinell gelesen werden können. Ein Bitmap-Videobild des oder der nicht erkannten Zeichen wird in eine ASCII-Datenzeile benachbarter Zeichen eingesetzt, wodurch es einer Bedienungsperson ermöglicht wird, das/die fraglichen Zeichen im Kontext anzusehen, um die richtige Identifizierung des/der Zeichen zu unterstützen. Daraufhin gibt die Bedienungsperson mit Hilfe des Videobildes das/die korrekten Zeichen über eine Tastatur oder andere Mittel ein. Diese Vorrichtung und dieses Verfahren erfordern den Eingriff der Bedienungsperson, um Mehrdeutigkeiten zu klären, die sich aus einem automatischen Dokumentenerkennungs-Verfahren ergeben. Die Ergebnisse dieser Mehrdeutigkeiten werden nicht in einer Aufzeichnung niedergelegt, die bei anderen nachfolgend in Aktion tretenden automatischen Geräten benutzt werden können.
  • US-A-4 907 285 (Nakano u. a.) beschreibt ein Bilderkennungs-System, das eine Grammatik zum Beschreiben eines Dokumentenbildes benutzt und durch die Grammatik ausgedrückte Feststellungen analysiert, um die Struktur eines unbekannten Eingabebildes zu erken nen. Die Grammatik beschreibt das Bild als Teilstrukturen und die relative Beziehung zwischen diesen. In dem Analysevorgang wird eine Suche angestellt, nachdem die Teilstrukturen und deren Relativbeziehung identifiziert sind, ob die Teilstrukturen und ihre Relativbeziehungen in dem unbekannten Eingabebild vorhanden sind, und falls das zutrifft, werden die Innenseiten der Teilstrukturen weiter gelöst, um die Analyse fortzusetzen. Falls keine Teilstrukturen vorhanden sind, werden andere Möglichkeiten gesucht, und die Struktur des unbekannten Eingabebilds wird so aus dem Suchergebnis dargestellt. Beispielsweise wird der Ort eines rechtwinkligen Bereiches des Dokuments, der eine durch die Dokumenten-Grammatik bestimmte Feststellung enthält (z. B. "TITEL" und "AUTOR") anfangs durch Variable dargestellt. Siehe Fig. 10 der US-A-4 907 285. Nach Festlegen des Bereiches in dem Dokument werden die angemessenen numerischen Werte für die Variablen eingesetzt.
  • US-A-4 949 188 (Sato) beschreibt eine Bildverarbeitungs-Vorrichtung zum Synthetisieren eines Zeichens oder eines Graphikmusters, das durch eine Seitenbeschreibungssprache und ein Originalbild dargestellt ist. Die Bildverarbeitungs-Vorrichtung erzeugt eine Seitenbeschreibungssprache mit Kodedaten, welche Zeichen, Graphikmuster und dergleichen darstellen und Befehlsdaten, welche einen Drucker veranlassen, die Originalseite zu drucken. Mehrdeutigkeiten von vorherigen Dokumentenerkennungs-Vorgängen werden in der Seitenbeschreibungssprache nicht aufgezeichnet. Siehe beispielsweise die Tabelle in Spalte 4, Zeilen 5-10. Dementsprechend kann kein nachher damit befaßtes Gerät, das die Seitenbeschreibungssprache empfängt, bestimmen, ob in den vorher ausgeführten Dokumentenerkennungs-Vorgängen Mehrdeutigkeiten aufgetreten sind.
  • US-A-4 654 875 (Srihari u. a.) beschreibt ein Verfahren der automatischen Spracherkennung für optische Zeichenleser. Die Sprache in Form von Eingabeketten oder -Strukturen wird aufgrund von folgendem analysiert: Kanalkenngrößen in Form von Wahrscheinlichkeiten, daß ein Buchstabe in der Eingabe eine Verstümmelung eines anderen Buchstabens ist. Die Wahrscheinlichkeit, daß der Buchstabe seriell mit anderen erkannten Buchstaben auftritt, welche dem analysierten Buchstaben vorangehen oder Teil-Ketten von Buchstaben, die seriell auftreten, und lexikalische Information in Form von annehmbaren Wörtern, die als eine Grafikstruktur dargestellt sind. Mehrdeutigkeiten von vorher durchlaufenen Erkennungsvorgängen werden nicht aufgezeichnet.
  • Der Aufsatz von Kenneth W. Church und Patrick Hanks, in Computational Linguistics, Band 16, Nr. 1 (März 1990) "Word Association Norms, Mutual Information and Lexicography" beschreibt eine Maßnahme, die als ein "Zuordnungsverhältnis" (association ratio) bezeichnet wird, aufgrund von Informationstheoretischer Feststellung von gegenseitiger Information zum Abschätzen von Wortzuordnungsnormen Computerlesbarer Formen. Dieses Zuordnungsverhältnis kann als ein Semantik-Analysator benutzt werden, um das wahrscheinlichste Wort aus einer Zahl von zwei oder mehr Wörtern zu bestimmen, die als mögliche Wörter identifiziert wurden.
  • Der Aufsatz von Simon Kahan, Theo Pavlidis und Henry S. Baird, in IEEE Transactions on Pattern Analysis and Machine Intelligence, Band PAM 1-9, Nr. 2 (März 1987) "On the Recognition of Printed Characters of Any Font and Size" beschreibt ein System, das gedruckten Text mit verschiedenen Schriftarten und -Größen des lateinischen Alphabets erkennt. Ausdünnen und Formextrahierung werden direkt an einer Grafik der Lauflängenkodierung des Binärbildes ausgeführt. Die sich ergebenden Striche und andere Formen werden mit Benutzung eines Formhäufungsvorgangs in Binärmerkmalen aufgezeichnet, die dann in einen statistischen Bay'schen Klassifikator eingeleitet werden. Dieses System identifiziert mehrere mögliche Zeichen oder Wörter und bewertet sie. Jedoch wird die Unsicherheit in dem Erkennungsvorgang mit Benutzung der Standardnotierung der vorliegenden Erfindung nicht aufgezeichnet.
  • Zusammengefaßt: es gibt eine Anzahl von Systemen, welche Grafikstrukturen, Texte (Zeichen, Wörter, Semantiken, Schriftarten) und Logikstrukturen (Seiten, Absätze, Fußnoten) erkennen und die Unsicherheit bestimmen können, mit der das erkannte Merkmal erkannt wurde. Jedoch zeichnet keines dieser Systeme die Ergebnisse des Erkennungsvorgangs (einschließlich der Unsicherheiten) in einer Weise auf, die durch andere Geräte benutzt werden kann. Das ergibt den Verlust einer großen Informationsmenge (insbesondere, was Unsicherheiten betrifft), besonders dann, wenn zu verschiedenen Zeiten unterschiedliche Erkennungssysteme (z. B. Zeichenerkenner, Worterkenner, Semantik-Analysatoren) benutzt werden (Im Gegensatz zur Integrierung in ein System).
  • Es ist ein Ziel der vorliegenden Erfindung, Verfahren und Vorrichtungen zum Aufzeichnen von Mehrdeutigkeiten in Dokumentenerkennungs-Vorgängen in einem Standardformat zu schaffen, die bei einer Vielzahl von Dokumentenerkennern eingesetzt werden können.
  • Es ist ein weiteres Ziel der vorliegenden Erfindung, Verfahren und Vorrichtungen zum Wandeln von Bitmap-Bildern in ausgebbare kodierte Daten zu schaffen, bei denen Mehrdeutigkeiten in dem durch vorher tätige Erkennungsgeräte ausgeführten Umwandlungsvorgang betreffende Information aufgezeichnet und so durch nachfolgende Erkenner von höherem Niveau benutzt werden kann, die diese Mehrdeutigkeiten aufzulösen versuchen.
  • Um die genannten und andere Ziele zu erreichen und die vorher besprochenen Mängel zu überwinden, werden Verfahren und Vorrichtungen vorgesehen, wie sie in den Ansprüchen 1 bzw. 12 bestimmt sind, um als Bitmap-Bilddaten dargestellte Dokumente in ausgebbare ko dierte Daten zu wandeln, wobei eine Standard-Notation in einer Dokumentenbeschreibungssprache zum Aufzeichnen von Dokumentenerkennungs-Mehrdeutigkeiten durch jeden Dokumentenerkenner benutzt wird. Wenn die Ergebnisse der dokumentierten Erkennungsvorgänge mit Benutzung dieser Standard-Notation aufgezeichnet werden, werden vorhandene Mehrdeutigkeiten in gleichartiger Weise identifiziert, so daß nachfolgend ablaufende Dokumentenerkennungs-Vorgänge höheren Niveaus versuchen können, diese Mehrdeutigkeiten mit Benutzung aller durch die vorher tätigen Dokumentenerkennungs-Vorgänge erhaltenen Information über die Mehrdeutigkeiten zu lösen.
  • Eine Syntax-Liste wird geschaffen (z. B. im Speicher oder am Anfang des Datenstroms), welche die zum Aufzeichnen kodierter Abschnitte des Bitmap-Bildes benutzten Elemente definieren. Die Syntax-Liste enthält Elemente zum Aufzeichnen von grafischen Bitmap-Daten und Text-Bitmap-Daten wie auch Attribute (z. B. Schriftart und -größe) dieser Daten. Die Syntax-Liste ermöglicht es nachfolgenden Vorgängen, den kodierten Datenstrom zu analysieren.
  • Insbesondere kann bei Benutzung der Standard-Notation der vorliegenden Erfindung jeder Dokumentenerkenner die Ergebnisse seines Erkennungsvorgangs in einem Element oder in mehreren Elementen aufzeichnen, die selektiv mit Benutzung der Dokumentenbeschreibungssprache identifiziert sind. Jedes Element enthält einen Art-Identifizierer, der eine Art von kodierten Daten (Information) mit Bezug auf das darin enthaltene erkannte (umgeformte) Bitmap-Bild bezeichnet. Jedes Element enthält auch ausgebbare kodierte Daten der durch den Art-Identifizierer identifizierten Art in sich, und kann auch Unsicherheitsinformation enthalten, die alle kodierten Daten identifiziert, die nicht mit einem vorgegebenen Vertrauensniveau umgeformt wurden. Diese Unsicherheitsinformation wird durch den Dokumentenerkenner bestimmt und in einem Format aufgezeichnet, das für nachher arbeitende Dokumentenerkenner höheren Niveaus lesbar ist. Diese Unsicherheitsinformation kann das Vertrauensniveau enthalten, welches bei den unsicheren kodierten Daten durch den Dokumentenerkenner erkannt wurde, um weiter die Dokumentenerkenner höheren Niveaus beim Lösen von Mehrdeutigkeiten zu unterstützen. Die Unsicherheitsinformation kann auch alternative kodierte Daten für jede Unsicherheitserkennung enthalten.
  • Wenn der Dokumentenerkenner ein Zeichenerkenner ist, werden alle Zeichen, die nicht mit einem vorgegebenen Vertrauensniveau erkannt wurden, identifiziert und durch Einsetzen derselben in Fraglichzeichen-Elemente aufgezeichnet. Der Unsicherheitsgrad, wie auch alternativ mögliche Zeichen und ihr Unsicherheitsgrad, kann ebenfalls für jedes in Frage stehende Zeichen aufgezeichnet werden. Zeichen, die mit mindestens dem vorgegebenen Vertrauensniveau erkannt wurden, werden in die Zeichenreihen-Elemente eingesetzt.
  • Wenn der Dokumentenerkenner einen Worterkenner enthält (wie beispielsweise einen Orthographieprüfer), versucht der Worterkenner, irgendwelche vorhandene fragliche Zeichen dadurch zu lösen, daß er aufgrund jedes fraglichen Zeichens und der sicheren Zeichen in dem Wort bestimmt, ob irgendwelche Wörter in einem Lexikon vorhanden sind. Wenn ein Wort in dem Lexikon als das das fragliche Zeichen enthaltende Wort identifiziert wird, wird das Wort als ein verifiziertes Wort identifiziert und in ein Verifiziertwort-Element aufgezeichnet. Wenn mehr als ein verifiziertes Wort gefunden wird, werden diese in einzelne Verifiziertwort-Elemente eingesetzt, die gemeinsam eine Gruppe in einem Alternativwort-Element bilden. Wenn nichtverifizierte Wörter für das ein fragliches Zeichen enthaltende Wort gefunden werden, bleibt das Fraglichzeichen-Element bestehen.
  • Wenn der Dokumentenerkenner einen Semantik-Analysator enthält, werden alle identifizierten alternativ bestätigten Wörter durch Analysieren der die alternativ bestätigten Wörter umgebenden Wörter gelöst. Wenn eines der alternativ bestätigten Wörter mit einem vorgegebenen Vertrauensniveau aufgrund der semantischen Analyse bestätigt werden kann, wird es zurückgeführt und mit den umgebenden Zeichenketten-Elementen gemischt. Wenn der Semantik-Analysator nicht bestimmen kann, welches der alternativen bestätigten Wörter korrekt ist, führt er das Alternativwort-Element (und enthaltene bestätigte Wortelemente) als solche zurück und kann Daten einschließen, die für die Wahrscheinlichkeit bezeichnend sind, daß jedes darin enthaltene bestätigte Wort das korrekte Wort ist.
  • Wenn der Dokumentenerkenner einen Grafikstruktur-Bilderkenner enthält gibt er Grafikelemente aus, welche kodierte Daten enthalten, die für in dem Grafikbild erkannte Grafikstrukturen repräsentativ sind. Diese Strukturen können enthalten: zwischen Endpunkten bestimmte Linien; Kreise; Bögen usw. Zusätzlich kann auch Liniendickeninformation zurückgeführt und aufgezeichnet werden. Mehrdeutigkeiten in dem Erkennungsvorgang wie Versätze in x- und y-Richtung und Zeilendickenveränderungen können auch aufgezeichnet werden. Diese Daten können durch später erfolgende Grafikerkennungsvorgänge höheren Niveaus zum Lösen aller Mehrdeutigkeiten benutzt werden oder zum Erkennen komplexer Grafikstrukturen. Beispielsweise können durch einen Niedrigniveau-Grafikerkenner erkannte vier Linien durch einen Grafikerkenner höheren Niveaus als ein Kasten bestimmt werden, wenn beispielsweise mit einem hohen Wahrscheinlichkeitsgrad bestimmt werden kann, daß die Endpunkte zusammenfallen.
  • Zusätzliche Bilderkennungselemente werden zum Aufzeichnen von Information erzeugt, die sich auf größere Abschnitte (oder Teilbilder) des Dokumentenbildes beziehen. Z. B. können Daten, die sich auf Schriftart-Textblöcke, Rahmen, Seiten, Dokumente und große und kleine Stücke von ungelösten Bitmap-Bildern beziehen, auch aufgezeichnet werden.
  • Diese Erfindung wird im einzelnen mit Bezug auf die nachfolgend aufgeführten Zeichnungen beschrieben, in welchen gleiche Bezugszeichen sich auf gleiche Elemente beziehen und in denen:
  • Fig. 1 ein Musterseitenbild zur Darstellung der vorliegenden Erfindung zeigt;
  • Fig. 2 ein Zeichenkettenelement zum Sammeln von Zeichenströmen darstellt, die mit einem oder mehr als einem vorgegebenen Vertrauensniveau bekannt sind;
  • Fig. 3 ein fragliches Zeichenelement darstellt zum Sammeln von mit niedrigem Vertrauensniveau erkannten fraglichen Zeichen;
  • Fig. 4 stellt ein Fraglichwort-Element zum Sammeln eines fraglichen Worts dar, welches mit hohem Vertrauen erkannte Zeichen enthält, die jedoch nicht in einem Lexikon aufgefunden wurden;
  • Fig. 5 stellt Bestätigtwort-Elemente zum Sammeln bestätigter Wörter dar, die in einem Lexikon gefunden wurden durch Lösen eines ein fragliches Zeichenwort oder mehrere fragliche Zeichen enthaltenden Wortes und ein Alternativwort-Element zum Sammeln von Alternativworten, wenn zwei oder mehr bestätigte Wörter für ein fragliche Zeichen enthaltendes Wort gefunden werden;
  • Fig. 6 ein Textelement zum Sammeln von Textelementen mit der gleichen Zeichenart darstellt;
  • Fig. 7 ein ZeichenartDef-Element zum Sammeln von sich auf eine Zeichenart beziehenden Daten darstellt;
  • Fig. 8 eine Art von Grafikelement darstellt, das ein Segmentelement zum Sammeln von auf ein Liniensegment bezüglichen Daten darstellt;
  • Fig. 9 eine andere Art von Grafikelement darstellt, das ein Bogenelement zum Sammeln von auf Bogen bezüglichen Daten ist;
  • Fig. 10 eine andere Art von Grafikelement darstellt, das ein Bildelement zum Sammeln von auf ein großes ungelöstes Bitmap-Bild bezüglichen Daten ist;
  • Fig. 11 eine andere Art von Grafikelement darstellt, das ein Fleckelement zum Sammeln von Information ist, die sich auf ein kleines ungelöstes Bitmap-Bild, als Fleck bezeichnet, beziehen und zum Speichern dieser Information als einem Hexadezimalwert;
  • Fig. 12 Beispiele von Elementen darstellt, die sich auf andere Elemente beziehen;
  • Fig. 13 ein tBlock-Element darstellt zum Sammeln von Information, die sich auf Textblöcke bezieht;
  • Fig. 14 ein Rahmenelement darstellt zum Sammeln von Information, die sich auf Rahmen bezieht, die Textblöcke, Bilder, Flecken, Bögen und Segmente enthalten können, wie auch auf andere Rahmen;
  • Fig. 15 ein Seitenelement darstellt zum Sammeln von auf eine Seite bezogenen Daten;
  • Fig. 16 ein Gruppenelement darstellt zum Sammeln von auf eine Gruppe von Elementen bezogenen Daten, die sich über Seitengrenzen hinweg erstreckt;
  • Fig. 17 ein drStrom-Element zum Sammeln von Daten darstellt, die sich auf ein gesamtes Dokument beziehen;
  • Fig. 18A-C eine Sammlung der gesamten zum Beschreiben eines Dokuments notwendigen Syntax ist;
  • Fig. 19 ein Blockschaltbild eines Systems zum Eingeben und Wandeln eines Bitmap-Bilds in kodierte Datenströme mit Benutzung der vorliegenden Erfindung ist;
  • Fig. 20 ein Flußdiagramm ist, das einen durch das System der Fig. 19 bei Benutzung der vorliegenden Erfindung ausgeführten Vorgang darstellt; und
  • Fig. 21 ein Flußdiagramm ist, das einen durch den Worterkenner der Fig. 19 ausgeführten Vorgang während einer Benutzung der vorliegenden Erfindung darstellt.
  • Die vorliegende Erfindung benutzt einen geradlinigen Vorgang zum Aufzeichnen von Mehrdeutigkeiten durch die aufeinanderfolgenden Stufen des Dokumentenerkennungsvorgangs. Diese Mehrdeutigkeiten bestehen in dem Kontext von:
  • durch Zeichenerkenner verarbeitete Zeichen;
  • durch Zeichenerkenner, Orthographieprüfer und Semantik-Analysatoren verarbeitete Wörter;
  • durch Logikstruktur-Wiederaufbauer verarbeiteter Textfluß; und
  • durch Grafikerkenner verarbeitete Geometrie von Liniensegmenten und Bögen.
  • Jeder dieser Vorgänge erzeugt und/verbraucht einen Byte-orientierten Datenstrom (hiernach als Dokumenten-Erkennungsstrom (document recognition stream) oder DRStrom bezeichnet), und Bitmap-Ströme (hiernach als Bilddateien bezeichnet), auf die sich der DRStrom bezieht. Der DRStrom trägt Information über eine oder mehrere Seiten eines digitalisierten Dokuments. Die Information beschreibt Text mit Schriftarten, gewissen Grafik-Primitiven und Halbtonbildern wie auch ihre Beziehungen und die dabei vorhandenen Mehrdeutigkeiten.
  • Die vorliegende Erfindung schafft keine neuen Dokumenten Erkennungsvorgänge (oder Dokumentenerkenner) in dem Sinne, daß sie mit vorhandenen Erkennern eingesetzt werden kann, welche z. B. Zeichen oder Grafikstrukturen erkennen, oder Wörter bestimmen (durch Vergleichen von Zeichenfolgen anhand eines Lexikons bekannter Wörter), oder bestimmen, welches Wort von einer Auswahl von möglichen Wörtern korrekt ist. Die vorliegende Erfindung verbessert jedoch die Wirksamkeit und die Kompatibilität mit welcher diese unterschiedlichen Arten von Erkennern funktionieren durch Schaffen einer Standard Notation zum Aufzeichnen der durch die Erkenner in einer Dokumentenbeschreibungssprache erhaltenen Ergebnisse.
  • Fig. 2-18C stellen diese Dokumenten Erkennungsnotation in der Standard Generalized Mark-up Language (SGML) nach ISO 8879 dar, einem Datenformatstandard zum Austausch strukturierter Dokumente zwischen Textsystemen und Dokumenten-Veröffentlichungssystemen, gemäß der nachstehend besprochenen Dokumentenart-Definition. Jeder Erkenner zeichnet kodierte Daten auf entsprechend dem Ergebnis des Erkennungsvorgangs, den er durchführt, und zwar als kodierte Information, die in SGML als Elemente bezeichnet wird. Jedes Element enthält kodierte Daten, die in irgendeiner Weise als gleichartig erkannt wurden (z. B.: Texte, Grafiken, gleiche Seiten, alle bestimmte Zeichen usw.). Jedes Element enthält: a) einen Art-Identifizierer, der die Art der in dem Element enthaltenen kodierten Daten bezeichnet; b) eine wahlweise Identifizierungsnummer, die unter allen gleichartigen Elementen eines Dokuments eindeutig ist, und das Element von anderen gleichartigen Elementen so unterscheidet, daß durch andere Elemente auf ein Element Bezug genommen werden kann (die meisten Elemente besitzen eine Identifizierungsnummer); c) kodierte Daten, die durch den Dokumenten Erkennungsvorgang erhalten wurden (das konnte ein Zeichenreihe oder könnten Parameter sein, welche Grafikstrukturen definieren); und d) optionale Inhalte (die als Attribute bezeichnet werden) zum Schaffen zusätzlicher Information (z. B. Unsicherheitsinformation) über die in dem Element enthaltenen kodierten Daten. Obwohl die Attribute eines Elements zum Aufzeichnen von Unsicherheitsinformation über kodierte Daten in einem Element benutzt werden können (Information wie beispielsweise Vertrauensniveaus, mit welchen die kodierten Daten erkannt wurden, oder mögliche Versätze für Parameter (z. B. Endpunkte, welche einen Linienabschnitt bestimmen) einer Grafikstruktur), wobei die Art Identifizierung in manchen Fällen auch dazu dient, Unsicherheitsinformation zu befördern durch Bezeichnen, daß die Inhalte dieses Elements mit einem Vertrauensniveau bestimmt wurden, das unter einem vorgegebenen Vertrauensniveau liegt. In den dargestellten Beispielen werden die kodierten Daten als vom Menschen lesbare ASCII aufgezeichnet, jedoch können auch andere Kodierungen benutzt werden.
  • Jemand, der mit SGML vertraut ist, wird die generischen Inhalte der nachstehend zu beschreibenden Elemente verstehen. So wird nur eine kurze Besprechung eines generischen Elementes mit Bezug auf Fig. 18A-C gegeben. Dann wird jede Elementenart besonders mit Bezug auf Fig. 2-17 beschrieben. Fig. 18A-C stellen eine vollständige Syntax von Elementen dar, die zum Beschreiben eines Dokuments gemäß der vorliegenden Erfindung benutzt werden kann. Die Liste von Elementen sollte dabei an den Beginn jedes DRStroms gesetzt werden, und wird durch herkömmliche Parser benutzt, die zum Analysieren von in SGML geschriebenen Strömen programmiert sind, um den darunter enthaltenen DRStrom zu analysieren (parsen). Das bedeutet, nach der Syntaxliste von Elementen wird ein kontinuierlicher Strom von Elementen geschaffen, die ein bestimmtes Dokument beschreiben. Hier wird der Ausdruck 'kontinuierlicher Strom von Elementen' so benutzt, daß er sich auf eine Gruppe von Elementen bezieht, die als zusammengehörig identifiziert sind. So bilden in einer Markierungssprache wie SGML, in der Leerräume zugelassen (und tatsächlich aus Lesbarkeitsgründen bevorzugt) sind, Tabellierungen, Aufbrechen in verschiedene Zeilen, Weißräume, die der Parser ignoriert. In diesem Sinn ist Leerraum ein Teil des kontinuierlichen Elementenstroms. Andere Systeme können eine Grenze bezüglich der Größe von Zeichenströmen aufweisen. In diesem System würden lange DRStröme über verschiedene Dateien aufgeteilt, die als zusammengehörig identifiziert würden. Ein solcher DRStrom, bei dem verschiedene Dateien als zusammengehörig identifiziert sind, ist auch dazu bestimmt, durch den Ausdruck "kontinuierlicher Strom von Elementen" überdeckt zu werden. (Einige der Elemente in Fig. 18A-C enthalten (näher zu beschreibende) Attribute, die auch am Beginn des DRStroms aufgelistet gehören). Selbstverständlich sind nicht alle in Fig. 18A-C aufgelistete Elemente erforderlich, um die Ergebnisse eines Dokumenten-Erkennungsvorgangs aufzuzeichnen; wenn jedoch mehr Elemente vorgesehen sind, kann mehr Information aufgezeichnet werden. Man betrachte Fig. 2 in Bezug auf SGML: der Ausdruck "!ELEMENT s" bedeutet "definiere ein Element, dessen Art 's' ist"; der Ausdruck "-O" bedeutet "das Element beginnt immer dann, wenn sein Art-Identifizierer in spitzen Klammern < > erscheint, das Element endet mit < /> (Elementenden-Markierer), oder wenn ein anderes Element an dlem gleichen oder höheren Niveau in der Verschachtelungsstruktur beginnt"; und "('PCDATA)" bedeutet "die Inhalte dieses Elements sind eine Zeichenkette". So definiert Fig. 2 ein Element, das eine Zeichenkette (wie "horse") enthält, die auf folgende Weise aufgezeichnet wird:
  • < s> horse < /s> ; oder
  • < s> horse < /> ; oder
  • < s> horse
  • Andere mögliche Inhalte eines Elements können andere Elemente sein (siehe z. B. das aw-Element der Fig. 5, das zwei oder mehr vw-Elemente als seine Inhalte enthält), oder nur Attribute (repräsentiert durch LEER und eine Attribute-Liste - siehe Fig. 8). Der Ausdruck "+" bezeichnet, daß der unmittelbar vorhergehende Gegenstand wiederholt werden kann. Diese Definitionen werden klarer, wenn jedes Element mit mehr Einzelheiten nachstehend definiert wird.
  • Fig. 1 ist ein Beispiel-Seitenbild, das zum Illustrieren der Arten von Bitmap-Bildern benutzt wird, die gewandelt und aufgezeichnet werden können, und ihre Aufzeichnungsform mit Benutzung der vorliegenden Erfindung. Das Beispiel- oder Probenbild enthält verschiedene interessierende Merkmale, wie: wegen ihrer schlechten Form oder schlechten Qualität schwer zu erkennende Zeichen; strukturierte Grafik in Form von zwei Liniersegmenten; Bitmap-Grafiken in Form von einer undefinierten Zeichnung; Logikstruktur in Form einer Fußnote und ihres Aufrufzeichens.
  • Fig. 2 stellt ein Zeichenketten-Element (s) dar, in welchem ein Zeichenerkenner Zeichen sammelt, welche die folgenden Bedingungen erfüllen:
  • alle Zeichen sind mit einem hohem Vertrauensniveau erkannt (besitzen mindestens ein vorgegebenes Vertrauensniveau);
  • alle Zeichen sind von der gleichen Zeichenart, Grundlinienposition und Unterstreichungszustand; und
  • es ist kein bezeichnender Leerraum zwischen den einzelnen Zeichen (z. B. Zeichen, die horizontal ausgerichtet sind, jedoch zu zwei Textspalten gehören, die durch eine gewisse Größe eines Leerraums getrennt sind, sind nicht in das gleiche Element zusammengesetzt). Der dargestellte Art-Identifizierer ist "s". Zeichenketten-Elemente haben keine id-Nummern, können stattdessen jedoch in größere Elemente eingesetzt werden.
  • Mit Bezug auf das Bild der Fig. 1 wird ein Abschnitt dieses Bildes mit einer Reihe von Zeichen, die mindestens mit einem vorgegebenen Vertrauensniveau durch einen Zeichenerkenner erkannt wurden, mit Benutzung der vorliegenden, in SGML ausgeführten Erfindung wie folgt aufgezeichnet:
  • < s> Etymologies appear in square brackets following< />
  • {Etymologien treten in eckigen Klammern auf nach < /> }
  • < s> the "definitions". In accordance with the < I>
  • {< s> den "Definitionen". Gemäß den< /> }
  • Fig. 3 zeigt ein Fraglichzeichen-Element (questionable-character-element qc), wo ein Zeichenerkenner Zeichen einsetzt, die eine niedrige Wahrscheinlichkeit korrekter Erkennung haben. Bestehende Zeichenerkenner bestimmen gegenwärtig ein Vertrauensniveau für jedes Zeichen. Wenn ein Zeichen nicht mit mindestens einem vorgegebenen Vertrauensniveau erkannt wird, markieren diese Zeichenerkenner das Zeichen auf irgendeine Weise. Eine andere Angelegenheit ist jedoch, die Aufmerksamkeit des Benutzers auf ein ungewisses Zeichen zu lenken. Einige Anbieter haben eine interaktive (Dialog-)Packung, bei der das Erkennen und die Rückfrage an einen Benutzer zur Anleitung miteinander verschlungen sind; es ist nicht bekannt, ob diese Systeme unsichere Zeichen als solche markieren, da dies eine interne Angelegenheit ist, und ob die Unsicherheit durch Benutzereingriff aufgehoben wird. Andere Anbieter markieren die unsicheren Zeichen beispielsweise mit zwei Fragezeichen und schaffen das Problem, daß der nächstfolgende Vorgang bei der Bearbeitung diese Fragezeichen nicht von echten Fragezeichen unterscheiden kann. Jedoch werden fragwürdige Zeichen nicht in einer Weise aufgezeichnet, die durch andere Maschinen benutzt werden kann. (Das bedeutet: Fragezeichen und Hervorhebungsbezeichnungen können auch eine andere Bedeutung besitzen.) So wird, wenn diese Daten zu einem Gerät höheren Niveaus weitergeleitet werden, wie einem Orthographieprüfer, der Orthographieprüfer nicht in der Lage sein, die Information zu der Erkennung zu benutzen, daß das Zeichen nicht mit einem hohen Sicherheitsgrad bekannt wurde.
  • Bei der vorliegenden Erfindung empfängt ein Gerät höheren Niveaus die Information, daß ein Zeichen nicht mit einem hohen Sicherheitsgrad erkannt wurde, da jedes Zeichen, das in einem Fraglichzeichen-Element gelegen ist, diese Charakteristik hat. So können durch Benutzen einer Notation in einer Dokumentenbeschreibungssprache zum Aufzeichnen von Mehrdeutigkeien andere Erkenner die Unsicherheitsinformation benutzen. Vorzugsweise trägt jedes qc-Element ein Fraglichzeichen (qc-Zeichen). Das qc-Element kann auch eine Liste von alternativen Zeichen enthalten, wenn der Zeichenerkenner mehr als ein mögliches Zeichen unter dem vorgegebenen Vertrauensniveau für einen bestimmten Anteil des Bitmap-Bildes erkennt. Zusätzlich kann auch der Sicherheitsgrad für ein solches Zeichen oder eine Vielzahl solcher fraglicher Zeichen in jedem qc-Element geschaffen werden. Idealerweise werden Fraglichzeichen-Elemente darauffolgend durch einen Orthographieprüfer beseitigt.
  • Z. B. kann das in dem vorstehend genannten Aufsatz von Simon Kahan u. a. beschriebene System benutzt werden, um alternative Zeichen (oder Wörter) zu erzeugen, die jeweils eine gewisse Art von Maßnahme aufweisen, die für das mit dem Zeichen (oder Wort) verbundenen Vertrauensniveau bezeichnend ist. Jedoch wird, anders als bei dem durch Kahan u. a. beschriebenen System, diese Information, die sich auf Zeichen und/oder Wörter bezieht, in angemessen unterschiedlichen Elementen aufgezeichnet, mit Benutzung einer Dokumentenbeschreibungssprache gemäß der vorliegenden Erfindung. Das ermöglicht es anderen Dokumenten-Erkennungsvorgängen höheren Niveaus (die getrennt von dem System nach Kahan u. a. bestehen und zeitlich getrennt von diesem benutzt werden können), in gleichförmiger Weise auf diese Information zuzugreifen. Die vorliegende Erfindung erlaubt es vorhan denen Erkennern auch, in wirksamerer Weise zu arbeiten. Z. B. können durch Unterscheidung zwischen sicheren und unsicheren Zeichen (oder Wörtern) kompliziertere und zeitraubende Erkennungsvorgänge auf die unsicheren Zeichen (oder Wörter) beschränkt werden.
  • Fig. 4 stellt ein Fraglichwort-Element (questionable-word-element qw) dar, in welches ein Worterkenner (z. B. ein Orthographieprüfer) Wörter einsetzt, welche mit einem hohen Vertrauensniveau erkannte Buchstaben enthalten, die jedoch nicht in dem Lexikon des Worterkenners gefunden werden. Es ist ein fragwürdiges Wort pro qw-Element vorhanden. Diese Fraglichwörter können durch andere Worterkenner gelöst werden, die andere Lexika enthalten, oder durch andere Mittel (wie einen Semantik-Analysator), die später beschrieben werden.
  • Mit Bezug auf Fig. 1 sei angenommen, daß alle Zeichen in dem Wort "Jumblatt" zufriedenstellend erkannt wurden, daß jedoch der Orthographieprüfer des Worterkenners das Wort "Jumblatt" nicht in seinem Lexikon findet. Es wird dann wie folgt als qw-Element aufgezeichnet:
  • < qw> Jumblatt< /> .
  • Fig. 5 stellt ein Verifiziertwort-Element (verified-word-element vw) und ein Alternativwort- Element (aw) dar, in welche Elemente ein Worterkenner Wörter einsetzt, die bei seinem Versuch, Fraglichzeichen-Elemente zu beseitigen, gefunden wurden. Der Worterkenner sucht bei jedem Auftreten eines fraglichen Zeichens in einem Lexikon aufgrund des mit einem Fraglichzeichen-Element verbundenen Wortes nach Wörtern. Falls ein Wort in seinem Lexikon gefunden wird, setzt der Worterkenner das Wort in ein vw-Element. Wenn der Worterkenner fragliche Zeichen zu beseitigen versucht, kann er in seinem Lexikon verschiedene Wörter verifiziert finden. Wenn der Worterkenner nicht zwischen den verifizierten Wörtern entscheiden kann, setzt er jedes von diesen in ein vw-Element und setzt die Reihe von vw-Elementen in ein aw-Element zum Nutzen eines nachfolgenden Verfahrens wie eines Semantik-Analysators.
  • Der Semantik-Analysator versucht dann durch Analysieren der jedes Auftreten der Alternativwörter umgebenden Wörter zu bestimmen, welches von den verifizierten Wörtern korrekt ist.
  • Der Worterkenner kann verschiedene herkömmliche Verfahrensweisen zum Auswählen von Wörtern benutzen, um sie mit einem Lexikon zu vergleichen. Beispielsweise kann jeder Buchstabe des Alphabets für das Fraglichzeichen-Element in dem Wort eingesetzt werden, welches das fragliche Zeichen-Element enthält, und das Erhaltene kann dann im Lexikon aufgesucht werden. Wenn Alternativ-Fraglichzeichen in einem Fraglichzeichen-Element vorgesehen sind, kann der Ersatz auf nur die alternativen Fraglichzeichen begrenzt werde. Wenn keine verifizierten Wörter gefunden werden, bleibt das Fraglichzeichen-Element übrig, und wahlweise kann die darin enthaltene Unsicherheitsinformation durch den Worterkenner aktualisiert werden.
  • Man betrachte beispielsweise die durch einen Zeichenerkenner in Fig. 1 gefundenen beiden Zeilen und fraglichen Zeichen, wie sie nachstehend dargestellt sind:
  • < s> the origins of numerous English w < /s>
  • < qc> a < /q>
  • < s> rds are still obscure< /s>
  • Der Worterkenner findet beim Versuch, das fragliche "a" zu reduzieren, "wards" und "words" als Kandidaten und ersetzt die vorstehende Notation durch:
  • < s> the origins of numerous English< /s>
  • < aw> < vw> wards< /vw> < vw> words< /vw> < /aw>
  • < s> are still obscure< /s>
  • Der Elementenstrom kann einem Semantik-Analysator zugeführt werden, der dann versucht, zu bestimmen, welches Wort korrekt ist. Falls der Semantik-Analysator bestimmen kann, welches Wort korrekt ist, setzt er dieses Wort in die umgebenden s-Elemente ein. Z. B. werde angenommen, daß die folgenden Daten dem Semantik-Analysator zugeführt werden:
  • < s> the origins of numerous English< /s>
  • < aw>
  • < vw> wards < />
  • < vw> words < />
  • < s> are still obscure.< />
  • und dieser aus dem Kontext entscheidet, daß "words", und nicht "wards" die richtige Wahl ist. Er kann die vorstehende Notation durch irgendeine der anderen nachstehenden Auswahlen ersetzen (es spielt keine wichtige Rolle, was gewählt wird, wobei jedoch die erste Wahl die logischste und die zweite Wahl die bequemste ist):
  • < s> ,the origins of numerous English words are still obscure.< />
  • < s> ,the origins of numerous English< s> words< s> are still obscure.< />
  • < s> ,the origins of numerous English words< s> are still obscure.< />
  • < s> ,the origins of numerous English< s> words are still obscure.< />
  • Es sollte bemerkt werden, daß die zwischenliegenden < /> s weggelassen wurden, da sie optional sind.
  • Fig. 6 stellt ein Textelement dar, das zum Sammeln von Zeichendaten (s-, aw-, qc- und qw-Elemente) der gleichen Schriftart benutzt wird. Ein Textelement hat ein id-Attribut, das es erlaubt, durch höhere Elemente angezogen zu werden und einen wahlweisen Bezug zu einem Schriftart-Identifizierer (wie nachstehend definiert). Wenn die Schriftart-Referenz nicht zugeliefert wird, wird die zuletzt zugelieferte benutzt. Die Textelemente werden durch Zeichenerkenner erzeugt, welche unterschiedliche Schriftarten erkennen können. Ein Beispiel von in einem Textelement aufgezeichneten Daten ist wie folgt:
  • < text-id = 123 font = 2> Liste von s-, aw-, qc- und qw-Elementen < />
  • Fig. 7 stellt ein fontDef-Element (Schriftartdefinitions-Element) dar. Durch Zeichenerkennungsverfahren analysierte Buchstabenflächen werden in fontDef-Elementen mit möglichst viel Information aufgezeichnet. Die Inhalte eines fontDef-Elements sind der font-Familienname, wenn der Zeichenerkenner fähig ist, ihn mit Bestimmtheit abzuleiten. Ist es wahrscheinlich, daß der Schriftartname nicht abgeleitet werden kann, wird der Inhalt leer gelassen; er kann später gefüllt werden, entweder bei einem nachher ablaufenden Verfahren oder im Dialogverfahren durch einen Benutzer.
  • Das id-Attribut ermöglicht es, Textelemente auf Vergleichsschriftart-Beschreibungen zu beziehen. Die Größenattribute werden in Punkten gemessen. Die Grundattribute bezeichnen, ob die Grundlinie durch Hoch- oder Tiefsetzen versetzt ist. Wenn ein Unterstreichen stattgefunden hat, bezeichnet das Unterstreich-Attribut die Position der Unterstreichungslinie unter der Grundlinie der Schriftart. Ein Beispiel von Daten, die in einem fontDef-Element aufgezeichnet sind, bei dem der font-Familienname Frutiger lautet, ist wie folgt:
  • < fontDef-id = 2 Größe = 10 unter = 1> Frutiger < />
  • Man bemerke, daß die Attribute in dem ersten Klammersatz < > aufgezeichnet sind.
  • Fig. 8 stellt ein Segment-Element dar, das eine Art von Grafikelementen bildet. Segment- Elemente werden durch den Grafikerkenner benutzt, um Liniensegmente zu notierenen, die er aus dem Bitmap-Bild erkennt. Das id-Attribut ermöglicht es höheren Elementen, auf das Segment-Element zu verweisen (Bezug zu nehmen). Die Koordinaten des Endpunkts (x1, y1 plus x2, y2) relativ zur oberen linken Ecke der Seite definieren das Segment mathematisch. Die Unsicherheit der exakten Endpunkt-Koordinaten wird in den dx1-, dy1- und dx2-, dy2-Attributen aufgezeichnet. Damit zeichnen dx1, dy1, dx2 und dy2 mögliche Versätze der Parameter (x1, y1, x2, y2) auf, die zum Beschreiben der Grafikstruktur des Liniensegments verwendet sind. Die Segmentdicke und ihre Unsicherheit werden durch die Dicken- und dDicken-Attribute festgestellt. Ein Beispiel von Daten, die bei einem Segmentelement aufgezeichnet werden, ist nachstehend gegeben:
  • < Segment-id = 14x1 = 2100 dx1 = 5y1 = 1440x2 = 2100 dx2 = 5y2 = 2160 dick = 17> < />
  • Wie bei dem fontDef-Element sind die Attribute in den ersten Klammersatz eingesetzt. Da das Segmentelement keine Zeichenketten enthält (sein Gehalt ist LEER), folgt dem ersten Satz von Klammern ein Elementenende-Markierer < /> , oder, da Elementenende-Markierer nicht erforderlich sind, ein neues Element.
  • Fig. 9 stellt ein Bogenelement dar, das eine andere Art von Grafikelement ist. Bogenelemente werden benutzt, um Kreise, Kreisbogen, Ellipsen und Ellipsenbögen zu notieren, die in dem Bitmap-Bild durch den Grafikerkenner erkannt sind. Die id-Attribute ermöglichen es Elementen höheren Niveaus, auf den Bogen Bezug zu nehmen. Die anderen Attribute sind:
  • x, y, dx, dy: Koordinaten und Unsicherheiten der Mitte des Kreis- oder des Ellipsenbogens, gemessen von der oberen linken Ecke der Seite;
  • r, dr: Länge und Unsicherheiten des Radius eines Kreisbogens oder der langen Achse eines Elfipsenbogens;
  • rKurz, drkurz: Länge und Ungenauigkeit des kurzen Achse eines Ellipsenbogens;
  • theta1, dTheta1: Winkel zwischen der vertikalen Achse und der durch das Zentrum und einen der Endpunkte des Bogens gehenden Linie. Dieses Attribut ist nur bei Bögen vorhanden. Der Winkel kann in Milliradianten gemessen werden;
  • theta2, dTheta2: das gleiche wie theta1, dTheta1 für den anderen Endpunkt;
  • theta0, dTheta0: Winkel zwischen der vertikalen Achse und der langen Achse einer Ellipse. Dieses Attribut ist nur für Ellipsen und Ellipsenbögen vorhanden;
  • dick, dDick: Dicke und Unsicherheit des Kreis- oder Ellipsenbogens.
  • Ein Beispiel von in einem Bogenelement aufgezeichneten Daten ist wie folgt:
  • < arc-id = 5462x = 2300 dx = 8y = 1440 dy = 8r = 2100 dr = 15> < />
  • Fig. 10 stellt ein Bildelement dar, das eine dritte Art von Grafikelement bildet. Das Bildelement wird benutzt, um einen rechtwinkligen Bereich der Seite zu bezeichnen, der nicht als Text oder strukturierte Grafik aufgelöst wurde und deswegen in Bitmap-Form in einer separaten Datei belassen wird. Das Bildelement enthält den Namen der Datei.
  • Die Bildelement-Attribute kodieren die Position und die Unsicherheit relativ zur oberen linken Ecke der Seite (x, dx, y, dy) und die Abmessungen (w, dw, h, dh) (w = Breite, h = Höhe) des Bildes. Die resol-Attribute (Auflösungs-Attribute) werden in Bit pro Meßeinheit ausgedrückt (die Meßeinheiten werden durch das später definierte dsStrom-Element zugeliefert).
  • Beim Beginn des Dokumenten-Erkennungsbetriebs enthält der DRstrom üblicherweise nur Bildelemente, eines pro digitalisierter Seite des Papierdokuments. Wenn Zeichenketten, Liniensegmente und Bögen (mit Benutzung von herkömmlichen Techniken) extrahiert werden, werden die Bitmaps allmählich durch kleinere und wahrscheinlich zahlreichere ersetzt. Beim Abschluß des Betriebs sind die einzigen übriggebliebenen Bitmaps die echten Halbtonbilder und die Abschnitte des Dokuments, die der Zeichenerkenner und Grafikerkenner nicht entziffern konnte.
  • Ein in einer Datei mit dem Namen "Squiggle" gespeichertes Bitmap wird dann wie folgt aufgezeichnet:
  • < Bild-id = 567x = 1840y = 1680w = 260h = 480> Squiggle < />
  • Fig. 11 stellt ein Fleckelement dar, das eine vierte Art von Grafikelement ist. Fleckelemente enthalten kleine Bilder, und bezeichnen ein sehr kleines rechtwinkliges Gebiet, das im Bitmap-Format belassen wird: unerkannte kleine Schmutzflecken, Gegenstandszeichen, unbekannte Symbole usw. Das Bitmap ist klein genug, daß seine Bildaufzeichnung üblicherweise in hexadezimaler Form als die Inhalte des Fleckelementes kodiert werden kann, statt in eine getrennte Datei aufgenommen zu werden.
  • Die x-, dx-, y- und dy-Attribute ergeben die Position des Flecks mit Bezug auf die obere linke Ecke der Seite. Die bx-Attribute geben die Anzahl von Bits in horizontaler Richtung. Dabei wird auf ein Vielfaches von acht begrenzt. Das by-Attribut gibt die Anzahl von 1 Bit hohen Zeilen. Wenn ein Fleckelement abgebildet werden soll, verbraucht der Hexadezimalwert 8*bx Bits (2*bx Hexadezimalzeichen) gleichzeitig für jede Zeile. Der Hexadezimalwert enthält, wo angemessen, abschließende 0-Bits.
  • Es sei angenommen, daß das Markierungszeichen in der Fig. 1 der Musterseite nicht erkannt wurde. Es würde dann als Kleinbild wie folgt notiert:
  • < Fleck-id = 11x = 590y = 850bx = 25by = 25> 03FFB000... < />
  • Fig. 12 stellt Bezüge zu anderen Elementen dar. Die Text-, Segment-, Bogen-, Bild- und Fleck-Elemente können durch Elemente höheren Niveaus (Textblöcke, Rahmen und Seiten, wie nachstehend besprochen), zusammen gruppiert werden über einen Bezug auf ihren Identifizierer. Eine Referenz auf ein Einzelelement wird durch ein Gegenstandselement hergestellt, dessen einziges Attribut den Wert des Identifizierers des Elementes besitzt, auf das verwiesen wird.
  • Ein Verweis auf eine Aufeinanderfolge von Elementen wird durch ein Bereichselement hergestellt: "von"- und "bis"- Attribute verweisen auf die Identifizierer des ersten und des letzten angezogenen Elementes. "Erste" und "letzte" beziehen sich auf die chronologische Reihenfolge, in der die Elemente in dem DRstrom gefunden werden. Ein Bereichselement ist eine Kurznotierung für eine ununterbrochene Folge von Gegenstandselementen.
  • Mehrdeutigkeiten bezüglich der Gruppierung werden durch Altern-Elemente bezeichnet. Alternative Gruppierungen werden durch Vorgänge benutzt, um eine Anzahl von begründbaren Element-Gruppierungen zu kodieren. Wurde z. B. eine Textseite als aus vier Textblöcken bestehend erkannt, zwei an der linken Seite und zwei an der rechten Seite; so gruppiert sie der Logikstruktur-Prozessor (oder Logik-Rekonstruktor), der nicht in der Lage ist, zu bestimmen, ob der Text sich als zwei Spalten oder als zwei Zeihen liest, in die Reihenfolge oben links, unten links, oben rechts, unten rechts; oder in die Reihenfolge oben links, oben rechts, unten links, unten rechts ein; ein nachfolgender Vorgang, wie ein syntaktischer Analysator, kann dann fähig sein, die Mehrdeutigkeiten zu lösen.
  • Fig. 13 stellt ein tBlock-Element dar. tBlock-Elemente kodieren rechtwinklige Bereiche, die eine unsichtbare Begrenzung um eine Textzeile oder einen Satz von Textzeilen mit gleichem Abstand bilden. Der Ort eines tBlocks relativ zur oberen linken Ecke der Seite und ihre Ungenauigkeiten sind gegeben durch die x-, y-, dx- und dy-Attribute. Die Abmessungen und Unsicherheiten werden durch w, h, dw und dh aufgezeichnet. Das interl-Attribut mißt den Abstand zwischen den gleich beabstandeten Zeilen innerhalb des Blocks; sein Wert ist Null, wenn der Textblock nur eine Zeile enthält. Die x1-, dx1-, y1-, dy1-Attribute geben den Ort des ersten Zeichens in dem Textblock relativ zur oberen linken Ecke des Blocks an.
  • Fig. 14 stellt ein Rahmenelement dar. Ein Rahmenelement kodiert eine rechtwinklige Fläche, die kleiner als oder gleich der Seitenfläche ist. Es wird benutzt, um Textblöcke, Bilder, Flecken, Bogen und Segmente wie auch andere Rahmen zu aggregieren. Rahmen können eine Seite überdecken.
  • Fig. 15 stellt ein Seitenelement dar. Ein Seitenelement aggregiert alle Informationsstücke über einer digitalisierten Seite eines Dokuments. Wenn kein Seitenelement in einem DRstrom vorhanden ist, wird angenommen, daß alle DRstrom-Daten zu einer einzigen Seite gehören.
  • Fig. 16 stellt ein Gruppenelement dar. Ein Gruppenelement ermöglicht eine Sammlung der Elemente über die Seitengrenzen hinaus. Es kann durch den Logikstruktur-Aufbauer und den Semantik-Analysator zum Bezeichnen des Textflusses über Seiten hinweg benutzt werden.
  • Fig. 17 stellt ein drStrom-Element dar. An der Oberseite der Dokumententyp-Definition ist das drStrom-Element. Sein Einheits-Attribut ergibt den Namen der in dem ganzen drStrom- Element benutzten Meßeinheit. Das Bruchteil-Attribut bezeichnet, welchen Bruchteil der Meßeinheit die Koordinaten, Abmessungen und ihre Ungenauigkeit tatsächlich darstellen. Wenn z. B. die Maße in um gegeben sind, sind die drStrom-Element-Attribute:
  • < drStrom-Einheit = Meter-Bruchteil = 1 000 000>
  • Fig. 18A-C stellen alte benutzten Elemente in der geoffenbarten Seitenbeschreibungssprache dar.
  • Fig. 19 stellt ein mit der vorliegenden Erfindung benutzbares Dokumenten-Erkennungs system dar. Fig. 20 und 21 sind Flußdiagramme, welche Vorgänge zum Betreiben des Systems der Fig. 19 gemäß der vorliegenden Erfindung darstellen. Um ein Bitmap-Bild einzugeben (S100), wird ein Papierdokument mit Benutzen eines Bildabtasters 100 abgetastet, um ein Bitmap-Dokumentenbild 110 zu erzeugen. Es ist zu verstehen, daß der Abtastvorgang im wesentlichen in der gleichen Zeit ausgeführt werden kann, in der die Erkennungsvorgänge ausgeführt werden, oder das Bitmap-Dokumentenbild 110 kann auf einer Art von elektronischem Speichermedium wie Festplatte oder Diskette zugeleitet werden. Das Bitmap-Dokumentenbild 110 wird zu einem herkömmlichen Segmentierer 150 geleitet (S110), der das Bitmap-Bild in kleinere Teilbilder unterteilt, wie z. B. textliche Teilbilder, die nur Text, und grafische Teilbilder, die nur Grafiken enthalten. Der Segmentierer 150 kann iterativ das Bitmap-Bifd in kleinere Teilbilder unterteilen, bis jedes Teilbild erkanntermaßen nur Text oder nur Grafik enthält. Die Grafik-Teilbilder werden dann einem Strukturbilderkenner (oder Grafikerkenner) 200 zugeleitet, während die textlichen Teilbilder einem Zeichenerkenner 300 zugeleitet werden. Wenn es im voraus bekannt ist, daß das Bitmap-Dokumentenbild nur Text oder nur Grafik enthält, kann es selbstverständlich direkt dem Strukturbilderkenner 200 bzw. dem Zeichenerkenner 300 zugeleitet werden.
  • Der Strukturbilderkenner 200 wandelt das Bitmap-Grafikbild (oder die -Teilbilder) in kodierte Grafikdaten (S160), die mit Benutzung einer Dokumentenbeschreibungssprache in Grafikelementen wie den vorstehend beschriebenen Grafikelementen aufgezeichnet werden können. Das bedeutet, unerkannte Bitmap-Bilder werden in nicht aufgelöste grafikbildartige Elemente eingesetzt (S170): Bildelemente, wenn sie groß sind, oder Fleckelemente und als Hexadezimalwerte dargestellt, falls sie klein sind. Wenn das Grafikbild oder die -Teilbilder erkannt und in kodierte Grafikdaten umgeformt werden, werden sie in eines oder in mehrere Segmentelement(e) und/oder Bogenelement(e) eingesetzt (S180). Zusätzliche Information, welche Unsicherheiten betrifft (z. B. mögliche Versätze der Parameter (kodierte Daten), welche die Grafikstruktur beschreiben, können wahlweise in diesen Elementen aufgezeichnet werden (S185)).
  • Wenn so Grafik-Bitmap-Bilder mit Benutzung der vorliegenden Erfindung in ausgebbare kodierte Daten umgeformt werden, wirkt der Grafikstruktur-Bilderkenner 200 als ein erstes Umwandlungsmittel zum Ausführen eines ersten Umwandlungsvorgangs an dem Bitmap- Grafikbild zum Umwandeln des Grafik-Bitmap-Bildes in ein oder mehrere Grafikelement(e), die kodierte Daten enthalten, welche Grafikstrukturen bestimmen; und als ein erstes Identifizierungsmittel mit Benutzung der Dokumentenbeschreibungssprache zum Identifizieren des einen Grafikelements oder der mehreren Grafikelemente, das/die durch das erste Umwand lungsmittel umgewandelt is/sind, wobei jedes Grafikelement einen Elementart-Identifizierer enthält, der eine Art von kodierten Daten bezeichnet, welche das in dem Element enthaltene erkannte Bitmap-Bild betreffen. Wenn das erste Umwandlungsmittel bestimmt, daß die in dem Grafikelement enthaltenen kodierten Daten nicht mit einem vorgegebenen Vertrauensniveau umgewandelt wurden, enthält das Identifizierungsmittel auch Unsicherheitsinformation (Versätze) in dem Grafikelement, die durch das erste Umwandlungsmittel mit Bezug auf die in jedem Grafikelement enthaltenen kodierten Daten bestimmt wunden.
  • Der Zeichenerkenner 300 wandelt das Bitmap-Textbild (oder die -Teilbilder) in kodierte Zeichendaten (S120), welche dann in dem entsprechenden Element im Schritt S140 oder S150 (Zeichenketten oder Fraglichzeichen), wie vorher beschrieben, gespeichert werden. Um zu bestimmen, ob kodierte Zeichendaten in ein Zeichenketten-Ellement oder ein Fraglichzeichen-Element einzusetzen sind, wird im Schritt S130 eine Bestimmung hergestellt, ob ein erkanntes Zeichen mit mindestens einem vorgegebenen Vertrauensniveau hergestellt wurde. Obwohl das Einsetzen eines Zeichens in ein Fraglichzeichen-Element dazu dient, Unsicherheitsinformation über dieses Zeichen zu befördern, können auch zusätzliche Informationen wie alternativ mögliche unsichere Zeichen oder Unsicherheitsgrade für unsichere Zeichen in ein Fraglichzeichen-Element eingeschlossen werden (S155). So erzeugt der Zeichenerkenner 300 einen Strom von Zeichenketten-Elementen und Fraglichzeichen-Elementen, der dann einem Worterkenner 400 zugeführt werden kann.
  • Der Worterkenner 400 enthält in sich ein Wörterbuch oder Lexikon für Wörter. Der gemäß der vorliegenden Erfindung arbeitende Worterkenner 400 führt dann den in Fig. 21 dargestellten Vorgang für jedes Fraglichzeichen-Element aus. Zuerst wird im Schritt S200 eine Vielzahl von Zeichen der Reihe nach statt dem Fraglichzeichen-Element in das Wort eingesetzt, welches das Fraglichzeichen-Element enthält. Im Schritt 3210 wird eine Bestimmung hergestellt, ob eines der durch den Ersetzungsschritt (S200) gebildeten Worte in dem Lexikon des Worterkenners 400 gefunden wurden. Solche Wörter werden als "verifizierte Wörter" bezeichnet. Wenn keine verifizierten Wörter gefunden werden, wird das Fraglichzeichen- Element in S240 zurückgegeben, und wahlweise wird im Schritt S245 die in dem Fraglichzeichen-Element enthaltene Unsicherheitsinformation aufgrund aller durch den Worterkenner 400 hergestellten Bestimmungen aktualisiert. Falls die Bestimmung im Schritt S210 positiv ist, wird jedes verifizierte Wort in ein Verifiziertwort-Element eingesetzt (S220). Danach werden, wenn mehr als ein Verifiziertwort-Element aus einem einzelnen Fraglichzeichen-Element erzeugt wurde, im Schritt S230 die mehreren Verifiziertwort-Elemente in ein Alternativwort-Element gesetzt.
  • Jedes Alternativwort-Element kann durch einen Semantik-Analysator 500, der aufgrund umgebender Wörter zu bestimmen versucht, welches der verifizierten Wörter in einem Alternativwort-Element korrekt ist, in ein Zeichenketten-Element umgeformt werden. Wenn der Semantik-Analysator nicht bestimmen kann, welches der verifizierten Wörter in einem Alternativwort-Element korrekt ist, gibt er das Alternativwort-Element zurück und sorgt wahlweise für Unsicherheitsinformation für jedes der verifizierten Wörter in jedem Verifiziertwort-Element.
  • So wirkt beim Umwandeln textlicher Bitmap-Bilder in ausgebbare kodierte Daten mit Benutzung der vorliegenden Erfindung der Zeichenerkenner 300 als ein erstes Umformungsmittel zum Ausführen eines ersten Umformungsvorgangs an dem textlichen Bitmap-Bild, um das textliche Bitmap-Bild in eines oder in mehrere Elemente umzuformen, welche kodierte Zeichendaten enthalten; und als ein erstes Identifizierungsmittel mit Benutzen der Dokumentenbeschreibungssprache zum Identifizieren des einen oder der mehreren Elemente, die durch das erste Umformungsmittel umgeformt wurden, wobei jedes Element einen Elementart- Identifizierer enthält, der für eine Art kodierter Charakterdaten bezeichnend ist, welche die in dem Element enthaltenen erkannten textlichen Bitmap-Bilder betreffen. Elemente, welche Zeichen enthalten, die nicht mit einem vorgegebenen Vertrauensniveau erkannt wurden, werden in Elementen aufgezeichnet, die durch das erste Identifizierungsmittel als Fraglichzeichen- Elemente identifiziert sind, während sichere Zeichen in einem als Zeichenketten-Elemente identifizierten Element aufgezeichnet werden.
  • Der Worterkenner 400 wirkt als ein zweites Umformungsmittel zum Umformen jedes Fraglichzeichen-Elementes und benachbarter vertrauensvoll erkannter Zeichen in ein gleiches Wort wie das Fraglichzeichen-Element in ein oder mehrere verifizierte Wörter durch Übersetzen alternativer Zeichen für das Fraglichzeichen-Element und durch Verifizieren, daß ein sich aus der Ersetzung ergebendes Wort in einem Lexikon vorhanden ist; und als ein zweites Identifizierungsmittel mit Benutzen der Dokumentenbeschreibungssprache zum Einsetzen jedes verifizierten Worts in ein Verifiziertwort-Element. Wenn mehr als ein Verifiziertwort- Element für ein Fraglichzeichen-Element geschaffen wird, setzt das zweite Identifizierungsmittel auch das mehr als eine Verifiziertwort-Element in ein Alternativwort-Element ein. Das zweite Identifizierungsmittel hält das Fraglichzeichen-Element aufrecht, wenn kein verifiziertes Wort als vorhanden bestimmt wurde.
  • Das Alternativwort-Element kann dann im Semantik-Analysator 500 zugeführt werden, der als ein Mittel zum Bestimmen wirkt, welches verifizierte Wort innerhalb eines Alternativwort- Elements ein korrektes verifiziertes Wort ist, aufgrund von Wörtern, welche das Alternativwort- Element umgeben; und als ein drittes Identifizierungsmittel zum Identifizieren des korrekten verifizierten Wortes und zum Ersetzen des Alternativwort-Elements durch ein Zeichenketten- Element, welches das korrekte verifizierte Wort enthält.

Claims (14)

1. Verfahren zum Umformen eines als ein Bitmap-Bild dargestellten Dokumentes in einen editierbaren kodierten Datenstrom mit Benutzung einer Standard-Notation in einer Dokument- Beschreibungssprache zum Aufzeichnen von Unsicherheiten in dem Dokument-Umformungsverfahren betreffender Information, wobei der kodierte Datenstrom eine Reihe von Elementen enthält, und das Verfahren umfaßt:
Schaffen einer Syntaxliste (Fig. 18A-18C), welche die zum Aufzeichnen kodierter Abschnitte des Bitmap-Bildes verwendeten Elemente definiert, wobei die Syntaxliste Elemente zum Aufzeichnen von Grafik-Bitmap-Daten (Fig. 8-11) und Text-Bitmap-Daten (Fig. 2-7) wie auch Attributen dieser Daten enthält und die Syntaxliste es daraufhin ablaufenden Vorgängen ermöglicht, den kodierten Datenstrom zu analysieren;
Ausführen eines ersten Umformungsvorgangs an mindestens einem Anteil des Bitmap- Bildes mit Benutzen einer ersten Erkennungsvorrichtung (200, 300, 400, 500) zum Umformen mindestens des Anteils des Bitmap-Bildes in ein Element oder in mehrere Elemente, welche mit Benutzung der Dokumentenbeschreibungssprache selektiv identifiziert sind, wobei jedes Element einen Elementart-Identifizierer enthält, der eine Art von kodierter Information mit Bezug auf das in dem Element enthaltene erkannte Bitmap-Bild enthält, und, wenn die erste Erkennungsvorrichtung bestimmt, daß das erkannte in einem Element enthaltene Bitmap-Bild nicht mit mindestens einem vorgegebenen Vertrauensniveau erkannt wurde, das Element auch durch die erste Erkennungsvorrichtung bestimmte Unsicherheitsinformation enthält, die sich auf das in dem Element enthaltene erkannte Bitmap-Bild bezieht.
2. Verfahren nach Anspruch 1, bei dem die Unsicherheitsinformation einen Unsicherheitsgrad enthält, mit dem die erste Erkennungsvorrichtung das Bitmap-Bild umgeformt hat.
3. Verfahren nach Anspruch 2, bei dem der Anteil des Bitmap-Bildes ein Grafik-Bitmap-Bild enthält, und die erste Erkennungsvorrichtung ein Grafikerkenner (200) ist, wobei der Elementart-Identifizierer Anteile des durch den Grafikerkenner umgeformten Grafik-Bitmap-Bildes als Grafikelemente identifiziert und die Unsicherheitsinformation mögliche Versätze für zur Beschreibung der Anteile des Grafik-Bitmap-Bildes verwendete Parameter enthält.
4. Verfahren nach Anspruch 2, bei dem die Unsicherheitsinformation alternative Umformungen des in jedem Element enthaltenen erkannten Bitmap-Bildes und einen Sicherheitsgrad für jede alternative Umformung enthält, wobei die alternativen Umformungen und Sicherheitsgrade durch die erste Erkennungsvorrichtung bestimmt worden sind.
5. Verfahren nach Anspruch 1, bei dem die Unsicherheitsinformation alternative Umformungen des in jedem Element enthaltenen erkannten Bitmap-Bildes enthält, welche alternativen Umformungen durch die erste Erkennungsvorrichtung bestimmt worden sind.
6. Verfahren nach Anspruch 1 oder 3, bei dem der Anteil des Bitmap-Bildes ein Text-Bitmap- Bild enthält, die erste Erkennungsvorrichtung ein Zeichenerkenner (300) ist und der Art- Identifizierer Anteile des durch den Zeichenerkenner umgeformten Text-Bitmap-Bildes als Zeichenketten-Elemente oder Fraglichzeichen-Elemente identifiziert, von denen jedes Zeichenketten-Element eine Kette aufeinanderfolgender durch den Zeichenerkenner mit mindestens dem vorgegebenen Vertrauensniveau erkannten Zeichen enthält, und jedes Fraglichzeichen-Element die durch den Zeichenerkenner für ein Zeichen, das nicht mit mindestens dem vorgegebenen Vertrauensniveau erkannt wurde, bestimmte Unsicherheitsinformation enthält.
7. Verfahren nach Anspruch 6, das weiter umfaßt:
für jedes Fraglichzeichen-Element das Benutzen eines Worterkenners (400) zum Umformen des Fraglichzeichen-Elements und benachbarter mit Vertrauenssicherheit erkannter Zeichen in dem gleichen Wort wie das Fraglichzeichen-Element in eines oder mehrere Verifiziertwort-Elemente durch Ersetzen des Fraglichzeichen-Elements durch alternative Zeichen, wenn eines oder mehrere durch dieses Ersetzen geschaffene Wort(e) durch den Worterkenner anerkannt werden; wenn mehr als ein Verifiziertwort-Element für jedes Fraglichzeichen- Element umgeformt wurde, dieses mehr als eine Verifiziertwort-Element in ein Alternativwort- Element eingesetzt worden ist; wobei das Fraglichzeichen-Element weiter bleibt, wenn keine verifizierten Worte durch den Worterkenner erkannt worden sind.
8. Verfahren nach Anspruch 7, das weiter umfaßt:
für jedes Alternativwort-Element das Benutzen eines Semantik-Analysators (500) zum Umformen verifizierter Worte der in jedem Alternativwort-Element enthaltenen Verifiziertwort- Elemente in ein Zeichenketten-Element entsprechend einem der verifizierten in dem Alternativwort-Element enthaltenen Worte, wenn der Semantik-Analysator bestimmt, daß das eine der verifizierten Worte ein korrektes Wort ist, wobei das Alternativwort-Element weiter bleibt, wenn keines der verifizierten Worte durch den Semantik-Analysator als ein korrektes Wort bestimmt worden ist.
9. Verfahren nach Anspruch 6, bei dem für jedes Fraglichzeichen-Element die für ein nicht mit mindestens dem vorgegebenen Vertrauensniveau erkanntes Zeichen gültige Unsicherheitsinformation ein höchstwahrscheinlich unsicheres Zeichen enthält, und/oder alternative mögliche unsichere Zeichen, die durch den Zeichenerkenner identifiziert sind.
10. Verfahren nach Anspruch 9, bei dem für jedes Fraglichzeichen-Element die sich auf ein nicht mit mindestens dem vorgegebenen Vertrauensniveau erkanntes Zeichen bezügliche Unsicherheitsinformation auch einen durch den Zeichenerkenner für das wahrscheinlichste und/oder alternative mögliche unsichere Zeichen bestimmten Vertrauensgrad enthält.
11. Verfahren nach Anspruch 1, das enthält:
Segmentieren des Bitmap-Bildes in ein oder mehrere Grafik-Bitmap-Teilbild(er) und ein oder mehrere Text-Bitmap-Teilbild(er), von denen das eine oder die mehreren Text-Bitmap- Teilbild(er); und jedes von den einen oder mehreren Grafik-Bitmap-Teilbild(ern) mit Benutzung eines Grafikstrukturanalysators (200) analysiert worden sind, um das eine oder die mehreren Grafik-Teilbild(er) in ein oder mehrere Grafikelement(e) zu wandeln.
12. Automatische Dokumenten-Erkennungsvorrichtung zum Umformen von als Bitmap-Bilddaten dargestellten Dokumenten zu einem editierbaren kodierten Datenstrom mit Benutzung einer Standard-Notation in einer Dokumenten-Beschreibungssprache zum Aufzeichnen von Information betreffend Unsicherheiten in dem Dokumenten-Umformungsvorgang, wobei der kodierte Datenstrom eine Reihe von Elementen enthält und die Vorrichtung umfaßt:
einen Speicher, der eine Syntaxliste (Fig. 18A-18C) speichert, welche die zum Aufzeichnen kodierter Abschnitte des Bitmap-Bildes benutzten Elemente definiert, wobei die Syntaxliste Elemente zum Aufzeichnen von Grafik-Bitmap-Daten (Fig. 8-11) und Text-Bitmap-Daten (Fig. 2-7) enthält, wie auch Attribute dieser Daten, und die Syntaxliste nachher ablaufenden Vorgängen das Analysieren des kodierten Datenstroms ermöglicht; und
einen ersten Erkenner (200, 300, 400, 500) mit:
a) erstem Umformungsmittel zum Ausführen eines ersten Umformungsablaufes an der Bitmap-Bilddarstellung des Dokumentes zum Umformen des Dokumentes in ein Element oder mehrere Elemente, welches/welche kodierte Daten enthält/enthalten; und
b) erstem Identifizierungsmittel mit Benutzung der Dokumentenbeschreibungssprache zum Identifizieren des einen Elements oder der mehreren Elemente, die durch das Umformungsmittel umgeformt wurden, wobei jedes Element einen Elementart-Identifizierer enthält, der eine Art von kodierten Daten mit Bezug auf das in dem Element enthaltene erkannte Bitmap-Bild bezeichnet, und, wenn das erste Umformungsmittel bestimmt, daß die kodierten in dem Element enthaltenen Daten nicht mit einem vorbestimmten Vertrauensniveau umgeformt wurden, das Identifizierungsmittel ebenfalls in dem Element durch das erste Umformungsmittel bestimmte Unsicherheitsinformation betreffend der in dem Element enthaltenen kodierten Daten enthält.
13. Vorrichtung nach Anspruch 12, bei der die Unsicherheitsinformation ein Vertrauensniveau einschließt, mit dem das erste Umformungsmittel die kodierten Daten bestimmt hat.
14. Vorrichtung nach Anspruch 12 oder 13, bei der die Unsicherheitsinformation kodierte Daten-Alternativen einschließt, die durch das erste Umformungsmittel für einen Anteil des Bitmap-Bildes bestimmt wurden.
DE69230784T 1991-12-27 1992-12-22 Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung Expired - Fee Related DE69230784T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/814,347 US5359673A (en) 1991-12-27 1991-12-27 Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities

Publications (2)

Publication Number Publication Date
DE69230784D1 DE69230784D1 (de) 2000-04-20
DE69230784T2 true DE69230784T2 (de) 2000-07-27

Family

ID=25214790

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69230784T Expired - Fee Related DE69230784T2 (de) 1991-12-27 1992-12-22 Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung

Country Status (5)

Country Link
US (1) US5359673A (de)
EP (1) EP0549329B1 (de)
JP (1) JP3640972B2 (de)
CA (1) CA2080966C (de)
DE (1) DE69230784T2 (de)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5499329A (en) * 1992-04-30 1996-03-12 Ricoh Company, Ltd. Method and system to handle context of interpretation in a document processing language
JPH06236367A (ja) * 1992-11-12 1994-08-23 Ricoh Co Ltd 文書作成装置の制御方法
US6002798A (en) * 1993-01-19 1999-12-14 Canon Kabushiki Kaisha Method and apparatus for creating, indexing and viewing abstracted documents
NL9300310A (nl) * 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
US6501853B1 (en) * 1994-06-27 2002-12-31 International Business Machines Corporation Apparatus and method for processing video data
US5535313A (en) * 1994-07-18 1996-07-09 Motorola, Inc. Automated quality control in a document conversion system
US5802205A (en) * 1994-09-09 1998-09-01 Motorola, Inc. Method and system for lexical processing
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems, Inc. Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
US5752057A (en) * 1994-10-27 1998-05-12 Shira Computers Ltd. Method for conversion of a color electronic pre-press system data file to a page description language data file
US6055064A (en) * 1994-10-27 2000-04-25 Shira Computers Ltd. Method for conversion of a color electronic pre-press system data file to a page description language data file
US5649024A (en) * 1994-11-17 1997-07-15 Xerox Corporation Method for color highlighting of black and white fonts
US5668891A (en) * 1995-01-06 1997-09-16 Xerox Corporation Methods for determining font attributes of characters
JPH08212293A (ja) * 1995-01-31 1996-08-20 Toshiba Corp Sgmlタグ付与処理システム
DE69524381T2 (de) * 1995-03-23 2002-08-14 Agfa-Gevaert N.V., Mortsel Parallele Verarbeitung des Datenstroms der Seitenbeschreibungssprache
US6115723A (en) * 1995-04-27 2000-09-05 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
US6003048A (en) * 1995-04-27 1999-12-14 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
US6230173B1 (en) * 1995-07-17 2001-05-08 Microsoft Corporation Method for creating structured documents in a publishing system
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US5850474A (en) * 1996-07-26 1998-12-15 Xerox Corporation Apparatus and method for segmenting and classifying image data
US6870633B1 (en) * 1996-09-30 2005-03-22 Brother Kogyo Kabushiki Kaisha Printing device
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
US5970483A (en) 1997-07-25 1999-10-19 Claritech Corporation Apparatus and methodology for submitting search queries
US5987448A (en) 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
JPH11102414A (ja) 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
JPH11110480A (ja) * 1997-07-25 1999-04-23 Kuraritec Corp テキストの表示方法およびその装置
US7046857B2 (en) * 1997-07-31 2006-05-16 The Regents Of The University Of California Apparatus and methods for image and signal processing
US6154208A (en) * 1997-10-06 2000-11-28 Canon Kabushiki Kaisha Proxy mechanism for non-native GDI formats
JP3997026B2 (ja) * 1999-01-29 2007-10-24 キヤノン株式会社 フォーム編集方法及び装置及びコンピュータ読取り可能なプログラムが格納された記憶媒体
US6850908B1 (en) * 1999-09-08 2005-02-01 Ge Capital Commercial Finance, Inc. Methods and apparatus for monitoring collateral for lending
US6850643B1 (en) * 1999-09-08 2005-02-01 Ge Capital Commercial Finance, Inc. Methods and apparatus for collateral risk monitoring
US6546133B1 (en) * 1999-09-08 2003-04-08 Ge Capital Commercial Finance, Inc. Methods and apparatus for print scraping
US7139004B2 (en) * 2002-01-25 2006-11-21 Xerox Corporation Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
US7136082B2 (en) * 2002-01-25 2006-11-14 Xerox Corporation Method and apparatus to convert digital ink images for use in a structured text/graphics editor
US8693043B2 (en) 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation
US20060002614A1 (en) * 2004-06-30 2006-01-05 Alliances Artquest International Inc. Raster-to-vector conversion process and apparatus
ITTO20040467A1 (it) * 2004-07-08 2004-10-08 Bankersoft S R L Procedimento e sistema di introduzione di dati
US7289123B2 (en) * 2004-09-30 2007-10-30 Microsoft Corporation Simplifying complex characters to maintain legibility
US8677274B2 (en) * 2004-11-10 2014-03-18 Apple Inc. Highlighting items for search results
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム
EP3515063A1 (de) * 2007-04-02 2019-07-24 Esight Corp. Verfahren zur sehverstärkung
US7480411B1 (en) * 2008-03-03 2009-01-20 International Business Machines Corporation Adaptive OCR for books
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US11610653B2 (en) * 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9514357B2 (en) 2012-01-12 2016-12-06 Kofax, Inc. Systems and methods for mobile image capture and processing
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
EP2973226A4 (de) 2013-03-13 2016-06-29 Kofax Inc Klassifizierung von objekten auf mit mobilvorrichtungen aufgenommenen digitalbildern
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
EP2992481A4 (de) 2013-05-03 2017-02-22 Kofax, Inc. Systeme und verfahren zur detektion und klassifizierung von objekten in mithilfe von mobilen vorrichtungen aufgenommenen videos
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
RU2571396C2 (ru) * 2014-03-26 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система для верификации в процессе чтения
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US9928410B2 (en) * 2014-11-24 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognizer
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
JP6769045B2 (ja) * 2016-02-29 2020-10-14 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
JP7226136B2 (ja) * 2019-06-25 2023-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058795A (en) * 1972-10-03 1977-11-15 International Business Machines Corporation Method and apparatus for context-aided recognition
US4136395A (en) * 1976-12-28 1979-01-23 International Business Machines Corporation System for automatically proofreading a document
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4654875A (en) * 1983-05-23 1987-03-31 The Research Foundation Of State University Of New York System to achieve automatic recognition of linguistic strings
US4907285A (en) * 1984-08-24 1990-03-06 Hitachi, Ltd. Image understanding system
US4760604A (en) * 1985-02-15 1988-07-26 Nestor, Inc. Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
JP2614252B2 (ja) * 1988-01-19 1997-05-28 キヤノン株式会社 画像合成装置
US4914709A (en) * 1989-06-02 1990-04-03 Eastman Kodak Company Method for identifying unrecognizable characters in optical character recognition machines
US4974260A (en) * 1989-06-02 1990-11-27 Eastman Kodak Company Apparatus for identifying and correcting unrecognizable characters in optical character recognition machines
US5257323A (en) * 1991-05-29 1993-10-26 Canon Kabushiki Kaisha Selection agent for a symbol determination system with multiple character recognition processors
US5251273A (en) * 1992-04-15 1993-10-05 International Business Machines Corporation Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms

Also Published As

Publication number Publication date
DE69230784D1 (de) 2000-04-20
EP0549329B1 (de) 2000-03-15
CA2080966C (en) 1996-08-13
CA2080966A1 (en) 1993-06-28
JP3640972B2 (ja) 2005-04-20
JPH05307638A (ja) 1993-11-19
EP0549329A2 (de) 1993-06-30
US5359673A (en) 1994-10-25
EP0549329A3 (de) 1994-04-20

Similar Documents

Publication Publication Date Title
DE69230784T2 (de) Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung
DE69229468T2 (de) Verfahren und Gerät zur Bestimmung der Wortfrequenz in einem Dokument ohne Dokumentbilddekodierung
DE69519323T2 (de) System zur Seitensegmentierung und Zeichenerkennung
DE69229536T2 (de) Verfahren und Gerät zum Auswahl linguistisch bezeichnender Bilder in einem Dokumentbild ohne Dekodierung des Bildinhalts
DE69722971T2 (de) Automatisches sprachenerkennungssystem für die mehrsprachige optische zeichenerkennung
DE69523970T2 (de) Dokumentspeicher- und Wiederauffindungssystem
DE69226609T2 (de) Verfahren und Gerät zur Dokumentbildverarbeitung
DE69516751T2 (de) Bildvorverarbeitung für Zeichenerkennungsanlage
DE69225678T2 (de) Verfahren und Gerät zur Dokumentbildverarbeitung
DE69226611T2 (de) Verfahren und Gerät zur Verarbeitung eines Dokumentbildes
DE69332459T2 (de) Verfahren und Vorrichtung zur Zeichenerkennung
DE4311172C2 (de) Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes
DE69230632T2 (de) Optische Worterkennung durch Wortgestaltuntersuchung
DE69229537T2 (de) Verfahren und Gerät zur Dokumentverarbeitung
DE69610478T2 (de) Zeichenerkennungssystembestimmung von abgetasteten und &#34;echtzeit&#34;-handgeschriebenen zeichen
DE69610243T2 (de) Verfahren zum Trainieren einer Erkennungsanlage mit Zeichenmustern
DE69230635T2 (de) Verfahren und Gerät zur Bild-/Handmarkierungsbestimmung
Wong et al. Document analysis system
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE69525401T2 (de) Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
DE10162156B4 (de) Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren
DE69230633T2 (de) Verfahren zur Ermittlung von Wortformen zum folgenden Vergleich
DE69724755T2 (de) Auffinden von Titeln und Photos in abgetasteten Dokumentbildern
DE69423254T2 (de) Verfahren und Gerät zur automatischen Spracherkennung von Dokumenten
US5737442A (en) Processor based method for extracting tables from printed documents

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee