DE69230784T2 - Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung - Google Patents
Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für MehrdeutigkeitenspeicherungInfo
- Publication number
- DE69230784T2 DE69230784T2 DE69230784T DE69230784T DE69230784T2 DE 69230784 T2 DE69230784 T2 DE 69230784T2 DE 69230784 T DE69230784 T DE 69230784T DE 69230784 T DE69230784 T DE 69230784T DE 69230784 T2 DE69230784 T2 DE 69230784T2
- Authority
- DE
- Germany
- Prior art keywords
- character
- word
- elements
- bitmap image
- recognizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 62
- 230000008569 process Effects 0.000 claims description 38
- 230000009466 transformation Effects 0.000 claims description 16
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims 4
- 238000006243 chemical reaction Methods 0.000 description 7
- 241000590419 Polygonia interrogationis Species 0.000 description 6
- 238000005259 measurement Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 229920003987 resole Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Image Processing (AREA)
Description
- Die vorliegende Erfindung betrifft Dokumenten-Erkennung und besonders Verfahren und Vorrichtungen zum Erkennen textlicher und grafischer Strukturen in Dokumenten, die ursprünglich als Bitmap-Bilder, d. h. in einem digitalen Rastermuster aufgezeichnete Bilder, dargestellt sind, und zum Aufzeichnen der Ergebnisse des Erkennungsvorgangs.
- Dokumentenerkennung ist die automatische Umformung von Papierdokumenten in ausgebbare Elektronikdokumente. Das bringt die graduelle Umformung von Bitmaps in strukturierte Komponenten durch aufeinanderfolgende und rekursive Eingriffe verschiedener Vorgänge mit sich. Diese Vorgänge enthalten: Seitensegmentierung, Zeichenerkennung, Graphikerkennung, Logikstruktur-Rekonstruktion, Orthographische Korrektur, semantische Analyse usw. Alle diese Vorgänge sind für Fehldeutung anfällig. Nicht alle Vorgänge halten eine Aufzeichnung der Fehldeutungen, deren sie gewahr sind, und diejenige, die eine Aufzeichnung aufrecht erhalten, haben keine allgemein festgelegte Ablaufvorschrift dafür. Als Folge sind nachfolgende Vorgänge im allgemeinen nicht darauf vorbereitet, mit der Aufzeichnung von Mehrdeutigkeiten umzugehen, die sie bei vorhergehenden Vorgängen angetroffen haben, und mißachten sie einfach. Wertvolle Information wird verloren, statt daß sie für automatische Verbesserung der Dokumentenerkennungsfunktion ausgenützt wird. Wenn andererseits die Mehrdeutigkeiten-Aufzeichnung in ihrem Rohzustand an den Benutzer weitergeleitet wird, kann die lästige Aufgabe, Handkorrekturen herzustellen, rasch die Vorteile der automatischen Erkennung gegenüber manueller Umstellung des gesamten Dokuments überwiegen.
- US-A-4 914 709 und 4 974 260 (Rudak) beschreiben eine Vorrichtung und ein Verfahren zum Identifizieren und Korrigieren von Zeichen, die nicht maschinell gelesen werden können. Ein Bitmap-Videobild des oder der nicht erkannten Zeichen wird in eine ASCII-Datenzeile benachbarter Zeichen eingesetzt, wodurch es einer Bedienungsperson ermöglicht wird, das/die fraglichen Zeichen im Kontext anzusehen, um die richtige Identifizierung des/der Zeichen zu unterstützen. Daraufhin gibt die Bedienungsperson mit Hilfe des Videobildes das/die korrekten Zeichen über eine Tastatur oder andere Mittel ein. Diese Vorrichtung und dieses Verfahren erfordern den Eingriff der Bedienungsperson, um Mehrdeutigkeiten zu klären, die sich aus einem automatischen Dokumentenerkennungs-Verfahren ergeben. Die Ergebnisse dieser Mehrdeutigkeiten werden nicht in einer Aufzeichnung niedergelegt, die bei anderen nachfolgend in Aktion tretenden automatischen Geräten benutzt werden können.
- US-A-4 907 285 (Nakano u. a.) beschreibt ein Bilderkennungs-System, das eine Grammatik zum Beschreiben eines Dokumentenbildes benutzt und durch die Grammatik ausgedrückte Feststellungen analysiert, um die Struktur eines unbekannten Eingabebildes zu erken nen. Die Grammatik beschreibt das Bild als Teilstrukturen und die relative Beziehung zwischen diesen. In dem Analysevorgang wird eine Suche angestellt, nachdem die Teilstrukturen und deren Relativbeziehung identifiziert sind, ob die Teilstrukturen und ihre Relativbeziehungen in dem unbekannten Eingabebild vorhanden sind, und falls das zutrifft, werden die Innenseiten der Teilstrukturen weiter gelöst, um die Analyse fortzusetzen. Falls keine Teilstrukturen vorhanden sind, werden andere Möglichkeiten gesucht, und die Struktur des unbekannten Eingabebilds wird so aus dem Suchergebnis dargestellt. Beispielsweise wird der Ort eines rechtwinkligen Bereiches des Dokuments, der eine durch die Dokumenten-Grammatik bestimmte Feststellung enthält (z. B. "TITEL" und "AUTOR") anfangs durch Variable dargestellt. Siehe Fig. 10 der US-A-4 907 285. Nach Festlegen des Bereiches in dem Dokument werden die angemessenen numerischen Werte für die Variablen eingesetzt.
- US-A-4 949 188 (Sato) beschreibt eine Bildverarbeitungs-Vorrichtung zum Synthetisieren eines Zeichens oder eines Graphikmusters, das durch eine Seitenbeschreibungssprache und ein Originalbild dargestellt ist. Die Bildverarbeitungs-Vorrichtung erzeugt eine Seitenbeschreibungssprache mit Kodedaten, welche Zeichen, Graphikmuster und dergleichen darstellen und Befehlsdaten, welche einen Drucker veranlassen, die Originalseite zu drucken. Mehrdeutigkeiten von vorherigen Dokumentenerkennungs-Vorgängen werden in der Seitenbeschreibungssprache nicht aufgezeichnet. Siehe beispielsweise die Tabelle in Spalte 4, Zeilen 5-10. Dementsprechend kann kein nachher damit befaßtes Gerät, das die Seitenbeschreibungssprache empfängt, bestimmen, ob in den vorher ausgeführten Dokumentenerkennungs-Vorgängen Mehrdeutigkeiten aufgetreten sind.
- US-A-4 654 875 (Srihari u. a.) beschreibt ein Verfahren der automatischen Spracherkennung für optische Zeichenleser. Die Sprache in Form von Eingabeketten oder -Strukturen wird aufgrund von folgendem analysiert: Kanalkenngrößen in Form von Wahrscheinlichkeiten, daß ein Buchstabe in der Eingabe eine Verstümmelung eines anderen Buchstabens ist. Die Wahrscheinlichkeit, daß der Buchstabe seriell mit anderen erkannten Buchstaben auftritt, welche dem analysierten Buchstaben vorangehen oder Teil-Ketten von Buchstaben, die seriell auftreten, und lexikalische Information in Form von annehmbaren Wörtern, die als eine Grafikstruktur dargestellt sind. Mehrdeutigkeiten von vorher durchlaufenen Erkennungsvorgängen werden nicht aufgezeichnet.
- Der Aufsatz von Kenneth W. Church und Patrick Hanks, in Computational Linguistics, Band 16, Nr. 1 (März 1990) "Word Association Norms, Mutual Information and Lexicography" beschreibt eine Maßnahme, die als ein "Zuordnungsverhältnis" (association ratio) bezeichnet wird, aufgrund von Informationstheoretischer Feststellung von gegenseitiger Information zum Abschätzen von Wortzuordnungsnormen Computerlesbarer Formen. Dieses Zuordnungsverhältnis kann als ein Semantik-Analysator benutzt werden, um das wahrscheinlichste Wort aus einer Zahl von zwei oder mehr Wörtern zu bestimmen, die als mögliche Wörter identifiziert wurden.
- Der Aufsatz von Simon Kahan, Theo Pavlidis und Henry S. Baird, in IEEE Transactions on Pattern Analysis and Machine Intelligence, Band PAM 1-9, Nr. 2 (März 1987) "On the Recognition of Printed Characters of Any Font and Size" beschreibt ein System, das gedruckten Text mit verschiedenen Schriftarten und -Größen des lateinischen Alphabets erkennt. Ausdünnen und Formextrahierung werden direkt an einer Grafik der Lauflängenkodierung des Binärbildes ausgeführt. Die sich ergebenden Striche und andere Formen werden mit Benutzung eines Formhäufungsvorgangs in Binärmerkmalen aufgezeichnet, die dann in einen statistischen Bay'schen Klassifikator eingeleitet werden. Dieses System identifiziert mehrere mögliche Zeichen oder Wörter und bewertet sie. Jedoch wird die Unsicherheit in dem Erkennungsvorgang mit Benutzung der Standardnotierung der vorliegenden Erfindung nicht aufgezeichnet.
- Zusammengefaßt: es gibt eine Anzahl von Systemen, welche Grafikstrukturen, Texte (Zeichen, Wörter, Semantiken, Schriftarten) und Logikstrukturen (Seiten, Absätze, Fußnoten) erkennen und die Unsicherheit bestimmen können, mit der das erkannte Merkmal erkannt wurde. Jedoch zeichnet keines dieser Systeme die Ergebnisse des Erkennungsvorgangs (einschließlich der Unsicherheiten) in einer Weise auf, die durch andere Geräte benutzt werden kann. Das ergibt den Verlust einer großen Informationsmenge (insbesondere, was Unsicherheiten betrifft), besonders dann, wenn zu verschiedenen Zeiten unterschiedliche Erkennungssysteme (z. B. Zeichenerkenner, Worterkenner, Semantik-Analysatoren) benutzt werden (Im Gegensatz zur Integrierung in ein System).
- Es ist ein Ziel der vorliegenden Erfindung, Verfahren und Vorrichtungen zum Aufzeichnen von Mehrdeutigkeiten in Dokumentenerkennungs-Vorgängen in einem Standardformat zu schaffen, die bei einer Vielzahl von Dokumentenerkennern eingesetzt werden können.
- Es ist ein weiteres Ziel der vorliegenden Erfindung, Verfahren und Vorrichtungen zum Wandeln von Bitmap-Bildern in ausgebbare kodierte Daten zu schaffen, bei denen Mehrdeutigkeiten in dem durch vorher tätige Erkennungsgeräte ausgeführten Umwandlungsvorgang betreffende Information aufgezeichnet und so durch nachfolgende Erkenner von höherem Niveau benutzt werden kann, die diese Mehrdeutigkeiten aufzulösen versuchen.
- Um die genannten und andere Ziele zu erreichen und die vorher besprochenen Mängel zu überwinden, werden Verfahren und Vorrichtungen vorgesehen, wie sie in den Ansprüchen 1 bzw. 12 bestimmt sind, um als Bitmap-Bilddaten dargestellte Dokumente in ausgebbare ko dierte Daten zu wandeln, wobei eine Standard-Notation in einer Dokumentenbeschreibungssprache zum Aufzeichnen von Dokumentenerkennungs-Mehrdeutigkeiten durch jeden Dokumentenerkenner benutzt wird. Wenn die Ergebnisse der dokumentierten Erkennungsvorgänge mit Benutzung dieser Standard-Notation aufgezeichnet werden, werden vorhandene Mehrdeutigkeiten in gleichartiger Weise identifiziert, so daß nachfolgend ablaufende Dokumentenerkennungs-Vorgänge höheren Niveaus versuchen können, diese Mehrdeutigkeiten mit Benutzung aller durch die vorher tätigen Dokumentenerkennungs-Vorgänge erhaltenen Information über die Mehrdeutigkeiten zu lösen.
- Eine Syntax-Liste wird geschaffen (z. B. im Speicher oder am Anfang des Datenstroms), welche die zum Aufzeichnen kodierter Abschnitte des Bitmap-Bildes benutzten Elemente definieren. Die Syntax-Liste enthält Elemente zum Aufzeichnen von grafischen Bitmap-Daten und Text-Bitmap-Daten wie auch Attribute (z. B. Schriftart und -größe) dieser Daten. Die Syntax-Liste ermöglicht es nachfolgenden Vorgängen, den kodierten Datenstrom zu analysieren.
- Insbesondere kann bei Benutzung der Standard-Notation der vorliegenden Erfindung jeder Dokumentenerkenner die Ergebnisse seines Erkennungsvorgangs in einem Element oder in mehreren Elementen aufzeichnen, die selektiv mit Benutzung der Dokumentenbeschreibungssprache identifiziert sind. Jedes Element enthält einen Art-Identifizierer, der eine Art von kodierten Daten (Information) mit Bezug auf das darin enthaltene erkannte (umgeformte) Bitmap-Bild bezeichnet. Jedes Element enthält auch ausgebbare kodierte Daten der durch den Art-Identifizierer identifizierten Art in sich, und kann auch Unsicherheitsinformation enthalten, die alle kodierten Daten identifiziert, die nicht mit einem vorgegebenen Vertrauensniveau umgeformt wurden. Diese Unsicherheitsinformation wird durch den Dokumentenerkenner bestimmt und in einem Format aufgezeichnet, das für nachher arbeitende Dokumentenerkenner höheren Niveaus lesbar ist. Diese Unsicherheitsinformation kann das Vertrauensniveau enthalten, welches bei den unsicheren kodierten Daten durch den Dokumentenerkenner erkannt wurde, um weiter die Dokumentenerkenner höheren Niveaus beim Lösen von Mehrdeutigkeiten zu unterstützen. Die Unsicherheitsinformation kann auch alternative kodierte Daten für jede Unsicherheitserkennung enthalten.
- Wenn der Dokumentenerkenner ein Zeichenerkenner ist, werden alle Zeichen, die nicht mit einem vorgegebenen Vertrauensniveau erkannt wurden, identifiziert und durch Einsetzen derselben in Fraglichzeichen-Elemente aufgezeichnet. Der Unsicherheitsgrad, wie auch alternativ mögliche Zeichen und ihr Unsicherheitsgrad, kann ebenfalls für jedes in Frage stehende Zeichen aufgezeichnet werden. Zeichen, die mit mindestens dem vorgegebenen Vertrauensniveau erkannt wurden, werden in die Zeichenreihen-Elemente eingesetzt.
- Wenn der Dokumentenerkenner einen Worterkenner enthält (wie beispielsweise einen Orthographieprüfer), versucht der Worterkenner, irgendwelche vorhandene fragliche Zeichen dadurch zu lösen, daß er aufgrund jedes fraglichen Zeichens und der sicheren Zeichen in dem Wort bestimmt, ob irgendwelche Wörter in einem Lexikon vorhanden sind. Wenn ein Wort in dem Lexikon als das das fragliche Zeichen enthaltende Wort identifiziert wird, wird das Wort als ein verifiziertes Wort identifiziert und in ein Verifiziertwort-Element aufgezeichnet. Wenn mehr als ein verifiziertes Wort gefunden wird, werden diese in einzelne Verifiziertwort-Elemente eingesetzt, die gemeinsam eine Gruppe in einem Alternativwort-Element bilden. Wenn nichtverifizierte Wörter für das ein fragliches Zeichen enthaltende Wort gefunden werden, bleibt das Fraglichzeichen-Element bestehen.
- Wenn der Dokumentenerkenner einen Semantik-Analysator enthält, werden alle identifizierten alternativ bestätigten Wörter durch Analysieren der die alternativ bestätigten Wörter umgebenden Wörter gelöst. Wenn eines der alternativ bestätigten Wörter mit einem vorgegebenen Vertrauensniveau aufgrund der semantischen Analyse bestätigt werden kann, wird es zurückgeführt und mit den umgebenden Zeichenketten-Elementen gemischt. Wenn der Semantik-Analysator nicht bestimmen kann, welches der alternativen bestätigten Wörter korrekt ist, führt er das Alternativwort-Element (und enthaltene bestätigte Wortelemente) als solche zurück und kann Daten einschließen, die für die Wahrscheinlichkeit bezeichnend sind, daß jedes darin enthaltene bestätigte Wort das korrekte Wort ist.
- Wenn der Dokumentenerkenner einen Grafikstruktur-Bilderkenner enthält gibt er Grafikelemente aus, welche kodierte Daten enthalten, die für in dem Grafikbild erkannte Grafikstrukturen repräsentativ sind. Diese Strukturen können enthalten: zwischen Endpunkten bestimmte Linien; Kreise; Bögen usw. Zusätzlich kann auch Liniendickeninformation zurückgeführt und aufgezeichnet werden. Mehrdeutigkeiten in dem Erkennungsvorgang wie Versätze in x- und y-Richtung und Zeilendickenveränderungen können auch aufgezeichnet werden. Diese Daten können durch später erfolgende Grafikerkennungsvorgänge höheren Niveaus zum Lösen aller Mehrdeutigkeiten benutzt werden oder zum Erkennen komplexer Grafikstrukturen. Beispielsweise können durch einen Niedrigniveau-Grafikerkenner erkannte vier Linien durch einen Grafikerkenner höheren Niveaus als ein Kasten bestimmt werden, wenn beispielsweise mit einem hohen Wahrscheinlichkeitsgrad bestimmt werden kann, daß die Endpunkte zusammenfallen.
- Zusätzliche Bilderkennungselemente werden zum Aufzeichnen von Information erzeugt, die sich auf größere Abschnitte (oder Teilbilder) des Dokumentenbildes beziehen. Z. B. können Daten, die sich auf Schriftart-Textblöcke, Rahmen, Seiten, Dokumente und große und kleine Stücke von ungelösten Bitmap-Bildern beziehen, auch aufgezeichnet werden.
- Diese Erfindung wird im einzelnen mit Bezug auf die nachfolgend aufgeführten Zeichnungen beschrieben, in welchen gleiche Bezugszeichen sich auf gleiche Elemente beziehen und in denen:
- Fig. 1 ein Musterseitenbild zur Darstellung der vorliegenden Erfindung zeigt;
- Fig. 2 ein Zeichenkettenelement zum Sammeln von Zeichenströmen darstellt, die mit einem oder mehr als einem vorgegebenen Vertrauensniveau bekannt sind;
- Fig. 3 ein fragliches Zeichenelement darstellt zum Sammeln von mit niedrigem Vertrauensniveau erkannten fraglichen Zeichen;
- Fig. 4 stellt ein Fraglichwort-Element zum Sammeln eines fraglichen Worts dar, welches mit hohem Vertrauen erkannte Zeichen enthält, die jedoch nicht in einem Lexikon aufgefunden wurden;
- Fig. 5 stellt Bestätigtwort-Elemente zum Sammeln bestätigter Wörter dar, die in einem Lexikon gefunden wurden durch Lösen eines ein fragliches Zeichenwort oder mehrere fragliche Zeichen enthaltenden Wortes und ein Alternativwort-Element zum Sammeln von Alternativworten, wenn zwei oder mehr bestätigte Wörter für ein fragliche Zeichen enthaltendes Wort gefunden werden;
- Fig. 6 ein Textelement zum Sammeln von Textelementen mit der gleichen Zeichenart darstellt;
- Fig. 7 ein ZeichenartDef-Element zum Sammeln von sich auf eine Zeichenart beziehenden Daten darstellt;
- Fig. 8 eine Art von Grafikelement darstellt, das ein Segmentelement zum Sammeln von auf ein Liniensegment bezüglichen Daten darstellt;
- Fig. 9 eine andere Art von Grafikelement darstellt, das ein Bogenelement zum Sammeln von auf Bogen bezüglichen Daten ist;
- Fig. 10 eine andere Art von Grafikelement darstellt, das ein Bildelement zum Sammeln von auf ein großes ungelöstes Bitmap-Bild bezüglichen Daten ist;
- Fig. 11 eine andere Art von Grafikelement darstellt, das ein Fleckelement zum Sammeln von Information ist, die sich auf ein kleines ungelöstes Bitmap-Bild, als Fleck bezeichnet, beziehen und zum Speichern dieser Information als einem Hexadezimalwert;
- Fig. 12 Beispiele von Elementen darstellt, die sich auf andere Elemente beziehen;
- Fig. 13 ein tBlock-Element darstellt zum Sammeln von Information, die sich auf Textblöcke bezieht;
- Fig. 14 ein Rahmenelement darstellt zum Sammeln von Information, die sich auf Rahmen bezieht, die Textblöcke, Bilder, Flecken, Bögen und Segmente enthalten können, wie auch auf andere Rahmen;
- Fig. 15 ein Seitenelement darstellt zum Sammeln von auf eine Seite bezogenen Daten;
- Fig. 16 ein Gruppenelement darstellt zum Sammeln von auf eine Gruppe von Elementen bezogenen Daten, die sich über Seitengrenzen hinweg erstreckt;
- Fig. 17 ein drStrom-Element zum Sammeln von Daten darstellt, die sich auf ein gesamtes Dokument beziehen;
- Fig. 18A-C eine Sammlung der gesamten zum Beschreiben eines Dokuments notwendigen Syntax ist;
- Fig. 19 ein Blockschaltbild eines Systems zum Eingeben und Wandeln eines Bitmap-Bilds in kodierte Datenströme mit Benutzung der vorliegenden Erfindung ist;
- Fig. 20 ein Flußdiagramm ist, das einen durch das System der Fig. 19 bei Benutzung der vorliegenden Erfindung ausgeführten Vorgang darstellt; und
- Fig. 21 ein Flußdiagramm ist, das einen durch den Worterkenner der Fig. 19 ausgeführten Vorgang während einer Benutzung der vorliegenden Erfindung darstellt.
- Die vorliegende Erfindung benutzt einen geradlinigen Vorgang zum Aufzeichnen von Mehrdeutigkeiten durch die aufeinanderfolgenden Stufen des Dokumentenerkennungsvorgangs. Diese Mehrdeutigkeiten bestehen in dem Kontext von:
- durch Zeichenerkenner verarbeitete Zeichen;
- durch Zeichenerkenner, Orthographieprüfer und Semantik-Analysatoren verarbeitete Wörter;
- durch Logikstruktur-Wiederaufbauer verarbeiteter Textfluß; und
- durch Grafikerkenner verarbeitete Geometrie von Liniensegmenten und Bögen.
- Jeder dieser Vorgänge erzeugt und/verbraucht einen Byte-orientierten Datenstrom (hiernach als Dokumenten-Erkennungsstrom (document recognition stream) oder DRStrom bezeichnet), und Bitmap-Ströme (hiernach als Bilddateien bezeichnet), auf die sich der DRStrom bezieht. Der DRStrom trägt Information über eine oder mehrere Seiten eines digitalisierten Dokuments. Die Information beschreibt Text mit Schriftarten, gewissen Grafik-Primitiven und Halbtonbildern wie auch ihre Beziehungen und die dabei vorhandenen Mehrdeutigkeiten.
- Die vorliegende Erfindung schafft keine neuen Dokumenten Erkennungsvorgänge (oder Dokumentenerkenner) in dem Sinne, daß sie mit vorhandenen Erkennern eingesetzt werden kann, welche z. B. Zeichen oder Grafikstrukturen erkennen, oder Wörter bestimmen (durch Vergleichen von Zeichenfolgen anhand eines Lexikons bekannter Wörter), oder bestimmen, welches Wort von einer Auswahl von möglichen Wörtern korrekt ist. Die vorliegende Erfindung verbessert jedoch die Wirksamkeit und die Kompatibilität mit welcher diese unterschiedlichen Arten von Erkennern funktionieren durch Schaffen einer Standard Notation zum Aufzeichnen der durch die Erkenner in einer Dokumentenbeschreibungssprache erhaltenen Ergebnisse.
- Fig. 2-18C stellen diese Dokumenten Erkennungsnotation in der Standard Generalized Mark-up Language (SGML) nach ISO 8879 dar, einem Datenformatstandard zum Austausch strukturierter Dokumente zwischen Textsystemen und Dokumenten-Veröffentlichungssystemen, gemäß der nachstehend besprochenen Dokumentenart-Definition. Jeder Erkenner zeichnet kodierte Daten auf entsprechend dem Ergebnis des Erkennungsvorgangs, den er durchführt, und zwar als kodierte Information, die in SGML als Elemente bezeichnet wird. Jedes Element enthält kodierte Daten, die in irgendeiner Weise als gleichartig erkannt wurden (z. B.: Texte, Grafiken, gleiche Seiten, alle bestimmte Zeichen usw.). Jedes Element enthält: a) einen Art-Identifizierer, der die Art der in dem Element enthaltenen kodierten Daten bezeichnet; b) eine wahlweise Identifizierungsnummer, die unter allen gleichartigen Elementen eines Dokuments eindeutig ist, und das Element von anderen gleichartigen Elementen so unterscheidet, daß durch andere Elemente auf ein Element Bezug genommen werden kann (die meisten Elemente besitzen eine Identifizierungsnummer); c) kodierte Daten, die durch den Dokumenten Erkennungsvorgang erhalten wurden (das konnte ein Zeichenreihe oder könnten Parameter sein, welche Grafikstrukturen definieren); und d) optionale Inhalte (die als Attribute bezeichnet werden) zum Schaffen zusätzlicher Information (z. B. Unsicherheitsinformation) über die in dem Element enthaltenen kodierten Daten. Obwohl die Attribute eines Elements zum Aufzeichnen von Unsicherheitsinformation über kodierte Daten in einem Element benutzt werden können (Information wie beispielsweise Vertrauensniveaus, mit welchen die kodierten Daten erkannt wurden, oder mögliche Versätze für Parameter (z. B. Endpunkte, welche einen Linienabschnitt bestimmen) einer Grafikstruktur), wobei die Art Identifizierung in manchen Fällen auch dazu dient, Unsicherheitsinformation zu befördern durch Bezeichnen, daß die Inhalte dieses Elements mit einem Vertrauensniveau bestimmt wurden, das unter einem vorgegebenen Vertrauensniveau liegt. In den dargestellten Beispielen werden die kodierten Daten als vom Menschen lesbare ASCII aufgezeichnet, jedoch können auch andere Kodierungen benutzt werden.
- Jemand, der mit SGML vertraut ist, wird die generischen Inhalte der nachstehend zu beschreibenden Elemente verstehen. So wird nur eine kurze Besprechung eines generischen Elementes mit Bezug auf Fig. 18A-C gegeben. Dann wird jede Elementenart besonders mit Bezug auf Fig. 2-17 beschrieben. Fig. 18A-C stellen eine vollständige Syntax von Elementen dar, die zum Beschreiben eines Dokuments gemäß der vorliegenden Erfindung benutzt werden kann. Die Liste von Elementen sollte dabei an den Beginn jedes DRStroms gesetzt werden, und wird durch herkömmliche Parser benutzt, die zum Analysieren von in SGML geschriebenen Strömen programmiert sind, um den darunter enthaltenen DRStrom zu analysieren (parsen). Das bedeutet, nach der Syntaxliste von Elementen wird ein kontinuierlicher Strom von Elementen geschaffen, die ein bestimmtes Dokument beschreiben. Hier wird der Ausdruck 'kontinuierlicher Strom von Elementen' so benutzt, daß er sich auf eine Gruppe von Elementen bezieht, die als zusammengehörig identifiziert sind. So bilden in einer Markierungssprache wie SGML, in der Leerräume zugelassen (und tatsächlich aus Lesbarkeitsgründen bevorzugt) sind, Tabellierungen, Aufbrechen in verschiedene Zeilen, Weißräume, die der Parser ignoriert. In diesem Sinn ist Leerraum ein Teil des kontinuierlichen Elementenstroms. Andere Systeme können eine Grenze bezüglich der Größe von Zeichenströmen aufweisen. In diesem System würden lange DRStröme über verschiedene Dateien aufgeteilt, die als zusammengehörig identifiziert würden. Ein solcher DRStrom, bei dem verschiedene Dateien als zusammengehörig identifiziert sind, ist auch dazu bestimmt, durch den Ausdruck "kontinuierlicher Strom von Elementen" überdeckt zu werden. (Einige der Elemente in Fig. 18A-C enthalten (näher zu beschreibende) Attribute, die auch am Beginn des DRStroms aufgelistet gehören). Selbstverständlich sind nicht alle in Fig. 18A-C aufgelistete Elemente erforderlich, um die Ergebnisse eines Dokumenten-Erkennungsvorgangs aufzuzeichnen; wenn jedoch mehr Elemente vorgesehen sind, kann mehr Information aufgezeichnet werden. Man betrachte Fig. 2 in Bezug auf SGML: der Ausdruck "!ELEMENT s" bedeutet "definiere ein Element, dessen Art 's' ist"; der Ausdruck "-O" bedeutet "das Element beginnt immer dann, wenn sein Art-Identifizierer in spitzen Klammern < > erscheint, das Element endet mit < /> (Elementenden-Markierer), oder wenn ein anderes Element an dlem gleichen oder höheren Niveau in der Verschachtelungsstruktur beginnt"; und "('PCDATA)" bedeutet "die Inhalte dieses Elements sind eine Zeichenkette". So definiert Fig. 2 ein Element, das eine Zeichenkette (wie "horse") enthält, die auf folgende Weise aufgezeichnet wird:
- < s> horse < /s> ; oder
- < s> horse < /> ; oder
- < s> horse
- Andere mögliche Inhalte eines Elements können andere Elemente sein (siehe z. B. das aw-Element der Fig. 5, das zwei oder mehr vw-Elemente als seine Inhalte enthält), oder nur Attribute (repräsentiert durch LEER und eine Attribute-Liste - siehe Fig. 8). Der Ausdruck "+" bezeichnet, daß der unmittelbar vorhergehende Gegenstand wiederholt werden kann. Diese Definitionen werden klarer, wenn jedes Element mit mehr Einzelheiten nachstehend definiert wird.
- Fig. 1 ist ein Beispiel-Seitenbild, das zum Illustrieren der Arten von Bitmap-Bildern benutzt wird, die gewandelt und aufgezeichnet werden können, und ihre Aufzeichnungsform mit Benutzung der vorliegenden Erfindung. Das Beispiel- oder Probenbild enthält verschiedene interessierende Merkmale, wie: wegen ihrer schlechten Form oder schlechten Qualität schwer zu erkennende Zeichen; strukturierte Grafik in Form von zwei Liniersegmenten; Bitmap-Grafiken in Form von einer undefinierten Zeichnung; Logikstruktur in Form einer Fußnote und ihres Aufrufzeichens.
- Fig. 2 stellt ein Zeichenketten-Element (s) dar, in welchem ein Zeichenerkenner Zeichen sammelt, welche die folgenden Bedingungen erfüllen:
- alle Zeichen sind mit einem hohem Vertrauensniveau erkannt (besitzen mindestens ein vorgegebenes Vertrauensniveau);
- alle Zeichen sind von der gleichen Zeichenart, Grundlinienposition und Unterstreichungszustand; und
- es ist kein bezeichnender Leerraum zwischen den einzelnen Zeichen (z. B. Zeichen, die horizontal ausgerichtet sind, jedoch zu zwei Textspalten gehören, die durch eine gewisse Größe eines Leerraums getrennt sind, sind nicht in das gleiche Element zusammengesetzt). Der dargestellte Art-Identifizierer ist "s". Zeichenketten-Elemente haben keine id-Nummern, können stattdessen jedoch in größere Elemente eingesetzt werden.
- Mit Bezug auf das Bild der Fig. 1 wird ein Abschnitt dieses Bildes mit einer Reihe von Zeichen, die mindestens mit einem vorgegebenen Vertrauensniveau durch einen Zeichenerkenner erkannt wurden, mit Benutzung der vorliegenden, in SGML ausgeführten Erfindung wie folgt aufgezeichnet:
- < s> Etymologies appear in square brackets following< />
- {Etymologien treten in eckigen Klammern auf nach < /> }
- < s> the "definitions". In accordance with the < I>
- {< s> den "Definitionen". Gemäß den< /> }
- Fig. 3 zeigt ein Fraglichzeichen-Element (questionable-character-element qc), wo ein Zeichenerkenner Zeichen einsetzt, die eine niedrige Wahrscheinlichkeit korrekter Erkennung haben. Bestehende Zeichenerkenner bestimmen gegenwärtig ein Vertrauensniveau für jedes Zeichen. Wenn ein Zeichen nicht mit mindestens einem vorgegebenen Vertrauensniveau erkannt wird, markieren diese Zeichenerkenner das Zeichen auf irgendeine Weise. Eine andere Angelegenheit ist jedoch, die Aufmerksamkeit des Benutzers auf ein ungewisses Zeichen zu lenken. Einige Anbieter haben eine interaktive (Dialog-)Packung, bei der das Erkennen und die Rückfrage an einen Benutzer zur Anleitung miteinander verschlungen sind; es ist nicht bekannt, ob diese Systeme unsichere Zeichen als solche markieren, da dies eine interne Angelegenheit ist, und ob die Unsicherheit durch Benutzereingriff aufgehoben wird. Andere Anbieter markieren die unsicheren Zeichen beispielsweise mit zwei Fragezeichen und schaffen das Problem, daß der nächstfolgende Vorgang bei der Bearbeitung diese Fragezeichen nicht von echten Fragezeichen unterscheiden kann. Jedoch werden fragwürdige Zeichen nicht in einer Weise aufgezeichnet, die durch andere Maschinen benutzt werden kann. (Das bedeutet: Fragezeichen und Hervorhebungsbezeichnungen können auch eine andere Bedeutung besitzen.) So wird, wenn diese Daten zu einem Gerät höheren Niveaus weitergeleitet werden, wie einem Orthographieprüfer, der Orthographieprüfer nicht in der Lage sein, die Information zu der Erkennung zu benutzen, daß das Zeichen nicht mit einem hohen Sicherheitsgrad bekannt wurde.
- Bei der vorliegenden Erfindung empfängt ein Gerät höheren Niveaus die Information, daß ein Zeichen nicht mit einem hohen Sicherheitsgrad erkannt wurde, da jedes Zeichen, das in einem Fraglichzeichen-Element gelegen ist, diese Charakteristik hat. So können durch Benutzen einer Notation in einer Dokumentenbeschreibungssprache zum Aufzeichnen von Mehrdeutigkeien andere Erkenner die Unsicherheitsinformation benutzen. Vorzugsweise trägt jedes qc-Element ein Fraglichzeichen (qc-Zeichen). Das qc-Element kann auch eine Liste von alternativen Zeichen enthalten, wenn der Zeichenerkenner mehr als ein mögliches Zeichen unter dem vorgegebenen Vertrauensniveau für einen bestimmten Anteil des Bitmap-Bildes erkennt. Zusätzlich kann auch der Sicherheitsgrad für ein solches Zeichen oder eine Vielzahl solcher fraglicher Zeichen in jedem qc-Element geschaffen werden. Idealerweise werden Fraglichzeichen-Elemente darauffolgend durch einen Orthographieprüfer beseitigt.
- Z. B. kann das in dem vorstehend genannten Aufsatz von Simon Kahan u. a. beschriebene System benutzt werden, um alternative Zeichen (oder Wörter) zu erzeugen, die jeweils eine gewisse Art von Maßnahme aufweisen, die für das mit dem Zeichen (oder Wort) verbundenen Vertrauensniveau bezeichnend ist. Jedoch wird, anders als bei dem durch Kahan u. a. beschriebenen System, diese Information, die sich auf Zeichen und/oder Wörter bezieht, in angemessen unterschiedlichen Elementen aufgezeichnet, mit Benutzung einer Dokumentenbeschreibungssprache gemäß der vorliegenden Erfindung. Das ermöglicht es anderen Dokumenten-Erkennungsvorgängen höheren Niveaus (die getrennt von dem System nach Kahan u. a. bestehen und zeitlich getrennt von diesem benutzt werden können), in gleichförmiger Weise auf diese Information zuzugreifen. Die vorliegende Erfindung erlaubt es vorhan denen Erkennern auch, in wirksamerer Weise zu arbeiten. Z. B. können durch Unterscheidung zwischen sicheren und unsicheren Zeichen (oder Wörtern) kompliziertere und zeitraubende Erkennungsvorgänge auf die unsicheren Zeichen (oder Wörter) beschränkt werden.
- Fig. 4 stellt ein Fraglichwort-Element (questionable-word-element qw) dar, in welches ein Worterkenner (z. B. ein Orthographieprüfer) Wörter einsetzt, welche mit einem hohen Vertrauensniveau erkannte Buchstaben enthalten, die jedoch nicht in dem Lexikon des Worterkenners gefunden werden. Es ist ein fragwürdiges Wort pro qw-Element vorhanden. Diese Fraglichwörter können durch andere Worterkenner gelöst werden, die andere Lexika enthalten, oder durch andere Mittel (wie einen Semantik-Analysator), die später beschrieben werden.
- Mit Bezug auf Fig. 1 sei angenommen, daß alle Zeichen in dem Wort "Jumblatt" zufriedenstellend erkannt wurden, daß jedoch der Orthographieprüfer des Worterkenners das Wort "Jumblatt" nicht in seinem Lexikon findet. Es wird dann wie folgt als qw-Element aufgezeichnet:
- < qw> Jumblatt< /> .
- Fig. 5 stellt ein Verifiziertwort-Element (verified-word-element vw) und ein Alternativwort- Element (aw) dar, in welche Elemente ein Worterkenner Wörter einsetzt, die bei seinem Versuch, Fraglichzeichen-Elemente zu beseitigen, gefunden wurden. Der Worterkenner sucht bei jedem Auftreten eines fraglichen Zeichens in einem Lexikon aufgrund des mit einem Fraglichzeichen-Element verbundenen Wortes nach Wörtern. Falls ein Wort in seinem Lexikon gefunden wird, setzt der Worterkenner das Wort in ein vw-Element. Wenn der Worterkenner fragliche Zeichen zu beseitigen versucht, kann er in seinem Lexikon verschiedene Wörter verifiziert finden. Wenn der Worterkenner nicht zwischen den verifizierten Wörtern entscheiden kann, setzt er jedes von diesen in ein vw-Element und setzt die Reihe von vw-Elementen in ein aw-Element zum Nutzen eines nachfolgenden Verfahrens wie eines Semantik-Analysators.
- Der Semantik-Analysator versucht dann durch Analysieren der jedes Auftreten der Alternativwörter umgebenden Wörter zu bestimmen, welches von den verifizierten Wörtern korrekt ist.
- Der Worterkenner kann verschiedene herkömmliche Verfahrensweisen zum Auswählen von Wörtern benutzen, um sie mit einem Lexikon zu vergleichen. Beispielsweise kann jeder Buchstabe des Alphabets für das Fraglichzeichen-Element in dem Wort eingesetzt werden, welches das fragliche Zeichen-Element enthält, und das Erhaltene kann dann im Lexikon aufgesucht werden. Wenn Alternativ-Fraglichzeichen in einem Fraglichzeichen-Element vorgesehen sind, kann der Ersatz auf nur die alternativen Fraglichzeichen begrenzt werde. Wenn keine verifizierten Wörter gefunden werden, bleibt das Fraglichzeichen-Element übrig, und wahlweise kann die darin enthaltene Unsicherheitsinformation durch den Worterkenner aktualisiert werden.
- Man betrachte beispielsweise die durch einen Zeichenerkenner in Fig. 1 gefundenen beiden Zeilen und fraglichen Zeichen, wie sie nachstehend dargestellt sind:
- < s> the origins of numerous English w < /s>
- < qc> a < /q>
- < s> rds are still obscure< /s>
- Der Worterkenner findet beim Versuch, das fragliche "a" zu reduzieren, "wards" und "words" als Kandidaten und ersetzt die vorstehende Notation durch:
- < s> the origins of numerous English< /s>
- < aw> < vw> wards< /vw> < vw> words< /vw> < /aw>
- < s> are still obscure< /s>
- Der Elementenstrom kann einem Semantik-Analysator zugeführt werden, der dann versucht, zu bestimmen, welches Wort korrekt ist. Falls der Semantik-Analysator bestimmen kann, welches Wort korrekt ist, setzt er dieses Wort in die umgebenden s-Elemente ein. Z. B. werde angenommen, daß die folgenden Daten dem Semantik-Analysator zugeführt werden:
- < s> the origins of numerous English< /s>
- < aw>
- < vw> wards < />
- < vw> words < />
- < s> are still obscure.< />
- und dieser aus dem Kontext entscheidet, daß "words", und nicht "wards" die richtige Wahl ist. Er kann die vorstehende Notation durch irgendeine der anderen nachstehenden Auswahlen ersetzen (es spielt keine wichtige Rolle, was gewählt wird, wobei jedoch die erste Wahl die logischste und die zweite Wahl die bequemste ist):
- < s> ,the origins of numerous English words are still obscure.< />
- < s> ,the origins of numerous English< s> words< s> are still obscure.< />
- < s> ,the origins of numerous English words< s> are still obscure.< />
- < s> ,the origins of numerous English< s> words are still obscure.< />
- Es sollte bemerkt werden, daß die zwischenliegenden < /> s weggelassen wurden, da sie optional sind.
- Fig. 6 stellt ein Textelement dar, das zum Sammeln von Zeichendaten (s-, aw-, qc- und qw-Elemente) der gleichen Schriftart benutzt wird. Ein Textelement hat ein id-Attribut, das es erlaubt, durch höhere Elemente angezogen zu werden und einen wahlweisen Bezug zu einem Schriftart-Identifizierer (wie nachstehend definiert). Wenn die Schriftart-Referenz nicht zugeliefert wird, wird die zuletzt zugelieferte benutzt. Die Textelemente werden durch Zeichenerkenner erzeugt, welche unterschiedliche Schriftarten erkennen können. Ein Beispiel von in einem Textelement aufgezeichneten Daten ist wie folgt:
- < text-id = 123 font = 2> Liste von s-, aw-, qc- und qw-Elementen < />
- Fig. 7 stellt ein fontDef-Element (Schriftartdefinitions-Element) dar. Durch Zeichenerkennungsverfahren analysierte Buchstabenflächen werden in fontDef-Elementen mit möglichst viel Information aufgezeichnet. Die Inhalte eines fontDef-Elements sind der font-Familienname, wenn der Zeichenerkenner fähig ist, ihn mit Bestimmtheit abzuleiten. Ist es wahrscheinlich, daß der Schriftartname nicht abgeleitet werden kann, wird der Inhalt leer gelassen; er kann später gefüllt werden, entweder bei einem nachher ablaufenden Verfahren oder im Dialogverfahren durch einen Benutzer.
- Das id-Attribut ermöglicht es, Textelemente auf Vergleichsschriftart-Beschreibungen zu beziehen. Die Größenattribute werden in Punkten gemessen. Die Grundattribute bezeichnen, ob die Grundlinie durch Hoch- oder Tiefsetzen versetzt ist. Wenn ein Unterstreichen stattgefunden hat, bezeichnet das Unterstreich-Attribut die Position der Unterstreichungslinie unter der Grundlinie der Schriftart. Ein Beispiel von Daten, die in einem fontDef-Element aufgezeichnet sind, bei dem der font-Familienname Frutiger lautet, ist wie folgt:
- < fontDef-id = 2 Größe = 10 unter = 1> Frutiger < />
- Man bemerke, daß die Attribute in dem ersten Klammersatz < > aufgezeichnet sind.
- Fig. 8 stellt ein Segment-Element dar, das eine Art von Grafikelementen bildet. Segment- Elemente werden durch den Grafikerkenner benutzt, um Liniensegmente zu notierenen, die er aus dem Bitmap-Bild erkennt. Das id-Attribut ermöglicht es höheren Elementen, auf das Segment-Element zu verweisen (Bezug zu nehmen). Die Koordinaten des Endpunkts (x1, y1 plus x2, y2) relativ zur oberen linken Ecke der Seite definieren das Segment mathematisch. Die Unsicherheit der exakten Endpunkt-Koordinaten wird in den dx1-, dy1- und dx2-, dy2-Attributen aufgezeichnet. Damit zeichnen dx1, dy1, dx2 und dy2 mögliche Versätze der Parameter (x1, y1, x2, y2) auf, die zum Beschreiben der Grafikstruktur des Liniensegments verwendet sind. Die Segmentdicke und ihre Unsicherheit werden durch die Dicken- und dDicken-Attribute festgestellt. Ein Beispiel von Daten, die bei einem Segmentelement aufgezeichnet werden, ist nachstehend gegeben:
- < Segment-id = 14x1 = 2100 dx1 = 5y1 = 1440x2 = 2100 dx2 = 5y2 = 2160 dick = 17> < />
- Wie bei dem fontDef-Element sind die Attribute in den ersten Klammersatz eingesetzt. Da das Segmentelement keine Zeichenketten enthält (sein Gehalt ist LEER), folgt dem ersten Satz von Klammern ein Elementenende-Markierer < /> , oder, da Elementenende-Markierer nicht erforderlich sind, ein neues Element.
- Fig. 9 stellt ein Bogenelement dar, das eine andere Art von Grafikelement ist. Bogenelemente werden benutzt, um Kreise, Kreisbogen, Ellipsen und Ellipsenbögen zu notieren, die in dem Bitmap-Bild durch den Grafikerkenner erkannt sind. Die id-Attribute ermöglichen es Elementen höheren Niveaus, auf den Bogen Bezug zu nehmen. Die anderen Attribute sind:
- x, y, dx, dy: Koordinaten und Unsicherheiten der Mitte des Kreis- oder des Ellipsenbogens, gemessen von der oberen linken Ecke der Seite;
- r, dr: Länge und Unsicherheiten des Radius eines Kreisbogens oder der langen Achse eines Elfipsenbogens;
- rKurz, drkurz: Länge und Ungenauigkeit des kurzen Achse eines Ellipsenbogens;
- theta1, dTheta1: Winkel zwischen der vertikalen Achse und der durch das Zentrum und einen der Endpunkte des Bogens gehenden Linie. Dieses Attribut ist nur bei Bögen vorhanden. Der Winkel kann in Milliradianten gemessen werden;
- theta2, dTheta2: das gleiche wie theta1, dTheta1 für den anderen Endpunkt;
- theta0, dTheta0: Winkel zwischen der vertikalen Achse und der langen Achse einer Ellipse. Dieses Attribut ist nur für Ellipsen und Ellipsenbögen vorhanden;
- dick, dDick: Dicke und Unsicherheit des Kreis- oder Ellipsenbogens.
- Ein Beispiel von in einem Bogenelement aufgezeichneten Daten ist wie folgt:
- < arc-id = 5462x = 2300 dx = 8y = 1440 dy = 8r = 2100 dr = 15> < />
- Fig. 10 stellt ein Bildelement dar, das eine dritte Art von Grafikelement bildet. Das Bildelement wird benutzt, um einen rechtwinkligen Bereich der Seite zu bezeichnen, der nicht als Text oder strukturierte Grafik aufgelöst wurde und deswegen in Bitmap-Form in einer separaten Datei belassen wird. Das Bildelement enthält den Namen der Datei.
- Die Bildelement-Attribute kodieren die Position und die Unsicherheit relativ zur oberen linken Ecke der Seite (x, dx, y, dy) und die Abmessungen (w, dw, h, dh) (w = Breite, h = Höhe) des Bildes. Die resol-Attribute (Auflösungs-Attribute) werden in Bit pro Meßeinheit ausgedrückt (die Meßeinheiten werden durch das später definierte dsStrom-Element zugeliefert).
- Beim Beginn des Dokumenten-Erkennungsbetriebs enthält der DRstrom üblicherweise nur Bildelemente, eines pro digitalisierter Seite des Papierdokuments. Wenn Zeichenketten, Liniensegmente und Bögen (mit Benutzung von herkömmlichen Techniken) extrahiert werden, werden die Bitmaps allmählich durch kleinere und wahrscheinlich zahlreichere ersetzt. Beim Abschluß des Betriebs sind die einzigen übriggebliebenen Bitmaps die echten Halbtonbilder und die Abschnitte des Dokuments, die der Zeichenerkenner und Grafikerkenner nicht entziffern konnte.
- Ein in einer Datei mit dem Namen "Squiggle" gespeichertes Bitmap wird dann wie folgt aufgezeichnet:
- < Bild-id = 567x = 1840y = 1680w = 260h = 480> Squiggle < />
- Fig. 11 stellt ein Fleckelement dar, das eine vierte Art von Grafikelement ist. Fleckelemente enthalten kleine Bilder, und bezeichnen ein sehr kleines rechtwinkliges Gebiet, das im Bitmap-Format belassen wird: unerkannte kleine Schmutzflecken, Gegenstandszeichen, unbekannte Symbole usw. Das Bitmap ist klein genug, daß seine Bildaufzeichnung üblicherweise in hexadezimaler Form als die Inhalte des Fleckelementes kodiert werden kann, statt in eine getrennte Datei aufgenommen zu werden.
- Die x-, dx-, y- und dy-Attribute ergeben die Position des Flecks mit Bezug auf die obere linke Ecke der Seite. Die bx-Attribute geben die Anzahl von Bits in horizontaler Richtung. Dabei wird auf ein Vielfaches von acht begrenzt. Das by-Attribut gibt die Anzahl von 1 Bit hohen Zeilen. Wenn ein Fleckelement abgebildet werden soll, verbraucht der Hexadezimalwert 8*bx Bits (2*bx Hexadezimalzeichen) gleichzeitig für jede Zeile. Der Hexadezimalwert enthält, wo angemessen, abschließende 0-Bits.
- Es sei angenommen, daß das Markierungszeichen in der Fig. 1 der Musterseite nicht erkannt wurde. Es würde dann als Kleinbild wie folgt notiert:
- < Fleck-id = 11x = 590y = 850bx = 25by = 25> 03FFB000... < />
- Fig. 12 stellt Bezüge zu anderen Elementen dar. Die Text-, Segment-, Bogen-, Bild- und Fleck-Elemente können durch Elemente höheren Niveaus (Textblöcke, Rahmen und Seiten, wie nachstehend besprochen), zusammen gruppiert werden über einen Bezug auf ihren Identifizierer. Eine Referenz auf ein Einzelelement wird durch ein Gegenstandselement hergestellt, dessen einziges Attribut den Wert des Identifizierers des Elementes besitzt, auf das verwiesen wird.
- Ein Verweis auf eine Aufeinanderfolge von Elementen wird durch ein Bereichselement hergestellt: "von"- und "bis"- Attribute verweisen auf die Identifizierer des ersten und des letzten angezogenen Elementes. "Erste" und "letzte" beziehen sich auf die chronologische Reihenfolge, in der die Elemente in dem DRstrom gefunden werden. Ein Bereichselement ist eine Kurznotierung für eine ununterbrochene Folge von Gegenstandselementen.
- Mehrdeutigkeiten bezüglich der Gruppierung werden durch Altern-Elemente bezeichnet. Alternative Gruppierungen werden durch Vorgänge benutzt, um eine Anzahl von begründbaren Element-Gruppierungen zu kodieren. Wurde z. B. eine Textseite als aus vier Textblöcken bestehend erkannt, zwei an der linken Seite und zwei an der rechten Seite; so gruppiert sie der Logikstruktur-Prozessor (oder Logik-Rekonstruktor), der nicht in der Lage ist, zu bestimmen, ob der Text sich als zwei Spalten oder als zwei Zeihen liest, in die Reihenfolge oben links, unten links, oben rechts, unten rechts; oder in die Reihenfolge oben links, oben rechts, unten links, unten rechts ein; ein nachfolgender Vorgang, wie ein syntaktischer Analysator, kann dann fähig sein, die Mehrdeutigkeiten zu lösen.
- Fig. 13 stellt ein tBlock-Element dar. tBlock-Elemente kodieren rechtwinklige Bereiche, die eine unsichtbare Begrenzung um eine Textzeile oder einen Satz von Textzeilen mit gleichem Abstand bilden. Der Ort eines tBlocks relativ zur oberen linken Ecke der Seite und ihre Ungenauigkeiten sind gegeben durch die x-, y-, dx- und dy-Attribute. Die Abmessungen und Unsicherheiten werden durch w, h, dw und dh aufgezeichnet. Das interl-Attribut mißt den Abstand zwischen den gleich beabstandeten Zeilen innerhalb des Blocks; sein Wert ist Null, wenn der Textblock nur eine Zeile enthält. Die x1-, dx1-, y1-, dy1-Attribute geben den Ort des ersten Zeichens in dem Textblock relativ zur oberen linken Ecke des Blocks an.
- Fig. 14 stellt ein Rahmenelement dar. Ein Rahmenelement kodiert eine rechtwinklige Fläche, die kleiner als oder gleich der Seitenfläche ist. Es wird benutzt, um Textblöcke, Bilder, Flecken, Bogen und Segmente wie auch andere Rahmen zu aggregieren. Rahmen können eine Seite überdecken.
- Fig. 15 stellt ein Seitenelement dar. Ein Seitenelement aggregiert alle Informationsstücke über einer digitalisierten Seite eines Dokuments. Wenn kein Seitenelement in einem DRstrom vorhanden ist, wird angenommen, daß alle DRstrom-Daten zu einer einzigen Seite gehören.
- Fig. 16 stellt ein Gruppenelement dar. Ein Gruppenelement ermöglicht eine Sammlung der Elemente über die Seitengrenzen hinaus. Es kann durch den Logikstruktur-Aufbauer und den Semantik-Analysator zum Bezeichnen des Textflusses über Seiten hinweg benutzt werden.
- Fig. 17 stellt ein drStrom-Element dar. An der Oberseite der Dokumententyp-Definition ist das drStrom-Element. Sein Einheits-Attribut ergibt den Namen der in dem ganzen drStrom- Element benutzten Meßeinheit. Das Bruchteil-Attribut bezeichnet, welchen Bruchteil der Meßeinheit die Koordinaten, Abmessungen und ihre Ungenauigkeit tatsächlich darstellen. Wenn z. B. die Maße in um gegeben sind, sind die drStrom-Element-Attribute:
- < drStrom-Einheit = Meter-Bruchteil = 1 000 000>
- Fig. 18A-C stellen alte benutzten Elemente in der geoffenbarten Seitenbeschreibungssprache dar.
- Fig. 19 stellt ein mit der vorliegenden Erfindung benutzbares Dokumenten-Erkennungs system dar. Fig. 20 und 21 sind Flußdiagramme, welche Vorgänge zum Betreiben des Systems der Fig. 19 gemäß der vorliegenden Erfindung darstellen. Um ein Bitmap-Bild einzugeben (S100), wird ein Papierdokument mit Benutzen eines Bildabtasters 100 abgetastet, um ein Bitmap-Dokumentenbild 110 zu erzeugen. Es ist zu verstehen, daß der Abtastvorgang im wesentlichen in der gleichen Zeit ausgeführt werden kann, in der die Erkennungsvorgänge ausgeführt werden, oder das Bitmap-Dokumentenbild 110 kann auf einer Art von elektronischem Speichermedium wie Festplatte oder Diskette zugeleitet werden. Das Bitmap-Dokumentenbild 110 wird zu einem herkömmlichen Segmentierer 150 geleitet (S110), der das Bitmap-Bild in kleinere Teilbilder unterteilt, wie z. B. textliche Teilbilder, die nur Text, und grafische Teilbilder, die nur Grafiken enthalten. Der Segmentierer 150 kann iterativ das Bitmap-Bifd in kleinere Teilbilder unterteilen, bis jedes Teilbild erkanntermaßen nur Text oder nur Grafik enthält. Die Grafik-Teilbilder werden dann einem Strukturbilderkenner (oder Grafikerkenner) 200 zugeleitet, während die textlichen Teilbilder einem Zeichenerkenner 300 zugeleitet werden. Wenn es im voraus bekannt ist, daß das Bitmap-Dokumentenbild nur Text oder nur Grafik enthält, kann es selbstverständlich direkt dem Strukturbilderkenner 200 bzw. dem Zeichenerkenner 300 zugeleitet werden.
- Der Strukturbilderkenner 200 wandelt das Bitmap-Grafikbild (oder die -Teilbilder) in kodierte Grafikdaten (S160), die mit Benutzung einer Dokumentenbeschreibungssprache in Grafikelementen wie den vorstehend beschriebenen Grafikelementen aufgezeichnet werden können. Das bedeutet, unerkannte Bitmap-Bilder werden in nicht aufgelöste grafikbildartige Elemente eingesetzt (S170): Bildelemente, wenn sie groß sind, oder Fleckelemente und als Hexadezimalwerte dargestellt, falls sie klein sind. Wenn das Grafikbild oder die -Teilbilder erkannt und in kodierte Grafikdaten umgeformt werden, werden sie in eines oder in mehrere Segmentelement(e) und/oder Bogenelement(e) eingesetzt (S180). Zusätzliche Information, welche Unsicherheiten betrifft (z. B. mögliche Versätze der Parameter (kodierte Daten), welche die Grafikstruktur beschreiben, können wahlweise in diesen Elementen aufgezeichnet werden (S185)).
- Wenn so Grafik-Bitmap-Bilder mit Benutzung der vorliegenden Erfindung in ausgebbare kodierte Daten umgeformt werden, wirkt der Grafikstruktur-Bilderkenner 200 als ein erstes Umwandlungsmittel zum Ausführen eines ersten Umwandlungsvorgangs an dem Bitmap- Grafikbild zum Umwandeln des Grafik-Bitmap-Bildes in ein oder mehrere Grafikelement(e), die kodierte Daten enthalten, welche Grafikstrukturen bestimmen; und als ein erstes Identifizierungsmittel mit Benutzung der Dokumentenbeschreibungssprache zum Identifizieren des einen Grafikelements oder der mehreren Grafikelemente, das/die durch das erste Umwand lungsmittel umgewandelt is/sind, wobei jedes Grafikelement einen Elementart-Identifizierer enthält, der eine Art von kodierten Daten bezeichnet, welche das in dem Element enthaltene erkannte Bitmap-Bild betreffen. Wenn das erste Umwandlungsmittel bestimmt, daß die in dem Grafikelement enthaltenen kodierten Daten nicht mit einem vorgegebenen Vertrauensniveau umgewandelt wurden, enthält das Identifizierungsmittel auch Unsicherheitsinformation (Versätze) in dem Grafikelement, die durch das erste Umwandlungsmittel mit Bezug auf die in jedem Grafikelement enthaltenen kodierten Daten bestimmt wunden.
- Der Zeichenerkenner 300 wandelt das Bitmap-Textbild (oder die -Teilbilder) in kodierte Zeichendaten (S120), welche dann in dem entsprechenden Element im Schritt S140 oder S150 (Zeichenketten oder Fraglichzeichen), wie vorher beschrieben, gespeichert werden. Um zu bestimmen, ob kodierte Zeichendaten in ein Zeichenketten-Ellement oder ein Fraglichzeichen-Element einzusetzen sind, wird im Schritt S130 eine Bestimmung hergestellt, ob ein erkanntes Zeichen mit mindestens einem vorgegebenen Vertrauensniveau hergestellt wurde. Obwohl das Einsetzen eines Zeichens in ein Fraglichzeichen-Element dazu dient, Unsicherheitsinformation über dieses Zeichen zu befördern, können auch zusätzliche Informationen wie alternativ mögliche unsichere Zeichen oder Unsicherheitsgrade für unsichere Zeichen in ein Fraglichzeichen-Element eingeschlossen werden (S155). So erzeugt der Zeichenerkenner 300 einen Strom von Zeichenketten-Elementen und Fraglichzeichen-Elementen, der dann einem Worterkenner 400 zugeführt werden kann.
- Der Worterkenner 400 enthält in sich ein Wörterbuch oder Lexikon für Wörter. Der gemäß der vorliegenden Erfindung arbeitende Worterkenner 400 führt dann den in Fig. 21 dargestellten Vorgang für jedes Fraglichzeichen-Element aus. Zuerst wird im Schritt S200 eine Vielzahl von Zeichen der Reihe nach statt dem Fraglichzeichen-Element in das Wort eingesetzt, welches das Fraglichzeichen-Element enthält. Im Schritt 3210 wird eine Bestimmung hergestellt, ob eines der durch den Ersetzungsschritt (S200) gebildeten Worte in dem Lexikon des Worterkenners 400 gefunden wurden. Solche Wörter werden als "verifizierte Wörter" bezeichnet. Wenn keine verifizierten Wörter gefunden werden, wird das Fraglichzeichen- Element in S240 zurückgegeben, und wahlweise wird im Schritt S245 die in dem Fraglichzeichen-Element enthaltene Unsicherheitsinformation aufgrund aller durch den Worterkenner 400 hergestellten Bestimmungen aktualisiert. Falls die Bestimmung im Schritt S210 positiv ist, wird jedes verifizierte Wort in ein Verifiziertwort-Element eingesetzt (S220). Danach werden, wenn mehr als ein Verifiziertwort-Element aus einem einzelnen Fraglichzeichen-Element erzeugt wurde, im Schritt S230 die mehreren Verifiziertwort-Elemente in ein Alternativwort-Element gesetzt.
- Jedes Alternativwort-Element kann durch einen Semantik-Analysator 500, der aufgrund umgebender Wörter zu bestimmen versucht, welches der verifizierten Wörter in einem Alternativwort-Element korrekt ist, in ein Zeichenketten-Element umgeformt werden. Wenn der Semantik-Analysator nicht bestimmen kann, welches der verifizierten Wörter in einem Alternativwort-Element korrekt ist, gibt er das Alternativwort-Element zurück und sorgt wahlweise für Unsicherheitsinformation für jedes der verifizierten Wörter in jedem Verifiziertwort-Element.
- So wirkt beim Umwandeln textlicher Bitmap-Bilder in ausgebbare kodierte Daten mit Benutzung der vorliegenden Erfindung der Zeichenerkenner 300 als ein erstes Umformungsmittel zum Ausführen eines ersten Umformungsvorgangs an dem textlichen Bitmap-Bild, um das textliche Bitmap-Bild in eines oder in mehrere Elemente umzuformen, welche kodierte Zeichendaten enthalten; und als ein erstes Identifizierungsmittel mit Benutzen der Dokumentenbeschreibungssprache zum Identifizieren des einen oder der mehreren Elemente, die durch das erste Umformungsmittel umgeformt wurden, wobei jedes Element einen Elementart- Identifizierer enthält, der für eine Art kodierter Charakterdaten bezeichnend ist, welche die in dem Element enthaltenen erkannten textlichen Bitmap-Bilder betreffen. Elemente, welche Zeichen enthalten, die nicht mit einem vorgegebenen Vertrauensniveau erkannt wurden, werden in Elementen aufgezeichnet, die durch das erste Identifizierungsmittel als Fraglichzeichen- Elemente identifiziert sind, während sichere Zeichen in einem als Zeichenketten-Elemente identifizierten Element aufgezeichnet werden.
- Der Worterkenner 400 wirkt als ein zweites Umformungsmittel zum Umformen jedes Fraglichzeichen-Elementes und benachbarter vertrauensvoll erkannter Zeichen in ein gleiches Wort wie das Fraglichzeichen-Element in ein oder mehrere verifizierte Wörter durch Übersetzen alternativer Zeichen für das Fraglichzeichen-Element und durch Verifizieren, daß ein sich aus der Ersetzung ergebendes Wort in einem Lexikon vorhanden ist; und als ein zweites Identifizierungsmittel mit Benutzen der Dokumentenbeschreibungssprache zum Einsetzen jedes verifizierten Worts in ein Verifiziertwort-Element. Wenn mehr als ein Verifiziertwort- Element für ein Fraglichzeichen-Element geschaffen wird, setzt das zweite Identifizierungsmittel auch das mehr als eine Verifiziertwort-Element in ein Alternativwort-Element ein. Das zweite Identifizierungsmittel hält das Fraglichzeichen-Element aufrecht, wenn kein verifiziertes Wort als vorhanden bestimmt wurde.
- Das Alternativwort-Element kann dann im Semantik-Analysator 500 zugeführt werden, der als ein Mittel zum Bestimmen wirkt, welches verifizierte Wort innerhalb eines Alternativwort- Elements ein korrektes verifiziertes Wort ist, aufgrund von Wörtern, welche das Alternativwort- Element umgeben; und als ein drittes Identifizierungsmittel zum Identifizieren des korrekten verifizierten Wortes und zum Ersetzen des Alternativwort-Elements durch ein Zeichenketten- Element, welches das korrekte verifizierte Wort enthält.
Claims (14)
1. Verfahren zum Umformen eines als ein Bitmap-Bild dargestellten Dokumentes in einen
editierbaren kodierten Datenstrom mit Benutzung einer Standard-Notation in einer Dokument-
Beschreibungssprache zum Aufzeichnen von Unsicherheiten in dem
Dokument-Umformungsverfahren betreffender Information, wobei der kodierte Datenstrom eine Reihe von
Elementen enthält, und das Verfahren umfaßt:
Schaffen einer Syntaxliste (Fig. 18A-18C), welche die zum Aufzeichnen kodierter
Abschnitte des Bitmap-Bildes verwendeten Elemente definiert, wobei die Syntaxliste Elemente
zum Aufzeichnen von Grafik-Bitmap-Daten (Fig. 8-11) und Text-Bitmap-Daten (Fig. 2-7) wie
auch Attributen dieser Daten enthält und die Syntaxliste es daraufhin ablaufenden Vorgängen
ermöglicht, den kodierten Datenstrom zu analysieren;
Ausführen eines ersten Umformungsvorgangs an mindestens einem Anteil des Bitmap-
Bildes mit Benutzen einer ersten Erkennungsvorrichtung (200, 300, 400, 500) zum Umformen
mindestens des Anteils des Bitmap-Bildes in ein Element oder in mehrere Elemente, welche
mit Benutzung der Dokumentenbeschreibungssprache selektiv identifiziert sind, wobei jedes
Element einen Elementart-Identifizierer enthält, der eine Art von kodierter Information mit
Bezug auf das in dem Element enthaltene erkannte Bitmap-Bild enthält, und, wenn die erste
Erkennungsvorrichtung bestimmt, daß das erkannte in einem Element enthaltene Bitmap-Bild
nicht mit mindestens einem vorgegebenen Vertrauensniveau erkannt wurde, das Element
auch durch die erste Erkennungsvorrichtung bestimmte Unsicherheitsinformation enthält, die
sich auf das in dem Element enthaltene erkannte Bitmap-Bild bezieht.
2. Verfahren nach Anspruch 1, bei dem die Unsicherheitsinformation einen
Unsicherheitsgrad enthält, mit dem die erste Erkennungsvorrichtung das Bitmap-Bild umgeformt hat.
3. Verfahren nach Anspruch 2, bei dem der Anteil des Bitmap-Bildes ein Grafik-Bitmap-Bild
enthält, und die erste Erkennungsvorrichtung ein Grafikerkenner (200) ist, wobei der
Elementart-Identifizierer Anteile des durch den Grafikerkenner umgeformten Grafik-Bitmap-Bildes
als Grafikelemente identifiziert und die Unsicherheitsinformation mögliche Versätze für zur
Beschreibung der Anteile des Grafik-Bitmap-Bildes verwendete Parameter enthält.
4. Verfahren nach Anspruch 2, bei dem die Unsicherheitsinformation alternative
Umformungen des in jedem Element enthaltenen erkannten Bitmap-Bildes und einen Sicherheitsgrad für
jede alternative Umformung enthält, wobei die alternativen Umformungen und
Sicherheitsgrade durch die erste Erkennungsvorrichtung bestimmt worden sind.
5. Verfahren nach Anspruch 1, bei dem die Unsicherheitsinformation alternative
Umformungen des in jedem Element enthaltenen erkannten Bitmap-Bildes enthält, welche alternativen
Umformungen durch die erste Erkennungsvorrichtung bestimmt worden sind.
6. Verfahren nach Anspruch 1 oder 3, bei dem der Anteil des Bitmap-Bildes ein Text-Bitmap-
Bild enthält, die erste Erkennungsvorrichtung ein Zeichenerkenner (300) ist und der Art-
Identifizierer Anteile des durch den Zeichenerkenner umgeformten Text-Bitmap-Bildes als
Zeichenketten-Elemente oder Fraglichzeichen-Elemente identifiziert, von denen jedes
Zeichenketten-Element eine Kette aufeinanderfolgender durch den Zeichenerkenner mit
mindestens dem vorgegebenen Vertrauensniveau erkannten Zeichen enthält, und jedes
Fraglichzeichen-Element die durch den Zeichenerkenner für ein Zeichen, das nicht mit mindestens dem
vorgegebenen Vertrauensniveau erkannt wurde, bestimmte Unsicherheitsinformation enthält.
7. Verfahren nach Anspruch 6, das weiter umfaßt:
für jedes Fraglichzeichen-Element das Benutzen eines Worterkenners (400) zum
Umformen des Fraglichzeichen-Elements und benachbarter mit Vertrauenssicherheit erkannter
Zeichen in dem gleichen Wort wie das Fraglichzeichen-Element in eines oder mehrere
Verifiziertwort-Elemente durch Ersetzen des Fraglichzeichen-Elements durch alternative Zeichen,
wenn eines oder mehrere durch dieses Ersetzen geschaffene Wort(e) durch den
Worterkenner anerkannt werden; wenn mehr als ein Verifiziertwort-Element für jedes Fraglichzeichen-
Element umgeformt wurde, dieses mehr als eine Verifiziertwort-Element in ein Alternativwort-
Element eingesetzt worden ist; wobei das Fraglichzeichen-Element weiter bleibt, wenn keine
verifizierten Worte durch den Worterkenner erkannt worden sind.
8. Verfahren nach Anspruch 7, das weiter umfaßt:
für jedes Alternativwort-Element das Benutzen eines Semantik-Analysators (500) zum
Umformen verifizierter Worte der in jedem Alternativwort-Element enthaltenen Verifiziertwort-
Elemente in ein Zeichenketten-Element entsprechend einem der verifizierten in dem
Alternativwort-Element enthaltenen Worte, wenn der Semantik-Analysator bestimmt, daß das eine
der verifizierten Worte ein korrektes Wort ist, wobei das Alternativwort-Element weiter bleibt,
wenn keines der verifizierten Worte durch den Semantik-Analysator als ein korrektes Wort
bestimmt worden ist.
9. Verfahren nach Anspruch 6, bei dem für jedes Fraglichzeichen-Element die für ein nicht
mit mindestens dem vorgegebenen Vertrauensniveau erkanntes Zeichen gültige
Unsicherheitsinformation ein höchstwahrscheinlich unsicheres Zeichen enthält, und/oder alternative
mögliche unsichere Zeichen, die durch den Zeichenerkenner identifiziert sind.
10. Verfahren nach Anspruch 9, bei dem für jedes Fraglichzeichen-Element die sich auf ein
nicht mit mindestens dem vorgegebenen Vertrauensniveau erkanntes Zeichen bezügliche
Unsicherheitsinformation auch einen durch den Zeichenerkenner für das wahrscheinlichste
und/oder alternative mögliche unsichere Zeichen bestimmten Vertrauensgrad enthält.
11. Verfahren nach Anspruch 1, das enthält:
Segmentieren des Bitmap-Bildes in ein oder mehrere Grafik-Bitmap-Teilbild(er) und ein
oder mehrere Text-Bitmap-Teilbild(er), von denen das eine oder die mehreren Text-Bitmap-
Teilbild(er); und jedes von den einen oder mehreren Grafik-Bitmap-Teilbild(ern) mit Benutzung
eines Grafikstrukturanalysators (200) analysiert worden sind, um das eine oder die mehreren
Grafik-Teilbild(er) in ein oder mehrere Grafikelement(e) zu wandeln.
12. Automatische Dokumenten-Erkennungsvorrichtung zum Umformen von als
Bitmap-Bilddaten dargestellten Dokumenten zu einem editierbaren kodierten Datenstrom mit Benutzung
einer Standard-Notation in einer Dokumenten-Beschreibungssprache zum Aufzeichnen von
Information betreffend Unsicherheiten in dem Dokumenten-Umformungsvorgang, wobei der
kodierte Datenstrom eine Reihe von Elementen enthält und die Vorrichtung umfaßt:
einen Speicher, der eine Syntaxliste (Fig. 18A-18C) speichert, welche die zum
Aufzeichnen kodierter Abschnitte des Bitmap-Bildes benutzten Elemente definiert, wobei die
Syntaxliste Elemente zum Aufzeichnen von Grafik-Bitmap-Daten (Fig. 8-11) und Text-Bitmap-Daten
(Fig. 2-7) enthält, wie auch Attribute dieser Daten, und die Syntaxliste nachher ablaufenden
Vorgängen das Analysieren des kodierten Datenstroms ermöglicht; und
einen ersten Erkenner (200, 300, 400, 500) mit:
a) erstem Umformungsmittel zum Ausführen eines ersten Umformungsablaufes an der
Bitmap-Bilddarstellung des Dokumentes zum Umformen des Dokumentes in ein Element oder
mehrere Elemente, welches/welche kodierte Daten enthält/enthalten; und
b) erstem Identifizierungsmittel mit Benutzung der Dokumentenbeschreibungssprache
zum Identifizieren des einen Elements oder der mehreren Elemente, die durch das
Umformungsmittel umgeformt wurden, wobei jedes Element einen Elementart-Identifizierer enthält,
der eine Art von kodierten Daten mit Bezug auf das in dem Element enthaltene erkannte
Bitmap-Bild bezeichnet, und, wenn das erste Umformungsmittel bestimmt, daß die kodierten in
dem Element enthaltenen Daten nicht mit einem vorbestimmten Vertrauensniveau umgeformt
wurden, das Identifizierungsmittel ebenfalls in dem Element durch das erste Umformungsmittel
bestimmte Unsicherheitsinformation betreffend der in dem Element enthaltenen kodierten
Daten enthält.
13. Vorrichtung nach Anspruch 12, bei der die Unsicherheitsinformation ein Vertrauensniveau
einschließt, mit dem das erste Umformungsmittel die kodierten Daten bestimmt hat.
14. Vorrichtung nach Anspruch 12 oder 13, bei der die Unsicherheitsinformation kodierte
Daten-Alternativen einschließt, die durch das erste Umformungsmittel für einen Anteil des
Bitmap-Bildes bestimmt wurden.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/814,347 US5359673A (en) | 1991-12-27 | 1991-12-27 | Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69230784D1 DE69230784D1 (de) | 2000-04-20 |
DE69230784T2 true DE69230784T2 (de) | 2000-07-27 |
Family
ID=25214790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69230784T Expired - Fee Related DE69230784T2 (de) | 1991-12-27 | 1992-12-22 | Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung |
Country Status (5)
Country | Link |
---|---|
US (1) | US5359673A (de) |
EP (1) | EP0549329B1 (de) |
JP (1) | JP3640972B2 (de) |
CA (1) | CA2080966C (de) |
DE (1) | DE69230784T2 (de) |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5499329A (en) * | 1992-04-30 | 1996-03-12 | Ricoh Company, Ltd. | Method and system to handle context of interpretation in a document processing language |
JPH06236367A (ja) * | 1992-11-12 | 1994-08-23 | Ricoh Co Ltd | 文書作成装置の制御方法 |
US6002798A (en) * | 1993-01-19 | 1999-12-14 | Canon Kabushiki Kaisha | Method and apparatus for creating, indexing and viewing abstracted documents |
NL9300310A (nl) * | 1993-02-19 | 1994-09-16 | Oce Nederland Bv | Inrichting en werkwijze voor syntactische signaal-analyse. |
US6501853B1 (en) * | 1994-06-27 | 2002-12-31 | International Business Machines Corporation | Apparatus and method for processing video data |
US5535313A (en) * | 1994-07-18 | 1996-07-09 | Motorola, Inc. | Automated quality control in a document conversion system |
US5802205A (en) * | 1994-09-09 | 1998-09-01 | Motorola, Inc. | Method and system for lexical processing |
CA2154952A1 (en) * | 1994-09-12 | 1996-03-13 | Robert M. Ayers | Method and apparatus for identifying words described in a page description language file |
DE69525401T2 (de) * | 1994-09-12 | 2002-11-21 | Adobe Systems, Inc. | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind |
US5752057A (en) * | 1994-10-27 | 1998-05-12 | Shira Computers Ltd. | Method for conversion of a color electronic pre-press system data file to a page description language data file |
US6055064A (en) * | 1994-10-27 | 2000-04-25 | Shira Computers Ltd. | Method for conversion of a color electronic pre-press system data file to a page description language data file |
US5649024A (en) * | 1994-11-17 | 1997-07-15 | Xerox Corporation | Method for color highlighting of black and white fonts |
US5668891A (en) * | 1995-01-06 | 1997-09-16 | Xerox Corporation | Methods for determining font attributes of characters |
JPH08212293A (ja) * | 1995-01-31 | 1996-08-20 | Toshiba Corp | Sgmlタグ付与処理システム |
DE69524381T2 (de) * | 1995-03-23 | 2002-08-14 | Agfa-Gevaert N.V., Mortsel | Parallele Verarbeitung des Datenstroms der Seitenbeschreibungssprache |
US6115723A (en) * | 1995-04-27 | 2000-09-05 | International Business Machines Corporation | System and method for converting a coordinate based document to a markup language (ML) based document |
US6003048A (en) * | 1995-04-27 | 1999-12-14 | International Business Machines Corporation | System and method for converting a coordinate based document to a markup language (ML) based document |
US6230173B1 (en) * | 1995-07-17 | 2001-05-08 | Microsoft Corporation | Method for creating structured documents in a publishing system |
US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
US5850474A (en) * | 1996-07-26 | 1998-12-15 | Xerox Corporation | Apparatus and method for segmenting and classifying image data |
US6870633B1 (en) * | 1996-09-30 | 2005-03-22 | Brother Kogyo Kabushiki Kaisha | Printing device |
US5893127A (en) * | 1996-11-18 | 1999-04-06 | Canon Information Systems, Inc. | Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document |
JP3427692B2 (ja) * | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | 文字認識方法および文字認識装置 |
JPH10162098A (ja) * | 1996-12-02 | 1998-06-19 | Nec Corp | 文書電子化装置及び文書電子化方法 |
US5970483A (en) | 1997-07-25 | 1999-10-19 | Claritech Corporation | Apparatus and methodology for submitting search queries |
US5987448A (en) | 1997-07-25 | 1999-11-16 | Claritech Corporation | Methodology for displaying search results using character recognition |
JPH11102414A (ja) | 1997-07-25 | 1999-04-13 | Kuraritec Corp | ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体 |
JPH11110480A (ja) * | 1997-07-25 | 1999-04-23 | Kuraritec Corp | テキストの表示方法およびその装置 |
US7046857B2 (en) * | 1997-07-31 | 2006-05-16 | The Regents Of The University Of California | Apparatus and methods for image and signal processing |
US6154208A (en) * | 1997-10-06 | 2000-11-28 | Canon Kabushiki Kaisha | Proxy mechanism for non-native GDI formats |
JP3997026B2 (ja) * | 1999-01-29 | 2007-10-24 | キヤノン株式会社 | フォーム編集方法及び装置及びコンピュータ読取り可能なプログラムが格納された記憶媒体 |
US6850908B1 (en) * | 1999-09-08 | 2005-02-01 | Ge Capital Commercial Finance, Inc. | Methods and apparatus for monitoring collateral for lending |
US6850643B1 (en) * | 1999-09-08 | 2005-02-01 | Ge Capital Commercial Finance, Inc. | Methods and apparatus for collateral risk monitoring |
US6546133B1 (en) * | 1999-09-08 | 2003-04-08 | Ge Capital Commercial Finance, Inc. | Methods and apparatus for print scraping |
US7139004B2 (en) * | 2002-01-25 | 2006-11-21 | Xerox Corporation | Method and apparatus to convert bitmapped images for use in a structured text/graphics editor |
US7136082B2 (en) * | 2002-01-25 | 2006-11-14 | Xerox Corporation | Method and apparatus to convert digital ink images for use in a structured text/graphics editor |
US8693043B2 (en) | 2003-12-19 | 2014-04-08 | Kofax, Inc. | Automatic document separation |
US20060002614A1 (en) * | 2004-06-30 | 2006-01-05 | Alliances Artquest International Inc. | Raster-to-vector conversion process and apparatus |
ITTO20040467A1 (it) * | 2004-07-08 | 2004-10-08 | Bankersoft S R L | Procedimento e sistema di introduzione di dati |
US7289123B2 (en) * | 2004-09-30 | 2007-10-30 | Microsoft Corporation | Simplifying complex characters to maintain legibility |
US8677274B2 (en) * | 2004-11-10 | 2014-03-18 | Apple Inc. | Highlighting items for search results |
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
JP2007304864A (ja) * | 2006-05-11 | 2007-11-22 | Fuji Xerox Co Ltd | 文字認識処理システムおよび文字認識処理プログラム |
EP3515063A1 (de) * | 2007-04-02 | 2019-07-24 | Esight Corp. | Verfahren zur sehverstärkung |
US7480411B1 (en) * | 2008-03-03 | 2009-01-20 | International Business Machines Corporation | Adaptive OCR for books |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US11610653B2 (en) * | 2010-09-01 | 2023-03-21 | Apixio, Inc. | Systems and methods for improved optical character recognition of health records |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9514357B2 (en) | 2012-01-12 | 2016-12-06 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
EP2973226A4 (de) | 2013-03-13 | 2016-06-29 | Kofax Inc | Klassifizierung von objekten auf mit mobilvorrichtungen aufgenommenen digitalbildern |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
EP2992481A4 (de) | 2013-05-03 | 2017-02-22 | Kofax, Inc. | Systeme und verfahren zur detektion und klassifizierung von objekten in mithilfe von mobilen vorrichtungen aufgenommenen videos |
US9386235B2 (en) | 2013-11-15 | 2016-07-05 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
RU2571396C2 (ru) * | 2014-03-26 | 2015-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и система для верификации в процессе чтения |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US9928410B2 (en) * | 2014-11-24 | 2018-03-27 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing object, and method and apparatus for training recognizer |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
JP6769045B2 (ja) * | 2016-02-29 | 2020-10-14 | ブラザー工業株式会社 | 画像処理装置、および、コンピュータプログラム |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
US11062176B2 (en) | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
JP7226136B2 (ja) * | 2019-06-25 | 2023-02-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4058795A (en) * | 1972-10-03 | 1977-11-15 | International Business Machines Corporation | Method and apparatus for context-aided recognition |
US4136395A (en) * | 1976-12-28 | 1979-01-23 | International Business Machines Corporation | System for automatically proofreading a document |
US4674065A (en) * | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
US4654875A (en) * | 1983-05-23 | 1987-03-31 | The Research Foundation Of State University Of New York | System to achieve automatic recognition of linguistic strings |
US4907285A (en) * | 1984-08-24 | 1990-03-06 | Hitachi, Ltd. | Image understanding system |
US4760604A (en) * | 1985-02-15 | 1988-07-26 | Nestor, Inc. | Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier |
US4754489A (en) * | 1985-10-15 | 1988-06-28 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
JP2614252B2 (ja) * | 1988-01-19 | 1997-05-28 | キヤノン株式会社 | 画像合成装置 |
US4914709A (en) * | 1989-06-02 | 1990-04-03 | Eastman Kodak Company | Method for identifying unrecognizable characters in optical character recognition machines |
US4974260A (en) * | 1989-06-02 | 1990-11-27 | Eastman Kodak Company | Apparatus for identifying and correcting unrecognizable characters in optical character recognition machines |
US5257323A (en) * | 1991-05-29 | 1993-10-26 | Canon Kabushiki Kaisha | Selection agent for a symbol determination system with multiple character recognition processors |
US5251273A (en) * | 1992-04-15 | 1993-10-05 | International Business Machines Corporation | Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms |
-
1991
- 1991-12-27 US US07/814,347 patent/US5359673A/en not_active Expired - Lifetime
-
1992
- 1992-10-20 CA CA002080966A patent/CA2080966C/en not_active Expired - Fee Related
- 1992-12-18 JP JP35615892A patent/JP3640972B2/ja not_active Expired - Fee Related
- 1992-12-22 DE DE69230784T patent/DE69230784T2/de not_active Expired - Fee Related
- 1992-12-22 EP EP92311711A patent/EP0549329B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69230784D1 (de) | 2000-04-20 |
EP0549329B1 (de) | 2000-03-15 |
CA2080966C (en) | 1996-08-13 |
CA2080966A1 (en) | 1993-06-28 |
JP3640972B2 (ja) | 2005-04-20 |
JPH05307638A (ja) | 1993-11-19 |
EP0549329A2 (de) | 1993-06-30 |
US5359673A (en) | 1994-10-25 |
EP0549329A3 (de) | 1994-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69230784T2 (de) | Verfahren und Vorrichtung zur Dokumenterkennung mit Normnotierung für Mehrdeutigkeitenspeicherung | |
DE69229468T2 (de) | Verfahren und Gerät zur Bestimmung der Wortfrequenz in einem Dokument ohne Dokumentbilddekodierung | |
DE69519323T2 (de) | System zur Seitensegmentierung und Zeichenerkennung | |
DE69229536T2 (de) | Verfahren und Gerät zum Auswahl linguistisch bezeichnender Bilder in einem Dokumentbild ohne Dekodierung des Bildinhalts | |
DE69722971T2 (de) | Automatisches sprachenerkennungssystem für die mehrsprachige optische zeichenerkennung | |
DE69523970T2 (de) | Dokumentspeicher- und Wiederauffindungssystem | |
DE69226609T2 (de) | Verfahren und Gerät zur Dokumentbildverarbeitung | |
DE69516751T2 (de) | Bildvorverarbeitung für Zeichenerkennungsanlage | |
DE69225678T2 (de) | Verfahren und Gerät zur Dokumentbildverarbeitung | |
DE69226611T2 (de) | Verfahren und Gerät zur Verarbeitung eines Dokumentbildes | |
DE69332459T2 (de) | Verfahren und Vorrichtung zur Zeichenerkennung | |
DE4311172C2 (de) | Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes | |
DE69230632T2 (de) | Optische Worterkennung durch Wortgestaltuntersuchung | |
DE69229537T2 (de) | Verfahren und Gerät zur Dokumentverarbeitung | |
DE69610478T2 (de) | Zeichenerkennungssystembestimmung von abgetasteten und "echtzeit"-handgeschriebenen zeichen | |
DE69610243T2 (de) | Verfahren zum Trainieren einer Erkennungsanlage mit Zeichenmustern | |
DE69230635T2 (de) | Verfahren und Gerät zur Bild-/Handmarkierungsbestimmung | |
Wong et al. | Document analysis system | |
DE3926327C2 (de) | Verfahren und System zum Erkennen von Zeichen auf einem Medium | |
DE69525401T2 (de) | Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind | |
DE10162156B4 (de) | Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren | |
DE69230633T2 (de) | Verfahren zur Ermittlung von Wortformen zum folgenden Vergleich | |
DE69724755T2 (de) | Auffinden von Titeln und Photos in abgetasteten Dokumentbildern | |
DE69423254T2 (de) | Verfahren und Gerät zur automatischen Spracherkennung von Dokumenten | |
US5737442A (en) | Processor based method for extracting tables from printed documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |