DE69331456T2

DE69331456T2 - Überprüfbare optische Zeichenerkennung

Info

Publication number: DE69331456T2
Application number: DE69331456T
Authority: DE
Inventors: Henry F. Korth; Richard J. Lipton; Daniel P. Lopresti; Jonathan Sandberg
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-10-09
Filing date: 1993-10-08
Publication date: 2002-11-07
Anticipated expiration: 2013-10-09
Also published as: US5703972A; EP0592238A2; DE69331456D1; KR100311338B1; JPH06282679A; KR940009877A; US5625721A; EP0592238B1; TW401567B; EP0592238A3

Description

Die Erfindung betrifft die Verwendung von automatisch erzeugten Dokumentmarkierungen. Insbesondere betrifft sie die Verwendung von Markierungen von verschlüsselten Informationen, die auf jeder Seite eines Dokuments eingefügt sind, nicht nur, um ein Mittel für die Identifikation des Dokuments und zur Erkennung der Dokumentstruktur zu schaffen, sondern auch zur Fehlererkennung und Fehlerkorrektur, wenn die markierten Dokumente durch ein Verfahren zur optischen Zeichenerkennung (OCR) reproduziert werden.
Die Identifikation von Produkten durch die Benutzung von computerlesbaren Strichcodes, wobei digitale Daten direkt auf Papier aufgezeichnet werden, ermöglicht die Identifikation von Artikeln durch Verwendung von einfachen numerischen Verschlüsselungs- und Abtasttechnologien bei einem vorgegebenen, festgelegten Wertesatz. Die Identifikation von computergenerierten und gespeicherten Dokumenten ist ein weitere Technologie, die durch Verwendung von binärer Verschlüsselung zur Identifizierung entwickelt wurde und das Wiederauffinden von gespeicherten Dokumenten ermöglicht. Die meisten Softwareprogramme zur Erzeugung von Dokumenten liefern nicht nur Informationen zur Identifikation und/oder zum Wiederauffinden des Dokuments, sondern sie umfassen auch verschlüsselte Informationen zur Übermittlung an einen angeschlossenen Drucker, beispielsweise zur Spezifizierung solcher Einzelheiten wie Abstände, Ränder und zugehörige Layoutinformationen. Wenn das Dokument auf Papier ausgedruckt ist, begleitet die Information das Dokument jedoch nicht länger, im Unterschied zu der Erkennung durch den Benutzer. Wenn es gewünscht wird, das Dokument durch Verwendung eines Systems für die optische Zeichenerkennung (OCR) zu reproduzieren, gibt es kein automatisches Mittel, durch das die Layoutinformation über den Abtaster an den empfangenden Computer übermittelt werden können. Daher wäre es eine wünschenswerte Erweiterung der Identifikationstechnologie, ein Mittel zur Erzeugung einer Papierversion eines Dokuments zu schaffen, das erkannt, reproduziert und von einem Computer korrekturgelesen werden kann, indem eine in oder auf dem Papierdokument angebrachte Markierung optisch abgetastet wird, in Verbindung mit der OCR-Textabtastung des Dokuments.
Dokument- oder Produktinformationssysteme die in der Vergangenheit benutzt wurden umfassen Strichcodemarkierungen und Abtaster, diese Systeme werden in weiten Bereichen benutzt. In Bezug auf Papierdokumente werden spezielle Markierungen oder Muster in dem Papier benutzt, um Informationen an ein zugehöriges Gerät zur Verfügung zu stellen, beispielsweise das Arbeitskontrollblatt für Bildverarbeitung, das von Hikawa in dem US-Patent Nr. 5,051,779 vorgeschlagen wurde. Auf ähnliche Weise sind Markierungen zur Identifikation in Formulare eingebettet worden, wie es in dem US-Patent Nr. 5,060 980 von Johnson et. al. beschrieben ist. Das System von Johnson et. al. sieht das Editieren von Formularen vor, die sich bereits in dem Computer befinden. Eine Papierversion des Formulars wird von dem Benutzer ausgefüllt und anschließend abgetastet, um Eintragungen in den Feldern des Duplikats des Formulars zu liefern, das elektronisch in dem Computer gespeichert wird. Ein weiteres kürzlich patentiertes System wird in dem US-Patent 5,091,966 von Bloomberg et al beschrieben, das die Entschlüsselung von Codes mit einer hieroglyphenartigen Form lehrt, wobei es sich bei den Codes um digital verschlüsselte Daten auf Papier handelt. Die identifizierenden Codes können durch den Computer gelesen werden, so dass eine computergesteuerte Dokumenthandhabung ermöglicht wird, die die Identifikation, das Wiederauffinden und die Übertragung des Dokuments umfasst. Die im Stand der Technik beschriebenen Systeme enthalten keine Textfehlererkennung oder Korrekturprogramme. Darüber hinaus ist es bei diesen Systemen erforderlich, dass der zugeordnete Computer eine Kopie des interessierenden Dokuments in seinem Speicher hat, bevor die Informationen durch Abtasten eingegeben werden. Das System kann nicht bei Dokumenten angewendet werden, die in dem abtastenden Computer durch OCR erzeugt worden sind.
Wie in Fig. 1 schematisch dargestellt ist, umfassen Systeme für die optische Zeichenerkennung im Allgemeinen einen Digitalscanner 16, einen zugeordneten "abtastenden" Computer 18, zum Einscannen einer gedruckten Seite 14, die von einem erzeugenden Computer 12 generiert wurde und von einem Drucker 13 ausgegeben wurde. Der Scanner 16 extrahiert den zu speichernden Text als elektronisches Dokument 15 in einem standardisierten elektronischen Format, wie ASCII. Es ist wünschenswert, zusätzlich Informationen über den Text zur Fehlererkennung und über das Layout des Textes einzubinden, wobei die Information optisch abgetastet werden kann oder auf eine andere Weise automatisch eingegeben werden kann.
Aufgrund der innewohnenden Beschränkungen des Abtastverfahrens und der Fähigkeit des Systems zur optischen Zeichenerkennung, eine genaue Zeichenerkennung zu bewirken, entstehen Fehler in der Ausgabedatei, die nicht nur fehlerhaft erkannte Zeichen, sondern auch layoutabhängige Fehler umfassen. Dann muss eine Nachbearbeitung, insbesondere eine Fehlererkennung durchgeführt werden, in erster Linie durch Korrekturlesen des reproduzierten Dokuments durch eine Person. Layoutfehler können üblicherweise nicht automatisch durch den Computer korrigiert werden, sondern sie erfordern vielmehr ein aufwendiges Editieren durch den Benutzer oder gegebenenfalls eine nochmalige Erzeugung des Dokuments. Die Nachverarbeitung durch eine Person ist teuer, nicht nur hinsichtlich der tatsächlichen Kosten, sondern auch wegen der für die Vervollständigung des verarbeitenden Dokuments erforderlichen Zeit. Es wäre optimal, wenn eine Lösung nicht nur ein Mittel zur Fehlererkennung, sondern ebenso ein Mittel für die Fehlerkorrektur zur Verfügung stellen würde. Ferner sollte eine ideale Lösung eine Identifikation des Dokuments ermöglichen und die richtige Layoutstruktur des Dokuments festlegen.
Fehlererkennungssysteme, die in den Technologien für die computergestützte Dokumenterzeugung (z. B. Textverarbeitung) benutzt worden sind, umfassen Techniken, die auf dem Nachschlagen in Wörterbüchern basieren und/oder handelt es sich um Versuche, semantische oder Kontextinformationen, die von dem Dokument gewonnen wurden, zu benutzen, um Fehler zu identifizieren und zu korrigieren. Viele dieser Systeme erfordern, dass Einträge in dem Dokument, die nicht mit einem Eintrag in dem Lexikon übereinstimmen durch einen "menschlichen Nachbearbeiter" überprüft werden. Die automatisierte fehlerkorrigierte Version eines wörterbuchbasierten Systems würde nach der Identifikation sofort Einträge korrigieren, die nicht mit Wörterbucheinträgen übereinstimmen. Man kann sich ohne weiteres Umstände vorstellen, bei denen eine automatische Korrektur nicht gewünscht ist, wie in dem Fall eines Eigennamens, einer absichtlich falschen Schreibweise oder bei einer Wortneuschöpfung. Die Annahme bei der Benutzung von Wörterbuchvergleichversionen solcher Systeme ist, dass jeder Eintrag des gesamten Dokuments mit einem auf einer Datenbank basierenden Wörterbuch von Begriffen verglichen wird. Der Aufwand für den Vergleich aller Einträge eines Dokuments mit einem vorgegebenen Lexikon ist ziemlich groß.
Die Benutzung von semantischen Informationen, die von dem Dokument gewonnen werden, wird im Stand der Technik darüber hinaus vorgeschlagen, um eine Identifikation und eine automatische Korrektur von Fehlern zu bewerkstelligen, die nicht ohne weiteres als fehlerhafte Schreibweisen von vorhandenen Wörterbuchbegriffen identifiziert werden können, oder die mehr als einem zur Verfügung stehenden Wörterbucheintrag ähneln. Ein derartiges System wird den Begriff "ofthe" als "of the" erkennen und korrigieren, während der Begriff nach dem Nachschlagen in einem Wörterbuch einfach abgelehnt würde. In ähnlicher Weise ist eine Reihe von häufig auftretenden Fehlern für die benutzte Hardware oder Software und für den Font oder die eingescannten Fonts vorgeschlagen worden, die zusammen mit Kontextinformationen oder semantischen Informationen benutzt werden, um gängige Fehler zu identifizieren und automatisch zu korrigieren, beispielsweise wenn "rn" fehlerhaft als "m" erkannt wird, oder wenn der Buchstabe "I" fehlerhaft als die Zahl "1" erkannt wird.
Um Fehler zu erkennen, ohne dass ein Nachschlagen für jeden einzelnen Eintrag erforderlich ist, insbesondere für Dokumente, die über verteilte Netzwerke übertragen werden, haben Systeme Paritätsbits benutzt, die mit den Daten übertragen werden. Nach der Durchführung der Übertragung wird in dem "neuen" Dokument eine Zählung der Bits vorgenommen. Wenn das errechnete Bit dem übertragenen Paritätsbit entspricht, wird angenommen, dass die Übertragung fehlerfrei ist. Derartige Systeme und Erweiterungen des Paritäts- und Prüfbitkonzepts, die in dem US-Patent Nr. 5,068,854 von Chandran et. al. vorgeschlagen werden, sind nützlich für die Fehlererkennung bei digital verschlüsselten Informationen. Erweiterungen des Paritätsbitkonzepts, wie gewichtete Fehlerkorrekturcodes für die Erkennung und die Korrektur von mehr als einem Einbitfehler sind ebenso im Stand der Technik bekannt, beispielsweise aus dem US-Patent Nr. 4,965883 von Kirby. Paritäts- und Prüfbitsysteme, die für die Benutzung mit binär codierter Information entwickelt worden sind, sind in der Lage, das Vorhandensein von Fehlern mit hinreichender Genauigkeit festzustellen, angesichts der geringen Wahrscheinlichkeit, dass das Fehlerbit einer fehlerhaft empfangenen Datenmenge dem Prüfbit des übertragenen Materials entspricht. Da die Bits anhand binär codierter Daten errechnet werden, sind sie in höchstem Maße effektiv für die Erkennung von Ein-Bit- Fehlern; abgesehen von den Modifikationen in den gewichteten Fällen und den Fällen mit Zufallsüberprüfung. Im Allgemeinen neigen die Prüf- und Paritätsbitsysteme dazu, datenunabhängige Verfahren zur Sicherstellung einer fehlerfreien Übertragung bei Übertragungen von Computer-zu-Computer zu sein. Die Prüf- und Paritätsbitsysteme werden daher nicht als genaue Prüfsysteme, sondern eher als erste Überprüfungstechniken angesehen, die auf die Digital-zu-Digital- Kommunikation beschränkt sind und die nicht auf Analog-Digital-Umwandlungen wie die optische Zeichenerkennung angewendet werden können.
Ein weiteres System des Standes der Technik, das eine 16-Bit-Prüffolge vorsieht, die datenabhängig und auf dem Inhalt des Datenfeldes basierend errechnet ist, geht aus dem US-Patent Nr. 4,964,127 von Calvignac et al hervor. Wie gesagt wird dieses System bei Daten angewendet, die entlang eines Datenpfads übermittelt werden, vorzugsweise in digitaler Form.
Auf dem Gebiet der optischen Zeichenerkennung (OCR) gibt es ein ähnliches Bedürfnis, um Mittel zur Erkennung und Korrektur von Fehlern in Daten zur Verfügung zu stellen, die durch optisches Abtasten, Bitmapping und Computerverschlüsselung reproduziert worden sind. Sowohl das Nachschlagen in einem Wörterbuch als auch die Bezugnahme auf häufige Fehler sind im Zusammenhang mit OCR vorgeschlagen worden. Wie in der Vergangenheit ist die Überprüfung eines Eintrags nach dem anderen sowohl aufwendig als auch ineffizient. Darüber hinaus ist das Dokumentlayout zusätzlich zu den gedruckten Wörtern ein entscheidendes Merkmal in OCR. Die Benutzung von gängigen Prüfsystemen mit Paritätsbits in einem optisch abgetasteten, Bitmapsystem ist nur nominell für die Fehlererkennung effektiv, relativ ineffektiv für die Fehlerlokalisierung und absolut ineffektiv für die Erkennung und die Korrektur eines unrichtigen Layouts.
Eine Vorrichtung zur Identifizierung und Korrektur von "nichterkennbaren" Zeichen in OCR-Maschinen wird in dem US-Patent Nr. 4,974,260 von Rudak beschrieben. In diesem System werden die nicht erkannten Zeichen in einem elektronischen Wörterbuchnachschlageverfahren nacheinander einem Bediener angezeigt, um eine Deutung und Korrektur zu bewirken. Eine stärker automatisierte OCR- Fehlererkennung und -korrektur ist wünschenswert, im Augenblick jedoch nicht erhältlich.
Ferner ist aus der US-A-3,200,372 ein Verfahren gemäß dem Oberbegriff des Anspruchs 1 bekannt. Dieses Verfahren bezieht sich jedoch auf die Fehlerkorrektur bei maschinenlesbaren Medien wie Lochkarten. Das Verfahren ist in der Lage einen einzigen Fehler pro Textteile zu korrigieren, allerdings lediglich eine bestimmte Fehlerklasse, nämlich einen Unsicherheitsfehler.
Es ist daher ein Ziel der Erfindung, ein verbessertes Fehlerkorrekturverfahren anzugeben, das darüber hinaus in der Lage ist, eine größere Fehlerklasse und/oder mehr als einen Fehler pro Textzeile zu korrigieren.
Dieses Ziel wird durch die Merkmale des Kennzeichens des Anspruchs 1 erreicht.
Die Erfindung wird im Folgenden unter Bezugnahme auf die Figuren näher beschrieben, wobei:
Fig. 1 zeigt schematisch das OCR-Verfahren gemäß dem Stand der Technik mit dem Abtasten und der Reproduktion eines Dokuments;
Fig. 2 zeigt schematisch das OCR-Verfahren für die Reproduktion eines Dokuments mit Markierungen mit Zertifikaten, um eine Fehlererkennung zu ermöglichen;
Fig. 3 stellt ein in Übereinstimmung mit der Erfindung erzeugtes Dokument dar;
Fig. 4 zeigt ein komplexes Dokument, das Diagramme, Textblöcke und Fotos enthält.
Fig. 5A bis 5F zeigen ein Diagramm zur Verschlüsselung des Layouts des komplexen Dokuments, das in Fig. 4 dargestellt ist.
In Übereinstimmung mit der Erfindung werden Markierungen für Papierdokumente erzeugt, die datenabhängige Informationen zur Fehlererkennung enthalten können, auf die im Folgenden als "Zertifikate" Bezug genommen wird. Sie können ferner Informationen über das Dokumentlayout für die Übertragung an einen "abtastenden" Computer und für die Benutzung durch den abtastenden Computer nach der Reproduktion des Dokuments durch die Benutzung von OCR-Technologie enthalten.
Wenn der Zertikatbestandteil einer Markierung benutzt wird, um bei der computergestützten Erzeugung eines Originaldokuments behilflich zu sein berechnet der Zertifikaterzeuger 21 des Ursprungscomputers 22, wie in Fig. 2 dargestellt ist, ein oder mehrere datenabhängige Zertifikate 27 mit einem passenden Algorithmus, von dem ein Beispiel später detailliert beschrieben wird. Ein Zertifikat ist ein kurzer Schlüssel mit verschlüsselter Information über die Inhalte der Seite, der zur Zeit des Drucks erzeugt wird und von der OCR-Software 29, die dem abtastenden Computer 28 zugeordnet ist, erkannt werden kann. Jedes auf einem Computer erzeugte Dokument kann ein Zertifikat besitzen, das an jeden Textblock oder jede Seite angehängt oder diesem bzw. dieser zugeordnet ist. Das Verfahren zur Erzeugung des Zertifikats erfordert keinen Eingriff einer Person und lediglich einen geringen zusätzlichen Berechnungsaufwand. Das in Fig. 3 dargestellte Dokument 34, das in der Form einer gedruckten Seite oder in einem anderen Medium erzeugt ist, besteht aus einer Fläche 35, die in erster Linie für den Gebrauch durch eine Person formatiert ist, sowie aus einer Fläche 37, die für die Benutzung durch eine Maschine formatiert ist, um der Maschine beim "Verstehen" der sogenannten "menschlichen" Fläche behilflich zu sein. Die menschliche Fläche ist der analoge Abschnitt des Dokuments und die maschinelle Fläche ist der digitale Abschnitt des Dokuments. Diese Unterscheidung wird benutzt, um die Verwendung der Abschnitte des Dokuments zu erläutern, weniger aufgrund der spezifischen Ausführungsbeispiele. Die zwei Abschnitte können und werden vorzugsweise durch die Benutzung derselben Technologie bedruckt. Beispielsweise kann der "digitale" Abschnitt durch einen speziellen Font, einem Strichcode oder eine andere Symbolik bedruckt werden, die für den menschlichen Benutzer "lesbar" oder nichtlesbar sein kann, die jedoch gewählt wird, um eine Lesbarkeit durch den Computer zu bewerkstelligen. Das Zertifikat hat die Aufgabe, Informationen für die OCR- Software zu liefern, so dass es möglich wird, eine perfekte übersetzte digitale Kopie der originalen gedruckten Seite herzustellen.
Das Zertifikat, das berechnet und auf die Seite gedruckt ist, enthält Informationen über den Inhalt dieser Seite. Der Ursprungscomputer 22 von Fig. 2 umfasst Zertifikatsoftware 21, die als Zertifikatgenerator bezeichnet wird. Nach der Erzeugung des Dokuments oder während des Vorgangs der Dokumenterzeugung berechnet die Zertifikatsoftware ein oder mehrere Zertifikate, basierend auf den Informationen in und auf dem Dokument. Das erzeugte Zertifikat 27 wird als maschinenlesbarer Bestandteil des Ausdrucks 24 des Dokuments erzeugt, das durch den Drucker 13 ausgegeben wurde. Wie bei dem Stand der Technik wird der zu reproduzierende Ausdruck mittels eines digitalisierenden Scanners 16 abgetastet, der einem zweiten Computer 28 zugeordnet ist, der mit der OCR-Software ausgestattet ist. Das Originalzertifikat 27 wird abgetastet und durch den abtastenden Computer gespeichert. Wenn das OCR-Dokument 25 erzeugt ist, benutzt die OCR-Software denselben Algorithmus, der von der ursprünglichen Druckersoftware benutzt wird, um ein Zertifikat für den extrahierten Text zu errechnen. Die Darstellung zeigt den "Zertifikatverifizierer" 26 als separater Teil des Computers 28 und den "Zertifikatgenerator" 21 als Teil des Computers 22. Für einen Fachmann auf diesem Gebiet ist es klar, dass der Zertifikatgenerator oder der Zertifikatverifizierer in das Gesamtsystem eingebettet sind und nicht ein separates Programm sein müssen. Darüber hinaus ist die Berechnung von Zertifikaten für Originale oder abgetastete Daten nicht notwendigerweise ein separater Verfahrensschritt, sondern sie kann gleichzeitig mit der Erzeugung und/oder der Speicherung von Daten durchgeführt werden. Nach der Erzeugung wird das neue Zertifikat mit dem Originalzertifikat verglichen, das von der gedruckten Seite abgetastet wurde. Wenn die beiden übereinstimmen, gilt die Übersetzung als abgeschlossen und mit hoher Wahrscheinlichkeit wird angenommen, dass sie fehlerfrei ist. Wenn es eine Abweichung gibt, kann die OCR-Software eine kleine Anzahl von Fehlern erkennen und korrigieren, anhand ihrer eigenen oder eines oder mehrerer bekannter Fehlerkorrekturprogramme, die von gegenwärtigen Dokumenterzeugungs- oder OCR- Systemen manuell benutzt werden, wie oben ausgeführt wurde. Nach dem Abschluss der Fehlerkorrektur berechnet der Zertifikatverifizierer nochmals ein Zertifikat für den korrigierten Text und vergleicht es nochmals mit dem Originalzertifikat, um sicherzustellen, dass die Ausgabe richtig ist.
Das Zertifikat kann auf viele Arten berechnet werden. Beispielsweise zeigt das unten abgedruckte Unterprogramm in der Computersprache "C" eine einfache Prüfsumme, wobei eine Zeile nach der anderen geprüft wird:
Der ASCII-Wert von allen Zeichen, die nicht die Leertaste sind, wird durch eine Exklusiv-Oder-Verknüpfung mit einer laufenden 8-Bit-Prüfsumme verknüpft. Diese Prüfsumme wird anschließend um eine Stelle nach links bitweise verschoben und das Verfahren wird mit dem nächsten Zeichen der Folge wiederholt. In diesem Fall würde die Zeile "This is a test." das Zertifikat "03" (in hexadezimaler Schreibweise ausgedrückt) erhalten, das auf die fragliche Seite gedruckt wird. Wenn die OCR- Software in dem Verfahrensschritt des Abtastens die Zeile als "Thus is a test." falsch einliest, wäre das errechnete Zertifikat "73". Dementsprechend würde die OCR-Software ihren Fehler durch den Vergleich der beiden Zertifikate (eines davon aufgrund des reproduzierten Textes neu errechnet und eines ursprünglich errechnet, gedruckt und gelesen von dem gedruckten Zertifikat) erkennen und festlegen, dass sie nicht übereinstimmen. Bei der Benutzung dieses Beispielsystems beträgt die Wahrscheinlichkeit, dass zwei zufällige Textzeilen dasselbe Zertifikat haben 1 : 256. Die 8-Bit-Prüfsumme ist nur ein Beispiel eines Zertifikatberechnungssystems. Ein Fachmann auf diesem Gebiet wird ohne weiteres alternative Berechnungsverfahren in Betracht ziehen, die in den Schutzbereich der Erfindung fallen. Ein Fachmann wird auch erkennen, dass die Größe der Prüfsumme und das Berechnungsverfahren variiert werden können, um die Wahrscheinlichkeit der Fehlererkennung gemäß den Anforderungen der jeweiligen Anwendung zu erhöhen oder zu erniedrigen.
Wie bei der Erläuterung des technischen Hintergrunds erwähnt wurde, umfassen die Fehlerkorrekturverfahren, die für die Einbindung in ein OCR-System zur Verfügung stehen unter anderem Suchstrategien mit Nachschlagen in einem Wörterbuch, semantische oder Kontextinformationscodes und gängige Fehlererkennungscodes. Darüber hinaus ist die präzise mathematische Natur des Zertifikaterzeugungsalgorithmus für die präzise Identifikation der Fehler und deren Korrektur geeignet, ohne dass andere Fehlerkorrekturprogramme aufgerufen werden müssen. Zertifikate können die OCR-Erkennungsraten verbessern und schaffen ein zuverlässiges Verfahren, durch das Benutzer feststellen können, ob jede eingescannte Seite fehlerfrei ist oder nicht. Wie oben erwähnt wurde, kann die Benutzung eines Fehlererkennungs- und Korrektursystems, ohne zu wissen, ob absichtliche "Fehler" in einem Dokument existieren, in Wirklichkeit dazu führen, dass Fehler in dem Text entstehen. Wenn jedoch ein Zertifikatsystem zur Fehlererkennung und -korrektur benutzt wird, kann dieses jedoch vermieden werden. Im Falle einer beabsichtigten falschen Schreibweise würde das Zertifikatsystem beispielsweise nicht anzeigen, dass ein Fehler unterlaufen ist und es würde daher die beabsichtigte falsche Schreibweise nicht fehlerhaft korrigieren.
Eine wichtige Überlegung, insbesondere im Falle von Dokumenten mit komplizierten Strukturen ist die Bestimmung der kanonischen Reihenfolge der Analyse für die Berechnung des Zertifikats. Es liegt auf der Hand, dass die Software, die das Originalzertifikat berechnet und die OCR-Software beide dieselbe Reihenfolge benutzen müssen. Eine Linearisierungsformel könnte einer links-nach-rechts-, oben-nach-unten-Vorschrift entsprechen, in der gleichen Reihenfolge wie ein englischer Text üblicherweise von Menschen gelesen wird. Ein weiterer Versuch besteht darin, die Seite in eine Folge von Textblöcken zu zerlegen, die jeweils eine separate Einheit bei der Berechnung darstellen. Alle Blöcke, die Graphiken oder sonstige nicht-textliche Informationen enthalten, müssen anders als Standardtext behandelt werden. In dem Fall von Diagrammen ist die Erkennung, dass eine Ansammlung von "Punkten" zu einem perfekten Kreis gehört, eine schwierige Aufgabe für die Bildverarbeitungssoftware. Wenn der Zertifikatgenerator jedoch die Information verschlüsselt, dass ein gegebenes Diagramm drei Kreise und ein Dreieck enthält, kann diese Information in starkem Maße die Verarbeitungszeit beschleunigen und die Genauigkeit erhöhen. Neben der Verschlüsselung der Diagrammbestandteile könnten die genauen Positionen und Größen der wesentlichen geometrischen Elemente in dem Diagramm verschlüsselt werden (z. B. Kreisradius 0,3 cm, x-Koordinate 1,3 cm, y-Koordinate 3,8 cm, usw.). Es ist darüber hinaus möglich, ein Zertifikatschema auf die Erkennung von mathematischen Gleichungen oder auf andere Strukturen mit einem speziellen Zeichensatz anzuwenden.
Es ist ebenso wünschenswert die Informationen über die Dokumentstruktur in einer Dokumentmarkierung einzubinden. Ein Dokument mit den Maßen 15,2 · 17,8 cm (6" · 7"), das eine komplizierte Layoutstruktur hat, ist in Fig. 4 dargestellt. Das Dokument 44 enthält Textblöcke A, B, D, E und G (Bezugszeichen 45), ein Foto in Block C, 48, und ein Diagramm im Block F, 46. Zur Identifikation des Dokumentlayouts durch das Abtastsystem kann ein Layoutidentifikationssystem benutzt werden, das auf einem Flächenteilungsmodell beruht, das in den Fig. 5A bis 5F dargestellt ist. Es können auch andere geeignete Modelle benutzt werden. Das Beispiel des Flächenteilungsmodells geht davon aus, dass das Layout eines Dokuments, wie kompliziert es auch ist, durch eine gewisse Anzahl von Schnitten beschrieben werden kann. Die Zerteilung der Fläche kann rekursiv als Binärbaum beschrieben werden, vorausgesetzt, dass die kanonische Ordnung der Teilflächen definiert worden ist, die durch die Blätter dargestellt werden. Die Teilflächen oder Flächen werden zuerst identifiziert und charakterisiert als spezifische horizontale und vertikale Komponenten, beispielsweise H und V. Jede Teilfläche wird als Teil einer Baumstruktur identifiziert. Diese Baumstruktur wird dann als lineare Zeichenkette verschlüsselt. Eine rekursive Syntax wird benutzt und ergibt für das dargestellte Dokument die folgende Zeichenkette.
(H1"CRTA(V2"(H3"CRTB(H5"PHTCCRTD)) (V4"CRTE(H3"FIGFCRTG))),
wobei jede genaue Lage beispielsweise in Zoll definiert ist, senkrecht oder horizontal orientiert. CRT bezeichnet das für den bestimmten Textblock berechnete Zertifikat; PHT bezeichnet ein Foto; und FIG bezeichnet das Diagramm. Diese kurze Zeichenkette beschreibt dann vollständig das grundsätzliche Layout des Dokuments. In die Zeichenkette können zusätzliche Informationen eingebettet werden wie eine Beschreibung des Inhalts von Teilflächen (z. B. Text, Zeichnung, Gleichung, Foto), genaue x-y-Koordinaten der Teilfläche auf dieser Seite und natürlich die Fehlererkennungszertifikate.
Damit die Markierungen für den menschlichen Leser nicht aufdringlich sind, ist es möglich, die Markierungen beispielsweise in einem Logo zu "verstecken". Ein Logo der Größe 19 · 19 mm (³/&sub4;" · ³/&sub4;") kann mehr als 1000 Informationsbits verschlüsseln. Weitere Ausführungen können die Benutzung von unsichtbaren Tinten umfassen oder das Verstecken der Markierungen in dem Dokumentformat selbst. Es ist nicht erforderlich, dass die Information von dem personenlesbaren Abschnitt des Dokuments getrennt wird, und sich beispielsweise in dem freien Rand befindet. Es ist erforderlich, dass die Information derart zur Verfügung gestellt wird, dass der Computer einfach deren Ort feststellen kann und die verschlüsselten Informationen einfach lesen kann. Ferner darf sie nicht mit dem personenlesbaren Abschnitt in einer solchen Weise vermischt sein, dass dieser Bereich unleserlich ist.
Da die Markierungen im Zusammenhang für die Benutzung mit einem OCR- System beschrieben wurden, wurde bisher angenommen, dass das Medium zum Lesen der Markierungen ein Digitalscanner ist. Im Zuge der Entwicklung von anderen Eingabemedien erfordern die Verschlüsselungsverfahren eine Anpassung, um dem jeweiligen System zu entsprechen. Wie bereits zuvor diskutiert wurde, sind derartige Modifikationen für einen Fachmann dieses Gebiets möglich, ohne von dem Schutzbereich der Erfindung abzuweichen.

Claims

1. Verfahren zum Sicherstellen der Richtigkeit von aus Originaldatensequenzen elektronisch reproduzierten Datensequenzen, umfassend die Schritte:

erstes Ableiten eines oder mehrerer datenabhängiger erster Digitalwerte von den Originaldaten; zweites Ableiten eines oder mehrerer datenabhängiger zweiter Digitalwerte von den reproduzierten Daten; Vergleichen der ersten und zweiten Digitalwerte und Identifizieren und Korrigieren von Fehlern und Fehlerspeicherstellen in den reproduzierten Datensequenzen, basierend auf dem Unterschied zwischen den ersten und zweiten Werten; dadurch gekennzeichnet, dass alle zweiten Digitalwerte einem einzigen ersten Digitalwert entsprechen und dass das Verfahren ferner die Anwendung eines oder mehrerer automatischer Korrekturverfahren für identifizierte Fehler in den reproduzierten Daten umfasst, wobei die Anzahl und der Umfang der Verfahren von der Größe und der Art der Digitalwerte und/oder von zusätzlichen externen Informationen abhängt.

2. Verfahren nach Anspruch 1 zum elektronischen Reproduzieren von Originaldatensequenzen von computervorverarbeiteten gedruckten Dokumenten, umfassend die weiteren Schritte: Drucken der Schriftstücke, die ein oder mehrere erste datenabhängige, von den Originaldaten abgeleitete Digitalwerte enthalten; Erzeugen eines reproduzierte Datensequenzen aufweisenden elektronischen Dokuments durch optisches Abtasten des gedruckten Dokuments und der ersten Digitalwerte und Speichern des elektronischen Dokuments und der ersten Digitalwerte; wobei der oder die mehreren zweiten datenabhängigen Digitalwerte von den reproduzierten Daten des elektronischen Dokuments abgeleitet sind.

3. Verfahren nach Anspruch 2, wobei der Schritt des Dokumentdruckens das Erstellen einer ersten Computerversion des Dokuments in einem ersten Computer umfasst; Ableiten wenigstens eines ersten Digitalwertes als datenabhängiger erster Digitalwert für die erste Version des Dokuments, Erstellen einer Druckversion des Dokuments durch Ausgeben der ersten Version und des wenigstens einen ersten Digitalwerts durch einen mit dem ersten Computer verbundenen Drucker; wobei der Schritt des Erstellens des elektronischen Dokuments die Schritte umfasst: Erstellen einer zweiten Computerversion des Dokuments umfassend reproduzierte Daten durch optisches Abtasten der gedruckten Version und des wenigstens einen ersten Digitalwerts durch einen mit einem zweiten Computer verbundenen Abtaster mit einer Software zum Erkennen der optischen Zeichen und des Digitalwerts; wobei der Schritt des Ableitens des einen oder der mehreren zweiten datenabhängigen Digitalwerte das Ableiten wenigstens einen zweiten Digitalwerts für die zweite Computerversion des Dokuments aus den reproduzierten Daten umfasst.

4. Verfahren nach Anspruch 3, wobei die Durchführung der automatischen Fehlerkorrektur eine dritte Computerversion des Dokuments erzeugt.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei das Ableiten die Berechnung von datenabhängigen Digitalwerten umfasst.

6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die automatische Korrektur fehlerkorrigierte reproduzierte Daten erzeugt und ferner die Schritte umfasst: Ableiten eines oder mehrerer datenabhängiger dritter Digitalwerte von den fehlerkorrigierten reproduzierten Daten und Vergleichen der ersten und dritten Digitalwerte.

7. Verfahren nach Anspruch 2 oder 3, wobei das Ableiten der ersten und zweiten Digitalwerte die Anwendung desselben Algorithmus auf die Daten aller computergenerierten und elektronischen Dokumente umfasst.

8. Verfahren nach einem der Ansprüche 2, 3 oder 7, wobei die Erstellung und das Ableiten der zweiten Digitalwerte gleichzeitig durchgeführt werden.

9. Verfahren nach Anspruch 2 oder 3, wobei das Drucken des einen oder der mehreren ersten Werte das Bereitstellen des einen oder der mehreren ersten Werte in einer nicht textlichen maschinenlesbaren Symbolik umfasst.

10. Verfahren nach einem der Ansprüche 1 bis 9, wobei Datensequenzen Zeilen der Originaldaten umfassen.

11. Verfahren nach Anspruch 2 oder 3 oder nach einem der darauf folgenden Ansprüche 4 bis 10, wobei das gedruckte Dokument eine Mehrzahl von Blöcken umfasst, die zumindest mehrere Textblöcke von mehreren Zeilen der Originaldaten umfassen und wobei das Ableiten des wenigstens einen ersten Digitalwerts die Bereitstellung wenigstens einer ersten digitalen Kennzeichnung der räumlichen Beziehungen der mehreren Blöcke in dem Dokument umfasst.

12. Verfahren nach Anspruch 2 oder 3, oder einem der darauf folgenden Ansprüche 4 bis 11 zum elektronischen Reproduzieren eines computervorverarbeiteten gedruckten Dokuments mit einem Layout, das eine Mehrzahl von Originalblöcken umfasst, die zumindest eine Mehrzahl von Textblöcken mit mehreren Zeilen von Zeichen enthalten, umfassend die Schritte: Ableiten wenigstens eines ersten layoutabhängigen Wertes der räumlichen Beziehung der Mehrzahl der Originalblöcke des Dokuments; Drucken der mehreren Textblöcke mit mehreren Linien und dem wenigstens einen ersten layoutabhängigen Wert; Drucken der mehrfachen Textblöcke mit mehreren Zeilen und des wenigstens einen ersten layoutabhängigen Wertes; Erstellen eines elektronischen Dokuments mit einem Layout, bestehend aus einer Mehrzahl reproduzierter Blöcke, umfassend wenigstens mehrere Textblöcke von mehreren Zeilen von reproduzierten Zeichen durch optisches Abtasten der mehreren Zeilen und des wenigstens einen ersten layoutabhängigen Wertes; Ableiten wenigstens eines zweiten layoutabhängigen Wertes aus der räumlichen Beziehung der Mehrheit der reproduzierten Blöcke auf dem elektronischen Dokument; Vergleichen wenigstens eines ersten layoutabhängigen Wertes mit wenigstens einem zweiten layoutabhängigen Wert; und Ausfindigmachen und Lokalisieren von Layoutfehlern, beruhend auf dem Unterschied zwischen den wenigstens einen ersten und zweiten layoutabhängigen Werten.

13. Verfahren nach Anspruch 12, ferner umfassend die Schritte: Ableiten wenigstens eines ersten zeichenabhängigen Wertes von den Zeichen oder von dem Dokument; Drucken des wenigstens einen zeichenabhängigen Wertes nach dem Drucken der mehreren Zeilen und des wenigstens einen ersten layoutabhängigen Wertes.

14. Verfahren nach Anspruch 13, ferner umfassend die Schritte: Ableiten wenigstens einen zweiten zeichenabhängigen Werts von den reproduzierten Zeichen des elektronischen Dokuments; Vergleichen des wenigstens einen ersten zeichenabhängigen Wertes mit dem wenigstens einen zweiten zeichenabhängigen Wert und Identifizieren von Zeichenfehlern und Fehlerspeicherstellen in den Zeilen, beruhend auf den Unterschieden zwischen den ersten und zweiten zeichenabhängigen Werten; und Anwenden eines oder mehrerer automatischer Korrekturverfahren für die identifizierten Zeichenfehler bei den reproduzierten Zeichen.

15. Verfahren nach Anspruch 1 zum Sicherstellen der Richtigkeit eines zweiten Dokuments, umfassend durch optisches Abtasten reproduzierte Datensequenzen eines ersten Dokuments, umfassend Originaldatensequenzen und wenigstens einen verschlüsselten, maschinenlesbaren ersten datenabhängigen, dem ersten Dokument zugeordneten und auf dessen Vorderseite abtastbaren Digitalwert, umfassend die Schritte: Entschlüsseln des wenigsten einen verschlüsselten, maschinenlesbaren, ersten datenabhängigen Digitalwertes; Ableiten wenigstens einen zweiten datenabhängigen Digitalwerts für das zweite Dokument von den reproduzierten Datensequenzen; Vergleichen des wenigstens einen ersten datenabhängigen Digitalwertes mit dem wenigstens einen zweiten datenabhängigen Digitalwert und Identifizieren von Fehlern und Fehlerspeicherstellen in den reproduzierten Datensequenzen, beruhend auf den Unterschieden zwischen den ersten und zweiten datenabhängigen Digitalwerten; und Durchführung einer automatischen Fehlerkorrektur bei den reproduzierten Datensequenzen, wenn die ersten und zweiten datenabhängigen Digitalwerte unterschiedlich sind.