DE69331456T2 - Überprüfbare optische Zeichenerkennung - Google Patents

Überprüfbare optische Zeichenerkennung

Info

Publication number
DE69331456T2
DE69331456T2 DE69331456T DE69331456T DE69331456T2 DE 69331456 T2 DE69331456 T2 DE 69331456T2 DE 69331456 T DE69331456 T DE 69331456T DE 69331456 T DE69331456 T DE 69331456T DE 69331456 T2 DE69331456 T2 DE 69331456T2
Authority
DE
Germany
Prior art keywords
document
data
dependent
value
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69331456T
Other languages
English (en)
Other versions
DE69331456D1 (de
Inventor
Henry F. Korth
Richard J. Lipton
Daniel P. Lopresti
Jonathan Sandberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69331456D1 publication Critical patent/DE69331456D1/de
Application granted granted Critical
Publication of DE69331456T2 publication Critical patent/DE69331456T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

  • Die Erfindung betrifft die Verwendung von automatisch erzeugten Dokumentmarkierungen. Insbesondere betrifft sie die Verwendung von Markierungen von verschlüsselten Informationen, die auf jeder Seite eines Dokuments eingefügt sind, nicht nur, um ein Mittel für die Identifikation des Dokuments und zur Erkennung der Dokumentstruktur zu schaffen, sondern auch zur Fehlererkennung und Fehlerkorrektur, wenn die markierten Dokumente durch ein Verfahren zur optischen Zeichenerkennung (OCR) reproduziert werden.
  • Die Identifikation von Produkten durch die Benutzung von computerlesbaren Strichcodes, wobei digitale Daten direkt auf Papier aufgezeichnet werden, ermöglicht die Identifikation von Artikeln durch Verwendung von einfachen numerischen Verschlüsselungs- und Abtasttechnologien bei einem vorgegebenen, festgelegten Wertesatz. Die Identifikation von computergenerierten und gespeicherten Dokumenten ist ein weitere Technologie, die durch Verwendung von binärer Verschlüsselung zur Identifizierung entwickelt wurde und das Wiederauffinden von gespeicherten Dokumenten ermöglicht. Die meisten Softwareprogramme zur Erzeugung von Dokumenten liefern nicht nur Informationen zur Identifikation und/oder zum Wiederauffinden des Dokuments, sondern sie umfassen auch verschlüsselte Informationen zur Übermittlung an einen angeschlossenen Drucker, beispielsweise zur Spezifizierung solcher Einzelheiten wie Abstände, Ränder und zugehörige Layoutinformationen. Wenn das Dokument auf Papier ausgedruckt ist, begleitet die Information das Dokument jedoch nicht länger, im Unterschied zu der Erkennung durch den Benutzer. Wenn es gewünscht wird, das Dokument durch Verwendung eines Systems für die optische Zeichenerkennung (OCR) zu reproduzieren, gibt es kein automatisches Mittel, durch das die Layoutinformation über den Abtaster an den empfangenden Computer übermittelt werden können. Daher wäre es eine wünschenswerte Erweiterung der Identifikationstechnologie, ein Mittel zur Erzeugung einer Papierversion eines Dokuments zu schaffen, das erkannt, reproduziert und von einem Computer korrekturgelesen werden kann, indem eine in oder auf dem Papierdokument angebrachte Markierung optisch abgetastet wird, in Verbindung mit der OCR-Textabtastung des Dokuments.
  • Dokument- oder Produktinformationssysteme die in der Vergangenheit benutzt wurden umfassen Strichcodemarkierungen und Abtaster, diese Systeme werden in weiten Bereichen benutzt. In Bezug auf Papierdokumente werden spezielle Markierungen oder Muster in dem Papier benutzt, um Informationen an ein zugehöriges Gerät zur Verfügung zu stellen, beispielsweise das Arbeitskontrollblatt für Bildverarbeitung, das von Hikawa in dem US-Patent Nr. 5,051,779 vorgeschlagen wurde. Auf ähnliche Weise sind Markierungen zur Identifikation in Formulare eingebettet worden, wie es in dem US-Patent Nr. 5,060 980 von Johnson et. al. beschrieben ist. Das System von Johnson et. al. sieht das Editieren von Formularen vor, die sich bereits in dem Computer befinden. Eine Papierversion des Formulars wird von dem Benutzer ausgefüllt und anschließend abgetastet, um Eintragungen in den Feldern des Duplikats des Formulars zu liefern, das elektronisch in dem Computer gespeichert wird. Ein weiteres kürzlich patentiertes System wird in dem US-Patent 5,091,966 von Bloomberg et al beschrieben, das die Entschlüsselung von Codes mit einer hieroglyphenartigen Form lehrt, wobei es sich bei den Codes um digital verschlüsselte Daten auf Papier handelt. Die identifizierenden Codes können durch den Computer gelesen werden, so dass eine computergesteuerte Dokumenthandhabung ermöglicht wird, die die Identifikation, das Wiederauffinden und die Übertragung des Dokuments umfasst. Die im Stand der Technik beschriebenen Systeme enthalten keine Textfehlererkennung oder Korrekturprogramme. Darüber hinaus ist es bei diesen Systemen erforderlich, dass der zugeordnete Computer eine Kopie des interessierenden Dokuments in seinem Speicher hat, bevor die Informationen durch Abtasten eingegeben werden. Das System kann nicht bei Dokumenten angewendet werden, die in dem abtastenden Computer durch OCR erzeugt worden sind.
  • Wie in Fig. 1 schematisch dargestellt ist, umfassen Systeme für die optische Zeichenerkennung im Allgemeinen einen Digitalscanner 16, einen zugeordneten "abtastenden" Computer 18, zum Einscannen einer gedruckten Seite 14, die von einem erzeugenden Computer 12 generiert wurde und von einem Drucker 13 ausgegeben wurde. Der Scanner 16 extrahiert den zu speichernden Text als elektronisches Dokument 15 in einem standardisierten elektronischen Format, wie ASCII. Es ist wünschenswert, zusätzlich Informationen über den Text zur Fehlererkennung und über das Layout des Textes einzubinden, wobei die Information optisch abgetastet werden kann oder auf eine andere Weise automatisch eingegeben werden kann.
  • Aufgrund der innewohnenden Beschränkungen des Abtastverfahrens und der Fähigkeit des Systems zur optischen Zeichenerkennung, eine genaue Zeichenerkennung zu bewirken, entstehen Fehler in der Ausgabedatei, die nicht nur fehlerhaft erkannte Zeichen, sondern auch layoutabhängige Fehler umfassen. Dann muss eine Nachbearbeitung, insbesondere eine Fehlererkennung durchgeführt werden, in erster Linie durch Korrekturlesen des reproduzierten Dokuments durch eine Person. Layoutfehler können üblicherweise nicht automatisch durch den Computer korrigiert werden, sondern sie erfordern vielmehr ein aufwendiges Editieren durch den Benutzer oder gegebenenfalls eine nochmalige Erzeugung des Dokuments. Die Nachverarbeitung durch eine Person ist teuer, nicht nur hinsichtlich der tatsächlichen Kosten, sondern auch wegen der für die Vervollständigung des verarbeitenden Dokuments erforderlichen Zeit. Es wäre optimal, wenn eine Lösung nicht nur ein Mittel zur Fehlererkennung, sondern ebenso ein Mittel für die Fehlerkorrektur zur Verfügung stellen würde. Ferner sollte eine ideale Lösung eine Identifikation des Dokuments ermöglichen und die richtige Layoutstruktur des Dokuments festlegen.
  • Fehlererkennungssysteme, die in den Technologien für die computergestützte Dokumenterzeugung (z. B. Textverarbeitung) benutzt worden sind, umfassen Techniken, die auf dem Nachschlagen in Wörterbüchern basieren und/oder handelt es sich um Versuche, semantische oder Kontextinformationen, die von dem Dokument gewonnen wurden, zu benutzen, um Fehler zu identifizieren und zu korrigieren. Viele dieser Systeme erfordern, dass Einträge in dem Dokument, die nicht mit einem Eintrag in dem Lexikon übereinstimmen durch einen "menschlichen Nachbearbeiter" überprüft werden. Die automatisierte fehlerkorrigierte Version eines wörterbuchbasierten Systems würde nach der Identifikation sofort Einträge korrigieren, die nicht mit Wörterbucheinträgen übereinstimmen. Man kann sich ohne weiteres Umstände vorstellen, bei denen eine automatische Korrektur nicht gewünscht ist, wie in dem Fall eines Eigennamens, einer absichtlich falschen Schreibweise oder bei einer Wortneuschöpfung. Die Annahme bei der Benutzung von Wörterbuchvergleichversionen solcher Systeme ist, dass jeder Eintrag des gesamten Dokuments mit einem auf einer Datenbank basierenden Wörterbuch von Begriffen verglichen wird. Der Aufwand für den Vergleich aller Einträge eines Dokuments mit einem vorgegebenen Lexikon ist ziemlich groß.
  • Die Benutzung von semantischen Informationen, die von dem Dokument gewonnen werden, wird im Stand der Technik darüber hinaus vorgeschlagen, um eine Identifikation und eine automatische Korrektur von Fehlern zu bewerkstelligen, die nicht ohne weiteres als fehlerhafte Schreibweisen von vorhandenen Wörterbuchbegriffen identifiziert werden können, oder die mehr als einem zur Verfügung stehenden Wörterbucheintrag ähneln. Ein derartiges System wird den Begriff "ofthe" als "of the" erkennen und korrigieren, während der Begriff nach dem Nachschlagen in einem Wörterbuch einfach abgelehnt würde. In ähnlicher Weise ist eine Reihe von häufig auftretenden Fehlern für die benutzte Hardware oder Software und für den Font oder die eingescannten Fonts vorgeschlagen worden, die zusammen mit Kontextinformationen oder semantischen Informationen benutzt werden, um gängige Fehler zu identifizieren und automatisch zu korrigieren, beispielsweise wenn "rn" fehlerhaft als "m" erkannt wird, oder wenn der Buchstabe "I" fehlerhaft als die Zahl "1" erkannt wird.
  • Um Fehler zu erkennen, ohne dass ein Nachschlagen für jeden einzelnen Eintrag erforderlich ist, insbesondere für Dokumente, die über verteilte Netzwerke übertragen werden, haben Systeme Paritätsbits benutzt, die mit den Daten übertragen werden. Nach der Durchführung der Übertragung wird in dem "neuen" Dokument eine Zählung der Bits vorgenommen. Wenn das errechnete Bit dem übertragenen Paritätsbit entspricht, wird angenommen, dass die Übertragung fehlerfrei ist. Derartige Systeme und Erweiterungen des Paritäts- und Prüfbitkonzepts, die in dem US-Patent Nr. 5,068,854 von Chandran et. al. vorgeschlagen werden, sind nützlich für die Fehlererkennung bei digital verschlüsselten Informationen. Erweiterungen des Paritätsbitkonzepts, wie gewichtete Fehlerkorrekturcodes für die Erkennung und die Korrektur von mehr als einem Einbitfehler sind ebenso im Stand der Technik bekannt, beispielsweise aus dem US-Patent Nr. 4,965883 von Kirby. Paritäts- und Prüfbitsysteme, die für die Benutzung mit binär codierter Information entwickelt worden sind, sind in der Lage, das Vorhandensein von Fehlern mit hinreichender Genauigkeit festzustellen, angesichts der geringen Wahrscheinlichkeit, dass das Fehlerbit einer fehlerhaft empfangenen Datenmenge dem Prüfbit des übertragenen Materials entspricht. Da die Bits anhand binär codierter Daten errechnet werden, sind sie in höchstem Maße effektiv für die Erkennung von Ein-Bit- Fehlern; abgesehen von den Modifikationen in den gewichteten Fällen und den Fällen mit Zufallsüberprüfung. Im Allgemeinen neigen die Prüf- und Paritätsbitsysteme dazu, datenunabhängige Verfahren zur Sicherstellung einer fehlerfreien Übertragung bei Übertragungen von Computer-zu-Computer zu sein. Die Prüf- und Paritätsbitsysteme werden daher nicht als genaue Prüfsysteme, sondern eher als erste Überprüfungstechniken angesehen, die auf die Digital-zu-Digital- Kommunikation beschränkt sind und die nicht auf Analog-Digital-Umwandlungen wie die optische Zeichenerkennung angewendet werden können.
  • Ein weiteres System des Standes der Technik, das eine 16-Bit-Prüffolge vorsieht, die datenabhängig und auf dem Inhalt des Datenfeldes basierend errechnet ist, geht aus dem US-Patent Nr. 4,964,127 von Calvignac et al hervor. Wie gesagt wird dieses System bei Daten angewendet, die entlang eines Datenpfads übermittelt werden, vorzugsweise in digitaler Form.
  • Auf dem Gebiet der optischen Zeichenerkennung (OCR) gibt es ein ähnliches Bedürfnis, um Mittel zur Erkennung und Korrektur von Fehlern in Daten zur Verfügung zu stellen, die durch optisches Abtasten, Bitmapping und Computerverschlüsselung reproduziert worden sind. Sowohl das Nachschlagen in einem Wörterbuch als auch die Bezugnahme auf häufige Fehler sind im Zusammenhang mit OCR vorgeschlagen worden. Wie in der Vergangenheit ist die Überprüfung eines Eintrags nach dem anderen sowohl aufwendig als auch ineffizient. Darüber hinaus ist das Dokumentlayout zusätzlich zu den gedruckten Wörtern ein entscheidendes Merkmal in OCR. Die Benutzung von gängigen Prüfsystemen mit Paritätsbits in einem optisch abgetasteten, Bitmapsystem ist nur nominell für die Fehlererkennung effektiv, relativ ineffektiv für die Fehlerlokalisierung und absolut ineffektiv für die Erkennung und die Korrektur eines unrichtigen Layouts.
  • Eine Vorrichtung zur Identifizierung und Korrektur von "nichterkennbaren" Zeichen in OCR-Maschinen wird in dem US-Patent Nr. 4,974,260 von Rudak beschrieben. In diesem System werden die nicht erkannten Zeichen in einem elektronischen Wörterbuchnachschlageverfahren nacheinander einem Bediener angezeigt, um eine Deutung und Korrektur zu bewirken. Eine stärker automatisierte OCR- Fehlererkennung und -korrektur ist wünschenswert, im Augenblick jedoch nicht erhältlich.
  • Ferner ist aus der US-A-3,200,372 ein Verfahren gemäß dem Oberbegriff des Anspruchs 1 bekannt. Dieses Verfahren bezieht sich jedoch auf die Fehlerkorrektur bei maschinenlesbaren Medien wie Lochkarten. Das Verfahren ist in der Lage einen einzigen Fehler pro Textteile zu korrigieren, allerdings lediglich eine bestimmte Fehlerklasse, nämlich einen Unsicherheitsfehler.
  • Es ist daher ein Ziel der Erfindung, ein verbessertes Fehlerkorrekturverfahren anzugeben, das darüber hinaus in der Lage ist, eine größere Fehlerklasse und/oder mehr als einen Fehler pro Textzeile zu korrigieren.
  • Dieses Ziel wird durch die Merkmale des Kennzeichens des Anspruchs 1 erreicht.
  • Die Erfindung wird im Folgenden unter Bezugnahme auf die Figuren näher beschrieben, wobei:
  • Fig. 1 zeigt schematisch das OCR-Verfahren gemäß dem Stand der Technik mit dem Abtasten und der Reproduktion eines Dokuments;
  • Fig. 2 zeigt schematisch das OCR-Verfahren für die Reproduktion eines Dokuments mit Markierungen mit Zertifikaten, um eine Fehlererkennung zu ermöglichen;
  • Fig. 3 stellt ein in Übereinstimmung mit der Erfindung erzeugtes Dokument dar;
  • Fig. 4 zeigt ein komplexes Dokument, das Diagramme, Textblöcke und Fotos enthält.
  • Fig. 5A bis 5F zeigen ein Diagramm zur Verschlüsselung des Layouts des komplexen Dokuments, das in Fig. 4 dargestellt ist.
  • In Übereinstimmung mit der Erfindung werden Markierungen für Papierdokumente erzeugt, die datenabhängige Informationen zur Fehlererkennung enthalten können, auf die im Folgenden als "Zertifikate" Bezug genommen wird. Sie können ferner Informationen über das Dokumentlayout für die Übertragung an einen "abtastenden" Computer und für die Benutzung durch den abtastenden Computer nach der Reproduktion des Dokuments durch die Benutzung von OCR-Technologie enthalten.
  • Wenn der Zertikatbestandteil einer Markierung benutzt wird, um bei der computergestützten Erzeugung eines Originaldokuments behilflich zu sein berechnet der Zertifikaterzeuger 21 des Ursprungscomputers 22, wie in Fig. 2 dargestellt ist, ein oder mehrere datenabhängige Zertifikate 27 mit einem passenden Algorithmus, von dem ein Beispiel später detailliert beschrieben wird. Ein Zertifikat ist ein kurzer Schlüssel mit verschlüsselter Information über die Inhalte der Seite, der zur Zeit des Drucks erzeugt wird und von der OCR-Software 29, die dem abtastenden Computer 28 zugeordnet ist, erkannt werden kann. Jedes auf einem Computer erzeugte Dokument kann ein Zertifikat besitzen, das an jeden Textblock oder jede Seite angehängt oder diesem bzw. dieser zugeordnet ist. Das Verfahren zur Erzeugung des Zertifikats erfordert keinen Eingriff einer Person und lediglich einen geringen zusätzlichen Berechnungsaufwand. Das in Fig. 3 dargestellte Dokument 34, das in der Form einer gedruckten Seite oder in einem anderen Medium erzeugt ist, besteht aus einer Fläche 35, die in erster Linie für den Gebrauch durch eine Person formatiert ist, sowie aus einer Fläche 37, die für die Benutzung durch eine Maschine formatiert ist, um der Maschine beim "Verstehen" der sogenannten "menschlichen" Fläche behilflich zu sein. Die menschliche Fläche ist der analoge Abschnitt des Dokuments und die maschinelle Fläche ist der digitale Abschnitt des Dokuments. Diese Unterscheidung wird benutzt, um die Verwendung der Abschnitte des Dokuments zu erläutern, weniger aufgrund der spezifischen Ausführungsbeispiele. Die zwei Abschnitte können und werden vorzugsweise durch die Benutzung derselben Technologie bedruckt. Beispielsweise kann der "digitale" Abschnitt durch einen speziellen Font, einem Strichcode oder eine andere Symbolik bedruckt werden, die für den menschlichen Benutzer "lesbar" oder nichtlesbar sein kann, die jedoch gewählt wird, um eine Lesbarkeit durch den Computer zu bewerkstelligen. Das Zertifikat hat die Aufgabe, Informationen für die OCR- Software zu liefern, so dass es möglich wird, eine perfekte übersetzte digitale Kopie der originalen gedruckten Seite herzustellen.
  • Das Zertifikat, das berechnet und auf die Seite gedruckt ist, enthält Informationen über den Inhalt dieser Seite. Der Ursprungscomputer 22 von Fig. 2 umfasst Zertifikatsoftware 21, die als Zertifikatgenerator bezeichnet wird. Nach der Erzeugung des Dokuments oder während des Vorgangs der Dokumenterzeugung berechnet die Zertifikatsoftware ein oder mehrere Zertifikate, basierend auf den Informationen in und auf dem Dokument. Das erzeugte Zertifikat 27 wird als maschinenlesbarer Bestandteil des Ausdrucks 24 des Dokuments erzeugt, das durch den Drucker 13 ausgegeben wurde. Wie bei dem Stand der Technik wird der zu reproduzierende Ausdruck mittels eines digitalisierenden Scanners 16 abgetastet, der einem zweiten Computer 28 zugeordnet ist, der mit der OCR-Software ausgestattet ist. Das Originalzertifikat 27 wird abgetastet und durch den abtastenden Computer gespeichert. Wenn das OCR-Dokument 25 erzeugt ist, benutzt die OCR-Software denselben Algorithmus, der von der ursprünglichen Druckersoftware benutzt wird, um ein Zertifikat für den extrahierten Text zu errechnen. Die Darstellung zeigt den "Zertifikatverifizierer" 26 als separater Teil des Computers 28 und den "Zertifikatgenerator" 21 als Teil des Computers 22. Für einen Fachmann auf diesem Gebiet ist es klar, dass der Zertifikatgenerator oder der Zertifikatverifizierer in das Gesamtsystem eingebettet sind und nicht ein separates Programm sein müssen. Darüber hinaus ist die Berechnung von Zertifikaten für Originale oder abgetastete Daten nicht notwendigerweise ein separater Verfahrensschritt, sondern sie kann gleichzeitig mit der Erzeugung und/oder der Speicherung von Daten durchgeführt werden. Nach der Erzeugung wird das neue Zertifikat mit dem Originalzertifikat verglichen, das von der gedruckten Seite abgetastet wurde. Wenn die beiden übereinstimmen, gilt die Übersetzung als abgeschlossen und mit hoher Wahrscheinlichkeit wird angenommen, dass sie fehlerfrei ist. Wenn es eine Abweichung gibt, kann die OCR-Software eine kleine Anzahl von Fehlern erkennen und korrigieren, anhand ihrer eigenen oder eines oder mehrerer bekannter Fehlerkorrekturprogramme, die von gegenwärtigen Dokumenterzeugungs- oder OCR- Systemen manuell benutzt werden, wie oben ausgeführt wurde. Nach dem Abschluss der Fehlerkorrektur berechnet der Zertifikatverifizierer nochmals ein Zertifikat für den korrigierten Text und vergleicht es nochmals mit dem Originalzertifikat, um sicherzustellen, dass die Ausgabe richtig ist.
  • Das Zertifikat kann auf viele Arten berechnet werden. Beispielsweise zeigt das unten abgedruckte Unterprogramm in der Computersprache "C" eine einfache Prüfsumme, wobei eine Zeile nach der anderen geprüft wird:
  • Der ASCII-Wert von allen Zeichen, die nicht die Leertaste sind, wird durch eine Exklusiv-Oder-Verknüpfung mit einer laufenden 8-Bit-Prüfsumme verknüpft. Diese Prüfsumme wird anschließend um eine Stelle nach links bitweise verschoben und das Verfahren wird mit dem nächsten Zeichen der Folge wiederholt. In diesem Fall würde die Zeile "This is a test." das Zertifikat "03" (in hexadezimaler Schreibweise ausgedrückt) erhalten, das auf die fragliche Seite gedruckt wird. Wenn die OCR- Software in dem Verfahrensschritt des Abtastens die Zeile als "Thus is a test." falsch einliest, wäre das errechnete Zertifikat "73". Dementsprechend würde die OCR-Software ihren Fehler durch den Vergleich der beiden Zertifikate (eines davon aufgrund des reproduzierten Textes neu errechnet und eines ursprünglich errechnet, gedruckt und gelesen von dem gedruckten Zertifikat) erkennen und festlegen, dass sie nicht übereinstimmen. Bei der Benutzung dieses Beispielsystems beträgt die Wahrscheinlichkeit, dass zwei zufällige Textzeilen dasselbe Zertifikat haben 1 : 256. Die 8-Bit-Prüfsumme ist nur ein Beispiel eines Zertifikatberechnungssystems. Ein Fachmann auf diesem Gebiet wird ohne weiteres alternative Berechnungsverfahren in Betracht ziehen, die in den Schutzbereich der Erfindung fallen. Ein Fachmann wird auch erkennen, dass die Größe der Prüfsumme und das Berechnungsverfahren variiert werden können, um die Wahrscheinlichkeit der Fehlererkennung gemäß den Anforderungen der jeweiligen Anwendung zu erhöhen oder zu erniedrigen.
  • Wie bei der Erläuterung des technischen Hintergrunds erwähnt wurde, umfassen die Fehlerkorrekturverfahren, die für die Einbindung in ein OCR-System zur Verfügung stehen unter anderem Suchstrategien mit Nachschlagen in einem Wörterbuch, semantische oder Kontextinformationscodes und gängige Fehlererkennungscodes. Darüber hinaus ist die präzise mathematische Natur des Zertifikaterzeugungsalgorithmus für die präzise Identifikation der Fehler und deren Korrektur geeignet, ohne dass andere Fehlerkorrekturprogramme aufgerufen werden müssen. Zertifikate können die OCR-Erkennungsraten verbessern und schaffen ein zuverlässiges Verfahren, durch das Benutzer feststellen können, ob jede eingescannte Seite fehlerfrei ist oder nicht. Wie oben erwähnt wurde, kann die Benutzung eines Fehlererkennungs- und Korrektursystems, ohne zu wissen, ob absichtliche "Fehler" in einem Dokument existieren, in Wirklichkeit dazu führen, dass Fehler in dem Text entstehen. Wenn jedoch ein Zertifikatsystem zur Fehlererkennung und -korrektur benutzt wird, kann dieses jedoch vermieden werden. Im Falle einer beabsichtigten falschen Schreibweise würde das Zertifikatsystem beispielsweise nicht anzeigen, dass ein Fehler unterlaufen ist und es würde daher die beabsichtigte falsche Schreibweise nicht fehlerhaft korrigieren.
  • Eine wichtige Überlegung, insbesondere im Falle von Dokumenten mit komplizierten Strukturen ist die Bestimmung der kanonischen Reihenfolge der Analyse für die Berechnung des Zertifikats. Es liegt auf der Hand, dass die Software, die das Originalzertifikat berechnet und die OCR-Software beide dieselbe Reihenfolge benutzen müssen. Eine Linearisierungsformel könnte einer links-nach-rechts-, oben-nach-unten-Vorschrift entsprechen, in der gleichen Reihenfolge wie ein englischer Text üblicherweise von Menschen gelesen wird. Ein weiterer Versuch besteht darin, die Seite in eine Folge von Textblöcken zu zerlegen, die jeweils eine separate Einheit bei der Berechnung darstellen. Alle Blöcke, die Graphiken oder sonstige nicht-textliche Informationen enthalten, müssen anders als Standardtext behandelt werden. In dem Fall von Diagrammen ist die Erkennung, dass eine Ansammlung von "Punkten" zu einem perfekten Kreis gehört, eine schwierige Aufgabe für die Bildverarbeitungssoftware. Wenn der Zertifikatgenerator jedoch die Information verschlüsselt, dass ein gegebenes Diagramm drei Kreise und ein Dreieck enthält, kann diese Information in starkem Maße die Verarbeitungszeit beschleunigen und die Genauigkeit erhöhen. Neben der Verschlüsselung der Diagrammbestandteile könnten die genauen Positionen und Größen der wesentlichen geometrischen Elemente in dem Diagramm verschlüsselt werden (z. B. Kreisradius 0,3 cm, x-Koordinate 1,3 cm, y-Koordinate 3,8 cm, usw.). Es ist darüber hinaus möglich, ein Zertifikatschema auf die Erkennung von mathematischen Gleichungen oder auf andere Strukturen mit einem speziellen Zeichensatz anzuwenden.
  • Es ist ebenso wünschenswert die Informationen über die Dokumentstruktur in einer Dokumentmarkierung einzubinden. Ein Dokument mit den Maßen 15,2 · 17,8 cm (6" · 7"), das eine komplizierte Layoutstruktur hat, ist in Fig. 4 dargestellt. Das Dokument 44 enthält Textblöcke A, B, D, E und G (Bezugszeichen 45), ein Foto in Block C, 48, und ein Diagramm im Block F, 46. Zur Identifikation des Dokumentlayouts durch das Abtastsystem kann ein Layoutidentifikationssystem benutzt werden, das auf einem Flächenteilungsmodell beruht, das in den Fig. 5A bis 5F dargestellt ist. Es können auch andere geeignete Modelle benutzt werden. Das Beispiel des Flächenteilungsmodells geht davon aus, dass das Layout eines Dokuments, wie kompliziert es auch ist, durch eine gewisse Anzahl von Schnitten beschrieben werden kann. Die Zerteilung der Fläche kann rekursiv als Binärbaum beschrieben werden, vorausgesetzt, dass die kanonische Ordnung der Teilflächen definiert worden ist, die durch die Blätter dargestellt werden. Die Teilflächen oder Flächen werden zuerst identifiziert und charakterisiert als spezifische horizontale und vertikale Komponenten, beispielsweise H und V. Jede Teilfläche wird als Teil einer Baumstruktur identifiziert. Diese Baumstruktur wird dann als lineare Zeichenkette verschlüsselt. Eine rekursive Syntax wird benutzt und ergibt für das dargestellte Dokument die folgende Zeichenkette.
  • (H1"CRTA(V2"(H3"CRTB(H5"PHTCCRTD)) (V4"CRTE(H3"FIGFCRTG))),
  • wobei jede genaue Lage beispielsweise in Zoll definiert ist, senkrecht oder horizontal orientiert. CRT bezeichnet das für den bestimmten Textblock berechnete Zertifikat; PHT bezeichnet ein Foto; und FIG bezeichnet das Diagramm. Diese kurze Zeichenkette beschreibt dann vollständig das grundsätzliche Layout des Dokuments. In die Zeichenkette können zusätzliche Informationen eingebettet werden wie eine Beschreibung des Inhalts von Teilflächen (z. B. Text, Zeichnung, Gleichung, Foto), genaue x-y-Koordinaten der Teilfläche auf dieser Seite und natürlich die Fehlererkennungszertifikate.
  • Damit die Markierungen für den menschlichen Leser nicht aufdringlich sind, ist es möglich, die Markierungen beispielsweise in einem Logo zu "verstecken". Ein Logo der Größe 19 · 19 mm (³/&sub4;" · ³/&sub4;") kann mehr als 1000 Informationsbits verschlüsseln. Weitere Ausführungen können die Benutzung von unsichtbaren Tinten umfassen oder das Verstecken der Markierungen in dem Dokumentformat selbst. Es ist nicht erforderlich, dass die Information von dem personenlesbaren Abschnitt des Dokuments getrennt wird, und sich beispielsweise in dem freien Rand befindet. Es ist erforderlich, dass die Information derart zur Verfügung gestellt wird, dass der Computer einfach deren Ort feststellen kann und die verschlüsselten Informationen einfach lesen kann. Ferner darf sie nicht mit dem personenlesbaren Abschnitt in einer solchen Weise vermischt sein, dass dieser Bereich unleserlich ist.
  • Da die Markierungen im Zusammenhang für die Benutzung mit einem OCR- System beschrieben wurden, wurde bisher angenommen, dass das Medium zum Lesen der Markierungen ein Digitalscanner ist. Im Zuge der Entwicklung von anderen Eingabemedien erfordern die Verschlüsselungsverfahren eine Anpassung, um dem jeweiligen System zu entsprechen. Wie bereits zuvor diskutiert wurde, sind derartige Modifikationen für einen Fachmann dieses Gebiets möglich, ohne von dem Schutzbereich der Erfindung abzuweichen.

Claims (15)

1. Verfahren zum Sicherstellen der Richtigkeit von aus Originaldatensequenzen elektronisch reproduzierten Datensequenzen, umfassend die Schritte:
erstes Ableiten eines oder mehrerer datenabhängiger erster Digitalwerte von den Originaldaten; zweites Ableiten eines oder mehrerer datenabhängiger zweiter Digitalwerte von den reproduzierten Daten; Vergleichen der ersten und zweiten Digitalwerte und Identifizieren und Korrigieren von Fehlern und Fehlerspeicherstellen in den reproduzierten Datensequenzen, basierend auf dem Unterschied zwischen den ersten und zweiten Werten; dadurch gekennzeichnet, dass alle zweiten Digitalwerte einem einzigen ersten Digitalwert entsprechen und dass das Verfahren ferner die Anwendung eines oder mehrerer automatischer Korrekturverfahren für identifizierte Fehler in den reproduzierten Daten umfasst, wobei die Anzahl und der Umfang der Verfahren von der Größe und der Art der Digitalwerte und/oder von zusätzlichen externen Informationen abhängt.
2. Verfahren nach Anspruch 1 zum elektronischen Reproduzieren von Originaldatensequenzen von computervorverarbeiteten gedruckten Dokumenten, umfassend die weiteren Schritte: Drucken der Schriftstücke, die ein oder mehrere erste datenabhängige, von den Originaldaten abgeleitete Digitalwerte enthalten; Erzeugen eines reproduzierte Datensequenzen aufweisenden elektronischen Dokuments durch optisches Abtasten des gedruckten Dokuments und der ersten Digitalwerte und Speichern des elektronischen Dokuments und der ersten Digitalwerte; wobei der oder die mehreren zweiten datenabhängigen Digitalwerte von den reproduzierten Daten des elektronischen Dokuments abgeleitet sind.
3. Verfahren nach Anspruch 2, wobei der Schritt des Dokumentdruckens das Erstellen einer ersten Computerversion des Dokuments in einem ersten Computer umfasst; Ableiten wenigstens eines ersten Digitalwertes als datenabhängiger erster Digitalwert für die erste Version des Dokuments, Erstellen einer Druckversion des Dokuments durch Ausgeben der ersten Version und des wenigstens einen ersten Digitalwerts durch einen mit dem ersten Computer verbundenen Drucker; wobei der Schritt des Erstellens des elektronischen Dokuments die Schritte umfasst: Erstellen einer zweiten Computerversion des Dokuments umfassend reproduzierte Daten durch optisches Abtasten der gedruckten Version und des wenigstens einen ersten Digitalwerts durch einen mit einem zweiten Computer verbundenen Abtaster mit einer Software zum Erkennen der optischen Zeichen und des Digitalwerts; wobei der Schritt des Ableitens des einen oder der mehreren zweiten datenabhängigen Digitalwerte das Ableiten wenigstens einen zweiten Digitalwerts für die zweite Computerversion des Dokuments aus den reproduzierten Daten umfasst.
4. Verfahren nach Anspruch 3, wobei die Durchführung der automatischen Fehlerkorrektur eine dritte Computerversion des Dokuments erzeugt.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei das Ableiten die Berechnung von datenabhängigen Digitalwerten umfasst.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die automatische Korrektur fehlerkorrigierte reproduzierte Daten erzeugt und ferner die Schritte umfasst: Ableiten eines oder mehrerer datenabhängiger dritter Digitalwerte von den fehlerkorrigierten reproduzierten Daten und Vergleichen der ersten und dritten Digitalwerte.
7. Verfahren nach Anspruch 2 oder 3, wobei das Ableiten der ersten und zweiten Digitalwerte die Anwendung desselben Algorithmus auf die Daten aller computergenerierten und elektronischen Dokumente umfasst.
8. Verfahren nach einem der Ansprüche 2, 3 oder 7, wobei die Erstellung und das Ableiten der zweiten Digitalwerte gleichzeitig durchgeführt werden.
9. Verfahren nach Anspruch 2 oder 3, wobei das Drucken des einen oder der mehreren ersten Werte das Bereitstellen des einen oder der mehreren ersten Werte in einer nicht textlichen maschinenlesbaren Symbolik umfasst.
10. Verfahren nach einem der Ansprüche 1 bis 9, wobei Datensequenzen Zeilen der Originaldaten umfassen.
11. Verfahren nach Anspruch 2 oder 3 oder nach einem der darauf folgenden Ansprüche 4 bis 10, wobei das gedruckte Dokument eine Mehrzahl von Blöcken umfasst, die zumindest mehrere Textblöcke von mehreren Zeilen der Originaldaten umfassen und wobei das Ableiten des wenigstens einen ersten Digitalwerts die Bereitstellung wenigstens einer ersten digitalen Kennzeichnung der räumlichen Beziehungen der mehreren Blöcke in dem Dokument umfasst.
12. Verfahren nach Anspruch 2 oder 3, oder einem der darauf folgenden Ansprüche 4 bis 11 zum elektronischen Reproduzieren eines computervorverarbeiteten gedruckten Dokuments mit einem Layout, das eine Mehrzahl von Originalblöcken umfasst, die zumindest eine Mehrzahl von Textblöcken mit mehreren Zeilen von Zeichen enthalten, umfassend die Schritte: Ableiten wenigstens eines ersten layoutabhängigen Wertes der räumlichen Beziehung der Mehrzahl der Originalblöcke des Dokuments; Drucken der mehreren Textblöcke mit mehreren Linien und dem wenigstens einen ersten layoutabhängigen Wert; Drucken der mehrfachen Textblöcke mit mehreren Zeilen und des wenigstens einen ersten layoutabhängigen Wertes; Erstellen eines elektronischen Dokuments mit einem Layout, bestehend aus einer Mehrzahl reproduzierter Blöcke, umfassend wenigstens mehrere Textblöcke von mehreren Zeilen von reproduzierten Zeichen durch optisches Abtasten der mehreren Zeilen und des wenigstens einen ersten layoutabhängigen Wertes; Ableiten wenigstens eines zweiten layoutabhängigen Wertes aus der räumlichen Beziehung der Mehrheit der reproduzierten Blöcke auf dem elektronischen Dokument; Vergleichen wenigstens eines ersten layoutabhängigen Wertes mit wenigstens einem zweiten layoutabhängigen Wert; und Ausfindigmachen und Lokalisieren von Layoutfehlern, beruhend auf dem Unterschied zwischen den wenigstens einen ersten und zweiten layoutabhängigen Werten.
13. Verfahren nach Anspruch 12, ferner umfassend die Schritte: Ableiten wenigstens eines ersten zeichenabhängigen Wertes von den Zeichen oder von dem Dokument; Drucken des wenigstens einen zeichenabhängigen Wertes nach dem Drucken der mehreren Zeilen und des wenigstens einen ersten layoutabhängigen Wertes.
14. Verfahren nach Anspruch 13, ferner umfassend die Schritte: Ableiten wenigstens einen zweiten zeichenabhängigen Werts von den reproduzierten Zeichen des elektronischen Dokuments; Vergleichen des wenigstens einen ersten zeichenabhängigen Wertes mit dem wenigstens einen zweiten zeichenabhängigen Wert und Identifizieren von Zeichenfehlern und Fehlerspeicherstellen in den Zeilen, beruhend auf den Unterschieden zwischen den ersten und zweiten zeichenabhängigen Werten; und Anwenden eines oder mehrerer automatischer Korrekturverfahren für die identifizierten Zeichenfehler bei den reproduzierten Zeichen.
15. Verfahren nach Anspruch 1 zum Sicherstellen der Richtigkeit eines zweiten Dokuments, umfassend durch optisches Abtasten reproduzierte Datensequenzen eines ersten Dokuments, umfassend Originaldatensequenzen und wenigstens einen verschlüsselten, maschinenlesbaren ersten datenabhängigen, dem ersten Dokument zugeordneten und auf dessen Vorderseite abtastbaren Digitalwert, umfassend die Schritte: Entschlüsseln des wenigsten einen verschlüsselten, maschinenlesbaren, ersten datenabhängigen Digitalwertes; Ableiten wenigstens einen zweiten datenabhängigen Digitalwerts für das zweite Dokument von den reproduzierten Datensequenzen; Vergleichen des wenigstens einen ersten datenabhängigen Digitalwertes mit dem wenigstens einen zweiten datenabhängigen Digitalwert und Identifizieren von Fehlern und Fehlerspeicherstellen in den reproduzierten Datensequenzen, beruhend auf den Unterschieden zwischen den ersten und zweiten datenabhängigen Digitalwerten; und Durchführung einer automatischen Fehlerkorrektur bei den reproduzierten Datensequenzen, wenn die ersten und zweiten datenabhängigen Digitalwerte unterschiedlich sind.
DE69331456T 1992-10-09 1993-10-08 Überprüfbare optische Zeichenerkennung Expired - Fee Related DE69331456T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US95893892A 1992-10-09 1992-10-09

Publications (2)

Publication Number Publication Date
DE69331456D1 DE69331456D1 (de) 2002-02-21
DE69331456T2 true DE69331456T2 (de) 2002-11-07

Family

ID=25501468

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69331456T Expired - Fee Related DE69331456T2 (de) 1992-10-09 1993-10-08 Überprüfbare optische Zeichenerkennung

Country Status (6)

Country Link
US (2) US5625721A (de)
EP (1) EP0592238B1 (de)
JP (1) JPH06282679A (de)
KR (1) KR100311338B1 (de)
DE (1) DE69331456T2 (de)
TW (1) TW401567B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010038729A1 (de) 2010-07-30 2012-02-02 Hans-Peter Bannert Verfahren und Vorrichtung zum elektronischen Erfassen von Rechnungsdaten

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748807A (en) * 1992-10-09 1998-05-05 Panasonic Technologies, Inc. Method and means for enhancing optical character recognition of printed documents
TW250558B (en) * 1993-10-20 1995-07-01 Yamaha Corp Sheet music recognition device
US6535618B1 (en) 1994-10-21 2003-03-18 Digimarc Corporation Image capture device with steganographic data embedding
US5832474A (en) * 1996-02-26 1998-11-03 Matsushita Electric Industrial Co., Ltd. Document search and retrieval system with partial match searching of user-drawn annotations
GB9603998D0 (en) * 1996-02-26 1996-04-24 Domino Printing Sciences Plc Method of and apparatus for print verification
US5719960A (en) * 1996-06-26 1998-02-17 Canon Kabushiki Kaisha System for dispatching task orders into a user network and method
US6002844A (en) * 1996-08-09 1999-12-14 Canon Aptex Inc. Barcode printing system and its control method
US5870510A (en) * 1996-12-20 1999-02-09 Xerox Corporation Parallel propagating embedded binary sequences for parameterizing two dimensional image domain code patterns in N-dimensional address space
US5937110A (en) * 1996-12-20 1999-08-10 Xerox Corporation Parallel propagating embedded binary sequences for characterizing objects in N-dimensional address space
US5862271A (en) * 1996-12-20 1999-01-19 Xerox Corporation Parallel propagating embedded binary sequences for characterizing and parameterizing two dimensional image domain code patterns in N-dimensional address space
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
US6023534A (en) * 1997-08-04 2000-02-08 Xerox Corporation Method of extracting image data from an area generated with a halftone pattern
EP1073972A4 (de) * 1998-04-01 2005-03-30 William Peterman System und verfahren zum suchen von elektronischen dokumenten erstellt mit optischer symbolerkennung
US6533175B1 (en) * 1999-05-28 2003-03-18 Barcode Graphic Inc. Automatic compliance-testing system for desktop designed consumer packaging
US6674919B1 (en) 1999-09-21 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for determining the skew angle of a two-dimensional barcode
JP3862198B2 (ja) * 1999-12-21 2006-12-27 富士フイルムホールディングス株式会社 証明写真撮影装置と画像処理装置及び証明写真作成システム
US6950553B1 (en) * 2000-03-23 2005-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
US6768560B1 (en) 2000-05-19 2004-07-27 Xerox Corporation Assist channel coding with vertical block error correction
US6862113B1 (en) 2000-05-19 2005-03-01 Xerox Corporation Assist channel coding with character classifications
US6628837B1 (en) 2000-05-19 2003-09-30 Xerox Corporation Assist channel coding with convolution coding
US7110621B1 (en) 2000-05-19 2006-09-19 Xerox Corporation Assist channel coding using a rewrite model
US7577683B2 (en) * 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US7917844B1 (en) * 2000-07-14 2011-03-29 International Business Machines Corporation Directory service for form processing
US7493250B2 (en) * 2000-12-18 2009-02-17 Xerox Corporation System and method for distributing multilingual documents
JP2002344736A (ja) * 2001-05-21 2002-11-29 Oki Electric Ind Co Ltd プリント紙の原本保証システム,プリンタ装置,および,検証装置
US20030065677A1 (en) * 2001-09-28 2003-04-03 Culp Jerlyn R. Electronic calendaring device
EP1490822A2 (de) 2002-02-04 2004-12-29 Ingenuity Systems Inc. Verfahren zur arzneimittelentdeckung
US8793073B2 (en) * 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
FR2837011B1 (fr) * 2002-03-05 2004-05-28 Comptacom Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants
AU2002952106A0 (en) * 2002-10-15 2002-10-31 Silverbrook Research Pty Ltd Methods and systems (npw008)
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
JPWO2004055713A1 (ja) * 2002-12-17 2006-04-20 シャープ株式会社 バーコード認識装置
US20040199877A1 (en) * 2003-03-17 2004-10-07 Hiroshi Yasuda System for processing handwritten document and method for processing handwritten document
US20040202386A1 (en) * 2003-04-11 2004-10-14 Pitney Bowes Incorporated Automatic paper to digital converter and indexer
US20040223648A1 (en) * 2003-05-05 2004-11-11 Keith Hoene Determining differences between documents
US20050281450A1 (en) * 2004-06-18 2005-12-22 Digicor Llc System and method for correcting data in financial documents
US8549400B2 (en) * 2004-09-28 2013-10-01 Ricoh Company, Ltd. Techniques for encoding media objects to a static visual representation
US7725825B2 (en) * 2004-09-28 2010-05-25 Ricoh Company, Ltd. Techniques for decoding and reconstructing media objects from a still visual representation
US7774705B2 (en) 2004-09-28 2010-08-10 Ricoh Company, Ltd. Interactive design process for creating stand-alone visual representations for media objects
US20060112017A1 (en) * 2004-11-22 2006-05-25 George Koppich System and method for auditing an electronic document trail
US8553968B1 (en) 2005-02-18 2013-10-08 Western Digital Technologies, Inc. Using optical character recognition augmented by an error correction code to detect serial numbers written on a wafer
GB2426100B (en) * 2005-05-11 2007-08-22 Ingenia Technology Ltd Authenticity vertification
CA2658991A1 (en) * 2006-07-28 2008-01-31 Ingenuity Systems, Inc. Genomics based targeted advertising
US7715045B2 (en) * 2006-10-31 2010-05-11 Pitney Bowes Inc. System and methods for comparing documents
JP4389945B2 (ja) * 2007-02-07 2009-12-24 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置、印刷用紙選択方法及び印刷用紙選択プログラム
US10445966B1 (en) 2018-07-27 2019-10-15 Hart Intercivic, Inc. Optical character recognition of voter selections for cast vote records
CN117315808B (zh) * 2023-11-28 2024-02-13 成都博瑞科传科技有限公司 基于数据完整性校验的水质便携式巡检仪及采集方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3200372A (en) * 1960-07-26 1965-08-10 Ibm Error detection and correction system
US3713097A (en) * 1971-05-14 1973-01-23 Ibm Test bit pattern generator for pattern recognition machines
USRE29104E (en) * 1971-08-18 1977-01-04 Cognitronics Corporation Method of scanning documents to read characters thereon without interference from visible marks on the document which are not to be read by the scanner
US3763467A (en) * 1972-05-04 1973-10-02 Ibm Method and apparatus for reading documents
US4105997A (en) * 1977-01-12 1978-08-08 United States Postal Service Method for achieving accurate optical character reading of printed text
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
JPS58103266A (ja) * 1981-12-15 1983-06-20 Toshiba Corp 文字画像処理装置
JPS60235136A (ja) * 1984-05-09 1985-11-21 Kyodo Printing Co Ltd 検版方法
US4741046A (en) * 1984-07-27 1988-04-26 Konishiroku Photo Industry Co., Ltd. Method of discriminating pictures
US4866666A (en) * 1984-10-29 1989-09-12 Francisco Michael H Method for maintaining data integrity during information transmission by generating indicia representing total number of binary 1's and 0's of the data
JPS6265554A (ja) * 1985-09-17 1987-03-24 Toshiba Corp フアクシミリの通信方法
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US4928313A (en) * 1985-10-25 1990-05-22 Synthetic Vision Systems, Inc. Method and system for automatically visually inspecting an article
JPS62137974A (ja) * 1985-12-12 1987-06-20 Ricoh Co Ltd 画像処理方式
US4809341A (en) * 1986-07-18 1989-02-28 Fujitsu Limited Test method and apparatus for a reticle or mask pattern used in semiconductor device fabrication
JPS63182771A (ja) * 1987-01-23 1988-07-28 Fujitsu Ltd 文書の文体解析方式
JP2702928B2 (ja) * 1987-06-19 1998-01-26 株式会社日立製作所 画像入力装置
US5001767A (en) * 1987-11-30 1991-03-19 Kabushiki Kaisha Toshiba Image processing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010038729A1 (de) 2010-07-30 2012-02-02 Hans-Peter Bannert Verfahren und Vorrichtung zum elektronischen Erfassen von Rechnungsdaten
DE202010018287U1 (de) 2010-07-30 2015-05-20 Hans-Peter Bannert Vorrichtung zum elektronischen Erfassen von Rechnungsdaten

Also Published As

Publication number Publication date
US5703972A (en) 1997-12-30
EP0592238A2 (de) 1994-04-13
DE69331456D1 (de) 2002-02-21
KR100311338B1 (ko) 2001-12-28
JPH06282679A (ja) 1994-10-07
KR940009877A (ko) 1994-05-24
US5625721A (en) 1997-04-29
EP0592238B1 (de) 2002-01-16
TW401567B (en) 2000-08-11
EP0592238A3 (de) 1994-10-19

Similar Documents

Publication Publication Date Title
DE69331456T2 (de) Überprüfbare optische Zeichenerkennung
DE69421255T2 (de) Dokumentkopierabwehrverfahren
DE69633553T2 (de) Verfahren und Vorrichtung zur Einbettung von Daten in einem elektronischen Dokument
DE69635512T2 (de) Verfahren zum Lesen eines zweidimensionalen Strichcodes ohne Taktsignal
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE69423254T2 (de) Verfahren und Gerät zur automatischen Spracherkennung von Dokumenten
DE69226609T2 (de) Verfahren und Gerät zur Dokumentbildverarbeitung
DE69123083T2 (de) Dokumentverarbeitung
DE3107043C2 (de)
DE69633809T2 (de) Verarbeitung von maschinell lesbaren Vordrucken
DE69426098T2 (de) Benutzung eines Bildmusters als Zugangsschlüssel zu Funktionen einer Maschine
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE69730930T2 (de) Verfahren und Gerät zur Zeichenerkennung
DE69610243T2 (de) Verfahren zum Trainieren einer Erkennungsanlage mit Zeichenmustern
DE69226846T2 (de) Verfahren zur Bestimmung von Wortgrenzen im Text
DE69432114T2 (de) System zum Identifizieren und Verarbeiten von Formularen
DE69033042T2 (de) Datenverarbeitung
DE69519323T2 (de) System zur Seitensegmentierung und Zeichenerkennung
DE69619147T2 (de) Streifenkodekodierungssystem mit Vierzustandskoden
DE69610230T2 (de) Verfahren und Gerät zur Bildverarbeitung
EP1260933A2 (de) Verfahren zum Erfassen von zweidimensionalen Codes
DE3523042A1 (de) Bildverarbeitungssystem
DE19530829A1 (de) Verfahren zum elektronischen Wiederauffinden von einem Dokument hinzugefügter Informationen
DE69029539T2 (de) Verfahren und Gerät mit Block-Kode-kodierter Fehlerkorrektur
WO2005043452A1 (de) Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: LINDNER BLAUMEIER PATENT- UND RECHTSANWAELTE, 9040

8339 Ceased/non-payment of the annual fee