DE69331456T2 - Überprüfbare optische Zeichenerkennung - Google Patents
Überprüfbare optische ZeichenerkennungInfo
- Publication number
- DE69331456T2 DE69331456T2 DE69331456T DE69331456T DE69331456T2 DE 69331456 T2 DE69331456 T2 DE 69331456T2 DE 69331456 T DE69331456 T DE 69331456T DE 69331456 T DE69331456 T DE 69331456T DE 69331456 T2 DE69331456 T2 DE 69331456T2
- Authority
- DE
- Germany
- Prior art keywords
- document
- data
- dependent
- value
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012015 optical character recognition Methods 0.000 title description 24
- 238000000034 method Methods 0.000 claims description 38
- 230000001419 dependent effect Effects 0.000 claims description 33
- 238000012937 correction Methods 0.000 claims description 20
- 238000007639 printing Methods 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000000976 ink Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Image Processing (AREA)
Description
- Die Erfindung betrifft die Verwendung von automatisch erzeugten Dokumentmarkierungen. Insbesondere betrifft sie die Verwendung von Markierungen von verschlüsselten Informationen, die auf jeder Seite eines Dokuments eingefügt sind, nicht nur, um ein Mittel für die Identifikation des Dokuments und zur Erkennung der Dokumentstruktur zu schaffen, sondern auch zur Fehlererkennung und Fehlerkorrektur, wenn die markierten Dokumente durch ein Verfahren zur optischen Zeichenerkennung (OCR) reproduziert werden.
- Die Identifikation von Produkten durch die Benutzung von computerlesbaren Strichcodes, wobei digitale Daten direkt auf Papier aufgezeichnet werden, ermöglicht die Identifikation von Artikeln durch Verwendung von einfachen numerischen Verschlüsselungs- und Abtasttechnologien bei einem vorgegebenen, festgelegten Wertesatz. Die Identifikation von computergenerierten und gespeicherten Dokumenten ist ein weitere Technologie, die durch Verwendung von binärer Verschlüsselung zur Identifizierung entwickelt wurde und das Wiederauffinden von gespeicherten Dokumenten ermöglicht. Die meisten Softwareprogramme zur Erzeugung von Dokumenten liefern nicht nur Informationen zur Identifikation und/oder zum Wiederauffinden des Dokuments, sondern sie umfassen auch verschlüsselte Informationen zur Übermittlung an einen angeschlossenen Drucker, beispielsweise zur Spezifizierung solcher Einzelheiten wie Abstände, Ränder und zugehörige Layoutinformationen. Wenn das Dokument auf Papier ausgedruckt ist, begleitet die Information das Dokument jedoch nicht länger, im Unterschied zu der Erkennung durch den Benutzer. Wenn es gewünscht wird, das Dokument durch Verwendung eines Systems für die optische Zeichenerkennung (OCR) zu reproduzieren, gibt es kein automatisches Mittel, durch das die Layoutinformation über den Abtaster an den empfangenden Computer übermittelt werden können. Daher wäre es eine wünschenswerte Erweiterung der Identifikationstechnologie, ein Mittel zur Erzeugung einer Papierversion eines Dokuments zu schaffen, das erkannt, reproduziert und von einem Computer korrekturgelesen werden kann, indem eine in oder auf dem Papierdokument angebrachte Markierung optisch abgetastet wird, in Verbindung mit der OCR-Textabtastung des Dokuments.
- Dokument- oder Produktinformationssysteme die in der Vergangenheit benutzt wurden umfassen Strichcodemarkierungen und Abtaster, diese Systeme werden in weiten Bereichen benutzt. In Bezug auf Papierdokumente werden spezielle Markierungen oder Muster in dem Papier benutzt, um Informationen an ein zugehöriges Gerät zur Verfügung zu stellen, beispielsweise das Arbeitskontrollblatt für Bildverarbeitung, das von Hikawa in dem US-Patent Nr. 5,051,779 vorgeschlagen wurde. Auf ähnliche Weise sind Markierungen zur Identifikation in Formulare eingebettet worden, wie es in dem US-Patent Nr. 5,060 980 von Johnson et. al. beschrieben ist. Das System von Johnson et. al. sieht das Editieren von Formularen vor, die sich bereits in dem Computer befinden. Eine Papierversion des Formulars wird von dem Benutzer ausgefüllt und anschließend abgetastet, um Eintragungen in den Feldern des Duplikats des Formulars zu liefern, das elektronisch in dem Computer gespeichert wird. Ein weiteres kürzlich patentiertes System wird in dem US-Patent 5,091,966 von Bloomberg et al beschrieben, das die Entschlüsselung von Codes mit einer hieroglyphenartigen Form lehrt, wobei es sich bei den Codes um digital verschlüsselte Daten auf Papier handelt. Die identifizierenden Codes können durch den Computer gelesen werden, so dass eine computergesteuerte Dokumenthandhabung ermöglicht wird, die die Identifikation, das Wiederauffinden und die Übertragung des Dokuments umfasst. Die im Stand der Technik beschriebenen Systeme enthalten keine Textfehlererkennung oder Korrekturprogramme. Darüber hinaus ist es bei diesen Systemen erforderlich, dass der zugeordnete Computer eine Kopie des interessierenden Dokuments in seinem Speicher hat, bevor die Informationen durch Abtasten eingegeben werden. Das System kann nicht bei Dokumenten angewendet werden, die in dem abtastenden Computer durch OCR erzeugt worden sind.
- Wie in Fig. 1 schematisch dargestellt ist, umfassen Systeme für die optische Zeichenerkennung im Allgemeinen einen Digitalscanner 16, einen zugeordneten "abtastenden" Computer 18, zum Einscannen einer gedruckten Seite 14, die von einem erzeugenden Computer 12 generiert wurde und von einem Drucker 13 ausgegeben wurde. Der Scanner 16 extrahiert den zu speichernden Text als elektronisches Dokument 15 in einem standardisierten elektronischen Format, wie ASCII. Es ist wünschenswert, zusätzlich Informationen über den Text zur Fehlererkennung und über das Layout des Textes einzubinden, wobei die Information optisch abgetastet werden kann oder auf eine andere Weise automatisch eingegeben werden kann.
- Aufgrund der innewohnenden Beschränkungen des Abtastverfahrens und der Fähigkeit des Systems zur optischen Zeichenerkennung, eine genaue Zeichenerkennung zu bewirken, entstehen Fehler in der Ausgabedatei, die nicht nur fehlerhaft erkannte Zeichen, sondern auch layoutabhängige Fehler umfassen. Dann muss eine Nachbearbeitung, insbesondere eine Fehlererkennung durchgeführt werden, in erster Linie durch Korrekturlesen des reproduzierten Dokuments durch eine Person. Layoutfehler können üblicherweise nicht automatisch durch den Computer korrigiert werden, sondern sie erfordern vielmehr ein aufwendiges Editieren durch den Benutzer oder gegebenenfalls eine nochmalige Erzeugung des Dokuments. Die Nachverarbeitung durch eine Person ist teuer, nicht nur hinsichtlich der tatsächlichen Kosten, sondern auch wegen der für die Vervollständigung des verarbeitenden Dokuments erforderlichen Zeit. Es wäre optimal, wenn eine Lösung nicht nur ein Mittel zur Fehlererkennung, sondern ebenso ein Mittel für die Fehlerkorrektur zur Verfügung stellen würde. Ferner sollte eine ideale Lösung eine Identifikation des Dokuments ermöglichen und die richtige Layoutstruktur des Dokuments festlegen.
- Fehlererkennungssysteme, die in den Technologien für die computergestützte Dokumenterzeugung (z. B. Textverarbeitung) benutzt worden sind, umfassen Techniken, die auf dem Nachschlagen in Wörterbüchern basieren und/oder handelt es sich um Versuche, semantische oder Kontextinformationen, die von dem Dokument gewonnen wurden, zu benutzen, um Fehler zu identifizieren und zu korrigieren. Viele dieser Systeme erfordern, dass Einträge in dem Dokument, die nicht mit einem Eintrag in dem Lexikon übereinstimmen durch einen "menschlichen Nachbearbeiter" überprüft werden. Die automatisierte fehlerkorrigierte Version eines wörterbuchbasierten Systems würde nach der Identifikation sofort Einträge korrigieren, die nicht mit Wörterbucheinträgen übereinstimmen. Man kann sich ohne weiteres Umstände vorstellen, bei denen eine automatische Korrektur nicht gewünscht ist, wie in dem Fall eines Eigennamens, einer absichtlich falschen Schreibweise oder bei einer Wortneuschöpfung. Die Annahme bei der Benutzung von Wörterbuchvergleichversionen solcher Systeme ist, dass jeder Eintrag des gesamten Dokuments mit einem auf einer Datenbank basierenden Wörterbuch von Begriffen verglichen wird. Der Aufwand für den Vergleich aller Einträge eines Dokuments mit einem vorgegebenen Lexikon ist ziemlich groß.
- Die Benutzung von semantischen Informationen, die von dem Dokument gewonnen werden, wird im Stand der Technik darüber hinaus vorgeschlagen, um eine Identifikation und eine automatische Korrektur von Fehlern zu bewerkstelligen, die nicht ohne weiteres als fehlerhafte Schreibweisen von vorhandenen Wörterbuchbegriffen identifiziert werden können, oder die mehr als einem zur Verfügung stehenden Wörterbucheintrag ähneln. Ein derartiges System wird den Begriff "ofthe" als "of the" erkennen und korrigieren, während der Begriff nach dem Nachschlagen in einem Wörterbuch einfach abgelehnt würde. In ähnlicher Weise ist eine Reihe von häufig auftretenden Fehlern für die benutzte Hardware oder Software und für den Font oder die eingescannten Fonts vorgeschlagen worden, die zusammen mit Kontextinformationen oder semantischen Informationen benutzt werden, um gängige Fehler zu identifizieren und automatisch zu korrigieren, beispielsweise wenn "rn" fehlerhaft als "m" erkannt wird, oder wenn der Buchstabe "I" fehlerhaft als die Zahl "1" erkannt wird.
- Um Fehler zu erkennen, ohne dass ein Nachschlagen für jeden einzelnen Eintrag erforderlich ist, insbesondere für Dokumente, die über verteilte Netzwerke übertragen werden, haben Systeme Paritätsbits benutzt, die mit den Daten übertragen werden. Nach der Durchführung der Übertragung wird in dem "neuen" Dokument eine Zählung der Bits vorgenommen. Wenn das errechnete Bit dem übertragenen Paritätsbit entspricht, wird angenommen, dass die Übertragung fehlerfrei ist. Derartige Systeme und Erweiterungen des Paritäts- und Prüfbitkonzepts, die in dem US-Patent Nr. 5,068,854 von Chandran et. al. vorgeschlagen werden, sind nützlich für die Fehlererkennung bei digital verschlüsselten Informationen. Erweiterungen des Paritätsbitkonzepts, wie gewichtete Fehlerkorrekturcodes für die Erkennung und die Korrektur von mehr als einem Einbitfehler sind ebenso im Stand der Technik bekannt, beispielsweise aus dem US-Patent Nr. 4,965883 von Kirby. Paritäts- und Prüfbitsysteme, die für die Benutzung mit binär codierter Information entwickelt worden sind, sind in der Lage, das Vorhandensein von Fehlern mit hinreichender Genauigkeit festzustellen, angesichts der geringen Wahrscheinlichkeit, dass das Fehlerbit einer fehlerhaft empfangenen Datenmenge dem Prüfbit des übertragenen Materials entspricht. Da die Bits anhand binär codierter Daten errechnet werden, sind sie in höchstem Maße effektiv für die Erkennung von Ein-Bit- Fehlern; abgesehen von den Modifikationen in den gewichteten Fällen und den Fällen mit Zufallsüberprüfung. Im Allgemeinen neigen die Prüf- und Paritätsbitsysteme dazu, datenunabhängige Verfahren zur Sicherstellung einer fehlerfreien Übertragung bei Übertragungen von Computer-zu-Computer zu sein. Die Prüf- und Paritätsbitsysteme werden daher nicht als genaue Prüfsysteme, sondern eher als erste Überprüfungstechniken angesehen, die auf die Digital-zu-Digital- Kommunikation beschränkt sind und die nicht auf Analog-Digital-Umwandlungen wie die optische Zeichenerkennung angewendet werden können.
- Ein weiteres System des Standes der Technik, das eine 16-Bit-Prüffolge vorsieht, die datenabhängig und auf dem Inhalt des Datenfeldes basierend errechnet ist, geht aus dem US-Patent Nr. 4,964,127 von Calvignac et al hervor. Wie gesagt wird dieses System bei Daten angewendet, die entlang eines Datenpfads übermittelt werden, vorzugsweise in digitaler Form.
- Auf dem Gebiet der optischen Zeichenerkennung (OCR) gibt es ein ähnliches Bedürfnis, um Mittel zur Erkennung und Korrektur von Fehlern in Daten zur Verfügung zu stellen, die durch optisches Abtasten, Bitmapping und Computerverschlüsselung reproduziert worden sind. Sowohl das Nachschlagen in einem Wörterbuch als auch die Bezugnahme auf häufige Fehler sind im Zusammenhang mit OCR vorgeschlagen worden. Wie in der Vergangenheit ist die Überprüfung eines Eintrags nach dem anderen sowohl aufwendig als auch ineffizient. Darüber hinaus ist das Dokumentlayout zusätzlich zu den gedruckten Wörtern ein entscheidendes Merkmal in OCR. Die Benutzung von gängigen Prüfsystemen mit Paritätsbits in einem optisch abgetasteten, Bitmapsystem ist nur nominell für die Fehlererkennung effektiv, relativ ineffektiv für die Fehlerlokalisierung und absolut ineffektiv für die Erkennung und die Korrektur eines unrichtigen Layouts.
- Eine Vorrichtung zur Identifizierung und Korrektur von "nichterkennbaren" Zeichen in OCR-Maschinen wird in dem US-Patent Nr. 4,974,260 von Rudak beschrieben. In diesem System werden die nicht erkannten Zeichen in einem elektronischen Wörterbuchnachschlageverfahren nacheinander einem Bediener angezeigt, um eine Deutung und Korrektur zu bewirken. Eine stärker automatisierte OCR- Fehlererkennung und -korrektur ist wünschenswert, im Augenblick jedoch nicht erhältlich.
- Ferner ist aus der US-A-3,200,372 ein Verfahren gemäß dem Oberbegriff des Anspruchs 1 bekannt. Dieses Verfahren bezieht sich jedoch auf die Fehlerkorrektur bei maschinenlesbaren Medien wie Lochkarten. Das Verfahren ist in der Lage einen einzigen Fehler pro Textteile zu korrigieren, allerdings lediglich eine bestimmte Fehlerklasse, nämlich einen Unsicherheitsfehler.
- Es ist daher ein Ziel der Erfindung, ein verbessertes Fehlerkorrekturverfahren anzugeben, das darüber hinaus in der Lage ist, eine größere Fehlerklasse und/oder mehr als einen Fehler pro Textzeile zu korrigieren.
- Dieses Ziel wird durch die Merkmale des Kennzeichens des Anspruchs 1 erreicht.
- Die Erfindung wird im Folgenden unter Bezugnahme auf die Figuren näher beschrieben, wobei:
- Fig. 1 zeigt schematisch das OCR-Verfahren gemäß dem Stand der Technik mit dem Abtasten und der Reproduktion eines Dokuments;
- Fig. 2 zeigt schematisch das OCR-Verfahren für die Reproduktion eines Dokuments mit Markierungen mit Zertifikaten, um eine Fehlererkennung zu ermöglichen;
- Fig. 3 stellt ein in Übereinstimmung mit der Erfindung erzeugtes Dokument dar;
- Fig. 4 zeigt ein komplexes Dokument, das Diagramme, Textblöcke und Fotos enthält.
- Fig. 5A bis 5F zeigen ein Diagramm zur Verschlüsselung des Layouts des komplexen Dokuments, das in Fig. 4 dargestellt ist.
- In Übereinstimmung mit der Erfindung werden Markierungen für Papierdokumente erzeugt, die datenabhängige Informationen zur Fehlererkennung enthalten können, auf die im Folgenden als "Zertifikate" Bezug genommen wird. Sie können ferner Informationen über das Dokumentlayout für die Übertragung an einen "abtastenden" Computer und für die Benutzung durch den abtastenden Computer nach der Reproduktion des Dokuments durch die Benutzung von OCR-Technologie enthalten.
- Wenn der Zertikatbestandteil einer Markierung benutzt wird, um bei der computergestützten Erzeugung eines Originaldokuments behilflich zu sein berechnet der Zertifikaterzeuger 21 des Ursprungscomputers 22, wie in Fig. 2 dargestellt ist, ein oder mehrere datenabhängige Zertifikate 27 mit einem passenden Algorithmus, von dem ein Beispiel später detailliert beschrieben wird. Ein Zertifikat ist ein kurzer Schlüssel mit verschlüsselter Information über die Inhalte der Seite, der zur Zeit des Drucks erzeugt wird und von der OCR-Software 29, die dem abtastenden Computer 28 zugeordnet ist, erkannt werden kann. Jedes auf einem Computer erzeugte Dokument kann ein Zertifikat besitzen, das an jeden Textblock oder jede Seite angehängt oder diesem bzw. dieser zugeordnet ist. Das Verfahren zur Erzeugung des Zertifikats erfordert keinen Eingriff einer Person und lediglich einen geringen zusätzlichen Berechnungsaufwand. Das in Fig. 3 dargestellte Dokument 34, das in der Form einer gedruckten Seite oder in einem anderen Medium erzeugt ist, besteht aus einer Fläche 35, die in erster Linie für den Gebrauch durch eine Person formatiert ist, sowie aus einer Fläche 37, die für die Benutzung durch eine Maschine formatiert ist, um der Maschine beim "Verstehen" der sogenannten "menschlichen" Fläche behilflich zu sein. Die menschliche Fläche ist der analoge Abschnitt des Dokuments und die maschinelle Fläche ist der digitale Abschnitt des Dokuments. Diese Unterscheidung wird benutzt, um die Verwendung der Abschnitte des Dokuments zu erläutern, weniger aufgrund der spezifischen Ausführungsbeispiele. Die zwei Abschnitte können und werden vorzugsweise durch die Benutzung derselben Technologie bedruckt. Beispielsweise kann der "digitale" Abschnitt durch einen speziellen Font, einem Strichcode oder eine andere Symbolik bedruckt werden, die für den menschlichen Benutzer "lesbar" oder nichtlesbar sein kann, die jedoch gewählt wird, um eine Lesbarkeit durch den Computer zu bewerkstelligen. Das Zertifikat hat die Aufgabe, Informationen für die OCR- Software zu liefern, so dass es möglich wird, eine perfekte übersetzte digitale Kopie der originalen gedruckten Seite herzustellen.
- Das Zertifikat, das berechnet und auf die Seite gedruckt ist, enthält Informationen über den Inhalt dieser Seite. Der Ursprungscomputer 22 von Fig. 2 umfasst Zertifikatsoftware 21, die als Zertifikatgenerator bezeichnet wird. Nach der Erzeugung des Dokuments oder während des Vorgangs der Dokumenterzeugung berechnet die Zertifikatsoftware ein oder mehrere Zertifikate, basierend auf den Informationen in und auf dem Dokument. Das erzeugte Zertifikat 27 wird als maschinenlesbarer Bestandteil des Ausdrucks 24 des Dokuments erzeugt, das durch den Drucker 13 ausgegeben wurde. Wie bei dem Stand der Technik wird der zu reproduzierende Ausdruck mittels eines digitalisierenden Scanners 16 abgetastet, der einem zweiten Computer 28 zugeordnet ist, der mit der OCR-Software ausgestattet ist. Das Originalzertifikat 27 wird abgetastet und durch den abtastenden Computer gespeichert. Wenn das OCR-Dokument 25 erzeugt ist, benutzt die OCR-Software denselben Algorithmus, der von der ursprünglichen Druckersoftware benutzt wird, um ein Zertifikat für den extrahierten Text zu errechnen. Die Darstellung zeigt den "Zertifikatverifizierer" 26 als separater Teil des Computers 28 und den "Zertifikatgenerator" 21 als Teil des Computers 22. Für einen Fachmann auf diesem Gebiet ist es klar, dass der Zertifikatgenerator oder der Zertifikatverifizierer in das Gesamtsystem eingebettet sind und nicht ein separates Programm sein müssen. Darüber hinaus ist die Berechnung von Zertifikaten für Originale oder abgetastete Daten nicht notwendigerweise ein separater Verfahrensschritt, sondern sie kann gleichzeitig mit der Erzeugung und/oder der Speicherung von Daten durchgeführt werden. Nach der Erzeugung wird das neue Zertifikat mit dem Originalzertifikat verglichen, das von der gedruckten Seite abgetastet wurde. Wenn die beiden übereinstimmen, gilt die Übersetzung als abgeschlossen und mit hoher Wahrscheinlichkeit wird angenommen, dass sie fehlerfrei ist. Wenn es eine Abweichung gibt, kann die OCR-Software eine kleine Anzahl von Fehlern erkennen und korrigieren, anhand ihrer eigenen oder eines oder mehrerer bekannter Fehlerkorrekturprogramme, die von gegenwärtigen Dokumenterzeugungs- oder OCR- Systemen manuell benutzt werden, wie oben ausgeführt wurde. Nach dem Abschluss der Fehlerkorrektur berechnet der Zertifikatverifizierer nochmals ein Zertifikat für den korrigierten Text und vergleicht es nochmals mit dem Originalzertifikat, um sicherzustellen, dass die Ausgabe richtig ist.
- Das Zertifikat kann auf viele Arten berechnet werden. Beispielsweise zeigt das unten abgedruckte Unterprogramm in der Computersprache "C" eine einfache Prüfsumme, wobei eine Zeile nach der anderen geprüft wird:
- Der ASCII-Wert von allen Zeichen, die nicht die Leertaste sind, wird durch eine Exklusiv-Oder-Verknüpfung mit einer laufenden 8-Bit-Prüfsumme verknüpft. Diese Prüfsumme wird anschließend um eine Stelle nach links bitweise verschoben und das Verfahren wird mit dem nächsten Zeichen der Folge wiederholt. In diesem Fall würde die Zeile "This is a test." das Zertifikat "03" (in hexadezimaler Schreibweise ausgedrückt) erhalten, das auf die fragliche Seite gedruckt wird. Wenn die OCR- Software in dem Verfahrensschritt des Abtastens die Zeile als "Thus is a test." falsch einliest, wäre das errechnete Zertifikat "73". Dementsprechend würde die OCR-Software ihren Fehler durch den Vergleich der beiden Zertifikate (eines davon aufgrund des reproduzierten Textes neu errechnet und eines ursprünglich errechnet, gedruckt und gelesen von dem gedruckten Zertifikat) erkennen und festlegen, dass sie nicht übereinstimmen. Bei der Benutzung dieses Beispielsystems beträgt die Wahrscheinlichkeit, dass zwei zufällige Textzeilen dasselbe Zertifikat haben 1 : 256. Die 8-Bit-Prüfsumme ist nur ein Beispiel eines Zertifikatberechnungssystems. Ein Fachmann auf diesem Gebiet wird ohne weiteres alternative Berechnungsverfahren in Betracht ziehen, die in den Schutzbereich der Erfindung fallen. Ein Fachmann wird auch erkennen, dass die Größe der Prüfsumme und das Berechnungsverfahren variiert werden können, um die Wahrscheinlichkeit der Fehlererkennung gemäß den Anforderungen der jeweiligen Anwendung zu erhöhen oder zu erniedrigen.
- Wie bei der Erläuterung des technischen Hintergrunds erwähnt wurde, umfassen die Fehlerkorrekturverfahren, die für die Einbindung in ein OCR-System zur Verfügung stehen unter anderem Suchstrategien mit Nachschlagen in einem Wörterbuch, semantische oder Kontextinformationscodes und gängige Fehlererkennungscodes. Darüber hinaus ist die präzise mathematische Natur des Zertifikaterzeugungsalgorithmus für die präzise Identifikation der Fehler und deren Korrektur geeignet, ohne dass andere Fehlerkorrekturprogramme aufgerufen werden müssen. Zertifikate können die OCR-Erkennungsraten verbessern und schaffen ein zuverlässiges Verfahren, durch das Benutzer feststellen können, ob jede eingescannte Seite fehlerfrei ist oder nicht. Wie oben erwähnt wurde, kann die Benutzung eines Fehlererkennungs- und Korrektursystems, ohne zu wissen, ob absichtliche "Fehler" in einem Dokument existieren, in Wirklichkeit dazu führen, dass Fehler in dem Text entstehen. Wenn jedoch ein Zertifikatsystem zur Fehlererkennung und -korrektur benutzt wird, kann dieses jedoch vermieden werden. Im Falle einer beabsichtigten falschen Schreibweise würde das Zertifikatsystem beispielsweise nicht anzeigen, dass ein Fehler unterlaufen ist und es würde daher die beabsichtigte falsche Schreibweise nicht fehlerhaft korrigieren.
- Eine wichtige Überlegung, insbesondere im Falle von Dokumenten mit komplizierten Strukturen ist die Bestimmung der kanonischen Reihenfolge der Analyse für die Berechnung des Zertifikats. Es liegt auf der Hand, dass die Software, die das Originalzertifikat berechnet und die OCR-Software beide dieselbe Reihenfolge benutzen müssen. Eine Linearisierungsformel könnte einer links-nach-rechts-, oben-nach-unten-Vorschrift entsprechen, in der gleichen Reihenfolge wie ein englischer Text üblicherweise von Menschen gelesen wird. Ein weiterer Versuch besteht darin, die Seite in eine Folge von Textblöcken zu zerlegen, die jeweils eine separate Einheit bei der Berechnung darstellen. Alle Blöcke, die Graphiken oder sonstige nicht-textliche Informationen enthalten, müssen anders als Standardtext behandelt werden. In dem Fall von Diagrammen ist die Erkennung, dass eine Ansammlung von "Punkten" zu einem perfekten Kreis gehört, eine schwierige Aufgabe für die Bildverarbeitungssoftware. Wenn der Zertifikatgenerator jedoch die Information verschlüsselt, dass ein gegebenes Diagramm drei Kreise und ein Dreieck enthält, kann diese Information in starkem Maße die Verarbeitungszeit beschleunigen und die Genauigkeit erhöhen. Neben der Verschlüsselung der Diagrammbestandteile könnten die genauen Positionen und Größen der wesentlichen geometrischen Elemente in dem Diagramm verschlüsselt werden (z. B. Kreisradius 0,3 cm, x-Koordinate 1,3 cm, y-Koordinate 3,8 cm, usw.). Es ist darüber hinaus möglich, ein Zertifikatschema auf die Erkennung von mathematischen Gleichungen oder auf andere Strukturen mit einem speziellen Zeichensatz anzuwenden.
- Es ist ebenso wünschenswert die Informationen über die Dokumentstruktur in einer Dokumentmarkierung einzubinden. Ein Dokument mit den Maßen 15,2 · 17,8 cm (6" · 7"), das eine komplizierte Layoutstruktur hat, ist in Fig. 4 dargestellt. Das Dokument 44 enthält Textblöcke A, B, D, E und G (Bezugszeichen 45), ein Foto in Block C, 48, und ein Diagramm im Block F, 46. Zur Identifikation des Dokumentlayouts durch das Abtastsystem kann ein Layoutidentifikationssystem benutzt werden, das auf einem Flächenteilungsmodell beruht, das in den Fig. 5A bis 5F dargestellt ist. Es können auch andere geeignete Modelle benutzt werden. Das Beispiel des Flächenteilungsmodells geht davon aus, dass das Layout eines Dokuments, wie kompliziert es auch ist, durch eine gewisse Anzahl von Schnitten beschrieben werden kann. Die Zerteilung der Fläche kann rekursiv als Binärbaum beschrieben werden, vorausgesetzt, dass die kanonische Ordnung der Teilflächen definiert worden ist, die durch die Blätter dargestellt werden. Die Teilflächen oder Flächen werden zuerst identifiziert und charakterisiert als spezifische horizontale und vertikale Komponenten, beispielsweise H und V. Jede Teilfläche wird als Teil einer Baumstruktur identifiziert. Diese Baumstruktur wird dann als lineare Zeichenkette verschlüsselt. Eine rekursive Syntax wird benutzt und ergibt für das dargestellte Dokument die folgende Zeichenkette.
- (H1"CRTA(V2"(H3"CRTB(H5"PHTCCRTD)) (V4"CRTE(H3"FIGFCRTG))),
- wobei jede genaue Lage beispielsweise in Zoll definiert ist, senkrecht oder horizontal orientiert. CRT bezeichnet das für den bestimmten Textblock berechnete Zertifikat; PHT bezeichnet ein Foto; und FIG bezeichnet das Diagramm. Diese kurze Zeichenkette beschreibt dann vollständig das grundsätzliche Layout des Dokuments. In die Zeichenkette können zusätzliche Informationen eingebettet werden wie eine Beschreibung des Inhalts von Teilflächen (z. B. Text, Zeichnung, Gleichung, Foto), genaue x-y-Koordinaten der Teilfläche auf dieser Seite und natürlich die Fehlererkennungszertifikate.
- Damit die Markierungen für den menschlichen Leser nicht aufdringlich sind, ist es möglich, die Markierungen beispielsweise in einem Logo zu "verstecken". Ein Logo der Größe 19 · 19 mm (³/&sub4;" · ³/&sub4;") kann mehr als 1000 Informationsbits verschlüsseln. Weitere Ausführungen können die Benutzung von unsichtbaren Tinten umfassen oder das Verstecken der Markierungen in dem Dokumentformat selbst. Es ist nicht erforderlich, dass die Information von dem personenlesbaren Abschnitt des Dokuments getrennt wird, und sich beispielsweise in dem freien Rand befindet. Es ist erforderlich, dass die Information derart zur Verfügung gestellt wird, dass der Computer einfach deren Ort feststellen kann und die verschlüsselten Informationen einfach lesen kann. Ferner darf sie nicht mit dem personenlesbaren Abschnitt in einer solchen Weise vermischt sein, dass dieser Bereich unleserlich ist.
- Da die Markierungen im Zusammenhang für die Benutzung mit einem OCR- System beschrieben wurden, wurde bisher angenommen, dass das Medium zum Lesen der Markierungen ein Digitalscanner ist. Im Zuge der Entwicklung von anderen Eingabemedien erfordern die Verschlüsselungsverfahren eine Anpassung, um dem jeweiligen System zu entsprechen. Wie bereits zuvor diskutiert wurde, sind derartige Modifikationen für einen Fachmann dieses Gebiets möglich, ohne von dem Schutzbereich der Erfindung abzuweichen.
Claims (15)
1. Verfahren zum Sicherstellen der Richtigkeit von aus
Originaldatensequenzen elektronisch reproduzierten Datensequenzen, umfassend die Schritte:
erstes Ableiten eines oder mehrerer datenabhängiger erster Digitalwerte
von den Originaldaten; zweites Ableiten eines oder mehrerer
datenabhängiger zweiter Digitalwerte von den reproduzierten Daten; Vergleichen der
ersten und zweiten Digitalwerte und Identifizieren und Korrigieren von
Fehlern und Fehlerspeicherstellen in den reproduzierten Datensequenzen,
basierend auf dem Unterschied zwischen den ersten und zweiten Werten;
dadurch gekennzeichnet, dass alle zweiten Digitalwerte einem einzigen
ersten Digitalwert entsprechen und dass das Verfahren ferner die
Anwendung eines oder mehrerer automatischer Korrekturverfahren für
identifizierte Fehler in den reproduzierten Daten umfasst, wobei die Anzahl und
der Umfang der Verfahren von der Größe und der Art der Digitalwerte
und/oder von zusätzlichen externen Informationen abhängt.
2. Verfahren nach Anspruch 1 zum elektronischen Reproduzieren von
Originaldatensequenzen von computervorverarbeiteten gedruckten
Dokumenten, umfassend die weiteren Schritte: Drucken der Schriftstücke, die ein
oder mehrere erste datenabhängige, von den Originaldaten abgeleitete
Digitalwerte enthalten; Erzeugen eines reproduzierte Datensequenzen
aufweisenden elektronischen Dokuments durch optisches Abtasten des
gedruckten Dokuments und der ersten Digitalwerte und Speichern des
elektronischen Dokuments und der ersten Digitalwerte; wobei der oder die
mehreren zweiten datenabhängigen Digitalwerte von den reproduzierten Daten
des elektronischen Dokuments abgeleitet sind.
3. Verfahren nach Anspruch 2, wobei der Schritt des Dokumentdruckens das
Erstellen einer ersten Computerversion des Dokuments in einem ersten
Computer umfasst; Ableiten wenigstens eines ersten Digitalwertes als
datenabhängiger
erster Digitalwert für die erste Version des Dokuments,
Erstellen einer Druckversion des Dokuments durch Ausgeben der ersten
Version und des wenigstens einen ersten Digitalwerts durch einen mit dem
ersten Computer verbundenen Drucker; wobei der Schritt des Erstellens
des elektronischen Dokuments die Schritte umfasst: Erstellen einer zweiten
Computerversion des Dokuments umfassend reproduzierte Daten durch
optisches Abtasten der gedruckten Version und des wenigstens einen
ersten Digitalwerts durch einen mit einem zweiten Computer verbundenen
Abtaster mit einer Software zum Erkennen der optischen Zeichen und des
Digitalwerts; wobei der Schritt des Ableitens des einen oder der mehreren
zweiten datenabhängigen Digitalwerte das Ableiten wenigstens einen
zweiten Digitalwerts für die zweite Computerversion des Dokuments aus
den reproduzierten Daten umfasst.
4. Verfahren nach Anspruch 3, wobei die Durchführung der automatischen
Fehlerkorrektur eine dritte Computerversion des Dokuments erzeugt.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei das Ableiten die
Berechnung von datenabhängigen Digitalwerten umfasst.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die automatische
Korrektur fehlerkorrigierte reproduzierte Daten erzeugt und ferner die Schritte
umfasst: Ableiten eines oder mehrerer datenabhängiger dritter Digitalwerte
von den fehlerkorrigierten reproduzierten Daten und Vergleichen der ersten
und dritten Digitalwerte.
7. Verfahren nach Anspruch 2 oder 3, wobei das Ableiten der ersten und
zweiten Digitalwerte die Anwendung desselben Algorithmus auf die Daten
aller computergenerierten und elektronischen Dokumente umfasst.
8. Verfahren nach einem der Ansprüche 2, 3 oder 7, wobei die Erstellung und
das Ableiten der zweiten Digitalwerte gleichzeitig durchgeführt werden.
9. Verfahren nach Anspruch 2 oder 3, wobei das Drucken des einen oder der
mehreren ersten Werte das Bereitstellen des einen oder der mehreren
ersten Werte in einer nicht textlichen maschinenlesbaren Symbolik umfasst.
10. Verfahren nach einem der Ansprüche 1 bis 9, wobei Datensequenzen
Zeilen der Originaldaten umfassen.
11. Verfahren nach Anspruch 2 oder 3 oder nach einem der darauf folgenden
Ansprüche 4 bis 10, wobei das gedruckte Dokument eine Mehrzahl von
Blöcken umfasst, die zumindest mehrere Textblöcke von mehreren Zeilen
der Originaldaten umfassen und wobei das Ableiten des wenigstens einen
ersten Digitalwerts die Bereitstellung wenigstens einer ersten digitalen
Kennzeichnung der räumlichen Beziehungen der mehreren Blöcke in dem
Dokument umfasst.
12. Verfahren nach Anspruch 2 oder 3, oder einem der darauf folgenden
Ansprüche 4 bis 11 zum elektronischen Reproduzieren eines
computervorverarbeiteten gedruckten Dokuments mit einem Layout, das eine Mehrzahl
von Originalblöcken umfasst, die zumindest eine Mehrzahl von Textblöcken
mit mehreren Zeilen von Zeichen enthalten, umfassend die Schritte:
Ableiten wenigstens eines ersten layoutabhängigen Wertes der räumlichen
Beziehung der Mehrzahl der Originalblöcke des Dokuments; Drucken der
mehreren Textblöcke mit mehreren Linien und dem wenigstens einen
ersten layoutabhängigen Wert; Drucken der mehrfachen Textblöcke mit
mehreren Zeilen und des wenigstens einen ersten layoutabhängigen Wertes;
Erstellen eines elektronischen Dokuments mit einem Layout, bestehend
aus einer Mehrzahl reproduzierter Blöcke, umfassend wenigstens mehrere
Textblöcke von mehreren Zeilen von reproduzierten Zeichen durch optisches
Abtasten der mehreren Zeilen und des wenigstens einen ersten
layoutabhängigen Wertes; Ableiten wenigstens eines zweiten
layoutabhängigen Wertes aus der räumlichen Beziehung der Mehrheit der reproduzierten
Blöcke auf dem elektronischen Dokument; Vergleichen wenigstens eines
ersten layoutabhängigen Wertes mit wenigstens einem zweiten
layoutabhängigen Wert; und Ausfindigmachen und Lokalisieren von Layoutfehlern,
beruhend auf dem Unterschied zwischen den wenigstens einen ersten und
zweiten layoutabhängigen Werten.
13. Verfahren nach Anspruch 12, ferner umfassend die Schritte: Ableiten
wenigstens eines ersten zeichenabhängigen Wertes von den Zeichen oder
von dem Dokument; Drucken des wenigstens einen zeichenabhängigen
Wertes nach dem Drucken der mehreren Zeilen und des wenigstens einen
ersten layoutabhängigen Wertes.
14. Verfahren nach Anspruch 13, ferner umfassend die Schritte: Ableiten
wenigstens einen zweiten zeichenabhängigen Werts von den reproduzierten
Zeichen des elektronischen Dokuments; Vergleichen des wenigstens einen
ersten zeichenabhängigen Wertes mit dem wenigstens einen zweiten
zeichenabhängigen Wert und Identifizieren von Zeichenfehlern und
Fehlerspeicherstellen in den Zeilen, beruhend auf den Unterschieden zwischen
den ersten und zweiten zeichenabhängigen Werten; und Anwenden eines
oder mehrerer automatischer Korrekturverfahren für die identifizierten
Zeichenfehler bei den reproduzierten Zeichen.
15. Verfahren nach Anspruch 1 zum Sicherstellen der Richtigkeit eines zweiten
Dokuments, umfassend durch optisches Abtasten reproduzierte
Datensequenzen eines ersten Dokuments, umfassend Originaldatensequenzen und
wenigstens einen verschlüsselten, maschinenlesbaren ersten
datenabhängigen, dem ersten Dokument zugeordneten und auf dessen Vorderseite
abtastbaren Digitalwert, umfassend die Schritte: Entschlüsseln des
wenigsten
einen verschlüsselten, maschinenlesbaren, ersten
datenabhängigen Digitalwertes; Ableiten wenigstens einen zweiten datenabhängigen
Digitalwerts für das zweite Dokument von den reproduzierten
Datensequenzen; Vergleichen des wenigstens einen ersten datenabhängigen
Digitalwertes mit dem wenigstens einen zweiten datenabhängigen Digitalwert und
Identifizieren von Fehlern und Fehlerspeicherstellen in den reproduzierten
Datensequenzen, beruhend auf den Unterschieden zwischen den ersten
und zweiten datenabhängigen Digitalwerten; und Durchführung einer
automatischen Fehlerkorrektur bei den reproduzierten Datensequenzen, wenn
die ersten und zweiten datenabhängigen Digitalwerte unterschiedlich sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US95893892A | 1992-10-09 | 1992-10-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69331456D1 DE69331456D1 (de) | 2002-02-21 |
DE69331456T2 true DE69331456T2 (de) | 2002-11-07 |
Family
ID=25501468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69331456T Expired - Fee Related DE69331456T2 (de) | 1992-10-09 | 1993-10-08 | Überprüfbare optische Zeichenerkennung |
Country Status (6)
Country | Link |
---|---|
US (2) | US5625721A (de) |
EP (1) | EP0592238B1 (de) |
JP (1) | JPH06282679A (de) |
KR (1) | KR100311338B1 (de) |
DE (1) | DE69331456T2 (de) |
TW (1) | TW401567B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010038729A1 (de) | 2010-07-30 | 2012-02-02 | Hans-Peter Bannert | Verfahren und Vorrichtung zum elektronischen Erfassen von Rechnungsdaten |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748807A (en) * | 1992-10-09 | 1998-05-05 | Panasonic Technologies, Inc. | Method and means for enhancing optical character recognition of printed documents |
TW250558B (en) * | 1993-10-20 | 1995-07-01 | Yamaha Corp | Sheet music recognition device |
US6535618B1 (en) | 1994-10-21 | 2003-03-18 | Digimarc Corporation | Image capture device with steganographic data embedding |
GB9603998D0 (en) * | 1996-02-26 | 1996-04-24 | Domino Printing Sciences Plc | Method of and apparatus for print verification |
US5832474A (en) * | 1996-02-26 | 1998-11-03 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval system with partial match searching of user-drawn annotations |
US5719960A (en) * | 1996-06-26 | 1998-02-17 | Canon Kabushiki Kaisha | System for dispatching task orders into a user network and method |
DE69725665T2 (de) * | 1996-08-09 | 2004-07-29 | Canon Finetech Inc., Mitsukaido | Strichkodedrucksystem und Steuerverfahren dafür |
US5870510A (en) * | 1996-12-20 | 1999-02-09 | Xerox Corporation | Parallel propagating embedded binary sequences for parameterizing two dimensional image domain code patterns in N-dimensional address space |
US5862271A (en) * | 1996-12-20 | 1999-01-19 | Xerox Corporation | Parallel propagating embedded binary sequences for characterizing and parameterizing two dimensional image domain code patterns in N-dimensional address space |
US5937110A (en) * | 1996-12-20 | 1999-08-10 | Xerox Corporation | Parallel propagating embedded binary sequences for characterizing objects in N-dimensional address space |
JPH11102414A (ja) * | 1997-07-25 | 1999-04-13 | Kuraritec Corp | ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体 |
US6023534A (en) * | 1997-08-04 | 2000-02-08 | Xerox Corporation | Method of extracting image data from an area generated with a halftone pattern |
BR9909337A (pt) * | 1998-04-01 | 2001-11-06 | William Peterman | Sistema e método para buscar documentos eletrônicos criados com reconhecimento de caracter óptico |
US6533175B1 (en) * | 1999-05-28 | 2003-03-18 | Barcode Graphic Inc. | Automatic compliance-testing system for desktop designed consumer packaging |
US6674919B1 (en) | 1999-09-21 | 2004-01-06 | Matsushita Electric Industrial Co., Ltd. | Method for determining the skew angle of a two-dimensional barcode |
JP3862198B2 (ja) * | 1999-12-21 | 2006-12-27 | 富士フイルムホールディングス株式会社 | 証明写真撮影装置と画像処理装置及び証明写真作成システム |
US6950553B1 (en) * | 2000-03-23 | 2005-09-27 | Cardiff Software, Inc. | Method and system for searching form features for form identification |
US6768560B1 (en) | 2000-05-19 | 2004-07-27 | Xerox Corporation | Assist channel coding with vertical block error correction |
US6628837B1 (en) | 2000-05-19 | 2003-09-30 | Xerox Corporation | Assist channel coding with convolution coding |
US6862113B1 (en) | 2000-05-19 | 2005-03-01 | Xerox Corporation | Assist channel coding with character classifications |
US7110621B1 (en) | 2000-05-19 | 2006-09-19 | Xerox Corporation | Assist channel coding using a rewrite model |
US6772160B2 (en) * | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
US6741986B2 (en) * | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
US7577683B2 (en) | 2000-06-08 | 2009-08-18 | Ingenuity Systems, Inc. | Methods for the construction and maintenance of a knowledge representation system |
US7917844B1 (en) * | 2000-07-14 | 2011-03-29 | International Business Machines Corporation | Directory service for form processing |
US7493250B2 (en) * | 2000-12-18 | 2009-02-17 | Xerox Corporation | System and method for distributing multilingual documents |
JP2002344736A (ja) * | 2001-05-21 | 2002-11-29 | Oki Electric Ind Co Ltd | プリント紙の原本保証システム,プリンタ装置,および,検証装置 |
US20030065677A1 (en) * | 2001-09-28 | 2003-04-03 | Culp Jerlyn R. | Electronic calendaring device |
CA2474754C (en) * | 2002-02-04 | 2022-03-22 | Ingenuity Systems, Inc. | Systems for evaluating genomics data |
US8793073B2 (en) | 2002-02-04 | 2014-07-29 | Ingenuity Systems, Inc. | Drug discovery methods |
FR2837011B1 (fr) * | 2002-03-05 | 2004-05-28 | Comptacom | Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants |
AU2002952106A0 (en) * | 2002-10-15 | 2002-10-31 | Silverbrook Research Pty Ltd | Methods and systems (npw008) |
US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
EP1580683B1 (de) * | 2002-12-17 | 2008-09-10 | Sharp Kabushiki Kaisha | Vorrichtung zur erkennung von strichcodes |
US20040199877A1 (en) * | 2003-03-17 | 2004-10-07 | Hiroshi Yasuda | System for processing handwritten document and method for processing handwritten document |
US20040202386A1 (en) * | 2003-04-11 | 2004-10-14 | Pitney Bowes Incorporated | Automatic paper to digital converter and indexer |
US20040223648A1 (en) * | 2003-05-05 | 2004-11-11 | Keith Hoene | Determining differences between documents |
US20050281450A1 (en) * | 2004-06-18 | 2005-12-22 | Digicor Llc | System and method for correcting data in financial documents |
US8549400B2 (en) * | 2004-09-28 | 2013-10-01 | Ricoh Company, Ltd. | Techniques for encoding media objects to a static visual representation |
US7774705B2 (en) | 2004-09-28 | 2010-08-10 | Ricoh Company, Ltd. | Interactive design process for creating stand-alone visual representations for media objects |
US7725825B2 (en) * | 2004-09-28 | 2010-05-25 | Ricoh Company, Ltd. | Techniques for decoding and reconstructing media objects from a still visual representation |
US20060112017A1 (en) * | 2004-11-22 | 2006-05-25 | George Koppich | System and method for auditing an electronic document trail |
US8553968B1 (en) | 2005-02-18 | 2013-10-08 | Western Digital Technologies, Inc. | Using optical character recognition augmented by an error correction code to detect serial numbers written on a wafer |
GB2426100B (en) * | 2005-05-11 | 2007-08-22 | Ingenia Technology Ltd | Authenticity vertification |
WO2008014495A2 (en) * | 2006-07-28 | 2008-01-31 | Ingenuity Systems, Inc. | Genomics based targeted advertising |
US7715045B2 (en) * | 2006-10-31 | 2010-05-11 | Pitney Bowes Inc. | System and methods for comparing documents |
JP4389945B2 (ja) * | 2007-02-07 | 2009-12-24 | コニカミノルタビジネステクノロジーズ株式会社 | 画像形成装置、印刷用紙選択方法及び印刷用紙選択プログラム |
US10445966B1 (en) | 2018-07-27 | 2019-10-15 | Hart Intercivic, Inc. | Optical character recognition of voter selections for cast vote records |
CN117315808B (zh) * | 2023-11-28 | 2024-02-13 | 成都博瑞科传科技有限公司 | 基于数据完整性校验的水质便携式巡检仪及采集方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3200372A (en) * | 1960-07-26 | 1965-08-10 | Ibm | Error detection and correction system |
US3713097A (en) * | 1971-05-14 | 1973-01-23 | Ibm | Test bit pattern generator for pattern recognition machines |
USRE29104E (en) * | 1971-08-18 | 1977-01-04 | Cognitronics Corporation | Method of scanning documents to read characters thereon without interference from visible marks on the document which are not to be read by the scanner |
US3763467A (en) * | 1972-05-04 | 1973-10-02 | Ibm | Method and apparatus for reading documents |
US4105997A (en) * | 1977-01-12 | 1978-08-08 | United States Postal Service | Method for achieving accurate optical character reading of printed text |
DE3113555A1 (de) * | 1981-04-03 | 1982-10-21 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen |
JPS58103266A (ja) * | 1981-12-15 | 1983-06-20 | Toshiba Corp | 文字画像処理装置 |
JPS60235136A (ja) * | 1984-05-09 | 1985-11-21 | Kyodo Printing Co Ltd | 検版方法 |
US4741046A (en) * | 1984-07-27 | 1988-04-26 | Konishiroku Photo Industry Co., Ltd. | Method of discriminating pictures |
US4866666A (en) * | 1984-10-29 | 1989-09-12 | Francisco Michael H | Method for maintaining data integrity during information transmission by generating indicia representing total number of binary 1's and 0's of the data |
JPS6265554A (ja) * | 1985-09-17 | 1987-03-24 | Toshiba Corp | フアクシミリの通信方法 |
US4754489A (en) * | 1985-10-15 | 1988-06-28 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US4928313A (en) * | 1985-10-25 | 1990-05-22 | Synthetic Vision Systems, Inc. | Method and system for automatically visually inspecting an article |
JPS62137974A (ja) * | 1985-12-12 | 1987-06-20 | Ricoh Co Ltd | 画像処理方式 |
US4809341A (en) * | 1986-07-18 | 1989-02-28 | Fujitsu Limited | Test method and apparatus for a reticle or mask pattern used in semiconductor device fabrication |
JPS63182771A (ja) * | 1987-01-23 | 1988-07-28 | Fujitsu Ltd | 文書の文体解析方式 |
JP2702928B2 (ja) * | 1987-06-19 | 1998-01-26 | 株式会社日立製作所 | 画像入力装置 |
US5001767A (en) * | 1987-11-30 | 1991-03-19 | Kabushiki Kaisha Toshiba | Image processing device |
-
1993
- 1993-10-08 EP EP93308020A patent/EP0592238B1/de not_active Expired - Lifetime
- 1993-10-08 DE DE69331456T patent/DE69331456T2/de not_active Expired - Fee Related
- 1993-10-08 TW TW082108439A patent/TW401567B/zh not_active IP Right Cessation
- 1993-10-09 KR KR1019930020930A patent/KR100311338B1/ko not_active IP Right Cessation
- 1993-10-12 JP JP5254535A patent/JPH06282679A/ja active Pending
-
1994
- 1994-04-06 US US08/223,830 patent/US5625721A/en not_active Expired - Fee Related
-
1995
- 1995-11-17 US US08/560,299 patent/US5703972A/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010038729A1 (de) | 2010-07-30 | 2012-02-02 | Hans-Peter Bannert | Verfahren und Vorrichtung zum elektronischen Erfassen von Rechnungsdaten |
DE202010018287U1 (de) | 2010-07-30 | 2015-05-20 | Hans-Peter Bannert | Vorrichtung zum elektronischen Erfassen von Rechnungsdaten |
Also Published As
Publication number | Publication date |
---|---|
EP0592238B1 (de) | 2002-01-16 |
EP0592238A2 (de) | 1994-04-13 |
TW401567B (en) | 2000-08-11 |
DE69331456D1 (de) | 2002-02-21 |
US5703972A (en) | 1997-12-30 |
EP0592238A3 (de) | 1994-10-19 |
JPH06282679A (ja) | 1994-10-07 |
US5625721A (en) | 1997-04-29 |
KR100311338B1 (ko) | 2001-12-28 |
KR940009877A (ko) | 1994-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69331456T2 (de) | Überprüfbare optische Zeichenerkennung | |
DE69421255T2 (de) | Dokumentkopierabwehrverfahren | |
DE69633553T2 (de) | Verfahren und Vorrichtung zur Einbettung von Daten in einem elektronischen Dokument | |
DE69635512T2 (de) | Verfahren zum Lesen eines zweidimensionalen Strichcodes ohne Taktsignal | |
EP1665132B1 (de) | Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten | |
DE69423254T2 (de) | Verfahren und Gerät zur automatischen Spracherkennung von Dokumenten | |
DE69226609T2 (de) | Verfahren und Gerät zur Dokumentbildverarbeitung | |
DE69123083T2 (de) | Dokumentverarbeitung | |
DE69225196T2 (de) | Kombination aus Scanner, Rechner und Drucker | |
DE60225385T2 (de) | Autentisches Document und dessen Herstellungsverfahren | |
DE3107043C2 (de) | ||
DE69633809T2 (de) | Verarbeitung von maschinell lesbaren Vordrucken | |
DE69426098T2 (de) | Benutzung eines Bildmusters als Zugangsschlüssel zu Funktionen einer Maschine | |
DE3926327C2 (de) | Verfahren und System zum Erkennen von Zeichen auf einem Medium | |
DE69730930T2 (de) | Verfahren und Gerät zur Zeichenerkennung | |
DE69610243T2 (de) | Verfahren zum Trainieren einer Erkennungsanlage mit Zeichenmustern | |
DE68919685T2 (de) | Markierungssystem für dokumente. | |
DE69033042T2 (de) | Datenverarbeitung | |
DE69619147T2 (de) | Streifenkodekodierungssystem mit Vierzustandskoden | |
DE69610230T2 (de) | Verfahren und Gerät zur Bildverarbeitung | |
EP1260933A2 (de) | Verfahren zum Erfassen von zweidimensionalen Codes | |
DE3523042A1 (de) | Bildverarbeitungssystem | |
DE69029539T2 (de) | Verfahren und Gerät mit Block-Kode-kodierter Fehlerkorrektur | |
EP1671262A1 (de) | Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten | |
DE4119091A1 (de) | Verfahren und einrichtung zum erkennen von zeichen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: LINDNER BLAUMEIER PATENT- UND RECHTSANWAELTE, 9040 |
|
8339 | Ceased/non-payment of the annual fee |