DE4304082A1 - Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen - Google Patents

Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen

Info

Publication number
DE4304082A1
DE4304082A1 DE4304082A DE4304082A DE4304082A1 DE 4304082 A1 DE4304082 A1 DE 4304082A1 DE 4304082 A DE4304082 A DE 4304082A DE 4304082 A DE4304082 A DE 4304082A DE 4304082 A1 DE4304082 A1 DE 4304082A1
Authority
DE
Germany
Prior art keywords
text
texts
ocr
recognition
merging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE4304082A
Other languages
English (en)
Inventor
Bernd Dipl Phys Nitzschmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE4304082A priority Critical patent/DE4304082A1/de
Publication of DE4304082A1 publication Critical patent/DE4304082A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Description

Stand der Technik
Es sind verschiedene Verfahren zum Erkennen von Texten aus Bildvorlagen mit Hilfe von EDV-Anlagen bekannt. Ihnen ist gemeinsam, daß auf die aus Punktmustern bestehenden Buchstaben der Bildvorlage ein Algorithmus angewendet wird, um aus diesen Punktmustern den zugeordneten Buchstaben mit möglichst großer Sicherheit zu bestimmen.
Das Grundproblem bei der Bestimmung der in Druckvorlage enthaltenen Zeichen besteht darin, daß grundsätzlich eine Ähnlichkeitsbestimmung der Punktmuster nach vorzugebenden Kriterien durchgeführt werden muß, da auch bei qualitativ hochwertigen Vorlagen alle in der Vorlage vorhandenen Buchstaben verschiedene Punktmuster in der Bilddatei ergeben.
Die Aufgabe von OCR-Verfahren ist es gleichzeitig, die Erkennung einer Vielfalt von Schriftarten (möglichst simultan) zu ermöglichen, so daß bei einem gegebenen Punktmuster kein eindeutiger Bezug auf vorgegebene Muster möglich ist.
Dieser Umstand verhindert eine exakte Erkennung des Originaltextes mit 100%iger Erkennungssicherheit und damit auch ein eindeutiges Vorgehen bei der optischen Texterkennung.
Aus dieser Tatsache heraus sind viele verschiedene Verfahren zur optischen Texterkennung mittels Software entwickelt worden, die alle unterschiedliche Charakteristika bei der Erkennung aufweisen.
Der Ähnlichkeitsgrad, den der jeweilige Algorithmus ausgibt, ist damit auch von diesem abhängig und gibt nur eine relative Ähnlichkeit bezogen auf die jeweils verwendeten Vergleichskriterien an.
Unter den existierenden Verfahren befinden sich hybride Verfahren, die versuchen, ein Punktmuster mit Hilfe eines Algorithmus zu identifizieren und die im Falle einer zu geringen Wiedererkennungssicherheit (die ja nur relativ angegeben werden kann) weitere Erkennungsalgorithmen zur Entscheidungsfindung heranzuziehen.
Aufgabe
Aufgabe der Erfindung ist es, ein Verfahren vorzuschlagen, das eine Reproduzierung von gedruckten Texten in EDV-Anlagen mittels Software mit größerer Genauigkeit (gemeint ist die prozentuale Übereinstimmung des reproduzierten Textes bezogen auf die gedruckte Textvorlage) als bisher üblich ermöglicht.
Verfahren
Die Grundidee des Verfahrens beruht auf der gleichzeitigen Anwendung von drei möglichst verschiedenartig gestalteten Erkennungsprozessen auf eine Textvorlage. Mit verschiedenartig gestaltet ist gemeint, daß sich die drei Erkennungsprozesse durch den Erkennungsalgorithmus und/oder die programmtechnische Ausführung des Algorithmus und/oder die für den Algorithmus notwendigen Hilfsparameter unterscheiden müssen.
Bei einem anschließenden synchronisierten Vergleich der gelieferten Ausgaben wird aufgrund des Vorhandenseins von drei OCR-Resultaten an jenen Stellen, an denen eine OCR-Ausgabe von den beiden anderen OCR-Ausgaben verschieden ist, angenommen, daß die zwei gleichen Textstellen dem Originaltext entsprechen. Die beim dritten Prozeß entstandene zu den beiden anderen Textstellen verschiedene Textstelle wird verworfen.
Ein derartiges Vorgehen ist nur bei mindestens drei und einer ungeraden Anzahl von OCR-Resultaten möglich. Es wird dabei implizit eine gleich große Erkennungssicherheit aller drei Erkennungs-Methoden angenommen.
Der Vorteil des vorgeschlagenen Verfahrens besteht darin, daß auf jedes Punktmuster drei verschiedene Bewertungskriterien angewendet werden. Falls dann ein Kriterium aufgrund der problembedingten relativen Genauigkeit einen falschen Buchstaben vorhergesagt, zeigt die Erfahrung, daß in den meisten solcher Fälle die beiden anderen Kriterien die "richtige" Vorhersage treffen, bei der anschließenden Synthese wird dann auch bei der 2 : 1 Abstimmung das "richtige" Zeichen geliefert. Zusätzlich kann an Textstellen, an denen alle drei Verfahren unterschiedliche Angabe machen, mit höherer Sicherheit als bei Verwendung eines Verfahrens davon ausgegangen werden, daß in der Original-Vorlage die entsprechende Stelle für OCR-Automaten nicht erkennbar war, z. B. durch Verschmutzung, Ungenauigkeiten im Druck, etc.
Im Gegensatz dazu stehen die o. g. hybriden Verfahren, die aus Gründen der Rechenzeitersparnis ein bestimmtes Verfahren primär einsetzen und weitere Verfahren zur Erkennung eines bestimmten Musters nur dann, falls der primäre Algorithmus eine geringe Wiedererkennungssicherheit angibt.
Differieren alle drei OCR-Resultate an einer bestimmten Stelle, wird ein Vorgehen entsprechend der Unteransprüche 2 . . . 5 vorgeschlagen.
Um drei OCR-Ausgabetexte synchron vergleichen zu können, wird ein als Computerprogramm realisierter Algorithmus verwendet, der jeden OCR-Text mit den beiden jeweils anderen Texten zeichenweise vergleicht und an den Positionen, an denen die beiden jeweils verglichenen Texte einen Unterschied aufweisen, gleichzeitig die Differenztexte bestimmt und eine Resynchronisation erreicht, z. B. falls der Textunterschied in zusätzlichen (oder fehlenden) Buchstaben besteht.
Dabei wird ein wiederholtes versuchsweise gleichzeitiges Entfernen von Zeichenketten variierender Länge aus den beiden zu vergleichenden Texten ab der Position des ersten verschiedenen Zeichens und Speichern a) der Zeichenketten und b) der dadurch erzielten Übereinstimmung der Texte ab der Verschiebungsposition vorgenommen, bei anschließender Auswahl derjenigen zwei versuchsweise entfernten Zeichenketten, die eine maximale Übereinstimmung der restlichen Texte zur Folge haben.

Claims (6)

1. Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen mit Hilfe von in EDV-Anlagen ablaufenden Computer-Programmen und Übertragung der Schriftzeichen in eine in EDV-Anlagen übliche Repräsentation von Texten (z. B. ADCII), gekennzeichnet durch die gleichzeitige Verwendung von drei verschiedenen Programmen oder Algorithmen zur optischen Zeichenerkennung (optical character recognition OCR) und synchronem Zusammenführen der drei dadurch erhaltenen Texte zu einem Text, dergestalt, daß an solchen Textstellen, an denen sich die drei OCR- Vorlagen unterscheiden, ein als Computerprogramm realisiertes Verfahren angewendet wird, das aufgrund des Vorhandenseins von drei Textvorlagen den in den Ausgabetext zu übernehmenden Textteil bestimmt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mehr als 3 verschiedene OCR-Verfahren auf eine Druckvorlage angewendet werden und das die entsprechende Anzahl von OCR-Ausgabetexten zu einem Resultat-Text zusammengeführt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim Zusammenführen der Texte an denjenigen Positionen, an denen alle drei Texte voneinander abweichen, zusätzliche OCR-Verfahren zur Bestimmung des Ausgabetextes aufgerufen werden.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim Zusammenführen der Texte an solchen Positionen, an denen alle drei Texte voneinander abweichen, die Möglichkeit der manuellen Texteingabe und sonstiger Einflußnahme auf das weitere Programmverhalten gegeben ist.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß nach manueller Texteingabe eine erneute Synchronisation der drei durch OCR-Verfahren erhaltenen Texte durchgeführt wird.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß eine evtl. manuelle Nachkorrektur erst nach vollständigem Zusammenführen der drei OCR-Resultate bei vorläufiger Auslassung der für manuelle Korrektur vorgemerkten Textstellen durchgeführt wird.
DE4304082A 1993-02-11 1993-02-11 Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen Ceased DE4304082A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE4304082A DE4304082A1 (de) 1993-02-11 1993-02-11 Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4304082A DE4304082A1 (de) 1993-02-11 1993-02-11 Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen

Publications (1)

Publication Number Publication Date
DE4304082A1 true DE4304082A1 (de) 1994-08-18

Family

ID=6480217

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4304082A Ceased DE4304082A1 (de) 1993-02-11 1993-02-11 Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen

Country Status (1)

Country Link
DE (1) DE4304082A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19624977A1 (de) * 1996-06-22 1998-01-02 Siemens Ag Verfahren zur Verarbeitung von Postsachen

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU1543431A1 (ru) * 1988-02-01 1990-02-15 Минский радиотехнический институт Устройство дл идентификации текстовых изображений
DE4119091A1 (de) * 1990-06-11 1991-12-12 Ricoh Kk Verfahren und einrichtung zum erkennen von zeichen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU1543431A1 (ru) * 1988-02-01 1990-02-15 Минский радиотехнический институт Устройство дл идентификации текстовых изображений
DE4119091A1 (de) * 1990-06-11 1991-12-12 Ricoh Kk Verfahren und einrichtung zum erkennen von zeichen

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP 63-206882 A. In: Patents Abstracts of Japan, P-806,Dec.26,1988,Vol.12,No.497 *
RICHTER,Werner: Datenerfassung -Tastatur ade? In: Der Elektroniker 3/88,S.32-34 *
SCHÜRMANN,Jürgen: Automatisches Lesen. In: net nachrichten elektronik + telematik 36, 1982,H.11, S.473-477 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19624977A1 (de) * 1996-06-22 1998-01-02 Siemens Ag Verfahren zur Verarbeitung von Postsachen
US6909789B1 (en) 1996-06-22 2005-06-21 Siemens Aktiengesellschaft Method of processing postal matters

Similar Documents

Publication Publication Date Title
DE69319219T3 (de) Vorrichtung und Verfahren zum Prüfen von Drucksachen
EP0980293B1 (de) Verfahren und anordnung zum erkennen von verteilinformationen
DE602005002473T2 (de) Verfahren zum Erkennen von semantischen Einheiten in einem elektronischen Dokument
DE3633743C2 (de)
DE69721941T2 (de) Gerät und Verfahren zum Extrahieren von Mustern
DE69920296T2 (de) Verfahren und Vorrichtung zum Registrieren und Vergleichen von Handflächenabdrücken
DE3916323A1 (de) Verfahren zum erkennen eines zeichens und dabei verwendbares zeichenerkennungssystem
EP0067244A2 (de) Verfahren zum automatischen Erkennen von Weissblöcken sowie Text-, Graphik- und/oder Graubildbereichen auf Druckvorlagen
EP1015138B1 (de) Verfahren und anordnung zum erkennen von verteilinformationen auf sendungen
DE19624977A1 (de) Verfahren zur Verarbeitung von Postsachen
DE102006059659B4 (de) Vorrichtung, Verfahren und Computerprogramm zur Erkennung von Schriftzeichen in einem Bild
DE19511472C1 (de) Verfahren zur dynamischen Verifikation eines Schriftzuges anhand eines Referenzschriftzuges
DE2435982A1 (de) Verfahren und vorrichtung zur verarbeitung von durch abtastung eines mehrfarbigen musters erhaltenen informationen
DE2435889B2 (de) Verfahren und einrichtung zur unterscheidung von zeichengruppen
EP1918104A2 (de) Verfahren zum Prüfen eines Aufdrucks und Aufdruckprüfvorrichtung
DE69029004T2 (de) Unterschriftenprüfungsverfahren
DE3246631C2 (de) Zeichenerkennungsvorrichtung
EP0107083B1 (de) Belegverarbeitungseinrichtung mit Korrekturschaltung und Datensichtgerät
EP1596351B1 (de) Verfahren zur Beschriftung eines Kennzeichnungsschildersatzes
DE4304082A1 (de) Verfahren zum verbesserten Erkennen von gedruckten Schriftzeichen
DE60030603T2 (de) Vorrichtung zur Bilderkennung mit Verwendung von Teilmustern
DE60102928T2 (de) Verfahren und vorrichtung zur bildverarbeitung
DE2112919C3 (de) Anordnung zum Erkennen von Zeichen
WO2012159602A1 (de) Wert- und/oder sicherheitsdokument mit kodierter information
DE10009538B4 (de) Verfahren zur Analyse von Fingerabdruckbildern

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
8125 Change of the main classification

Ipc: G06K 9/68

8131 Rejection