DE2435889B2 - Verfahren und einrichtung zur unterscheidung von zeichengruppen - Google Patents

Verfahren und einrichtung zur unterscheidung von zeichengruppen

Info

Publication number
DE2435889B2
DE2435889B2 DE19742435889 DE2435889A DE2435889B2 DE 2435889 B2 DE2435889 B2 DE 2435889B2 DE 19742435889 DE19742435889 DE 19742435889 DE 2435889 A DE2435889 A DE 2435889A DE 2435889 B2 DE2435889 B2 DE 2435889B2
Authority
DE
Germany
Prior art keywords
character
characters
probability
scanned
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19742435889
Other languages
English (en)
Other versions
DE2435889A1 (de
Inventor
Anne Marie Lanham; Ciconte geb. Scheites Jean Marie Rockville; Milliard John Joseph Potomac; Rosenbaum Walter Steven Silver Spring; Ett Allen Harold Bethesda; Chaires geb. Lyons Md. (V.St.A.)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2435889A1 publication Critical patent/DE2435889A1/de
Publication of DE2435889B2 publication Critical patent/DE2435889B2/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

für jedes Paar möglicher Zeichen vorhanden ist,
daß eine Multipliziereinrichtung (208) mit dem Speicher (204) verbunden ist, welche aus den für die alphanumerischen Zeichenpaare jedes abgetasteten Zeichens aus dem Speicher abgerufenen Kanal-Verwechslungswahrscheinlichkeiten die Gesamtwahrscheinlichkeiten für die Zeichengruppe als erstes und zweites Produkt bildet, und daß ein Vergleicher (210) vorgesehen ist, welcher aus dem Vergleich des ersten Produktes mit dem zweiten die endgültige Unterscheidung zwischen Ziffern und Buchstaben für die abgetastete Zeichengruppe trifft.
7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß Torschaltungen (212) vorgesehen sind, welche die Daten der als wahrscheinlich richtig erkannten Zeichen auf eine Ausgangsleitung (170) durchschalten.
8. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß ein alphabetisches Speicheradreßregister (200) und ein numerisches Speicheradreßregister (202) vorgesehen sind, welche mit der entsprechenden alphabetischen (16) bzw. numerischen (18) Ausgangsleitung der Zeichenerkennungseinrichtung (100) verbunden sind, und welche den Speicher (204) zum Abruf entsprechender Kanal-Verwechslungswahrscheinlichkeiten mit den Codedarstellungen der Zeichen als Adressen ansteuern.
Zeichenerkennungseinrichtungen dienen zum Erkennen von in schriftlicher oder gedruckter Form vorliegenden Daten und zum Einlesen dieser Daten in binär codierter Form in eine datenverarbeitende Einrichtung. Bei alphanumerischen Daten, d. h. Zeichensymbolen, die aus Ziffern, Buchstaben oder sonstigen Zeichen gemischt sind, ist es außerordentlich wichtig, daß deren Bedeutung klar erkannt wird. Dazu gehört
auch die Unterscheidung, ob die gelesenen Zeichen alphabetischer oder numerischer Art sind.
Historisch gesehen entwickelten sich die alphabetischen Symbole der abendländischen Sprachen, wie Englisch, aus der lateinischen Schrift. Die Ziffernsymbo-Ie entstanden im arabischen Kulturkreis. Diese Entwicklungen erfolgten unabhängig voneinander. Dies führte jedoch zum Gebrauch von gleichartigen oder ähnlichen Konturen für manche dieser Zeichen. Ein menschlicher Leser kann aus dem Zusammenhang, in dem solche Schriftsymbole erscheinen, erkennen, ob es sich um Ziffern oüer Buchstaben handelt. Eine optische Zeichenerkennungsmaschine kann jedoch nur Eigenheiten der Konturen von Schriftzeichen erkennen und auswerten. Zur v/eiteren Unterscheidung Schlüsse aus dem Zusammenhang zu ziehen, ist ihr jedoch versagt. Ein optischer Zeichenleser als Eingabegerät für einen Computer hat daher u. U. Schwierigkeiten, die richtige Bedeutung eines gelesenen Zeichens zu erfassen.
Zur Erläuterung dieses Problemes sind in F i g. 1 verschiedene Paare solcher verwechslungsfähigen Zeichen dargestellt. Die Grenzen zwischen den einzelnen Arten von verwechslungsfähigen Zeichen sind fließend, je nachdem, ob es sich um gleichartige oder um nur mehr oder weniger ähnliche Zeichenpaare handelt. Die dargestellten Verwechslungsmöglichkeiten erscheinen nicht immer, jedoch erscheinen sie oft genug, um die Eingabe optisch gelesener Daten in eine Datenbank gelegentlich erheblich zu behindern. Fig. la zeigt beispielsweise identische Zeichenpaare, die jedoch unterschiedliche Bedeutung haben. Da ist einmal das geschlossene Symbol, das eine Null oder auch den Buchstaben O bedeuten kann. Ein senkrechter Strich kann die Bedeutung der Ziffer 1 haben oder ein streifenfreies großes I sein, d. h. der Großbuchstabe ohne die Querbalken an den äußeren Enden. Zeichen dieser Art sind gewöhnlich im alphanumerischen Text nicht ohne weiteres zu unterscheiden. Fig. Ib zeigt Zeichenpaare wie die Ziffer 5 und den Großbuchstaben S, oder die Ziffer 2 und den Buchstaben Z, welche topologisch gleichartig sind und nur durch die Rundung oder Schärfe ihrer Ecken unterscheidbar sind. Diese Schärfe ist aber eine der Eigenheiten, die als erstes verschwindet, wenn die Qualität der Schrift leidet. Fig. Ic zeigt Zeichenpaare wie die Ziffer 6 und den Großbuchstaben G, die Ziffer 8 und den Großbuchstaben B oder die Ziffer 9 und den Kleinbuchstaben g, welche alle sich nur geringfügig in wenigen topologischen Eigenheiten unterscheiden, welche Unterschiede gewöhnlich verschwinden, sobald die Druckqualität schlechter wird. Fig. Id veranschaulicht Zeichenpaare wie die oben offen geschriebene Ziffer 4 und der Großbuchstabe H oder die oben geschlossen geschriebene Ziffer 4 und der Großbuchstabe A, die Ziffer 7 und der Großbuchstabe Y, die Ziffer 8 und der Großbuchstabe S oder die Ziffer 8 und der Kleinbuchstabe e, welche in ihren Einzelheiten sich weiter unterscheiden als die in Fig. Ic gezeigten Beispiele, die jedoch immer noch verwechselt werden können, wenn die Qualität des zu lesenden Textes sich verschlechtert. Fig. Ie veranschaulicht Zeichenpaare wie die ohne mittleren Querstrich geschriebene Ziffer 7 und den Großbuchstaben T, die Ziffer 0 und der Kleinbuchstabe n, die Ziffer 0 und der Buchstabe e oder die Ziffer 0 und der Großbuchstabe U, welche in solchen Teilen voneinander abweichen, welche oft verloren gehen können, wenn beispielsweise die zum Schreiben verwendete Schrifttype oder der Farbträger durch längeren Gebrauch abgenutzt sind. Ähnlich wirken auch Ungenauigkeiter in der Abschnittzerlegung der Zeichenerkennungsma schine.
Der Schlüssel zur zuverlässigen Textverarbeitung is die Fähigkeit, prompt und zuverlässig numerisch! Datenfelder von alphabetischen Datenfeldern bei dei Analyse der Ausgangssignale eines optischen Zeichen lesers möglichst frühzeitig abzugrenzen. Obwohl es ein< leichte Aufgabe zu sein scheint, ist in Wirklichkeit di< zuverlässige Unterscheidung von numerischen Daten feldern innerhalb eines allgemeinen Textes eim schwierige Aufgabe. Das kommt daher, daß di< lateinischen und arabischen Alphabete, von denet unsere jetzt gebräuchlichen Zeichen abgeleitet sind unabhängig voneinander entwickelt wurden, wöbe selbstverständlich keinerlei mögliche Verwechslungsfä higkeit berücksichtigt wurde. Die geometrischer Grundfiguren sind in allen Alphabeten praktisch gleich.
Das Problem der Unterscheidung zwischen alphabet! sehen und numerischen Zeichen bei der optischer Zeichenerkennung tritt beispielsweise beim automat! sehen Lesen von Postanschriften auf. Manche allgemeir alphabetischen Worte können als Teil oder als Ganze; auch als numerisches Datenfeld gelesen werden Beispiele solcher Fehlauswertungen in englische! Sprache sind das Lesen eines abgetasteten »South« al; 80 478 oder 804 th. »Third« kann gelesen werden al« 781 rd und »Fifth« als 01078 oder 010 th. Die umgekehrte Situation kann auch bei vielen numerischer Datenfeldern auftreten.
Der Haken bei dem Problem des Erkennen; numerischer Datenfelder bei der automatischen Postverarbeitung ist darin zu sehen, daß wirkliche oder auch nur angenommene Folgen von erkannten numerischer Zeichen keine Basis für Verfahren bieten, daraus auf der begrifflichen Zusammenhang zu schließen. Ein numerisches Datenfeld ist völlig nichtredundant, denn jede Anordnung von Ziffern ergibt immer eine lesbare Zahl.
In bestehenden optischen Zeichenerkennungseinrichtungen wird die endgültige Entscheidung zwischer Buchstaben und Ziffern in jedem Datenfeld durch eir Eliminationsverfahren bestimmt. Das erfordert, daß jede Folge von ausgelesenen Daten eines Feldes, die noch nicht als pin Schlüsselwort erkannt worden sind weiter verarbeitet werden muß, beispielsweise durch Vergleich mit einer gespeicherten Tabelle von erlaubter und im voraus bekannten Bedeutungsinhalten. Jedes Datenfeld, das auf diese Weise nicht einem möglicher Text zugeordnet werden kann, wird dann als numerisches Datenfeld angenommen. Ein solches Verfahren isl selbstverständlich nicht anwendbar bei allgemeiner Textverarbeitung oder auch nur bei der automatischer! Postverarbeitung. Denn das zu speichernde Verzeichnis von allen möglichen erlaubten Bedeutungsinhalten wird dann über alle Maßen groß und der Zeitaufwand für die Auswertung wird unrealistisch. Auch würde dieses Verfahren verstümmelt übermittelten Datenfeldern eine numerische Bedeutung zuweisen.
In der US-PS 36 34 822 ist ein Zeichenerkennungsverfahren, und eine Zeichenerkennungseinrichtung beschrieben, mit deren Hilfe Zeichen erkannt werden können, die drei verschiedenen Schrift- oder Stilarten angehören können. Jedes abgetastete Zeichen wird in ein«, ihm zugeordnete Binärdarstellung umgewandelt Diese Binärdarstellung wird mit Hilfe dreier Tabellen untersucht, in denen die Wahrscheinlichkeitswerte für jedes bekannte Zeichen in den drei verschiedenen Schriftarten gespeichert sind. Es werden weiterhin für
jedes Zeichen in jeder Schriftart Zeichenverglciehsfunkiionen erzeugt, die in einem Pufferspeicher für eine spätere Zeichenidentifizierung gespeichert werden. Ferner werden sie drei Akkumulatoren zugeführt, um drei Schriftarten-Vergleichsfunktionen für das unbe- r> kannte Zeichen zu liefern. Mit diesen Funktionen wird zunächst die Schriftart bestimmt, ohne gleichzeitig auch das Zeichen zu identifizieren. Die Ergebnisse einer Reihe von Schriftartenidentifizierungen für eine Folge unbekannter Zeichen werden vorübergehend gespeichert und aus diesen werden in adaptiver Form Schriftarten-Häufigkeitsfunktionen abgeleitet, die dann dazu benutzt werden, die Zeichenvergleichsfunktionen zu modifizieren, die zuvor im Pufferspeicher gespeichert wurden. Die modifizierten Zeichenvergleichsfunktionen werden dann zur Identifizierung des unbekannten Zeichens miteinander verglichen.
Es handelt sich bei diesem Verfahren um ein adaptives Verfahren zur Bestimmung von Zeichen, die in drei verschiedenen Schrift- oder Stilarten der Zeichenerkennungsmaschine angeboten werden. Obwohl auch hier statistische Häufigkeitsuntersuchungen zur Verbesserung der Auswerteergebnisse in den Entscheidungsvorgang eingebaut wurden, sind optimale Werte hinsichtlich der Zuverlässigkeit des Auswerteergebnisses bei diesem Verfahren noch nicht zu erwarten, da doch weitgehend statistische Merkmale die Wahrscheinlichkeiten der Nachbarschaftskombinationen von Zeichen mit berücksichtigen und somit Zeichenfolgen, denen keine statistischen Nachbarschaftskombinatio- jo nen innewohnen, wie beispielsweise bei Zahlen, nicht ausreichend zuverlässig erkannt werden können.
Es ist daher Aufgabe der Erfindung, die Ausgangsdaten eines optischen Zeichenlesers in verbesserter Weise auszuwerten. Die Unterscheidung zwischen alphabeti- 3> sehen und numerischen Datenfeldern sollte auch ohne die Notwendigkeit möglich sein, ein großes Verzeichnis von erlaubten und möglichen Bedeutungsinhalten speichern zu müssen. Auch sollte die Auswertezeit im Vergleich zu bekannten Einrichtungen im Sinne einer Verbesserung verkürzt werden. Es soll insbesondere auch eine Erhöhung der Sicherheit der Auswerteergebnisse hinsichtlich solcher Zeichenfolgen erzielt werden, Lei denen keine Statistiken aus den Wahrscheinlichkeiten der Nachbarschaftskombinationen der Zeichen 4> erstellt werden können.
Gelöst wird die vorstehend genannte Aufgabe der Erfindung für das Verfahren durch die in dem Hauptanspruch und für die Einrichtung für die im Anspruch 6 genannten Merkmale. Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entnehmen.
Die neue Einrichtung kann in direkter Verbindung mit einer datenverarbeitenden Anlage arbeiten, also im sogenannten online-Betrieb. Das aus der Wahrschein- π lichkeitstheorie entnommene Kriterium ist die sogenannte Bayessche Regel. Daher wird die Einrichtung Bayes Online Numerischer Diskriminator genannt. Dieser Diskriminator ist so fähig, zwischen alphabetischen und numerischen Zeichcnfeldern zu unterschei- Mi den, welche durch einen optischen Zcichenleser abgetastet wurden. Dabei ist es nicht notwendig, ein aufwendiges gespeichertes Verzeichnis zu haben, welches alle im voraus bekannten und zulässigen Bedeutungen enthält. Ohne diese Notwendigkeit eines br> Vcrglcichsverzciehnisscs kiinn die Unterscheidung /wischen Buchslaben und Ziffern jetzt auch in wesentlich kürzerer Zeit pcmncht werden, ills es bei den bisher bekannten Einrichtungen der Fall ist.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnungen näher erläutert.
Fig. la bis Ie zeigen Beispiele von verwechselbaren, aus Ziffern und Buchstaben bestehenden Zeichenpaaren;
F i g. 2 zeigt das Blockdiagramm eines optischen Zeichenlesers mit zwei Ausgangsleitungen;
Fig. 3 zeigt als Blockdiagramm ein Ausführungsbeispiel des Diskriminator;
Fig.4 zeigt ein allgemeines Blockschaltbild der Diskrimina torschaltung.
Grundlagen der Arbeitsweise der
Diskriminatorschaltung
Das erfindungsgemäße Verfahren sucht die Fähigkeit, auf alphabetische oder numerische Daten zu schließen, dadurch zu erreichen, daß jedem numerischen Unterfeld eine bestimmte Form von Quasi-Redundanz zugeordnet wird. Unterfelder sind Zeichengruppen, wie sie beispielsweise nachfolgend als SIOUX, FALLS usw. oder 5100*, 56**5 usw. angegeben sind. Im Sinne einer im Zusammenhang fortschreitenden Betrachtung bedeutet Redundanz, daß gewisse Abhängigkeiten zwischen dem Vorhandensein des einen Zeichens und eines anderen Zeichens bestehen. Gewöhnliche Zusammenhang-Redundanz wird sozusagen in einem horizontalen Sinn betrachtet, zwischen den Zeichen einer Zeile oder innerhalb eines Wortes. Ein Beispiel dieses Konzeptes ist die Auswertung von Statistiken. Diese Wahrscheinlichkeiten der Nachbarschaftkombinationen von Zeichen ermöglichen die Voraussage eines wahrscheinlich folgenden Zeichens aus der Kenntnis der vorhergehenden Zeichen. Wenn daher die Zeichenfolge SPRI-G gegeben ist, wird man wahrscheinlich ein großes N eher wählen als beispielsweise ein großes Z, um den Zwischenraum auszufüllen. Mathematisch wird dies in die Form einer bedingten Wahrscheinlichkeitsaussage gefaßt.
/Maja,-)· (1)
Dabei bedeutet a, ist beobachtet, und a< ist vorhergesagt als möglicherweise folgendes Zeichen. Der Zahlenwert der Gleichung (1) hängt von der Verträglichkeit des 3,3it-Zeichenpaares in englisch geschriebenem Text ab.
Zur Auswertung numerischer Unterfelder gibt es selbstverständlich nichts Gleichwertiges, was solchen statistisch ermittelten Wahrscheinlichkeitstabellen entsprechen würde, die auf der Zusammenhang-Redundanz des Textes basieren.
Obwohl also eine Redundanz in der horizontalen Form in numerischen Datenfeldern nicht existiert, gibt es doch eine Art von Redundanz einer speziellen »vertikalen« Art. Die vertikale Redundanz ist allerdings nur erkennbar, wenn eine mindestens zweikanalige Auswertung der abgetasteten Zeichen verwendet wird. Ein Beispiel aus einer englisch geschriebenen Postanschrift soll dies erläutern. Von der Maschine wird folgendes gelesen:
Alphabetischer Kanal: SIOUX FALLS SD S LOL
Numerischer Kanal: 5100* 56**5 50 57101
Ein Blick auf dieses Beispiel zeigt, daß höchstwahrscheinlich die beiden ersten Unterfcldcr alphabetisch sind und die beiden letzten Unlerfcldcr numerisch,
Diese für den menschlichen Leser erkennbare vertikale Redundanz soll nun auch für die automatische Zeichenerkennung ausgenutzt werden. Es wird ein optischer Zeichenleser verwendet, der einen doppelten Alisgang hai. Ein Kanal versucht, jedes der abgetasteten Zeichen als Buchstaben zu lesen und kann daher als alphabetischer Kanal bezeichnet werden. Der andere Kanal ist ein numerischer Kanal, der jedes abgetastete Zeichen als Ziffer zu erkennen versucht. Ein solches doppeltes Erkennungssystem hat folgende Eigenschaften: a) ledcs tatsächlich numerische Zeichen wird durch den alphabetischen Kanal falsch erkannt und ihm ein möglichst nahe liegender alphabetischer Wert zugeordnet (zum Beispiel wird die Ziffer 2 oft als Z gelesen), b) Entsprechend wird jedes tatsächlich alphabetische Zeichen durch den numerischen Kanal falsch erkannt und entweder zurückgewiesen, dargestellt durch *, oder ihm ein bestimmter Ziffernwert zugeordnet. (Zum Beispiel wird der Großbuchstabe S im numerischen Kanal oft als Ziffer 5 gelesen).
Ein Konzept von vertikaler Redundanz wird hier entwickelt, welches der Erkennung eines Zeichens in einem Kanal eine Anzahl von möglichen Fehlcrkcnnungen im anderen Kanal zuordnet. Dies kann als eine bedingte Wahrscheinlichkeilsaussage formuliert werden.
(2)
Dies gilt für den Fall, daß ein numerisches Zeichen n, abgetastet wurde. P ist die Wahrscheinlichkeit, mit der der alphabetische Kanal dieses Zeichen als Zeichen U1 fchlinterpretiert.
Die umgekehrte bedingte Wahrscheinlichkeitsausagc lautet folgendermaßen:
P K «,).
(3)
In diesem Falle ist das abgetastete Zeichen a,- ein Buchstabe. P ist hier die Wahrscheinlichkeit mil der der numerische Kanal dieses Zeichen als Zeichen /;, fehlinlcrpreliert.
Die Gleichungen (2) und (3) werden auf die sogenannten KanaI-Verwechslungs-Wahrscheinlichkeiten zurückgeführt, welche formuliert werden als
Pn (», I CIj) .
II)
2r>
•4r)
Eine statistische Auswertung der Fähigkeiten einer optischen Zeichencrkcnnungsmaschine ergibt vollständige Tafeln der ermittelten Verwechslungs-Wahrsehcinlichkeitcn. Die Aussagefähigkeit solcher Tafeln wird verbessert, wenn man sie unabhängig für v, verschiedene .Schriftarien zusammenstellt, wie beispielsweise Großbuchstaben und Kleinbuchstaben, und dabei noch einzelne Zeichenpaare möglicher Vcrwcchslungsfähigkcit gesondert untersucht.
Hai man die Leistungsdaten einer optischen Zei- wi chenerkennungsmaschinc crsl einmal festgestellt, kann man diese für die Verwirklichung des neuen Verfahrens /iitii Unterscheiden zwischen Ziffern und Buchstaben ausnutzen. Die zu behandelnden Unterfeldcr sind solche, deren zweifache Kanal-Erkennungs-Ausgangs- hr> signale nach dem Kriterium einer Verwerfung oder Zurückweisung von Zeichen nicht völlig bestimmt sind. Das Kriterium des Vcrwerfungssymbols bedeutet, daß
das alphabetische und das numerische Unterfeld sich um mehr als zwei solcher Symbole unterscheiden. Das Untcrfcld mit der geringeren Anzahl von Verwerfungssymbolen wird dann gewählt, als sei es das abgetastete Feld. Das neue Verfahren sucht jetzt die alphabetischen und numerischen Unterfelder auf der Grundlage ihrer Bayes Wahrscheinlichkeitsfaktoren zu unterscheiden. Das bedeutet, daß man die Ausgangssignale sowohl des alphabetischen als auch des numerischen Kanals nach Gesichtspunkten bewertet, die man folgendermaßen ausdrucken kann:
P (alpha gelesen | numerisch abgetastet) (6)
P (numerisch gelesen | alpha abgetastet). (7)
Gleichung (6) ist die Wahrscheinlichkeitsaussage, welche die Verträglichkeit der Ausgangssignale des alphabetischen Kanals mit der Annahme bewertet, daß ein numerisches Datenfeld abgetastet worden ist. Gleichung (7) bewertet das Umgekehrte, d. h. die Verträglichkeit der Ausgangssignale des numerischen Kanals mit der Annahme, daß ein alphabetisches Datenfeld abgetastet worden ist. Um damit rechnen zu können, kann man die Gleichungen (6) und (7) als Produkte der zugehörigen Kanal-Verwechslungs-Wahrscheinlichkeiten darstellen:
P (alpha gelesen | numerisch abgetastet)
P (numerisch gelesen | alpha abgetastet)
(6a)
(7a)
Kleines k bedeutet die Anzahl der im Unterfcld abgetasteten Zeichen. Nach dieser Betrachtungsweise wird die alphabetische oder numerische Art des abgetasteten Unterfeldes aus dem Quotienten oder dem Verhältnis Φ der Gleichungen (6a) und (7a) ermittelt.
rr P,,. (i/J/i,,)
φ =
Wenn dieser Quotient Φ< I ist, besagt das, daß das Datenfeld alphabetisch ist; <I>>\ besagt, daß das abgetastete Datenfeld ein numerisches ist.
Die in der Gleichung (8) formulierte Schlußweise stammt von dem Verhältnis der Bayes Wahrscheinlichkeitsfaktoren. Dabei wird angenommen, daß keine statistischen a-priori-Datcn von Bedeutung verfügbar sind.
Die durch den großen Umfang des statistischen Materials gegebenen Einschränkungen, daß keine signifikanten a-priori-Daten verfügbar sind, trifft besonders bei der automatischen Postverarbeitung zu, wenn durch Postleitzahlen definierte Anschriften ausgewertet werden sollen. Was jedoch das die Hausnummern enthaltende Datenfeld betrifft, können hier gewisse statistische Daten gesammelt werden, welche die Wahrscheinlichkeil angeben, eine I lausnummer, el. h. ein
numerisches Unterfeld, in der Zeile einer geschriebenen Adresse vorzufinden. Statistiken solcher Art wurden ausgewertet unter Verwendung von Hunderttausenden von Postanschriften, die auf Datenbändern gesammelt waren. Die entsprechende a-priori-Wahrschcinlichkeit für alphabetische Datenfelder folgt direkt aus diesen Daten als deren Komplementwerte. Die entsprechende Formulierung für das neue Unterscheidungsverfahren zum analysieren des Hausnummernfeldes bei der Postverarbeitung hat dann die folgende Form:
π P1... (ajn„) Pn (numerisch vorhanden)
Φ='
.τ P1... (n„/an) P4 (alpha vorhanden)
η = ι
(9)
.τ P11. (cijnn) Pn (numerisch vorhanden)
Φ = "^j
•τ Pn(njan)
η = 1
[1 — Pν (numerisch vorhanden)]. 2>
Φ<\ bedeutet, daß das abgetastete Datenfeld ein alphabetisches ist, und Φ>\ bedeutet, daß das abgetastete Datenfeld ein numerisches Feld ist. jo
In ausgedehnten Testreihen hat sich das neue Verfahren als höchst wirksam erwiesen. Bei Postverarbeitung mit völlig ungeordneten Adressen, die willkürlich Adressbüchern entnommen waren, wurde eine fast vollständige richtige Erkennung dieses Adressenmate- 5-, rials erzielt. Es sei bemerkt, daß die Berechnungen nach den Gleichungen (8) und (9) auch so ausgeführt werden können, daß man die Logarithmen der entsprechenden Wahrscheinlichkeitsfaktoren addiert.
Der Bayesche online numerische Diskriminator
Die optische Zeiehenerkennungseinrichuing 100 mit doppeltem Ausgang, welche in Verbindung mil der neuen Diskriminatorschaltung verwendet wird, ist in F i g. 2 dargestellt. Bei der Verarbeitung eines allgemei- 4-, nen Textes werden die geschriebenen oder gedruckten Zeichen auf der Vorlage 2 mittels eines Suchkopl'es 3 abgetastet, der die Zeilenrichtung und das Format der Zeichen erkennt. Diese Vorab-Abtasiung sammelt digitale Ausgangssignalc von phoioempfindlichen Tran- -,0 sisloranordnungen im Suchkopf 3, und überträgt diese zum Formatprozcssor 5. Der Formatprozessor übernimmt die digitalen Signale und bewerkstelligt das Suchen der Zeilen, und im Falle der Postverarbeitung, das Suchen des Adresscnfeldcs. Die Funktion des vi Zeilenfindens bestimmt die horizontalen und vertikalen Koordinaten aller wesentlichen Textzeilen und erzeugt die notwendigen geometrischen Koordinaten, damit der Prozessor die Lage und die Neigung der Zeilen des Textes berechnen kann. Bei der Postverarbeitung 1,11 bestimmt die Funktion des Adressenfindens die horizontalen und vertikalen Ausgangspositionen für die Abtastung und die notwendigen Daten, um den Schräglauf oder die Zeilenneigung auszugleichen. Der l.esekopf 4 enthält vier Abtasl-Phololransislorcn-Vor- π'> richtungen mit je 64 Zellen. Diese Zellen sind etwa 0,1 mm breit und mil einem Rasterabsland von 0,1 mm angeordnet. |ede solche Vorrichtung mit b4 Zellen liest eine Textzeile. Die Ausgangssignalc dieser Vorrichtungen werden in Digitalsignale umgewandelt und für jeden Abtastschrilt von 0,1 mm an den Videoprozessor 6 geliefert. Der Video-Prozessor 6 hat drei wesentliche Aufgaben zu erfüllen, das Verarbeiten von Blöcken von Videosignalen, das Zerlegen der abgetasteten Zeichen in Abschnitte und die Größennormalisierung der abgetasteten Zeichen. Das Verarbeiten von Videoblocksignalen bedeutet, daß die beim Abiasien einer vollständigen Zeile gewonnenen Zeichen alle für die Weiterverarbeitung gespeichert werden. Daraus wird der Buchstabenabstand für jede gelesene Zeile bestimmt und entsprechende Signale an den Zeichenzerleger 7 zur Auswertung weitergeleitet. Der Zeichenzerleger bearbeitet die Videodaten unter Benutzung der Information aus dem Zeichenabstand und unterteilt die Folge der digitalen Signale, welche die optische Information eines jeden gelesenen Zeichens enthalten. Der die Zeichen normalisierende Teil der Einrichtung 7 bearbeitet die Daten des Videosignals unter Benutzung der Informationen, welche von der Zerlegung in Abschnitte herrühren. Dieser Normalisierer gleicht die Höhen der abgetasteten Zeichen ab durch Entfernen oder Kombinieren von horizontalen Zeilen des gelesenen Videosignals. Entsprechend kann die Breite der Zeichen verkleinert werden durch Weglassen oder Kombinieren von vertikalen Abtastzeilen des Videosignals. Diese so vorbereiteten digitalen Signale werden dann an den Eigenheitendetektor 8 geliefert.
Die eigentliche Zeichenerkennung erfolgt durch eine Extraktion von gewissen Meßwerten aus diesen Videodaten, welche dem Eigenheitendetektor 8 zugeführt wurden. Daraus werden anschließend entsprechende Entscheidungen getroffen. Dieses Extrahieren der Meßwerte bestimmt die wesentlichen Unterscheidungsmerkmale der Zeichen aus dem Inhalt des Schieberegisters, das die Videosignale enthält. |edc: solche Messung (z. B. ein kurzer horizontaler Strich am unteren linken Ende, ein offenes Oberteil oder ein mittlerer Querstrich) wird als entsprechender Binärwert an einer bestimmten Stelle eines Schieberegisters mit einer Speicherkapazität von J20 Bits gespeichert. Als Linearkombination aus verschiedenartigen Zahlenwerten wird ein solcher Registerinhalt Meßvektor genannt. Von dem Eigenheitendciektor 8 wird dieser MeLivektor an die Vcrgleichercinrichtung IO f'ir alphabetische Eigenheiten, und an die Vergleichereinrichtung 12 für numerische Eigenheiten ausgegeben. Die Vergleiehcreiiiriehtung 10 vergleicht den Meßvektor für das abgetastete Zeichen durch Vergleich mit im alphabetischen Merkmalspeicher 9 gespeicherte Information. Solche alphabetischen Zeichen, deren Merkmale am besten mit den Merkmalen des abgetasteten Zeichens übereinstimmen, werden in entsprechend codierter Form über die Ausgangsleining 16 des alphabetischen Kanals ausgegeben. In entsprechender Weise vergleicht die Vergleichcranriehtung 12 für numerische iiigenheiten den vom F.igenheiiendcieklor 8 gelieferten Meßvektor für das abgetastete Zeichen mil im numerischen Merkmalspeicher 14 gespeicherter Information. Die Vergleichereinrichtung 12 gibt über die Ausgimgslei· tung 18 des numerischen Kanals Signale einsprechend einem numerischen Zeichen aus, dessen Merkmale am besten mit den Merkmalen des abgetasteten Zeichens übereinstimmen. Falls ein Mindestwert von übereinstimmenden Merkmalen in der Vergleicliseinrichiung eines Kanals nicht erreicht wird, wird ein Ziirückwei· sungssymbol über die einsprechende Kanalaiisgangslei-
Hing ausgegeben. Als Beispiele für solche Ausgangssignale sind in der F i g. 2 ein alphabetisches Zeichcnfeld 20 und ein entsprechendes numerisches Zcichenfeld 22 dargestellt.
Ein Ausführungsbeispiel des Bayeschen online Diskriininator ist in F i g. 3 dargestellt. Die optische Zeichenerkennungseinrichtung mit doppeltem Ausgang nach Fig. 2 ist in der Fig. 3 als Block 100 dargestellt. Die Ausgangsleitung 16 des alphabetischen Kanals und die Ausgangsleitung 18 des numerischen Kanals führen in den Pufferspeicher 102. Auf der Leitung 104 wird das alphabetische Unterfeld zum alphabetischen Schieberegister 112 ausgegeben und zum Speicheradressenregister 128. Die numerischen Ausgangssignale des Pufferspeichers 102 werden über die Leitung 106 an das Schieberegister 118 und an das Speicheradressenregister 130 ausgegeben. Von der Eingangszelle 114 des Schieberegisters 112 und der Eingangszelle 120 des Schieberegisters 118 geht eine Verbindungsleitung zum Lückendetektor 124, um gegebenenfalls die Anwesenheit einer Leerstelle oder eines Wortzwischenraumes aufzufinden. Bei Entdeckung einer Leerstelle wird der Entscheidungsprozeß durch die Steuereinrichtung 126 in Gang gebracht.
Auf die Entdeckung einer Leerstelle hin an der Eingangszelle 114 des Schieberegisters 112 bzw. der Eingangszelle 120 des Schieberegisters 118 veranlaßt die Steuereinrichtung 126, daß die Zeichenfolge des alphabetischen Kanals in das alphabetische Schieberegister 112 Zeichen für Zeichen geschoben wird in Synchronismus mit den numerischen Signalen, welche Zeichen für Zeichen in das Schieberegister 118 geschoben werden. Gleichzeitig wird jedes Zeichen des alphabetischen Datenfeldes sequentiell in das Speicheradressenregister 128 geladen und ebenso jedes Zeichen des numerischen Datenfeldes in das Speicheradressenregister 130. Die Kombinatin des im Speicheradressenregister 128 gespeicherten alphabetischen Zeichens und des im Speicheradressenregister 130 gespeicherten numerischen Zeichens verkörpern die Speicheradresse im Speicher 132 für die alphabetischen bedingten Wahrscheinlichkeiten P(n/n)und im Speicher 134 für die numerischen bedingten Wahrscheinlichkeiten P(n/a).
Im Speicher 132 ist die Tafel der Kanalverwcchslungsstatistik gespeichert, welche die bedingten Wahrscheinlichkcitswerte P(aln) enthält, die angeben, mit welcher Wahrscheinlichkeit ein alphabetisches Zeichen durch den Zeichenleser ausgegeben wurde im Falle, daß in Wirklichkeit ein numerisches Zeichen abgetastet worden war. Die im Speicher 132 vorhandenen Wahrscheinlichkeitswerte werden durch das numerische Zeichen angesteuert, von dem angenommen wird, daß es abgetastet wurde und als alphabetisches Zeichen gelesen. Dieses Zeichen ist der Inhalt des Speicheradresscnregisiers 130 bzw. des Speicheradressenrcgisters 128, Im Speicher 134 sind die bedingten Wahrscheinlichkeitswerte gespeichert. Diese Werie beziehen sich darauf, daß ein abgetastetes alphabetisches Zeichen als numerisches Zeichen gelesen wird. Diese Werte der bedingten Wahrscheinlichkeit P(nlu) werden durch das ausgelesene numerische Zeichen angesteuert, wobei angenommen wird, daß uin alphabetisches Zeichen abgetastet wurde. Dieses Zeichen befindet sich in dem Speicheradrcssenn.-gister 130 bzw. in dem Speichenidressenrcgisiei- 128. Durch Prüfen gegen den Inhalt der Speicherausgiibcregister 136 bzw. 138 wird für jedes eingegebene Zeichen eine alphabetische bedingte Wahrscheinlichkeit P(,i/n) und eine numerische bedingte Wahrscheinlichkeit P(n/a) ermittelt.
Die im Speicherausgaberegister 136 sequentiell gespeicherten bedingten Wahrscheinlichkeilswerte
-) P(aln) werden nacheinander mit dem sequentiell nachgeführten Inhalt des Speicherregisters 144 multipliziert durch eine Multipliziereinrichtung 140. Dieser Multiplikationsprozeß läuft kettenartig weiter ab, bis das Gesamtprodukt aller alphabetischen bedingten
κι Wahrscheinlichkeiten für das alphabetische Zeichenfeld im Schieberegister 112 berechnet ist. Das Ende dieses Zeichenfeldes wird festgestellt durch Prüfen auf die beendende Leerstelle in der Position der Eingangszelle 114 des Schieberegisters 112. In gleicher Weise wird nacheinander für das numerische Datenfeld das Produkt der numerischen bedingten Wahrscheinlichkeiten P(nla) durch die Multipliziereinrichtung 142 berechnet und im Speicherregister 146 gespeichert, wenn das Ende des numerischen Datenfeldes an der Eingangszelle 120 des
2i) Schieberegisters 118 festgestellt wurde. Das im Speicherregister 144 vorhandene Produkt der alphabetischen bedingten Wahrscheinlichkeiten wird in das Register 150 übertragen, und das Produkt der numerischen bedingten Wahrscheinlichkeiten wird vom
2i Speicherregister 146 in das Register 152 übertragen. Die Inhalte der Register 150 bzw. 152 werden in der Vergleichereinrichtung 154 verglichen, um ihre relative Größe festzustellen.
Die Vergleichereinrichtung 154 bestimmt, ob das Produkt der numerischen bedingten Wahrscheinlichkeiten größer ist als das Produkt der alphabetischen bedingten Wahrscheinlichkeiten. Im Falle, daß die alphabetische bedingte Wahrscheinlichkeit höher ist, ist dies ein Anzeichen dafür, daß die entsprechenden
r, numerischen Zeichen auf der Ausgangsleitung 18 des numerischen Kanals besser verträglich mit der Annahme sind, daß die alphabetischen Zeicnen auf der Ausgangsleitung 16 des alphabetischen Kanals abgetastet wurden und als numerische Zeichen gelesen, als das Umgekehrte. Falls es wahrscheinlicher ist, daß das abgetastete Wort das im Schieberegister 1)8 gespeicherte numerische Datenfeld ist, schaltet die Vergleichereinrichtung 154 die Torschaltung 160 durch, und veranlaßt so das Schieberegister 118, das numerische Datenfeld an das alphanumerische Unterscheidungsregister 164 auszugeben. So macht man, falls erwünscht, das numerische Datenfeld für weitere Postverarbeitung zur Ausgabe über die Ausgangslcitung 170 verfügbar. Ebenso kann über die Leitung 166 ein numerisches Indikatorbit in den alphanumerischen Datenstrom auf der Ausgangsleitung 170 eingefügt werden.
Im umgekehrten Falle, wenn das im Register 152 gespeicherte Produkt der numerischen bedingten Wahrscheinlichkeiten größer als das im Register 150
-,·-, gespeicherte Produkt der alphabetischen bedingten Wahrscheinlichkeiten ist, schallet die Vergleichcreinrichtung 154 die Torschaltung 162 durch und veranlaßt, daß das im Schieberegister 112 gespeicherte alphabetische Datenfeld an das alphanumerische Unterschei-
Mi dungsregistcr 164 ausgegeben wird. Von dort kann es, falls erwünscht, für weitere Posivcrarbeitung über die Ausgaiigslcilung 170 ausgegeben werden. Auch kann, falls erwünscht, ein alphabetisches Inclikalorbil in den Strom der Ausgiingsdaten auf der Ausgangslcitung 170
hi eingefügt werden.
Ein allgemeines Bloekdiugiamm der neuen Einrichtung ist in Fig. 4 dargestellt. Die optische Zeiehenerkennungseinriclitung 100 mil doppeltem Ausgang hat
ihre Ausgangsleitung 16 des alphabetischen Kanals mit dem alphabetischen Speicheradressenregistcr 200 verbunden und die Ausgangsleitung 18 des numerischen Kanals mit dem numerischen Speicheradressenregister 202. Diese Speicheradressenregister 200 und 202 "■ arbeiten gleichzeitig auch als Pufferspeicher für den entsprechenden Datenstrom, der vom alphabetischL-n und numerischen Kanal geliefert wird. Gesteuert von der Steuereinrichtung 214, geben die Speicheradressenregister sequentiell alphabetische und numerische to Zeichenpaare an den Speicher 204. Der Speicher 204 enthält sowohl die Tafelwerte der bedingten Wahrscheinlichkeiten der ersten Art als auch die der ί"weiten Art. Die entsprechenden zugehörigen Wertepaare der bedingten Wahrscheinlichkeiten werden nacheinander an das Speicherausgaberegister 206 abgegeben. Weiter gehen sie zur Multipliziereinrichtung 208, wo sie unter Steuerung der Steuereinrichtung 214 zu einem ersten Produkt aller bedingten Wahrscheinlichkeiten der ersten Art verarbeitet werden, und zu einem zweiten Produkt aller bedingten Wahrscheinlichkeiten der zweiten Art, welche sich auf das Zeichenfeld beziehen, das durch die optische Zeichenerkennungseinrichtung mit doppeltem Ausgang abgetastet wurde. Die Tor schaltung 212 dient als Pufferspeicher sowohl für da: alphabetische Zeichenfeld, das über die Ausgangslei lung 16 des alphabetischen Kanals ausgegeben wird, a'c auch des numerischen Datenfeldes, das über du Ausgangsloitung 18 des numerischen Kanals Jei optischen Zeichenerkennungseinrichtung angeliefer wird. Ebenso signalisiert die Torschaltung 212 an die Steuereinrichtung 214 die Position der Zeichen unc Leerstellen in den alphabetischen und numerischer Datenfeldern. Unter der Steuerung der Steuereinrich tung 214 gibt die Multipliziereinrichtung 208 die erster und zweiten Produkte an die Vergleichereinrichtunj 210, welche in der Lage ist, die relativen Größen diesel Produkte zu speichern und zu vergleichen. Die Ausgangssignale der Vergleichereinrichtung 210 zeiger an, ob es wahrscheinlicher ist, daß ein alphabetische; oder ein numerisches Datenfeld abgetastet wurde. Dies< Information wird an die Torschaltung 212 gegeben welche ihrerseits über die Ausgangsleitung 170 da: entsprechende alphabetische oder numerische Daten feld ausgeben.
Hierzu 3 Blatt Zeichnungen

Claims (6)

Patentansprüche:
1. Verfahren bei der maschinellen Zeichenerkennung zur Unterscheidung verschiedener, z. B. alphabetischer und numerischer Zeichengruppen voneinander, bei dem eine Entscheidung zu welcher Zeichengruppe ein abgetastetes Zeichen gehört, von seiner bedingten Wahrscheinlichkeit der Zugehörigkeit zu einer Zeichengruppe abhängig gemacht wird, dadurch gekennzeichnet,
daß aus einer ersten Abtastung jedes Zeichens einer Zeichengruppe von einer ersten Auswertevorrichtung (8 bis 10, Fig.2) Signale erzeugt werden, die das dem abgetasteten Zeichen topologisch ähnlichste alphabetische Zeichen repräsentieren,
daß außerdem gleichzeitig von einer zweiten Auswertevorrichtung (8, 12, 14) Signale erzeugt werden, die das dem gleichen abgetasteten Zeichen topologisch ähnlichste numerische Zeichen repräsentieren,
daß ferner aus einem ersten Speicher (132, F i g. 3), der den aus der ersten Auswertevorrichtung kommenden Zeichen zugeordnet ist und in dem für jedes Zeichen an einer durch seine Codedarstellung 2r> als Adresse gegebenen Speicherstelle seine vorher ermittelte Kanal-Verwechslungswahrscheinlichkeit (Pcc) gespeichert ist, ein erster Wahrscheinlichkeitswert, der angibt, mit welcher Wahrscheinlichkeit [Pa{a/n)] ein abgetastetes alphabetisches Zeichen als numerisches Zeichen gelesen wird, unter der Codedarstellung der Zeichen als Adresse dem Speicher entnommen wird,
daß weiter aus einem zweiten Speicher (134), der den aus der zweiten Auswertevorrichtung kommenden Zeichen zugeordnet ist und in dem ebenfalls für jedes Zeichen an einer durch seine Codedarstellung als Adresse gegebenen Speicherstelle eine vorher ermittelte Kanal-Verwechslungswahrscheinlichkeit gespeichert ist, ein zweiter Wahrscheinlichkeitswert, w der angibt, mit welcher Wahrscheinlichkeit [Pn(n/ a,)] ein abgetastetes numerisches Zeichen als alphabetisches Zeichen gelesen wird, unter der Codedarstellung der Zeichen als Adresse dem Speicher entnommen wird, daß diese Schritte für alle Zeichen einer Zeichengruppe durchgeführt werden, daß weiter alle für eine Zeichengruppe ermittelten ersten Wahrscheinlichkeitswerte zur Bildung einer ersten Gesamtwahrscheinlichkeit (erstes Produkt) miteinander und alle zweiten Wahrscheinlichkeitswerte zur Bildung einer zweiten Gesamtwahrscheinlichkeit (zweites Produkt) miteinander multipliziert werden,
daß die so bestimmten ersten und zweiten Gesamtwahrscheinlichkeiten miteinander verglichen werden und daß, wenn die erste Gesamtwahrscheinlichkeit größer ist, entschieden wird, daß eine numerische Zeichengruppe abgetastet wurde, oder daß, wenn die zweite Gesamtwahrscheinlichkeit größer ist, entschieden wird, daß eine alphabetische Zeichengruppe abgetastet wurde und daß dann der jeweiligen Zeichengruppe entsprechende erste oder zweite codierte Signale ausgegeben werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß in gleicher Weise mehr als zwei Zeichengruppen unterschieden werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Gesamtwahrscheinlichkeilen durch Addition der gespeicherten Logarithmen der Einzelwahrscheinlichkeiten ermittelt werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die logarithmisch dargestellten Gesamtwahrscheinlichkeiten voneinander subtrahiert werden und das Subtraktionsergebnis eine Ausgabe der abgetasteten Zeichengruppe bestimmt.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der wahrscheinlichste Wert jedes abgetasteten Zeichens der beiden topologisch zugeordneten alphabetischen und numerischen Zeichen unter Beachtung von gespeicherten Tafelwerten statistisch ermittelter bedingter Wahrscheinlichkeiten und rechnerischer Bestimmung der Gesamtwahrscheinlichkeit nach der Bayesschen Regel automatisch ermittelt wird.
6. Einrichtung zur Durchführung des Verfahrens nach Anspruch 1, dadurch gekennzeichnet, daß eine optische Zeichenerkennungseinrichtung (100) vorgesehen ist, welche das abgetastete Zeichen über eine erste Ausgangsleitung (16) als Buchstaben und über eine zweite Ausgangsleitung (18) als Ziffer in geeigneten Codedarstellungen ausgibt,
daß mindestens ein Speicher (204) zum Speichern der Werte der Kanal-Verwechslungswahrscheinlichkeiten
DE19742435889 1973-10-25 1974-07-25 Verfahren und einrichtung zur unterscheidung von zeichengruppen Ceased DE2435889B2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US00409526A US3842402A (en) 1973-10-25 1973-10-25 Bayesian online numeric discriminator
US00409524A US3839702A (en) 1973-10-25 1973-10-25 Bayesian online numeric discriminant

Publications (2)

Publication Number Publication Date
DE2435889A1 DE2435889A1 (de) 1975-10-16
DE2435889B2 true DE2435889B2 (de) 1978-01-12

Family

ID=27020682

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19742435889 Ceased DE2435889B2 (de) 1973-10-25 1974-07-25 Verfahren und einrichtung zur unterscheidung von zeichengruppen

Country Status (6)

Country Link
US (2) US3842402A (de)
CA (1) CA1050167A (de)
CH (1) CH578216A5 (de)
DE (1) DE2435889B2 (de)
FR (1) FR2249391B1 (de)
GB (1) GB1437586A (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4119091A1 (de) * 1990-06-11 1991-12-12 Ricoh Kk Verfahren und einrichtung zum erkennen von zeichen
DE4407998A1 (de) * 1994-03-10 1995-09-14 Ibm Schrifterkennungseinheit

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3988715A (en) * 1975-10-24 1976-10-26 International Business Machines Corporation Multi-channel recognition discriminator
JPS5854433B2 (ja) * 1980-09-11 1983-12-05 日本電気株式会社 相違度検出装置
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device
US4538182A (en) * 1981-05-11 1985-08-27 Canon Kabushiki Kaisha Image processing apparatus
JPS5970593A (ja) * 1982-10-15 1984-04-21 Canon Inc 文書処理装置
US5133023A (en) * 1985-10-15 1992-07-21 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US4916745A (en) * 1986-02-07 1990-04-10 Hart Hiram E Bayesian image processing method and apparatus
US4831657A (en) * 1988-07-19 1989-05-16 International Business Machines Corporation Method and apparatus for establishing pixel color probabilities for use in OCR logic
US5067088A (en) * 1990-02-16 1991-11-19 Johnson & Quin, Inc. Apparatus and method for assembling mass mail items
WO1992008198A1 (en) * 1990-11-05 1992-05-14 Johnson & Quin, Inc. Document control and audit apparatus and method
US5146512A (en) * 1991-02-14 1992-09-08 Recognition Equipment Incorporated Method and apparatus for utilizing multiple data fields for character recognition
TW222337B (de) * 1992-09-02 1994-04-11 Motorola Inc
US5912993A (en) * 1993-06-08 1999-06-15 Regents Of The University Of Calif. Signal encoding and reconstruction using pixons
US7120302B1 (en) 2000-07-31 2006-10-10 Raf Technology, Inc. Method for improving the accuracy of character recognition processes
US8005775B2 (en) * 2008-03-18 2011-08-23 Yahoo! Inc. System and method for detecting human judgment drift and variation control

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL286987A (de) * 1961-12-22
US3634822A (en) * 1969-01-15 1972-01-11 Ibm Method and apparatus for style and specimen identification

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4119091A1 (de) * 1990-06-11 1991-12-12 Ricoh Kk Verfahren und einrichtung zum erkennen von zeichen
DE4119091C2 (de) * 1990-06-11 1995-04-06 Ricoh Kk Verfahren zum Erkennen von Zeichen, insbesondere Schriftzeichen und Einrichtung zur Durchführung des Verfahrens
DE4407998A1 (de) * 1994-03-10 1995-09-14 Ibm Schrifterkennungseinheit

Also Published As

Publication number Publication date
US3839702A (en) 1974-10-01
DE2435889A1 (de) 1975-10-16
CA1050167A (en) 1979-03-06
US3842402A (en) 1974-10-15
CH578216A5 (de) 1976-07-30
FR2249391B1 (de) 1976-06-25
FR2249391A1 (de) 1975-05-23
GB1437586A (en) 1976-05-26

Similar Documents

Publication Publication Date Title
DE2541204C3 (de) Einrichtung zur Fehlerkorrektur
DE10342594B4 (de) Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE69604481T2 (de) Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern
DE2640537A1 (de) Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen
DE2435889B2 (de) Verfahren und einrichtung zur unterscheidung von zeichengruppen
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE68924669T2 (de) System zum Lesen des Ziffernbetrages und zum Uebertragen der Kontoabrechnung.
DE19547812C2 (de) Lesegerät für Schriftzeichenketten
DE69228895T2 (de) Auswahlvorrichtung für ein Symbolermittlungssystem mit mehreren Zeichenerkennungsprozessoren
DE60204005T2 (de) Verfahren und einrichtung zur erkennung eines handschriftlichen musters
DE3632832A1 (de) Zeichenerkennungssystem
DE2540101A1 (de) Automatisches zeichenerkennungs- system
DE2654815A1 (de) Verfahren zur unterscheidung von gross- und kleinbuchstaben
DE69130535T2 (de) Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentes
DE69421487T2 (de) Verfahren zum Vergleichen von Mustern basierend auf der Verwendung von Bildelementmatritzen und Bildelementvektoren
DE4407998C2 (de) Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
DE3246631C2 (de) Zeichenerkennungsvorrichtung
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
EP0107083B1 (de) Belegverarbeitungseinrichtung mit Korrekturschaltung und Datensichtgerät
DE68925312T2 (de) Verfahren zur Pixelfarbenwahrscheinlichkeitsbestimmung zur Verwendung in OCR-Logik
DE19933984A1 (de) Verfahren zur Bildung und/oder Aktualisierung von Wörterbüchern zum automatischen Adreßlesen
DE19726592C2 (de) Informationserkennungs-Vorrichtung
DE102014105218A1 (de) Suchvorrichtung mit Verwendung von endlichen Automaten für Teilworte
DE2460757C2 (de) Einrichtung zur Auswahl der richtigen Form eines bei der maschinellen Zeichenerkennung verstümmtelten Wortes
DE69231818T2 (de) System und Verfahren zur Beschleunigung von Handschrifterkennung

Legal Events

Date Code Title Description
8235 Patent refused