DE2435889A1 - Verfahren und einrichtung zum unterscheiden von zeichengruppen - Google Patents
Verfahren und einrichtung zum unterscheiden von zeichengruppenInfo
- Publication number
- DE2435889A1 DE2435889A1 DE2435889A DE2435889A DE2435889A1 DE 2435889 A1 DE2435889 A1 DE 2435889A1 DE 2435889 A DE2435889 A DE 2435889A DE 2435889 A DE2435889 A DE 2435889A DE 2435889 A1 DE2435889 A1 DE 2435889A1
- Authority
- DE
- Germany
- Prior art keywords
- character
- characters
- probability
- scanned
- numeric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Description
Verfahren und Einrichtung zum Unterscheiden von Zeichengruppen
Die Erfindung betrifft ein Verfahren und eine Einrichtung zum
Unterscheiden zwischen Ziffern und Buchstaben in den von einer insbesondere optischen Zeidicnerkennungseinrichtung gelesenen Zeichen.
Zeichenerkennungseinrichlungcn dienen zum Erkennen von in schriftlicher oder gedruckter Form vorliegenden Daten und zum
Einlesen dieser Daten in binär codierter Form in eine datenverarbeitende Einrichtung. Bei alphanumerischen Daten, d.h. Zeichensymbolen,
die aus Ziffern; Buchstaben oder sonstigen Zeichen gemischt
sind, ist es außerordentlich wichtig, dass deren Bedeutung klar
erkannt wird. Dazu gebort auch die Unterscheidung, ob die gelesenen
Zeichen alphabetischer oder numerischer Art sind.
WAO-73-005/007
509842/070
Historisch gesehen, entwickelten sich die alphabetischen Symbole
der abendländischen Sprachen, wie Englisch, aus der lateinischen Schrift. Die Ziffernsymbole entstanden im arabischen Kulturkreis.
Die.se Entwicklungen erfolgten unabhängig voneinander. Dies führte
jedoch /um Gebrauch von gleichartigen oder ähnlichen Konturen für manch».· dieser Zeichen. Ein menschlicher Leser kann aus denr Zusammenhang,
in dem solche Schriftsymbole erscheinen, erkennen, ob es sich um Ziffern oder Buchstaben handelt. Eine optische Zeiehenerkennungsmaschine
kann jedoch nur Eigenheiten der Konturen, von Schriftzeichen
erkennen und auswerten. Zur weiteren Unterscheidung Schlüsse aus dem Zusammenhang zu ziehen, ist ihr jedoch versagt. Ein optischer
Zeichenleser als Eingabegerät für einen Computer hat daher u. U. Schwierigkeiten, die richtige Bedeutung eines gelesenen Zeichens zu
erfassen.
Zur Erläuterung dieses Problemes sind in Fig. 1 verschiedene Paare
solcher verwochlungsfähigen Zeichen dargestellt. Die Grenzen zwischen
den einzelnen Arten von verwechslungsfähigen Zeichen sind fliesscnd,
je nachdem, ob es sich um gleichartige oder um ti'ir mehr oder wenige)1
ähnliche Zeichenpaare handelt. Die dargestellten Verwcchslungsmöglichkoitcn
erscheinen nicht immer, jedoch erscheinen sie oft genug, um die Eingabe optisch gelesener Daten in eine Datenbank gelegentlich erheblich
zu behindern. Fig. la zeigt beispielsweise identische Zeichenpaare, die
WA 973 005/007 - 2 -
509842/0701 BAD ORIGINAL
jedoch unterschiedliche Bedeutung haben. Da ist einmal das geschlossene
Symbol, das eine A'ull oder auch den Buchstaben Oh
bedeuten kann. Ein senkrechter Strich kann die Bedeutung der Ziffer 1 haben, oder ein serifenfreies grosses I sein, d.h. der Grossbuchstabe
ohne die Querbalken an den äusseren Enden. Zeichen dieser Art sind gewöhnlich im alphanumerischen Text nicht ohne weiteres zu unterscheiden.
Fig. Ib zeigt Zeichenpaare wie die Ziffer δ und den Grossbuchstaben
S, oder die Ziffer 2 und den Buchstaben Z, welche topologisch gleichartig sind und nur durch die Rundung oder Schärfe ihrer Ecken
unterscheidbar sind. Diese Schärfe ist aber eine der Eigenheiten, die als erstes verschwindet, wenn die Qualität der Schrift leidet. Fig. Ic
zeigt Zeichenpaare wie die Ziffer 6 und den Grossbuchstaben G, die
Ziffer 8 und den Grossbuchstaben B, oder die Ziffer 9 und den Kleinbuchstaben g, welche alle sich nur geringfügig in wenigen topologischen
Eigenheiten unterscheiden, welche Unterschiede gewöhnlich vex-schwinden,
sobald die Druckqualität schlechter wird. Fig. Id veranschaulicht Zeichenpaare
wie die oben offen geschriebene Ziffer 4 und der Grossbuchstabe II,
oder die oben geschlossen geschriebene Ziffer 4 und der Grossbuchstabe A,
die Ziffer 7 und der Grossbuchstabe Y, die Ziffer 8 und der Grossbuchstabe S,
oder die Ziffer 8 und der Kleinbuchstabe e, welche in ihren Einzelheiten sich weiter unterscheiden als die in Fig. Ic gezeigten Beispiele, die jedoch immer
noch verwechselt werden können, wenn die Qualität des zu lesenden Textes sich verschlechtert. Fig. Ie veranschaulicht Zeichenpaare wie die ohne
WA9-73-005/007 _ 3 _
509842/0701
mittleren Querstrich geschriebene Ziffer 7 und den Gros-sbiK-kslaben T,
die Ziffer 0 und der Kleinbuchstabe n, die Ziffer 0 und der Buchstabe c
oder die Ziffer 0 und der Grossbuchstabe U, welche in solchen Teilen voneinander abweichen, welche oft verloren gehen können, wenn beispielsweise
die zum Schreiben verwendete Schrifttype oder der Karbträger durch längeren Gebrauch abgenutzt sind. Sehnlich wirken auch Ungenauigkeiten
in der Abschnittzerlegung der Zeichenerkennungsmaschine.
Der Schlüssel zur zuverlässigen Textverarbeitung ist die Fähigkeit, prompt
und zuverlässig numerische Datenfelder von alphabetischen Datenfeldern bei der Analyse der Ausgangssignale eines optischen Zeicheiilesers möglichst
frühzeitig abzugrenzen. Obwohl es eine leichte Aufgabe zu sein scheint,
ist in Wirklichkeit die zuverlässige Unterscheidung von numerischen Datenfeldern
innerhalb eines allgemeinen Textes eine schwierige Aufgabe. Das kommt daher, dass die lateinischen und arabischen Alphabete, von denen
unsere jetzt gebräuchlichen Zeichen abgeleitet sind, unabhängig voneinander entwickelt wurden, wobei selbstverständlich keinerlei mögliche \'erwechslungsfähigkeit
berücksichtigt wurde. Die geometrischen Grundfiguren sind in allen Alphabeten praktisch gleich.
Das Problem der Unterscheidung zwischen alphabetischen und numerischen
Zeichen bei der optischen Zeichenerkennung tritt beispielsweise beim
automatischen Lesen von Postanschriften auf. Manche allgemein alphabetischen Worte können als Teil oder als Ganzes auch als numerisches
\VAfl-73-oo5 509842/0701
Datenfeld gelesen werden. Beispiele solcher Fel^aLKiwertun^e.i in
englischer Sprache sind das Lesen eines abgetasteten "South" als 80478 oder 804th. "Third" kann gelesen werden als 781 rd und "Fifth"
als 01078 oder OlOth. Die umgekehrte Situation kann auch bei vielen
numerischen Datenfeldern auftreten.
Der Haken bei dem Problem des Erkennen« numerischer Datenfelde]'
bei der automatischen Postverarbeitung ist darin zu sehen, dass wirkliche
oder auch nur angenommene Folgen von erkannten numerischen Zeichen keine Basis für Verfahren bieten, daraus auf den begrifflichen Zusammenhang
zu schliessen. Ein numerisches Datenfeld ist völlig nicht-redundant,
denn jede Anordnung von Ziffern ergibt immer eine lesbare Zahl.
In bestehenden optischen Zeichenerkennungseinrichtungen wird die endgültige
Entscheidung zwischen Buchstaben und Ziffern in jedem Datenfeld durch ein Eliminationsverfahren bestimmt. Das erfordert, dass jede
Folge von ausgelesenen Daten eines Feldes, die noch nicht als ein Schlüsselwort erkannt worden sind, weiter verarbeitet werden muss, beispielsweise
durch Vergleich mit einer gespeicherten Tabelle von erlaubten, und im voraus
bekannten Bedeutungsinhalten. Jedes Datenfeld , das auf diese Weise nicht einem möglichen Text zugeordnet werden kann, wird dann als numerisches
Datenfeld angenommen. Ein solches Verfahren ist selbstverständlich nicht anwendbar bei allgemeiner Textverarbeitung oder auch nur bei der automatischen
Postverarbeitung. Denn das zu speichernde Verzeichnis von allen möglichen erlaubten Bedeutungsinhalten wird dann über alle Alassen
509842/0701
u?λo_'?:<_nnr; c ·:: ·-
gross und der Zeitaufwand für die Auswertung wird UiU1OdIiStI
Auch würde dieses Verfahren verstümmelt übermittelten Datenfeldern eine numerische Bedeutung zuweisen.
Es ist daher ein Ziel der Erfindung, die Ausgangsdaten eines optischen
Zeieheinesers in verbesserter Weise auszuwerten. Die Unterscheidung
zwischen alphabetischen und numerischen Datenfeldern sollte auch olme
die !Notwendigkeit möglich sein, ein grosses Verzeichnis von erlaubten und
möglichen Bedeutungsinhalten speichern zu müssen. Auch sollte die Auswertezeit im Vergleich zu bekannten Einrichtungen im Sinne einer Verbesserung
verkürzt werden.
Das neue Vei'fahren verwendet eine Zeichenerkennungseinrichtung mit
doppeltem Ausgang. Ein Teil der Einrichtung betrachtet jedes optisch
gelesene Zeichen als ein zu erkennendes numerisches Zeichen, ein anderer Teil der Einrichtung betrachtet gleichzeitig jedes optisch abgetastete Zeichen als alphabetisches Zeichen. Beide Datenströme werden gleichzeitig ausgewertet und ihre weiter unten näher erläuterte vertikale Redundanz wird nacli wahrscheinlichkeitstheoretischen Methoden ermittelt. Nach Bayes kann die bedingte Wahrscheinlichkeit von Ereignissen bestimmt werden, welche sich paarweise gegenseitig ausschliessen. Die Einrichtung enthält eine optische Zeichenerkennungsmaschine, welche die Zeichen in einem Datenfeld optisch abzutasten vermag. Auf einer ersten Ausgangsleitung
doppeltem Ausgang. Ein Teil der Einrichtung betrachtet jedes optisch
gelesene Zeichen als ein zu erkennendes numerisches Zeichen, ein anderer Teil der Einrichtung betrachtet gleichzeitig jedes optisch abgetastete Zeichen als alphabetisches Zeichen. Beide Datenströme werden gleichzeitig ausgewertet und ihre weiter unten näher erläuterte vertikale Redundanz wird nacli wahrscheinlichkeitstheoretischen Methoden ermittelt. Nach Bayes kann die bedingte Wahrscheinlichkeit von Ereignissen bestimmt werden, welche sich paarweise gegenseitig ausschliessen. Die Einrichtung enthält eine optische Zeichenerkennungsmaschine, welche die Zeichen in einem Datenfeld optisch abzutasten vermag. Auf einer ersten Ausgangsleitung
WA9-73-003 - 6 -
509842/0701
liefert sie codierte alphabetische Zeichen, welche möglichst genau ·
mit jedem der gelesenen Zeichen in der Bedeutung übereinstimmen.
Auf einer zweiten Ausgangsleitung liefert sie codierte numerische Zeichen,
welche möglichst genau mit den abgetasteten Zeichen in der Bedeutung übereinstimmen.
Ein erstes Speicheradressenregister ist mit der ersten Ausgangsleitung verbunden, um nacheinander jedes alphabetische Zeichen zu
speichern, das über diese erste Ausgangsleitung geliefert wurde. Ein zweites Speicheradressenregister ist mit der zweiten Ausgangsleitung
verbunden, um nacheinander jedes numerische Zeichen zu speichern, das über diese zweite Ausgangsleitung geliefert wird. Ein Speicher ist
mit dem ersten und dem zweiten Speicheradressenregister verbunden, in welchem Werte von bedingten Wahrscheinlichkeiten einer ersten Art
gespeichert sind. Diese statistisch ermittelten Wahrscheinlichkeitswerte geben für alle Kombinationen von alphabetischen Zeichen mit numerischen
Zeichen die Wahrscheinlichkeit an, dass abgetastete Ziffernwerte als
Buchstaben gelesen werden. Dieser Speicher wird durch den Inhalt des ersten und des zweiten Speicheradressenregisters angesteuert, um die
Werte einer bedingten Wahrscheinlichkeit zu liefern, die Schlüsse zulassen, ob das gespeicherte numerische Zeichen in dem zweiten Speicheradressenregister
durch die Einrichtung falsch gelesen war oder r1as alphabetische
Zeichen, das im ersten Speicheradressenregister gespeichert ist.
Weiter enthält der Speicher Werte von bedingten Wahrscheinlichkeit j u
einer zweiten Art, dass ein abgetastetes alphabetisches Zeichen als
WA9-73-005 ' - 7 -
509842/0701
numerisches Zeichen gelesen wurde. Auch dies.:· .statistisch, ermittelten
Wahrscheinlichkeitswerte sind für alle möglichen Kombinationen von
alphabetischen Zeichen mit numerischen Zeichen gespeichert. Der Speicher wird durch den Inhalt des ersten und des zweiten Speicheradresseuregisters
angesteuert, um die bedingten Wahrscheinlichkeitswerte der zweiten Art
zu liefern, ob das im ersten Speicheradressenregister enthaltene alphabetische Zeichen durch die Einrichtung falsch gelesen wurde oder das numerische
Zeichen, das in dem zweiten Speicheradressenregister vorhanden ist. Aus den dem Speicher entnommenen bedingten Wahrscheinlichkeitswerten
der ersten Art wird ein Produkt berechnet. Dieses erste Produkt ist eine erste bedingte Gesamtwahrscheinlichkeit, dass alle über die zweite Ausgangsleitung
ausgegebenen numerischen Zeichen durch die Einrichtung falsch interpretiert wurden, ebenso wie alle über die erste Ausgangsleitung
ausgegebenen alphabetischen Zeichen. Die Multipliziereinrichtung berechnet auch ein zweites Produkt aller bedingten Wahrscheinlichkeiten der zweiten
Art, welche von dem Speicher ausgelesen wurden. Dieses zweite Produkt ist eine zweite bedingte Gesamtwahrscheinlichkeit, dass alle über die
erste Ausgangsleitung ausgegebenen alphabetischen Zeichen durch die
Einrichtung falsch interpretiert wurden, ebenso wie alle über die zweite Ausgangsleitung ausgegebenen numerischen Zeichen. Eine Vergleichsschaltung
ist mit der Multipliziereinrichtung verbunden, um die Grossen der ersten und zweiten bedingten Gesamtwahrscheinlichkeitswerle zu
vergleichen und eine Anzeige dafür zu liefern, dass das abgetastete Zeichenfeld alphabetisch ist, wenn die zweite bedingte Gesamtwahrscheinlichi'eit
grosser als die erste bedingte Gusamiwahrscheinlichkeit ist, oder,
WA9-73-005 - 8 -
509842/0701
dass das abgetastete Zeichcnfeld numerisch ist, wenn die erste bedingte Gesamtwahrscheinlichkoit grosser a]s die zweite bedingte
Ge samt Wahrscheinlichkeit ist.
Die neue Einrichtung kann in direkter Verbindung mit einer datenverarbeitenden
Anlage arbeiten, also im sogenannten online-Betrieb. Das aus der Wahrscheinlichkeitstheorie entnommene Kriterium ist die
sogenannte Bayes'sche Regel. Daher wird die Einrichtung Bayes1
Online Numerischer Diskriminator oder abgekürzt, BOXD, genannt.
Dieser Diskriminator ist so fähig, zwischen alphabetischen und numerischen
Zeichenfeldern zu unterscheiden, welche durch einen optischen Zeichenleser abgetastet wurden. Dabei ist es nicht notwendig, ein aufwendiges gespeichertes
Verzeichnis zu haben, welches alle im voraus bekannten und
zulässigen Bedeutungen enthält. Ohne diese Notwendigkeit eines Vex-gleichsverzeichnisses
kann die Unterscheidung zwischen Buchstaben und Ziffern jetzt auch in wesentlich kürzerer Zeit gemacht werden, als es bei den bisher
bekannten Einrichtungen der Fall ist.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der
Zeichnungen näher erläutert.
λ\ΓΑ9-73-0ϋΓ) - 9 -
509842/0701
Jo
Fign. la bis le zeigen Beispiele von verwechselbaren, aus Ziffei-n
und Buchstaben bestehenden Zeichenpaaren ;
Fig. 2 zeigt das Blockdiagramm eines optischen Zeichen
lesers mit zwei Ausgangsleitungen ;
Fig. 3 zeigt als Blockdiagramm ein Ausführungsbeispiel
des Diskrirninators ;
Fig. 4 dient zu näheren Erläuterung, auf welche Weise die
Diskriminatorschaltung arbeitet ;
Fig. 5 zeigt ein allgemeines Blockschaltbild der Diskriminator
schaltung.
Grundlagen der Arbeitsweise der Diskriminatorschaltung Das BOND-Verfahren sucht die Fähigkeit, auf alphabetische oder
numerische Daten zu schliessen, dadurch zu erreichen, dass jedem numerischen Unterfeld eine bestimmte Form von Quasi-Redundanz zugeordnet
wird. Im Sinne einer im Zusammenhang fortschreitenden Betrachtung bedeutet Redundanz, dassgewisse Abhängigkeiten zwischen dem Vorhandensein
des einen Zeichen und eines anderen Zeichen bestehen. Gewöhnliche Zusammenhang-Redundanz wird sozusagen in einem horizontalen Sinn
betrachtet, zwischen den Zeichen einer Zeile oder innerhalb eines Wortes. Ein Beispiel dieses Konzeptes ist die Auswertung von Statistiken. Diese
Wahrscheinlichkeiten der Nachbarschaftkombinationen von Zeichen er-
WA9-73-005 - 10 -
509842/0701
möglichen die Voraussage eines WaIIrSc1ICmI1Ch ä'lget'den Zeichens
aus der Kenntnis der vorhergehenden Zeichen. Wenn daher die Zeichenfolge
SPlU-G gegeben ist, wird man wahrscheinlich ein grosses N eher wähk-n
als beispielsweise ein grosses Z, um den Zwischenraum auszufüllen.
Mathematisch wird dies in die Form einer bedingten Wahrscheinlichkeitsaussage gefasst.
Pd(akla.) (1)
Dabei bedeutet a. ist beobachtet, und a ist vorhergesagt als' mögliche γι
κ
weise folgendes Zeichen. Der Zahlenwert der Gleichung (1) hängt von
der Verträglichkeit des a.a -Zeichenpaares in englisch geschriebenem
ι κ
Text ab.
Zur Auswertung numerischer Unterfelder gibt es selbstverständlich nichts Gleichwertiges, was solchen statistisch ermittelten Wahrscheinlichkeitstabellen
entsprechen würde, die auf der Zusammenhang-Redundanz des Textes basieren.
Obwohl also eine Redundanz in der horizontalen Form in numerischen
Datenfeldern nicht existiert, gibt es doch eine Art von Redundanz einer speziellen "vertikalen" Art. Ein Beispiel aus einer englisch geschriebenen
Postanschrift soll dies erläutern.
WA 9-73-ÜO5 - 11 -
509842/0701
Alphabetischer Kanal : SIOUX FALLS SD S-LOL ,
Numerischer Kanal : 5100* 56**5 50 57101
Ein Blick auf dieses Beispiel zeigt, dass höchstwahrscheinlich die beiden
ersten Unterfelder alphabetisch sind und die beiden letzten Unterfekler
numerisch. Diese für den menschlichen Leser erkennbare vertikale Hedundauz soll nun auch für die automatische Zeichenerkennung ausgenutzt
werden. Es wird ein optischer Zeichenleser verwendet, der einen doppelten Ausgang hat. Ein Kanal versucht, jedes der abgetasteten
Zeichen als Buchstaben zu lesen und kann daher als alphabetischer Kanal bezeichnet werden. Der andere Kanalist ein numerischer Kanal, der
jedes abgetastete Zeichen als Ziffer zu erkennen versucht. Ein solches
doppeltes Erkennungssystem hat folgende Eigenschaften : a) Jedes tatsächlich numerische Zeichen wird durch den alphabetischen Kanal
falsch erkannt und ihm ein möglichst nahe liegender alphabetischer Wert zugeordnet. (Zum Beispiel wird die Ziffer 2 oft als Z gelesen),
b) Entsprechend Avird jedes tatsächlich alphabetische Zeichen durch
den numerischen Kanal falsch erkannt und entweder zurückgewiesen, dargestellt durch *, oder ihm ein bestimmter Ziffernwert zugeordnet.
(Zum Beispiel wird der Grossbuchstabe S im numerischen Kanal oft als Ziffer 5 gelesen).
AVA9-73-005/007 - 12 -
509842/0701
Ein Konzept von vertikaler Redundanz wird hier entwickelt, welches
der Erkennung eines Zeichens in einem Kanal eine Anzahl von möglichen Fehlerkennungen im anderen Kanal zuordnet. Dies kann als eine bedingte
Wahrscheinlichkeit s a us s age formuliert werden.
P(a I η ) (2)
Dies gilt für den Fall, dass ein numerisches Zeichen n. abgetastet wurde.
Die Wahrscheinlichkeit, dass der alphabetische Kanal dieses Zeichen fehlinterpretiert, wird mit a. bezeichnet.
Die umgekehrte bedingte Wahrscheinlichkeitsaussage lautet folgendermassen
Die umgekehrte bedingte Wahrscheinlichkeitsaussage lautet folgendermassen
P (n { a ) (3)
In diesem Falle ist das abgetastete Zeichen a. ein Buchstabe, und der
numerische Kanal hat dieses Zeichen fehlinterpretiert als n..
Die Gleichungen (2) und (3) werden auf die sogenannten Kanal-Verwechslungs-Wahrscheinlichkeiten
zurückgeführt, welche formuliert werden als :
Pcc(a.l n.) . (4)
Pcc („. I a. ) (5)
Eine statistische Auswertung der Fähigkeiten einer optischen Zeichenerkennungsniaschine
ergibt vollständige Tafeln der ermittelten Verwechslungs-Wahrscheinlichkeiten,
wie sie beispielsweise in den beigefügten Tabellen I und Il dargestellt sind. Die Aussagefähigkeit solcher
509842/0701
WA9-73-U05 - 13 -
Ta fohl wird verbessert, wenn man sie unabhängig für verschiedene
Schriftarten zusammenstellt, wie beispielsweise Grossbuchstaben und
Kleinbuchstaben, und dabei noch einzelne Zeichenpaare möglicher Verwechslungsfähigkeit gesondert untersucht.
Hat man die Leistungsdaten einer optischen Zeichenerkennungsmaschine
erst einmal festgestellt, kann man diese für die Verwirklichung des neuen Verfahrens zum Unterscheiden zwischen Ziffern und Buchstaben
ausnutzen. Die zu behandelnden Unterfelder sind solche, deren zweifache Kanal-Erkennungs-Ausgangssignale nach dem Kriterium einer Verwerfung
oder Zurückweisung von Zeichen nicht völlig bestimmt sind. Das Kriterium des Verwerfungssymbols bedeutet, dass das alphabetische und das
numerische Unterfeld sich um mehr als zwei solcher Symbole unterscheiden.
Das Unterfeld mit der geringeren Anzahl von Verwerfungssyinbolen wird dann gewählt, als sei es das abgetastete Feld. Das neue Verfahren sucht
jetzt die alphabetischen und numerischen Unterfelder auf der Grundlage ihrer Bay es' AVahrscheinlichkeitsfaktoren zu unterscheiden. Das bedeutet,
dass man die Ausgangssignale sowohl des alphabetischen als auch des numerischen Kanals nach Gesichtspunkten bewertet, die man folgendermassen
ausdrücken kann.
1J (alpha gelesen I numerisch abgetastet ) (6)
P (numerisch gelesen | alpha abgetastet ) (7)
WA 9-73-005 - 14 -
609842/0701
Gleichung (6) ist die Wahrscheinlichkeitsaussage, welche die Verträglichkeit der Ausgangssignale des alphabetischen Kanals
mit der Annahme bewertet, dass ein numerisches Datenfeld abgetastet worden ist. Gleichung (7) bewertet das Umgekehrte, d.h.
die Verträglichkeit der Ausgangssignale des numerischen Kanals mit der Annahme, dass ein alphabetisches Datenfeld abgelastet worden
ist. Um damit rechnen zu können, kann man die Gleichungen (f>) und
(7) als Produkte der zugehörigen Kanal-Verwechslungs-Wahrscheinlichkeiten darstellen :
k P (alpha gelesen ( numerisch abgetastet) = If P (a | η ) (6a)
P (numerisch gelesen [ alpha abgetastet) = ^fT P (n | a ) (7a)
IV* V-* Il IX
Kleines k bedeutet die Anzahl der im Unterfeld abgetasteten Zeichen.
Nach dieser Betrachtungsweise wird die alphabetische oder numerische
Art des abgetasteten Unterfeldes aus dem Quotienten oder dem Verhältnis
der Gleichungen (6a) und (7a) ermittelt.
1TT P (a. In )
1 cc η η
I= -jp
(8)
* , Pcc(nnlen»
η = 1
Wenn dieser Quotient Φ - 1 ist, besagt das, dass das Datenfeld
alphabetisch ist; φ ^. 1 besagt, dass das abgetastete Datenfeld ein
numerisches ist.
WA9-73-005
0 9 8 4 2 /_
Die in der Gleichung (S) formulierte Schlussweise stammt von
dem Verhältnis der Bayes1 Wahrscheinlichkeitsfaktoren. Dabei wird
angenommen, c'ass keine statistischen a-priori-Daten von Bedeutung
verfügbar sind.
Die durch den grossen Umfang des statistischen Materials gegebenen
Einschränkungen, dass keine signifikanten a-priori-Daten verfügbar sind, trifft besonders bei der automatischen Postverarbeitung zu, wenn durch
Postleitzahlen definierte Anschriften ausgewertet werden sollen. Was jedoch das die Hausnummern enthaltende Datenfeld betrifft, können hier
gewisse statistische Daten gesammelt werden, welche die Wahrscheinlichkeit angeben, eine Hausnummer, d. h. ein numerisches Unterfeld, in
der Zeile einer geschriebenen Adresse vorzufinden. Statistiken solcher Art wurden ausgewertet unter Verwendung von llunderttausenden von
Postanschriften, die auf Datenbändern gesammelt waren. Die Tabelle IJI
ist ein Beispiel für eine Statistik dieser Art. Die entsprechende a-priori-Wahrscheinlichkeit
für alphabetische Datenfelder folgt direkt aus diesen Daten als deren Komplementwerte. Die entsprechende Formulierung für
das neue Unterscheidungsverfahren zum analysieren des Hausnummernfeldes bei der Postverarbeitung hat dann die folgende Form :
WA 9- 73-005 - 16 -
509842/0701
k ^
ΤΓ I' (a /n ) P.. (numerisch \orhaiiden)
η = 1 cC n " ·Ν
TT P (n /a ) PA (alplia vorhanden)
, cc η η Α
η = 1
r\\ P (a /n ) P , (numerisch vorhanden)
cc η' η JS η - 1
(T P (η /a ) Pl-Px (numerisch vorhanden)]
' cc η η N J
η = 1
£ ^ 1 bedeutet ,dass das abgetastete Datenfeld ein alphabetisches ist,
und (| > 1 bedeutet, dass das abgetastete Datenfeld ein numerisches Feld ist.
In ausgedehnten Testreihen hat sich das neue Verfahren als hoch st wirksam
erwiesen. Bei Postverarbeitung mit völlig ungeordneten Adressen, die willkürlich Adressbüchern entnommen waren, wurde eine fast vollständige
richtige Erkennung dieses Adressenmaterials erzielt. Es sei bemerkt, dass die Berechnungen nach den Gleichungen (8) und (9) auch so ausgeführt
werden können, dass man die Logarithmen der entsprechenden Wahrscheinlichkeitsfaktoren
addiert.
Fig. 4 ist eine Darstellung der von der neuen Einrichtung gelieferten
Ausgangssignale beim Auswerten einer solchen Postadresse. Die Schrittfür-Schritt
durchgeführten Rechnungen, welche zu den ersten beiden ermittelten
Quotienten führen, sind in der Tabelle IV dargestellt.
WA 9-73-005 - IV -
509842/070
Ein weiterer Xutzen dieses neuen Verfahrens ist die Möglichkeit,
völlig korrekt auch gemischte Hausnummern unterscheiden zu können, wie beispielsweise 1220A Blair Mill Road. Die wahrscheinlichste Form
der Signale des alphabetischen Kanals für dieses numerische Unterfeld würde sein "iZZoA", während der Ausgang des numerischen Kanals
"12204" sein könnte. Die Tafel der Kanal-Verwechslungswahrscheinlichkeiten zeigt jedoch, dass das Abtasten der Ziffer 4 unverträglich damit ist, dass
der alphabetische Kanal den Grossbuchstaben A liefert. Falls das als
gültiger Ausnahmefall besonders aufgezeichnet ist, kann der auf Ziffern folgende angehängte Buchstabe A mit einem besonderen Indikatorbit versehen
werden, \vie ebenso die in der englischen Sprache gebräuchlichen angehängten
th, rd und ähnliches.
Die optische Zeichenerkennungseinricht'ung 100 mit doppeltem Ausgang ,
welche in Verbindung mit der neuen Diskriminatorschaltung verwendet, wird,
ist in Fig. 2 dargestellt. Bei der Verarbeitung eines allgemeinen Textes werden die geschriebenen oder gedruckten Zeichen auf der Vorlage 2 mittels
eines Suchkopfes 3 abgetastet, der die Zeilenrichtung und das Format dei'
Zeichen erkennt. Diese Vorab-Abtastung sammelt digitale Ausgangssignale
von photoempfindlichen Transistoranordnungen im Suchkopf 3, und überträgt diese zum Formatprozessor 5. Dor Formatprozessor übernimmt die
digitalen Signale und bewerkstelligt das Suchen der Zeilen,und im Falle der
WA9-73-005 - 18 -
509842/0701
Postverarbeitung, das Suchen dos Adressenfeldes. Die Funktion des
Zeilenfindens bestimmt die horizontalen und vertikalen Koordinaten aller wesentlichen Textzeilen, und erzeugt die notwendige» geometi-ischeii
Koordinaten, damit der Prozessor die Lage und die Neigung der Zeilen des Textes berechnen kann. Bei der Postverarbeitung bestimmt die Funktion
des Adressenfindens die horizontalen und vertikalen Ausgangspositionen
für die Abtastung und die notwendigen Daten, um den Schräglauf oder die Zeilenneigung auszugleichen. Der Lesekopf 4 enthält vier Abtast-Phototransistoren-Vorrichtungen
mit je 64 Zellen. Diese Zellen sind etwa
0, 1 mm breit und mit einem Rasterabstand von 0,1 mm angeordnet. Jede
solche Vorrichtung mit 64 Zellen liest eine Textzeile. Die Ausgangssignale dieser Vorrichtungen werden in Digitalsignale umgewandelt und für jeden
Abtastschritt von 0, 1 mm an den Videoprozessor 6 geliefert. Der Video-Prozessor
6 hat drei wesentliche Aufgaben zu erfüllen, das Verarbeiten von Blöcken von Videosignalen, das Zerlegen der abgetasteten Zeichen "
in Abschnitte und die Grössennormalisierung der abgetasteten Zeichen. Das Verarbeiten von Videoblocksignalen bedeutet, dass die beim Abtasten
einer vollständigen ZeiJe gewonnenen Zeichen alle für die Weiterverarbeitung
gespeichert werden. Daraus wird der Buchstabenabstand für jede gelesene Zeile bestimmt und entsprechende Signale an den Zeichenzerlegei· 7 zur
Auswertung weitergeleitet. Der Zeichenzerleger bearbeitet die Videodaten
WA9-73-005 - 19 -
509842/0701
unter Benutzung der Information aus dem Zeichenabstand und unterteilt
die Folge der digitalen Signale, welche die optische Information eines jeden gelesenen Zeichens enthalten. Der die Zeichen noi'jnalisjeronde
Teil der Einrichtung 7 bearbeitet die Daten des Videosignales unter
Benutzung der Informationen, welche von der Zerlegung in Abschnitte
herrühren. Dieser Normalisierer gleicht die Höhen der abgetasteten Zeichen ab durch Entfernen oder Kombinieren von horizontalen Zeilen
des gelesenen Videosignales. Entsprechend kann die Breite der Zeichen
verkleinert werden durch Weglassen oder Kombinieren von vertikalen Abtastzeilen des Videosignales. Diese so vorbereiteten digitalen Signale
werden dann an den Eigenheitendetektor 8 geliefert.
Die eigentliche Zeichenerkennung erfolgt durch eine Extraktion von
gewissen Messwerten aus diesen Videodaten, welche dem Eigenheitendetektor 8 zugeführt wurden. Daraus werden anschliessend entsprechende
Entscheidungen getroffen. Dieses Extrahieren der Messwerte bestimmt die wesentlichen Unterscheidungsmerkmale der Zeichen aus dem Inhalt des
Schieberegisters, das die Videosignale enthält, ,!ede solche Messung
(z. B. ein kurzer horizontaler Strich am unteren linken Ende, ein offenes Oberteil oder ein mittlerer Querstrich) wird als entsprechender Binarwerl
an einer bestimmten Stelle eines Schieberegisters mit einer Speicherkapazität von 320 Bits gespeichert. Als Linearkombination aus ver-
WA9-73-005 - 20 -
509842/0701
schiedenartigen Zahlenwerten wird ein solcher Γ, cgi.; te/inhalt
Messvektor genannt. Von dem Eigenheitendetektor 8 wird dieser Messvektor an die Vergleichereinrichtung 10 für alphabetische; Eigenheiten,
und an die Vergleichereinrichtung 12 für numerische Eigenheiten ausgegeben. Die Vergleichereinrichtung 10 vergleicht
den Messvektor für das abgetastete Zeichen durch Vergleich mit im alphabetischen Merkmalspeicher 9 gespeicherte Information. Solche
alphabetischen Zeichen, deren Merkmale am besten mit den Merkmalen des abgetasteten Zeichens übereinstimmen, werden in entsprechend
codierter Form über die Ausgangsleitung 16 des alphabetischen Kanals
ausgegeben. In entsprechender Weise vergleicht die Vergleidi ereinrichtung
12 für numerische Eigenheiten den vom Eigenheitendetektor 8 gelieferten Messvektor für das abgetastete Zeichen mit im numerischen Merkmalspeicher
14 gespeicherter Information. Die Vergleichereinrichtung 12 gibt über die Ausgangsleitung 18 des numerischen Kanals Signale entsprechend
einem numerischen Zeichen aus, dessen Merkmale am besten mit den Merkmalen des abgetasteten Zeichens übereinstimmen. Falls ein
Mindestwert von übereinstimmenden Merkmalen in der Vergleichseinrichtung
eines Kanales nicht erreicht wird, wird ein Zurückweisungssymbol über die entsprechende Kanalausgangsleitung ausgegeben. Als
Beispiele für solche Ausgangssignale sind in der Fig. ?■ ein alphabetisches
Zeichenfeld 20 und ein entsprechendes numerisches Zeichenfeld 22 dargestellt.
WA9-73-005 - 21 -
S09842/0701
Ein Ausführungsbeispiel der Diskriminatorschaltung ist in Fig. 3 dargestellt. Die optische Zeichenerkennungseinrichtung
mit doppeltem Ausgang nach Fig. 2 ist in der lrig. 3 als Block 100
dai'gestellt. Die Ausgangsleitung 16 des alphabetischen Kanals und
die Ausgangsleitung 18 des numerischen Kanals führen in den Pufferspeicher
102. Auf der Leitung 104 wird das alphabetische Unterfeld zum alphabetischen Schieberegister 112 ausgegeben und zum Speicheradressenregister
128. Die numerischen Ausgangssignale des Pufferspeichers 102 werden über die Leitung 106 an das Schieberegister 118
und an das Speicheradressenregister 130 ausgegeben. Von der Eingangszelle
114 des Schieberegisters 112 und der Eingangszelle 120 des Schieberegisters
118 geht eine \7erbindungsleitung zum Lückendetektor 124,
um gegebenenfalls die Anwesenheit einer Leerstelle oder eines Wortzwischenraumes
aufzufinden. Bei Entdeckung einer Leerstelle wird der Entscheidungsprozess durch die Steuereinrichtung 126 in Gang gebracht.
Auf die Entdeckung einer Leerstelle hin an der Eingangszelle 114 des
Schieberegisters 112 bzw. der Eingangszelle 120 des Schieberegisters
veranlasst die Steuereinrichtung 126, dass die Zeichenfolge des alphabetischen
Kanals in das alphabetische Schieberegister 112 Zeichen für
Zeichen geschoben wird in Synchronismus mit den numerischen Signalen, welche Zeichen für Zeichen in das Schieberegister 118 geschoben werden.
Gleichzeitig" wird jedes Zeichen des alphabetischen Datenfeldes sequentiell
WA 9-7 3-005 - 22 -
609842/0701
in das Speichcradressenregister 128 geladen und ebenso jedes Zeichen
des numerischen Datenfeldes in das Speicheradressenregister 3 30. Die
Kombination des im Speicheradressenregister 128 gespeicherten alphabetischen Zeichens und des im Speicheradressenregister 130 gespeicherten '
numerischen Zeichens verkörpern die Speicheradresse im Speicher 132 für die alphabetischen bedingten Wahrscheinlichkeiten P(a/n) und im Speicher
134 für die numerischen bedingten Wahrscheinlichkeiten P (n/a) .
Im Speicher 132 ist die in der Tabelle I dargestellte Tafel der Kanalverwechslungsstatistik
gespeichert, welche die bedingten Wahrscheinlichkeitswerte P (a/n) enthält, die angeben, mit welcher Wahrscheinlichkeit
ein alphabetisches Zeichen durch den Zeichenleser ausgegeben wurde im Falle, dass in Wirklichkeit ein numerisches Zeichen abgetastet worden
war. Die im Speicher 132 vorhandenen Wahrscheinlichkeitswerte werden durch das numerische Zeichen angesteuert, von dem angenommen wird,
dass es abgetastet wurde und als alphabetisches Zeichen gelesen.
Dieses Zeichen ist der Inhalt des Speicheradressenregisters 130 bzw.
des Speicheradressenregisters 128. Im Speicher 134 sind die bedingten Wahrscheinlichkeitswerte gespeichert, die den in der Tabelle II dargestellten
Werten entsprechen. Diese Werte beziehen sich darauf, dass ein abgetastetes alphabetisches Zeichen als numerisches Zeichen gelesen wird.
Diese Werte der bedingten Wahrscheinlichkeit P (n/a) werden durch das ausgelesene numerische Zeichen angesteuert, wobei angenommen wird, dass
ein alphabetisches Zeichen abgetastet wurde. Dieses Zeichen befindet sich
WA9-73-005 - 23 -
509842/0701
in dem Speicheradressenregister 130 bzw. in dem Speicheradressenregister
128. Durch Prüfen gegen den Inhalt der Speicherausgaberegister
13 6 bzw. 138 wird für jedes eingegebene Zeichen eine alphabetische
bedingte Wahrscheinlichkeit P (a/n) und eine numerische bedingte Wahrscheinlichkeit
P (n/a) ermittelt.
Die im Speicherausgaberegister 136 sequentiell gespeicherten bedingten
Wahrscheinlichkeitswerte P (a/n) werden nacheinander mit dem sequentiell
nachgeführten Inhalt des Speicherregisters 144 multipliziert durch eine
Multipliziereinrichtung 140. Dieser MultipUkatior.sprozess läuft kettenartig
weiter ab, bis das Gesamtprodukt aller alphabetischen bedingten Wahrscheinlichkeiten
für das alphabetische Zeichenfeld im Schieberegister berechnet ist. Das Ende dieses Zeichenfeldes wird festgestellt durch Prüfen
auf die beendende Leerstelle in der Position der Eingangszelle 114 des
Schieberegisters 112. In gleicher Weise wird nacheinander für das numerische*
Datenfeld das Produkt der numerischen bedingten Wahrscheinliclikeitcn '
P (n/a) durch die Multipliziereinrichtung 142 berechnet und im Speicherregister 146 gespeichert, wenn das Ende des numerischen Datenfeldes
an der Eingangszelle 120 des Schieberegisters 118 festgestellt wurde.
Das im Speicherregister 144 vorhandene Produkt der alphabetischen bedingten Wahrscheinlichkeiten wird in das Register 150 übertragen,
und das Produkt der numerischen bed?igten Wahrscheinlichkeiten wird vom
WA9-73-005/007 - 24 -
609842/0701
Speicherregister 14G in das Register 152 übertragen. Die Inhalte der Register 150 bzw. 152 werden in der Vergleichereinrichtung 154
verglichen, um ihre relative Grosse festzustellen.
Die Vergleichereinrichtung 154 bestimmt, ob das Produkt der numerischen
bedingten Wahrscheinlichkeiten grosser ist als das Produkt der alphabetischer,
bedingten Wahrscheinlichkeiten. Im Falle, dass die alphabetische bedingte' Wahrscheinlichkeit höher ist, ist dies ein Anzeichen dafür, dass die entsprechenden
numerischen Zeichen auf der Ausgangsleitung 18 des numerischen Kanals besser verträglich mit der Annahme sind, dass die
alphabetischen Zeichen auf der Ausgangsleitung 16 des alphabetischen Kanals
abgetastet wurden und als numerische Zeichen gelesen, als das Umgekehrte. Falls es wahrscheinlicher ist, dass das abgetastete Wort das im Schieberegister
118 gespeicherte numerische Datenfeld ist, schaltet die Vergleichereinrichtung 154 die Torschaltung 160 durch, und veranlasst so das
Schieberegister 118, das numerische Datenfeld an das alphanumerische
Unterscheidungsregister 164 auszugeben. So macht man, falls erwünscht, das numerische Datenfeld für weitere Postverarbeitung zur Ausgabe über
die Ausgangsleitung 170 verfügbar. Ebenso kann über die Leitung 1 G6
ein numerisches Indikatorbit in den alphanumerischen Datenstrom auf der
Ausgangsleitung 170 eingefügt werden.
WA9- 73- 005/007 - 25 -
S09842/0701
Im umgekelirten Falle, wenn da« im Register 152 gespeicherte
Produkt der numerischen bedingten Wahrscheinlichkeiten grosser als das im Register 150 gespeicherte Produkt der alphabetischen
bedingten Wahrscheinlichkeiten ist, schaltet die Vergleichereinrichtung 154 die Torschaltung 1G2 durch und veranlasst, dass das im Schieberegister
112 gespeicherte alphabetische Datenfeld an das alphanumerische Unterscheidungsregister 164 ausgegeben wird. Von dort kann es, falls
erwünscht, für weitere Postverarbeitung über die Ausgangsleitung 170
ausgegeben werden. Auch kann, falle erwünscht, ein alphabetisches
Indikatorbit in den Strom der Ausgangsdaten auf der Ausgangsleitung
eingefügt werden.
Arbeitsweise des Bayes1 Online Numerischen Diskriminators
Für ein Beispiel der Postverarbeitung ist in der Fig. 4 und in der Tabelle IV die Arbeitsweise des BOND-Systems dargestellt. Eine
Postanschrift in englischer Sprache wurde durch die optische Zeichenerkennungseinrichtung
mit doppeltem Ausgang abgetastet. Fig. 4 zeigt ein Beispiel der durch das BOND-System gelieferten Ausgangssignale.
Die abgetastete Postanschrift war : Aaron Bakers, 5150 Page Bl. , Saint Louis, MO. Die alphabetischen und numerischen Unterfelder
auf den beiden Ausgangsleitungen der optischen Zeichenerkennungseinrichtung sind dargestellt. Die obere Zeile zeigt den alphabetischen
Kanal, die untere Zeile den numerischen Kanal. Das Vorhandensein von mehr als z.wei Zurückweisungssymbolen im numerischen Unterfeld der
WA 9-73-005/007 - 2 6 -
509842/0701
Zeile 1 bewirkt,dass das oben beschriebene Kriterium des Z.urück-
weisungssymbols zur Auswertung herangezogen werden kann.
Die Zeile 2 erfordert jedoch die Anwendung des BOND-Verfahrens.
Für die Auswertung der Zei]e 3 ist sowohl das Zurückweisungskriterium
als auch das BOXD-Verfahren zweckmässig. In der Tabelle IV sind die erforderlichen Rechnungsschritte dargestellt, welche sich auf die Felder
1 und 2 der Zeile 2 beziehen.
Ein allgemeines Blockdiagramm der neuen Einrichtung ist in Fig. 5 dargestellt. Die optische Zeichenerkennungseinrichtung 100 mit doppeltem
Ausgang hat ihre Ausgangsleitung 16 des alphabetischen Kanals mit dem alphabetischen Speicheradressenregister 200 verbunden und die Ausgangsleitung
18 des numerischen Kanals mit dem numerischen Speicheradressenregister
202. Diese Speicheradressenregister 200 und 202 arbeiten gleichzeitig auch als Pufferspeicher für den entsprechenden Datenstrom, der
vom alphabetischen und numerischen Kanal geliefert wird. Gesteuert von
der Steuereinrichtung 214, geben die Speicheradressenregister sequentiell alphabetische und numerische Zeichenpaare an den Speicher 204. Der
Speicher 204 enthält sowohl die Tafclwerte der bedingten Wahrscheinlichkeiten
der ersten Art als auch die der zweiten Art. Die entsprechenden zugehörigen
Wertepaare der bedingten Wahrscheinlichkeiten werden nacheinander an das Speicherausgaberegister 206 abgegeben. Weiter gehen sie zur Multipliziereinrichtung
208, wo sie unter Steuerung der Steuereinrichtung 214
WA 9- 7,3- 005/007 ■ - 27 -
509842/0701
zu einem ersten Produkt aller bedingten Wahrscheinlichkeiten der ersten Art verarbeitet werden, und zu einem zweiten Produkt aller
bedingten Wahrscheinlichkeiten der zweiten Art, welche sich auf das Zeichenfeld beziehen, das durch die optische Zeichenerkennungseinrichtung
mit doppeltem Ausgang abgetastet wurde. Die Torschaltung 212
dient als Pufferspeicher sowohl für das alphabetische Zeichenfeld, das über die Ausgangsleitung 16 des alphabetischen Kanals ausgegeben wird,
als auch des numerischen Datenfeldes, das über die Ausgangsleitung 18 des numerischen Kanals der optischen Zeichenerkennungseinrichtung
angeliefert wird. Ebenso signalisiert die Torschaltung 212 an die Steuereinrichtung
214 die Position der Zeichen und Leerstellen in den alphabetischen
und numerischen Datenfeldern. Unter der Steuerung der Steuereinrichtung 214 gibt die Multipliziereinrichtung 208 die ersten und zweiten
Produkte an die Vergleichereinrichtung 210, welche in der Lage ist, die relativen Grossen dieser Produkte zu speichern und zu vergleichen. Die
Ausgangssignale der Vergleichereinrichtung 210 zeigen an, ob es wahrscheinlicher
ist, dass ein alphabetisches oder ein numerisches Datenfeld abgetastet wurde. Diese Information wird an die Torschaltung 212 gegeben,
welche ihrerseits über die Ausgangsleit.ung 170 das entsprechende alphabetische
oder numerische Datenfeld ausgeben.
WA9-73-005/007 - 28 -
SG9842/G701
"*) TABELLE I
Als Buchstaben gelesen
Kanal-Verwechslungs-Statistik Wahrscheinlichkeit (alphabetisch gelesen/numerisch abgetastet)
Prozentuale Anteile der als Buchstaben gelesenen Ziffern Zusammenstellung aus Band 2
Ziffern abgetastet 01 234 56 789 "#>
A | • 0.0 | 0.0 | 1.347 | 0.0 | 0.625 | 0.0 | 0.0 | 0.0 | 1.612 | 0.0 | 6.667 | 0.0 | 0.0 | ro | |
B | 0.0 | 0.0 | 0.336 | 3.553 | 0.0 | 0.G54 | 0.0 | 0.0 | 25.806 | 0.0 | 1.333 | 0.0 | 0.0 | ||
C | 1.153 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 1.333 | 0.0 | 0.0 | co | |
D | 0.57G | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | cn | |
E | 0.0 | 0.0 | 0.336 | 0.503 | 0.0 | 0.930 | 3.297 | 0.0 | 4.839 | 0.0 | 5.333 | 0.0 | 0.0 | OO | |
F | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | . 0.0 | 0.0 | 2.667 | 0.0 | 0.0 | CD | |
G | 0.0 | 0.0 | 0.0 | 1.015 | 0.0 | 0.0 | 1.099 | 0.0 | 1.613 | 22.727 | 0.0 | 0.0 | 0.0 | ||
H | 0.0 | 0.0 | 0.0 | 0.0 | 1.250 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | ||
I | 0.0 | 12.925 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 1.333 | 0.0 | 0.0 | ||
J | 0.0 | " 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | ||
K | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | ||
L | 0.0 | 61.5G5 | 0.0 | 0.0 | 0.C25 | CO | 0.0 | 0.0 | 0.0 | . 0.0 | 0.0 | 0.0 | 0.0 | ||
M | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | o.o ■ | 0.0 | 0.0 | 1.333 | 0.0 | 0.0 | ||
N. | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | ||
O | 92.795 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 1.099 | 0.0 | 0.0 | 0.0 | 2.657 | 0.0 | 0.0 | ||
P | . o.o | 0.0 | 8.339 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 1.333 | 0.0 | 0.0 | ||
Q | 0.238 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | ||
R | 0.0 | 0.0 | 0.Ü71 | 0.0 | 0.0 | 0.0 | 0.0 | 0.877 | 1.613 | 0.0 | 5.333 | 0.0 | 0.0 | ||
S | 0.0 | 0.0 | 0.0 | 0.503 | 0.0 | 74.133 | 1.099 | 0.0 | 6.452 | 2.273 | 6.6G7 | 0.0 | 0.0 | ||
T | 0.0 ' | 1.351 | 0.0 | 0.0 | 1.250 | 0.0 | " 0.0 | 2.632 | 0.0 | 0.0 | 2.667 | 0.0 | 0.0 | ||
U | 0.865 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | ||
V | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | ||
VV | 0.0 | 0.0 | 0.0 | 0.0 | o.c | 0.0 | 0.0 | 0.0 | 0.0 | ■ o.o | 1.333 | 0.0 | 0.0' | ||
X | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 1.333 | 0.0 | 0.0 | ||
Y | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 2.632 | 0.0 | 0.0 | 1.333 | 0.0 | 0.0 | ||
2 | 0.0 | 0.0 | 10.779 | o.o ■ | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 1.333 | 0.0 | 00 | ||
V erworfen | , · | 3.746 | 8.503 | 72.143 | 93.909 | 33.750 | 23356 | 93.407 | 0.377 | 58.C-35 | 70.455 | 42.657 | 0.0 | 0.0 | |
Verworfen I/L | I | 0.0 | 11.505 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 ' | 0.0 | 0.0 | 0.0 | |
Verworfen I/L | L | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | |
Verworfen N | oder · w | 0.576 | 4.0S2 | 0.0 | 0.503 | 57.500 | 0.327 | 0.0 | 92.932 | 0.0 | 4.545 | 13.333 | 0.0 | 0.0 | |
Summe· | 1G0.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 0.0 | 0.0 | ||
Werte der | P fa,/ | η.· ^ | |||||||||||||
TABELLE Π
Kanal-Verwechslungs-Statistik Wahrscheinlichkeit (numerisch gelesen/alphabetisch abgetastet)
Buchstaben abgetastet
Prozentuale Anteile der als Ziffern gelesenen Buchstaben Zusammenstellung aus Band 2538
Als Ziffern gelesen
.'O | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | * |
JX
TT |
> | S urn j | |
A | 0.852 | 2.699 | 3.977' | CO | 36.232 | 0.142 | 1.553 | 0.0 | 6.108 | CO | 47.727 | 0.0 | 0.0 | 1OCCDO |
B | 14.236 | CO | CO | CO | CO | CO | 0.0 | CO | 57.143 | CO | 28.571 | 0.0 | 0.0 | 100.000 |
C | 86.657 | CO | 1.657 | 0.0 | CO | CO | CO | co | 0.0 | 0.0 · | 11.657 | 0.0 | 0.0 | 100.030 |
D | 77.481 | 0.0 | 0.763 | 0.3S2 | 0.763 | CO | ' 0.332 | co | 0.763 | co. | 19.466 | CO' | 0.0 | 100.000 |
E | 0.474 | 0.0 | 1.502 | 0.158 | 0.079 | 7.510 | 30.514 | 0.079 | 10.119 | 0.15S | 49.407 | co | 0.0 | 1CCCOO |
F | CO | 2.564 | 0.0 | 0.0 | CO | 26.923 | 0.0 | 1.282 | 5.128 | CO | 64.103 | 0.0 | co | 100.000 |
G | 13.953 | CO | CO | 2.326 | CO | 2.325 | 53.438 | CO | 2.326 | 4.651 | 20.930 | 0.0 | 0.0 | 10Ü.CCD |
H | CO | 0.0 | CO | CO | 0.515 | 0.515 | 21.649 | CO | 62.337 | 0.0 | 14.433 | co | 0.0 | 100.000 |
I | 0.0 | 9-'.293 | CO | CO | CO | 0.0 | 0.0 | CO | 0.0 | 0.0 | 5.702 | 0.0 | 0.0 | 100.000 |
. J | 0.0 | 0.0 | 0.0 | 0.0 | CO | 0.0 | CO | 0.0 | 0.0 | co | 0.0 | co | 0.0 | co |
K | 0.0 | 0.0 | 0.361 | 0.0 | 7.762 | 0.0 | 29.061 | 0.0 | 1.935 | co | 60.830 | 0.0 | 0.0 | 100.000 |
L | 0.0 | 33.893 | 1.695 | 0.0 | 1.695 | 0.0 | 0.0 | 0.0 | CO | 0.0 | 62.712 | 0.0 | 0.0 | 100.000 |
M | 0.0 | ' 0.0 | CO | 0.556 | 6.111 | 1.111 | 0.556 | CO | 7.778 | co | 83.333 | 0.556 | 0.0 | 100.000 |
N | 8.353 | 0.232 | 0.0 | 0.077 | 1.392 | 0.232 | 0.541 | 0.155 | 0.519 | " CO | 83.399 | 0.0 | 0.0 | 100.000 |
0 | 28.222 | 0.0 | 0.0 | 0.0 | 0.148 | CO | CO | 0.0 | CO | 0.0 | 1.630 | CO | 0.0 | 100.030 |
P | 0.0 | 0.0 | 1.316 | 0.0 | CO | CO | 0.0 | CO | 76.316 | co | 22.368 | 0.0 ;· | 0.0 | 100.000 |
Q | CO | CO | 0.0 | 0.0 | 0.0 | CO | 0.0 | .0.0 | 0.0 | 50.000 | 50.000 | 0.0/ | 0.0 | 100.000 |
R | 0.501 | 2.003 | 2.504 | 0.157 | 0.0 | 0.334 | 0.501 | 0.334 | 37.563 | co | 55.093 | 0.0/ | 0.0 | 100.020 |
S | CO | 0.0 | CO | 0.379 | CO | 67.303 | 0.189 | CO | 1.326 | 4.545 | 25.758 | 0.0 | 0.0 | ICCOOO |
T | CO | 30.732 | 0.0 | CO | CO | 0.0 | 2.7'07 | 27.548 | 0.478 | CO | 38.535 | 0.0 | 0.0 | 1CO.0O0 |
U | 69.444 | 0.0 | 0.0 | 0.0 | CO | 0.0 | 0.0 | 0.0 | 0.0 | CO | 30.555 | 0.0 | 0.0 | 100.000 |
V | 0.263 | 0.0 | CO | 0.0 | 5.000 | 0.0 | 0.0 | 29.211 | 0.0 | 0.263 | 65.263 | 0.0 | co | 100.COO |
V/ | CO | CO | 0.0 | CO | 11.015 | 0.432 | 0.0 | 5.616 | 1.030 | 0.216 | 81.541 . | co | 0.0 | 100.000 |
X | CO | 6.897 | 0.0 | CO | 6.897 | 0.0 | 0.0 | CO | 0.0 | CO | 85.207 | 0.0 | 0.0 | 100.000 |
Y | CO | 2.775 | CO | CO | 12.950 | 0.0 | 0.0 | 3.3S2 | 0.0 | 0.103 | 80.7S1 | 0.0 | co | 100.C20 |
Z | 0.0 | 0.0 | 0.0 | CO | 0.0 | CO | 0.0 | CO | 0.0 | CO | 100.000 | 0.0 | 0.0 | 100.003 |
Verworfen * | ' 12.775 | 10.132 | 1.752 | 0.381 | 1.762 | 4.405 | 5.286 | 1.322 | 2.643 | 1.322 | 57.709 | 0.0 | 0.0 | 1C0.0O0 |
Verworfen I/L I | 0.0 | 97.5G1 | 0.0 | CO | CO | CO | 0.0 | 0.0 | 0.0 | CO | 2.439 | 0.0 | 0.0 | 100.000 |
Verworfen I/L >L | CO | 100.000 | CO | CO | 0.0 | CC | 0.0 | 0.0 | CO | CO | 0.0 | 0.0 | 0.0 | 100.0ÜÜ |
"V erworfen IN oder W | 4.779 | 3.309 | 0.0 | CO | 6.985 | 0.368 | 1 471 | 3.676 | 3.676 | 0.368 | 75.0C0 | 0.358 | 0.0 | 100.000 |
Werte der P Cn /a. CC1 l' J |
)· |
cn co 00 co
TABELLE III
Numerische Aufeinanderfolge-Statistik (Prozentuale Anteile des Adressenfeldes)
Feld Posi |
1 | 2 | Anzahl | der Felder der | 5 | zweiten | Zeile | 8 | 9 | 10 |
tion | 5.000 | 36.730 | 3 | 4 | 82.002 | 6 | • 7 | 44.392 | 23.810 | 25.000 |
1 | 56.407 | 95.SSO | 85.539 | 16.6-15 | 72.S07 | 50.039 | 22.430 | 33.333 | 50.000 | |
2 | 2.965 | 17.S03 | 8.867 | 16.550 | 25.404 | 14.018 | 23.310 | 0.0 | ||
3 | 4.851 | 17.542 | 3.S41 | 1S.S57 | 14.010 | 21.902 | 19.048 | 37.500 | ||
4 | • | 15.019 | 53.241 | 16.935 | 27.09S | 26.636 | 19.04S | 12.500 | ||
5 | 2.481 | 22.402 | 29.439 | 2S.572 | 50.000 | |||||
6 | 66. 655 | 5.542 | 6.075 | 19.0-1S | 0.0 | |||||
7 | 51. 655 | 47.197 | 9.524 | 50.0 | ||||||
8 | 3S.095 | 0.0 | ||||||||
9 | 37.500 | |||||||||
10 | ||||||||||
CX) CXD
Berechnungsbeispiel für eine Postadresse
Alpha Kanal SLSO Page BL
Numerischer Kanal 5150 8466 8*
Feld (1) (2) (3)
Feld 1
Bond * P(S/5)*P(L/l)*P(S/5)*P(O/0)*P(Feld 1 (3)/Xumerisch)
P(5/S)*P(l/L)*P(5/S)*P(0/O)*P(Feld 1 (3)/Alpha)
= (74.2) * (61. 6) * (74. 2)* (92.8) * (95. 9)
(67.8) * (33.9) * (67. 8)*(98.2) * (4.1) Resultat grosser als 1
Numerisches Feld
Numerisches Feld
Feld 2
Bond = F(P/8)*P(A/4)*P(G/6)*P(E/G)*P(Feld 2 (3)/Numerisch)
P(8/P)*P(4/A)*P(6/G)*P(6/E)*P(Feld 2 (3)/Alpha)
= (0. 001) * (0. 6) * (1. 0) * (3. 3) * (3. 0)
(76. 3) * (36. 9) * (53. 5) * (30. 5) *(97. 0) Resultat kleiner oder gleich 1
Alpha Feld
WA8-73-005 - 28d -
S09842/0701
Claims (8)
1. Verfahren bei der maschinellen Zeichenerkennung zur Unterscheidung
verschiedener, z.B. alphabetischer und numerischer Zeichengruppen voneinander, dadurch gekennzeichnet, daß aus der Abtastung jedes
Zeichens eine^Zeichengruppe erste codierte Signale gewonnen werden,
die dem abgetasteten Zeichen das topologisch ähnlichste alphabetische Zeichen zuordnen,
daß außerdem zweite codierte Signale gewonnen werden, die dem abgetasteten
Zeichen das topologisch ähnlichste numerische Zeichen zuordnen,
daß aus einem Speicher für jedes Paar eines alphabetischen und eines
numerischen Zeichens ein erster Wert, der angibt, mit welcher Wahrscheinlichkeit
ein abgetastetes alphabetisches Zeichen als numerisches Zeichen gelesen wird, und ein zweiter Wert, der angibt mit welcher
Wahrscheinlichkeit ein abgetastetes numerisches Zeichen als alphabetisches Zeichen gelesen wird, entnommen wird,
daß diese Schritte für alle Zeichen einer Zeichengruppe durchgeführt
werden,
daß alle für eine Zeichengruppe ermittelten ersten Wahrscheinlichkeitswerte miteinander und alle zweiten Wahrscheinlichkeitswerte miteinander
multipliziert werden,
daß die so bestimmten ersten und zweiten Gesamtwahrscheinlichkeiten
miteinander verglichen werden und daß, wenn die erste Gesamtwahrscheinlichkeit größer ist, angezeigt wird, daß eine numerische
Zeichengruppe abgetastet wurde, oder daß, wenn die zweite Gesamtwahrscheiniichkeit
größer ist, angezeigt wird, daß eine alphabetische
Zeichengruppe abgetastet wurde, und die entsprechenden ersten oder zweiten codierten Signale ausgegeben werden.
509842/0701
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß in analoger
Weise mehr als zwei Zeichengruppen unterschieden werden.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Gesamtwahrscheinlichkeiten
durch Addition der gespeicherten Logarithmen der Einzelwahrscheinlichkeiten ermittelt werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die
logarithmisch dargestellten Gesamtwahrscheinlichkeiten voneinander
subtrahiert werden und das Subtraktionsergebnis die Anzeige und/oder Ausgabe der abgetasteten Zeichengruppe bestimmt.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der wahrscheinlichste
Wert jedes abgetasteten Zeichens der beiden topologisch zugeordneten alphabetischen und numerischen Zeichen unter Beachtung
von gespeicherten Tafelwerten statistisch ermittelter bedingter Wahrscheinlichkeiten und rechnerischer Bestimmung der Gesamtwahrscheinlichkeit
nach der Bayes'schen Regel automatisch ermittelt wird, wobei in einem ersten mit ersten und zweiten Ausgangsleitungen einer
Zeichenerkennungseinrichtung verbundenen Speicher für jedes Paar einer möglichen Kombination eines numerischen und eines alphabetischen
Zeichens Werte einer ersten Art von bedingter Wahrscheinlichkeit gespeichert sind, welche angeben, mit welcher Wahrscheinlichkeit zu
rechnen ist, daß ein abgetastetes numerisches als aphabetisches Zeichen gelesen wurde,
in einem zweiten, mit den ersten und zweiten Ausgangsleitungen verbundenen
Speicher für jedes Paar einer möglichen Kombination eines numerischen und eines alphabetischen Zeichens Werte einer
zweiten Art von bedingter Wahrscheinlichkeit gespeichert sind, welche angeben, mit welcher Wahrscheinlichkeit zu rechnen ist, daß ein abgetastetes
alphabetisches als numerisches Zeichen gelesen wurde, durch das korrespondierende alphanumerischen Zeichenpaar eines
jeden abgetasteten Zeichens in dem ersten Speicher der zugehörige bedingte Wahrscheinlichkeitswert erster Art abgerufen wird,
der angibt, mit welcher Wahrscheinlichkeit das über die zweite Ausgangsleitung ausgelesene numerische Zeichen bzw. das über die
erste Ausgangs leitung ausgelesene alphabetische Zeichen durch die
WA 973 005/007 - 30 -
509842/0701
Zeichenerkennungseinrichtung fehlinterpretiert wurde, durch das korrespondierende alphanumerische Zeichenpaar
eines jeden abgetasteten Zeichens in dem zweiten Speicher der zugehörige bedingte Wahrscheinlichkeitswert zweiter
Art abgerufen wird, der angibt, mit welcher Wahrscheinlichkeit
das über die erste Ausgangsleitung ausgelesene alphabetische Zeichen bzw. das über die zweite Ausgangsleitung ausgelesene
numerische Zeichen durch die Zeichenerkennungseinrichtung fehlinterpretiert wurde,
diese Schritte nacheinander für alle zugeordneten alphanumerischen
Zeichenpaare der Zeichen einer abgetasteten Zeichengruppe durchgeführt werden und in einer mit den ersten und
zweiten Speichern verbundenen Multipliziereinrichtung ein erstes Produkt aller bedingten Wahrscheinlichkeitswerte erster Art für die
abgetastete Zeichengruppe gebildet wird, das eine erste Gesamtwahrscheinlichkeit
angibt, wie weit alle über die zweite Ausgangsleitung ausgelesenen numerischen Zeichen bzw. alle über die erste
Ausgangsleitung ausgelesenen alphabetischen Zeichen durch die Zeichenerkennungseinrichtung fehlinterpretiert sein können, und
in einer mit den ersten und zweiten Speichern verbundenen Multipliziereinrichtung ein zweites Produkt aller bedingten Wahrscheinlichkeitswerte
zweiter Art für die abgetastete Zeichengruppe gebildet wird, das eine zweite Gesamtwahrscheinlichkeit für
diese Zeichengruppe angibt, wie weit alle über die erste Ausgangsleitung ausgelesenen alphabetischen Zeichen bzw.
alle über die zweite Ausgangsleitung ausgelesenen numerischen Zeichen durch die Zeichenerkennungseinrichtung fehlinterpretiert
sein können,
in einem mit der Multipliziereinrichtung verbundenen Vergleicher die Zahlenwerte der ermittelten ersten und zweiten
Gesamtwahrscheinlichkeiten miteinander verglichen werden, und eine Anzeige für eine gelesene alphabetische Zeichengruppe
ausgegeben wird, wenn die zweite bedingte Gesamtwahrscheinlichkeit größer als die erste Gesamtwahrscheinlicivkeit ist und
- umgekehrt - eine Anzeige für eine gelesene numerische Zeichengruppe ausgegeben wird, wenn die erste Gesamtwahrscheinlichkeit
größer als die zwerte ist.
me ist.
509842/0701
6. Einrichtung 7ur Durchführung des Verfahrens nach Anspruch 1,
dadurch gekennzeichnet, daß eine optische Zeichenerkennungseinrichtung (100) vorgesehen ist, welche über eine erste Ausgangsleitung
(16) als Buchstaben gelesene Zeichen ausgibt, und welche über eine zweite Ausgangsleitung (18) als Ziffern gelesene
Zeichen ausgibt,
daß mindestens ein Speicher (204) zum Speichern der Werte bedingter Wahrscheinlichkeiten erster und zweiter Art für
jedes Paar möglicher Kombinationen einer Ziffer und eines Buchstabens vorhanden ist,
daß eine Multipliziereinrichtung (208) mit dem Speicher (2Oi!) verbunden ist, welche aus den für die alphanumerischen
.Zeichenpaare jedes abgetasteten Zeichens einer Zeichengruppe aus dem speicherabgerufenen einzelnen Wahrscheinlichkeitswerten
erster und zweiter Art die Gesamtwahrschein-' lichkeiten für die Zeichengruppe als erstes und zweites Produkt
bildet,
und daß ein Vergleicher (210) vorgesehen ist, welcher aus dem Vergleich des ersten Produktes mit dem zweiten die
endgültige Unterscheidung zwischen Ziffern und Buchstaben für die abgetastete Zeichengruppe trifft.
7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß Torschaltungen (212) vorgesehen sind, welche die Daten der
als wahrscheinlich richtig erkannten Zeichen auf eine Ausgangsleitung (170) durchschalten.
8. Einrichtung nach Anspruch 7, dadurch gekennzeichnet, daß ein alphabetisches Speicheradressregister (200) und ein
numerisches Speicheradressregister (202) vorgesehen sind, welche mit der entsprechenden alphabetischen (16) bzw.
numerischen (18) Ausgangs leitung der Zeichenerkennungseinrichtung (100) verbunden sind, und welche den Speicher
(20^) zum Abruf entsprechender Wahrscheinlichkeitswert ansteuern.
WA 973 005/007 - j2 -
6098-42/0701
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US00409524A US3839702A (en) | 1973-10-25 | 1973-10-25 | Bayesian online numeric discriminant |
US00409526A US3842402A (en) | 1973-10-25 | 1973-10-25 | Bayesian online numeric discriminator |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2435889A1 true DE2435889A1 (de) | 1975-10-16 |
DE2435889B2 DE2435889B2 (de) | 1978-01-12 |
Family
ID=27020682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19742435889 Ceased DE2435889B2 (de) | 1973-10-25 | 1974-07-25 | Verfahren und einrichtung zur unterscheidung von zeichengruppen |
Country Status (6)
Country | Link |
---|---|
US (2) | US3839702A (de) |
CA (1) | CA1050167A (de) |
CH (1) | CH578216A5 (de) |
DE (1) | DE2435889B2 (de) |
FR (1) | FR2249391B1 (de) |
GB (1) | GB1437586A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5966464A (en) * | 1990-06-11 | 1999-10-12 | Rcoh Company | Character recognition method and apparatus, including generation of a degree of belief |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3988715A (en) * | 1975-10-24 | 1976-10-26 | International Business Machines Corporation | Multi-channel recognition discriminator |
JPS5854433B2 (ja) * | 1980-09-11 | 1983-12-05 | 日本電気株式会社 | 相違度検出装置 |
JPS57137976A (en) * | 1981-02-18 | 1982-08-25 | Nec Corp | Zip code discriminating device |
US4538182A (en) * | 1981-05-11 | 1985-08-27 | Canon Kabushiki Kaisha | Image processing apparatus |
JPS5970593A (ja) * | 1982-10-15 | 1984-04-21 | Canon Inc | 文書処理装置 |
US5133023A (en) * | 1985-10-15 | 1992-07-21 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US4916745A (en) * | 1986-02-07 | 1990-04-10 | Hart Hiram E | Bayesian image processing method and apparatus |
US4831657A (en) * | 1988-07-19 | 1989-05-16 | International Business Machines Corporation | Method and apparatus for establishing pixel color probabilities for use in OCR logic |
US5067088A (en) * | 1990-02-16 | 1991-11-19 | Johnson & Quin, Inc. | Apparatus and method for assembling mass mail items |
WO1992008198A1 (en) * | 1990-11-05 | 1992-05-14 | Johnson & Quin, Inc. | Document control and audit apparatus and method |
US5146512A (en) * | 1991-02-14 | 1992-09-08 | Recognition Equipment Incorporated | Method and apparatus for utilizing multiple data fields for character recognition |
TW222337B (de) * | 1992-09-02 | 1994-04-11 | Motorola Inc | |
US5912993A (en) * | 1993-06-08 | 1999-06-15 | Regents Of The University Of Calif. | Signal encoding and reconstruction using pixons |
DE4407998C2 (de) * | 1994-03-10 | 1996-03-14 | Ibm | Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg |
US7120302B1 (en) | 2000-07-31 | 2006-10-10 | Raf Technology, Inc. | Method for improving the accuracy of character recognition processes |
US8005775B2 (en) * | 2008-03-18 | 2011-08-23 | Yahoo! Inc. | System and method for detecting human judgment drift and variation control |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL286987A (de) * | 1961-12-22 | |||
US3634822A (en) * | 1969-01-15 | 1972-01-11 | Ibm | Method and apparatus for style and specimen identification |
-
1973
- 1973-10-25 US US00409524A patent/US3839702A/en not_active Expired - Lifetime
- 1973-10-25 US US00409526A patent/US3842402A/en not_active Expired - Lifetime
-
1974
- 1974-06-12 FR FR7421946A patent/FR2249391B1/fr not_active Expired
- 1974-07-12 GB GB3087974A patent/GB1437586A/en not_active Expired
- 1974-07-24 CH CH1018674A patent/CH578216A5/xx not_active IP Right Cessation
- 1974-07-25 DE DE19742435889 patent/DE2435889B2/de not_active Ceased
- 1974-09-19 CA CA209,648A patent/CA1050167A/en not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5966464A (en) * | 1990-06-11 | 1999-10-12 | Rcoh Company | Character recognition method and apparatus, including generation of a degree of belief |
Also Published As
Publication number | Publication date |
---|---|
FR2249391A1 (de) | 1975-05-23 |
CA1050167A (en) | 1979-03-06 |
US3842402A (en) | 1974-10-15 |
GB1437586A (en) | 1976-05-26 |
US3839702A (en) | 1974-10-01 |
CH578216A5 (de) | 1976-07-30 |
FR2249391B1 (de) | 1976-06-25 |
DE2435889B2 (de) | 1978-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2541204C3 (de) | Einrichtung zur Fehlerkorrektur | |
DE10342594B4 (de) | Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten | |
DE2435889A1 (de) | Verfahren und einrichtung zum unterscheiden von zeichengruppen | |
DE69428590T2 (de) | Auf kombiniertem lexikon und zeichenreihenwahrscheinlichkeit basierte handschrifterkennung | |
DE69030310T2 (de) | Beschränkungsabhängig gesteuerte on-line Erkennung von handgeschriebenen Zeichen und Symbolen | |
DE3850595T2 (de) | Dokumentverarbeitungssystem. | |
DE60120810T2 (de) | Verfahren zur Dokumenterkennung und -indexierung | |
DE69600461T2 (de) | System und Verfahren zur Bewertung der Abbildung eines Formulars | |
DE19547812C2 (de) | Lesegerät für Schriftzeichenketten | |
DE4216893C2 (de) | Dateneingabeverfahren | |
DE2640537A1 (de) | Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen | |
EP0938719B1 (de) | Verfahren und vorrichtung zur erkennung von verteilinformationen auf sendungen | |
DE1208925B (de) | Anordnung zum Erkennen von Schriftzeichen | |
DE2654815A1 (de) | Verfahren zur unterscheidung von gross- und kleinbuchstaben | |
DE102018115158A1 (de) | NC-Programm-Umwandlungseinrichtung | |
EP0107083B1 (de) | Belegverarbeitungseinrichtung mit Korrekturschaltung und Datensichtgerät | |
DE3026055C2 (de) | Schaltungsanordnung zur maschinellen Zeichererkennung | |
DE3246631C2 (de) | Zeichenerkennungsvorrichtung | |
DE19726592C2 (de) | Informationserkennungs-Vorrichtung | |
DE3128794A1 (de) | Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann. | |
DE2460757C2 (de) | Einrichtung zur Auswahl der richtigen Form eines bei der maschinellen Zeichenerkennung verstümmtelten Wortes | |
DE69132282T2 (de) | Datenanzeigegerät | |
DE69231818T2 (de) | System und Verfahren zur Beschleunigung von Handschrifterkennung | |
DE4309362C2 (de) | Rückgewinnungs-Vorrichtung zum Zurückgewinnen von in einem Speichermedium aufgezeichneten Informationen | |
DE3110297A1 (de) | Anzeigevorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8235 | Patent refused |