DE2654815A1 - Verfahren zur unterscheidung von gross- und kleinbuchstaben - Google Patents
Verfahren zur unterscheidung von gross- und kleinbuchstabenInfo
- Publication number
- DE2654815A1 DE2654815A1 DE19762654815 DE2654815A DE2654815A1 DE 2654815 A1 DE2654815 A1 DE 2654815A1 DE 19762654815 DE19762654815 DE 19762654815 DE 2654815 A DE2654815 A DE 2654815A DE 2654815 A1 DE2654815 A1 DE 2654815A1
- Authority
- DE
- Germany
- Prior art keywords
- letter
- letters
- probability
- field
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Description
Aktenzeichen der Anmelderin: WA 974 006
Verfahren zur Unterscheidung von Groß- und Kleinbuchstaben
Die Erfindung betrifft Verfahren zur Unterscheidung von in Feldern
angeordneten Groß- und Kleinbuchstaben, die von einem Zeichen- \
leser als Reihe kodierter elektrischer Signale ausgegeben werden.
Die Unterscheidung, ob in einem Textfeld, das von einem optischen Zeichenleser abgetastet wurde. Groß- und/oder Kleinbuchstaben
verwendet wurden, erfordert einen Entscheidungsprozeß,
dessen Durchführung Gegenstand der vorliegenden Erfindung ist.
Die meisten alphabetischen Zeichen (Buchstaben) verfügen über
sich stark voneinander unterscheidende Neigungen, von einem Zeichenleser falsch gelesen zu werden, basierend auf der Schreibweise,
d. h., ob sie in Groß- oder Kleinbuchstaben auf einem Dokument enthalten sind. Dieses wird deutlich bei der Prüfung
der signifikanten unterschiedlichen Geometrie der meisten Groß- und Kleinbuchstaben: "A, a", "E, e", "G, g" usw. Es hat sich in
diesem Zusammenhang herausgestellt, daß die gesamte Nachverarbeitung von Zeichenleser hinsichtlich der Fehlerkorrekturfunktion
dadurch verbessert wird, daß ein Vorverarbeitungsschritt eingeführt wird, der die Funktion hat, zu bestimmen, ob ein Wort auf
einem von dem Zeichenleser abgetasteten Dokument in Groß- und/ oder Kleinbuchstaben geschrieben ist. Dieser Vorverarbeitungsschritt
verbessert die Genauigkeit und Zuverlässigkeit der Gesamtfehlerkorrekturfunktion
der Nachverarbeitung bei Zeichenlesern.
709884/Ό617
So bezieht sich die Anwendung des Verfahrens auf die Vorverarbeitung
für eine Fehlerkorrektureinrichtung, die in der US-PS 3 969 700 beschrieben ist. Diese Einrichtung wählt die korrekte
Form eines von einem Zeichenleser verstümmelt ausgegebenen Wortes aus, indem es die Zahl der Buchstaben des Wortes durch
Zusammenziehung zweier Zeichen zu einem Buchstaben oder Spaltung eines Buchstabens in zwei Zeichen, verändert. Hierzu ist in
der Einrichtung ein Verzeichnis gültiger Wörter gespeichert. Die weitgehend verschiedenen Neigungen der Buchstaben auch hinsichtlich
ihrer Verwechslungsfähigkeit hängen davon ab, ob ein gegebener
Buchstabe als Groß- oder Kleinbuchstabe geschrieben ist.
Die Aufgabe der Erfindung ist daher ein Verfahren, das eine Be-
!Stimmung ermöglicht, ob ein Buchstabe in einem alphabetischen
I
Zeichenfeld (z. B. in einem Wort), das von einem Zeichenleser
Zeichenfeld (z. B. in einem Wort), das von einem Zeichenleser
ausgegeben wird, sich auf Groß- und/oder Kleinbuchstaben bezieht.
Gelöst wird diese Aufgabe der Erfindung durch die im Hauptanspruch
angegebenen Merkmale.
Vorteilhafte Merkmale, Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entneh-
! men.
Die Lösung der Erfindung trägt somit dazu bei, die Sicherheit
der Erkennung von Zeichenlesern weiter zu verbessern. i
i j
j . j
i Im folgenden werden Ausführungsbeispiele der Erfindung anhand ;
[ der beiliegenden Figuren näher erläutert.
l7A974 °06 709884/0617
Es zeigen:
Fig. 1 das Blockschaltbild einer Einrichtung zur Unterscheidung von Groß-yKleinbuchstaben;
Fig. 2 ein ausführlicheres Blockschaltbild der Einrichtung nach Fig. 1,"in der ein Speicherpaar vorgesehen
ist, in dem die statistischen Werte der Häufigkeit des Auftretens der Zeichen gespeichert
ist;
Fig. 3 ein ausführlicheres Blockschaltbild einer
Einrichtung nach Fig. 1, in der in einem Festwertspeicher
die statistischen Werte der Häufigkeit des Auftretens der Zeichen gespeichert sind und
Fig. 4 eine schematische Darstellung des Operationsablaufs in der Einrichtung nach Fig. 3.
Der Schreib- oder Druckkonventionsindex (PCI), der in dem vorliegenden
Verfahren realisiert wird, ist die Formulierung einer Entscheidungsfunktion, die das Ziel hat, auch Wörter für Anwendungen
der optischen Zeichenerkennung (OCR) zuzulassen, die aus Groß- oder Kleinbuchstaben bestehen. Für generelle Anwendungen
der optischen Zeichenerkennung (OCR), wie beispielsweise das Lesen der Bestimmungsorte von Postsendungen oder die Textverarbeitung,
müssen die drei folgenden Schreibkonventionen der PCI-Operation berücksichtigt werden:
(1) Alle Zeichen eines Wortes gehören zur Schreibkonvention für Großbuchstaben (Großbuchstaben-Schreibweise),
WA 974 006
/0617
■ (2) Alle Zeichen eines Wortes sind Kleinbuchstaben und ■
I (3) Alle Zeichen eines Wortes sind Kleinbuchstaben, mit | Ausnahme des ersten Buchstaben eines Wortes, der !
ein Großbuchstabe ist. ;
Die Unterscheidung zwischen diesen drei Schreibkonventionen [
ist deshalb nicht trivial, weil die Falschlesungen eines opti- ;
sehen Zeichenlesers (einschließlich Konflikten und Rückwei- I
sungen) dazu neigen, Groß- und Kleinbuchstaben-Schreibverein- j
j barungen ebenso zu stören, wie die Buchstabenidentifizierung. ;
' Zeichenleserkonflikte und Rückweisungen enthalten normaler- !
: weise keine Schreibkonventionsschlußfolgerungen hinsichtlich ι
< der abgetasteten Zeichen.
Die Groß-/Kleinbuchstabenentscheidung wird auf einer "pro
! Feldbasis" (d. h. auf Wortbasis) vorgenommen, indem die in Gleichung (1) genannte PCI-Formulierung verwendet wird:
; k-1 k-1
PCI = Σ log Pn (a) - Σ log PT
<a_) (1) ; n=1 U n n=1 u n
iworin k die Zahl der Buchstaben in dem Feld angeben, α der
! Buchstabe ist, der in der η-ten Stelle des Feldes festgestellt wurde und η ein Indexwert der Stelle ist, der im Feld von
rechts nach links inkrementiert wird (n = 1 ist die letzte, ■ am weitesten rechts liegende Buchstabenstelle des Feldes).
J Daher ist beispielsweise im Feld der Buchstaben "Smith", k = 5. j Die Zeichen S und h geben die Links-nach-rechts-Richtung der
j Zeichen an und η = 1 ist dem Zeichen h zugeordnet.
Großbuchstabenschreibweise liegt vor, wenn der PCI-Wert in Gleichung (1) größer als null ist; eine Kleinbuchstabenschreibweise
liegt vor, wenn der PCI-Wert gleich oder kleiner als null ist. Die Zuordnung des Plus- und Minuszeichens
bezüglich der Betriebsweise der Einrichtung, sind willkürlich gewählt.
WA 974 006 7Ö9Ö8W0617
Der Ausdruck "Ρ7Τ(α )" in der Gleichung (1) ist für die Nähr-
υ η ι
scheinlichkeit repräsentativ, mit der die Zeichenlesererkennung j
"α " von der Abtastung eines Großbuchstabens resultiert. Daher i
η 3 ι
gibt der Ausdruck "Ρτ(α_)" in Gleichung (1) die Wahrscheinlich- !
Xj η i
keit an, mit der die Zeichenlesererkennung "α " von der Abtastung
eines Kleinbuchstabens resultiert. Der vollständige Satz aller j
eines Kleinbuchstabens resultiert. Der vollständige Satz aller j
α deckt alle Groß- und Kleinbuchstaben ab und kann sowohl Er- ι
kennungskonfliktrückwexsungen als auch den gerellen Buchstaben- j
rückweisungskode enthalten.
Die Werte der Ausdrücke "PrT(a )" und "Ρτ (α„)" sind für die I
υ η L· η
Lösung der Gleichung (1) in logarithnvischer Form gespeichert, j
nachdem sie mit Hilfe der Formeln in den Gleichungen (2) und (3)
vorverarbeitet wurden:
vorverarbeitet wurden:
•26
P0(CXn) = Σ Pc[an|ü(i)] · P[U(I)] (2)
P0(CXn) = Σ Pc[an|ü(i)] · P[U(I)] (2)
26
P (α ) = Σ P0La(L(X)] · P[L(i)l (3)
P (α ) = Σ P0La(L(X)] · P[L(i)l (3)
wobei U(i) der i-te von 1 bis 26 Großbuchstaben und L(i) der i-te
von 1 bis 26 Kleinbuchstaben ist. "P-Ia1,|U(i) ]" ist die Verwech-
von 1 bis 26 Kleinbuchstaben ist. "P-Ia1,|U(i) ]" ist die Verwech-
C XL
Seiwahrscheinlichkeit, daß ü(i) als α gelesen wird. "P[U(i)]!l
ist die Wahrscheinlichkeit, mit der ü(i) in dem abgetasteten
Dokument auftritt, und zwar in Abhängigkeit von der Sprache
(z. B. Englisch), der das Wort auf dem Dokument angehört.
"1P [a Il(i)]" ist die Verwechslungswahrscheinlichkeit, mit der
L(i) als an gelesen wird. "P[LU)]" ist die Wahrscheinlichkeit,
mit der L(i) in Abhängigkeit von der Sprache, der das abgetastete Wort auf dem Dokument angehört, auftritt.
ist die Wahrscheinlichkeit, mit der ü(i) in dem abgetasteten
Dokument auftritt, und zwar in Abhängigkeit von der Sprache
(z. B. Englisch), der das Wort auf dem Dokument angehört.
"1P [a Il(i)]" ist die Verwechslungswahrscheinlichkeit, mit der
L(i) als an gelesen wird. "P[LU)]" ist die Wahrscheinlichkeit,
mit der L(i) in Abhängigkeit von der Sprache, der das abgetastete Wort auf dem Dokument angehört, auftritt.
Tabelle I zeigt die Häufigkeit des Auftretens der Buchstaben
in der englischen Sprache, die beispielsweise für den Buch-
in der englischen Sprache, die beispielsweise für den Buch-
WÄ974006 709884/0617
stäben A 7,81% beträgt. Für M ist die Häufigkeit 2,62%, für
T 9,02% usw. bis zum Zeichen Z, das eine Häui gkeit des Auftretens
von 0,09% hat. Die Häufigkeit, mit der Groß- und Kleinbuchstaben auftreten (P[U(i)]/P[L(i)]) wird abgeleitet, indem
ein 2O/8O-Verhältnis für Textdokumente auf die Häufigkextsdaten
in der Tabelle I angewendet wird. Daher ist der relative Wert von P[U(i)] für einen Großbuchstaben in einem Textdokument 20%
des Häufigkeitswertes, der in Tabelle I angegeben ist. Für den Wert P[L(i)] für Kleinbuchstaben eines Textdokumentes ist er
hingegen 80% des Wertes in der Tabelle I. Andererseits sind die Werte für P[U(I)] und P[L(i)] jeweils 70% und 30% des in Tabelle I
angegebenen Wertes jeweils für einen gegebenen Groß- oder Klein- ! buchstaben, wenn das Dokument, das von dem Zeichenleser gelesen
iwird, von postalischen Anwendungen stammt, in denen Bestimmungsj
orte gelesen werden müssen. Die gewählten Verhältnisse sind im wesentlichen beliebig, was die exakten Werte betrifft; sie sind
empirisch vom Standpunkt des durch Erfahrung gewonnenen Wissens, daß nämlich die Majorität der Buchstaben in postalischen Anschriften
Großbuchstaben sind, wohingegen die Majorität der Buchstaben von Textdokumenten der Kleinbuchstaben-Schreibweise
angehört.
WA 974 006
70988A/0617
A/a = 7,81% Ν/η = 7,27%
B/b = 1,28% Ο/ο = 8,21%
C/c = 2,93% Ρ/ρ = 2,15%
D/d = 4,11% Q/q = 0,14%
E/e = 13,05% R/r = 6,64%
F/f = 2,88% S/s = 6,46%
G/g = 1,39% T/t = 9,02%
H/h = 5,85% U/u = 2,77%
I/i = 6,77% V/v = 1,00%
J/j = 0,23% W/w = 1,49%
K/k * 0,42% X/x = 0,30%
L/l = 3,60% Y/y = 1,51%
M/m = 2,62% Z/z = 0,09%
Tabelle I. Häufigkeit des Auftretens der Buchstaben in der englischen
Sprache
In den Tabellen II bis VII am Ende der Beschreibung sind die Daten auf der Y-Achse für die Groß- und Kleinbuchstaben repräsentativ,
die auf dem vom Zeichenleser abgetasteten Dokument aufgeschrieben oder aufgedruckt sind, wohingegen die Buchstaben auf
der X-Achse ausgegebene Groß- und Kleinbuchstaben des Zeichenlesers sind. Darüber hinaus enthält die X-Achse drei Kategorien
von Konflikterkennungen (Tabellen VT und VII), die von dem optischen Zeichenleser an seinem Ausgang mit den Zeichen
"3", "?" und "#" bezeichnet sind. Diese Konflikterkennungen sind im einzelnen: >
(1) "i/l" — Die i- und 1-Erkennungsschaltungen des optischen
Zeichenlesers sprechen beide an; wenn jedoch das Zeichen eher an ein kleines i als ein 1 erinnert, dann wird dieses
durch das Zeichen "3" bezeichnet.
WÄ974006 709884/0617
(2) "l/i" — Die 1- und i-Erkennungsschaltungen sprechen beide
an; die Erkennung erinnert jedoch stärker an 1 als an i, dann wird dieses durch das Zeichen "?" zu Ende angegeben.
(3) "N/W" — Die Erkennung ist unbestimmt; sie wird jedoch
charakterisiert durch ein Zeichen, die als streng diagonale Tendenz interpretiert werden kann. Dieses wird durch
das Zeichen "#" angegeben.
Das Rückweisungszeichen "*" gibt an, daß die Erkennung nicht
konklusiv und daher kein Buchstabe identifizierbar war. Wie die Tabellen II bis VII in Verbindung mit der Gleichung (1) zeigen,
ist das PCI für einen von dem Zeichenleser als A ausgegebenen
!Buchstaben (A auf der X-Achse) die Differenz zwischen: (1) der
ι
Summe der entsprechenden Dezimalwerte der Wahrscheinlichkeit in Spalte A jeweils multipliziert mit der Häufigkeit des Auftretens, angegeben in der Y-Achse in den Zeilen A bis Z und (2) der Summe der Dezimalwerte der Wahrscheinlichkeit in der Spalte A jeweils wieder multipliziert mit der Häufigkeit ihres Auftretens, angegeben in der Y-Achse, Zeilen a bis z. Wenn der auf diese !weise abgeleitete PCI-Wert größer als null ist, dann kann angenommen werden, daß der abgetastete Buchstabe ein Großbuchstabe ist. Ist der PCI-Wert dagegen null oder kleiner als null, dann kann davon ausgegangen werden, daß es sich um einen kleinen Buchstaben handelt. Wenn die laufende Summe des PCI-Wertes für mehrere Buchstaben (einschließlich Konflikte und Rückweisungen) in einem Wort ein Anzeichen dafür liefert, daß er in Großbuchstaben-Schreibweise geschrieben ist, dann wird das gesamte Wort als ein Wort in Großbuchstaben behandelt. Wenn andererseits die laufende Summe des PCI-Wertes für alle Zeichen in einem Wort dafür sprechen, daß es in Kleinbuchstaben-Schreibweise geschrieben ist, dann wird der am weitesten links im Wort stehende Buchstabe (das ist der erste Buchstabe in dem bereits erwähnten Feld)
Summe der entsprechenden Dezimalwerte der Wahrscheinlichkeit in Spalte A jeweils multipliziert mit der Häufigkeit des Auftretens, angegeben in der Y-Achse in den Zeilen A bis Z und (2) der Summe der Dezimalwerte der Wahrscheinlichkeit in der Spalte A jeweils wieder multipliziert mit der Häufigkeit ihres Auftretens, angegeben in der Y-Achse, Zeilen a bis z. Wenn der auf diese !weise abgeleitete PCI-Wert größer als null ist, dann kann angenommen werden, daß der abgetastete Buchstabe ein Großbuchstabe ist. Ist der PCI-Wert dagegen null oder kleiner als null, dann kann davon ausgegangen werden, daß es sich um einen kleinen Buchstaben handelt. Wenn die laufende Summe des PCI-Wertes für mehrere Buchstaben (einschließlich Konflikte und Rückweisungen) in einem Wort ein Anzeichen dafür liefert, daß er in Großbuchstaben-Schreibweise geschrieben ist, dann wird das gesamte Wort als ein Wort in Großbuchstaben behandelt. Wenn andererseits die laufende Summe des PCI-Wertes für alle Zeichen in einem Wort dafür sprechen, daß es in Kleinbuchstaben-Schreibweise geschrieben ist, dann wird der am weitesten links im Wort stehende Buchstabe (das ist der erste Buchstabe in dem bereits erwähnten Feld)
974 006 709884/0617
unterschiedlich von den übrigen Buchstaben im Feld behandelt, die ihrerseits jedoch als Kleinbuchstaben weiter behandelt werden
.
Fig. 1 zeigt nun einen optischen Zeichenleser (OCR) 10, der mit
einem Diskriminator (VERB) 11 verbunden ist, der seinerseits im Detail in der US-PS 3 839 702 beschrieben ist. Der optische
Zeichenleser 10 ist mit dem Diskriminator 11 über die beiden Ausgangsleitungen 12 und 13 verbunden, von denen die Ausgangsleitung
12 Buchstaben und die Ausgangsleitung 13 Ziffern überträgt. Zur Realisierung der Schaltungsanordnung ist es nicht
unbedingt erforderlich, einen Diskriminator der genannten Art zu verwenden, da auch andere bekannte Diskriminatoren verwendbar
sind. Die Ausgangssignale des in Fig. 1 verwendeten Diskriminators 11 geben eine Unterscheidung zwischen Buchstaben
und Ziffern an, wie sie in der genannten US-Patentschrift angegeben ist. Die Unterscheidung ist so, daß elektrische Signale,
die sich auf Reihen von Buchstaben beziehen, auf der Ausgangsleitung 14 erscheinen, während Signale, die sich auf Ziffernreihen
beziehen, über die Ausgangsleitung 15 übertragen werden. Ein Register 16 dient als Pufferspeicher für die Buchstabenreihen
eines Feldes. Gesteuert von der Steuerung 17 gibt das Register sequentiell Reihen von Buchstaben aus, um einen Wahrscheinlichkeitsspeicher
18 auf der Basis eines Buchstabens je Zeiteinheit zu adressieren. Der Speicher 18 enthält sowohl Bestandteile
der Gleichung (1) für die Wahrscheinlichkeit des Auftretens sowohl von Groß- als auch von Kleinbuchstaben für
jeden Buchstaben, der über den Diskriminator 11 vom optischen Zeichenleser 10*ausgegeben wird. Die effektiven Werte der
Wahrscheinlichkeit, sowohl für Groß- als auch für Kleinbuchstaben für einen gegebenen Buchstaben werden ausgelesen, in
das Register 19 übertragen und einem logarithmischen Addierer 21 zugeleitet, der funktionell die Summe der Wahrscheinlichkeit
aller Großbuchstaben und der Wahrscheinlichkeit aller
974 006 709884/0617
■?«■
Kleinbuchstaben für die Buchstaben in einem gegebenen Feld gemäß Gleichung (1) errechnet. Die Summe dieser Wahrscheinlichkeiten
ist für den PCI-FeId- oder Wortwert, der zuvor bereits erläutert
wurde, bestimmend.
Das Tor·22 dient als Pufferspeicher für Ziffernfelder, die über
die Leitung 15 und Buchstabenfelder, die über die Leitung 14 ausgegeben werden. Das Tor 22 liefert auch ein geeignetes Signal
bezüglich der Zeichenposition" (Stelle des Buchstabens oder der
Ziffer) und der Leerstellen in den alphanumerischen Feldern an die Steuerung 17. Der Addierer 21 gibt die Zwischensummen für die
Groß- und Kleinbuchstaben-Schreibweise an den Vergleicher 23 aus, der die relativen Größen der Untersummen miteinander vergleicht,
um den entsprechenden PCI-Wert zu bestimmen. Wenn, wie zuvor bereits erläutert wurde, der PCI-Wert größer als null ist, dann
bewirkt das Signal auf der Leitung 24, daß den Buchstaben in dem Feld, das als eine Reihe von Buchstaben von dem Diskriminator
11 über die Leitung 14 über das Tor 22 zur Ausgangsleitung 25
übertragen wurde, ein Großbuchstabenkennzeichen beigegeben wird. Andererseits, wenn der PCI-Wert, der vom Vergleicher 23 ermittelt
wurde, gleich null oder kleiner als null ist, dann bewirkt das Signal auf der Leitung 24, daß den Buchstaben des Feldes,
die über das Tor 22 von der Leitung 14 zu der Leitung 25 übertragen werden, ein Kennzeichen beigegeben wird, das Kleinbuchstaben
kennzeichnet. Es sei auch erwähnt, daß die Bezeichnungen "größer als" und "kleiner als" null für die Schreibkonvention
beliebig gewählt werden können, da sie "Polaritäten" darstellen, die für Groß- und Kleinbuchstaben-Schreibweise Indikativ sind.
In Fig. 2 ist zu sehen, daß der optische Zeichenleser 31 wieder über zwei Ausgangsleitungen 33 und 34 verfügt, die ihn mit dem
Diskriminator 32 verbinden. Der Diskriminator 32 hat ausgangssei tig zwei Ausgangsleitungen 35 und 36, die ihn mit einem
WA 974 006 . m _
709884/0617
Pufferspeicher 37 verbinden. Wie zuvor bereits im Zusammenhang
mit Fig. 1 erläutert wurde, dient eine Ausgangsleitung des Diskriminators
zur übertragung von Zeichenfeldern oder Wörtern, die als numerisch gekennzeichnet sind (z. B. 35), während die andere
Ausgangsleitung (z. B. Ausgangsleitung 36) dazu dient, Zeichenfelder
zu übertragen, die als alphabetische Zeichen gekennzeichnet sind. Die Ausgangsleitung 33 des optischen Zeichenlesers 31
kann auch als Schaltungsvariante direkt mit der Leitung 35 verbunden werden, die dann als direkte Eingangsleitung des Pufferspeichers
37 benutzt wird, während die Ausgangsleitung 34 des optischen Zeichenlesers auch direkt mit der Leitung 36 verbunden
werden kann, wodurch der Diskriminator 32 vom Datenfluß umgangen wird.
Die Ausgangssignale vom Pufferspeicher 37, die das Buchstabenfeld betreffen, erscheinen auf der Leitung 38 für eine Übertragung
in das alphabetische Schieberegister 39 für die Buchstaben und in das Speicheradressenregister 41. Die Ausgangssignale des
Pufferspeichers 37, die Ziffern betreffen, werden zu dem numerischen Schieberegister 42 über die Leitung 43 übertragen. Die
Steuereinheit 44 leitet diesen Vorgang ein und hält die Ausgangsfolge der numerischen und alphabetischen Felder (Ziffern- und
Buchstabenfelder) mit der Eingangsfolge der Zeichenfelder in die Vorrichtung identisch. Daher wird der Zeichenstrom, der aus
dem Ziffernfeld abgeleitet wird, zeichenweise in das Register 42 und der Zeichenstrom des Buchstabenfeldes parallel in die Register
39 und 41, und zwar ebenfalls wieder zeichenweise, eingegeben. An die Eingangsstufe 45 des Registers 41 ist eine Leitung angeschlossen,
die zu dem Leerstellendetektor 46 führt, um die Anwesenheit von Leerstellen in einem Feld oder Worttrennungszeichen
festzustellen. Nach der Feststellung einer Leerstelle wird der Entscheidungsprozeß des vorliegenden Verfahrens von der Steuereinheit
44 eingeleitet.
WA 974 006
709884/0617
Die Feststellung einer Leerstelle in der Eingangszelle 45 des
als Schieberegister ausgebildeten Registers 41 führt dazu, daß ein aus dem Buchstabenfeld abgeleiteter Zeichenstrom zeichenweise
in dieses Register hineingeschoben wird. Gleichzeitig wird jedes Zeichen (Buchstabe) des Buchstabenfeldes sequentiell in ein
Register 39 geladen. Die im Register 41 gespeicherten Buchstaben bilden die Adresse für die Großbuchstabenwahrscheinlichkeit
"log P.(α )" für den Speicher 47 und für die Kleinbuchstabenwahrscheinlichkeit
"log PL(an)" für den Speicher 48. Die Tabellen
der Auftretenswahrscheinlichkeit von Groß- und Kleinbuchstaben werden, wie zuvor bereits im Zusammenhang mit der Gleichung (1)
erläutert wurde, gebildet. Diese Auftretenswahrscheinlichkeiten werden in den Speichern 47 und 48 gespeichert. Wie ebenfalls
zuvor schon festgestellt wurde, erfolgt der Zugriff zu den Wahrscheinlichkeitswerten des Auftretens der genannten Buchstaben
in den Speichern 47 und 48 von einem Buchstaben, der über die Leitung 49 vom Register 41 her übertragen wird.
Die Wahrscheinlichkeitswerte des Auftretens von Großbuchstaben "log P T(cx )", die sequentiell im Ausgangsregister 51 zwischengespeichert
werden, werden sequentiell von dem Addierer 52 addiert und zu den sequentiell immer auf dem neuesten Stand gehaltenen
Werten von "log Pyic^)", die im Speicher 53 enthalten
sind, addiert. Der Additionsvorgang wird in Kettenform solange fortgesetzt, bis die Summe der Wahrscheinlichkeitswerte des
Auftretens der Großbuchstaben für das gesamte Buchstabenfeld, das im Register 41 gespeichert ist, gemäß Gleichung (1) errechnet
ist. Das Ende eines Feldes wird dadurch festgestellt, daß das Vorhandensein einer das Feld beendigenden Leerstelle in
der Eingangsstufe 45 des Registers 41 geprüft wird.
Gleichzeitig werden die Wahrscheinlichkeitswerte des Auftretens von Kleinbuchstaben "log p L(an)" i™ Ausgangsregister 54 gespeichert
und dann von dem Addierer 55 sequentiell zu dem sequentiell
WA 974 006
709884/0617
auf dem neuesten Stand gehaltenen Inhalt des Speichers 56 für
die Werte "log p L(a n)"» addiert. Dieser AdditionsVorgang wird
ebenfalls in Kettenform solange fortgesetzt, bis die Summe der Wahrscheinlichkeitswerte des Auftretens von Kleinbuchstaben für
das Buchstabenunterfeld, das im Register 41 gespeichert ist,
gemäß Gleichung (1) errechnet ist.
Die Summe der Wahrscheinlichkeitswerte des Auftretens der Großbuchstaben
für ein gegebenes Feld oder Wort, das im Speicher 53 gespeichert ist, wird zu dem Register 57 übertragen, wohingegen
die Summe der Wahrscheinlichkeitswerte des. Auftretens von Kleinbuchstaben,
die für ein gegebenes Feld im Speicher 56 gespeichert ist, zum Register 58 übertragen wird. Der Inhalt des Registers
wird bezüglich des algebraischen Vorzeichens vom Inverter 59 inventiert und zu dem Inhalt des Registers 57 im Addierer-Vergleicher
561 hinzuaddiert. Das Ausgangssignal dieses Addierer-Vergleichers
bestimmt den Index der Schreibkonvention (Schreibweise) . Wenn die Summe in 61 größer als null ist, dann
gibt das Signal auf der Ausgangsleitung 62 an, daß das Buchstabenfeld Großbuchstaben enthält. Wenn aber die Summe innerhalb
des Addierer-Vergleichers 61 kleiner als oder gleich null ist, dann führt seine Ausgangsleitung 6 3 ein Signal. Dieses
gibt an, daß das Zeichenfeld oder Wort lauter Kleinbuchstaben enthält. Wie Fig. 2 zeigt, bilden die Leitungen 62 und 63 den
Eingang zu dem Tastenumschaltungsidentifizierer 64, also dem Identifizierer für Groß- und Kleichbuchstaben, der auf ein
Kommando von der Steuereinheit 44 entweder ein Großbuchstabenoder Kleinbuchstabenkennzeichen in Abhängigkeit davon erzeugt,
welche der Leitungen 62 oder 63 ein Signal führt. Dieses Kennzeichen
wird dem Buchstabenfeld im alphabetischen Schieberegister beigegeben. Auf ein Kommando von der Steuereinheit 44 wird der
Inhalt des alphabetischen Schieberegisters 39 über die Leitung 65 zu dem Ausgangsregister 66 und von dort auf die Ausgangsleitung
67 zu der Einrichtung für die Schreibkonvention ausge-
WA 974 006
709984/0617
geben. Daher sei zusammenfassend festgestellt, daß das im alphabetischen
Schieberegister 39 gespeicherte Buchstabenfeld in Abhängigkeit von der Signalführung auf den Leitungen 62 oder 63
entweder zusammen mit einem Großbuchstaben- oder einem Kleinbuchstabenkennzeichen
ausgegeben wird. Das Zahlenfeld wird, wie zuvor bereits· erläutert wurde, vom numerischen Schieberegister 42 ausgegeben
und über die Leitung 68 in das Ausgangsregister 66 übertragen. Die Einrichtung 69 zum Löschen wird von der Steuereinheit
44 gesteuert, sie stellt die Speicher 53 und 56 sowie den Addierer-Vergleicher 61 auf null zurück, wenn die Einrichtung
ihre Operation hinsichtlich eines Feldes oder Wortes beendet hat und sie bereitet den Empfang anderer Zeichengruppen vor.
Wie Fig. 3 zeigt, ist der Ausgang des optischen Zeichenlesers (OCR) 71 mit dem beide Ausgangsleitungen verbindenden Diskriminator
72 verbunden, dessen Ausgänge jeweils über die Leitungen 74 und 75 mit dem Pufferspeicher 73 verbunden sind. Wie zuvor
bereits im Zusammenhang mit Fig. 2 erläutert wurde, werden die vom Pufferspeicher 73 ausgegebenen Ziffern über die Leitung
zu dem numerischen Schieberegister 76 übertragen, wohingegen die Buchstaben, die vom Pufferspeicher 73 ausgegeben werden,
über die Leitung 95 in das alphabetische Schieberegister 77 sowie in das alphabetische Adressenregister 78 übertragen werden.
Die Eingangsstufe 90 ist Teil des alphabetischen Adressenregisters
78.
Der Festwertspeicher 79 enthält die PCI-Werte (Schreibkonveni
tions-Indexwerte, vgl. Einleitung) für jeden Großbuchstaben und jeden Kleinbuchstaben, der über die Leitung 81 vom alphabetischen Adressenregister 78 ausgegeben wird. Ferner enthält der Festwertspeicher die PCI-Werte für Konflikte und Rückweisungen.
tions-Indexwerte, vgl. Einleitung) für jeden Großbuchstaben und jeden Kleinbuchstaben, der über die Leitung 81 vom alphabetischen Adressenregister 78 ausgegeben wird. Ferner enthält der Festwertspeicher die PCI-Werte für Konflikte und Rückweisungen.
Die Zugriffsoperation und die Verwendung des Festwertspeichers sind in Fig. 4 dargestellt. Die Eingabe vom alphabetischen Ad-
WA 974 006
709884/06.17
ressenregister 78 (vgl. Fig. 3) ist mit dem Buchstabenfeld des
Zeichenlesers 71 identisch, wobei jeder Buchstabe des Feldes in Form eines numerischen Kodes dargestellt ist. Dieser numerische
Kode wird jedem Buchstaben durch seine Position in einem vorher definierten Alphabet zugeteilt, beispielsweise beginnend
mit dem Großbuchstaben A = 1 kontinuierlich bis zum Kleinbuchstaben
ζ = 52. Es handelt sich hierbei also um eine durchlaufende Numerierung, zuerst für die Großbuchstaben und sofort anschließend
für die Kleinbuchstaben von A bis z. Zusätzliche Sonderzeichen können in ähnlicher Weise durch einen höherwertigen
numerischen Kode, also durch Zahlen, die größer als 52 sind, dargestellt werden. Dieser Kode wird zur Vereinfachung der Rechnung
für die gesamte Nachverarbeitung der Ergebnisse des optischen Zeichenlesens verwendet.
Das in Fig. 4 dargestellte Ausführungsbeispiel zeigt ein alphabetisches
Wort oder Feld "MAIm", das von dem optischen Zeichenleser 71 gelesen wurde. Dieses bewirkt eine Speicherung in dem
alphabetischen Adressenregister 78 in der Reihenfolge 1, 9, 39 für die Zeichen A, I, m. Gemäß Gleichung (1) ist der erste Buchstabe
eines Wortes oder Feldes für die Berechnung des PCI-Wertes ausgenommen. Der Festwertspeicher 79 ist in 52 oder mehr sequentielle
Stellen längs einer Dimension unterteilt. In jeder solcher Speicherstelle befindet sich ein Wert, der den vorberechneten
Logarithmus des Verhältnisses der Wahrscheinlichkeit eines Buchstabens Ci1 ein Großbuchstabe zu sein, zu der Wahrscheinlichkeit,
daß er ein Kleinbuchstabe ist. Für das in Fig. 4 dargestellte Beispiel dienen die Indizes 1, 9 und 39 zur sequentiellen
Ansteuerung des Festwertspeichers 79. Daher werden die Werte +2373, +1788 und -2024 vom Festwertspeicher abgerufen und kummulativ
von der Anordnung summiert, die aus dem Register 83, dem Addierer 84 und dem Speicher 85 besteht (vgl. Fig. 3).
WA 974 006
7°9884/06,
- ν* -XC
Die aufgelaufene Summe im Pufferspeicher 86 ist für das in Fig. 4 zugrunde gelegte Operationsbeispiel +2137. Die wichtige
Kenngröße des Wertes ist das algebraische Vorzeichen (die Polarität "+" oder "-"). Ein Pluszeichen gibt an, daß der PCI-Wert
für das Wort oder das Buchstabenfeld größer als eins ist (log 1=0) mit der Vereinbarung, daß das von dem Zeichenleser
ursprünglich gelesene Wort in Großbuchstaben geschrieben ist. Der Wert wird von dem Speicher 85 in den Pufferspeicher 86 übertragen
und über die Leitung 87 zu dem (Polaritäts-) Detektor 88 übertragen, der feststellt, ob es ein Plus-Zeichen oder Minus-Zeichen
ist. Wenn der Detektor einen positiven Wert feststellt, dann erzeugt er das Kennzeichen für einen Großbuchstaben, stellt
er aber einen negativen Wert fest, dann erzeugt er das Kennzeiichen
für einen kleinen Buchstaben. Demgemäß verfügt das sequentiell vom alphabetischen Schieberegister 77 über die Leitung
97 zum Äusgangsregister 88 übertragene Buchstabenfeld, das über die Leitung 89 ausgegeben wird, über ein Kennzeichen für Großoder
Kleinbuchstaben, entsprechend der Schreibweise des vollständigen Wortes. Daher wird für das in Fig. 4 gewählte Beispiel
die Buchstabenfolge 11MAIm", die einen PCI-Wert von +2137
hatten, von der Einrichtung über die Ausgangsleitung 89 in
Fig. 3 als "MAIm" ausgegeben. Die Steuereinheit 92 in Fig. 3 arbeitet auf ähnliche Weise wie die Steuereinheit 44 in Fig. 2.
Dementspreched führen auch die Einheiten zum Löschen 69 in Fig. 2 und 93 in Fig. 3 ähnliche Funktionen aus.
WA 974 006
709884/0617
Zf
r* r*· cn m *~<
tncNoj ines O vo
»■»•το cn -j mr-ico tn ο «-* *\ λ ι . « ·«■
η cn m η cm rincn cn cn en V rl N / fl 1 K
Π CO Ή H {ft CN CN O O CO CN Ci O
cn to cn oo comoco n#n mo
co in ν cNin »* -τ σ m vo *τ ο ,-^
cNmcQrHvocio owcovo cn «·» r— πΐ
co in ο γν m -* α ^ ν to co cmcnco J-1
••τ »η cn -τ ο ο r» cn r*· m co co·-* H
cn cn m cn cn m m ν rinn men q
3 N
(U ■μ (D
O (U
CO | ο | O | co |
co | |||
»η | O | tn | |
m | Π |
cn | m | m | CM OO | cn | tn co | |
CN | m | O | ||||
CO | O <» | |||||
m | ||||||
cn | ||||||
m | ||||||
CO | ιη | η | ο | γ» »τ | VD | Γ*· | α) Ν*τ | r>. | CO sT | |
*η | cn | tn | CO - | Π f ί N | ο *-t | |||||
m | CS | η | η | CO | η | ο cn co | r-l | |||
η | CO | ri | m | ηηη | »η | |||||
η | O OO | ηη-τ | Γ* | CO | ||||||
Γ"· | ||||||||||
Π | ||||||||||
CN | γ* η η | |||||||||
CM | ||||||||||
O | ||||||||||
*O | ||||||||||
Π | ||||||||||
O | ||||||||||
O | ||||||||||
η | ||||||||||
η | ||||||||||
CN CO ·* | cn oo | »n rH |
en ο ο | O CN | i-< CN |
*n cn r·* | tn m | |
CN Π ΓΝ | m cn | cn |
α* rj ** *τ r^- ο
m rs et co co ο
οχ cn co m ο ο
m cn η cn cn n
■n |
H
H |
1)· ■ |
Kl |
(U | H -CQ |
Eh | a |
ese |
A082 | σ» | O en |
3886 | CM CO CO |
2708
2783 3AS2 |
m | CO rH | VO | vD | S | cn co | r-l CN VO | O | CO CN | η | σ* η | •Η | Γ-. |
m
ca |
CM r- |
O
O |
CO | Ol | |
m | cn | σ ο | mm oo | 3Al | in m | m co | CO | r* | CO C* | O | -rl | |||||||
CN | cn | CN »-I | Γ» CN CO | cn ·» | η | σ* co | O | r-t | CM | «ΐ O | η | r-i | ||||||
CO | < M | m m | CN | CN | m | cn m m | cn m | N | m cm | cn | cn | cn cm | m | O | ||||
»T |
ο m C-»
(JiO H |
r«- m co m
in r» co co |
CO CN -* m cj cn |
CO | RS | 8 | ||||||||||||
cn | r-" cn | r-l | co co | OO CM | «j cn co | O | tn | |||||||||||
CM CN | co | CN | Γ-» CO | cn cn m m | «Τ CM | rt m η | CO | |||||||||||
m vo | CN | r* cn | CO CN | CM | η σ» | co m | m | |||||||||||
»η »τ | «N cn | in vD | .»τ | m cn | Γ4 CN | CM | ||||||||||||
^T CO | ο | — r». | cn m | O | CM | m in | co | M | ||||||||||
en vo
r-i «n cn m |
CN | cn H | η | 392 | cn cn | 316 | ||||||||||||
r» Ot »n | CN *ί | C-J | »* cn ο | !Der | ||||||||||||||
1^ ** ^i | co co | cn m en | ||||||||||||||||
CN CN | *7 Mt | α | r* cn co | |||||||||||||||
co tn | cn cn | m «H | η | HnN | ||||||||||||||
O CN | CO vO |
cn tn
O -i |
gs |
a» cn
in ri |
||||||||||||||
•■τ m | m ο | «η γν | ο «n | cn cn | ||||||||||||||
CN CO O -T |
m <· | π m | ^* cn | cn m | > | |||||||||||||
vo m | VO -J |
vO P* | CN CM O co tn ο |
CM CN |
N
CM |
|||||||||||||
m cn | O | <r ν κ | cn co | |||||||||||||||
-I | m m cn | cn η | ||||||||||||||||
1/1 | u α ω | UJSS5O | η. | VU M H | ||||||||||||||
cn | et ^ m | •0 | ||||||||||||||||
CN | ||||||||||||||||||
CN | ||||||||||||||||||
cr> vo
O *i |
||||||||||||||||||
η | %r, ο | |||||||||||||||||
cn
m |
m m | H | ||||||||||||||||
C* O \O
ο α -τ |
||||||||||||||||||
m m m | ||||||||||||||||||
SM*, | η | |||||||||||||||||
co cn O | I | |||||||||||||||||
709884/0617
jORIGIMAL INSPECTED
MN
PQ
2 CO
it ζ
27 i 2300 -8 t 25 c 30 al. |
-J
O |
3377 | 26 | 2186 | 2186 | 2955 |
3252
2397 |
2278 | 25S2 | 2192 | 3252 | 3126 | 2432. |
2954
2SS3 2397 |
3250 | 3377 | TOO? |
3; e
3i f |
(O
go |
2432 | 2268 | 33."7 | 2660 | 2364 | 2904 | 25 | |||||||||
33 g
34 h 25 i 3126 |
CO Bk- |
2462 | 3126 | 2335 | 2664 | ||||||||||||
36 3
37 k 38 1 39 D 40 α 3250 |
90/r | 2335 | 2955 | 2417 |
2270
2535 |
2326 | 2358 | ||||||||||
41 ο
42 ρ 43 4 |
2293 | 3250 | 2313 | (Der Wert | 2494 | 2462 | 2506 | 36 | 33 | ||||||||
44 r
45 s |
2996 | 2079 |
3260
2836 |
2S?6 | 2494 | ||||||||||||
46 t
47 u 48 ν 49 w 50 χ |
2836 | 2996 | 2396 | ||||||||||||||
51 y
52 ζ |
2532 | ||||||||||||||||
50Q0 | |||||||||||||||||
ist in dieser Tabelle jeder Leerstelle zugeordnet) | |||||||||||||||||
TABELLE III | |||||||||||||||||
2221
155
■I«...
■ζ. ω
τι
2 | K | 2870 |
ι | R | |
3 | ||
* | D | |
5 | ε | |
6 | F | |
7 | C | 2347 |
3 | U | |
9 | I | 3958 |
10 | J | |
11 | K | |
12 | L | 2323 |
13 | M | |
14 | N | |
15 | O | 39S9 |
16 | r | |
17 | Q | |
18 | R | 24 |
19 | 3OS7 | |
20 | T | |
21 | U | 2697 |
22 | V | |
23 | U | |
24 | X | |
25 | Y | |
OO
β»
V | W | X | T | Z | a | b | C | d | e | f | S | h | 1 | J | k | 1 |
3602
3252 |
4082
3495 |
4046 |
2500
4027 |
2553
3092 |
2367 |
3478
2951 3495 2558 |
3252
3495 3268 4027 |
4081
4027 |
3252 | 4081 | ||||||
3509 | 3509 | 3700 | 3700 | 3201 | 3201 | 2932- | 3201 | 2261 |
3509
1443 |
3700
2045 |
2900
1594 |
|||||
3721 |
3237
3125 3092 35S6 |
3237
3721 4000 |
3415 | 3393 |
3731
3192 |
3843 |
3252
3996 |
3114
3252 3693 3843 |
3S43 |
2008
3959 3431 3843 |
2358
3731 3693 |
|||||
3357 | 3959 |
3347
3357 |
3347
3959 |
3000
3947 |
3932 |
3947
3932 |
3468 |
3343
3932 2793 |
2S33
3932 |
3947
2421 |
||||||
22
2024 |
2336
2336 40 |
2S86
79 |
2609
3000 20 |
3187 |
2788
3170 |
3487 |
4027
2686 3693 3843
3646 3836
(Der Wert 5000 ist in dieser Tabelle jeder Leerst-e 11«=» zugeordnet)
TABULLS IV
NJ CT)
cn
U | V | W | X | Y | Z 22 |
B 25 2191 |
b 36 |
C 26 |
2397 40 |
3032 | 27E0 | ||||||||
2335 | |||||||||
2822 | 3126 | ||||||||
2326 | 3620 | 3263 | |||||||
3336 | |||||||||
2S57 | 2857 | ||||||||
2955 | 3260 | 2536 | |||||||
SO | 2506 32 2234 |
43 | 37 | 2494 | 2508 | 2996 2508 |
|||
1736 | 1435 | 1805 | 43 |
85
y | h 1708 |
i 3084 |
j | k | 1 |
3377 | 3377 | ||||
73 | 15 | 2435 38 1564 |
600 | 21 | 1443 55 |
3336 | 2734 | ||||
1000 2839 |
3260 | ||||
2508 | 2996 1810 |
||||
ψ | 2494 | ||||
3000 |
46 2861
3158
1967
(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)
.TABELLE V
1 | A | 4031 | |
2 | B | ||
3 | C | ||
4 | D | 2722 | |
5 | E | ||
6 | F | ||
7 | e | ||
8 | Ii | 350!i | |
9 | I | ||
10 | J | ||
—I | |||
O | 11 | K | 3237 |
co | 12 | 1. | |
00 | 13 14 |
M N |
2652 |
00» | 15 | 0 | 2688 |
.p- | |||
X^ | 16 | P | |
O | 17 | Q | |
cn | IS 19 |
R S |
2867 |
-4' | 20 | T | |
21 | Ü | ||
22 | V | ||
23 | «1 | ||
24 | X | ||
25 | Y |
0 | P | q | r | S | C | U | V | V | X | y |
3495 3550 |
3509 3Λ25 |
|||||||||
2455 | ||||||||||
3215 | 3509 | 3046 | ||||||||
3482 3731 |
3458 3640 |
3731 | ||||||||
3843 | 3843 | |||||||||
794 | 3343 2448 |
3646 | ||||||||
2992 | 2475 | 3S36 | ||||||||
3084 3487 |
||||||||||
25G9 |
2155 1370 1S30 1519 1752
1700 1C.76 2156 1S18 1587
2328 1944 1842 2678 1668
2149 1367 2114 1S77 2137
2042 2S53 2421 1788 2237
C | e |
2064 | 3155 |
2137 | 3155 |
2432 | 3155 |
2009 | 3097 |
2958 | 3155 |
1S24 | 3155 |
2456 | 3155 |
1/86 | 3155 |
2237 | 1013 |
1936 | 2543 |
1826 | 3155 |
2638 | 2432 |
1212 | 3155 |
1550 | 3522 |
1827 | 3155 |
2538 | 3155 |
1668 | 3155 |
1687 | 3522 |
3523 | 3155 |
1830 | 3222 |
1632 | 2886 |
1564 | 3155 |
1226 | 3155 |
1U34 | 3155 |
1733 | 3155 |
(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)
4000 4C00 4000 4000 4000
4000
-:oo
4000 1936 4000
4000 3301 4000 4000 4000
4000 4000 4000 4000 4000
4000 4000 4000 4000 4000
<X>
CT -P--CO
cn
26 | Z | 3034 | |
27 | a | ||
28 | b | ||
29 | C | 2668 | |
30 | d | ||
31 | e | ||
32 | f | ||
33 | g | 2435 | |
34 | h | ||
35 | 1 | ||
36 | J | ||
37 | k | ||
38 | 1 | 1550 | |
39 | α | 21 | |
O | 40 | η | |
co | 41 | ο | |
00 | 42 | P | |
ο» | 43 | q | |
■Ρ1»- | 44 | Γ | |
45 | S | ||
O | 46 | t | |
47 | U | ||
48 | V | 2535 | |
■sä | 49 | W | |
50 | X | ||
51 | y | ||
52 | Z | ||
ο | P | q | r | S | t | U | 50 | V | 32 | W | A3 | X | 37 | y | Z | t | 43 | (*) | 1442 | e |
1442 | 1420 | 3155 | ||||||||||||||||||
3384 | 1523 | 2402 | 3155 | |||||||||||||||||
1407 | 1552 | 3155 | ||||||||||||||||||
2323 - | 2536 | 3155 | ||||||||||||||||||
1209 | 3046 | 3155 | ||||||||||||||||||
16 78 | 1209 | 3155 | ||||||||||||||||||
1S70 | 1695 | 2000 | 3155 | |||||||||||||||||
2334 | 958 | 1794 | 3155 | |||||||||||||||||
2000 | 2087 | 3155 | ||||||||||||||||||
1637 | 1000 | 3155 | ||||||||||||||||||
300 | 2222 | 3155 | ||||||||||||||||||
1549 | 1658 | 3155 | ||||||||||||||||||
1522 | 1925 | 2S86 | ||||||||||||||||||
1448 | 1760 | 3155 | ||||||||||||||||||
2861 | 2009 | 1706 | 3155 | |||||||||||||||||
36 | 1864 | 1103 | 3155 | |||||||||||||||||
25 | 1522 | 1000 | 3155 | |||||||||||||||||
156 | 1000 | 1765 | 3155 | |||||||||||||||||
22 | 3260 | 1939 | 2301 | 3155 | ||||||||||||||||
33 | 1524 | 2143 | 3155 | |||||||||||||||||
2996 | 24 | 1662 | 1736 | 3155 | ||||||||||||||||
1428 | 1425 | 3155 | ||||||||||||||||||
2155 | 1208 | 3155 | ||||||||||||||||||
2535 | 2276 | 1322 | 3155 | |||||||||||||||||
1830 | 1715 | 3155 | ||||||||||||||||||
2583 | 38 | 2023 | 1639 | 3155 | ||||||||||||||||
1639 | 3155 | |||||||||||||||||||
(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)
4000 4000 4000 4000 4000
4000 4000 4000 2388 2794
4C0O 4000 1836 4 000 4000
4000 4000 4000 4000 4000
4C00 AOOO 4000 400O
4000
4000 400O
-57-Leerseite
Claims (9)
1. Speicherung der für jeden Buchstaben gültigen Wahrscheinlichkeitswerte
seiner Groß- bzw. Kleinschreibweise, in einem Speicher unter einer Adresse, die
dem elektrischen Kodesignal des jeweiligen Buchstabens entspricht,
2. Adressieren des Speichers mittels der elektrischen Kodesignale und Auslesen der oben genannten Wahrscheinlichkeitswerte
für die vom Zeichenleser angelieferten, den Buchstaben entsprechenden kodierten elektrischen Signale,
3. Ermitteln von zwischen benachbarten Buchstaben angebrachten Leerstellen, die von dem Zeichenleser zum
Zwecke der Gruppierung der Reihe kodierter elektrischer Signale in ein Buchstabenfeld zwischen aufeinanderfolgenden
Leerstellen ausgegeben wurden,
4. Addieren der Wahrscheinlichkeitswerte der Buchstaben aus dem Buchstabenfeld und
5. Ermitteln der Polarität der algebraischen Summe der Wahrscheinlichkeitswerte der Schreibweise
zur Bestimmung der Schreibweise der Buchstaben in dem abgetasteten Feld als Groß- oder Kleinbuchstaben.
WA 9 74 006
709884/06T7
ORIGINAL INSPECTED
- äff h
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
im ersten Schritt die Wahrscheinlichkeitswerte der
Schreibweise Ρττ(α ) und Ρτ (α ) für die Buchstaben gemäß
υ η L· η
folgenden Gleichungen gespeichert werden:
26 Pn(On) = Σ Ρο[αη|ϋ(χ)] · P[UU)] und
LJ Il · .^ Ί O Il
26 W = I Pc[anlL(i)1 "
worin Pn(α ) den Wahrscheinlichkeitswert angibt, mit dem
das vom Zeichenleser erkannte Zeichen (α ) von der Abtastung eines Großbuchstabens herrührt, P^ (o ) den Wahrscheinlichkeitswert
angibt, daß das vom Zeichenleser erkannte Zeichen (α ) von der Abtastung eines Kleinbuchstabens
herrührt, U(i) der i-te von 26 Großbuchstaben, L(i) der i-te von 26 alphabetischen Kleinbuchstaben,
P [α |u(i)] die Verwechselungswahrscheinlichkeit von U(i) als α gelesen zu werden, P[U(i)] die Wahrscheinlichkeit
von U(i), mit der dieser Buchstabe auf dem abgetasteten Element in Abhängigkeit von der verwendeten
Sprache auftritt, P [α iL(i)] die Verwechselungswahr-
c η
scheinlichkeit mit der L(i) als α gelesen wird und
P[L(I)] die Wahrscheinlichkeit, mit der L(i) auf dem Dokument in Abhängigkeit von der verwendeten Sprache
auftritt, sind.
974 006 703884/0617
3. Verfahren nach Anspruch 2 und/oder 3, gekennzeichnet | durch die zusätzlichen Schritte a) des Speicherns eines j
abgetasteten Buchstabenfeldes in einem Pufferspeicher, i der mit der Ausgangsleitung des Zeichenlesers verbunden ;
.ist und b) des Versehens des Buchstabenfeldes im Puffer j
mit einer Kennzeichnung als Groß- oder Kleinbuchstaben in Abhängigkeit von der Polarität der algebraischen
Summe der Wahrscheinlichkeitswerte der Schreibweise.
WA 974 006
709884/0617
4. Verfahren zur Unterscheidung von in Feldern angeordneten j
Groß- und Kleinbuchstaben, die von einem Zeichenleser 1 als Reihe kodierter elektrischer Signale ausgegeben |
werden, gekennzeichnet durch folgende Verfahrensschritte:
1. Speichern des Wahrscheinlichkeitswertes, mit dem
ein Buchstabe als Großbuchstabe geschrieben wird in einem ersten Speicher mit einer Adresse, die
seinem kodierten elektrischen Signal entspricht,
2. Speicherung des Wahrscheinlichkeitswertes eines
jeden Buchstabens, mit dem dieser als Kleinbuchstabe .
geschrieben wird in einem zweiten Speicher unter der Adresse seines kodierten elektrischen Signals,
3. Adressierung des ersten und zweiten Speichers mit den kodierten elektrischen Signalen der Buchstaben
in der Sequenz dieses Auftretens in dem Buchstaben- ι feld und Auslesen der jeweiligen Wahrscheinlichkeitswerte
der Groß- und Kleinbuchstaben, j
4. Feststellen von Leerstellen zwischen benachbarten Buchstaben in dem Buchstabenstrom, der von dem
Zeichenleser ausgegeben wird und das Feld zwischen zwei benachbarten Leerstellen begrenzt,
5. Addieren der Wahrscheinlichkeitswerte der Großbuchstaben, die von dem ersten Speicher ausgegeben
werden,
6. Addieren der Wahrscheinlichkeitswerte der Kleinbuchstaben,
die vom zweiten Speicher ausgegeben werden,
7. Invertieren einer der nach Schritt 5 oder 6 errechneten Summe der Wahrscheinlichkeitswerte,
8. Vergleich der anderen Summe der Wahrscheinlichkeitswerte mit der invertierten Summe, wobei ein Plus-Zeichen
für die Großbuchstaben-Schreibweise und ein Minus-Zeichen für die Kleinbuchstaben-Schreibweise
der Buchstaben in einem Buchstabenfeld gebildet wird und
9. Kennzeichnung des Buchstabenfeldes entsprechend
des abgeleiteten Vorzeichens.
974 006 709884/0617
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/643,976 US4003025A (en) | 1975-12-24 | 1975-12-24 | Alphabetic character word upper/lower case print convention apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2654815A1 true DE2654815A1 (de) | 1978-01-26 |
Family
ID=24582922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19762654815 Ceased DE2654815A1 (de) | 1975-12-24 | 1976-12-03 | Verfahren zur unterscheidung von gross- und kleinbuchstaben |
Country Status (7)
Country | Link |
---|---|
US (1) | US4003025A (de) |
JP (1) | JPS5280743A (de) |
CA (1) | CA1066418A (de) |
DE (1) | DE2654815A1 (de) |
FR (1) | FR2336743A1 (de) |
GB (1) | GB1559884A (de) |
IT (1) | IT1072633B (de) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4377803A (en) * | 1980-07-02 | 1983-03-22 | International Business Machines Corporation | Algorithm for the segmentation of printed fixed pitch documents |
JPS5854433B2 (ja) * | 1980-09-11 | 1983-12-05 | 日本電気株式会社 | 相違度検出装置 |
JPS5837779A (ja) * | 1981-08-31 | 1983-03-05 | Ricoh Co Ltd | 文書処理装置 |
JPS6037326U (ja) * | 1983-08-24 | 1985-03-14 | ユニゾン株式会社 | 遠赤外線併用サウナ風呂 |
US5261009A (en) * | 1985-10-15 | 1993-11-09 | Palantir Corporation | Means for resolving ambiguities in text passed upon character context |
US5133023A (en) * | 1985-10-15 | 1992-07-21 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US4754489A (en) * | 1985-10-15 | 1988-06-28 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US5119441A (en) * | 1989-03-28 | 1992-06-02 | Ricoh Company, Ltd. | Optical character recognition apparatus and method using masks operation |
US5228133A (en) * | 1990-10-01 | 1993-07-13 | Carl Oppedahl | Method to perform text search in application programs in computer by selecting a character and scanning the text string to/from the selected character offset position |
US5544257A (en) * | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US8938688B2 (en) | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
TW200538969A (en) * | 2004-02-11 | 2005-12-01 | America Online Inc | Handwriting and voice input with automatic correction |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US20060090126A1 (en) * | 2004-10-26 | 2006-04-27 | International Business Machines Corporation | Method, system, and storage medium for providing instant text character identification |
US20090144162A1 (en) * | 2007-11-29 | 2009-06-04 | Neil Milne | Transaction Security Method and Apparatus |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3634822A (en) * | 1969-01-15 | 1972-01-11 | Ibm | Method and apparatus for style and specimen identification |
US3651459A (en) * | 1970-05-15 | 1972-03-21 | Philco Ford Corp | Character distance coding |
-
1975
- 1975-12-24 US US05/643,976 patent/US4003025A/en not_active Expired - Lifetime
-
1976
- 1976-11-24 FR FR7636143A patent/FR2336743A1/fr active Granted
- 1976-12-02 JP JP51144075A patent/JPS5280743A/ja active Granted
- 1976-12-03 DE DE19762654815 patent/DE2654815A1/de not_active Ceased
- 1976-12-03 IT IT30071/76A patent/IT1072633B/it active
- 1976-12-10 GB GB51622/76A patent/GB1559884A/en not_active Expired
- 1976-12-23 CA CA268,693A patent/CA1066418A/en not_active Expired
Also Published As
Publication number | Publication date |
---|---|
FR2336743A1 (fr) | 1977-07-22 |
IT1072633B (it) | 1985-04-10 |
JPS5280743A (en) | 1977-07-06 |
CA1066418A (en) | 1979-11-13 |
US4003025A (en) | 1977-01-11 |
JPS5713029B2 (de) | 1982-03-15 |
GB1559884A (en) | 1980-01-30 |
FR2336743B1 (de) | 1980-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10342594B4 (de) | Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten | |
DE2541204C3 (de) | Einrichtung zur Fehlerkorrektur | |
DE2654815A1 (de) | Verfahren zur unterscheidung von gross- und kleinbuchstaben | |
DE19547812C2 (de) | Lesegerät für Schriftzeichenketten | |
DE3851867T2 (de) | Zeichenerkennungsgerät. | |
DE69428590T2 (de) | Auf kombiniertem lexikon und zeichenreihenwahrscheinlichkeit basierte handschrifterkennung | |
DE69515461T2 (de) | Simplifiziertes strichkodedekodierverfahren | |
DE68922870T2 (de) | Textverarbeitungseinrichtung für europäische Sprachen mit Rechtschreibungs-Korrekturfunktion. | |
DE2946857A1 (de) | Wortspeichergeraet | |
DE2640537A1 (de) | Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen | |
DE2755875C2 (de) | ||
DE2915673A1 (de) | Textbearbeitungseinrichtung mit einer anzeigeeinrichtung | |
DE2435889B2 (de) | Verfahren und einrichtung zur unterscheidung von zeichengruppen | |
DE2513566A1 (de) | Binaere referenzmatrix | |
DE2630430A1 (de) | Einrichtung zum automatischen setzen von binde- bzw. trennungsstrichen | |
DE102018115158A1 (de) | NC-Programm-Umwandlungseinrichtung | |
DE3246631C2 (de) | Zeichenerkennungsvorrichtung | |
DE3026055C2 (de) | Schaltungsanordnung zur maschinellen Zeichererkennung | |
DE1474163A1 (de) | Anordnung zur Fehlerermittlung mit Korrektureinrichtung fuer Schriftzeichenlesegeraete u.dgl. | |
DE1197656B (de) | Verfahren zur maschinellen Zeichenerkennung | |
DE1221042B (de) | Verfahren und Anordnung zum Erkennen von Zeichenkombinationen | |
DE2460757C2 (de) | Einrichtung zur Auswahl der richtigen Form eines bei der maschinellen Zeichenerkennung verstümmtelten Wortes | |
DE69331035T2 (de) | Zeichenerkennungssystem | |
DE69229095T2 (de) | Elektronisches Wörterbuch mit einer Zeiger- und Wortkorrektionsdatei | |
DE3407831C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAP | Request for examination filed | ||
OD | Request for examination | ||
8131 | Rejection | ||
8180 | Miscellaneous part 1 |
Free format text: WIEDEREINSETZUNG IN DEN VORHERGEHENDEN STAND |
|
8131 | Rejection |