DE2654815A1

DE2654815A1 - Verfahren zur unterscheidung von gross- und kleinbuchstaben

Info

Publication number: DE2654815A1
Application number: DE19762654815
Authority: DE
Inventors: John Joseph Hilliard; Philip Joseph Mullan; Walter Steven Rosenbaum
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1975-12-24
Filing date: 1976-12-03
Publication date: 1978-01-26
Also published as: FR2336743A1; IT1072633B; JPS5280743A; CA1066418A; US4003025A; JPS5713029B2; GB1559884A; FR2336743B1

Description

Aktenzeichen der Anmelderin: WA 974 006

Verfahren zur Unterscheidung von Groß- und Kleinbuchstaben

Die Erfindung betrifft Verfahren zur Unterscheidung von in Feldern angeordneten Groß- und Kleinbuchstaben, die von einem Zeichen- \ leser als Reihe kodierter elektrischer Signale ausgegeben werden.

Die Unterscheidung, ob in einem Textfeld, das von einem optischen Zeichenleser abgetastet wurde. Groß- und/oder Kleinbuchstaben verwendet wurden, erfordert einen Entscheidungsprozeß, dessen Durchführung Gegenstand der vorliegenden Erfindung ist.

Die meisten alphabetischen Zeichen (Buchstaben) verfügen über sich stark voneinander unterscheidende Neigungen, von einem Zeichenleser falsch gelesen zu werden, basierend auf der Schreibweise, d. h., ob sie in Groß- oder Kleinbuchstaben auf einem Dokument enthalten sind. Dieses wird deutlich bei der Prüfung der signifikanten unterschiedlichen Geometrie der meisten Groß- und Kleinbuchstaben: "A, a", "E, e", "G, g" usw. Es hat sich in diesem Zusammenhang herausgestellt, daß die gesamte Nachverarbeitung von Zeichenleser hinsichtlich der Fehlerkorrekturfunktion dadurch verbessert wird, daß ein Vorverarbeitungsschritt eingeführt wird, der die Funktion hat, zu bestimmen, ob ein Wort auf einem von dem Zeichenleser abgetasteten Dokument in Groß- und/ oder Kleinbuchstaben geschrieben ist. Dieser Vorverarbeitungsschritt verbessert die Genauigkeit und Zuverlässigkeit der Gesamtfehlerkorrekturfunktion der Nachverarbeitung bei Zeichenlesern.

709884/Ό617

So bezieht sich die Anwendung des Verfahrens auf die Vorverarbeitung für eine Fehlerkorrektureinrichtung, die in der US-PS 3 969 700 beschrieben ist. Diese Einrichtung wählt die korrekte Form eines von einem Zeichenleser verstümmelt ausgegebenen Wortes aus, indem es die Zahl der Buchstaben des Wortes durch Zusammenziehung zweier Zeichen zu einem Buchstaben oder Spaltung eines Buchstabens in zwei Zeichen, verändert. Hierzu ist in der Einrichtung ein Verzeichnis gültiger Wörter gespeichert. Die weitgehend verschiedenen Neigungen der Buchstaben auch hinsichtlich ihrer Verwechslungsfähigkeit hängen davon ab, ob ein gegebener Buchstabe als Groß- oder Kleinbuchstabe geschrieben ist.

Die Aufgabe der Erfindung ist daher ein Verfahren, das eine Be-

!Stimmung ermöglicht, ob ein Buchstabe in einem alphabetischen I
Zeichenfeld (z. B. in einem Wort), das von einem Zeichenleser

ausgegeben wird, sich auf Groß- und/oder Kleinbuchstaben bezieht.

Gelöst wird diese Aufgabe der Erfindung durch die im Hauptanspruch angegebenen Merkmale.

Vorteilhafte Merkmale, Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entneh-

! men.

Die Lösung der Erfindung trägt somit dazu bei, die Sicherheit

der Erkennung von Zeichenlesern weiter zu verbessern. i

i j

j . j

i Im folgenden werden Ausführungsbeispiele der Erfindung anhand ;

[ der beiliegenden Figuren näher erläutert.

^l7A974 °⁰⁶ 709884/0617

Es zeigen:

Fig. 1 das Blockschaltbild einer Einrichtung zur Unterscheidung von Groß-yKleinbuchstaben;

Fig. 2 ein ausführlicheres Blockschaltbild der Einrichtung nach Fig. 1,"in der ein Speicherpaar vorgesehen ist, in dem die statistischen Werte der Häufigkeit des Auftretens der Zeichen gespeichert ist;

Fig. 3 ein ausführlicheres Blockschaltbild einer

Einrichtung nach Fig. 1, in der in einem Festwertspeicher die statistischen Werte der Häufigkeit des Auftretens der Zeichen gespeichert sind und

Fig. 4 eine schematische Darstellung des Operationsablaufs in der Einrichtung nach Fig. 3.

Der Schreib- oder Druckkonventionsindex (PCI), der in dem vorliegenden Verfahren realisiert wird, ist die Formulierung einer Entscheidungsfunktion, die das Ziel hat, auch Wörter für Anwendungen der optischen Zeichenerkennung (OCR) zuzulassen, die aus Groß- oder Kleinbuchstaben bestehen. Für generelle Anwendungen der optischen Zeichenerkennung (OCR), wie beispielsweise das Lesen der Bestimmungsorte von Postsendungen oder die Textverarbeitung, müssen die drei folgenden Schreibkonventionen der PCI-Operation berücksichtigt werden:

(1) Alle Zeichen eines Wortes gehören zur Schreibkonvention für Großbuchstaben (Großbuchstaben-Schreibweise),

WA 974 006

/0617

■ (2) Alle Zeichen eines Wortes sind Kleinbuchstaben und ■

I (3) Alle Zeichen eines Wortes sind Kleinbuchstaben, mit | Ausnahme des ersten Buchstaben eines Wortes, der ! ein Großbuchstabe ist. ;

Die Unterscheidung zwischen diesen drei Schreibkonventionen [

ist deshalb nicht trivial, weil die Falschlesungen eines opti- ;

sehen Zeichenlesers (einschließlich Konflikten und Rückwei- I

sungen) dazu neigen, Groß- und Kleinbuchstaben-Schreibverein- j

j barungen ebenso zu stören, wie die Buchstabenidentifizierung. ;

' Zeichenleserkonflikte und Rückweisungen enthalten normaler- !

: weise keine Schreibkonventionsschlußfolgerungen hinsichtlich ι

< der abgetasteten Zeichen.

Die Groß-/Kleinbuchstabenentscheidung wird auf einer "pro ! Feldbasis" (d. h. auf Wortbasis) vorgenommen, indem die in Gleichung (1) genannte PCI-Formulierung verwendet wird:

; k-1 k-1

PCI = Σ log P_n (a) - Σ log P_T <a_) (1) ; n=1 ^{U n} n=1 ^u ⁿ

iworin k die Zahl der Buchstaben in dem Feld angeben, α der ! Buchstabe ist, der in der η-ten Stelle des Feldes festgestellt wurde und η ein Indexwert der Stelle ist, der im Feld von rechts nach links inkrementiert wird (n = 1 ist die letzte, ■ am weitesten rechts liegende Buchstabenstelle des Feldes). J Daher ist beispielsweise im Feld der Buchstaben "Smith", k = 5. j Die Zeichen S und h geben die Links-nach-rechts-Richtung der j Zeichen an und η = 1 ist dem Zeichen h zugeordnet.

Großbuchstabenschreibweise liegt vor, wenn der PCI-Wert in Gleichung (1) größer als null ist; eine Kleinbuchstabenschreibweise liegt vor, wenn der PCI-Wert gleich oder kleiner als null ist. Die Zuordnung des Plus- und Minuszeichens bezüglich der Betriebsweise der Einrichtung, sind willkürlich gewählt.

WA 974 006 7Ö9^Ö8W0617

Der Ausdruck "Ρ_7Τ(α )" in der Gleichung (1) ist für die Nähr-

υ η ι

scheinlichkeit repräsentativ, mit der die Zeichenlesererkennung j

"α " von der Abtastung eines Großbuchstabens resultiert. Daher i η ³ ι

gibt der Ausdruck "Ρ_τ(α_)" in Gleichung (1) die Wahrscheinlich- !

Xj η i

keit an, mit der die Zeichenlesererkennung "α " von der Abtastung
eines Kleinbuchstabens resultiert. Der vollständige Satz aller j

α deckt alle Groß- und Kleinbuchstaben ab und kann sowohl Er- ι

kennungskonfliktrückwexsungen als auch den gerellen Buchstaben- j

rückweisungskode enthalten.

Die Werte der Ausdrücke "P_rT(a )" und "Ρ_τ (α„)" sind für die I

υ η L· η

Lösung der Gleichung (1) in logarithnvischer Form gespeichert, j nachdem sie mit Hilfe der Formeln in den Gleichungen (2) und (3)
vorverarbeitet wurden:

•26
P₀(CX_n) = Σ P_c[a_n|ü(i)] · P[U(I)] (2)

26
P (α ) = Σ P₀La(L(X)] · P[L(i)l (3)

wobei U(i) der i-te von 1 bis 26 Großbuchstaben und L(i) der i-te
von 1 bis 26 Kleinbuchstaben ist. "P-Ia₁,|U(i) ]" ist die Verwech-

C XL

Seiwahrscheinlichkeit, daß ü(i) als α gelesen wird. "P[U(i)]^!l
ist die Wahrscheinlichkeit, mit der ü(i) in dem abgetasteten
Dokument auftritt, und zwar in Abhängigkeit von der Sprache
(z. B. Englisch), der das Wort auf dem Dokument angehört.
"¹P [a Il(i)]" ist die Verwechslungswahrscheinlichkeit, mit der
L(i) als a_n gelesen wird. "P[LU)]" ist die Wahrscheinlichkeit,
mit der L(i) in Abhängigkeit von der Sprache, der das abgetastete Wort auf dem Dokument angehört, auftritt.

Tabelle I zeigt die Häufigkeit des Auftretens der Buchstaben
in der englischen Sprache, die beispielsweise für den Buch-

^WÄ974006 709884/0617

stäben A 7,81% beträgt. Für M ist die Häufigkeit 2,62%, für T 9,02% usw. bis zum Zeichen Z, das eine Häui gkeit des Auftretens von 0,09% hat. Die Häufigkeit, mit der Groß- und Kleinbuchstaben auftreten (P[U(i)]/P[L(i)]) wird abgeleitet, indem ein 2O/8O-Verhältnis für Textdokumente auf die Häufigkextsdaten in der Tabelle I angewendet wird. Daher ist der relative Wert von P[U(i)] für einen Großbuchstaben in einem Textdokument 20% des Häufigkeitswertes, der in Tabelle I angegeben ist. Für den Wert P[L(i)] für Kleinbuchstaben eines Textdokumentes ist er hingegen 80% des Wertes in der Tabelle I. Andererseits sind die Werte für P[U(I)] und P[L(i)] jeweils 70% und 30% des in Tabelle I angegebenen Wertes jeweils für einen gegebenen Groß- oder Klein- ! buchstaben, wenn das Dokument, das von dem Zeichenleser gelesen iwird, von postalischen Anwendungen stammt, in denen Bestimmungsj orte gelesen werden müssen. Die gewählten Verhältnisse sind im wesentlichen beliebig, was die exakten Werte betrifft; sie sind empirisch vom Standpunkt des durch Erfahrung gewonnenen Wissens, daß nämlich die Majorität der Buchstaben in postalischen Anschriften Großbuchstaben sind, wohingegen die Majorität der Buchstaben von Textdokumenten der Kleinbuchstaben-Schreibweise angehört.

WA 974 006

70988A/0617

TABELLE I

A/a = 7,81% Ν/η = 7,27%

B/b = 1,28% Ο/ο = 8,21%

C/c = 2,93% Ρ/ρ = 2,15%

D/d = 4,11% Q/q = 0,14%

E/e = 13,05% R/r = 6,64%

F/f = 2,88% S/s = 6,46%

G/g = 1,39% T/t = 9,02%

H/h = 5,85% U/u = 2,77%

I/i = 6,77% V/v = 1,00%

J/j = 0,23% W/w = 1,49%

K/k * 0,42% X/x = 0,30%

L/l = 3,60% Y/y = 1,51%

M/m = 2,62% Z/z = 0,09%

Tabelle I. Häufigkeit des Auftretens der Buchstaben in der englischen Sprache

In den Tabellen II bis VII am Ende der Beschreibung sind die Daten auf der Y-Achse für die Groß- und Kleinbuchstaben repräsentativ, die auf dem vom Zeichenleser abgetasteten Dokument aufgeschrieben oder aufgedruckt sind, wohingegen die Buchstaben auf der X-Achse ausgegebene Groß- und Kleinbuchstaben des Zeichenlesers sind. Darüber hinaus enthält die X-Achse drei Kategorien von Konflikterkennungen (Tabellen VT und VII), die von dem optischen Zeichenleser an seinem Ausgang mit den Zeichen "3", "?" und "#" bezeichnet sind. Diese Konflikterkennungen sind im einzelnen: >

(1) "i/l" — Die i- und 1-Erkennungsschaltungen des optischen Zeichenlesers sprechen beide an; wenn jedoch das Zeichen eher an ein kleines i als ein 1 erinnert, dann wird dieses durch das Zeichen "3" bezeichnet.

^WÄ974006 709884/0617

(2) "l/i" — Die 1- und i-Erkennungsschaltungen sprechen beide an; die Erkennung erinnert jedoch stärker an 1 als an i, dann wird dieses durch das Zeichen "?" zu Ende angegeben.

(3) "N/W" — Die Erkennung ist unbestimmt; sie wird jedoch charakterisiert durch ein Zeichen, die als streng diagonale Tendenz interpretiert werden kann. Dieses wird durch das Zeichen "#" angegeben.

Das Rückweisungszeichen "*" gibt an, daß die Erkennung nicht konklusiv und daher kein Buchstabe identifizierbar war. Wie die Tabellen II bis VII in Verbindung mit der Gleichung (1) zeigen, ist das PCI für einen von dem Zeichenleser als A ausgegebenen

!Buchstaben (A auf der X-Achse) die Differenz zwischen: (1) der ι
Summe der entsprechenden Dezimalwerte der Wahrscheinlichkeit in Spalte A jeweils multipliziert mit der Häufigkeit des Auftretens, angegeben in der Y-Achse in den Zeilen A bis Z und (2) der Summe der Dezimalwerte der Wahrscheinlichkeit in der Spalte A jeweils wieder multipliziert mit der Häufigkeit ihres Auftretens, angegeben in der Y-Achse, Zeilen a bis z. Wenn der auf diese !weise abgeleitete PCI-Wert größer als null ist, dann kann angenommen werden, daß der abgetastete Buchstabe ein Großbuchstabe ist. Ist der PCI-Wert dagegen null oder kleiner als null, dann kann davon ausgegangen werden, daß es sich um einen kleinen Buchstaben handelt. Wenn die laufende Summe des PCI-Wertes für mehrere Buchstaben (einschließlich Konflikte und Rückweisungen) in einem Wort ein Anzeichen dafür liefert, daß er in Großbuchstaben-Schreibweise geschrieben ist, dann wird das gesamte Wort als ein Wort in Großbuchstaben behandelt. Wenn andererseits die laufende Summe des PCI-Wertes für alle Zeichen in einem Wort dafür sprechen, daß es in Kleinbuchstaben-Schreibweise geschrieben ist, dann wird der am weitesten links im Wort stehende Buchstabe (das ist der erste Buchstabe in dem bereits erwähnten Feld)

974 006 709884/0617

unterschiedlich von den übrigen Buchstaben im Feld behandelt, die ihrerseits jedoch als Kleinbuchstaben weiter behandelt werden .

Fig. 1 zeigt nun einen optischen Zeichenleser (OCR) 10, der mit einem Diskriminator (VERB) 11 verbunden ist, der seinerseits im Detail in der US-PS 3 839 702 beschrieben ist. Der optische Zeichenleser 10 ist mit dem Diskriminator 11 über die beiden Ausgangsleitungen 12 und 13 verbunden, von denen die Ausgangsleitung 12 Buchstaben und die Ausgangsleitung 13 Ziffern überträgt. Zur Realisierung der Schaltungsanordnung ist es nicht unbedingt erforderlich, einen Diskriminator der genannten Art zu verwenden, da auch andere bekannte Diskriminatoren verwendbar sind. Die Ausgangssignale des in Fig. 1 verwendeten Diskriminators 11 geben eine Unterscheidung zwischen Buchstaben und Ziffern an, wie sie in der genannten US-Patentschrift angegeben ist. Die Unterscheidung ist so, daß elektrische Signale, die sich auf Reihen von Buchstaben beziehen, auf der Ausgangsleitung 14 erscheinen, während Signale, die sich auf Ziffernreihen beziehen, über die Ausgangsleitung 15 übertragen werden. Ein Register 16 dient als Pufferspeicher für die Buchstabenreihen eines Feldes. Gesteuert von der Steuerung 17 gibt das Register sequentiell Reihen von Buchstaben aus, um einen Wahrscheinlichkeitsspeicher 18 auf der Basis eines Buchstabens je Zeiteinheit zu adressieren. Der Speicher 18 enthält sowohl Bestandteile der Gleichung (1) für die Wahrscheinlichkeit des Auftretens sowohl von Groß- als auch von Kleinbuchstaben für jeden Buchstaben, der über den Diskriminator 11 vom optischen Zeichenleser 10*ausgegeben wird. Die effektiven Werte der Wahrscheinlichkeit, sowohl für Groß- als auch für Kleinbuchstaben für einen gegebenen Buchstaben werden ausgelesen, in das Register 19 übertragen und einem logarithmischen Addierer 21 zugeleitet, der funktionell die Summe der Wahrscheinlichkeit aller Großbuchstaben und der Wahrscheinlichkeit aller

974 006 709884/0617

■?«■

Kleinbuchstaben für die Buchstaben in einem gegebenen Feld gemäß Gleichung (1) errechnet. Die Summe dieser Wahrscheinlichkeiten ist für den PCI-FeId- oder Wortwert, der zuvor bereits erläutert wurde, bestimmend.

Das Tor·22 dient als Pufferspeicher für Ziffernfelder, die über die Leitung 15 und Buchstabenfelder, die über die Leitung 14 ausgegeben werden. Das Tor 22 liefert auch ein geeignetes Signal bezüglich der Zeichenposition" (Stelle des Buchstabens oder der Ziffer) und der Leerstellen in den alphanumerischen Feldern an die Steuerung 17. Der Addierer 21 gibt die Zwischensummen für die Groß- und Kleinbuchstaben-Schreibweise an den Vergleicher 23 aus, der die relativen Größen der Untersummen miteinander vergleicht, um den entsprechenden PCI-Wert zu bestimmen. Wenn, wie zuvor bereits erläutert wurde, der PCI-Wert größer als null ist, dann bewirkt das Signal auf der Leitung 24, daß den Buchstaben in dem Feld, das als eine Reihe von Buchstaben von dem Diskriminator 11 über die Leitung 14 über das Tor 22 zur Ausgangsleitung 25 übertragen wurde, ein Großbuchstabenkennzeichen beigegeben wird. Andererseits, wenn der PCI-Wert, der vom Vergleicher 23 ermittelt wurde, gleich null oder kleiner als null ist, dann bewirkt das Signal auf der Leitung 24, daß den Buchstaben des Feldes, die über das Tor 22 von der Leitung 14 zu der Leitung 25 übertragen werden, ein Kennzeichen beigegeben wird, das Kleinbuchstaben kennzeichnet. Es sei auch erwähnt, daß die Bezeichnungen "größer als" und "kleiner als" null für die Schreibkonvention beliebig gewählt werden können, da sie "Polaritäten" darstellen, die für Groß- und Kleinbuchstaben-Schreibweise Indikativ sind.

In Fig. 2 ist zu sehen, daß der optische Zeichenleser 31 wieder über zwei Ausgangsleitungen 33 und 34 verfügt, die ihn mit dem Diskriminator 32 verbinden. Der Diskriminator 32 hat ausgangssei tig zwei Ausgangsleitungen 35 und 36, die ihn mit einem

WA 974 006 . _m _

709884/0617

Pufferspeicher 37 verbinden. Wie zuvor bereits im Zusammenhang mit Fig. 1 erläutert wurde, dient eine Ausgangsleitung des Diskriminators zur übertragung von Zeichenfeldern oder Wörtern, die als numerisch gekennzeichnet sind (z. B. 35), während die andere Ausgangsleitung (z. B. Ausgangsleitung 36) dazu dient, Zeichenfelder zu übertragen, die als alphabetische Zeichen gekennzeichnet sind. Die Ausgangsleitung 33 des optischen Zeichenlesers 31 kann auch als Schaltungsvariante direkt mit der Leitung 35 verbunden werden, die dann als direkte Eingangsleitung des Pufferspeichers 37 benutzt wird, während die Ausgangsleitung 34 des optischen Zeichenlesers auch direkt mit der Leitung 36 verbunden werden kann, wodurch der Diskriminator 32 vom Datenfluß umgangen wird.

Die Ausgangssignale vom Pufferspeicher 37, die das Buchstabenfeld betreffen, erscheinen auf der Leitung 38 für eine Übertragung in das alphabetische Schieberegister 39 für die Buchstaben und in das Speicheradressenregister 41. Die Ausgangssignale des Pufferspeichers 37, die Ziffern betreffen, werden zu dem numerischen Schieberegister 42 über die Leitung 43 übertragen. Die Steuereinheit 44 leitet diesen Vorgang ein und hält die Ausgangsfolge der numerischen und alphabetischen Felder (Ziffern- und Buchstabenfelder) mit der Eingangsfolge der Zeichenfelder in die Vorrichtung identisch. Daher wird der Zeichenstrom, der aus dem Ziffernfeld abgeleitet wird, zeichenweise in das Register 42 und der Zeichenstrom des Buchstabenfeldes parallel in die Register 39 und 41, und zwar ebenfalls wieder zeichenweise, eingegeben. An die Eingangsstufe 45 des Registers 41 ist eine Leitung angeschlossen, die zu dem Leerstellendetektor 46 führt, um die Anwesenheit von Leerstellen in einem Feld oder Worttrennungszeichen festzustellen. Nach der Feststellung einer Leerstelle wird der Entscheidungsprozeß des vorliegenden Verfahrens von der Steuereinheit 44 eingeleitet.

WA 974 006

709884/0617

Die Feststellung einer Leerstelle in der Eingangszelle 45 des als Schieberegister ausgebildeten Registers 41 führt dazu, daß ein aus dem Buchstabenfeld abgeleiteter Zeichenstrom zeichenweise in dieses Register hineingeschoben wird. Gleichzeitig wird jedes Zeichen (Buchstabe) des Buchstabenfeldes sequentiell in ein Register 39 geladen. Die im Register 41 gespeicherten Buchstaben bilden die Adresse für die Großbuchstabenwahrscheinlichkeit "log P.(α )" für den Speicher 47 und für die Kleinbuchstabenwahrscheinlichkeit "log P_L(a_n)" für den Speicher 48. Die Tabellen der Auftretenswahrscheinlichkeit von Groß- und Kleinbuchstaben werden, wie zuvor bereits im Zusammenhang mit der Gleichung (1) erläutert wurde, gebildet. Diese Auftretenswahrscheinlichkeiten werden in den Speichern 47 und 48 gespeichert. Wie ebenfalls zuvor schon festgestellt wurde, erfolgt der Zugriff zu den Wahrscheinlichkeitswerten des Auftretens der genannten Buchstaben in den Speichern 47 und 48 von einem Buchstaben, der über die Leitung 49 vom Register 41 her übertragen wird.

Die Wahrscheinlichkeitswerte des Auftretens von Großbuchstaben "log P _T(cx )", die sequentiell im Ausgangsregister 51 zwischengespeichert werden, werden sequentiell von dem Addierer 52 addiert und zu den sequentiell immer auf dem neuesten Stand gehaltenen Werten von "log Pyic^)", die im Speicher 53 enthalten sind, addiert. Der Additionsvorgang wird in Kettenform solange fortgesetzt, bis die Summe der Wahrscheinlichkeitswerte des Auftretens der Großbuchstaben für das gesamte Buchstabenfeld, das im Register 41 gespeichert ist, gemäß Gleichung (1) errechnet ist. Das Ende eines Feldes wird dadurch festgestellt, daß das Vorhandensein einer das Feld beendigenden Leerstelle in der Eingangsstufe 45 des Registers 41 geprüft wird.

Gleichzeitig werden die Wahrscheinlichkeitswerte des Auftretens von Kleinbuchstaben "log ^p _L(a_n)" i™ Ausgangsregister 54 gespeichert und dann von dem Addierer 55 sequentiell zu dem sequentiell

WA 974 006

709884/0617

auf dem neuesten Stand gehaltenen Inhalt des Speichers 56 für die Werte "log ^p _L(^a _n)"» addiert. Dieser AdditionsVorgang wird ebenfalls in Kettenform solange fortgesetzt, bis die Summe der Wahrscheinlichkeitswerte des Auftretens von Kleinbuchstaben für das Buchstabenunterfeld, das im Register 41 gespeichert ist, gemäß Gleichung (1) errechnet ist.

Die Summe der Wahrscheinlichkeitswerte des Auftretens der Großbuchstaben für ein gegebenes Feld oder Wort, das im Speicher 53 gespeichert ist, wird zu dem Register 57 übertragen, wohingegen die Summe der Wahrscheinlichkeitswerte des. Auftretens von Kleinbuchstaben, die für ein gegebenes Feld im Speicher 56 gespeichert ist, zum Register 58 übertragen wird. Der Inhalt des Registers wird bezüglich des algebraischen Vorzeichens vom Inverter 59 inventiert und zu dem Inhalt des Registers 57 im Addierer-Vergleicher 561 hinzuaddiert. Das Ausgangssignal dieses Addierer-Vergleichers bestimmt den Index der Schreibkonvention (Schreibweise) . Wenn die Summe in 61 größer als null ist, dann gibt das Signal auf der Ausgangsleitung 62 an, daß das Buchstabenfeld Großbuchstaben enthält. Wenn aber die Summe innerhalb des Addierer-Vergleichers 61 kleiner als oder gleich null ist, dann führt seine Ausgangsleitung 6 3 ein Signal. Dieses gibt an, daß das Zeichenfeld oder Wort lauter Kleinbuchstaben enthält. Wie Fig. 2 zeigt, bilden die Leitungen 62 und 63 den Eingang zu dem Tastenumschaltungsidentifizierer 64, also dem Identifizierer für Groß- und Kleichbuchstaben, der auf ein Kommando von der Steuereinheit 44 entweder ein Großbuchstabenoder Kleinbuchstabenkennzeichen in Abhängigkeit davon erzeugt, welche der Leitungen 62 oder 63 ein Signal führt. Dieses Kennzeichen wird dem Buchstabenfeld im alphabetischen Schieberegister beigegeben. Auf ein Kommando von der Steuereinheit 44 wird der Inhalt des alphabetischen Schieberegisters 39 über die Leitung 65 zu dem Ausgangsregister 66 und von dort auf die Ausgangsleitung 67 zu der Einrichtung für die Schreibkonvention ausge-

WA 974 006

709984/0617

geben. Daher sei zusammenfassend festgestellt, daß das im alphabetischen Schieberegister 39 gespeicherte Buchstabenfeld in Abhängigkeit von der Signalführung auf den Leitungen 62 oder 63 entweder zusammen mit einem Großbuchstaben- oder einem Kleinbuchstabenkennzeichen ausgegeben wird. Das Zahlenfeld wird, wie zuvor bereits· erläutert wurde, vom numerischen Schieberegister 42 ausgegeben und über die Leitung 68 in das Ausgangsregister 66 übertragen. Die Einrichtung 69 zum Löschen wird von der Steuereinheit 44 gesteuert, sie stellt die Speicher 53 und 56 sowie den Addierer-Vergleicher 61 auf null zurück, wenn die Einrichtung ihre Operation hinsichtlich eines Feldes oder Wortes beendet hat und sie bereitet den Empfang anderer Zeichengruppen vor.

Wie Fig. 3 zeigt, ist der Ausgang des optischen Zeichenlesers (OCR) 71 mit dem beide Ausgangsleitungen verbindenden Diskriminator 72 verbunden, dessen Ausgänge jeweils über die Leitungen 74 und 75 mit dem Pufferspeicher 73 verbunden sind. Wie zuvor bereits im Zusammenhang mit Fig. 2 erläutert wurde, werden die vom Pufferspeicher 73 ausgegebenen Ziffern über die Leitung zu dem numerischen Schieberegister 76 übertragen, wohingegen die Buchstaben, die vom Pufferspeicher 73 ausgegeben werden, über die Leitung 95 in das alphabetische Schieberegister 77 sowie in das alphabetische Adressenregister 78 übertragen werden. Die Eingangsstufe 90 ist Teil des alphabetischen Adressenregisters 78.

Der Festwertspeicher 79 enthält die PCI-Werte (Schreibkonveni
tions-Indexwerte, vgl. Einleitung) für jeden Großbuchstaben und jeden Kleinbuchstaben, der über die Leitung 81 vom alphabetischen Adressenregister 78 ausgegeben wird. Ferner enthält der Festwertspeicher die PCI-Werte für Konflikte und Rückweisungen.

Die Zugriffsoperation und die Verwendung des Festwertspeichers sind in Fig. 4 dargestellt. Die Eingabe vom alphabetischen Ad-

WA 974 006

709884/06.17

ressenregister 78 (vgl. Fig. 3) ist mit dem Buchstabenfeld des Zeichenlesers 71 identisch, wobei jeder Buchstabe des Feldes in Form eines numerischen Kodes dargestellt ist. Dieser numerische Kode wird jedem Buchstaben durch seine Position in einem vorher definierten Alphabet zugeteilt, beispielsweise beginnend mit dem Großbuchstaben A = 1 kontinuierlich bis zum Kleinbuchstaben ζ = 52. Es handelt sich hierbei also um eine durchlaufende Numerierung, zuerst für die Großbuchstaben und sofort anschließend für die Kleinbuchstaben von A bis z. Zusätzliche Sonderzeichen können in ähnlicher Weise durch einen höherwertigen numerischen Kode, also durch Zahlen, die größer als 52 sind, dargestellt werden. Dieser Kode wird zur Vereinfachung der Rechnung für die gesamte Nachverarbeitung der Ergebnisse des optischen Zeichenlesens verwendet.

Das in Fig. 4 dargestellte Ausführungsbeispiel zeigt ein alphabetisches Wort oder Feld "MAIm", das von dem optischen Zeichenleser 71 gelesen wurde. Dieses bewirkt eine Speicherung in dem alphabetischen Adressenregister 78 in der Reihenfolge 1, 9, 39 für die Zeichen A, I, m. Gemäß Gleichung (1) ist der erste Buchstabe eines Wortes oder Feldes für die Berechnung des PCI-Wertes ausgenommen. Der Festwertspeicher 79 ist in 52 oder mehr sequentielle Stellen längs einer Dimension unterteilt. In jeder solcher Speicherstelle befindet sich ein Wert, der den vorberechneten Logarithmus des Verhältnisses der Wahrscheinlichkeit eines Buchstabens Ci₁ ein Großbuchstabe zu sein, zu der Wahrscheinlichkeit, daß er ein Kleinbuchstabe ist. Für das in Fig. 4 dargestellte Beispiel dienen die Indizes 1, 9 und 39 zur sequentiellen Ansteuerung des Festwertspeichers 79. Daher werden die Werte +2373, +1788 und -2024 vom Festwertspeicher abgerufen und kummulativ von der Anordnung summiert, die aus dem Register 83, dem Addierer 84 und dem Speicher 85 besteht (vgl. Fig. 3).

WA 974 006

⁷°9884/₀₆,

- ν* -XC

Die aufgelaufene Summe im Pufferspeicher 86 ist für das in Fig. 4 zugrunde gelegte Operationsbeispiel +2137. Die wichtige Kenngröße des Wertes ist das algebraische Vorzeichen (die Polarität "+" oder "-"). Ein Pluszeichen gibt an, daß der PCI-Wert für das Wort oder das Buchstabenfeld größer als eins ist (log 1=0) mit der Vereinbarung, daß das von dem Zeichenleser ursprünglich gelesene Wort in Großbuchstaben geschrieben ist. Der Wert wird von dem Speicher 85 in den Pufferspeicher 86 übertragen und über die Leitung 87 zu dem (Polaritäts-) Detektor 88 übertragen, der feststellt, ob es ein Plus-Zeichen oder Minus-Zeichen ist. Wenn der Detektor einen positiven Wert feststellt, dann erzeugt er das Kennzeichen für einen Großbuchstaben, stellt er aber einen negativen Wert fest, dann erzeugt er das Kennzeiichen für einen kleinen Buchstaben. Demgemäß verfügt das sequentiell vom alphabetischen Schieberegister 77 über die Leitung 97 zum Äusgangsregister 88 übertragene Buchstabenfeld, das über die Leitung 89 ausgegeben wird, über ein Kennzeichen für Großoder Kleinbuchstaben, entsprechend der Schreibweise des vollständigen Wortes. Daher wird für das in Fig. 4 gewählte Beispiel die Buchstabenfolge ¹¹MAIm", die einen PCI-Wert von +2137 hatten, von der Einrichtung über die Ausgangsleitung 89 in Fig. 3 als "MAIm" ausgegeben. Die Steuereinheit 92 in Fig. 3 arbeitet auf ähnliche Weise wie die Steuereinheit 44 in Fig. 2. Dementspreched führen auch die Einheiten zum Löschen 69 in Fig. 2 und 93 in Fig. 3 ähnliche Funktionen aus.

WA 974 006

709884/0617

Zf

r* r*· cn m *~< tncNoj ines O vo

»■»•το cn -j mr-ico tn ο «-* *\ λ ι . « ·«■

η cn m η cm rincn cn cn en V rl N / fl 1 K

Π CO Ή H {ft CN CN O O CO CN Ci O

cn to cn oo comoco n#n mo

co in ν cNin »* -τ σ m vo *τ ο ,-^

CNcnri mn m m »τ cn η nri · ι

cNmcQrHvocio owcovo cn «·» r— πΐ

co in ο γν m -* α ^ ν to co cmcnco J-¹

••τ »η cn -τ ο ο r» cn r*· m co co·-* H

cn cn m cn cn m m ν rinn men q

3 N

(U ■μ (D

O (U

CO	ο	O	co
			co
»η	O	tn
m	Π

	cn	m	m	CM OO	cn	tn co
	CN	m	O
CO				O <»
				m
cn
m

	CO	ιη	η	ο	γ» »τ	VD	Γ*·	*α) Ντ**	r>.	CO sT
		*η	cn	tn		CO -		Π f ί N		*ο -t**
	m		CS	η	η	CO	η	ο cn co	r-l
	η			CO		ri	m	ηηη	»η
			η	O OO			ηη-τ	Γ*	CO
			Γ"·
			Π
			CN			γ* η η
CM
O
*O
Π
O
O
η
η

CN CO ·*	cn oo	»n rH
en ο ο	O CN	i-< CN
*n cn r·*	tn m
CN Π ΓΝ	m cn	cn

α* rj ** *τ r^- ο

m rs et co co ο

οχ cn co m ο ο

m cn η cn cn n

■n	H H
1)· ■	Kl
(U	H -CQ
Eh	a
ese

A082

σ»

O
en

3886

CM
CO
CO

2708
2783
3AS2

m

CO rH

VO

vD

S

cn co

r-l CN VO

O

CO CN

η

σ* η

•Η

Γ-.

m
ca

CM r-

O
O

CO

Ol

m

cn

σ ο

mm oo

3Al

in m

m co

CO

r*

CO C*

O

-rl

CN

cn

CN »-I

Γ» CN CO

cn ·»

η

σ* co

O

r-t

CM

«ΐ O

η

r-i

CO

< M

m m

CN

m

cn m m

cn m

N

m cm

cn

cn cm

m

O

»T

ο m C-»
(JiO H

r«- m co m
in r» co co

CO CN -*
m cj cn

CO

RS

8

cn

r-" cn

r-l

co co

OO CM

«j cn co

O

tn

CM CN

co

CN

Γ-» CO

cn cn m m

«Τ CM

rt m η

CO

m vo

CN

r* cn

CO CN

CM

η σ»

co m

m

»η »τ

«N cn

in vD

.»τ

m cn

Γ4 CN

CM

^T CO

ο

— r».

cn m

O

CM

m in

co

M

en vo
r-i «n
cn m

CN

cn H

η

392

cn cn

316

r» Ot »n

CN *ί

C-J

»* cn ο

!Der

¹^ ** ^i

co co

cn m en

CN CN

*7 Mt

α

r* cn co

co tn

cn cn

m «H

η

HnN

O CN

CO vO

cn tn
O -i

gs

a» cn
in ri

•■τ m

m ο

«η γν

ο «n

cn cn

CN CO
O -T

m <·

π m

^* cn

cn m

>

vo m

VO
-J

vO P*

CN CM O
co tn ο

CM CN

N
CM

m cn

O

<r ν κ

cn co

-I

m m cn

cn η

1/1

u α ω

UJSS₅O

η.

VU M H

cn

et ^ m

•0

CN

cr> vo
O *i

η

%r, ο

cn
m

m m

H

C* O \O
ο α -τ

m m m

SM*,

η

co cn O

I

709884/0617

jORIGIMAL INSPECTED

MN

PQ

2 CO

it ζ
27 i 2300
-8 t
25 c
30 al.

-J
O

3377

26

2186

2955

3252
2397

2278

25S2

2192

3252

3126

2432.

2954
2SS3
2397

3250

3377

TOO?

3; e
3i f

(O
go

2432

2268

33."7

2660

2364

2904

25

33 g
34 h
25 i 3126

CO
Bk-

2462

3126

2335

2664

36 3
37 k
38 1
39 D
40 α 3250

90/r

2335

2955

2417

2270
2535

2326

2358

41 ο
42 ρ
43 4

2293

3250

2313

(Der Wert

2494

2462

2506

36

33

44 r
45 s

2996

2079

3260
2836

2S?6

2494

46 t
47 u
48 ν
49 w
50 χ

2836

2996

2396

51 y
52 ζ

2532

50Q0

ist in dieser Tabelle jeder Leerstelle zugeordnet)

TABELLE III

2221

155

■I«...

■ζ. ω τι

2	K	2870
ι	R
3
*	D
5	ε

6	F
7	C	2347
3	U
9	I	3958
10	J
11	K
12	L	2323
13	M
14	N
15	O	39S9
16	r
17	Q
18	R	24
19		3OS7
20	T
21	U	2697
22	V
23	U
24	X
25	Y

OO

β»

V

W

X

T

Z

a

b

C

d

e

f

S

h

1

J

k

1

3602
3252

4082
3495

4046

2500
4027

2553
3092

2367

3478
2951
3495
2558

3252
3495
3268
4027

4081
4027

3252

4081

3509

3700

3201

2932-

3201

2261

3509
1443

3700
2045

2900
1594

3721

3237
3125
3092
35S6

3237
3721
4000

3415

3393

3731
3192

3843

3252
3996

3114
3252
3693
3843

3S43

2008
3959
3431
3843

2358
3731
3693

3357

3959

3347
3357

3347
3959

3000
3947

3932

3947
3932

3468

3343
3932
2793

2S33
3932

3947
2421

22
2024

2336
2336
40

2S86
79

2609
3000
20

3187

2788
3170

3487

4027

2686 3693 3843

3646 3836

(Der Wert 5000 ist in dieser Tabelle jeder Leerst-e 11«=» zugeordnet)

TABULLS IV

NJ CT)

cn

U	V	W	X	Y	Z 22	B 25 2191	b 36	C 26	2397 40
		3032				27E0
		2335
2822				3126
			2326		3620	3263
									3336
						2S57	2857
			2955		3260	2536
SO	2506 32 2234	43	37	2494		2508			2996 2508
	1736		1435	1805	43

85

y	h 1708	i 3084	j	k	1
				3377	3377
73	15	2435 38 1564	600	21	1443 55
3336		2734
1000 2839		3260
	2508	2996 1810
	ψ				2494
					3000

46 2861

3158

1967

(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)

.TABELLE V

	1	A	4031
	2	B
	3	C
	4	D	2722
	5	E
	6	F
	7	e
	8	Ii	350!i
	9	I
	10	J
—I
O	11	K	3237
co	12	1.
00	13 14	M N	2652
00»	15	0	2688
.p-
X^	16	P
O	17	Q
cn	IS 19	R S	2867
-4'	20	T
	21	Ü
	22	V
	23	«1
	24	X
25	Y

0	P	q	r	S	C	U	V	V	X	y
			3495 3550		3509 3Λ25
			2455
			3215		3509					3046
			3482 3731		3458 3640					3731
			3843							3843
		794	3343 2448		3646
			2992		2475					3S36
										3084 3487
										25G9

2155 1370 1S30 1519 1752

1700 1C.76 2156 1S18 1587

2328 1944 1842 2678 1668

2149 1367 2114 1S77 2137

2042 2S53 2421 1788 2237

C	e
2064	3155
2137	3155
2432	3155
2009	3097
2958	3155
1S24	3155
2456	3155
1/86	3155
2237	1013
1936	2543
1826	3155
2638	2432
1212	3155
1550	3522
1827	3155
2538	3155
1668	3155
1687	3522
3523	3155
1830	3222
1632	2886
1564	3155
1226	3155
1U34	3155
1733	3155

(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)

4000 4C00 4000 4000 4000

4000

-:oo

4000 1936 4000

4000 3301 4000 4000 4000

4000 4000 4000 4000 4000

TABELLE VI

<X>

CT -P--CO

cn

	26	Z	3034
	27	a
	28	b
	29	C	2668
	30	d
	31	e
	32	f
	33	g	2435
	34	h
	35	1
	36	J
	37	k
	38	1	1550
	39	α	21
O	40	η
co	41	ο
00	42	P
ο»	43	q
■Ρ¹»-	44	Γ
	45	S
O	46	t
	47	U
	48	V	2535
■sä	49	W
	50	X
	51	y
52	Z

ο	P	q	r	S	t	U	50	V	32	W	A3	X	37	y	Z	t	43	(*)	1442	e
																	1442	1420	3155
														3384			1523	2402	3155
																1407	1552	3155
															2323 -	2536	3155
														1209	3046	3155
													16 78	1209	3155
			1S70										1695	2000	3155
		2334										958	1794	3155
												2000	2087	3155
												1637	1000	3155
												300	2222	3155
												1549	1658	3155
												1522	1925	2S86
												1448	1760	3155
			2861									2009	1706	3155
36												1864	1103	3155
	25											1522	1000	3155
		156										1000	1765	3155
			22		3260						1939	2301	3155
				33							1524	2143	3155
			2996		24						1662	1736	3155
										1428	1425	3155
									2155	1208	3155
			2535					2276	1322	3155
							1830	1715	3155
			2583			38	2023	1639	3155
							1639	3155

(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)

4000 4000 4000 4000 4000

4000 4000 4000 2388 2794

4C0O 4000 1836 4 000 4000

4000 4000 4000 4000 4000

4C00 AOOO 4000 400O 4000

4000 400O

TABELLE VII

-57-Leerseite

Claims

PATENTANSPRÜCHE Groß- und Kleinbuchstaben, die von einem Zeichenleser • als Reihe kodierter elektrischer Signale ausgegeben werden, gekennzeichnet durch folgende Verfahrensschritte: j

1. Speicherung der für jeden Buchstaben gültigen Wahrscheinlichkeitswerte seiner Groß- bzw. Kleinschreibweise, in einem Speicher unter einer Adresse, die dem elektrischen Kodesignal des jeweiligen Buchstabens entspricht,

2. Adressieren des Speichers mittels der elektrischen Kodesignale und Auslesen der oben genannten Wahrscheinlichkeitswerte für die vom Zeichenleser angelieferten, den Buchstaben entsprechenden kodierten elektrischen Signale,

3. Ermitteln von zwischen benachbarten Buchstaben angebrachten Leerstellen, die von dem Zeichenleser zum Zwecke der Gruppierung der Reihe kodierter elektrischer Signale in ein Buchstabenfeld zwischen aufeinanderfolgenden Leerstellen ausgegeben wurden,

4. Addieren der Wahrscheinlichkeitswerte der Buchstaben aus dem Buchstabenfeld und

5. Ermitteln der Polarität der algebraischen Summe der Wahrscheinlichkeitswerte der Schreibweise zur Bestimmung der Schreibweise der Buchstaben in dem abgetasteten Feld als Groß- oder Kleinbuchstaben.

WA 9 74 006

709884/06T7

ORIGINAL INSPECTED

- äff h

Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß im ersten Schritt die Wahrscheinlichkeitswerte der

Schreibweise Ρ_ττ(α ) und Ρ_τ (α ) für die Buchstaben gemäß υ η L· η

folgenden Gleichungen gespeichert werden:

26 P_n(O_n) = Σ Ρ_ο[α_η|ϋ(χ)] · P[UU)] und

LJ Il · .^ Ί O Il

26 W ⁼ I ^Pc^[anl^L(i)1 "

worin P_n(α ) den Wahrscheinlichkeitswert angibt, mit dem das vom Zeichenleser erkannte Zeichen (α ) von der Abtastung eines Großbuchstabens herrührt, P^ (o ) den Wahrscheinlichkeitswert angibt, daß das vom Zeichenleser erkannte Zeichen (α ) von der Abtastung eines Kleinbuchstabens herrührt, U(i) der i-te von 26 Großbuchstaben, L(i) der i-te von 26 alphabetischen Kleinbuchstaben, P [α |u(i)] die Verwechselungswahrscheinlichkeit von U(i) als α gelesen zu werden, P[U(i)] die Wahrscheinlichkeit von U(i), mit der dieser Buchstabe auf dem abgetasteten Element in Abhängigkeit von der verwendeten Sprache auftritt, P [α iL(i)] die Verwechselungswahr-

c η

scheinlichkeit mit der L(i) als α gelesen wird und P[L(I)] die Wahrscheinlichkeit, mit der L(i) auf dem Dokument in Abhängigkeit von der verwendeten Sprache auftritt, sind.

974 006 703884/0617

3. Verfahren nach Anspruch 2 und/oder 3, gekennzeichnet | durch die zusätzlichen Schritte a) des Speicherns eines j abgetasteten Buchstabenfeldes in einem Pufferspeicher, i der mit der Ausgangsleitung des Zeichenlesers verbunden ; .ist und b) des Versehens des Buchstabenfeldes im Puffer j mit einer Kennzeichnung als Groß- oder Kleinbuchstaben in Abhängigkeit von der Polarität der algebraischen Summe der Wahrscheinlichkeitswerte der Schreibweise.

WA 974 006

709884/0617

4. Verfahren zur Unterscheidung von in Feldern angeordneten j Groß- und Kleinbuchstaben, die von einem Zeichenleser 1 als Reihe kodierter elektrischer Signale ausgegeben | werden, gekennzeichnet durch folgende Verfahrensschritte:

1. Speichern des Wahrscheinlichkeitswertes, mit dem ein Buchstabe als Großbuchstabe geschrieben wird in einem ersten Speicher mit einer Adresse, die seinem kodierten elektrischen Signal entspricht,

2. Speicherung des Wahrscheinlichkeitswertes eines

jeden Buchstabens, mit dem dieser als Kleinbuchstabe . geschrieben wird in einem zweiten Speicher unter der Adresse seines kodierten elektrischen Signals,

3. Adressierung des ersten und zweiten Speichers mit den kodierten elektrischen Signalen der Buchstaben in der Sequenz dieses Auftretens in dem Buchstaben- ι feld und Auslesen der jeweiligen Wahrscheinlichkeitswerte der Groß- und Kleinbuchstaben, j

4. Feststellen von Leerstellen zwischen benachbarten Buchstaben in dem Buchstabenstrom, der von dem Zeichenleser ausgegeben wird und das Feld zwischen zwei benachbarten Leerstellen begrenzt,

5. Addieren der Wahrscheinlichkeitswerte der Großbuchstaben, die von dem ersten Speicher ausgegeben werden,

6. Addieren der Wahrscheinlichkeitswerte der Kleinbuchstaben, die vom zweiten Speicher ausgegeben werden,

7. Invertieren einer der nach Schritt 5 oder 6 errechneten Summe der Wahrscheinlichkeitswerte,

8. Vergleich der anderen Summe der Wahrscheinlichkeitswerte mit der invertierten Summe, wobei ein Plus-Zeichen für die Großbuchstaben-Schreibweise und ein Minus-Zeichen für die Kleinbuchstaben-Schreibweise der Buchstaben in einem Buchstabenfeld gebildet wird und

9. Kennzeichnung des Buchstabenfeldes entsprechend des abgeleiteten Vorzeichens.

974 006 709884/0617