DE2654815A1 - Verfahren zur unterscheidung von gross- und kleinbuchstaben - Google Patents

Verfahren zur unterscheidung von gross- und kleinbuchstaben

Info

Publication number
DE2654815A1
DE2654815A1 DE19762654815 DE2654815A DE2654815A1 DE 2654815 A1 DE2654815 A1 DE 2654815A1 DE 19762654815 DE19762654815 DE 19762654815 DE 2654815 A DE2654815 A DE 2654815A DE 2654815 A1 DE2654815 A1 DE 2654815A1
Authority
DE
Germany
Prior art keywords
letter
letters
probability
field
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19762654815
Other languages
English (en)
Inventor
John Joseph Hilliard
Philip Joseph Mullan
Walter Steven Rosenbaum
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2654815A1 publication Critical patent/DE2654815A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

Aktenzeichen der Anmelderin: WA 974 006
Verfahren zur Unterscheidung von Groß- und Kleinbuchstaben
Die Erfindung betrifft Verfahren zur Unterscheidung von in Feldern angeordneten Groß- und Kleinbuchstaben, die von einem Zeichen- \ leser als Reihe kodierter elektrischer Signale ausgegeben werden.
Die Unterscheidung, ob in einem Textfeld, das von einem optischen Zeichenleser abgetastet wurde. Groß- und/oder Kleinbuchstaben verwendet wurden, erfordert einen Entscheidungsprozeß, dessen Durchführung Gegenstand der vorliegenden Erfindung ist.
Die meisten alphabetischen Zeichen (Buchstaben) verfügen über sich stark voneinander unterscheidende Neigungen, von einem Zeichenleser falsch gelesen zu werden, basierend auf der Schreibweise, d. h., ob sie in Groß- oder Kleinbuchstaben auf einem Dokument enthalten sind. Dieses wird deutlich bei der Prüfung der signifikanten unterschiedlichen Geometrie der meisten Groß- und Kleinbuchstaben: "A, a", "E, e", "G, g" usw. Es hat sich in diesem Zusammenhang herausgestellt, daß die gesamte Nachverarbeitung von Zeichenleser hinsichtlich der Fehlerkorrekturfunktion dadurch verbessert wird, daß ein Vorverarbeitungsschritt eingeführt wird, der die Funktion hat, zu bestimmen, ob ein Wort auf einem von dem Zeichenleser abgetasteten Dokument in Groß- und/ oder Kleinbuchstaben geschrieben ist. Dieser Vorverarbeitungsschritt verbessert die Genauigkeit und Zuverlässigkeit der Gesamtfehlerkorrekturfunktion der Nachverarbeitung bei Zeichenlesern.
709884/Ό617
So bezieht sich die Anwendung des Verfahrens auf die Vorverarbeitung für eine Fehlerkorrektureinrichtung, die in der US-PS 3 969 700 beschrieben ist. Diese Einrichtung wählt die korrekte Form eines von einem Zeichenleser verstümmelt ausgegebenen Wortes aus, indem es die Zahl der Buchstaben des Wortes durch Zusammenziehung zweier Zeichen zu einem Buchstaben oder Spaltung eines Buchstabens in zwei Zeichen, verändert. Hierzu ist in der Einrichtung ein Verzeichnis gültiger Wörter gespeichert. Die weitgehend verschiedenen Neigungen der Buchstaben auch hinsichtlich ihrer Verwechslungsfähigkeit hängen davon ab, ob ein gegebener Buchstabe als Groß- oder Kleinbuchstabe geschrieben ist.
Die Aufgabe der Erfindung ist daher ein Verfahren, das eine Be-
!Stimmung ermöglicht, ob ein Buchstabe in einem alphabetischen I
Zeichenfeld (z. B. in einem Wort), das von einem Zeichenleser
ausgegeben wird, sich auf Groß- und/oder Kleinbuchstaben bezieht.
Gelöst wird diese Aufgabe der Erfindung durch die im Hauptanspruch angegebenen Merkmale.
Vorteilhafte Merkmale, Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entneh-
! men.
Die Lösung der Erfindung trägt somit dazu bei, die Sicherheit
der Erkennung von Zeichenlesern weiter zu verbessern. i
i j
j . j
i Im folgenden werden Ausführungsbeispiele der Erfindung anhand ;
[ der beiliegenden Figuren näher erläutert.
l7A974 °06 709884/0617
Es zeigen:
Fig. 1 das Blockschaltbild einer Einrichtung zur Unterscheidung von Groß-yKleinbuchstaben;
Fig. 2 ein ausführlicheres Blockschaltbild der Einrichtung nach Fig. 1,"in der ein Speicherpaar vorgesehen ist, in dem die statistischen Werte der Häufigkeit des Auftretens der Zeichen gespeichert ist;
Fig. 3 ein ausführlicheres Blockschaltbild einer
Einrichtung nach Fig. 1, in der in einem Festwertspeicher die statistischen Werte der Häufigkeit des Auftretens der Zeichen gespeichert sind und
Fig. 4 eine schematische Darstellung des Operationsablaufs in der Einrichtung nach Fig. 3.
Der Schreib- oder Druckkonventionsindex (PCI), der in dem vorliegenden Verfahren realisiert wird, ist die Formulierung einer Entscheidungsfunktion, die das Ziel hat, auch Wörter für Anwendungen der optischen Zeichenerkennung (OCR) zuzulassen, die aus Groß- oder Kleinbuchstaben bestehen. Für generelle Anwendungen der optischen Zeichenerkennung (OCR), wie beispielsweise das Lesen der Bestimmungsorte von Postsendungen oder die Textverarbeitung, müssen die drei folgenden Schreibkonventionen der PCI-Operation berücksichtigt werden:
(1) Alle Zeichen eines Wortes gehören zur Schreibkonvention für Großbuchstaben (Großbuchstaben-Schreibweise),
WA 974 006
/0617
(2) Alle Zeichen eines Wortes sind Kleinbuchstaben und ■
I (3) Alle Zeichen eines Wortes sind Kleinbuchstaben, mit | Ausnahme des ersten Buchstaben eines Wortes, der ! ein Großbuchstabe ist. ;
Die Unterscheidung zwischen diesen drei Schreibkonventionen [
ist deshalb nicht trivial, weil die Falschlesungen eines opti- ;
sehen Zeichenlesers (einschließlich Konflikten und Rückwei- I
sungen) dazu neigen, Groß- und Kleinbuchstaben-Schreibverein- j
j barungen ebenso zu stören, wie die Buchstabenidentifizierung. ;
' Zeichenleserkonflikte und Rückweisungen enthalten normaler- !
: weise keine Schreibkonventionsschlußfolgerungen hinsichtlich ι
< der abgetasteten Zeichen.
Die Groß-/Kleinbuchstabenentscheidung wird auf einer "pro ! Feldbasis" (d. h. auf Wortbasis) vorgenommen, indem die in Gleichung (1) genannte PCI-Formulierung verwendet wird:
; k-1 k-1
PCI = Σ log Pn (a) - Σ log PT <a_) (1) ; n=1 U n n=1 u n
iworin k die Zahl der Buchstaben in dem Feld angeben, α der ! Buchstabe ist, der in der η-ten Stelle des Feldes festgestellt wurde und η ein Indexwert der Stelle ist, der im Feld von rechts nach links inkrementiert wird (n = 1 ist die letzte, ■ am weitesten rechts liegende Buchstabenstelle des Feldes). J Daher ist beispielsweise im Feld der Buchstaben "Smith", k = 5. j Die Zeichen S und h geben die Links-nach-rechts-Richtung der j Zeichen an und η = 1 ist dem Zeichen h zugeordnet.
Großbuchstabenschreibweise liegt vor, wenn der PCI-Wert in Gleichung (1) größer als null ist; eine Kleinbuchstabenschreibweise liegt vor, wenn der PCI-Wert gleich oder kleiner als null ist. Die Zuordnung des Plus- und Minuszeichens bezüglich der Betriebsweise der Einrichtung, sind willkürlich gewählt.
WA 974 006 7Ö9Ö8W0617
Der Ausdruck "Ρ(α )" in der Gleichung (1) ist für die Nähr-
υ η ι
scheinlichkeit repräsentativ, mit der die Zeichenlesererkennung j
"α " von der Abtastung eines Großbuchstabens resultiert. Daher i η 3 ι
gibt der Ausdruck "Ρτ(α_)" in Gleichung (1) die Wahrscheinlich- !
Xj η i
keit an, mit der die Zeichenlesererkennung "α " von der Abtastung
eines Kleinbuchstabens resultiert. Der vollständige Satz aller j
α deckt alle Groß- und Kleinbuchstaben ab und kann sowohl Er- ι
kennungskonfliktrückwexsungen als auch den gerellen Buchstaben- j
rückweisungskode enthalten.
Die Werte der Ausdrücke "PrT(a )" und "Ρτ (α„)" sind für die I
υ η η
Lösung der Gleichung (1) in logarithnvischer Form gespeichert, j nachdem sie mit Hilfe der Formeln in den Gleichungen (2) und (3)
vorverarbeitet wurden:
•26
P0(CXn) = Σ Pc[an|ü(i)] · P[U(I)] (2)
26
P (α ) = Σ P0La(L(X)] · P[L(i)l (3)
wobei U(i) der i-te von 1 bis 26 Großbuchstaben und L(i) der i-te
von 1 bis 26 Kleinbuchstaben ist. "P-Ia1,|U(i) ]" ist die Verwech-
C XL
Seiwahrscheinlichkeit, daß ü(i) als α gelesen wird. "P[U(i)]!l
ist die Wahrscheinlichkeit, mit der ü(i) in dem abgetasteten
Dokument auftritt, und zwar in Abhängigkeit von der Sprache
(z. B. Englisch), der das Wort auf dem Dokument angehört.
"1P [a Il(i)]" ist die Verwechslungswahrscheinlichkeit, mit der
L(i) als an gelesen wird. "P[LU)]" ist die Wahrscheinlichkeit,
mit der L(i) in Abhängigkeit von der Sprache, der das abgetastete Wort auf dem Dokument angehört, auftritt.
Tabelle I zeigt die Häufigkeit des Auftretens der Buchstaben
in der englischen Sprache, die beispielsweise für den Buch-
WÄ974006 709884/0617
stäben A 7,81% beträgt. Für M ist die Häufigkeit 2,62%, für T 9,02% usw. bis zum Zeichen Z, das eine Häui gkeit des Auftretens von 0,09% hat. Die Häufigkeit, mit der Groß- und Kleinbuchstaben auftreten (P[U(i)]/P[L(i)]) wird abgeleitet, indem ein 2O/8O-Verhältnis für Textdokumente auf die Häufigkextsdaten in der Tabelle I angewendet wird. Daher ist der relative Wert von P[U(i)] für einen Großbuchstaben in einem Textdokument 20% des Häufigkeitswertes, der in Tabelle I angegeben ist. Für den Wert P[L(i)] für Kleinbuchstaben eines Textdokumentes ist er hingegen 80% des Wertes in der Tabelle I. Andererseits sind die Werte für P[U(I)] und P[L(i)] jeweils 70% und 30% des in Tabelle I angegebenen Wertes jeweils für einen gegebenen Groß- oder Klein- ! buchstaben, wenn das Dokument, das von dem Zeichenleser gelesen iwird, von postalischen Anwendungen stammt, in denen Bestimmungsj orte gelesen werden müssen. Die gewählten Verhältnisse sind im wesentlichen beliebig, was die exakten Werte betrifft; sie sind empirisch vom Standpunkt des durch Erfahrung gewonnenen Wissens, daß nämlich die Majorität der Buchstaben in postalischen Anschriften Großbuchstaben sind, wohingegen die Majorität der Buchstaben von Textdokumenten der Kleinbuchstaben-Schreibweise angehört.
WA 974 006
70988A/0617
TABELLE I
A/a = 7,81% Ν/η = 7,27%
B/b = 1,28% Ο/ο = 8,21%
C/c = 2,93% Ρ/ρ = 2,15%
D/d = 4,11% Q/q = 0,14%
E/e = 13,05% R/r = 6,64%
F/f = 2,88% S/s = 6,46%
G/g = 1,39% T/t = 9,02%
H/h = 5,85% U/u = 2,77%
I/i = 6,77% V/v = 1,00%
J/j = 0,23% W/w = 1,49%
K/k * 0,42% X/x = 0,30%
L/l = 3,60% Y/y = 1,51%
M/m = 2,62% Z/z = 0,09%
Tabelle I. Häufigkeit des Auftretens der Buchstaben in der englischen Sprache
In den Tabellen II bis VII am Ende der Beschreibung sind die Daten auf der Y-Achse für die Groß- und Kleinbuchstaben repräsentativ, die auf dem vom Zeichenleser abgetasteten Dokument aufgeschrieben oder aufgedruckt sind, wohingegen die Buchstaben auf der X-Achse ausgegebene Groß- und Kleinbuchstaben des Zeichenlesers sind. Darüber hinaus enthält die X-Achse drei Kategorien von Konflikterkennungen (Tabellen VT und VII), die von dem optischen Zeichenleser an seinem Ausgang mit den Zeichen "3", "?" und "#" bezeichnet sind. Diese Konflikterkennungen sind im einzelnen: >
(1) "i/l" — Die i- und 1-Erkennungsschaltungen des optischen Zeichenlesers sprechen beide an; wenn jedoch das Zeichen eher an ein kleines i als ein 1 erinnert, dann wird dieses durch das Zeichen "3" bezeichnet.
WÄ974006 709884/0617
(2) "l/i" — Die 1- und i-Erkennungsschaltungen sprechen beide an; die Erkennung erinnert jedoch stärker an 1 als an i, dann wird dieses durch das Zeichen "?" zu Ende angegeben.
(3) "N/W" — Die Erkennung ist unbestimmt; sie wird jedoch charakterisiert durch ein Zeichen, die als streng diagonale Tendenz interpretiert werden kann. Dieses wird durch das Zeichen "#" angegeben.
Das Rückweisungszeichen "*" gibt an, daß die Erkennung nicht konklusiv und daher kein Buchstabe identifizierbar war. Wie die Tabellen II bis VII in Verbindung mit der Gleichung (1) zeigen, ist das PCI für einen von dem Zeichenleser als A ausgegebenen
!Buchstaben (A auf der X-Achse) die Differenz zwischen: (1) der ι
Summe der entsprechenden Dezimalwerte der Wahrscheinlichkeit in Spalte A jeweils multipliziert mit der Häufigkeit des Auftretens, angegeben in der Y-Achse in den Zeilen A bis Z und (2) der Summe der Dezimalwerte der Wahrscheinlichkeit in der Spalte A jeweils wieder multipliziert mit der Häufigkeit ihres Auftretens, angegeben in der Y-Achse, Zeilen a bis z. Wenn der auf diese !weise abgeleitete PCI-Wert größer als null ist, dann kann angenommen werden, daß der abgetastete Buchstabe ein Großbuchstabe ist. Ist der PCI-Wert dagegen null oder kleiner als null, dann kann davon ausgegangen werden, daß es sich um einen kleinen Buchstaben handelt. Wenn die laufende Summe des PCI-Wertes für mehrere Buchstaben (einschließlich Konflikte und Rückweisungen) in einem Wort ein Anzeichen dafür liefert, daß er in Großbuchstaben-Schreibweise geschrieben ist, dann wird das gesamte Wort als ein Wort in Großbuchstaben behandelt. Wenn andererseits die laufende Summe des PCI-Wertes für alle Zeichen in einem Wort dafür sprechen, daß es in Kleinbuchstaben-Schreibweise geschrieben ist, dann wird der am weitesten links im Wort stehende Buchstabe (das ist der erste Buchstabe in dem bereits erwähnten Feld)
974 006 709884/0617
unterschiedlich von den übrigen Buchstaben im Feld behandelt, die ihrerseits jedoch als Kleinbuchstaben weiter behandelt werden .
Fig. 1 zeigt nun einen optischen Zeichenleser (OCR) 10, der mit einem Diskriminator (VERB) 11 verbunden ist, der seinerseits im Detail in der US-PS 3 839 702 beschrieben ist. Der optische Zeichenleser 10 ist mit dem Diskriminator 11 über die beiden Ausgangsleitungen 12 und 13 verbunden, von denen die Ausgangsleitung 12 Buchstaben und die Ausgangsleitung 13 Ziffern überträgt. Zur Realisierung der Schaltungsanordnung ist es nicht unbedingt erforderlich, einen Diskriminator der genannten Art zu verwenden, da auch andere bekannte Diskriminatoren verwendbar sind. Die Ausgangssignale des in Fig. 1 verwendeten Diskriminators 11 geben eine Unterscheidung zwischen Buchstaben und Ziffern an, wie sie in der genannten US-Patentschrift angegeben ist. Die Unterscheidung ist so, daß elektrische Signale, die sich auf Reihen von Buchstaben beziehen, auf der Ausgangsleitung 14 erscheinen, während Signale, die sich auf Ziffernreihen beziehen, über die Ausgangsleitung 15 übertragen werden. Ein Register 16 dient als Pufferspeicher für die Buchstabenreihen eines Feldes. Gesteuert von der Steuerung 17 gibt das Register sequentiell Reihen von Buchstaben aus, um einen Wahrscheinlichkeitsspeicher 18 auf der Basis eines Buchstabens je Zeiteinheit zu adressieren. Der Speicher 18 enthält sowohl Bestandteile der Gleichung (1) für die Wahrscheinlichkeit des Auftretens sowohl von Groß- als auch von Kleinbuchstaben für jeden Buchstaben, der über den Diskriminator 11 vom optischen Zeichenleser 10*ausgegeben wird. Die effektiven Werte der Wahrscheinlichkeit, sowohl für Groß- als auch für Kleinbuchstaben für einen gegebenen Buchstaben werden ausgelesen, in das Register 19 übertragen und einem logarithmischen Addierer 21 zugeleitet, der funktionell die Summe der Wahrscheinlichkeit aller Großbuchstaben und der Wahrscheinlichkeit aller
974 006 709884/0617
■?«■
Kleinbuchstaben für die Buchstaben in einem gegebenen Feld gemäß Gleichung (1) errechnet. Die Summe dieser Wahrscheinlichkeiten ist für den PCI-FeId- oder Wortwert, der zuvor bereits erläutert wurde, bestimmend.
Das Tor·22 dient als Pufferspeicher für Ziffernfelder, die über die Leitung 15 und Buchstabenfelder, die über die Leitung 14 ausgegeben werden. Das Tor 22 liefert auch ein geeignetes Signal bezüglich der Zeichenposition" (Stelle des Buchstabens oder der Ziffer) und der Leerstellen in den alphanumerischen Feldern an die Steuerung 17. Der Addierer 21 gibt die Zwischensummen für die Groß- und Kleinbuchstaben-Schreibweise an den Vergleicher 23 aus, der die relativen Größen der Untersummen miteinander vergleicht, um den entsprechenden PCI-Wert zu bestimmen. Wenn, wie zuvor bereits erläutert wurde, der PCI-Wert größer als null ist, dann bewirkt das Signal auf der Leitung 24, daß den Buchstaben in dem Feld, das als eine Reihe von Buchstaben von dem Diskriminator 11 über die Leitung 14 über das Tor 22 zur Ausgangsleitung 25 übertragen wurde, ein Großbuchstabenkennzeichen beigegeben wird. Andererseits, wenn der PCI-Wert, der vom Vergleicher 23 ermittelt wurde, gleich null oder kleiner als null ist, dann bewirkt das Signal auf der Leitung 24, daß den Buchstaben des Feldes, die über das Tor 22 von der Leitung 14 zu der Leitung 25 übertragen werden, ein Kennzeichen beigegeben wird, das Kleinbuchstaben kennzeichnet. Es sei auch erwähnt, daß die Bezeichnungen "größer als" und "kleiner als" null für die Schreibkonvention beliebig gewählt werden können, da sie "Polaritäten" darstellen, die für Groß- und Kleinbuchstaben-Schreibweise Indikativ sind.
In Fig. 2 ist zu sehen, daß der optische Zeichenleser 31 wieder über zwei Ausgangsleitungen 33 und 34 verfügt, die ihn mit dem Diskriminator 32 verbinden. Der Diskriminator 32 hat ausgangssei tig zwei Ausgangsleitungen 35 und 36, die ihn mit einem
WA 974 006 . m _
709884/0617
Pufferspeicher 37 verbinden. Wie zuvor bereits im Zusammenhang mit Fig. 1 erläutert wurde, dient eine Ausgangsleitung des Diskriminators zur übertragung von Zeichenfeldern oder Wörtern, die als numerisch gekennzeichnet sind (z. B. 35), während die andere Ausgangsleitung (z. B. Ausgangsleitung 36) dazu dient, Zeichenfelder zu übertragen, die als alphabetische Zeichen gekennzeichnet sind. Die Ausgangsleitung 33 des optischen Zeichenlesers 31 kann auch als Schaltungsvariante direkt mit der Leitung 35 verbunden werden, die dann als direkte Eingangsleitung des Pufferspeichers 37 benutzt wird, während die Ausgangsleitung 34 des optischen Zeichenlesers auch direkt mit der Leitung 36 verbunden werden kann, wodurch der Diskriminator 32 vom Datenfluß umgangen wird.
Die Ausgangssignale vom Pufferspeicher 37, die das Buchstabenfeld betreffen, erscheinen auf der Leitung 38 für eine Übertragung in das alphabetische Schieberegister 39 für die Buchstaben und in das Speicheradressenregister 41. Die Ausgangssignale des Pufferspeichers 37, die Ziffern betreffen, werden zu dem numerischen Schieberegister 42 über die Leitung 43 übertragen. Die Steuereinheit 44 leitet diesen Vorgang ein und hält die Ausgangsfolge der numerischen und alphabetischen Felder (Ziffern- und Buchstabenfelder) mit der Eingangsfolge der Zeichenfelder in die Vorrichtung identisch. Daher wird der Zeichenstrom, der aus dem Ziffernfeld abgeleitet wird, zeichenweise in das Register 42 und der Zeichenstrom des Buchstabenfeldes parallel in die Register 39 und 41, und zwar ebenfalls wieder zeichenweise, eingegeben. An die Eingangsstufe 45 des Registers 41 ist eine Leitung angeschlossen, die zu dem Leerstellendetektor 46 führt, um die Anwesenheit von Leerstellen in einem Feld oder Worttrennungszeichen festzustellen. Nach der Feststellung einer Leerstelle wird der Entscheidungsprozeß des vorliegenden Verfahrens von der Steuereinheit 44 eingeleitet.
WA 974 006
709884/0617
Die Feststellung einer Leerstelle in der Eingangszelle 45 des als Schieberegister ausgebildeten Registers 41 führt dazu, daß ein aus dem Buchstabenfeld abgeleiteter Zeichenstrom zeichenweise in dieses Register hineingeschoben wird. Gleichzeitig wird jedes Zeichen (Buchstabe) des Buchstabenfeldes sequentiell in ein Register 39 geladen. Die im Register 41 gespeicherten Buchstaben bilden die Adresse für die Großbuchstabenwahrscheinlichkeit "log P.(α )" für den Speicher 47 und für die Kleinbuchstabenwahrscheinlichkeit "log PL(an)" für den Speicher 48. Die Tabellen der Auftretenswahrscheinlichkeit von Groß- und Kleinbuchstaben werden, wie zuvor bereits im Zusammenhang mit der Gleichung (1) erläutert wurde, gebildet. Diese Auftretenswahrscheinlichkeiten werden in den Speichern 47 und 48 gespeichert. Wie ebenfalls zuvor schon festgestellt wurde, erfolgt der Zugriff zu den Wahrscheinlichkeitswerten des Auftretens der genannten Buchstaben in den Speichern 47 und 48 von einem Buchstaben, der über die Leitung 49 vom Register 41 her übertragen wird.
Die Wahrscheinlichkeitswerte des Auftretens von Großbuchstaben "log P T(cx )", die sequentiell im Ausgangsregister 51 zwischengespeichert werden, werden sequentiell von dem Addierer 52 addiert und zu den sequentiell immer auf dem neuesten Stand gehaltenen Werten von "log Pyic^)", die im Speicher 53 enthalten sind, addiert. Der Additionsvorgang wird in Kettenform solange fortgesetzt, bis die Summe der Wahrscheinlichkeitswerte des Auftretens der Großbuchstaben für das gesamte Buchstabenfeld, das im Register 41 gespeichert ist, gemäß Gleichung (1) errechnet ist. Das Ende eines Feldes wird dadurch festgestellt, daß das Vorhandensein einer das Feld beendigenden Leerstelle in der Eingangsstufe 45 des Registers 41 geprüft wird.
Gleichzeitig werden die Wahrscheinlichkeitswerte des Auftretens von Kleinbuchstaben "log p L(an)" i™ Ausgangsregister 54 gespeichert und dann von dem Addierer 55 sequentiell zu dem sequentiell
WA 974 006
709884/0617
auf dem neuesten Stand gehaltenen Inhalt des Speichers 56 für die Werte "log p L(a n)"» addiert. Dieser AdditionsVorgang wird ebenfalls in Kettenform solange fortgesetzt, bis die Summe der Wahrscheinlichkeitswerte des Auftretens von Kleinbuchstaben für das Buchstabenunterfeld, das im Register 41 gespeichert ist, gemäß Gleichung (1) errechnet ist.
Die Summe der Wahrscheinlichkeitswerte des Auftretens der Großbuchstaben für ein gegebenes Feld oder Wort, das im Speicher 53 gespeichert ist, wird zu dem Register 57 übertragen, wohingegen die Summe der Wahrscheinlichkeitswerte des. Auftretens von Kleinbuchstaben, die für ein gegebenes Feld im Speicher 56 gespeichert ist, zum Register 58 übertragen wird. Der Inhalt des Registers wird bezüglich des algebraischen Vorzeichens vom Inverter 59 inventiert und zu dem Inhalt des Registers 57 im Addierer-Vergleicher 561 hinzuaddiert. Das Ausgangssignal dieses Addierer-Vergleichers bestimmt den Index der Schreibkonvention (Schreibweise) . Wenn die Summe in 61 größer als null ist, dann gibt das Signal auf der Ausgangsleitung 62 an, daß das Buchstabenfeld Großbuchstaben enthält. Wenn aber die Summe innerhalb des Addierer-Vergleichers 61 kleiner als oder gleich null ist, dann führt seine Ausgangsleitung 6 3 ein Signal. Dieses gibt an, daß das Zeichenfeld oder Wort lauter Kleinbuchstaben enthält. Wie Fig. 2 zeigt, bilden die Leitungen 62 und 63 den Eingang zu dem Tastenumschaltungsidentifizierer 64, also dem Identifizierer für Groß- und Kleichbuchstaben, der auf ein Kommando von der Steuereinheit 44 entweder ein Großbuchstabenoder Kleinbuchstabenkennzeichen in Abhängigkeit davon erzeugt, welche der Leitungen 62 oder 63 ein Signal führt. Dieses Kennzeichen wird dem Buchstabenfeld im alphabetischen Schieberegister beigegeben. Auf ein Kommando von der Steuereinheit 44 wird der Inhalt des alphabetischen Schieberegisters 39 über die Leitung 65 zu dem Ausgangsregister 66 und von dort auf die Ausgangsleitung 67 zu der Einrichtung für die Schreibkonvention ausge-
WA 974 006
709984/0617
geben. Daher sei zusammenfassend festgestellt, daß das im alphabetischen Schieberegister 39 gespeicherte Buchstabenfeld in Abhängigkeit von der Signalführung auf den Leitungen 62 oder 63 entweder zusammen mit einem Großbuchstaben- oder einem Kleinbuchstabenkennzeichen ausgegeben wird. Das Zahlenfeld wird, wie zuvor bereits· erläutert wurde, vom numerischen Schieberegister 42 ausgegeben und über die Leitung 68 in das Ausgangsregister 66 übertragen. Die Einrichtung 69 zum Löschen wird von der Steuereinheit 44 gesteuert, sie stellt die Speicher 53 und 56 sowie den Addierer-Vergleicher 61 auf null zurück, wenn die Einrichtung ihre Operation hinsichtlich eines Feldes oder Wortes beendet hat und sie bereitet den Empfang anderer Zeichengruppen vor.
Wie Fig. 3 zeigt, ist der Ausgang des optischen Zeichenlesers (OCR) 71 mit dem beide Ausgangsleitungen verbindenden Diskriminator 72 verbunden, dessen Ausgänge jeweils über die Leitungen 74 und 75 mit dem Pufferspeicher 73 verbunden sind. Wie zuvor bereits im Zusammenhang mit Fig. 2 erläutert wurde, werden die vom Pufferspeicher 73 ausgegebenen Ziffern über die Leitung zu dem numerischen Schieberegister 76 übertragen, wohingegen die Buchstaben, die vom Pufferspeicher 73 ausgegeben werden, über die Leitung 95 in das alphabetische Schieberegister 77 sowie in das alphabetische Adressenregister 78 übertragen werden. Die Eingangsstufe 90 ist Teil des alphabetischen Adressenregisters 78.
Der Festwertspeicher 79 enthält die PCI-Werte (Schreibkonveni
tions-Indexwerte, vgl. Einleitung) für jeden Großbuchstaben und jeden Kleinbuchstaben, der über die Leitung 81 vom alphabetischen Adressenregister 78 ausgegeben wird. Ferner enthält der Festwertspeicher die PCI-Werte für Konflikte und Rückweisungen.
Die Zugriffsoperation und die Verwendung des Festwertspeichers sind in Fig. 4 dargestellt. Die Eingabe vom alphabetischen Ad-
WA 974 006
709884/06.17
ressenregister 78 (vgl. Fig. 3) ist mit dem Buchstabenfeld des Zeichenlesers 71 identisch, wobei jeder Buchstabe des Feldes in Form eines numerischen Kodes dargestellt ist. Dieser numerische Kode wird jedem Buchstaben durch seine Position in einem vorher definierten Alphabet zugeteilt, beispielsweise beginnend mit dem Großbuchstaben A = 1 kontinuierlich bis zum Kleinbuchstaben ζ = 52. Es handelt sich hierbei also um eine durchlaufende Numerierung, zuerst für die Großbuchstaben und sofort anschließend für die Kleinbuchstaben von A bis z. Zusätzliche Sonderzeichen können in ähnlicher Weise durch einen höherwertigen numerischen Kode, also durch Zahlen, die größer als 52 sind, dargestellt werden. Dieser Kode wird zur Vereinfachung der Rechnung für die gesamte Nachverarbeitung der Ergebnisse des optischen Zeichenlesens verwendet.
Das in Fig. 4 dargestellte Ausführungsbeispiel zeigt ein alphabetisches Wort oder Feld "MAIm", das von dem optischen Zeichenleser 71 gelesen wurde. Dieses bewirkt eine Speicherung in dem alphabetischen Adressenregister 78 in der Reihenfolge 1, 9, 39 für die Zeichen A, I, m. Gemäß Gleichung (1) ist der erste Buchstabe eines Wortes oder Feldes für die Berechnung des PCI-Wertes ausgenommen. Der Festwertspeicher 79 ist in 52 oder mehr sequentielle Stellen längs einer Dimension unterteilt. In jeder solcher Speicherstelle befindet sich ein Wert, der den vorberechneten Logarithmus des Verhältnisses der Wahrscheinlichkeit eines Buchstabens Ci1 ein Großbuchstabe zu sein, zu der Wahrscheinlichkeit, daß er ein Kleinbuchstabe ist. Für das in Fig. 4 dargestellte Beispiel dienen die Indizes 1, 9 und 39 zur sequentiellen Ansteuerung des Festwertspeichers 79. Daher werden die Werte +2373, +1788 und -2024 vom Festwertspeicher abgerufen und kummulativ von der Anordnung summiert, die aus dem Register 83, dem Addierer 84 und dem Speicher 85 besteht (vgl. Fig. 3).
WA 974 006
7°9884/06,
- ν* -XC
Die aufgelaufene Summe im Pufferspeicher 86 ist für das in Fig. 4 zugrunde gelegte Operationsbeispiel +2137. Die wichtige Kenngröße des Wertes ist das algebraische Vorzeichen (die Polarität "+" oder "-"). Ein Pluszeichen gibt an, daß der PCI-Wert für das Wort oder das Buchstabenfeld größer als eins ist (log 1=0) mit der Vereinbarung, daß das von dem Zeichenleser ursprünglich gelesene Wort in Großbuchstaben geschrieben ist. Der Wert wird von dem Speicher 85 in den Pufferspeicher 86 übertragen und über die Leitung 87 zu dem (Polaritäts-) Detektor 88 übertragen, der feststellt, ob es ein Plus-Zeichen oder Minus-Zeichen ist. Wenn der Detektor einen positiven Wert feststellt, dann erzeugt er das Kennzeichen für einen Großbuchstaben, stellt er aber einen negativen Wert fest, dann erzeugt er das Kennzeiichen für einen kleinen Buchstaben. Demgemäß verfügt das sequentiell vom alphabetischen Schieberegister 77 über die Leitung 97 zum Äusgangsregister 88 übertragene Buchstabenfeld, das über die Leitung 89 ausgegeben wird, über ein Kennzeichen für Großoder Kleinbuchstaben, entsprechend der Schreibweise des vollständigen Wortes. Daher wird für das in Fig. 4 gewählte Beispiel die Buchstabenfolge 11MAIm", die einen PCI-Wert von +2137 hatten, von der Einrichtung über die Ausgangsleitung 89 in Fig. 3 als "MAIm" ausgegeben. Die Steuereinheit 92 in Fig. 3 arbeitet auf ähnliche Weise wie die Steuereinheit 44 in Fig. 2. Dementspreched führen auch die Einheiten zum Löschen 69 in Fig. 2 und 93 in Fig. 3 ähnliche Funktionen aus.
WA 974 006
709884/0617
Zf
r* r*· cn m *~< tncNoj ines O vo
»■»•το cn -j mr-ico tn ο «-* *\ λ ι . « ·«■
η cn m η cm rincn cn cn en V rl N / fl 1 K
Π CO Ή H {ft CN CN O O CO CN Ci O
cn to cn oo comoco n#n mo
co in ν cNin »* -τ σ m vo *τ ο ,-^
CNcnri mn m m »τ cn η nri · ι
cNmcQrHvocio owcovo cn «·» r— πΐ
co in ο γν m -* α ^ ν to co cmcnco J-1
••τ »η cn -τ ο ο r» cn r*· m co co·-* H
cn cn m cn cn m m ν rinn men q
3 N
(U ■μ (D
O (U
CO ο O co
co
»η O tn
m Π
cn m m CM OO cn tn co
CN m O
CO O <»
m
cn
m
CO ιη η ο γ» »τ VD Γ*· α) Ν*τ r>. CO sT
cn tn CO - Π f ί N ο *-t
m CS η η CO η ο cn co r-l
η CO ri m ηηη »η
η O OO ηη-τ Γ* CO
Γ"·
Π
CN γ* η η
CM
O
*O
Π
O
O
η
η
CN CO ·* cn oo »n rH
en ο ο O CN i-< CN
*n cn r·* tn m
CN Π ΓΝ m cn cn
α* rj ** *τ r^- ο
m rs et co co ο
οχ cn co m ο ο
m cn η cn cn n
■n H
H
1)·
Kl
(U H
-CQ
Eh a
ese
A082 σ» O
en
3886 CM
CO
CO
2708
2783
3AS2
m CO rH VO vD S cn co r-l CN VO O CO CN η σ* η •Η Γ-. m
ca
CM r- O
O
CO Ol
m cn σ ο mm oo 3Al in m m co CO r* CO C* O -rl
CN cn CN »-I Γ» CN CO cn ·» η σ* co O r-t CM «ΐ O η r-i
CO < M m m CN CN m cn m m cn m N m cm cn cn cn cm m O
»T ο m C-»
(JiO H
r«- m co m
in r» co co
CO CN -*
m cj cn
CO RS 8
cn r-" cn r-l co co OO CM «j cn co O tn
CM CN co CN Γ-» CO cn cn m m «Τ CM rt m η CO
m vo CN r* cn CO CN CM η σ» co m m
»η »τ «N cn in vD .»τ m cn Γ4 CN CM
^T CO ο — r». cn m O CM m in co M
en vo
r-i «n
cn m
CN cn H η 392 cn cn 316
r» Ot »n CN *ί C-J »* cn ο !Der
1^ ** ^i co co cn m en
CN CN *7 Mt α r* cn co
co tn cn cn m «H η HnN
O CN CO vO cn tn
O -i
gs a» cn
in ri
•■τ m m ο «η γν ο «n cn cn
CN CO
O -T
m <· π m ^* cn cn m >
vo m VO
-J
vO P* CN CM O
co tn ο
CM CN N
CM
m cn O <r ν κ cn co
-I m m cn cn η
1/1 u α ω UJSS5O η. VU M H
cn et ^ m •0
CN
CN
cr> vo
O *i
η %r, ο
cn
m
m m H
C* O \O
ο α -τ
m m m
SM*, η
co cn O I
709884/0617
jORIGIMAL INSPECTED
MN
PQ
2 CO
it ζ
27 i 2300
-8 t
25 c
30 al.
-J
O
3377 26 2186 2186 2955 3252
2397
2278 25S2 2192 3252 3126 2432. 2954
2SS3
2397
3250 3377 TOO?
3; e
3i f
(O
go
2432 2268 33."7 2660 2364 2904 25
33 g
34 h
25 i 3126
CO
Bk-
2462 3126 2335 2664
36 3
37 k
38 1
39 D
40 α 3250
90/r 2335 2955 2417 2270
2535
2326 2358
41 ο
42 ρ
43 4
2293 3250 2313 (Der Wert 2494 2462 2506 36 33
44 r
45 s
2996 2079 3260
2836
2S?6 2494
46 t
47 u
48 ν
49 w
50 χ
2836 2996 2396
51 y
52 ζ
2532
50Q0
ist in dieser Tabelle jeder Leerstelle zugeordnet)
TABELLE III
2221
155
■I«...
■ζ. ω τι
2 K 2870
ι R
3
* D
5 ε
6 F
7 C 2347
3 U
9 I 3958
10 J
11 K
12 L 2323
13 M
14 N
15 O 39S9
16 r
17 Q
18 R 24
19 3OS7
20 T
21 U 2697
22 V
23 U
24 X
25 Y
OO
β»
V W X T Z a b C d e f S h 1 J k 1
3602
3252
4082
3495
4046 2500
4027
2553
3092
2367 3478
2951
3495
2558
3252
3495
3268
4027
4081
4027
3252 4081
3509 3509 3700 3700 3201 3201 2932- 3201 2261 3509
1443
3700
2045
2900
1594
3721 3237
3125
3092
35S6
3237
3721
4000
3415 3393 3731
3192
3843 3252
3996
3114
3252
3693
3843
3S43 2008
3959
3431
3843
2358
3731
3693
3357 3959 3347
3357
3347
3959
3000
3947
3932 3947
3932
3468 3343
3932
2793
2S33
3932
3947
2421
22
2024
2336
2336
40
2S86
79
2609
3000
20
3187 2788
3170
3487
4027
2686 3693 3843
3646 3836
(Der Wert 5000 ist in dieser Tabelle jeder Leerst-e 11«=» zugeordnet)
TABULLS IV
NJ CT)
cn
U V W X Y Z
22
B
25
2191
b
36
C
26
2397
40
3032 27E0
2335
2822 3126
2326 3620 3263
3336
2S57 2857
2955 3260 2536
SO 2506
32
2234
43 37 2494 2508 2996
2508
1736 1435 1805 43
85
y h
1708
i
3084
j k 1
3377 3377
73 15 2435
38
1564
600 21 1443
55
3336 2734
1000
2839
3260
2508 2996
1810
ψ 2494
3000
46 2861
3158
1967
(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)
.TABELLE V
1 A 4031
2 B
3 C
4 D 2722
5 E
6 F
7 e
8 Ii 350!i
9 I
10 J
—I
O 11 K 3237
co 12 1.
00 13
14
M
N
2652
00» 15 0 2688
.p-
X^ 16 P
O 17 Q
cn IS
19
R
S
2867
-4' 20 T
21 Ü
22 V
23 «1
24 X
25 Y
0 P q r S C U V V X y
3495
3550
3509
3Λ25
2455
3215 3509 3046
3482
3731
3458
3640
3731
3843 3843
794 3343
2448
3646
2992 2475 3S36
3084
3487
25G9
2155 1370 1S30 1519 1752
1700 1C.76 2156 1S18 1587
2328 1944 1842 2678 1668
2149 1367 2114 1S77 2137
2042 2S53 2421 1788 2237
C e
2064 3155
2137 3155
2432 3155
2009 3097
2958 3155
1S24 3155
2456 3155
1/86 3155
2237 1013
1936 2543
1826 3155
2638 2432
1212 3155
1550 3522
1827 3155
2538 3155
1668 3155
1687 3522
3523 3155
1830 3222
1632 2886
1564 3155
1226 3155
1U34 3155
1733 3155
(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)
4000 4C00 4000 4000 4000
4000
-:oo
4000 1936 4000
4000 3301 4000 4000 4000
4000 4000 4000 4000 4000
4000 4000 4000 4000 4000
TABELLE VI
<X>
CT -P--CO
cn
26 Z 3034
27 a
28 b
29 C 2668
30 d
31 e
32 f
33 g 2435
34 h
35 1
36 J
37 k
38 1 1550
39 α 21
O 40 η
co 41 ο
00 42 P
ο» 43 q
■Ρ1»- 44 Γ
45 S
O 46 t
47 U
48 V 2535
■sä 49 W
50 X
51 y
52 Z
ο P q r S t U 50 V 32 W A3 X 37 y Z t 43 (*) 1442 e
1442 1420 3155
3384 1523 2402 3155
1407 1552 3155
2323 - 2536 3155
1209 3046 3155
16 78 1209 3155
1S70 1695 2000 3155
2334 958 1794 3155
2000 2087 3155
1637 1000 3155
300 2222 3155
1549 1658 3155
1522 1925 2S86
1448 1760 3155
2861 2009 1706 3155
36 1864 1103 3155
25 1522 1000 3155
156 1000 1765 3155
22 3260 1939 2301 3155
33 1524 2143 3155
2996 24 1662 1736 3155
1428 1425 3155
2155 1208 3155
2535 2276 1322 3155
1830 1715 3155
2583 38 2023 1639 3155
1639 3155
(Der Wert 5000 ist in dieser Tabelle jeder Leerstelle zugeordnet)
4000 4000 4000 4000 4000
4000 4000 4000 2388 2794
4C0O 4000 1836 4 000 4000
4000 4000 4000 4000 4000
4C00 AOOO 4000 400O 4000
4000 400O
TABELLE VII
-57-Leerseite

Claims (9)

PATENTANSPRÜCHE Groß- und Kleinbuchstaben, die von einem Zeichenleser • als Reihe kodierter elektrischer Signale ausgegeben werden, gekennzeichnet durch folgende Verfahrensschritte: j
1. Speicherung der für jeden Buchstaben gültigen Wahrscheinlichkeitswerte seiner Groß- bzw. Kleinschreibweise, in einem Speicher unter einer Adresse, die dem elektrischen Kodesignal des jeweiligen Buchstabens entspricht,
2. Adressieren des Speichers mittels der elektrischen Kodesignale und Auslesen der oben genannten Wahrscheinlichkeitswerte für die vom Zeichenleser angelieferten, den Buchstaben entsprechenden kodierten elektrischen Signale,
3. Ermitteln von zwischen benachbarten Buchstaben angebrachten Leerstellen, die von dem Zeichenleser zum Zwecke der Gruppierung der Reihe kodierter elektrischer Signale in ein Buchstabenfeld zwischen aufeinanderfolgenden Leerstellen ausgegeben wurden,
4. Addieren der Wahrscheinlichkeitswerte der Buchstaben aus dem Buchstabenfeld und
5. Ermitteln der Polarität der algebraischen Summe der Wahrscheinlichkeitswerte der Schreibweise zur Bestimmung der Schreibweise der Buchstaben in dem abgetasteten Feld als Groß- oder Kleinbuchstaben.
WA 9 74 006
709884/06T7
ORIGINAL INSPECTED
- äff h
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß im ersten Schritt die Wahrscheinlichkeitswerte der
Schreibweise Ρττ(α ) und Ρτ (α ) für die Buchstaben gemäß υ η η
folgenden Gleichungen gespeichert werden:
26 Pn(On) = Σ Ροη|ϋ(χ)] · P[UU)] und
LJ Il · .^ Ί O Il
26 W = I Pc[anlL(i)1 "
worin Pn(α ) den Wahrscheinlichkeitswert angibt, mit dem das vom Zeichenleser erkannte Zeichen (α ) von der Abtastung eines Großbuchstabens herrührt, P^ (o ) den Wahrscheinlichkeitswert angibt, daß das vom Zeichenleser erkannte Zeichen (α ) von der Abtastung eines Kleinbuchstabens herrührt, U(i) der i-te von 26 Großbuchstaben, L(i) der i-te von 26 alphabetischen Kleinbuchstaben, P [α |u(i)] die Verwechselungswahrscheinlichkeit von U(i) als α gelesen zu werden, P[U(i)] die Wahrscheinlichkeit von U(i), mit der dieser Buchstabe auf dem abgetasteten Element in Abhängigkeit von der verwendeten Sprache auftritt, P [α iL(i)] die Verwechselungswahr-
c η
scheinlichkeit mit der L(i) als α gelesen wird und P[L(I)] die Wahrscheinlichkeit, mit der L(i) auf dem Dokument in Abhängigkeit von der verwendeten Sprache auftritt, sind.
974 006 703884/0617
3. Verfahren nach Anspruch 2 und/oder 3, gekennzeichnet | durch die zusätzlichen Schritte a) des Speicherns eines j abgetasteten Buchstabenfeldes in einem Pufferspeicher, i der mit der Ausgangsleitung des Zeichenlesers verbunden ; .ist und b) des Versehens des Buchstabenfeldes im Puffer j mit einer Kennzeichnung als Groß- oder Kleinbuchstaben in Abhängigkeit von der Polarität der algebraischen Summe der Wahrscheinlichkeitswerte der Schreibweise.
WA 974 006
709884/0617
4. Verfahren zur Unterscheidung von in Feldern angeordneten j Groß- und Kleinbuchstaben, die von einem Zeichenleser 1 als Reihe kodierter elektrischer Signale ausgegeben | werden, gekennzeichnet durch folgende Verfahrensschritte:
1. Speichern des Wahrscheinlichkeitswertes, mit dem ein Buchstabe als Großbuchstabe geschrieben wird in einem ersten Speicher mit einer Adresse, die seinem kodierten elektrischen Signal entspricht,
2. Speicherung des Wahrscheinlichkeitswertes eines
jeden Buchstabens, mit dem dieser als Kleinbuchstabe . geschrieben wird in einem zweiten Speicher unter der Adresse seines kodierten elektrischen Signals,
3. Adressierung des ersten und zweiten Speichers mit den kodierten elektrischen Signalen der Buchstaben in der Sequenz dieses Auftretens in dem Buchstaben- ι feld und Auslesen der jeweiligen Wahrscheinlichkeitswerte der Groß- und Kleinbuchstaben, j
4. Feststellen von Leerstellen zwischen benachbarten Buchstaben in dem Buchstabenstrom, der von dem Zeichenleser ausgegeben wird und das Feld zwischen zwei benachbarten Leerstellen begrenzt,
5. Addieren der Wahrscheinlichkeitswerte der Großbuchstaben, die von dem ersten Speicher ausgegeben werden,
6. Addieren der Wahrscheinlichkeitswerte der Kleinbuchstaben, die vom zweiten Speicher ausgegeben werden,
7. Invertieren einer der nach Schritt 5 oder 6 errechneten Summe der Wahrscheinlichkeitswerte,
8. Vergleich der anderen Summe der Wahrscheinlichkeitswerte mit der invertierten Summe, wobei ein Plus-Zeichen für die Großbuchstaben-Schreibweise und ein Minus-Zeichen für die Kleinbuchstaben-Schreibweise der Buchstaben in einem Buchstabenfeld gebildet wird und
9. Kennzeichnung des Buchstabenfeldes entsprechend des abgeleiteten Vorzeichens.
974 006 709884/0617
DE19762654815 1975-12-24 1976-12-03 Verfahren zur unterscheidung von gross- und kleinbuchstaben Ceased DE2654815A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/643,976 US4003025A (en) 1975-12-24 1975-12-24 Alphabetic character word upper/lower case print convention apparatus and method

Publications (1)

Publication Number Publication Date
DE2654815A1 true DE2654815A1 (de) 1978-01-26

Family

ID=24582922

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19762654815 Ceased DE2654815A1 (de) 1975-12-24 1976-12-03 Verfahren zur unterscheidung von gross- und kleinbuchstaben

Country Status (7)

Country Link
US (1) US4003025A (de)
JP (1) JPS5280743A (de)
CA (1) CA1066418A (de)
DE (1) DE2654815A1 (de)
FR (1) FR2336743A1 (de)
GB (1) GB1559884A (de)
IT (1) IT1072633B (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
JPS5854433B2 (ja) * 1980-09-11 1983-12-05 日本電気株式会社 相違度検出装置
JPS5837779A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 文書処理装置
JPS6037326U (ja) * 1983-08-24 1985-03-14 ユニゾン株式会社 遠赤外線併用サウナ風呂
US5261009A (en) * 1985-10-15 1993-11-09 Palantir Corporation Means for resolving ambiguities in text passed upon character context
US5133023A (en) * 1985-10-15 1992-07-21 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US5119441A (en) * 1989-03-28 1992-06-02 Ricoh Company, Ltd. Optical character recognition apparatus and method using masks operation
US5228133A (en) * 1990-10-01 1993-07-13 Carl Oppedahl Method to perform text search in application programs in computer by selecting a character and scanning the text string to/from the selected character offset position
US5544257A (en) * 1992-01-08 1996-08-06 International Business Machines Corporation Continuous parameter hidden Markov model approach to automatic handwriting recognition
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
TW200538969A (en) * 2004-02-11 2005-12-01 America Online Inc Handwriting and voice input with automatic correction
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US20060090126A1 (en) * 2004-10-26 2006-04-27 International Business Machines Corporation Method, system, and storage medium for providing instant text character identification
US20090144162A1 (en) * 2007-11-29 2009-06-04 Neil Milne Transaction Security Method and Apparatus

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3634822A (en) * 1969-01-15 1972-01-11 Ibm Method and apparatus for style and specimen identification
US3651459A (en) * 1970-05-15 1972-03-21 Philco Ford Corp Character distance coding

Also Published As

Publication number Publication date
FR2336743A1 (fr) 1977-07-22
IT1072633B (it) 1985-04-10
JPS5280743A (en) 1977-07-06
CA1066418A (en) 1979-11-13
US4003025A (en) 1977-01-11
JPS5713029B2 (de) 1982-03-15
GB1559884A (en) 1980-01-30
FR2336743B1 (de) 1980-10-24

Similar Documents

Publication Publication Date Title
DE10342594B4 (de) Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE2541204C3 (de) Einrichtung zur Fehlerkorrektur
DE2654815A1 (de) Verfahren zur unterscheidung von gross- und kleinbuchstaben
DE19547812C2 (de) Lesegerät für Schriftzeichenketten
DE3851867T2 (de) Zeichenerkennungsgerät.
DE69428590T2 (de) Auf kombiniertem lexikon und zeichenreihenwahrscheinlichkeit basierte handschrifterkennung
DE69515461T2 (de) Simplifiziertes strichkodedekodierverfahren
DE68922870T2 (de) Textverarbeitungseinrichtung für europäische Sprachen mit Rechtschreibungs-Korrekturfunktion.
DE2946857A1 (de) Wortspeichergeraet
DE2640537A1 (de) Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen
DE2755875C2 (de)
DE2915673A1 (de) Textbearbeitungseinrichtung mit einer anzeigeeinrichtung
DE2435889B2 (de) Verfahren und einrichtung zur unterscheidung von zeichengruppen
DE2513566A1 (de) Binaere referenzmatrix
DE2630430A1 (de) Einrichtung zum automatischen setzen von binde- bzw. trennungsstrichen
DE102018115158A1 (de) NC-Programm-Umwandlungseinrichtung
DE3246631C2 (de) Zeichenerkennungsvorrichtung
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
DE1474163A1 (de) Anordnung zur Fehlerermittlung mit Korrektureinrichtung fuer Schriftzeichenlesegeraete u.dgl.
DE1197656B (de) Verfahren zur maschinellen Zeichenerkennung
DE1221042B (de) Verfahren und Anordnung zum Erkennen von Zeichenkombinationen
DE2460757C2 (de) Einrichtung zur Auswahl der richtigen Form eines bei der maschinellen Zeichenerkennung verstümmtelten Wortes
DE69331035T2 (de) Zeichenerkennungssystem
DE69229095T2 (de) Elektronisches Wörterbuch mit einer Zeiger- und Wortkorrektionsdatei
DE3407831C2 (de)

Legal Events

Date Code Title Description
OAP Request for examination filed
OD Request for examination
8131 Rejection
8180 Miscellaneous part 1

Free format text: WIEDEREINSETZUNG IN DEN VORHERGEHENDEN STAND

8131 Rejection