DE2630304A1 - Einrichtung zur ueberpruefung der gueltigkeit von alphabetischen eingangszeichen - Google Patents

Einrichtung zur ueberpruefung der gueltigkeit von alphabetischen eingangszeichen

Info

Publication number
DE2630304A1
DE2630304A1 DE19762630304 DE2630304A DE2630304A1 DE 2630304 A1 DE2630304 A1 DE 2630304A1 DE 19762630304 DE19762630304 DE 19762630304 DE 2630304 A DE2630304 A DE 2630304A DE 2630304 A1 DE2630304 A1 DE 2630304A1
Authority
DE
Germany
Prior art keywords
angle
word
amount
memory
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19762630304
Other languages
English (en)
Inventor
Walter Steven Rosenbaum
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2630304A1 publication Critical patent/DE2630304A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Character Input (AREA)
  • Detection And Correction Of Errors (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

Einrichtung zur überprüfung der Gültigkeit von alphabetischen !Eingangs zeichen
Die Erfindung betrifft eine Einrichtung mit einer digitalen Referenzmatrix zur überprüfung der Gültigkeit von alphabetischen Eingangszeichen als gültige linguistische Ausdrücke.
Sie ist anwendbar auf dem Gebiet der Datenverarbeitung zur Machverarbeitung der Ausgangsdatenströme von Eingabetastaturen, Zeichenerkennungsrnaschinen und Sprachanalysatoren. Ein wichtiges Problem bei dieser Nachverarbeitung ist darin zu sehen,- daß ain ,Ausgabewort auf sehr schnelle Weise mit einem Verzeichnis (Wörterbuch) zu vergleichen ist und dabei ein Anzeigesignal !gewonnen werden muß, welches das Vorliegen oder Nichtvorliegen 'eines annähmefähigen Wortes angibt.
So wurden bereits Anstrengungen gemacht, die durch ein alpha-Ibetisches Wort gegebene Information in eine signifikante Speicher-! .adresse umzuwandeln, um mit dieser Adresse aus dem Speicher j !information abzurufen, die Auskunft darüber gibt, ob das Ausgabewort tatsächlich ein korrektes Wort ist. So ist beispielsweise Iin den "IEEE Transactions on Engineering Writing and Speech, Vol. EWS-12, Nr. 2, Dezember 1967, Seite 67" ein Artikel "Spelling, Correction by Vector Representation Using a Digital Computer" von ' J.J. Giangardello erschienen, in dem ein Verfahren beschrieben wor-f den ist, das eine Vektordarstellung für alphabetische Wörter be-
609883/0932
nutzt, indem den Buchstaben "A" bis "Z" die Zahlen 1 bis 26 zugeordnet werden, woraus ein Vektorbetrag und ein Winkel für den Zugriff eines Wortes aus einem Speicher in einem Allzweckrechner errechnet werden.
Von Nachteil hierbei ist eine für fast alle bekannten Lösungen typische Unsicherheit, die sich daraus ergibt, daß die Umwandlung eines zu überprüfenden verstümmelten Wortes in eine Schlüsseladresse zu einem nicht eindeutigen Speicherzugriff führt. Die erzeugte Vektoradresse kann v/ahlfrei eine besetzte oder gültige Adresse eines oder mehrerer Wörterbuchwörter ansteuern, ohne daß das Wörterbuchwort mit dem gewünschten Wort übereinstiiumt, da das gewünschte Wort in seiner verstümmelten Form untersucht wird. Die Darstellungen, die für gültige Wörter hier gewonnen werden, sind also nicht eindeutig für jedes gültige Viörterbuchwort. Es ist daher notwendig, eine Einrichtung zu schaffen, die für die zu prüfenden Worte Vektoradressen erzeugt, die eindeutig sind, wobei aber gleichzeitig die Größe des Referenzmatrixspeichers in vernünftigen Grenzen gehalten werden soll.
Es ist daher die Aufgabe der vorliegenden Erfindung, für die Überprüfung von Ausgabewörtern aus datenverarbeitenden Einrichtungen auf gültige linguistische Ausdrücke, eine Lösung anzugeben, bei der durch eindeutige Zuordnung der zu überprüfenden Ausgabewörter zu den in einer Speichermatrix gespeicherten Liste gültiger Wörter, eine eindeutige Überprüfung möglich ist, wobei die Belegung des Speichers in einer besonders ökonomischen Weise erfolgen soll.
Gelöst v/ird diese Aufgabe der Erfindung durch die im Hauptanspruch angegebenen Merkmale. Weitere Merkmale, vorteilhafte Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den Unteransprüchen zu entnehmen.
WA 975 003
809883/0931
Durch konsequente Anwendung der Lehre der Erfindung ergibt sich für die Nachverarbeitung von Ausgabedatenströmen aus Tastaturen, Zeichenlesern und Sprachanalysatoren der Vorteil einer äußerst zuverlässigen und wirtschaftlichen überprüfung alphabetischer Wörter auf gültige linguistische Ausdrücke.
Im folgenden wird ein Ausführungsbeispiel der Erfindung anhand der Figuren erläutert.
Es zeigen:
Fig. 1 das Blockschaltbild einer Einrichtung mit einer
binären Referenzmatrix zur überprüfung von alphabetischen Eingangszeichen auf gültige linguistische Ausdrücke und
Fig. 2 eine Darstellung der internen Organisation der
digitalen Referenzmatrix.
Die digitale Referenzmatrix (DRM) ist eine sehr wirksame Einrichtung, dl« wenig Speicherraum benötigt, um festzustellen, ob ein Wort richtig geschrieben, getippt, gesprochen oder gelesen wurde. In logischer Hinsicht muß die DRM in irgendeiner Form eine Darstellung aller Wörter enthalten, die auf Dokumente mit Hilfe •iner Tastatur aufgebracht, von einem optischen Zeichenleser abge tastet oder von einer Sprachverarbeitungseinrichtung gesprochen wurden· Die Liste gültiger linguistischer Ausdrücke kann zuweilen sogar umfangreicher sein, als der bekannte "Webster Dictionary11 für die englische Sprache. Daher sind konventionelle ßpeicherzugriffs- und -euchtechniken hinsichtlich eines solchen Wörterbuches nicht mehr brauchbar, was insbesondere für Echt sei ^anwendungen gilt. Das Ziel von Verifizierungstechniken be steht darin, die Speicher- und Suchzeiten für große Wörterbücher, dl· für bestimmte Anwendungen erforderlich sind, möglichst klein zu halten.
WA 975 003
109883/0932
,Die DRM ist eine spezialisierte Anwendung der Alpha-Wort-Daristellungstechnik (AWVR). Die Mechanik dieser Technik ist in
•Tabelle 1 dargestellt.
Tabelle 1 Numerische Extraktion des Alpha-Feldes
A = 1, B = 2, C = 3, D = 4, E = 5, F = 6, ' G = 7, H = 8, I = 9, J = 10, ..., Z = 26
Schritt 1
j Vektor Abbildung CORNWALL + (3, 15, 18, 14, ! 23, 1, 12, 12)
Schritt 2
Vektor Attribute (3, 15, 18, 14, 23, 1,
12, 12) ·* Betrag, Winkel
Betrag = Funktion des Zeichens im Wort
Σ L2 = (3)2 2 + (15)2 2 + (18)2 2 + (14)2 + (23)2
W=I
+ (1) + (12) + (12) = 1572 = Y2 Winkel = Funktion der Zeichenposition
= see"1 = 83,7392 Grad
Hierin bedeuten R der Referenzvektor für jede Wortlänge (N), !bestehend aus einem "N"-fachen von linear unabhängigen Ausdrücken, die der Position jedes Buchstabens in dem Wort entsprechen, z. B. V2, VJ, Vif, V?", ...,Vj oder log 3, log 5, log 7, log 10, ..., log K, wobei J irrational und K eine
Primärzahl ist und wobei
|r| = V(V2)2 + (73)2 + (Y5)2 + ... (Vj)2, usw. ist.
WA 975 OO3
109883/0932
i - 5 -
Prinzipiell besteht die zugrunde liegende Rationalzahl des Ai1JVR !darin, daß jedes Wort oder jeder Zeichenstrang mittels einer Vektordarstellung angegeben werden kann, indem jedem Buchstaben des Alphabets ein eindeutiger numerischer Wert zugeordnet wird. Eins der direktesten und intuitivsten Zuteilungsschemen ist folgendes: A=I, B = 2, C = 3, ..., Z = 26. Jede Vektordarstellung eines auf diese Weise erzeugten Wortes würde ihrerseits eindeutig in Termen der linearen algebraischen Vektorzuteilungen von Betrag und Winkel rekonstuierbar sein. Hierin reflektiert der Betrag den Zeicheninhalt und der Winkel die relative Lage des Zeichens innerhalb eines Wortes.
Es sei an dieser Stelle erwähnt, das gerade durch die Verwendung einer Betrag/Winkel-Darstellung ein alphabetisches Wort belieger Länge eindeutig mit nur vier Speicherbytes dargestellt werden kann.
Eine beträchtliche Verdichtung wurde hier auch schon bei Alpha-Wörtern beliebiger Länge eindeutig durch die Verwendung eines Zahlenpaars möglich gemacht. Die endgültige Form der Verifizierung bringt jedoch diese Verdichtung um einen Schritt weiter, indem die Betrag-/Winkelpaare unter Verwendung der digitalen Referenziuatrix (DRM) gespeichert werden.
Fig. 2 zeigt die interne Organisation der DRM. In einer DRM ist ,
i .der Satz gültiger Betrag-/Winkelpaare in Run-Längencodierung
!gespeichert· Dieses Vorgehen bringt den Vorteil der Bündelung !
' I
!über bestimmte Betragsbereiche mit sich, über den man verfügen kann, wenn eine große Wortliste in einer Betrag/Winkel-Darstel- ; lung unter Zuhilfenahme der AWVR abgebildet werden soll. Wenn daher mehrere Verifizierungs-Wörterbucheintragungen den gleichen Betrag erzeugt haben, und sie sich nur hinsichtlich ihrer je- ι v/eiligen Winkelzuteilungen unterscheiden, dann wird ihr Be- | tragszeiger nur einmal gespeichert und aufeinander folgende
legale Winkelwerte zu Ketten zusammengefaßt, indem ihr hoch- !
WA 975 OO3
609883/0932
stelliges iJit eingeschaltet und die Kette legaler Winkel (logisch) rechtsbündig neben dem Betragszeiger gespeichert wird.
Der Speicherplatzbedarf, der für die DRM-Betragszeiger benötigt wird, kann sogar selbst verringert werden, indem eine Modulo 256 Vereinbarung und eine Indextabelle verwendet wird, um die Betragsachse der Matrix zu beschreiben. Die Indextabelle liefert absolute Abweichungen für jeden Betrags-Run von 256 Einheiten. Auf diese Weise benötigt man zur Speicherung jedes Amplitudenzeigers noiitinell gerade 1 Byte (vgl. unteren Teil von Fig. 2).
Die Wirksamkeit der Komprimierung der digitalen Referenzmatrix ist von dem Grad der Bündelbildung abhängig, die in der Verteilung legaler Beträge vorliegt. Das alphanumerische äquivallenzschema (vgl. Fig. 2 oben) kann manipuliert werden, um Betragsdichtecharakteristiken in die AWVR-Abbildung des Verifizierungswörterbuches in die Vektordarstellung einzuführen. Bei der Anwendung stellt die digitale Referenzmatrix jeden Eintrag in der Verifizierungswortliste dar, indem sie im Mittel 1,16 bis 1,25 Bytes je Eintragung benutzt, wobei dieser Wert unabhängig von der Zahl der Buchstaben ist, die sich im Originalwort befinden. So könnte beispielsweise ein Verifizierungsvokabular von 10 OOO Wörtern in einem 11,6 k bis 12,5 k Bytes großen Speicher gespeichert werden. Bekannte alphabetische, d. h. Buches tabenspeichertechniken, erfordern für den gleichen Zweck einen Speicher mit der Kapazität von 80 k Bytes. Darüberhinaus sind die DRM-Maschinenoperationen, die sich auf die Verifizierung beziehen, etwa eine Größenordnung schneller als Tabellensuchioperationen nach Buchstabenketten in einer nichtverdichteten Wortliste.
Eine zweite DRM-Verdichtungsmethode, die duale Runlängencodierung für den Vektorbetrag und seinen Winkel verwendet, ist in Tabelle 2 dargestellt.
WA 975 003
609883/0931
Vektorwortliste Betrag Winkel
123 .16.72° Segment
123 30.10°
123 42.36°
123 82.60°
123 88.83°
125 12.31°
125 60.20°
126 7.72°
126 12.23°
126 19.12°
126 33.31°
126 40.05°
126 49.91°
126 70.79°
126 75.23°
126 82.96°
127
M
B
m
27.28°


DRM
1 1 0 1 16.72" 30.10° 42 .36° 82.60° 88.83" i 33.31° 40.05° 49.91° 70.79° 75.23°i
I
125 0 0 10 12.31° 60 .20°
1 1 1 1 7.72° 12.23 19 .12 mit dualer Run-Längencodierung
126 0 0 0 1 82.96°
DRM Organisation
und Winkel
Tabelle 2
von Betrag
WA 975 003
609883/0932
Ein volles Byte (3 Bits) dient der Speicherung des Winkels, wodurch sich eine Auflösung von 256 Einheiten ergibt. Alle Winkel, die den gleichen Betrag haben,· werden linksbündig kontinuierlich nebeneinander gespeichert, wobei dem am weitesten links stehenden Winkelbyte ein vier Bit breites Kopffeld voran steht. Die drei niedrigstelligen Bits des Kopffeldes geben an, wieviele Winkelwerte unter diesem Betrag zu einer Kette zusammengefaßt sind. Das hochstellige Bit des vier Bit breiten Kopffeldes gibt an, ob der nächste Betragswert um eine Einheit von dem betrachteten Betragswert entfernt liegt. So ist beispielsweise das hochtstelligste Bit des vier Bit breiten Kopffeldes ausgeschaltet, d. h. auf Null gesetzt, wenn der gerade betrachtete Betragswert 98 und der nächste Betragswert 99 ist. Der nächste Betragswert ist in diesem Schema inplizit enthalten und erfordert keine diskrete Darstellung.
Das höchststellige Bit des Vierbit-Kopffeldes wird eingeschaltet, ,d. h. auf Eins gesetzt, wenn der nächste Betragswert außerhalb einer Folge liegt, wenn beispielsweise dem betrachteten Betrag 103 der Betrag 105 folgt. Das höchststellige Bit des Kopffeldes jwird daher auf Eins gesetzt, wenn ein Betrag über mehr als acht zugeordnete Winkelwerte verfügt. Nachdem der erste Run von acht Winkelwerten gespeichert wurde, erfordern die zusätzlichen Winkel (überlauf), daß der Originalbetragswert wieder aufgelistet wird. Auf diese Weise wird der Zuwachs des Betrags urn eine Einheit unterbrochen.
Wenn das höchststellige Bit des Kopffeldes eingeschaltet ist, ,ist das Byte, das seinem angehängten Winkel folgt, betragsbezogen zu dem nächsten Run von Winkelbytes. Die Werte dieses [Bytes, addiert zu der Abweichung (Verschiebung) dieses Abschnitts der digitalen Referenzmatrix bezüglich ihres Eintragungspunktes in die Indextabelle, ergibt in absoluten Termen iden Betragswert für den nächsten Run von Winkelbytes. Dieses (Byte wird als Betragsindex-Eichbyte (MICB) bezeichnet. Die Ver-
WA 975 003
609883/0932
Wendung der Indextabelle zur Bestimmung absoluter Betragswerte wurde oben erläutert.
Ein fakultativer Aspekt der DRM-Organisation besteht darin, in die DRIl alle 50 oder 100 Bytes ein MICB einzufügen. Dieses gestattet der DRM-Betragsachse, daß sie binär abgesucht werden kann, uia so dicht wie möglich an die gewünschte Stelle gesteuert zu werden, bevor die Betragssuche. Betrag um Betrag, beginnt. Dieses Vorgehen im Zusammenhang mit der digitalen Differenzmatrix veriaeidet die sonst notwendige Forderung, daß jedes höchtstellige Bit eines Winkels nach einem Kettungskennzeichen untersucht werden muß. Somit ist es nur noch erforderlich, daß ein Betragswert diskret gespeichert v/erden rauß, der außerhalb der Reihenfolge liegt. Die mittlere Speicherung je Wörterbucheintrag ist bei diesem Format etwa 9 Bits.
"wenn eine digitale Referenzmatrix einmal aufgebaut ist, dann erfolgt die Verifizierung (überprüfung) eines Eingangswortes dadurch, daß die Betrags- und Winkelzuteilungen für das Wort errechnet und die digitale Referenzmatrix bei dem Betrag des Eingangswortes angesteuert und dann nur noch nach dem passenden Winkel gesucht wird.
Fig. 1 zeigt also, wie bereits gesagt, eine überprüfungseinrichtung unter Verwendung einer digitalen Referenzroatrix. Ein kombinierter Strom alphanumerischer Zeichen, der als Ausgang einer Tastatur, eines Zeichenlesers oder eines Sprachanalysators betrachtet werden kann, wird über die Leitung 2 der Einrichtung in Fig. 1 eingegeben. Ein Worttrennungsdetektor 4 ist mit der Eingangsleitung 2 verbunden und stellt das Auftreten eines Worttrennungssymbols fest, das den Anfang eines neuen viortes angibt. Da sowohl alphabetiscne als auch numerische Seichen in dem Zeicheneingangsstrom vorhanden sein können, ist ein Sahlendetektor 6 vorgesehen, der ebenfalls an die Eingangsleitung 2 angeschlossen ist, und feststellt, ob ein Eingangszeichen ein alphabetisches .
WA 975 003
609883/0932
oder ein numerisches Zeichen (ein Buchstabe oder eine Zahl) ist. Der Zahlendetektor 6 aktiviert ein Tor 8, das nur den Buchstaben den Durchtritt zu dem Umwandlungsspeicher 10 ermöglicht. Der üiiiwandlungsspeicher 10 enthält das alphanumerische ilquivalenzscheraa, das sich auf alphabetische Zeichen mit gewichteten numerischen Werten bezieht. Der numerische Wichtungswert für ein Zeichen nd" wird mit L bezeichnet. Der umwandlungsspeicher 10 gibt diesen Wichtungswert L über die Datensamrcielleitung aus.
Der Zugriff siiifechanismus für die Adressierung der Betrags liste in deid Speicher 33 besteht aus einem Multiplizierer 12, einem Addierer 14, einem Register 16 sowie einem Betragsregister Der Viert L.. auf der Datensairanelleitung 11 wird in dem Multiplizierer 12 quadriert und zu der Summe des zuvor quadrierten Wertes von L, des alphabetischen Wortes unter Mitwirkung des Addierers 14 und dt-s Registers 16 addiert. Das Verfahren zur
2 Errechnung des Viertes der Summe von L wird solange vorgeführt, bis der Worttrennungsdetektor 4 das Worttrennungssymbol auf der Hingangsleitung 2 feststellt. Wenn dieser Zeitpunkt gekommen
ist, wird der endgültige Wert der Summe von L„ in einen Betragsregister 17 als Adresse des Betrags eines Wortes im Speicher 38 eingegeben, wobei dieses Wort auf den Werten von I^ basiert, die den Zeichen zugeordnet sind, aus denen das eingegebene alphabetische Wort zusammengesetzt ist.
Die Einrichtung zur Berechnung des Winkels für das Eingabewort besteht aus einem Zähler 18, einem Zeichenpositionsdecodxerer 19, einem Multiplizierer 20, einem Addierer 22, einem Register 24, einem weiteren Multiplizierer 26, einem Teiler 28, einem Rechner 29 zur Berechnung des Arcus Sekans, einem Multiplizierer 30, einem Addierer 32, einem Register 34, einem Quadratwurzelrechner 27 und einem weiteren Quadratwurzelrechner 36» Der Zähler 18 zählt die Position der Zeichen in jedem alphabetischen Wort, das von der Einrichtung verarbeitet wird. Das Ausgangs-
WA 975 003
609883/0932
signal des Zählers 18 wird von dem Zeichenpositionsdecodierer 19 decodiert, um einen Voreinsteilungswert von R^ an den Multiplizierer 20 abzugeben. Wie im vorstellenden theoretischen Teil des Betriebsablaufes der Einrichtung bereits erwähnt wurde, ist der Wert von R. für jede Buchstabenpostion in einem Wort eine linear unabhängige Zahl. Der Wert L auf der Datensammelleitung 11 wird zu dem Multiplizierer 20 übertragen und mit dem gegenwärtigen Wert Rj. multipliziert, und anschießend das Produkt zu dem Addierer 22 übertragen. Der Addierer 22 und das Register 24 erstellen die laufende Summe des Produktes L^ mal IL, für das gerade analysierte Alphawort. Wenn der Worttrennungsdetektor 4 das nächste Worttrennungssymbol auf der Eingangsleitung 2 feststellt, dann gibt das Register 24 die endgültige Summe von L„ mal R^ an den Teiler 28 weiter. Der gegenwärtige Zeichenpositionswert Rn wird vom Zeichenpositionsdecodierer 19 zu dem Multiplizierer 30 übertragen, der den Wert R,^^ erzeugt, der dann an den Addierer 32 weitergegeben wird. Der Addierer 32 und das Register 34 enthalten die laufende Summe der Quadrate von Rn, und wenn der Worttrennungsdetektor 4 das nächste Worttrennungssymbol im Eingangsdatenstrom 2 feststellt,
2
dann wird die endgültige Summe von Rn an den Quadratwurzelrechner 36 ausgegeben. Der Quadratwurzelrechner 36 berechnet die Quadratwurzel der Summe der R-v-Quadrate, so daß sich ein Wert |R| ergibt, der an den Multiplizierer 26 weitergegeben wird. Der Quadratwurzelrechner 27 berechnet die Quadratwurzel der Summe der L-j-Quadrate, die mit I Y| bezeichnet ist. Der Multiplizierer 26 multipliziert den Wert des Betrages Y mit dem Betrag R des Quadratwurzelrechners 36 und gibt das Produkt als den Zähler des Bruches zu dem Teiler 28. Der Wert der Summe von Ln mal Rn, der vom Register 24 zu dem Teiler 28 übertragen wird, dient als Zähler des Bruches. Der Quotient wird dann von dem Arcus Sekans-Rechner 29 weiter verarbeitet. Der Winkelwert, der von dem Arcus Sekans-Rechner 29 ausgegeben wird, wird in das Winkelvergleichsregister 41 geladen.
WA 975 003
609883/0932
Die Organisation des Speichers 38 basiert auf der Zeichenübertragungsfunktion der Maschine, deren Ausgangszeichenstrom zu analysieren ist. Diese Organisation basiert weiter auf der Alphawort-Vektordarstellung (AWVR-Technik), die ebenfalls zuvor erläutert wurde. Alle gültigen Beträge, denen für jedes gültige Wörterbuchwort eindeutige Winkelwerte zugeordnet sind, sind in dem Speicher 38 gespeichert, wie es Fig. 2 zeigt. Die äußerst rechte Position jedes Winkelbytes ist als Indikator reserviert, der angibt, ob zusätzliche Winkel für den betrachteten Betrag nachfolgen. Der errechnete Betrag für das in dem Betragsregister 17 gespeicherte Eingangswort dient als Zugriffsadresse für den Speicher 38, also als Adresse für das Auslesen eines darin gespeicherten zugeordneten Betrags. Wenn keine Übereinstimmung festgestellt wird, dann überträgt das Tor 39 diesen errechneten Betrag in das Null-Betragsregister 40, das den Flip-Flop 42 auf "Null" setzt, wodurch angegeben wird, daß das Eingangswort ungültig ist.
Wenn der errechnete Wert des Betrages eines Eingangswortes mit einem Betrag im Speicher 38 übereinstimmt, dann überträgt das Tor 39 alle Winkelwerte, die zu dieser Speicheradresse gehören, ;in den Winkelspeicherpuffer 45. Die Winkel in diesem Winkel-Ispeicherpuffer 45 werden dann mit Hilfe des Winkelvergleichs- ;registers 41 mit dem Winkel für das Eingangswort verglichen, ■der von dem Arcus Sekans-Rechner 29 errechnet wurde. Wenn eine 'Übereinstimmung festgestellt wird, dann setzt das Ausgangs- !signal des Tores 43 den Flip-Flop 42 auf "Eins", die auf der Leitung 44 dann feststellbar ist, wodurch angezeigt wird, daß das Eingangswort ein gültiges Wort ist. Eine "Null", die auf j der Leitung 44 festgestellt wird, gibt hingegen an, daß das !Eingangswort ein ungültiges Wort ist. Die Ausgangssignale der digitalen Referenzmatrix können auch dazu dienen, der Bedienungsperson an einer Tastatur mitzuteilen, daß ein Tippfehler !vorgekommen ist oder, wenn es sich um eine vorgeschaltete automatische Einrichtung handelt, dieser vorgeschalteten Einrichtung
WA 975 003
609883/0932
- 13 mitzuteilen, daß sie in den Wiederholungsbetrieb übergehen soll.
Die Operation der Wortgültigkeitsprüfeinrichtung sei im folgenden anhand disr Fig. 1 näher erläutert. Wann immer ein alphabetisches Wort im Eingangsdatenstrom auf dor Leitung 2 zu der digitalen Referenzmatrixsinrichtung festgestellt wird, dann aktiviert der Zahlendetektor 6 das Tor 8 damit dieses die Buchstaben des Wortes in den Umwandlungsspeicher 10 überträgt. Der Umwandlungsspeieher 10 wandelt sequentiel jeden einzelnen Buchstaben des alphabetischen Wortes in einen vorgegebenen numerischen viert L,. Die numerischen Darstellungen L... für die Buchstaben des Eingangswortes werden von dem Uiawandlungsspeicher seriell auf die Datensammelleitung 11 ausgegeben. Jede numerische-. Darstellung L1x wird von dem Kultiplizierer 12 empfangen, der diesen Ivert mit sich selbst multipliziert, um das Quadrat von L zu bilden. Das Ausgangssignal des Multi-
2
plizierers, L , wird mit Hilfe des Addierers 14 zu dem Inhalt des Registers 16 addiert, um die laufende Summe des Quadrats der numerischen Darstellungen für die Buchstaben des Eingangswortes zu bilden. Die endgültige Summe der numerischen Darstellungen für die Buchstaben in dem VJort wird im Betragsregister 17 gespeichert und sie definiert eine Adresse im Speicher 38. Mit dem Inhalt des Betragsregisters 17 wird der Speicher 38 mit Hilfe einer Adresse angesteuert, die dem errechneten Betrags-
vektor, ZL-, , des Eingangswortes entspricht. Wenn keine entsprechende Adresse im Speicher 38 aufgefunden wird, dann wird über das Tor 39 das Wullbetragsregister 40 angesteuert, das den Flip-Flop 42 auf "Null" setzt, so daß dieses Signal auf der Leitung 44 angibt, daß es sich bei dem Eingabewort um ein nicht gültiges Wörterbuchwort handelt.
Gleichzeitig mit der Erzeugung des Betragsvektors für das Eingangsalphawort wird ein korrespondierender Vektorwinkel erzeugt. Der Zähler 18 zählt die Position des Buchstabens im Eingangswort und aktiviert den Seichenpositiondecodierer 19, um einen
WA 975 003
609883/0932
eindeutigen Buchstabenpositionswert IL für jede Buchstabenposition iia Wort zu erzeugen. Das Aus gangs signal R,, des Zeichenpositionsdecodierers IS für jeden Buchstaben in dem Eingangsalphawort wird von dem Multiplizierer 22 empfangen und mit der numerischen Darstellung für den entsprechenden Buchstaben L·, von dem Umwandlungsspeicher 10 multipliziert und im Addierer 22 zu dem Inhalt des Registers 24 addiert, um die laufende Summe der numerischen Darstellung der Buchstaben mal der Position des Zeichens in dem Wort zu liefern. Die Buchstabenpositionsnummer R^ wird zu dem Multiplizierer 30 übertragen, wo sie mit sich selbst multipliziert und vom Addierer 32 zu dem Inhalt des Registers 34 addiert wird, um eine laufende Summe der Quadrate von R. zu bilden. Wenn der Worttrennungsdetektor 4 das nächste Trennungssymbol in dem Eingangsdatenstrom 2 erkennt, wird die endgültige Summe der Quadrate von R., zu dem Quadratwurzelrechner 36 übertragen, ferner wird der Inhalt des Betragsregisters 17 zu dem Quadratwurzelrechner 27 und der Inhalt des Registers 24 zu dem Teiler 28 übertragen. Der Quadratwurzelrechner 36 erzeugt die Quadratwurzel der Summe der R^-Quadrate, die den Vektorbetrag R bildet, wo hingegen der Quadratwurzelrechner 27 die Quadratwurzel des Betrags bestimrat, der sich als Summe der L^-Quadrate ergibt und den Vektorbetrag Y darstellt. Der Multiplizierer 26 multipliziert den Betragsvektor R mit dem Betragsvektor Y und gibt das Produkt als Zähler an den Teiler 28 weiter. Der Wert der Summe von L_ mal R^, wird von dem Register 24 als Nenner zu deiji Teiler 23 übertragen wird, der den Quotienten bildet. Der sich ergebende Quotient wird anschließend zu dem Arcus Sekans-Rechner 29 übertragen. Der Arcus Sekans-Rechner 29 errechnet den Winkelwert für diesen Quotienten und gibt den Winkelwert zu dem Winkelvergleichsregister 41.
Wenn während des Zugriffs zu dem Speicher 38 mit Hilfe des im Betragsregister 17 gespeicherten Wertes eine entsprechende Adresse gefunden wird, dann wird der unter dieser Adresse im Speicher 38 gespeicherte Winkel über das Tor 39 in den Winkelspeicherpuffer 45 übertragen. Der Inhalt des Winkelspeicher-
ViA 975 003
609883/0932
i - is - :
puffers wird nun mit dem errechneten Winkel, der im Winkelvergleichsregister 41 gespeichert ist, verglichen. Wenn eine über- ; einstimmung festgestellt wird, dann triggert das Ausgangssignal : des Tores 43 den Flip-Flop 42, so daß dieser auf seiner Ausgangs- j leitung 44 ein der binären Eins entsprechendes Signal erzeugt,
das angibt, daß es sich bei dem Eingangswort um ein gültiges
Wörterbuchwort handelt.
Die digitale Referenzmatrixeinrichtung kann auch zur überprüfung
der Gültigkeit von Wörtern verwendet werden, die sowohl spezielle : Zeichen als auch Alphawort enthalten, wenn nur den speziellen ! Zeichen bestimmte Umwandlungscodes zugeteilt werden, wobei die
entsprechenden Betrag/Winkelpaare im Speicher 38 gespeichert
werden. ;
WA 975 003
$09883/0932

Claims (3)

  1. PATENTANSPRÜCHE
    Einrichtung mit einer digitalen Referenzmatrix zur überprüfung der Gültigkeit von alphabetischen Eingangszeichen als gültige linguistische Ausdrücke, gekennzeichnet durch einen Zahlendetektor (6; Fig. 1) und ein Tor (39) zur Trennung von Buchstaben und Zahlen im Eingangsdatenstrom und zur Weiterleitung nur der Buchstaben zur Gültigkeitsprüfung, durch eine Recheneinrichtung, die an einen Umv/andlungsspeicher (10) zur Umwandlung eines alphabetischen Wortes in einen Vektor des Betrags
    2 M 2
    Y - Σ L*
    N=I w
    wobei L der im Umwandlungsspeieher gespeicherte, jedem Buchstaben irn Wort eindeutig zugeordnete numerische Wert ist und des Winkels
    β = sec'1
    M
    ISI=I
    wobei Rn eine eindeutige Zahl ist, welche die Position eines Buchstabens im Wort und |R| ein Vektor ist, dessen Elemente Rn sind, angeschlossen ist, ferner durch einen Speicher (38), der ein Verzeichnis (Wörterbuch) gültiger, nach obiger Vorschrift codierter Wörter in Vektorbetrag- und -Winkeldarstellung enthält, durch eine Speicherzu- : griffseinrichtung (17), die mit dem errechneten Vektor-ι betrag als Adresse den Speicher ansteuert, durch ein
    Winkelvergleichsregister (44), in dem der errechnete Winkel ; mit dem unter dem zugehörigen Betrag gespeicherte Winkel des Verzeichnisses verglichen wird und schließlich durch eine Anzeigeeinrichtung (40, 42), die mit dem Speicher
    WA 975 003
    609883/0932
    (33) und dem WinkelVergleichsregister verbunden ist und bei einem positiven Vergleich ein Signal liefert, das die Gültigkeit eines Eingangswortes anzeigt.
  2. 2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß der Speicher (38; Fig. 1) die Beträge der Vektoren, die
    ! ein Verzeichnis gültiger Worte darstellen, in Run-Längencodierung enthält, woboi jeweils einem Betrag die zugeordneten absoluten eindeutigen Winkel folgen und ein weiteres Bit vorgesehen ist, das angibt, ob dem gleichen Betrag ein weiterer absoluter eindeutiger Winkel noch nachfolgt.
  3. 3. Einrichtung nach Anspruch 1 und/oder 2, dadurch gekennzeichnet, daß im Speicher (33; Fig. 1) vor jedem Vektorwinkelfeld ein Kopffeld gespeichert ist, das angibt, ob der nächste Betragswert um einen Faktor 1 sequentiell ist und wieviele absolute eindeutige Winkelwerte nachfolgen.
    WA 975 003
    609883/0932
DE19762630304 1975-07-16 1976-07-06 Einrichtung zur ueberpruefung der gueltigkeit von alphabetischen eingangszeichen Withdrawn DE2630304A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/596,338 US3995254A (en) 1975-07-16 1975-07-16 Digital reference matrix for word verification

Publications (1)

Publication Number Publication Date
DE2630304A1 true DE2630304A1 (de) 1977-01-20

Family

ID=24386931

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19762630304 Withdrawn DE2630304A1 (de) 1975-07-16 1976-07-06 Einrichtung zur ueberpruefung der gueltigkeit von alphabetischen eingangszeichen

Country Status (9)

Country Link
US (1) US3995254A (de)
JP (1) JPS5214331A (de)
BE (1) BE842971A (de)
CA (1) CA1066422A (de)
DE (1) DE2630304A1 (de)
FR (1) FR2318462A1 (de)
GB (1) GB1508735A (de)
IT (1) IT1063722B (de)
SE (1) SE418021B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2755875A1 (de) * 1976-12-28 1978-06-29 Ibm Einrichtung zur pruefung der trennstrichsetzung

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4290105A (en) * 1979-04-02 1981-09-15 American Newspaper Publishers Association Method and apparatus for testing membership in a set through hash coding with allowable errors
AU518681B2 (en) * 1979-12-05 1981-10-15 Nippon Steel Corporation Continuously annealing a cold-rolled low carbon steel strip
US4328561A (en) * 1979-12-28 1982-05-04 International Business Machines Corp. Alpha content match prescan method for automatic spelling error correction
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
US4355371A (en) * 1980-03-25 1982-10-19 International Business Machines Corporation Instantaneous alpha content prescan method for automatic spelling error correction
US4374625A (en) * 1980-05-01 1983-02-22 Ibm Corporation Text recorder with automatic word ending
EP0042035B1 (de) * 1980-06-17 1984-06-13 International Business Machines Corporation Methode und Gerät zur Vektordarstellung von Textworten in einem Textverarbeitungssystem
US4498148A (en) * 1980-06-17 1985-02-05 International Business Machines Corporation Comparing input words to a word dictionary for correct spelling
US4383307A (en) * 1981-05-04 1983-05-10 Software Concepts, Inc. Spelling error detector apparatus and methods
US4456969A (en) * 1981-10-09 1984-06-26 International Business Machines Corporation System for automatically hyphenating and verifying the spelling of words in a multi-lingual document
US4503514A (en) * 1981-12-29 1985-03-05 International Business Machines Corporation Compact high speed hashed array for dictionary storage and lookup
US4597057A (en) * 1981-12-31 1986-06-24 System Development Corporation System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles
US4500955A (en) * 1981-12-31 1985-02-19 International Business Machines Corporation Full word coding for information processing
CA1182570A (en) 1982-04-30 1985-02-12 Frederick R. Lange System for detecting and correcting contextual errors in a text processing system
US4573196A (en) * 1983-01-19 1986-02-25 Communications Intelligence Corporation Confusion grouping of strokes in pattern recognition method and system
US4674066A (en) * 1983-02-18 1987-06-16 Houghton Mifflin Company Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words
US4580241A (en) * 1983-02-18 1986-04-01 Houghton Mifflin Company Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons
US4771401A (en) * 1983-02-18 1988-09-13 Houghton Mifflin Company Apparatus and method for linguistic expression processing
US4742481A (en) * 1984-04-13 1988-05-03 Brother Kogyo Kabushiki Kaisha Electronic dictionary having means for linking two or more different groups of vocabulary entries in a closed loop
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JPS6170091A (ja) * 1984-09-12 1986-04-10 三菱重工業株式会社 紙原料の均一分散装置
US4775251A (en) * 1984-10-08 1988-10-04 Brother Kogyo Kabushiki Kaisha Electronic typewriter including spelling dictionary
JPS6195472A (ja) * 1984-10-16 1986-05-14 Brother Ind Ltd 電子タイプライタ
US4783758A (en) * 1985-02-05 1988-11-08 Houghton Mifflin Company Automated word substitution using numerical rankings of structural disparity between misspelled words & candidate substitution words
JPS61214051A (ja) * 1985-03-20 1986-09-22 Brother Ind Ltd 電子辞書
JPS61217863A (ja) * 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
JPH0682403B2 (ja) * 1986-03-24 1994-10-19 沖電気工業株式会社 光学式文字読取装置
JPS6359660A (ja) * 1986-08-29 1988-03-15 Brother Ind Ltd 情報処理装置
US4915546A (en) * 1986-08-29 1990-04-10 Brother Kogyo Kabushiki Kaisha Data input and processing apparatus having spelling-check function and means for dealing with misspelled word
US4829472A (en) * 1986-10-20 1989-05-09 Microlytics, Inc. Spelling check module
JPS63287854A (ja) * 1987-05-20 1988-11-24 Fuji Photo Film Co Ltd 写真展示用収納袋
US4994966A (en) * 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
US5146221A (en) * 1989-01-13 1992-09-08 Stac, Inc. Data compression apparatus and method
US5532694A (en) * 1989-01-13 1996-07-02 Stac Electronics, Inc. Data compression apparatus and method using matching string searching and Huffman encoding
US5829002A (en) * 1989-02-15 1998-10-27 Priest; W. Curtiss System for coordinating information transfer and retrieval
WO1993018484A1 (en) * 1992-03-10 1993-09-16 Oracle Corporation Method and apparatus for comparison of data strings
US5774588A (en) * 1995-06-07 1998-06-30 United Parcel Service Of America, Inc. Method and system for comparing strings with entries of a lexicon
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
US5822744A (en) * 1996-07-15 1998-10-13 Kesel; Brad Consumer comment reporting apparatus and method
US6026387A (en) * 1996-07-15 2000-02-15 Kesel; Brad Consumer comment reporting apparatus and method
US5893094A (en) 1997-07-25 1999-04-06 Claritech Corporation Method and apparatus using run length encoding to evaluate a database
DE10390442D2 (de) * 2002-02-08 2005-07-07 Herbert Prah Lesehilfe
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US8559624B1 (en) 2006-12-29 2013-10-15 Edward J Zajac Cyphometry consisting of ciferglifs, chaotiglyphs and word auras
EP3115913B1 (de) * 2011-05-10 2018-03-14 Uber Technologies, Inc. Systeme und verfahren zur suche und zum abruf elektronischer dokumente mit einem grossen index

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEE Transactions on engineering writing and speech, Vol. EWS-10 Nr. 2, Dezember 1967, S. 57-62 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2755875A1 (de) * 1976-12-28 1978-06-29 Ibm Einrichtung zur pruefung der trennstrichsetzung

Also Published As

Publication number Publication date
JPS5214331A (en) 1977-02-03
FR2318462A1 (fr) 1977-02-11
GB1508735A (en) 1978-04-26
BE842971A (fr) 1976-10-01
JPS5711065B2 (de) 1982-03-02
SE7608132L (sv) 1977-01-17
US3995254A (en) 1976-11-30
IT1063722B (it) 1985-02-11
FR2318462B1 (de) 1984-06-08
SE418021B (sv) 1981-04-27
CA1066422A (en) 1979-11-13

Similar Documents

Publication Publication Date Title
DE2630304A1 (de) Einrichtung zur ueberpruefung der gueltigkeit von alphabetischen eingangszeichen
DE2541204C3 (de) Einrichtung zur Fehlerkorrektur
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE10301362A1 (de) Blockdatenkompressionssystem, bestehend aus einer Kompressionseinrichtung und einer Dekompressionseinrichtung, und Verfahren zur schnellen Blockdatenkompression mit Multi-Byte-Suche
DE102004046252A1 (de) Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung
DE102017121649A1 (de) Testen von Anwendungen mit einem definierten Eingabeformat
DE2755875C2 (de)
DE2513566A1 (de) Binaere referenzmatrix
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
DE2640537A1 (de) Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen
DE112018001165T5 (de) Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen
DE2208664A1 (de) Verfahren zur Decodierung eines vorsatzfreien Verdichtungscodes veränderlicher Länge
DE112010004914B4 (de) Indexieren von Dokumenten
DE2630430A1 (de) Einrichtung zum automatischen setzen von binde- bzw. trennungsstrichen
DE69733294T2 (de) Einrichtung und Verfahren zum Zugriff auf eine Datenbank
DE112018006131T5 (de) Semantisches normalisieren beim digitalisieren von dokumenten
DE2654815A1 (de) Verfahren zur unterscheidung von gross- und kleinbuchstaben
DE2435889B2 (de) Verfahren und einrichtung zur unterscheidung von zeichengruppen
CN112215007B (zh) 基于leam模型的机构命名实体归一化方法和系统
DE112021001743T5 (de) Vektoreinbettungsmodelle für relationale tabellen mit null- oder äquivalenten werten
DE19726592C2 (de) Informationserkennungs-Vorrichtung
EP2221735A2 (de) Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem
DE60305922T2 (de) Verfahren und system zur erzeugung und verwendung von daten in chinesischer sprache und benutzerkorrigierten daten

Legal Events

Date Code Title Description
8131 Rejection
8139 Disposal/non-payment of the annual fee