DE4213533A1 - System zur automatisierten Analyse von zusammengesetzten Wörtern - Google Patents
System zur automatisierten Analyse von zusammengesetzten WörternInfo
- Publication number
- DE4213533A1 DE4213533A1 DE4213533A DE4213533A DE4213533A1 DE 4213533 A1 DE4213533 A1 DE 4213533A1 DE 4213533 A DE4213533 A DE 4213533A DE 4213533 A DE4213533 A DE 4213533A DE 4213533 A1 DE4213533 A1 DE 4213533A1
- Authority
- DE
- Germany
- Prior art keywords
- elements
- compound
- computer system
- noun
- nouns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/191—Automatic line break hyphenation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
Die Erfindung betrifft ein Computersystem zur
automatisierten Analyse von Wörtern, die aus mehreren
Elementen zusammengesetzt sind, mit einem Speicher, in
dem die Elemente der zusammengesetzten Wörter
abgespeichert sind, sowie ein entsprechendes Verfahren
zur automatisierten Analyse von Wörtern mit Hilfe
eines Computersystems.
Bei vielen natürlichen Sprachen setzen sich bestimmte
Wörter aus mehreren einzelnen Elementen zusammen. So
besteht beispielsweise die Mehrzahl aller Substantive
der deutschen Sprache aus mehreren Einzelelementen,
wobei es sich bei diesen Einzelelementen wiederum um
Substantive oder um Verben, Adverbien, Adjektive usw.
handeln kann. Als Beispiele hierfür seien die
zusammengesetzten Substantive "Steckverbindung" und
"Dichterkongreß" angegeben.
Bei einer Textverarbeitung mit Hilfe eines Computer
systems ist es erforderlich, daß derartige, aus
mehreren Elementen zusammengesetzte Wörter z. B. für
eine Fehlerkorrektur oder eine Silbentrennung vom
Computersystem überprüft und analysiert werden. Eine
erste Möglichkeit für ein solches Analyseverfahren
besteht darin, jedes zusammengesetzte Wort als solches
im Speicher des Computersystems abzuspeichern und das
zu überprüfende zusammengesetzte Wort mit diesen
abgespeicherten zusammengesetzten Wörtern zu
vergleichen. Dieses Verfahren hat den Nachteil, daß
die Vielzahl der zusammengesetzten Wörter einen großen
Speicherplatzbedarf zur Folge hat, so daß derartige
Verfahren nur auf Großrechenanlagen ausführbar sind.
Eine zweite Möglichkeit zur Analyse von Wörtern, die
aus mehreren Elementen zusammengesetzt sind, besteht
darin, nicht sämtliche zusammengesetzten Wörter als
solche, sondern jeweils nur die Elemente sämtlicher
zusammengesetzten Wörter im Speicher des Computer
systems abzuspeichern. Dadurch wird erreicht, daß der
Speicherplatz für die Abspeicherung der zusammen
gesetzten Wörter wesentlich verringert wird.
Gleichzeitig hat dieses Verfahren jedoch zur Folge,
daß das Computersystem die Fähigkeit besitzen muß, ein
aus mehreren Elementen zusammengesetztes Wort fehlerfrei
in die einzelnen Elemente des Wortes zu zerlegen.
Dies kann beispielsweise dadurch erreicht werden, daß
das zu analysierende zusammengesetzte Wort von vorne
oder von hinten buchstabenweise vom Computersystem mit
den im Speicher abgespeicherten Elementen verglichen
wird. Wird eine Übereinstimmung beispielsweise der
letzten vier Buchstaben des zu analysierenden Wortes
mit einem abgespeicherten Element festgestellt, so
nimmt das Computersystem an, daß dieses abgespeicherte
Element das letzte Element des zusammengesetzten
Wortes ist. Danach wird die Suche nach weiteren
übereinstimmenden Elementen fortgesetzt, bis das
gesamte zusammengesetzte Wort abgearbeitet ist.
Bei den meisten zusammengesetzten Wörtern existieren
jedoch mehrere unterschiedlichen Möglichkeiten der
Zerlegung in einzelne Elemente. Dies soll nachfolgend
anhand der beiden eingangs genannten Beispiele
"Steckverbindung" und "Dichterkongreß" gezeigt
werden. So wird das Computersystem bei einer
Abarbeitung das Substantivs "Steckverbindung" von
hinten nach vorne zuerst das Substantiv "Dung" als
erstes Element feststellen. Danach wird das Computer
system die Präposition "in" finden, um danach noch das
Substantiv "Verb" und den Verbstamm "Steck" nacheinander
als Elemente des zusammengesetzten Wortes zu erkennen.
Offensichtlich ist diese Analyse des Wortes "Steckver
bindung" durch das Computersystem jedoch falsch. Die
richtige Zerlegung des Wortes "Steckverbindung" hätte
aus dem Verbstamm "Steck" und dem Substantiv "Verbindung"
bestehen müssen. In ähnlicher Weise verläuft auch die
Analyse des Wortes "Dichterkongreß" durch das
Computersystem fehlerhaft, da das Computersystem
nacheinander die Elemente "Kongreß", "er" und "dicht"
erkennt, die richtige Zerlegung jedoch aus den
Substantiven "Dichter" und "Kongreß" bestehen müßte.
Das Computersystem ist somit bei vielen, aus Elementen
zusammengesetzten Wörtern, insbesondere bei vielen
zusammengesetzten Substantiven der deutschen Sprache
nicht in der Lage, diese in die einzelnen Elemente
fehlerfrei zu zerlegen.
Aufgabe der Erfindung ist es, die fehlerfreie Verar
beitung von zusammengesetzten Wörtern zu verbessern.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß
bei einem Computersystem der eingangs genannten Art im
Speicher eine Rangfolge von bestimmten Eigenschaften
der Elemente abgespeichert ist, wobei die Rangfolge
sich nach der Häufigkeit des Vorkommens der
Eigenschaften richtet.
Für die deutsche Sprache ist beispielsweise das
Vorkommen von Präpositionen als Elemente in zusammen
gesetzten Wörtern relativ selten.
In der abgespeicherten Rangfolge nimmt deshalb die
Eigenschaft "Präposition" keinen Spitzenrang, sondern
eher einen der niederwertigeren Ränge ein. Bei der
Analyse des erwähnten zusammengesetzten Wortes
"Steckverbindung", bei dem das Computersystem, wie
erläutert wurde, als zweites Element die Präposition
"in" feststellt, kann das Computersystem aufgrund des
eher niederwertigeren Ranges folgern, daß die
Wahrscheinlichkeit dafür, daß die Präposition "in" ein
Element des zusammengesetzten Wortes "Steckverbindung"
darstellt, gering ist, daß also die Zerlegung des
Wortes "Steckverbindung" in die Elemente "steck",
"Verb", "in" und "Dung" eher falsch als richtig ist.
Mit Hilfe der abgespeicherten Rangfolge ist es also
dem Computersystem möglich, die Zerlegung eines zu
analysierenden zusammengesetzten Wortes als richtig
oder falsch zu beurteilen. Bei einer falschen
Beurteilung kann das Computersystem danach eine
weitere, neue Zerlegung und Beurteilung durchführen,
wobei schließlich durch einen Vergleich der
Beurteilungen der einzelnen Zerlegungen die richtige
Zerlegung vom Computersystem erkannt werden kann.
Bei einem Verfahren der eingangs genannten Art wird
ein zu analysierendes zusammengesetztes Wort gemäß
einer bestimmte Eigenschaften der Elemente
betreffenden, im Speicher abgespeicherten Rangfolge
nacheinander mit den abgespeicherten Elementen ver
glichen. Auf diese Weise wird schon beim Vergleichen
des zu analysierenden Wortes mit den abgespeicherten
Elementen die Rangfolge der Eigenschaften dieser
Elemente berücksichtigt. Bei dem Vergleich werden
zuerst nur diejenigen abgespeicherten Elemente her
angezogen, deren Eigenschaften in der Rangfolge den
höchsten Rang einnehmen. Dies sind in der deutschen
Sprache Substantive, die in zusammengesetzten Wörtern
in Anfangstellung ein "s" als Verbindungselement
aufweisen. Es werden also nur solche Substantive im
Speicher gesucht und zum Vergleich herangezogen, die
innerhalb von zusammengesetzten Wörtern mit dem
Verbindungselement "s" auftreten. Wird bei diesem
Vergleich vom Computersystem keine Übereinstimmung mit
dem zu analysierenden Wort festgestellt, so werden
diejenigen Elemente im Speicher des Computersystems
gesucht und zum Vergleich herangezogen, deren Eigen
schaften gemäß der abgespeicherten Rangfolge den
zweiten Rang einnehmen. Dieses Verfahren wird solange
fortgesetzt, bis eine Übereinstimmung gefunden wird.
Danach wird für den verbleibenden Rest des zusammenge
setzten zu analysierenden Wortes hinsichtlich der
Suche und des Vergleichs wieder mit den Elementen mit
dem höchsten Rang begonnen.
Bei dem erwähnten zusammengesetzten Wort "Dichter
kongreß" stellt das Computersystem bei einer Abarbeitung
von hinten zuerst das Substantiv "Kongreß" als Element
des zusammengesetzten Wortes "Dichterkongreß" fest.
Die danach noch verbleibenden Buchstaben enthalten
kein "s", so daß ein Vergleich mit denjenigen
Substantiven, die innerhalb von zusammengesetzten
Wörtern das Verbindungselement "s" aufweisen, und die
durch diese Eigenschaft in der abgespeicherten Rang
folge den höchsten Rang einnehmen, in keinem Fall zu
einer Übereinstimmung führen kann. Das Computersystem
kann somit diejenigen Substantive zum Vergleich mit
den verbleibenden Buchstaben des zu analysierenden
zusammengesetzten Wortes heranziehen, die gemäß dem
zweiten Rang der abgespeicherten Rangfolge innerhalb
von zusammengesetzten Wörtern kein zusätzliches
Verbindungselement aufweisen. Zu diesen Elementen
gehört das Substantiv "Dichter". Das Computersystem
wird somit eine Übereinstimmung zwischen diesem
Substantiv und den verbleibenden Buchstaben des
zusammengesetzten Wortes feststellen. Da der Rang des
erkannten Elements sehr hoch ist, kann das
Computersystem daraus folgern, daß die Zerlegung des
zu analysierenden, zusammengesetzten Wortes
"Dichterkongreß" in die Elemente "Dichter" und
"Kongreß" mit hoher Wahrscheinlichkeit richtig ist.
Bei einer Ausgestaltung der Erfindung ist im Speicher
des Computersystems eine Rangfolge der Anzahl der
Elemente eines zusammengesetzten Wortes in
Abhängigkeit von der Anzahl der Buchstaben des zu
analysierenden zusammengesetzten Wortes abgespeichert,
wobei die Rangfolge sich nach der Häufigkeit des
Vorkommens richtet. Diese Rangfolge kann auch alleine,
also unabhängig von der die Eigenschaften der Wörter
betreffenden Rangfolge verwertet werden.
Vor der Zerlegung eines zu analysierenden zusammenge
setzten Wortes in seine Elemente kann somit das
Computersystem die Anzahl der Buchstaben des zusammen
gesetzten Wortes abzählen und aus der abgespeicherten
Rangfolge die wahrscheinlichste Anzahl der Elemente
des zusammengesetzten Wortes entnehmen. So weist
beispielsweise das erwähnte zusammengesetzte Wort
"Steckverbindung" insgesamt 15 Buchstaben auf. Gemäß
der abgespeicherten Rangfolge ist ein aus 15 Buch
staben bestehendes Wort am ehesten aus zwei Elementen
zusammengesetzt. Das Computersystem kann diese
Information wiederum dazu verwenden, die Zerlegung des
Wortes "Steckverbindung" in die Elemente "steck",
"Verb", "in" und "Dung" als fehlerhaft zu erkennen.
Durch die Erfindung werden dem Computersystem
Rangfolgen zur Verfügung gestellt, mit deren Hilfe das
Computersystem in die Lage versetzt wird, fehlerhafte
und richtige Zerlegungen von zu analysierenden
zusammengesetzten Wörtern voneinander zu
unterscheiden. Die Rangfolgen hängen dabei von der
jeweiligen natürlichen Sprache ab. Insbesondere bei
zusammengesetzten Substantiven der deutschen Sprache
und damit ähnlichen Sprachen kann die Erfindung
besonders vorteilhaft eingesetzt werden. Es versteht
sich, daß die Erfindung nicht nur im Zusammenhang mit
der beschriebenen Textverarbeitung mit Hilfe eines
Computersystems eingesetzt werden kann, sondern
gleichfalls im Zusammenhang mit der Übersetzung von
Texten einer natürlichen Sprache durch den Computer,
wie auch bei der Erkennung eines von einer Person
gesprochenen Textes durch den Computer.
Weitere Ausgestaltungen und Vorteile der Erfindung
ergeben sich aus der anhand der Zeichnung
durchgeführten Beschreibung von Ausführungsbeispielen
der Erfindung.
Fig. 1 zeigt eine Tabelle mit Zuordnungen der
Anzahl der Buchstaben und der Anzahl der
Elemente von zusammengesetzten Substantiven
sowie mit den jeweiligen Rangfolgen,
Fig. 2 zeigt ein Diagramm der Zuordnungen nach
Fig. 1,
Fig. 3 zeigt eine Tabelle zur Erläuterung von
Kodierungen für Elemente von
zusammengesetzten Substantiven,
Fig. 4 zeigt die Rangfolge der Elemente bei
Substantiven, und
Fig. 5 zeigt die Rangfolge der Elemente allgemein.
Die nachfolgende Beschreibung von Ausführungsbei
spielen der Erfindung betrifft die deutsche Sprache.
Es versteht sich, daß die Erfindung auch auf andere
natürliche Sprachen anwendbar ist. Des weiteren ist
die Erfindung in den nachfolgenden Ausführungsbei
spielen im Zusammenhang mit zusammengesetzten
Substantiven erläutert. Es versteht sich ebenfalls,
daß die Erfindung auch auf zusammengesetzte Verben,
zusammengesetzte Adjektive, also allgemein auf
zusammengesetzte Wörter anwendbar ist.
In der deutschen Sprache sind eine große Anzahl von
Substantiven aus zwei oder mehr Elementen
zusammengesetzt. Bei den Elementen kann es sich dabei
wiederum um Substantive oder um Verben, Adverbien,
Adjektive, Präpositionen usw. handeln. Die
zusammengesetzten Substantive "Abschlußprüferbericht"
und "Geistesblitz" sollen nachfolgend als Beispiele
verwendet werden, wobei diese Beispiele als Elemente
die Substantive "Abschluß", "Prüfer", "Bericht" sowie
"Geist", "Blitz" aufweisen.
Bei einem Computersystem zur Analyse von
zusammengesetzten Substantiven sind sämtliche
möglichen Elemente dieser zusammengesetzten
Substantive im Speicher des Computersystems
gespeichert. Es sind also unter anderem die Elemente
"Abschluß", "Prüfer", "Bericht", "Geist" und "Blitz"
im Speicher abgespeichert.
Die Fig. 1 zeigt eine Tabelle mit Zuordnungen der
Anzahl der Buchstaben und der Anzahl der Elemente von
zusammengesetzten Substantiven mit den jeweiligen
Rangfolgen. In einer Spalte 110 der Fig. 1 ist die
Anzahl der Elemente des zugehörigen zusammengesetzten
Substantivs angegeben, in einer Spalte 111 die Anzahl
der Buchstaben des zugehörigen zusammengesetzten
Substantivs, in einer Spalte 112 das absolute Vorkommen
derartiger zusammengesetzter Substantive, eine Spalte
114 nennt ein Beispiel eines zugehörigen zusammen
gesetzten Substantivs, in einer Spalte 115 ist eine
prozentuale Verteilung der zugehörigen zusammenge
setzten Substantive auf die angegebene Anzahl der
Elemente der Spalte 110 enthalten und in einer Spalte
116 ist für jede der in Spalte 111 angegebenen Anzahlen
der Buchstaben eine Rangfolge der zugehörigen zusammen
gesetzten Substantive angegeben.
Es versteht sich, daß die Tabelle der Fig. 1 nicht
abschließend ist. Der Tabelle der Fig. 1 liegt eine
Untersuchung zugrunde, bei der sämtliche zusammenge
setzten Substantive mit den Anfangsbuchstaben A und B
klassifiziert wurden, die aus einem Textkorpus,
bestehend aus etwa 60 Millionen Wörtern laufenden
Textes, ermittelt worden sind. Die Gesamtzahl der auf
diese Weise untersuchten zusammengesetzten Substantive
war etwa 68 000, die in dem Textkorpus etwa drei
Millionen mal vorkommen. Es wird angenommen, daß die
Ergebnisse repräsentativ sind, also auch für
zusammengesetzte Substantive mit anderen
Anfangsbuchstaben zutreffend sind.
In dem mit der Bezugsziffer 118 gekennzeichneten
Bereich der Tabelle der Fig. 1 sind diejenigen
zusammengesetzten Substantive angegeben, die gemäß der
Spalte 111 14 Buchstaben aufweisen. Aus der Spalte 112
ist zu entnehmen, daß 5 060 der untersuchten zusammen
gesetzten Substantive aus 14 Buchstaben und zwei
Elementen bestehen. 853 aller untersuchter Substantive
sind aus 14 Buchstaben und drei Elementen zusammen
gesetzt. Nur vier zusammengesetzte Substantive sind
vorhanden, die 14 Buchstaben und 4 Elemente aufweisen.
Als Beispiel für zusammengesetzte Substantive mit 14
Buchstaben und zwei Elementen ist in der Spalte 114
das Substantiv "Abbildfunktion" angegeben, das die
Elemente "Abbild" und "Funktion" aufweist.
Entsprechend ist das zusammengesetzte Substantiv
"Armeelastwagen" für 14 Buchstaben und drei Elemente
und das Substantiv "Autobahnneubau", für 14 Buchstaben
und vier Elemente angegeben. Das zusammengesetzte
Substantiv "Autobahnneubau" setzt sich dabei aus den
Substantiven "Auto", "Bahn" und "Bau" sowie aus dem
Adjektiv "neu" zusammen.
In der Spalte 115 der Tabelle der Fig. 1 ist die
prozentuale Verteilung der Anzahl der Elemente bei
zusammengesetzten Substantiven mit 14 Buchstaben
angegeben. Diese Verteilung resultiert aus dem
absoluten Vorkommen gemäß der Spalte 112 bezogen auf
die Gesamtzahl aller Substantive mit 14 Buchstaben,
die sich durch eine Addition zu 5 917 ergibt. So
stellen die 5 060 zusammengesetzten Substantive mit 14
Buchstaben und zwei Elementen etwa 85% aller
zusammengesetzten Substantive mit 14 Buchstaben dar.
Entsprechend Weisen etwa 14% aller zusammengesetzten
Substantive mit 14 Buchstaben drei Elemente auf. Nur
0,06% aller Substantive, die 14 Buchstaben aufweisen,
sind aus vier Elementen zusammengesetzt.
Aus dieser prozentualen Verteilung gemäß der Spalte
115 folgt schließlich eine Rangfolge, wie sie in der
Spalte 116 angegeben ist. Bei den aus 14 Buchstaben
bestehenden zusammengesetzten Substantiven erhalten
nach der Spalte 116 diejenigen Substantive den Rang
"1", die aus zwei Elementen zusammengesetzt sind. Der
zweithöchste Rang wird denjenigen zusammengesetzten
Substantiven zugeordnet, die aus drei Elementen
bestehen. Den Rang "3" und damit den niedersten Rang
erhalten diejenigen zusammengesetzten Substantive, die
vier Elemente aufweisen.
In dem mit der Bezugsziffer 119 gekennzeichneten
Bereich der Tabelle der Fig. 1 sind zusammengesetzte
Substantive mit 23 Buchstaben angegeben. Aufgrund der
durchgeführten Untersuchungen hat sich hier ergeben,
daß diejenigen zusammengesetzten Substantive, die aus
drei Elementen bestehen, den höchsten Rang "1"
aufweisen. Danach folgen gemäß der Rangfolge der
Spalte 116 diejenigen zusammengesetzten Substantive,
die aus zwei Elementen und danach aus vier Elementen
und aus fünf Elementen bestehen. Als Beispiel für ein
zusammengesetztes Substantiv mit dem höchsten Rang,
also bestehend aus 23 Buchstaben und drei Elementen,
ist in der Spalte 114 der Tabelle der Fig. 1 das
Substantiv "Abschlußprüferbericht" angegeben.
In dem Diagramm der Fig. 2 sind die Zuordnungen gemäß
der Fig. 1 graphisch dargestellt. In einem Koordinaten
kreuz ist auf der Abszisse 120 die Anzahl der Buchstaben
entsprechend der Spalte 111 der Fig. 1 und auf der
Koordinate 121 das absolute Vorkommen entsprechend der
Spalte 112 der Fig. 1 aufgetragen. In dem Koordinaten
kreuz sind drei Kurven 123′, 124 und 125 eingezeichnet.
Die Kurve 123 repräsentiert alle zusammengesetzten
Substantive mit zwei Elementen. Die Kurve 124 stellt
alle Substantive dar, die aus drei Elementen zusammenge
setzt sind und die relativ flache Kurve 125 repräsentiert
alle zusammengesetzten Substantive mit vier Elementen.
Für ein zusammengesetztes Substativ mit 14 Buchstaben
ist aus der Fig. 2 deutlich ersichtlich, daß derartige
Substantive am häufigsten aus zwei Elementen zusammen
gesetzt sind. Dies entspricht dem bereits erläuterten
Rang "1" entsprechend der Spalte 116 der Tabelle der
Fig. 1. Des weiteren kann dem Diagramm der Fig. 2
entnommen werden, daß noch eine gewisse Wahrscheinlich
keit dafür besteht, daß ein Substantiv mit 14 Buchstaben
aus drei Elementen zusammengesetzt ist. Dies entspricht
dem Rang "2" bzw. der Verteilung von 15% entsprechend
den Spalten 116 und 115 der Tabelle der Fig. 1.
Schließlich ist dem Diagramm der Fig. 2 zu entnehmen,
daß es äußerst unwahrscheinlich ist, daß ein zusammenge
setztes Substantiv mit 14 Buchstaben aus vier Elementen
besteht. Dies entspricht dem zugehörigen niedersten
Rang "3" der Spalte 116 der Tabelle der Fig. 1.
Zumindest der Zusammenhang zwischen der Anzahl der
Elemente gemäß der Spalte 110, der Anzahl der
Buchstaben gemäß der Spalte 111, und der Rangfolge
gemäß der Spalte 116 ist im Speicher des
Computersystems abgespeichert. Es ist also zu jeder
Anzahl der Buchstaben eines zusammengesetzten
Substantivs eine Rangfolge der Anzahl der Elemente des
zusammengesetzten Substantivs abgespeichert. Durch
diese Rangfolge wird das Computersystem in die Lage
versetzt, bei einem zusammengesetzten Substantiv mit
einer bestimmten Anzahl von Buchstaben die wahrschein
lichste Anzahl der Elemente des zusammengesetzten
Substantivs aus dem Speicher auszulesen.
Darüberhinaus kann ebenfalls noch das absolute
Vorkommen gemäß der Spalte 112 der Fig. 1 im Speicher
des Computersystems abgespeichert werden. Damit wird
erreicht, daß das Computersystem nicht nur die
wahrscheinlichste Anzahl der Elemente eines
zusammengesetzten Substantivs zu erkennen vermag,
sondern zusätzlich auch noch den Wert dieser
Wahrscheinlichkeit berücksichtigen kann.
Liegt dem Computersystem beispielsweise das
zusammengesetzte Substantiv "Abschlußprüferbericht",
zur Analyse vor, so zählt das Computersystem zuerst
die Anzahl der Buchstaben dieses Substantivs. Diese
Anzahl ist 23. Aus der im Speicher des Computersystems
abgespeicherten Rangfolge entnimmt das Computersystem,
daß bei einem zusammengesetzten Substantiv mit 23
Buchstaben die größte Wahrscheinlichkeit dafür
besteht, daß das Substantiv aus drei Elementen
zusammengesetzt ist. Diese Information kann dann vom
Computersystem bei der weiteren Analyse des
zusammengesetzten Substantivs berücksichtigt werden.
Entsprechend zählt das Computersystem zur Analyse des
zusammengesetzten Substantivs "Geistesblitz" dessen
Buchstaben und entnimmt aus dem Speicher die zugehörige
Information, daß bei einem zusammengesetzten Substantiv
mit 12 Buchstaben die größte Wahrscheinlichkeit dafür
besteht, daß das Substantiv aus zwei Elementen
zusammengesetzt ist. Auch diese Information kann
nachfolgend bei der weiteren Analyse des
zusammengesetzten Substantivs berücksichtigt werden.
Die Fig. 3 zeigt eine Tabelle zur Erläuterung von
Kodierungen für Elemente von zusammengesetzten
Substantiven. In einer Spalte 131 sind die Kodierungen
mit den laufenden Nummern "01" bis "29" angegeben. In
einer Spalte 130 ist jeweils die Bedeutung der
Kodierungen und in einer Spalte 132 ein oder mehrere
Beispiele für diese Kodierungen enthalten.
So hat beispielsweise die Kodierung "01" die Bedeutung,
daß bei einem Element mit dieser Kodierung innerhalb
eines zusammengesetzten Wortes keine Veränderung
vorgenommen werden muß. Als Beispiel ist zu der
Kodierung "01" in der Spalte 132 das Element "Tisch"
angegeben, das in dem zusammengesetzten Substantiv
"Tischbein" unverändert enthalten ist. Zu der in der
Spalte 131 aufgelisteten Kodierung "02" ist in der
Spalte 130 als Bedeutung angegeben, daß ein Element
mit dieser Kodierung innerhalb eines zusammengesetzten
Substantivs mit -laut und im Plural auftritt. Als
Beispiel ist hierzu in der Spalte 132 das Element
"Bruder" angegeben, das in dem zusammengesetzten
Substantiv "Brüdergemeinde" im Plural und mit Umlaut
auftritt. Entsprechend hat beispielsweise die Kodierung
"07" die Bedeutung, daß an ein Element mit dieser
Kodierung die Buchstaben "+es" zur Bildung des Genitivs
angehängt werden. Das "+" Zeichen in der Spalte 130
hat die Bedeutung, daß die Buchstaben "es" hinzugefügt
werden. Dies ist an dem in der Spalte 132 angegebenen
Element "Geist" ersichtlich, an das in dem zusammen
gesetzten Substantiv "Geistesblitz" die Buchstaben
"es" hinzugefügt sind. Es sei noch erwähnt, daß ein
"-" Zeichen in der Spalte 130 die Bedeutung hat, daß
die danach angegebenen Buchstaben weggelassen werden.
Bei einem Element mit der Kodierung "15" werden also
beispielsweise die Buchstaben "en" weggelassen, wie
z. B. bei dem Element "Süden" in dem zusammengesetzten
Substantiv "Südhang".
Insgesamt sind also mit Hilfe der Tabelle der Fig. 3
die Elemente von zusammengesetzten Substantiven
hinsichtlich bestimmter Eigenschaften, insbesondere
der Hinzunahme von Verbindungselementen oder der
Weglassung von Endbuchstaben, wenn diese Elemente in
Anfangsstellung auftreten, klassifiziert. Die Tabelle
der Fig. 3 ist dabei nicht abschließend; es ist also
sehr wohl möglich, daß noch weitere Eigenschaften von
Elementen von zusammengesetzten Substantiven existieren,
die dann mittels weiterer Kodierungen klassifiziert
werden können. Die Tabelle der Fig. 3, ist in dieser
oder einer entsprechenden Form im Speicher des
Computersystems abgespeichert.
Bei Untersuchungen hat sich herausgestellt, daß
bestimmte Eigenschaften von Elementen häufiger
vorkommen als andere. Diese Untersuchungen wurden
nur bei zusammengesetzten Substantiven mit den
Anfangsbuchstaben A und B durchgeführt. Die bereits
erwähnten etwa 68 000 zusammengesetzten Substantive
werden dabei aus etwa 5 000 einzelnen Elementen
gebildet. Dies ergibt rechnerisch ein Gesamtvorkommen
von 2,2 Millionen für die Elemente. Es wird daher
angenommen, daß die Ergebnisse dieser Untersuchung
repräsentativ sind, also auch für Elemente von
zusammengesetzten Substantiven mit anderen
Anfangsbuchstaben zutreffend sind.
Die Fig. 4 zeigt die Rangfolge der Elemente bei
Substantiven. In der Spalte 140 ist die Kodierung des
Elements angegeben, die der Kodierung in der Spalte
131 der Fig. 3 entspricht. In der Spalte 141 ist das
absolute Vorkommen und in der Spalte 142 das
prozentuale Vorkommen von Elementen der jeweils
zugehörigen Kodierung in der Gesamtmenge der
untersuchten Elemente angegeben. Schließlich ist in
der Spalte 143 eine Rangfolge angegeben, die der
Häufigkeit des Vorkommens der Elemente mit der jeweils
zugehörigen Kodierung entspricht. Es versteht sich,
daß die Rangfolge der Fig. 4 nicht abschließend ist.
So ist aus der Fig. 4 zu entnehmen, daß Elemente mit
der Kodierung "13", also Elemente, an die gemäß der
Tabelle der Fig. 3 in zusammengesetzten Substantiven
ein "s" hinzugefügt wird, den höchsten Rang "1"
aufweisen. Dies ergibt sich daraus, daß bei der
Untersuchung über 30% aller Elemente in
zusammengesetzten Substantiven ein hinzugefügtes "s"
aufwiesen. Etwa 25% aller untersuchten Elemente wiesen
innerhalb von zusammengesetzten Substantiven keine
Veränderung auf; derartige Elemente sind der Kodierung
"01" zugeordnet. Diese Elemente besitzen gemäß der
Fig. 4 den Rang "2". Danach folgen Elemente mit den
Kodierungen "07" und "10" auf den Rängen "3" und "4".
Wie erläutert wurde, bezieht sich die Tabelle der
Fig. 3 sowie die Rangfolge der Fig. 4 nur auf Substan
tive. Dies hat zur Folge, daß die Rangfolge der Fig. 4
nur auf zusammengesetzte Wörter anwendbar ist, die aus
Substantiven zusammengesetzt sind. Häufig handelt es
sich bei den Elementen von zusammengesetzten
Wörtern jedoch nicht nur um Substantive, sondern auch
um Verben, Adverbien, Adjektive, usw.
Es ist nun möglich, für diese Verben, Adverbien,
Adjektive usw. entsprechende Rangfolgen aufzustellen.
Bei entsprechenden Untersuchungen wurde beispielsweise
festgestellt, daß Verben in ihrer Stammform wesentlich
häufiger in zusammengesetzten Substantiven vorkommen
als z. B. Verben, von denen der Buchstabe "n" vom
Infinitiv weggenommen worden ist. In ähnlicher Weise
wurde festgestellt, daß in zusammengesetzten Substan
tiven unveränderte Adverbien und unveränderte
Adjektive wesentlich häufiger auftreten als Adverbien
oder Adjektive mit Veränderungen. Diese Untersuchungen
beruhten dabei wiederum nur auf zusammengesetzten
Substantiven mit den Anfangsbuchstaben A und B, es
wird jedoch auch in diesem Fall angenommen, daß die
gefundenen Ergebnisse auch bei zusammengesetzten
Substantiven mit anderen Anfangsbuchstaben zutreffen.
Alle Ergebnisse der Untersuchungen von Substantiven,
Verben, Adverbien, Adjektiven, usw. innerhalb von
zusammengesetzten Substantiven wurden dann
zusammengefaßt und in einer gemeinsamen Rangfolge
aufgelistet. Diese Rangfolge von allen Elementen
allgemein ist in der Fig. 5 gezeigt.
In der Fig. 5 sind in einer Spalte 150 die Elemente
von zusammengesetzten Substantiven angegeben, denen in
einer Spalte 151 der jeweils zugehörige Rang
zugeordnet ist.
Danach ist gemäß der Fig. 5 der höchste Rang "1" den
als Element auftretenden Substantiven mit dem Verbin
dungselement "s" zugeordnet. Diese Substantive haben
die Kodierung "13". Substantive ohne eine Veränderung,
also Substantive der Kodierung "01", besitzen den Rang
"2". Danach folgen Substantive mit den Verbindungs
elementen "es" und "n" auf den Rängen "3" und "4". Den
Rang "5" nehmen Verben in der Stammform ein.
Unveränderte Adverbien sind auf dem Rang "6". Danach
folgen unveränderte Adjektive und unveränderte
Präpositionen auf den Rängen "7" und "8". Auf dem Rang
"9" folgen schließlich Substantive mit dem
Verbindungselement "en", also mit der Kodierung "04".
Es versteht sich, daß die in der Fig. 5 angegebene
Rangfolge nicht abschließend ist, sondern daß Elemente
mit anderen Eigenschaften auf den nachfolgenden Rängen
plaziert sind. Des weiteren ist es möglich, daß bei
Berücksichtigung der Elemente aller Anfangsbuchstaben
bei der in der Fig. 5 angegebenen Rangfolge noch
geringe Veränderungen auftreten können. Es besteht
jedoch die sehr starke Annahme, daß die ersten vier
Ränge der in der Fig. 5 angegebenen Rangfolge auch bei
Berücksichtigung der Elemente aller Anfangsbuchstaben
unverändert bleiben.
Liegt dem Computersystem nach einer wie auch immer
gearteten Eingabe das zusammengesetzte Substantiv
"Abschlußprüferbericht" zur Analyse vor, so untersucht
das Computersystem dieses Substantiv buchstabenweise
von hinten nach vorne. Das Computersystem nimmt also
beispielsweise zuerst die letzten drei Buchstaben des
Substantivs und sucht im Speicher nach einem übereinstim
menden Element. Im vorliegenden Fall ist kein Element
mit den Buchstaben "cht" im Speicher des Computersystems
enthalten. Aus diesem Grund sucht das Computersystem
danach im Speicher nach einem Element, das mit den
letzten vier, bzw. den letzten fünf, usw. Buchstaben
des zu analysierenden zusammengesetzten Substantivs
übereinstimmt. Im vorliegenden Fall wird das Computer
system erstmals eine Übereinstimmung mit dem Element
"Bericht" feststellen. Dieses Element "Bericht"
speichert dann das Computersystem in irgendeiner Weise
als erstes aufgefundenes Element des zusammengesetzten
Substantivs "Abschlußprüferbericht" ab.
Danach setzt das Computersystem die buchstabenweise
Suche nach weiteren Elementen von hinten nach vorne
fort. Durch entsprechende Vergleiche mit abgespeicher
ten Elementen wird das Computersystem im vorliegenden
Fall als nächstes auf das Element "er" stoßen. Bei
diesem Element handelt es sich um ein Pronomen,
nämlich um die dritte Person Singular. Aus der
Rangfolge der Fig. 5, in der Pronomen nicht einmal
enthalten sind, entnimmt das Computersystem, daß das
Auftreten von Pronomen innerhalb von zusammengesetzten
Substantiven äußerst unwahrscheinlich ist.
Bei der weiteren Analyse des zusammengesetzten Substan
tivs "Abschlußprüferbericht" wird das Computersystem
das Element "prüf" auffinden. Bei diesem Element
handelt es sich um eine unveränderte Form der Stamm
form des Verbs "prüfen". In der Rangfolge der Fig. 5
nehmen Verben in der Stammform den Rang "5" ein.
Daraus ergibt sich für das Computersystem, daß das
Auftreten des Elements "prüf" als unveränderte
Stammform des Verbs "prüfen" innerhalb eines zusammen
gesetzten Substantivs eher unwahrscheinlich ist.
Das Computersystem wird nunmehr die Analyse des
zusammengesetzten Substantivs "Abschlußprüferbericht"
fortsetzten und dabei auf die weiteren Elemente
"Schluß" und "ab" stoßen. Insgesamt zerlegt somit das
Computersystem bei dieser Analyse das zusammengesetzte
Substantiv "Abschlußprüferbericht" in fünf Elemente.
Wie bereits erläutert worden ist, besteht jedoch für
zusammengesetzte Substantive mit 23 Buchstaben, also
beispielsweise für das Substantiv "Abschlußprüferbericht",
eine äußerst geringe Wahrscheinlichkeit, daß derartige
Substantive aus fünf Elementen zusammengesetzt sind.
Aus der geringen Wahrscheinlichkeit des Auftretens des
Pronomens "er" innerhalb eines zusammengesetzten
Substantivs, aus der eher geringen Wahrscheinlichkeit
des Auftretens des Elements "prüf" als unveränderte
Stammform des Verbs "prüfen" innerhalb eines zusammen
gesetzten Substantiv sowie aus der äußerst geringen
Wahrscheinlichkeit der Zusammensetzung eines Substan
tivs mit 23 Buchstaben aus fünf Elementen ist es nun
dem Computersystem möglich zu entscheiden, daß die
vorliegende Zerlegung des zusammengesetzten Substantivs
"Abschlußprüferbericht" in die Elemente "ab", "Schluß",
"prüf", "er" und "Bericht" falsch sein muß.
Das Computersystem wird aus diesem Grund eine weitere
Analyse beginnen, bei der es jedoch das Element "er"
als mögliches Element des zusammengesetzten Substantivs
"Abschlußprüferbericht", von vorne herein als fehlerhaft
verwirft. Unter dieser Voraussetzung wird das
Computersystem nach dem Element "Bericht" als nächstes
das Element "Prüfer" im Speicher als übereinstimmend
auffinden, das gemäß der Rangfolge der Fig. 5 den Rang
"2" einnimmt. Die Wahrscheinlichkeit, daß die Analyse
insoweit richtig ist, ist deshalb recht groß.
Bei der weiteren Analyse der verbleibenden Buchstaben
wird das Computersystem die Elemente "Schluß" und "ab"
als übereinstimmend im Speicher feststellen. Bei dem
Element "Schluß" handelt es sich um ein unverändertes
Substantiv, für das gemäß der Rangfolge der Fig. 5
eine hohe Wahrscheinlichkeit besteht, nämlich der Rang
"2". Bei dem Element "ab" hingegen handelt es sich um
eine Präposition, für deren Auftreten innerhalb eines
zusammengesetzten Substantivs gemäß der Rangfolge der
Fig. 5 eine eher geringe Wahrscheinlichkeit besteht.
Insgesamt zerlegt das Computersystem bei dieser
zweiten Analyse das zusammengesetzte Substantiv
"Abschlußprüferbericht" in vier Elemente, für deren
Auftreten, wie bereits erläutert wurde, eine gewisse,
jedoch geringe Wahrscheinlichkeit besteht, deren
Auftreten jedoch nicht den höchsten Rang gemäß der
Fig. 1 besitzt.
Aus der geringen Wahrscheinlichkeit des Auftretens des
Elementes "ab" sowie aus der eher geringen Wahrschein
lichkeit der Zusammensetzung des aus 23 Buchstaben
bestehenden Substantivs "Abschlußprüferbericht" aus
vier Elementen wird das Computersystem nunmehr
ableiten, daß auch die zweite Analyse dieses
zusammengesetzten Substantivs nicht fehlerfrei ist.
Das Computersystem wird aus diesem Grund eine weitere
Analyse des zusammengesetzten Substantivs "Abschluß
prüferbericht" beginnen. Dabei wird es jedoch im
Vergleich zur vorgehenden Analyse das Element "Schluß"
als fehlerhaft unterdrücken. Dies hat zur Folge, daß
das Computersystem bei dieser dritten Analyse als
letztes Element das Element "Abschluß" im Speicher
übereinstimmend auffinden wird. Bei diesem Element
"Abschluß" handelt es sich um ein unverändertes
Substantiv, dessen Auftreten innerhalb eines zusammen
gesetzten Substantivs gemäß der Rangfolge der Fig. 5
eine hohe Wahrscheinlichkeit besitzt, nämlich den Rang
"2". Des weiteren ist bei dieser dritten Analyse das
zusammengesetzte Substantiv "Abschlußprüferbericht" in
insgesamt drei Elemente, nämlich in die Elemente
"Abschluß", "Prüfer" und "Bericht" vom Computersystem
zerlegt worden. Wie bereits erläutert worden ist, ist
bei zusammengesetzten Substantiven mit 23 Buchstaben
die Wahrscheinlichkeit am höchsten, daß derartige
Substantive aus drei Elementen bestehen.
Da somit einerseits für das Element "Abschluß" eine
sehr hohe Wahrscheinlichkeit besteht, und da des
weiteren das Substantiv "Abschlußprüferbericht" 23
Buchstaben aufweist und damit mit hoher Wahrschein
lichkeit aus drei Elementen zusammengesetzt ist, kann
das Computersystem aus diesen Informationen folgern,
daß die vorliegende dritte Analyse richtig ist. Das
Computersystem hat somit die korrekte Zerlegung des
zusammengesetzten Substantivs "Abschlußprüferbericht"
in dessen Elemente "Abschluß", "Prüfer" und "Bericht"
aufgefunden.
Bei dem vorstehend beschriebenen Verfahren zur Analyse
von zusammengesetzten Substantiven wurden bereits
durch das Computersystem vorgenommene Zerlegungen des
zusammengesetzten Substantivs in Elemente mit Hilfe
der im Speicher des Computersystems abgespeicherten
Rangfolgen überprüft und als richtig oder falsch
beurteilt. Es ist nun auch möglich, schon bei der
Zerlegung eines zusammengesetzten Substantivs in
Elemente die abgespeicherten Rangfolgen zu
berücksichtigen. Dies ist nachfolgend näher erläutert.
Liegt dem Computersystem das zusammengesetzte Sub
stantiv "Geistesblitz" zur Analyse vor, so vergleicht
das Computersystem buchstabenweise von hinten nach
vorne dieses zu analysierende Substantiv mit den im
Speicher des Computersystems abgespeicherten Elementen.
Im vorliegenden Fall wird das Computersystem das
Element "Blitz" als erstes Element des zusammenge
setzten Substantivs "Geistesblitz" auf finden.
Bei den dazu erforderlichen Vergleichs- und Such
operationen können die abgespeicherten Rangfolgen
nicht zur Hilfe genommen werden. Dies ergibt sich
daraus, daß sich die den einzelnen Rängen zugeordneten
Eigenschaften der Elemente der Fig. 5 immer auf
Elemente in Anfangsstellung bzw. in Nicht-Endstellung
innerhalb eines zusammengesetzten Substantivs beziehen.
So handelt es sich beispielsweise bei dem Rang "4"
gemäß der Fig. 5 um ein Substantiv, dem innerhalb
eines zusammengesetzten Substantivs der Buchstabe "n"
hinzugefügt ist. Aus der Kodierung "10" folgt gemäß
der Fig. 3, daß beispielsweise dem Element "Schwalbe"
in dem zusammengesetzten Substantiv "Schwalbennest"
ein "n" hinzugefügt ist. Derartige Veränderungen, also
das Hinzufügen oder Wegnehmen von Buchstaben, kann
jedoch nie an dem letzten Element eines zusammenge
setzten Substantivs erfolgen, sondern immer nur an den
dazu vorhergehenden Elementen. Aus diesem Grund ist
die Rangfolge der Fig. 5 bei der Ermittlung des
letzten Elements des zusammengesetzten Substantivs
"Geistesblitz" nicht verwendbar, jedoch bei dem
vorhergehenden Element.
Diese Berücksichtigung der Rangfolge der Fig. 5 wird
durch das Computersystem derart vorgenommen, daß bei
der Suche nach dem vorletzten Element des zusammenge
setzten Substantivs "Geistesblitz" das Computersystem
entsprechend der Rangfolge der Fig. 5 nacheinander
jeweils nur diejenigen Elemente zum Vergleich heranzieht,
die dem jeweiligen Rang entsprechen. Das Computersystem
wird also in einem ersten Schritt nur alle Substantive
mit einem hinzugefügten Verbindungselement "s" zum
Vergleich mit den verbleibenden Buchstaben des zu
analysierenden zusammengesetzten Wortes heranziehen.
Alle anderen Elemente werden in diesem ersten Schritt
beim Vergleich nicht berücksichtigt. Findet das
Computersystem in diesem ersten Schritt kein überein
stimmendes Element, so werden in einem zweiten Schritt
nur diejenigen Substantive zum Vergleich mit dem zu
analysierenden zusammengesetzten Substantiv herange
zogen, die unverändert innerhalb eines zusammenge
setzten Substantivs auftreten. Wird kein überein
stimmendes Element aufgefunden, so werden in einem
nächsten Schritt wiederum nur diejenigen Substantive
zum Vergleich herangezogen, die das Verbindungselement
"es" aufweisen. Dieses Verfahren wird gemäß der
Rangfolge der Fig. 5 solange fortgesetzt, bis eine
Übereinstimmung der verbleibenden Buchstaben des zu
analysierenden zusammengesetzten Substantivs mit einem
der im Speicher des Computersystems abgespeicherten
Elemente aufgefunden wird.
Falls das Computersystem in dem eben genannten ersten
Schritt feststellt, daß der letzte der verbleibenden
Buchstaben des zu analysierenden zusammengesetzten
Wortes kein "s" ist, so wird dieser erste Schritt
sofort beendet. Ohne daß Substantive mit einem hinzu
gefügten Verbindungselement "s" zu Vergleichen heran
gezogen werden, wird also sofort zu dem nächsten
Schritt übergegangen, bei dem das zu analysierende
zusammengesetzte Wort mit unveränderten Substantiven
entsprechend dem Rang "2" der Rangfolge der Fig. 5
verglichen wird. Entsprechende sofortige Beendigungen
von Vergleichsschritten können auch bei anderen
Rängen, z. B. dem Rang "3" oder "4" der Rangfolge der
Fig. 5 auftreten.
Im vorliegenden Fall des zusammengesetzten Substantivs
"Geistesblitz" handelt es sich bei dem ersten Element
um das Element "Geist", an das gemäß der Kodierung
"07" die Buchstaben "es" hinzugefügt sind. Derartige
Substantive besitzen gemäß der Rangfolge der Fig. 5
den Rang "3".
Im ersten Schritt vergleicht das Computersystem alle
Substantive mit einem Verbindungselement "s" mit den
verbleibenden Buchstaben des zusammengesetzten Substan
tivs "Geistesblitz". In diesem Schritt wird das
Computersystem keine Übereinstimmung auffinden, da,
wie erwähnt, das vorletzte Element dieses Substantivs
das Element "Geist" ist, an das innerhalb von zusammen
gesetzten Substantiven das Verbindungselement "es"
angefügt werden muß und nicht das Verbindungselement
"s". Wie erläutert wurde, bleiben bei dieser Vergleichs
operation alle anderen abgespeicherten Elemente, die
nicht innerhalb von zusammengesetzten Substantiven als
Verbindungselemente ein "s" aufweisen, unberücksichtigt.
In einem nächsten Schritt vergleicht das Computersystem
sämtliche abgespeicherten Substantive, die innerhalb
eines zusammengesetzten Substantivs unverändert
auftreten, mit den verbliebenen Buchstaben des zusammen
gesetzten Substantivs "Geistesblitz". Auch in diesem
Schritt wird das Computersystem keine Übereinstimmung
auffinden, da, wie erwähnt, nicht die Buchstaben
"Geistes" sondern das Element "Geist" im Speicher des
Computersystems abgespeichert ist. Auch in diesem
Schritt bleiben alle anderen Elemente, die nicht dem
Rang "2" gemäß der Fig. 5 entsprechen, unberücksichtigt.
In einem dritten Schritt werden nunmehr sämtliche
Substantive, die innerhalb eines zusammengesetzten
Substantivs mit einem Verbindungselement "es" versehen
sind, mit den verbliebenen Buchstaben des zusammenge
setzten Substantivs "Geistesblitz" verglichen. Wie
bereits erläutert wurde, ist das Element "Geist" im
Speicher des Computersystems abgespeichert. Innerhalb
von zusammengesetzten Substantiven tritt dieses
Element "Geist" entsprechend der Kodierung "07" der
Fig. 3 mit dem Verbindungselement "es" auf. Das
Computersystem wird aus diesem Grund in diesem dritten
Schritt eine Übereinstimmung des im Speicher abge
speicherten Elements "Geist" und dem zugehörigen
Verbindungselement "es" mit den verbliebenen Buchstaben
des zu analysierenden zusammengesetzten Substantivs
"Geistesblitz" feststellen.
Das Computersystem hat demgemäß das zusammengesetzte
Substantiv "Geistesblitz" in zwei Elemente zerlegt.
Wie bereits erläutert wurde, besteht bei Substantiven
mit 12 Buchstaben die höchste Wahrscheinlichkeit
dafür, daß derartige Substantive aus zwei Elementen
zusammengesetzt sind. Da das zusammengesetzte Substan
tiv "Geistesblitz" 12 Buchstaben aufweist, wird auf
diese Weise die durch das Computersystem vorgenommene
Zerlegung dieses Substantivs in zwei Elemente bestätigt.
Das Computersystem hat somit das zusammengesetzte
Substantiv "Geistesblitz", richtig in dessen Bestandteile
"Geist" und "Blitz" zerlegt, wobei das Computersystem
korrekterweise berücksichtigt hat, daß das Element
"Geist" innerhalb von zusammengesetzten Substantiven
mit dem Verbindungselement "es" versehen ist.
Bei dem zuletzt erläuterten Verfahren zur Analyse von
zusammengesetzten Substantiven wird ein zu
analysierendes Substantiv in diejenigen Elemente
zerlegt, für die gemäß der Fig. 5 die höchste
Wahrscheinlichkeit für ihr Auftreten innerhalb von
zusammengesetzten Substantiven besteht. Des weiteren
wird bei diesem zuletzt beschriebenen Verfahren durch
die Einschränkung der Suche nach übereinstimmenden
Elementen eine Erhöhung der Verarbeitungsgeschwindig
keit erreicht. Es werden nicht mehr alle im Speicher
des Computersystems abgespeicherten Elemente auf
Übereinstimmung überprüft, sondern nur die dem
jeweiligen Rang entsprechenden Elemente. Damit sind in
jedem Fall wesentlich weniger Vergleichsoperationen
nötig als bei einer Suche unter allen Elementen.
Claims (15)
1. Computersystem zur automatisierten Analyse von
Wörtern, die aus mehreren Elementen zusammengesetzt
sind, mit einem Speicher, in dem die Elemente der
zusammengesetzten Wörter abgespeichert sind,
dadurch gekennzeichnet,
daß im Speicher eine Rangfolge von bestimmten Eigenschaften der Elemente abgespeichert ist,
wobei die Rangfolge sich nach der Häufigkeit des Vorkommens der Eigenschaften richtet (Fig. 5).
dadurch gekennzeichnet,
daß im Speicher eine Rangfolge von bestimmten Eigenschaften der Elemente abgespeichert ist,
wobei die Rangfolge sich nach der Häufigkeit des Vorkommens der Eigenschaften richtet (Fig. 5).
2. Computersystem nach Anspruch 1,
dadurch gekennzeichnet,
daß im Speicher eine Rangfolge der Anzahl der
Elemente eines zusammengesetzten Wortes in
Abhängigkeit von der Anzahl der Buchstaben des zu
analysierenden zusammengesetzten Wortes
abgespeichert ist, wobei die Rangfolge sich nach
der Häufigkeit des Vorkommens richtet (Fig. 1).
3. Computersystem nach Anspruch 1 oder 2,
gekennzeichnet durch
die Verwendung bei der Textverarbeitung, der
Textübersetzung oder der Spracherkennung.
4. Verfahren zur automatisierten Analyse von
Wörtern, die aus mehreren Elementen
zusammengesetzt sind, mit Hilfe eines
Computersystems, wobei die Elemente der
zusammengesetzten Wörter in einem Speicher des
Computersystems abgespeichert sind,
dadurch gekennzeichnet,
daß ein zu analysierendes zusammengesetztes Wort
gemäß einer bestimmte Eigenschaften der Elemente
betreffenden, im Speicher abgespeicherten
Rangfolge nacheinander mit den abgespeicherten
Elementen verglichen wird.
5. Verfahren nach Anspruch 4,
dadurch gekennzeichnet,
daß bei der deutschen Sprache das zusammengesetzte
Wort zuerst mit allen abgespeicherten Elementen
verglichen wird, bei denen es sich um ein Substantiv
mit dem Verbindungselement "s" handelt.
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um ein Substantiv ohne eine
Veränderung handelt.
7. Verfahren nach Anspruch 6,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um ein Substantiv mit dem
Verbindungselement "es" handelt.
8. Verfahren nach Anspruch 7,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um ein Substantiv mit dem
Verbindungselement "n" handelt.
9. Verfahren nach Anspruch 8,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um ein Verb in der Stammform
handelt.
10. Verfahren nach Anspruch 9,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um ein unverändertes Adverb
handelt.
11. Verfahren nach Anspruch 10,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um ein unverändertes Adjektiv
handelt.
12. Verfahren nach Anspruch 11,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um eine unveränderte Präposition
handelt.
13. Verfahren nach Anspruch 11,
dadurch gekennzeichnet,
daß das zusammengesetzte Wort danach mit allen
abgespeicherten Elementen verglichen wird, bei
denen es sich um ein Substantiv mit dem
Verbindungselement "en" handelt.
14. Verfahren zur automatisierten Analyse von
Wörtern, die aus mehreren Elementen
zusammengesetzt sind, mit Hilfe eines
Computersystems,
dadurch gekennzeichnet,
daß die Buchstaben eines zu analysierenden
zusammengesetzten Wortes gezählt werden, und daß
der gezählten Anzahl der Buchstaben eine
abgespeicherte Anzahl der Elemente des
zusammengesetzten Wortes zugeordnet wird.
15. Verfahren nach Anspruch 14,
dadurch gekennzeichnet,
daß der gezählten Anzahl der Buchstaben gemäß
einer sich nach der Häufigkeit des Vorkommens
richtenden Rangfolge nacheinander verschiedene
Anzahlen der Elemente zugeordnet werden.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4213533A DE4213533C2 (de) | 1992-04-22 | 1992-04-22 | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern |
EP19930103641 EP0566848A3 (en) | 1992-04-22 | 1993-03-08 | System for the automated analysis of compound words |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4213533A DE4213533C2 (de) | 1992-04-22 | 1992-04-22 | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4213533A1 true DE4213533A1 (de) | 1993-10-28 |
DE4213533C2 DE4213533C2 (de) | 1996-01-25 |
Family
ID=6457417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4213533A Expired - Fee Related DE4213533C2 (de) | 1992-04-22 | 1992-04-22 | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP0566848A3 (de) |
DE (1) | DE4213533C2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10149141A1 (de) * | 2001-10-05 | 2003-04-24 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text und Rechnereinheit |
CN108763468A (zh) * | 2018-05-29 | 2018-11-06 | 周宇 | 字典排序处理方法、装置及电子学习设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19526264A1 (de) * | 1995-07-19 | 1997-04-10 | Daimler Benz Ag | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten |
US6349282B1 (en) | 1999-04-20 | 2002-02-19 | Larnout & Hauspie Speech Products N.V. | Compound words in speech recognition systems |
US7610189B2 (en) | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US10713426B2 (en) | 2013-11-14 | 2020-07-14 | Elsevier B.V. | Systems, computer-program products and methods for annotating multiple controlled vocabulary-defined concepts in single noun phrases |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1508736A (en) * | 1975-07-16 | 1978-04-26 | Ibm | Apparatus for hyphenation of words |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0271664B1 (de) * | 1986-12-16 | 1995-06-21 | International Business Machines Corporation | Morphologisches/phonetisches Verfahren zur Berechnung von Wortgleichartigkeiten |
NL9101285A (nl) * | 1991-07-23 | 1993-02-16 | Oce Nederland Bv | Inrichting en werkwijze voor het bepalen van gegevens van samengestelde woorden. |
-
1992
- 1992-04-22 DE DE4213533A patent/DE4213533C2/de not_active Expired - Fee Related
-
1993
- 1993-03-08 EP EP19930103641 patent/EP0566848A3/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1508736A (en) * | 1975-07-16 | 1978-04-26 | Ibm | Apparatus for hyphenation of words |
US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
Non-Patent Citations (1)
Title |
---|
Wolf, H.E., Sprachvollsynthese mit automati- scher Transkription, in: Der Fernmelde-Ingeni- eur, Oktober 1984, S. 1-3, 18-25 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10149141A1 (de) * | 2001-10-05 | 2003-04-24 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text und Rechnereinheit |
CN108763468A (zh) * | 2018-05-29 | 2018-11-06 | 周宇 | 字典排序处理方法、装置及电子学习设备 |
CN108763468B (zh) * | 2018-05-29 | 2021-06-22 | 周宇 | 字典排序处理方法、装置及电子学习设备 |
Also Published As
Publication number | Publication date |
---|---|
EP0566848A2 (de) | 1993-10-27 |
EP0566848A3 (en) | 1994-05-18 |
DE4213533C2 (de) | 1996-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE68928230T2 (de) | System zur grammatikalischen Verarbeitung eines aus natürlicher Sprache zusammengesetzten Satzes | |
DE3587009T2 (de) | Uebersetzungssystem. | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE3853894T2 (de) | Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen. | |
DE69429881T2 (de) | Verfahren und vorrichtungen zur verarbeitung einer zweisprachigen datenbank | |
DE69331044T2 (de) | Vorrichtung und Verfahren zur syntaktischen Signalanalyse | |
DE102004046252A1 (de) | Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung | |
EP0792492A1 (de) | Verfahren zur erzeugung von deskriptoren für die klassifikation von texten | |
DE3032664A1 (de) | Elektronisches sprachuebersetzungsgeraet. | |
EP0590173A1 (de) | Computersystem zur Spracherkennung | |
EP1561281B1 (de) | Verfahren zur erzeugung eines bitstroms aus einem indizierungsbaum | |
DE69227881T2 (de) | Textübersetzungssystem | |
DE4213533C2 (de) | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern | |
WO2001006451A1 (de) | Verfahren zur bildung und/oder aktualisierung von wörterbüchern zum automatischen adresslesen | |
DE69229491T2 (de) | Verfahren und Gerät um die lexikalen Eigenschaften von zusammengesetzten Wörtern zu bestimmen | |
EP0856176A1 (de) | Datenbankmanagementsystem sowie datenübertragungsverfahren | |
EP0590332A1 (de) | Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz | |
DE4311211C2 (de) | Computersystem und Verfahren zur automatisierten Analyse eines Textes | |
DE4209280C2 (de) | Verfahren und Computersystem zur automatisierten Analyse von Texten | |
DE10112587A1 (de) | Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element | |
DE102009016588A1 (de) | Verfahren zur Ermittlung von Textinformationen | |
DE10010232B4 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69903916T2 (de) | Bewerten von texteinheiten | |
Buch | Vierbeiner &» Tut mir leid, keine Zeit «-Gesellschaft: Zur Übersetzung deutscher Nominalkomposita und Ad-hoc-Komposita ins Schwedische | |
DE19804603A1 (de) | Verfahren zum Ermitteln von Wörtern in einem Sprachsignal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |