DE4213533A1 - System zur automatisierten Analyse von zusammengesetzten Wörtern - Google Patents

System zur automatisierten Analyse von zusammengesetzten Wörtern

Info

Publication number
DE4213533A1
DE4213533A1 DE4213533A DE4213533A DE4213533A1 DE 4213533 A1 DE4213533 A1 DE 4213533A1 DE 4213533 A DE4213533 A DE 4213533A DE 4213533 A DE4213533 A DE 4213533A DE 4213533 A1 DE4213533 A1 DE 4213533A1
Authority
DE
Germany
Prior art keywords
elements
compound
computer system
noun
nouns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE4213533A
Other languages
English (en)
Other versions
DE4213533C2 (de
Inventor
Lutz Schoenherr
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to DE4213533A priority Critical patent/DE4213533C2/de
Priority to EP19930103641 priority patent/EP0566848A3/en
Publication of DE4213533A1 publication Critical patent/DE4213533A1/de
Application granted granted Critical
Publication of DE4213533C2 publication Critical patent/DE4213533C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

Die Erfindung betrifft ein Computersystem zur automatisierten Analyse von Wörtern, die aus mehreren Elementen zusammengesetzt sind, mit einem Speicher, in dem die Elemente der zusammengesetzten Wörter abgespeichert sind, sowie ein entsprechendes Verfahren zur automatisierten Analyse von Wörtern mit Hilfe eines Computersystems.
Bei vielen natürlichen Sprachen setzen sich bestimmte Wörter aus mehreren einzelnen Elementen zusammen. So besteht beispielsweise die Mehrzahl aller Substantive der deutschen Sprache aus mehreren Einzelelementen, wobei es sich bei diesen Einzelelementen wiederum um Substantive oder um Verben, Adverbien, Adjektive usw. handeln kann. Als Beispiele hierfür seien die zusammengesetzten Substantive "Steckverbindung" und "Dichterkongreß" angegeben.
Bei einer Textverarbeitung mit Hilfe eines Computer­ systems ist es erforderlich, daß derartige, aus mehreren Elementen zusammengesetzte Wörter z. B. für eine Fehlerkorrektur oder eine Silbentrennung vom Computersystem überprüft und analysiert werden. Eine erste Möglichkeit für ein solches Analyseverfahren besteht darin, jedes zusammengesetzte Wort als solches im Speicher des Computersystems abzuspeichern und das zu überprüfende zusammengesetzte Wort mit diesen abgespeicherten zusammengesetzten Wörtern zu vergleichen. Dieses Verfahren hat den Nachteil, daß die Vielzahl der zusammengesetzten Wörter einen großen Speicherplatzbedarf zur Folge hat, so daß derartige Verfahren nur auf Großrechenanlagen ausführbar sind.
Eine zweite Möglichkeit zur Analyse von Wörtern, die aus mehreren Elementen zusammengesetzt sind, besteht darin, nicht sämtliche zusammengesetzten Wörter als solche, sondern jeweils nur die Elemente sämtlicher zusammengesetzten Wörter im Speicher des Computer­ systems abzuspeichern. Dadurch wird erreicht, daß der Speicherplatz für die Abspeicherung der zusammen­ gesetzten Wörter wesentlich verringert wird. Gleichzeitig hat dieses Verfahren jedoch zur Folge, daß das Computersystem die Fähigkeit besitzen muß, ein aus mehreren Elementen zusammengesetztes Wort fehlerfrei in die einzelnen Elemente des Wortes zu zerlegen.
Dies kann beispielsweise dadurch erreicht werden, daß das zu analysierende zusammengesetzte Wort von vorne oder von hinten buchstabenweise vom Computersystem mit den im Speicher abgespeicherten Elementen verglichen wird. Wird eine Übereinstimmung beispielsweise der letzten vier Buchstaben des zu analysierenden Wortes mit einem abgespeicherten Element festgestellt, so nimmt das Computersystem an, daß dieses abgespeicherte Element das letzte Element des zusammengesetzten Wortes ist. Danach wird die Suche nach weiteren übereinstimmenden Elementen fortgesetzt, bis das gesamte zusammengesetzte Wort abgearbeitet ist.
Bei den meisten zusammengesetzten Wörtern existieren jedoch mehrere unterschiedlichen Möglichkeiten der Zerlegung in einzelne Elemente. Dies soll nachfolgend anhand der beiden eingangs genannten Beispiele "Steckverbindung" und "Dichterkongreß" gezeigt werden. So wird das Computersystem bei einer Abarbeitung das Substantivs "Steckverbindung" von hinten nach vorne zuerst das Substantiv "Dung" als erstes Element feststellen. Danach wird das Computer­ system die Präposition "in" finden, um danach noch das Substantiv "Verb" und den Verbstamm "Steck" nacheinander als Elemente des zusammengesetzten Wortes zu erkennen. Offensichtlich ist diese Analyse des Wortes "Steckver­ bindung" durch das Computersystem jedoch falsch. Die richtige Zerlegung des Wortes "Steckverbindung" hätte aus dem Verbstamm "Steck" und dem Substantiv "Verbindung" bestehen müssen. In ähnlicher Weise verläuft auch die Analyse des Wortes "Dichterkongreß" durch das Computersystem fehlerhaft, da das Computersystem nacheinander die Elemente "Kongreß", "er" und "dicht" erkennt, die richtige Zerlegung jedoch aus den Substantiven "Dichter" und "Kongreß" bestehen müßte.
Das Computersystem ist somit bei vielen, aus Elementen zusammengesetzten Wörtern, insbesondere bei vielen zusammengesetzten Substantiven der deutschen Sprache nicht in der Lage, diese in die einzelnen Elemente fehlerfrei zu zerlegen.
Aufgabe der Erfindung ist es, die fehlerfreie Verar­ beitung von zusammengesetzten Wörtern zu verbessern.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß bei einem Computersystem der eingangs genannten Art im Speicher eine Rangfolge von bestimmten Eigenschaften der Elemente abgespeichert ist, wobei die Rangfolge sich nach der Häufigkeit des Vorkommens der Eigenschaften richtet.
Für die deutsche Sprache ist beispielsweise das Vorkommen von Präpositionen als Elemente in zusammen­ gesetzten Wörtern relativ selten.
In der abgespeicherten Rangfolge nimmt deshalb die Eigenschaft "Präposition" keinen Spitzenrang, sondern eher einen der niederwertigeren Ränge ein. Bei der Analyse des erwähnten zusammengesetzten Wortes "Steckverbindung", bei dem das Computersystem, wie erläutert wurde, als zweites Element die Präposition "in" feststellt, kann das Computersystem aufgrund des eher niederwertigeren Ranges folgern, daß die Wahrscheinlichkeit dafür, daß die Präposition "in" ein Element des zusammengesetzten Wortes "Steckverbindung" darstellt, gering ist, daß also die Zerlegung des Wortes "Steckverbindung" in die Elemente "steck", "Verb", "in" und "Dung" eher falsch als richtig ist.
Mit Hilfe der abgespeicherten Rangfolge ist es also dem Computersystem möglich, die Zerlegung eines zu analysierenden zusammengesetzten Wortes als richtig oder falsch zu beurteilen. Bei einer falschen Beurteilung kann das Computersystem danach eine weitere, neue Zerlegung und Beurteilung durchführen, wobei schließlich durch einen Vergleich der Beurteilungen der einzelnen Zerlegungen die richtige Zerlegung vom Computersystem erkannt werden kann.
Bei einem Verfahren der eingangs genannten Art wird ein zu analysierendes zusammengesetztes Wort gemäß einer bestimmte Eigenschaften der Elemente betreffenden, im Speicher abgespeicherten Rangfolge nacheinander mit den abgespeicherten Elementen ver­ glichen. Auf diese Weise wird schon beim Vergleichen des zu analysierenden Wortes mit den abgespeicherten Elementen die Rangfolge der Eigenschaften dieser Elemente berücksichtigt. Bei dem Vergleich werden zuerst nur diejenigen abgespeicherten Elemente her­ angezogen, deren Eigenschaften in der Rangfolge den höchsten Rang einnehmen. Dies sind in der deutschen Sprache Substantive, die in zusammengesetzten Wörtern in Anfangstellung ein "s" als Verbindungselement aufweisen. Es werden also nur solche Substantive im Speicher gesucht und zum Vergleich herangezogen, die innerhalb von zusammengesetzten Wörtern mit dem Verbindungselement "s" auftreten. Wird bei diesem Vergleich vom Computersystem keine Übereinstimmung mit dem zu analysierenden Wort festgestellt, so werden diejenigen Elemente im Speicher des Computersystems gesucht und zum Vergleich herangezogen, deren Eigen­ schaften gemäß der abgespeicherten Rangfolge den zweiten Rang einnehmen. Dieses Verfahren wird solange fortgesetzt, bis eine Übereinstimmung gefunden wird. Danach wird für den verbleibenden Rest des zusammenge­ setzten zu analysierenden Wortes hinsichtlich der Suche und des Vergleichs wieder mit den Elementen mit dem höchsten Rang begonnen.
Bei dem erwähnten zusammengesetzten Wort "Dichter­ kongreß" stellt das Computersystem bei einer Abarbeitung von hinten zuerst das Substantiv "Kongreß" als Element des zusammengesetzten Wortes "Dichterkongreß" fest. Die danach noch verbleibenden Buchstaben enthalten kein "s", so daß ein Vergleich mit denjenigen Substantiven, die innerhalb von zusammengesetzten Wörtern das Verbindungselement "s" aufweisen, und die durch diese Eigenschaft in der abgespeicherten Rang­ folge den höchsten Rang einnehmen, in keinem Fall zu einer Übereinstimmung führen kann. Das Computersystem kann somit diejenigen Substantive zum Vergleich mit den verbleibenden Buchstaben des zu analysierenden zusammengesetzten Wortes heranziehen, die gemäß dem zweiten Rang der abgespeicherten Rangfolge innerhalb von zusammengesetzten Wörtern kein zusätzliches Verbindungselement aufweisen. Zu diesen Elementen gehört das Substantiv "Dichter". Das Computersystem wird somit eine Übereinstimmung zwischen diesem Substantiv und den verbleibenden Buchstaben des zusammengesetzten Wortes feststellen. Da der Rang des erkannten Elements sehr hoch ist, kann das Computersystem daraus folgern, daß die Zerlegung des zu analysierenden, zusammengesetzten Wortes "Dichterkongreß" in die Elemente "Dichter" und "Kongreß" mit hoher Wahrscheinlichkeit richtig ist.
Bei einer Ausgestaltung der Erfindung ist im Speicher des Computersystems eine Rangfolge der Anzahl der Elemente eines zusammengesetzten Wortes in Abhängigkeit von der Anzahl der Buchstaben des zu analysierenden zusammengesetzten Wortes abgespeichert, wobei die Rangfolge sich nach der Häufigkeit des Vorkommens richtet. Diese Rangfolge kann auch alleine, also unabhängig von der die Eigenschaften der Wörter betreffenden Rangfolge verwertet werden.
Vor der Zerlegung eines zu analysierenden zusammenge­ setzten Wortes in seine Elemente kann somit das Computersystem die Anzahl der Buchstaben des zusammen­ gesetzten Wortes abzählen und aus der abgespeicherten Rangfolge die wahrscheinlichste Anzahl der Elemente des zusammengesetzten Wortes entnehmen. So weist beispielsweise das erwähnte zusammengesetzte Wort "Steckverbindung" insgesamt 15 Buchstaben auf. Gemäß der abgespeicherten Rangfolge ist ein aus 15 Buch­ staben bestehendes Wort am ehesten aus zwei Elementen zusammengesetzt. Das Computersystem kann diese Information wiederum dazu verwenden, die Zerlegung des Wortes "Steckverbindung" in die Elemente "steck", "Verb", "in" und "Dung" als fehlerhaft zu erkennen.
Durch die Erfindung werden dem Computersystem Rangfolgen zur Verfügung gestellt, mit deren Hilfe das Computersystem in die Lage versetzt wird, fehlerhafte und richtige Zerlegungen von zu analysierenden zusammengesetzten Wörtern voneinander zu unterscheiden. Die Rangfolgen hängen dabei von der jeweiligen natürlichen Sprache ab. Insbesondere bei zusammengesetzten Substantiven der deutschen Sprache und damit ähnlichen Sprachen kann die Erfindung besonders vorteilhaft eingesetzt werden. Es versteht sich, daß die Erfindung nicht nur im Zusammenhang mit der beschriebenen Textverarbeitung mit Hilfe eines Computersystems eingesetzt werden kann, sondern gleichfalls im Zusammenhang mit der Übersetzung von Texten einer natürlichen Sprache durch den Computer, wie auch bei der Erkennung eines von einer Person gesprochenen Textes durch den Computer.
Weitere Ausgestaltungen und Vorteile der Erfindung ergeben sich aus der anhand der Zeichnung durchgeführten Beschreibung von Ausführungsbeispielen der Erfindung.
Fig. 1 zeigt eine Tabelle mit Zuordnungen der Anzahl der Buchstaben und der Anzahl der Elemente von zusammengesetzten Substantiven sowie mit den jeweiligen Rangfolgen,
Fig. 2 zeigt ein Diagramm der Zuordnungen nach Fig. 1,
Fig. 3 zeigt eine Tabelle zur Erläuterung von Kodierungen für Elemente von zusammengesetzten Substantiven,
Fig. 4 zeigt die Rangfolge der Elemente bei Substantiven, und
Fig. 5 zeigt die Rangfolge der Elemente allgemein.
Die nachfolgende Beschreibung von Ausführungsbei­ spielen der Erfindung betrifft die deutsche Sprache. Es versteht sich, daß die Erfindung auch auf andere natürliche Sprachen anwendbar ist. Des weiteren ist die Erfindung in den nachfolgenden Ausführungsbei­ spielen im Zusammenhang mit zusammengesetzten Substantiven erläutert. Es versteht sich ebenfalls, daß die Erfindung auch auf zusammengesetzte Verben, zusammengesetzte Adjektive, also allgemein auf zusammengesetzte Wörter anwendbar ist.
In der deutschen Sprache sind eine große Anzahl von Substantiven aus zwei oder mehr Elementen zusammengesetzt. Bei den Elementen kann es sich dabei wiederum um Substantive oder um Verben, Adverbien, Adjektive, Präpositionen usw. handeln. Die zusammengesetzten Substantive "Abschlußprüferbericht" und "Geistesblitz" sollen nachfolgend als Beispiele verwendet werden, wobei diese Beispiele als Elemente die Substantive "Abschluß", "Prüfer", "Bericht" sowie "Geist", "Blitz" aufweisen.
Bei einem Computersystem zur Analyse von zusammengesetzten Substantiven sind sämtliche möglichen Elemente dieser zusammengesetzten Substantive im Speicher des Computersystems gespeichert. Es sind also unter anderem die Elemente "Abschluß", "Prüfer", "Bericht", "Geist" und "Blitz" im Speicher abgespeichert.
Die Fig. 1 zeigt eine Tabelle mit Zuordnungen der Anzahl der Buchstaben und der Anzahl der Elemente von zusammengesetzten Substantiven mit den jeweiligen Rangfolgen. In einer Spalte 110 der Fig. 1 ist die Anzahl der Elemente des zugehörigen zusammengesetzten Substantivs angegeben, in einer Spalte 111 die Anzahl der Buchstaben des zugehörigen zusammengesetzten Substantivs, in einer Spalte 112 das absolute Vorkommen derartiger zusammengesetzter Substantive, eine Spalte 114 nennt ein Beispiel eines zugehörigen zusammen­ gesetzten Substantivs, in einer Spalte 115 ist eine prozentuale Verteilung der zugehörigen zusammenge­ setzten Substantive auf die angegebene Anzahl der Elemente der Spalte 110 enthalten und in einer Spalte 116 ist für jede der in Spalte 111 angegebenen Anzahlen der Buchstaben eine Rangfolge der zugehörigen zusammen­ gesetzten Substantive angegeben.
Es versteht sich, daß die Tabelle der Fig. 1 nicht abschließend ist. Der Tabelle der Fig. 1 liegt eine Untersuchung zugrunde, bei der sämtliche zusammenge­ setzten Substantive mit den Anfangsbuchstaben A und B klassifiziert wurden, die aus einem Textkorpus, bestehend aus etwa 60 Millionen Wörtern laufenden Textes, ermittelt worden sind. Die Gesamtzahl der auf diese Weise untersuchten zusammengesetzten Substantive war etwa 68 000, die in dem Textkorpus etwa drei Millionen mal vorkommen. Es wird angenommen, daß die Ergebnisse repräsentativ sind, also auch für zusammengesetzte Substantive mit anderen Anfangsbuchstaben zutreffend sind.
In dem mit der Bezugsziffer 118 gekennzeichneten Bereich der Tabelle der Fig. 1 sind diejenigen zusammengesetzten Substantive angegeben, die gemäß der Spalte 111 14 Buchstaben aufweisen. Aus der Spalte 112 ist zu entnehmen, daß 5 060 der untersuchten zusammen­ gesetzten Substantive aus 14 Buchstaben und zwei Elementen bestehen. 853 aller untersuchter Substantive sind aus 14 Buchstaben und drei Elementen zusammen­ gesetzt. Nur vier zusammengesetzte Substantive sind vorhanden, die 14 Buchstaben und 4 Elemente aufweisen.
Als Beispiel für zusammengesetzte Substantive mit 14 Buchstaben und zwei Elementen ist in der Spalte 114 das Substantiv "Abbildfunktion" angegeben, das die Elemente "Abbild" und "Funktion" aufweist.
Entsprechend ist das zusammengesetzte Substantiv "Armeelastwagen" für 14 Buchstaben und drei Elemente und das Substantiv "Autobahnneubau", für 14 Buchstaben und vier Elemente angegeben. Das zusammengesetzte Substantiv "Autobahnneubau" setzt sich dabei aus den Substantiven "Auto", "Bahn" und "Bau" sowie aus dem Adjektiv "neu" zusammen.
In der Spalte 115 der Tabelle der Fig. 1 ist die prozentuale Verteilung der Anzahl der Elemente bei zusammengesetzten Substantiven mit 14 Buchstaben angegeben. Diese Verteilung resultiert aus dem absoluten Vorkommen gemäß der Spalte 112 bezogen auf die Gesamtzahl aller Substantive mit 14 Buchstaben, die sich durch eine Addition zu 5 917 ergibt. So stellen die 5 060 zusammengesetzten Substantive mit 14 Buchstaben und zwei Elementen etwa 85% aller zusammengesetzten Substantive mit 14 Buchstaben dar.
Entsprechend Weisen etwa 14% aller zusammengesetzten Substantive mit 14 Buchstaben drei Elemente auf. Nur 0,06% aller Substantive, die 14 Buchstaben aufweisen, sind aus vier Elementen zusammengesetzt.
Aus dieser prozentualen Verteilung gemäß der Spalte 115 folgt schließlich eine Rangfolge, wie sie in der Spalte 116 angegeben ist. Bei den aus 14 Buchstaben bestehenden zusammengesetzten Substantiven erhalten nach der Spalte 116 diejenigen Substantive den Rang "1", die aus zwei Elementen zusammengesetzt sind. Der zweithöchste Rang wird denjenigen zusammengesetzten Substantiven zugeordnet, die aus drei Elementen bestehen. Den Rang "3" und damit den niedersten Rang erhalten diejenigen zusammengesetzten Substantive, die vier Elemente aufweisen.
In dem mit der Bezugsziffer 119 gekennzeichneten Bereich der Tabelle der Fig. 1 sind zusammengesetzte Substantive mit 23 Buchstaben angegeben. Aufgrund der durchgeführten Untersuchungen hat sich hier ergeben, daß diejenigen zusammengesetzten Substantive, die aus drei Elementen bestehen, den höchsten Rang "1" aufweisen. Danach folgen gemäß der Rangfolge der Spalte 116 diejenigen zusammengesetzten Substantive, die aus zwei Elementen und danach aus vier Elementen und aus fünf Elementen bestehen. Als Beispiel für ein zusammengesetztes Substantiv mit dem höchsten Rang, also bestehend aus 23 Buchstaben und drei Elementen, ist in der Spalte 114 der Tabelle der Fig. 1 das Substantiv "Abschlußprüferbericht" angegeben.
In dem Diagramm der Fig. 2 sind die Zuordnungen gemäß der Fig. 1 graphisch dargestellt. In einem Koordinaten­ kreuz ist auf der Abszisse 120 die Anzahl der Buchstaben entsprechend der Spalte 111 der Fig. 1 und auf der Koordinate 121 das absolute Vorkommen entsprechend der Spalte 112 der Fig. 1 aufgetragen. In dem Koordinaten­ kreuz sind drei Kurven 123′, 124 und 125 eingezeichnet. Die Kurve 123 repräsentiert alle zusammengesetzten Substantive mit zwei Elementen. Die Kurve 124 stellt alle Substantive dar, die aus drei Elementen zusammenge­ setzt sind und die relativ flache Kurve 125 repräsentiert alle zusammengesetzten Substantive mit vier Elementen.
Für ein zusammengesetztes Substativ mit 14 Buchstaben ist aus der Fig. 2 deutlich ersichtlich, daß derartige Substantive am häufigsten aus zwei Elementen zusammen­ gesetzt sind. Dies entspricht dem bereits erläuterten Rang "1" entsprechend der Spalte 116 der Tabelle der Fig. 1. Des weiteren kann dem Diagramm der Fig. 2 entnommen werden, daß noch eine gewisse Wahrscheinlich­ keit dafür besteht, daß ein Substantiv mit 14 Buchstaben aus drei Elementen zusammengesetzt ist. Dies entspricht dem Rang "2" bzw. der Verteilung von 15% entsprechend den Spalten 116 und 115 der Tabelle der Fig. 1. Schließlich ist dem Diagramm der Fig. 2 zu entnehmen, daß es äußerst unwahrscheinlich ist, daß ein zusammenge­ setztes Substantiv mit 14 Buchstaben aus vier Elementen besteht. Dies entspricht dem zugehörigen niedersten Rang "3" der Spalte 116 der Tabelle der Fig. 1.
Zumindest der Zusammenhang zwischen der Anzahl der Elemente gemäß der Spalte 110, der Anzahl der Buchstaben gemäß der Spalte 111, und der Rangfolge gemäß der Spalte 116 ist im Speicher des Computersystems abgespeichert. Es ist also zu jeder Anzahl der Buchstaben eines zusammengesetzten Substantivs eine Rangfolge der Anzahl der Elemente des zusammengesetzten Substantivs abgespeichert. Durch diese Rangfolge wird das Computersystem in die Lage versetzt, bei einem zusammengesetzten Substantiv mit einer bestimmten Anzahl von Buchstaben die wahrschein­ lichste Anzahl der Elemente des zusammengesetzten Substantivs aus dem Speicher auszulesen.
Darüberhinaus kann ebenfalls noch das absolute Vorkommen gemäß der Spalte 112 der Fig. 1 im Speicher des Computersystems abgespeichert werden. Damit wird erreicht, daß das Computersystem nicht nur die wahrscheinlichste Anzahl der Elemente eines zusammengesetzten Substantivs zu erkennen vermag, sondern zusätzlich auch noch den Wert dieser Wahrscheinlichkeit berücksichtigen kann.
Liegt dem Computersystem beispielsweise das zusammengesetzte Substantiv "Abschlußprüferbericht", zur Analyse vor, so zählt das Computersystem zuerst die Anzahl der Buchstaben dieses Substantivs. Diese Anzahl ist 23. Aus der im Speicher des Computersystems abgespeicherten Rangfolge entnimmt das Computersystem, daß bei einem zusammengesetzten Substantiv mit 23 Buchstaben die größte Wahrscheinlichkeit dafür besteht, daß das Substantiv aus drei Elementen zusammengesetzt ist. Diese Information kann dann vom Computersystem bei der weiteren Analyse des zusammengesetzten Substantivs berücksichtigt werden.
Entsprechend zählt das Computersystem zur Analyse des zusammengesetzten Substantivs "Geistesblitz" dessen Buchstaben und entnimmt aus dem Speicher die zugehörige Information, daß bei einem zusammengesetzten Substantiv mit 12 Buchstaben die größte Wahrscheinlichkeit dafür besteht, daß das Substantiv aus zwei Elementen zusammengesetzt ist. Auch diese Information kann nachfolgend bei der weiteren Analyse des zusammengesetzten Substantivs berücksichtigt werden.
Die Fig. 3 zeigt eine Tabelle zur Erläuterung von Kodierungen für Elemente von zusammengesetzten Substantiven. In einer Spalte 131 sind die Kodierungen mit den laufenden Nummern "01" bis "29" angegeben. In einer Spalte 130 ist jeweils die Bedeutung der Kodierungen und in einer Spalte 132 ein oder mehrere Beispiele für diese Kodierungen enthalten.
So hat beispielsweise die Kodierung "01" die Bedeutung, daß bei einem Element mit dieser Kodierung innerhalb eines zusammengesetzten Wortes keine Veränderung vorgenommen werden muß. Als Beispiel ist zu der Kodierung "01" in der Spalte 132 das Element "Tisch" angegeben, das in dem zusammengesetzten Substantiv "Tischbein" unverändert enthalten ist. Zu der in der Spalte 131 aufgelisteten Kodierung "02" ist in der Spalte 130 als Bedeutung angegeben, daß ein Element mit dieser Kodierung innerhalb eines zusammengesetzten Substantivs mit -laut und im Plural auftritt. Als Beispiel ist hierzu in der Spalte 132 das Element "Bruder" angegeben, das in dem zusammengesetzten Substantiv "Brüdergemeinde" im Plural und mit Umlaut auftritt. Entsprechend hat beispielsweise die Kodierung "07" die Bedeutung, daß an ein Element mit dieser Kodierung die Buchstaben "+es" zur Bildung des Genitivs angehängt werden. Das "+" Zeichen in der Spalte 130 hat die Bedeutung, daß die Buchstaben "es" hinzugefügt werden. Dies ist an dem in der Spalte 132 angegebenen Element "Geist" ersichtlich, an das in dem zusammen­ gesetzten Substantiv "Geistesblitz" die Buchstaben "es" hinzugefügt sind. Es sei noch erwähnt, daß ein "-" Zeichen in der Spalte 130 die Bedeutung hat, daß die danach angegebenen Buchstaben weggelassen werden. Bei einem Element mit der Kodierung "15" werden also beispielsweise die Buchstaben "en" weggelassen, wie z. B. bei dem Element "Süden" in dem zusammengesetzten Substantiv "Südhang".
Insgesamt sind also mit Hilfe der Tabelle der Fig. 3 die Elemente von zusammengesetzten Substantiven hinsichtlich bestimmter Eigenschaften, insbesondere der Hinzunahme von Verbindungselementen oder der Weglassung von Endbuchstaben, wenn diese Elemente in Anfangsstellung auftreten, klassifiziert. Die Tabelle der Fig. 3 ist dabei nicht abschließend; es ist also sehr wohl möglich, daß noch weitere Eigenschaften von Elementen von zusammengesetzten Substantiven existieren, die dann mittels weiterer Kodierungen klassifiziert werden können. Die Tabelle der Fig. 3, ist in dieser oder einer entsprechenden Form im Speicher des Computersystems abgespeichert.
Bei Untersuchungen hat sich herausgestellt, daß bestimmte Eigenschaften von Elementen häufiger vorkommen als andere. Diese Untersuchungen wurden nur bei zusammengesetzten Substantiven mit den Anfangsbuchstaben A und B durchgeführt. Die bereits erwähnten etwa 68 000 zusammengesetzten Substantive werden dabei aus etwa 5 000 einzelnen Elementen gebildet. Dies ergibt rechnerisch ein Gesamtvorkommen von 2,2 Millionen für die Elemente. Es wird daher angenommen, daß die Ergebnisse dieser Untersuchung repräsentativ sind, also auch für Elemente von zusammengesetzten Substantiven mit anderen Anfangsbuchstaben zutreffend sind.
Die Fig. 4 zeigt die Rangfolge der Elemente bei Substantiven. In der Spalte 140 ist die Kodierung des Elements angegeben, die der Kodierung in der Spalte 131 der Fig. 3 entspricht. In der Spalte 141 ist das absolute Vorkommen und in der Spalte 142 das prozentuale Vorkommen von Elementen der jeweils zugehörigen Kodierung in der Gesamtmenge der untersuchten Elemente angegeben. Schließlich ist in der Spalte 143 eine Rangfolge angegeben, die der Häufigkeit des Vorkommens der Elemente mit der jeweils zugehörigen Kodierung entspricht. Es versteht sich, daß die Rangfolge der Fig. 4 nicht abschließend ist.
So ist aus der Fig. 4 zu entnehmen, daß Elemente mit der Kodierung "13", also Elemente, an die gemäß der Tabelle der Fig. 3 in zusammengesetzten Substantiven ein "s" hinzugefügt wird, den höchsten Rang "1" aufweisen. Dies ergibt sich daraus, daß bei der Untersuchung über 30% aller Elemente in zusammengesetzten Substantiven ein hinzugefügtes "s" aufwiesen. Etwa 25% aller untersuchten Elemente wiesen innerhalb von zusammengesetzten Substantiven keine Veränderung auf; derartige Elemente sind der Kodierung "01" zugeordnet. Diese Elemente besitzen gemäß der Fig. 4 den Rang "2". Danach folgen Elemente mit den Kodierungen "07" und "10" auf den Rängen "3" und "4".
Wie erläutert wurde, bezieht sich die Tabelle der Fig. 3 sowie die Rangfolge der Fig. 4 nur auf Substan­ tive. Dies hat zur Folge, daß die Rangfolge der Fig. 4 nur auf zusammengesetzte Wörter anwendbar ist, die aus Substantiven zusammengesetzt sind. Häufig handelt es sich bei den Elementen von zusammengesetzten Wörtern jedoch nicht nur um Substantive, sondern auch um Verben, Adverbien, Adjektive, usw.
Es ist nun möglich, für diese Verben, Adverbien, Adjektive usw. entsprechende Rangfolgen aufzustellen. Bei entsprechenden Untersuchungen wurde beispielsweise festgestellt, daß Verben in ihrer Stammform wesentlich häufiger in zusammengesetzten Substantiven vorkommen als z. B. Verben, von denen der Buchstabe "n" vom Infinitiv weggenommen worden ist. In ähnlicher Weise wurde festgestellt, daß in zusammengesetzten Substan­ tiven unveränderte Adverbien und unveränderte Adjektive wesentlich häufiger auftreten als Adverbien oder Adjektive mit Veränderungen. Diese Untersuchungen beruhten dabei wiederum nur auf zusammengesetzten Substantiven mit den Anfangsbuchstaben A und B, es wird jedoch auch in diesem Fall angenommen, daß die gefundenen Ergebnisse auch bei zusammengesetzten Substantiven mit anderen Anfangsbuchstaben zutreffen. Alle Ergebnisse der Untersuchungen von Substantiven, Verben, Adverbien, Adjektiven, usw. innerhalb von zusammengesetzten Substantiven wurden dann zusammengefaßt und in einer gemeinsamen Rangfolge aufgelistet. Diese Rangfolge von allen Elementen allgemein ist in der Fig. 5 gezeigt.
In der Fig. 5 sind in einer Spalte 150 die Elemente von zusammengesetzten Substantiven angegeben, denen in einer Spalte 151 der jeweils zugehörige Rang zugeordnet ist.
Danach ist gemäß der Fig. 5 der höchste Rang "1" den als Element auftretenden Substantiven mit dem Verbin­ dungselement "s" zugeordnet. Diese Substantive haben die Kodierung "13". Substantive ohne eine Veränderung, also Substantive der Kodierung "01", besitzen den Rang "2". Danach folgen Substantive mit den Verbindungs­ elementen "es" und "n" auf den Rängen "3" und "4". Den Rang "5" nehmen Verben in der Stammform ein. Unveränderte Adverbien sind auf dem Rang "6". Danach folgen unveränderte Adjektive und unveränderte Präpositionen auf den Rängen "7" und "8". Auf dem Rang "9" folgen schließlich Substantive mit dem Verbindungselement "en", also mit der Kodierung "04".
Es versteht sich, daß die in der Fig. 5 angegebene Rangfolge nicht abschließend ist, sondern daß Elemente mit anderen Eigenschaften auf den nachfolgenden Rängen plaziert sind. Des weiteren ist es möglich, daß bei Berücksichtigung der Elemente aller Anfangsbuchstaben bei der in der Fig. 5 angegebenen Rangfolge noch geringe Veränderungen auftreten können. Es besteht jedoch die sehr starke Annahme, daß die ersten vier Ränge der in der Fig. 5 angegebenen Rangfolge auch bei Berücksichtigung der Elemente aller Anfangsbuchstaben unverändert bleiben.
Liegt dem Computersystem nach einer wie auch immer gearteten Eingabe das zusammengesetzte Substantiv "Abschlußprüferbericht" zur Analyse vor, so untersucht das Computersystem dieses Substantiv buchstabenweise von hinten nach vorne. Das Computersystem nimmt also beispielsweise zuerst die letzten drei Buchstaben des Substantivs und sucht im Speicher nach einem übereinstim­ menden Element. Im vorliegenden Fall ist kein Element mit den Buchstaben "cht" im Speicher des Computersystems enthalten. Aus diesem Grund sucht das Computersystem danach im Speicher nach einem Element, das mit den letzten vier, bzw. den letzten fünf, usw. Buchstaben des zu analysierenden zusammengesetzten Substantivs übereinstimmt. Im vorliegenden Fall wird das Computer­ system erstmals eine Übereinstimmung mit dem Element "Bericht" feststellen. Dieses Element "Bericht" speichert dann das Computersystem in irgendeiner Weise als erstes aufgefundenes Element des zusammengesetzten Substantivs "Abschlußprüferbericht" ab.
Danach setzt das Computersystem die buchstabenweise Suche nach weiteren Elementen von hinten nach vorne fort. Durch entsprechende Vergleiche mit abgespeicher­ ten Elementen wird das Computersystem im vorliegenden Fall als nächstes auf das Element "er" stoßen. Bei diesem Element handelt es sich um ein Pronomen, nämlich um die dritte Person Singular. Aus der Rangfolge der Fig. 5, in der Pronomen nicht einmal enthalten sind, entnimmt das Computersystem, daß das Auftreten von Pronomen innerhalb von zusammengesetzten Substantiven äußerst unwahrscheinlich ist.
Bei der weiteren Analyse des zusammengesetzten Substan­ tivs "Abschlußprüferbericht" wird das Computersystem das Element "prüf" auffinden. Bei diesem Element handelt es sich um eine unveränderte Form der Stamm­ form des Verbs "prüfen". In der Rangfolge der Fig. 5 nehmen Verben in der Stammform den Rang "5" ein. Daraus ergibt sich für das Computersystem, daß das Auftreten des Elements "prüf" als unveränderte Stammform des Verbs "prüfen" innerhalb eines zusammen­ gesetzten Substantivs eher unwahrscheinlich ist.
Das Computersystem wird nunmehr die Analyse des zusammengesetzten Substantivs "Abschlußprüferbericht" fortsetzten und dabei auf die weiteren Elemente "Schluß" und "ab" stoßen. Insgesamt zerlegt somit das Computersystem bei dieser Analyse das zusammengesetzte Substantiv "Abschlußprüferbericht" in fünf Elemente. Wie bereits erläutert worden ist, besteht jedoch für zusammengesetzte Substantive mit 23 Buchstaben, also beispielsweise für das Substantiv "Abschlußprüferbericht", eine äußerst geringe Wahrscheinlichkeit, daß derartige Substantive aus fünf Elementen zusammengesetzt sind.
Aus der geringen Wahrscheinlichkeit des Auftretens des Pronomens "er" innerhalb eines zusammengesetzten Substantivs, aus der eher geringen Wahrscheinlichkeit des Auftretens des Elements "prüf" als unveränderte Stammform des Verbs "prüfen" innerhalb eines zusammen­ gesetzten Substantiv sowie aus der äußerst geringen Wahrscheinlichkeit der Zusammensetzung eines Substan­ tivs mit 23 Buchstaben aus fünf Elementen ist es nun dem Computersystem möglich zu entscheiden, daß die vorliegende Zerlegung des zusammengesetzten Substantivs "Abschlußprüferbericht" in die Elemente "ab", "Schluß", "prüf", "er" und "Bericht" falsch sein muß.
Das Computersystem wird aus diesem Grund eine weitere Analyse beginnen, bei der es jedoch das Element "er" als mögliches Element des zusammengesetzten Substantivs "Abschlußprüferbericht", von vorne herein als fehlerhaft verwirft. Unter dieser Voraussetzung wird das Computersystem nach dem Element "Bericht" als nächstes das Element "Prüfer" im Speicher als übereinstimmend auffinden, das gemäß der Rangfolge der Fig. 5 den Rang "2" einnimmt. Die Wahrscheinlichkeit, daß die Analyse insoweit richtig ist, ist deshalb recht groß.
Bei der weiteren Analyse der verbleibenden Buchstaben wird das Computersystem die Elemente "Schluß" und "ab" als übereinstimmend im Speicher feststellen. Bei dem Element "Schluß" handelt es sich um ein unverändertes Substantiv, für das gemäß der Rangfolge der Fig. 5 eine hohe Wahrscheinlichkeit besteht, nämlich der Rang "2". Bei dem Element "ab" hingegen handelt es sich um eine Präposition, für deren Auftreten innerhalb eines zusammengesetzten Substantivs gemäß der Rangfolge der Fig. 5 eine eher geringe Wahrscheinlichkeit besteht. Insgesamt zerlegt das Computersystem bei dieser zweiten Analyse das zusammengesetzte Substantiv "Abschlußprüferbericht" in vier Elemente, für deren Auftreten, wie bereits erläutert wurde, eine gewisse, jedoch geringe Wahrscheinlichkeit besteht, deren Auftreten jedoch nicht den höchsten Rang gemäß der Fig. 1 besitzt.
Aus der geringen Wahrscheinlichkeit des Auftretens des Elementes "ab" sowie aus der eher geringen Wahrschein­ lichkeit der Zusammensetzung des aus 23 Buchstaben bestehenden Substantivs "Abschlußprüferbericht" aus vier Elementen wird das Computersystem nunmehr ableiten, daß auch die zweite Analyse dieses zusammengesetzten Substantivs nicht fehlerfrei ist.
Das Computersystem wird aus diesem Grund eine weitere Analyse des zusammengesetzten Substantivs "Abschluß­ prüferbericht" beginnen. Dabei wird es jedoch im Vergleich zur vorgehenden Analyse das Element "Schluß" als fehlerhaft unterdrücken. Dies hat zur Folge, daß das Computersystem bei dieser dritten Analyse als letztes Element das Element "Abschluß" im Speicher übereinstimmend auffinden wird. Bei diesem Element "Abschluß" handelt es sich um ein unverändertes Substantiv, dessen Auftreten innerhalb eines zusammen­ gesetzten Substantivs gemäß der Rangfolge der Fig. 5 eine hohe Wahrscheinlichkeit besitzt, nämlich den Rang "2". Des weiteren ist bei dieser dritten Analyse das zusammengesetzte Substantiv "Abschlußprüferbericht" in insgesamt drei Elemente, nämlich in die Elemente "Abschluß", "Prüfer" und "Bericht" vom Computersystem zerlegt worden. Wie bereits erläutert worden ist, ist bei zusammengesetzten Substantiven mit 23 Buchstaben die Wahrscheinlichkeit am höchsten, daß derartige Substantive aus drei Elementen bestehen.
Da somit einerseits für das Element "Abschluß" eine sehr hohe Wahrscheinlichkeit besteht, und da des weiteren das Substantiv "Abschlußprüferbericht" 23 Buchstaben aufweist und damit mit hoher Wahrschein­ lichkeit aus drei Elementen zusammengesetzt ist, kann das Computersystem aus diesen Informationen folgern, daß die vorliegende dritte Analyse richtig ist. Das Computersystem hat somit die korrekte Zerlegung des zusammengesetzten Substantivs "Abschlußprüferbericht" in dessen Elemente "Abschluß", "Prüfer" und "Bericht" aufgefunden.
Bei dem vorstehend beschriebenen Verfahren zur Analyse von zusammengesetzten Substantiven wurden bereits durch das Computersystem vorgenommene Zerlegungen des zusammengesetzten Substantivs in Elemente mit Hilfe der im Speicher des Computersystems abgespeicherten Rangfolgen überprüft und als richtig oder falsch beurteilt. Es ist nun auch möglich, schon bei der Zerlegung eines zusammengesetzten Substantivs in Elemente die abgespeicherten Rangfolgen zu berücksichtigen. Dies ist nachfolgend näher erläutert.
Liegt dem Computersystem das zusammengesetzte Sub­ stantiv "Geistesblitz" zur Analyse vor, so vergleicht das Computersystem buchstabenweise von hinten nach vorne dieses zu analysierende Substantiv mit den im Speicher des Computersystems abgespeicherten Elementen. Im vorliegenden Fall wird das Computersystem das Element "Blitz" als erstes Element des zusammenge­ setzten Substantivs "Geistesblitz" auf finden.
Bei den dazu erforderlichen Vergleichs- und Such­ operationen können die abgespeicherten Rangfolgen nicht zur Hilfe genommen werden. Dies ergibt sich daraus, daß sich die den einzelnen Rängen zugeordneten Eigenschaften der Elemente der Fig. 5 immer auf Elemente in Anfangsstellung bzw. in Nicht-Endstellung innerhalb eines zusammengesetzten Substantivs beziehen. So handelt es sich beispielsweise bei dem Rang "4" gemäß der Fig. 5 um ein Substantiv, dem innerhalb eines zusammengesetzten Substantivs der Buchstabe "n" hinzugefügt ist. Aus der Kodierung "10" folgt gemäß der Fig. 3, daß beispielsweise dem Element "Schwalbe" in dem zusammengesetzten Substantiv "Schwalbennest" ein "n" hinzugefügt ist. Derartige Veränderungen, also das Hinzufügen oder Wegnehmen von Buchstaben, kann jedoch nie an dem letzten Element eines zusammenge­ setzten Substantivs erfolgen, sondern immer nur an den dazu vorhergehenden Elementen. Aus diesem Grund ist die Rangfolge der Fig. 5 bei der Ermittlung des letzten Elements des zusammengesetzten Substantivs "Geistesblitz" nicht verwendbar, jedoch bei dem vorhergehenden Element.
Diese Berücksichtigung der Rangfolge der Fig. 5 wird durch das Computersystem derart vorgenommen, daß bei der Suche nach dem vorletzten Element des zusammenge­ setzten Substantivs "Geistesblitz" das Computersystem entsprechend der Rangfolge der Fig. 5 nacheinander jeweils nur diejenigen Elemente zum Vergleich heranzieht, die dem jeweiligen Rang entsprechen. Das Computersystem wird also in einem ersten Schritt nur alle Substantive mit einem hinzugefügten Verbindungselement "s" zum Vergleich mit den verbleibenden Buchstaben des zu analysierenden zusammengesetzten Wortes heranziehen. Alle anderen Elemente werden in diesem ersten Schritt beim Vergleich nicht berücksichtigt. Findet das Computersystem in diesem ersten Schritt kein überein­ stimmendes Element, so werden in einem zweiten Schritt nur diejenigen Substantive zum Vergleich mit dem zu analysierenden zusammengesetzten Substantiv herange­ zogen, die unverändert innerhalb eines zusammenge­ setzten Substantivs auftreten. Wird kein überein­ stimmendes Element aufgefunden, so werden in einem nächsten Schritt wiederum nur diejenigen Substantive zum Vergleich herangezogen, die das Verbindungselement "es" aufweisen. Dieses Verfahren wird gemäß der Rangfolge der Fig. 5 solange fortgesetzt, bis eine Übereinstimmung der verbleibenden Buchstaben des zu analysierenden zusammengesetzten Substantivs mit einem der im Speicher des Computersystems abgespeicherten Elemente aufgefunden wird.
Falls das Computersystem in dem eben genannten ersten Schritt feststellt, daß der letzte der verbleibenden Buchstaben des zu analysierenden zusammengesetzten Wortes kein "s" ist, so wird dieser erste Schritt sofort beendet. Ohne daß Substantive mit einem hinzu­ gefügten Verbindungselement "s" zu Vergleichen heran­ gezogen werden, wird also sofort zu dem nächsten Schritt übergegangen, bei dem das zu analysierende zusammengesetzte Wort mit unveränderten Substantiven entsprechend dem Rang "2" der Rangfolge der Fig. 5 verglichen wird. Entsprechende sofortige Beendigungen von Vergleichsschritten können auch bei anderen Rängen, z. B. dem Rang "3" oder "4" der Rangfolge der Fig. 5 auftreten.
Im vorliegenden Fall des zusammengesetzten Substantivs "Geistesblitz" handelt es sich bei dem ersten Element um das Element "Geist", an das gemäß der Kodierung "07" die Buchstaben "es" hinzugefügt sind. Derartige Substantive besitzen gemäß der Rangfolge der Fig. 5 den Rang "3".
Im ersten Schritt vergleicht das Computersystem alle Substantive mit einem Verbindungselement "s" mit den verbleibenden Buchstaben des zusammengesetzten Substan­ tivs "Geistesblitz". In diesem Schritt wird das Computersystem keine Übereinstimmung auffinden, da, wie erwähnt, das vorletzte Element dieses Substantivs das Element "Geist" ist, an das innerhalb von zusammen­ gesetzten Substantiven das Verbindungselement "es" angefügt werden muß und nicht das Verbindungselement "s". Wie erläutert wurde, bleiben bei dieser Vergleichs­ operation alle anderen abgespeicherten Elemente, die nicht innerhalb von zusammengesetzten Substantiven als Verbindungselemente ein "s" aufweisen, unberücksichtigt.
In einem nächsten Schritt vergleicht das Computersystem sämtliche abgespeicherten Substantive, die innerhalb eines zusammengesetzten Substantivs unverändert auftreten, mit den verbliebenen Buchstaben des zusammen­ gesetzten Substantivs "Geistesblitz". Auch in diesem Schritt wird das Computersystem keine Übereinstimmung auffinden, da, wie erwähnt, nicht die Buchstaben "Geistes" sondern das Element "Geist" im Speicher des Computersystems abgespeichert ist. Auch in diesem Schritt bleiben alle anderen Elemente, die nicht dem Rang "2" gemäß der Fig. 5 entsprechen, unberücksichtigt.
In einem dritten Schritt werden nunmehr sämtliche Substantive, die innerhalb eines zusammengesetzten Substantivs mit einem Verbindungselement "es" versehen sind, mit den verbliebenen Buchstaben des zusammenge­ setzten Substantivs "Geistesblitz" verglichen. Wie bereits erläutert wurde, ist das Element "Geist" im Speicher des Computersystems abgespeichert. Innerhalb von zusammengesetzten Substantiven tritt dieses Element "Geist" entsprechend der Kodierung "07" der Fig. 3 mit dem Verbindungselement "es" auf. Das Computersystem wird aus diesem Grund in diesem dritten Schritt eine Übereinstimmung des im Speicher abge­ speicherten Elements "Geist" und dem zugehörigen Verbindungselement "es" mit den verbliebenen Buchstaben des zu analysierenden zusammengesetzten Substantivs "Geistesblitz" feststellen.
Das Computersystem hat demgemäß das zusammengesetzte Substantiv "Geistesblitz" in zwei Elemente zerlegt. Wie bereits erläutert wurde, besteht bei Substantiven mit 12 Buchstaben die höchste Wahrscheinlichkeit dafür, daß derartige Substantive aus zwei Elementen zusammengesetzt sind. Da das zusammengesetzte Substan­ tiv "Geistesblitz" 12 Buchstaben aufweist, wird auf diese Weise die durch das Computersystem vorgenommene Zerlegung dieses Substantivs in zwei Elemente bestätigt. Das Computersystem hat somit das zusammengesetzte Substantiv "Geistesblitz", richtig in dessen Bestandteile "Geist" und "Blitz" zerlegt, wobei das Computersystem korrekterweise berücksichtigt hat, daß das Element "Geist" innerhalb von zusammengesetzten Substantiven mit dem Verbindungselement "es" versehen ist.
Bei dem zuletzt erläuterten Verfahren zur Analyse von zusammengesetzten Substantiven wird ein zu analysierendes Substantiv in diejenigen Elemente zerlegt, für die gemäß der Fig. 5 die höchste Wahrscheinlichkeit für ihr Auftreten innerhalb von zusammengesetzten Substantiven besteht. Des weiteren wird bei diesem zuletzt beschriebenen Verfahren durch die Einschränkung der Suche nach übereinstimmenden Elementen eine Erhöhung der Verarbeitungsgeschwindig­ keit erreicht. Es werden nicht mehr alle im Speicher des Computersystems abgespeicherten Elemente auf Übereinstimmung überprüft, sondern nur die dem jeweiligen Rang entsprechenden Elemente. Damit sind in jedem Fall wesentlich weniger Vergleichsoperationen nötig als bei einer Suche unter allen Elementen.

Claims (15)

1. Computersystem zur automatisierten Analyse von Wörtern, die aus mehreren Elementen zusammengesetzt sind, mit einem Speicher, in dem die Elemente der zusammengesetzten Wörter abgespeichert sind,
dadurch gekennzeichnet,
daß im Speicher eine Rangfolge von bestimmten Eigenschaften der Elemente abgespeichert ist,
wobei die Rangfolge sich nach der Häufigkeit des Vorkommens der Eigenschaften richtet (Fig. 5).
2. Computersystem nach Anspruch 1, dadurch gekennzeichnet, daß im Speicher eine Rangfolge der Anzahl der Elemente eines zusammengesetzten Wortes in Abhängigkeit von der Anzahl der Buchstaben des zu analysierenden zusammengesetzten Wortes abgespeichert ist, wobei die Rangfolge sich nach der Häufigkeit des Vorkommens richtet (Fig. 1).
3. Computersystem nach Anspruch 1 oder 2, gekennzeichnet durch die Verwendung bei der Textverarbeitung, der Textübersetzung oder der Spracherkennung.
4. Verfahren zur automatisierten Analyse von Wörtern, die aus mehreren Elementen zusammengesetzt sind, mit Hilfe eines Computersystems, wobei die Elemente der zusammengesetzten Wörter in einem Speicher des Computersystems abgespeichert sind, dadurch gekennzeichnet, daß ein zu analysierendes zusammengesetztes Wort gemäß einer bestimmte Eigenschaften der Elemente betreffenden, im Speicher abgespeicherten Rangfolge nacheinander mit den abgespeicherten Elementen verglichen wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß bei der deutschen Sprache das zusammengesetzte Wort zuerst mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein Substantiv mit dem Verbindungselement "s" handelt.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein Substantiv ohne eine Veränderung handelt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein Substantiv mit dem Verbindungselement "es" handelt.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein Substantiv mit dem Verbindungselement "n" handelt.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein Verb in der Stammform handelt.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein unverändertes Adverb handelt.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein unverändertes Adjektiv handelt.
12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um eine unveränderte Präposition handelt.
13. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß das zusammengesetzte Wort danach mit allen abgespeicherten Elementen verglichen wird, bei denen es sich um ein Substantiv mit dem Verbindungselement "en" handelt.
14. Verfahren zur automatisierten Analyse von Wörtern, die aus mehreren Elementen zusammengesetzt sind, mit Hilfe eines Computersystems, dadurch gekennzeichnet, daß die Buchstaben eines zu analysierenden zusammengesetzten Wortes gezählt werden, und daß der gezählten Anzahl der Buchstaben eine abgespeicherte Anzahl der Elemente des zusammengesetzten Wortes zugeordnet wird.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß der gezählten Anzahl der Buchstaben gemäß einer sich nach der Häufigkeit des Vorkommens richtenden Rangfolge nacheinander verschiedene Anzahlen der Elemente zugeordnet werden.
DE4213533A 1992-04-22 1992-04-22 Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern Expired - Fee Related DE4213533C2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE4213533A DE4213533C2 (de) 1992-04-22 1992-04-22 Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
EP19930103641 EP0566848A3 (en) 1992-04-22 1993-03-08 System for the automated analysis of compound words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4213533A DE4213533C2 (de) 1992-04-22 1992-04-22 Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern

Publications (2)

Publication Number Publication Date
DE4213533A1 true DE4213533A1 (de) 1993-10-28
DE4213533C2 DE4213533C2 (de) 1996-01-25

Family

ID=6457417

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4213533A Expired - Fee Related DE4213533C2 (de) 1992-04-22 1992-04-22 Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern

Country Status (2)

Country Link
EP (1) EP0566848A3 (de)
DE (1) DE4213533C2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10149141A1 (de) * 2001-10-05 2003-04-24 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text und Rechnereinheit
CN108763468A (zh) * 2018-05-29 2018-11-06 周宇 字典排序处理方法、装置及电子学习设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19526264A1 (de) * 1995-07-19 1997-04-10 Daimler Benz Ag Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten
US6349282B1 (en) 1999-04-20 2002-02-19 Larnout & Hauspie Speech Products N.V. Compound words in speech recognition systems
US7610189B2 (en) 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US10713426B2 (en) 2013-11-14 2020-07-14 Elsevier B.V. Systems, computer-program products and methods for annotating multiple controlled vocabulary-defined concepts in single noun phrases

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1508736A (en) * 1975-07-16 1978-04-26 Ibm Apparatus for hyphenation of words
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0271664B1 (de) * 1986-12-16 1995-06-21 International Business Machines Corporation Morphologisches/phonetisches Verfahren zur Berechnung von Wortgleichartigkeiten
NL9101285A (nl) * 1991-07-23 1993-02-16 Oce Nederland Bv Inrichting en werkwijze voor het bepalen van gegevens van samengestelde woorden.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1508736A (en) * 1975-07-16 1978-04-26 Ibm Apparatus for hyphenation of words
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Wolf, H.E., Sprachvollsynthese mit automati- scher Transkription, in: Der Fernmelde-Ingeni- eur, Oktober 1984, S. 1-3, 18-25 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10149141A1 (de) * 2001-10-05 2003-04-24 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text und Rechnereinheit
CN108763468A (zh) * 2018-05-29 2018-11-06 周宇 字典排序处理方法、装置及电子学习设备
CN108763468B (zh) * 2018-05-29 2021-06-22 周宇 字典排序处理方法、装置及电子学习设备

Also Published As

Publication number Publication date
EP0566848A2 (de) 1993-10-27
EP0566848A3 (en) 1994-05-18
DE4213533C2 (de) 1996-01-25

Similar Documents

Publication Publication Date Title
DE68928230T2 (de) System zur grammatikalischen Verarbeitung eines aus natürlicher Sprache zusammengesetzten Satzes
DE3587009T2 (de) Uebersetzungssystem.
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE3853894T2 (de) Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen.
DE69429881T2 (de) Verfahren und vorrichtungen zur verarbeitung einer zweisprachigen datenbank
DE69331044T2 (de) Vorrichtung und Verfahren zur syntaktischen Signalanalyse
DE102004046252A1 (de) Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung
EP0792492A1 (de) Verfahren zur erzeugung von deskriptoren für die klassifikation von texten
DE3032664A1 (de) Elektronisches sprachuebersetzungsgeraet.
EP0590173A1 (de) Computersystem zur Spracherkennung
EP1561281B1 (de) Verfahren zur erzeugung eines bitstroms aus einem indizierungsbaum
DE69227881T2 (de) Textübersetzungssystem
DE4213533C2 (de) Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
WO2001006451A1 (de) Verfahren zur bildung und/oder aktualisierung von wörterbüchern zum automatischen adresslesen
DE69229491T2 (de) Verfahren und Gerät um die lexikalen Eigenschaften von zusammengesetzten Wörtern zu bestimmen
EP0856176A1 (de) Datenbankmanagementsystem sowie datenübertragungsverfahren
EP0590332A1 (de) Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes
DE4209280C2 (de) Verfahren und Computersystem zur automatisierten Analyse von Texten
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
DE102009016588A1 (de) Verfahren zur Ermittlung von Textinformationen
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69903916T2 (de) Bewerten von texteinheiten
Buch Vierbeiner &» Tut mir leid, keine Zeit «-Gesellschaft: Zur Übersetzung deutscher Nominalkomposita und Ad-hoc-Komposita ins Schwedische
DE19804603A1 (de) Verfahren zum Ermitteln von Wörtern in einem Sprachsignal

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee