DE4209280A1

DE4209280A1 - Computersystem und verfahren zur automatisierten analyse von texten

Info

Publication number: DE4209280A1
Application number: DE4209280A
Authority: DE
Inventors: Magdalena Zoeppritz
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-03-21
Filing date: 1992-03-21
Publication date: 1993-09-23
Anticipated expiration: 2012-03-22
Also published as: EP0562334A3; EP0562334A2; DE4209280C2

Description

Die Erfindung betrifft ein Computersystem zur automatisierten Analyse von Texten, die aus Wörtern einer natürlichen Sprache zusammengesetzt sind, sowie ein Verfahren zur automatisierten Analyse von derartigen Texten mit Hilfe eines Computersystems.

Ein Trend in der allgemeinen Entwicklung von Computer systemen ist, die Schnittstelle Mensch-Computer zu vereinfachen. Als Beispiele aus der Vergangenheit können die Bereitstellung der "Maus" oder die Entwick lung von sogenannten Tastbildschirmen jeweils als Mittel für Benutzereingaben genannt werden. Eine andere Möglichkeit, dem Benutzer die Eingaben in das Computersystem zu erleichtern, ist die Spracherkennung durch das Computersystem. Dabei werden die vom Benutzer gesprochenen Wörter in elektrische Signale umgesetzt und danach vom Computersystem verarbeitet und erkannt. Die erkannten Wörter können dann vom Computersystem beispielsweise als Befehle weiterverarbeitet werden.

Hierzu ist es jedoch erforderlich, daß die vom Benutzer gesprochenen Wörter vom Computersystem richtig erkannt und interpretiert werden. So ist es möglich, daß das Computersystem die aufeinanderfolgenden Wörter "der", "gefangene" und "floh" als solche erkennt; ob es sich dabei aber um den Satz "der Gefangene floh" handelt oder um den Satzteil "der gefangene Floh . . . " kann das Computersystem aus den erkannten Wörtern allein nicht entscheiden. Hierzu ist die Analyse dieses Textes erforderlich, also eine Betrachtung nicht nur der einzelnen Wörter, sondern auch der Zusammenhänge dieser Wörter.

Derartige Analysen von Texten sind ebenfalls erforderlich, wenn beispielsweise ein Textverarbeitungssystem nicht nur reine Schreibfehler korrigieren soll, sondern auch darüber hinausgehende Fehler, wie beispielsweise die fallabhängige richtige Schreibweise von "daß" und "das". Schließlich ist es auch für ein System zur automatischen Übersetzung eines Textes von einer Quellsprache in eine Zielsprache erforderlich, daß zuerst der Text der Quellsprache analysiert, also "verstanden" wird, um ihn danach in die Zielsprache übersetzen zu können.

Wie bereits erwähnt wurde, geht es bei der automatisierten Analyse von Texten mit Hilfe eines Computersystems darum, die einzelnen Wörter beispielsweise eines Satzes nicht mehr einzeln zu betrachten, sondern in ihrem Zusammenhang. So ist es, wie ebenfalls schon erwähnt wurde, für die Spracherkennung oder die Textübersetzung wichtig, daß das Computersystem beispielsweise erkennt, ob ein in einem Satz auf tretendes Verb im Präsens oder im Imperfekt auftritt, oder ob es im Singular oder Plural auftritt, usw. Dies soll an den beiden Sätzen "Er wollte nach Hause gehen." und "Er sagt, er wollte nach Hause gehen." verdeutlicht werden. In beiden Sätzen ist das Verb "wollte" enthalten. Im ersten Satz steht dieses Verb in der dritten Person Singular Imperfekt Indikativ, während es im zweiten Satz in der dritten Person Singular Imperfekt Konjunktiv auftritt. Diese unterschiedlichen Formen des Verbs "wollte" werden bei der Analyse des Satzes erkannt. Erst danach ist es dem Computersystem möglich, die Sätze vollständig richtig zu verarbeiten oder gar zu übersetzen.

Eine Möglichkeit, derartige automatisierte Analysen von Texten mit Hilfe eines Computersystems durchzu führen, besteht darin, sämtliche möglichen Wörter mit allen unterschiedlichen Wortformen oder dergleichen im Speicher des Computersystems abzuspeichern. Bei der Analyse eines Textes werden dann die einzelnen Wörter des Textes mit den abgespeicherten Wörtern verglichen und auf Übereinstimmung geprüft. Alle Übereinstimmungen werden dann als mögliche Kandidaten nacheinander weiterverarbeitet. Es entsteht dadurch ein sogenannter Entscheidungsbaum, der schon bei einem normalen Satz eine Vielzahl von Verzweigungen aufweisen kann, also beliebig komplex sein kann. Dies bedeutet, daß die Verarbeitungszeit schon bei normalen Sätzen sehr groß ist. Eine Echtzeit-Verarbeitung, wie dies beispielsweise bei der Spracherkennung notwendig ist, ist nicht mehr möglich. Ebenfalls erfordert die große Menge abzuspeichernder Wörter einen großen Speicher, was üblicherweise zur Folge hat, daß derartige automatisierte Analysen bisher nur auf Großrechenanlagen durchführbar sind.

Aufgabe der Erfindung ist die Verbesserung der bekannten Computersysteme und Verfahren zur automatisierten Analyse von Texten, insbesondere im Hinblick auf deren Verarbeitungsgeschwindigkeit.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß bei einem Computersystem der eingangs genannten Art der gemeinsame Wortstamm von bestimmten Wörtern einmalig abgespeichert ist, und daß zu jedem Wortstamm ein Geltungsbereich und Endungen abgespeichert sind.

Bei einem Verfahren der eingangs genannten Art wird die Aufgabe erfindungsgemäß dadurch gelöst, daß die Wörter mit einer Vielzahl von abgespeicherten Wort stämmen und mit jeweils zugehörigen abgespeicherten Geltungsbereichen und Endungen verglichen werden.

Es werden also nicht alle Wörter im Speicher des Computersystems abgespeichert, sondern es werden nur die gemeinsamen Wortstämme von bestimmten, zusammen gehörenden Wörtern jeweils einmalig abgespeichert. Schon allein durch diese Maßnahme wird der Speicher platzbedarf wesentlich verringert. Durch die jeweils den einzelnen Wortstämmen zugeordnete Abspeicherung eines Geltungsbereichs und von Endungen wird erreicht, daß die gesamte Bandbreite aller Ausgestaltungs möglichkeiten des Wortstamms erhalten bleibt und von dem Computersystem berücksichtigt werden kann.

Eine weitere Einsparung an Speicherplatzbedarf kann dadurch erfolgen, daß die Geltungsbereiche und die Endungen in der Form von unterschiedlichen Kodierungen abgespeichert sind. Die Zuordnung der einzelnen Kodierungen zu den Geltungsbereichen und den Endungen kann dann in der Form von abgespeicherten Tabellen erfolgen.

Besonders vorteilhaft ist es, die den Verben zuge hörigen Wortstämme im Speicher des Computersystems abzuspeichern. In diesem Fall kann sich der Geltungs bereich des Verbs aus der Gültigkeit des Wortstamms für bestimmte Zeiten und Personen zusammensetzen. Entsprechend können sich die Endungen aus den dem Wortstamm hinzuzufügenden Änderungen für alle Zeiten und Personen des zugehörigen Verbs zusammensetzen.

Wie bereits erwähnt wurde, ist es durch die Abspeicherung des Wortstamms mit zugehörigem Geltungsbereich und Endungen möglich, sämtliche Ausgestaltungsmöglichkeiten des jeweils zugehörigen Wortes bei der Analyse zu berücksichtigen. Dies erfolgt dadurch, daß das Computersystem bei der Analyse die zu analysierenden Wörter mit den abgespeicherten Wortstämmen und mit den jeweils zugehörigen abgespeicherten Geltungsbereichen und Endungen vergleicht. Allein schon durch die Einschränkung des Vergleichs in einem ersten Schritt auf die Wortstämme wird eine wesentliche Erhöhung der Verarbeitungsgeschwindigkeit erreicht.

Darüberhinaus ist es bei dem erfindungsgemäßen Verfahren zur automatisierten Analyse von Texten mit Hilfe eines Computersystems möglich, nach dem Auffinden eines übereinstimmenden Wortstamms den zugehörigen Geltungsbereich und die Endungen nicht sofort zu berücksichtigen, sondern diese Berück sichtigung erst in einem späteren Stadium der Analyse vorzunehmen. Der Geltungsbereich und die Endungen können also ähnlich wie Variablen bei der weiteren Analyse mitgeführt werden. Dies hat zur Folge, daß der bereits erwähnte Entscheidungsbaum wesentlich weniger Zweige aufweist. Der Zeitbedarf für die Verarbeitung eines derartigen Entscheidungsbaumes wird dadurch wesentlich geringer, was gleichbedeutend ist mit einer Erhöhung der Verarbeitungsgeschwindigkeit.

Insgesamt wird durch die Erfindung ein wesentlicher Beitrag für eine Echtzeitanalyse von Texten mit Hilfe eines Computersystems geleistet. Darüberhinaus wird durch die Erfindung der Speicherplatzbedarf für eine derartige automatisierte Analyse von Textes wesentlich verringert, so daß derartige Analysen auch auf kleineren Computersystemen durchgeführt werden können.

Weitere Ausgestaltungen der Erfindung ergeben sich aus den Patentansprüchen, sowie aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die anhand der Zeichnung erläutert werden.

Fig. 1 zeigt einen Auszug aus einem Speicher eines Computersystems zur automatisierten Analyse von Texten,

Fig. 2 zeigt eine in dem Speicher abgespeicherte Tabelle möglicher Geltungsbereiche von Wortstämmen und

Fig. 3 zeigt eine in dem Speicher abgespeicherte Tabelle möglicher Endungen von Wortstämmen.

Für die nachfolgende Beschreibung wird davon ausgegangen, daß ein bestimmter Text von einem Computersystem analysiert werden soll. Der Text ist aus Wörtern einer natürlichen Sprache zusammengesetzt und ist dem Computersystem beispielsweise durch eine sprachliche Eingabe oder mit Hilfe einer Tastatur eingegeben worden. Wie bereits erläutert worden ist, ist es für eine derartige automatisierte Analyse eines Textes erforderlich, daß die Wörter des Textes mit allen möglichen abgespeicherten Wörtern der natürlichen Sprache verglichen werden. Es muß also ein Lexikon der natürlichen Sprache im Speicher des Computersystems abgespeichert sein.

Handelt es sich bei der natürlichen Sprache um die deutsche Sprache oder um eine andere, sogenannte ablautende Sprache, so treten die Verben dieser Sprache in einer Vielzahl von verschiedenen Formen auf. Dies ist nachfolgend anhand des deutschen Verbs "backen" gezeigt:

Wie ersichtlich ist, tritt das Verb "backen" immer mit dem Wortstamm "back" und bestimmten, von der Zeit und der Person abhängigen Endungen auf. Darüberhinaus gibt es drei Ausnahmen für das Verb "backen", nämlich den Wortstamm "bäck" mit den entsprechenden Endungen in der zweiten und dritten Person Präsens Indikativ, den Wortstamm "buk" mit den zugehörigen Endungen für die einzelnen Personen des Imperfekt Indikativ sowie den Wortstamm "bük" mit den zugehörigen Endungen für die einzelnen Personen des Imperfekt Konjunktiv.

In der Fig. 1 ist ein Auszug aus dem Speicher des Computersystem dargestellt. In der ersten Spalte 110 der Fig. 1 sind die einzelnen Wortstämme angegeben, in der zweiten Spalte 111 jeweils zugehörige Geltungsbereiche und in der dritten Spalte 112 jeweils zugehörige Endungen. Für die Geltungsbereiche und die Endungen sind in der Fig. 1 nur Kodierungen angegeben. Bei diesen Kodierungen kann es sich um allgemeine Kennzeichnungen handeln, die aus mehreren Komponenten bestehen und die auch direkt im Lexikon eingetragen sein können.

Die entsprechenden, zu den Kodierungen zugehörigen Geltungsbereiche und Endungen ergeben sich aus den Fig. 2 und 3. Dabei ist in der Fig. 2 eine Tabelle angegeben, die in den Spalten 120 die Geltungsbereiche und in der Spalte 121 die zugehörigen Kodierungen zum Inhalt hat, während die Fig. 3 eine Tabelle zeigt, die in den Spalten 130 die Endungen und in der Spalte 131 die zugehörigen Kodierungen angibt. Die Tabellen der Fig. 2 und 3 zusammen mit den Kodierungen, jedoch ohne die Beispiele, sind ebenfalls im Speicher des Computersystems abgespeichert.

Aus der Fig. 1 ist ersichtlich, daß nicht sämtliche Formen des deutschen Verbs "backen" im Speicher des Computersystems abgespeichert sind, sondern daß immer nur ein Wortstamm mit einem zugeordneten Geltungsbe reich und zugeordneten Endungen abgespeichert ist. Bei dem deutschen Verb "backen" ist somit als erstes nur der Wortstamm "back" mit dem Geltungsbereich 01 und den Endungen 07 im Speicher des Computersystems abgespeichert. Aus der Tabelle der Fig. 2 ergibt sich für den Geltungsbereich 01, daß der Wortstamm "back" für alle möglichen Formen des Verbs "backen" gültig ist. Aus der Tabelle der Fig. 3 sind aus der Zeile für die Endungen 07 sämtliche Endungen zu entnehmen, die an den Wortstamm "back" in den einzelnen Formen des Verbs "backen" angehängt werden müssen. Es ist ersichtlich, daß alle oben angegebenen Formen des Verbs "backen", die den Wortstamm "back" enthalten, sich aus diesem Wortstamm und den zugehörigen Endungen der Fig. 3 ergeben.

Wie bereits erwähnt wurde, weist das Verb "backen" auch Ausnahmen auf, u. a. "du bäckst" und "er/sie/es bäckt". Diese Ausnahmen sind gemäß der Fig. 1 im Speicher des Computersystem mit Hilfe des Wortstamms "bäck", dem zugeordneten Geltungsbereich 19 und den zugeordneten Endungen 07 abgespeichert. Aus dem Geltungsbereich 19 ergibt sich, daß der Wortstamm "bäck" nur gültig ist für die zweite und dritte Person Präsens Indikativ. Der Geltungsbereich 19 stellt damit eine Einschränkung des Wortstamms "bäck" nur auf diese beiden Formen des Verbs "backen" dar. Aus der Tabelle der Fig. 3 ergibt sich aus den Endungen 07, daß an den Wortstamm "bäck" in der zweiten Person Präsens Indikativ ein "st" angefügt werden muß, während in der dritten Person Singular Präsens Indikativ ein "t" an den Wortstamm angefügt werden muß. Es ist dabei zu beachten, daß aufgrund der Einschränkung durch den Geltungsbereich 19 auf die zweite und dritte Person Singular Präsens Indikativ nur diese beiden Endungen aus der Fig. 3 relevant sind. Insgesamt ergeben sich auf diese Weise aus den Tabellen der Fig. 2 und 3 und dem Wortstamm "bäck" die erwähnten Ausnahmen "du bäckst" und "er/sie/es bäckt".

Wie ebenfalls bereits ausgeführt wurde, ist bei dem Verb "backen" eine weitere Ausnahme bei allen Personen des Imperfekt Indikativ möglich. Dies ist gemäß der Fig. 1 in der Form des Wortstamms "buk", des zugehörigen Geltungsbereichs 26 und der zugehörigen Endungen 12 im Speicher des Computersystems abgespeichert. Aus der Tabelle der Fig. 2 ergibt sich, daß der Wortstamm "buk" gemäß dem Geltungsbereich 26 nur für die Formen des Imperfekt Indikativ gültig ist. Aus den Endungen 12 der Tabelle der Fig. 3 ergibt sich, daß an den Wortstamm "buk" in der ersten und dritten Person Singular Imperfekt Indikativ keine Endung angefügt werden darf, daß hingegen in der zweiten Person Singular, der ersten und dritten Person Plural und der zweiten Person Plural Imperfekt Indikativ die Endungen "st", "en", "t" an den Wortstamm angefügt werden müssen. Damit ergeben sich die Formen "ich buk", "du bukst", "er/sie/es buk", "wir buken", "ihr bukt" und "sie buken", wie dies oben angegeben ist. Zu beachten ist, daß aufgrund des Geltungsbereiches 26 nur die Endungen des Imperfekt Indikativ der dem Wortstamm "buk" zugeordneten Endungen 12 relevant sind.

Entsprechendes gilt für den Wortstamm "bük", dem gemäß der Fig. 1 der Geltungsbereich 34 und die Endungen 12 zugeordnet sind.

Insgesamt ist es somit dem Computersystem möglich, aus den abgespeicherten Wortstämmen "back", "bäck", "buk" und "bük" und den jeweils zugeordneten abgespeicherten Geltungsbereichen und Endungen sämtliche Formen für alle Personen und Zeiten des Verbs "backen" abzuleiten.

Gleiches gilt für die deutschen Verben "wollen" und "blasen", deren Wortstämme "woll", "will", "blas", "bläs" und "blies" mit den jeweils zugehörigen Geltungs bereichen und Endungen gemäß der Fig. 1 ebenfalls im Speicher des Computersystems abgespeichert sind.

Allgemein sind auf diese Weise die relevanten Wort stämme sämtlicher Verben beispielsweise der deutschen Sprache im Speicher des Computersystems abgespeichert. Für die deutsche Sprache hat sich dabei herausgestellt, daß für die Abspeicherung sämtlicher Verben die Unterscheidung in 39 verschiedene Geltungsbereiche und 26 Sätze von Endungen ausreicht. Durch die Zuordnung jeweils eines Geltungsbereiches und eines Satzes von Endungen zu einem Wortstamm ist es möglich, alle Formen aller Verben aus den Wortstämmen abzuleiten.

Es versteht sich, daß auf diese Art und Weise auch andere Wortarten, beispielsweise Substantive oder Adjektive im Speicher des Computersystems abgespeichert werden können. Ebenfalls versteht es sich, daß diese Abspeicherung in Form von Wortstämmen, Geltungsbereichen und Endungen nicht nur auf die deutsche Sprache, sondern auch auf andere Sprachen, insbesondere auf sogenannte ablautende Sprachen anwendbar ist. Auf diese Weise ist es also möglich, das gesamte Lexikon einer natürlichen Sprache im Speicher eines Computersystems abzuspeichern.

Liegt nun dem Computersystem ein bestimmter Text zur Analyse vor, so wird diese Analyse von dem Computer system mit Hilfe des abgespeicherten Lexikons durch geführt. Dies wird nachfolgend anhand der beiden schon erwähnten Sätze "Er wollte nach Hause gehen." und "Er sagte, er wollte nach Hause gehen." näher erläutert.

Ersichtlich ist in beiden Sätzen das Wort "wollte" enthalten. Im ersten Satz steht es jedoch in der dritten Person Singular Imperfekt Indikativ, während es im zweiten Satz in der dritten Person Singular Imperfekt Konjunktiv auftritt. Dieser Unterschied kann von dem Computersystem jedoch nicht an dem Wort "wollte" selbst erkannt werden, sondern nur über den Zusammenhang dieses Wortes mit den anderen Wörtern des jeweiligen Satzes.

Hierzu bestimmt das Computersystem in einem ersten Schritt den Wortstamm "woll" zu dem Wort "wollte". Danach sucht das Computersystem in seinem Speicher diesen Wortstamm "woll" und findet hierzu entsprechend der Fig. 1 den Geltungsbereich 02 und die Endungen 15. Aus der ebenfalls im Speicher des Computersystems abgespeicherten Tabelle der Fig. 2 entnimmt das Computersystem, daß der Wortstamm "woll" gemäß dem Geltungsbereich 02 für alle Formen des Verbs "wollen" gültig ist, außer der ersten, der zweiten und der dritten Person Singular Präsens Indikativ. Des weiteren entnimmt das Computersystem aus der im Speicher abgespeicherten Tabelle der Fig. 3 die Endungen 15, die an den Wortstamm "woll" angefügt werden müssen, um die jeweiligen Formen des Verbs "wollen" zu bilden.

Das Wort "wollte" setzt sich ersichtlich aus dem Wortstamm "woll" und der Endung "te" zusammen. Diese Endung "te" ist entsprechend den Endungen 15 der Tabelle der Fig. 3 zweimal vorhanden, nämlich bei der ersten und dritten Person Singular Imperfekt Indikativ sowie bei der ersten und dritten Person Singular Imperfekt Konjunktiv. Daraus ergibt sich für das Computersystem, daß das Wort "wollte" entweder in der Form der ersten oder dritten Person Singular Imperfekt Indikativ oder in der Form der ersten oder dritten Person Singular Imperfekt Konjunktiv auftritt. Diese beiden Möglichkeiten werden bei der nachfolgenden weiteren Analyse der beiden Sätze durch das Computer system ähnlich wie Variablen mitgeführt. Auf diese Weise kann das Computersystem beide Möglichkeiten bei der weiteren Analyse berücksichtigen. Erst wenn das Computersystem durch diese weitere Analyse weitere Informationen erarbeitet hat, die mit einer der beiden Möglichkeiten nicht mehr vereinbar sind, erst dann entscheidet sich das Computersystem für die vereinbare Möglichkeit und führt die Analyse nur noch mit dieser Möglichkeit fort. Im Bild eines Entscheidungsbaums werden also die beiden Möglichkeiten in einer Linie mitgeführt, bis in einem späteren Stadium eine Entscheidung möglich ist.

In dem vorliegenden Beispielfall der beiden genannten Sätze ist eine Entscheidung dann möglich, wenn das Computersystem aufgrund der weiteren Analyse erkannt hat, daß es sich bei dem ersten Satz "Er wollte nach Hause gehen." um einen einfachen Hauptsatz handelt, während es sich bei dem zweiten Satz "Er sagt, er wollte nach Hause gehen." um einen Satz mit indirekter Rede handelt.

Bei dem zweiten Satz ergibt sich für das Computersystem, daß das Wort "wollte", das in dem Nebensatz mit indirekter Rede enthalten ist, im Konjunktiv auftreten muß. Somit kann es sich bei dem Wort "wollte" im zweiten Satz nur um die zweite Möglichkeit handeln, nämlich um die erste oder dritte Person Singular Imperfekt Konjunktiv. Da im ersten Satz keinerlei derartige Besonderheiten vorliegen, kann es sich bei dem Wort "wollte" nur um die erste Möglichkeit, nämlich um die erste oder dritte Person Singular Imperfekt Indikativ handeln. Daß es sich schließlich jeweils um die dritte Person handelt, kann das Computersystem direkt aus dem Wort "Er" in den beiden Sätzen folgern.

Liegt somit dem Computersystem der zweite Satz "Er sagt, er wollte nach Hause gehen." zur Analyse vor, so entnimmt das Computersystem, wie erläutert wurde, über den Wortstamm "woll", den Geltungsbereich 02 und die Endungen 15 die beiden genannten Möglichkeiten aus den Tabellen der Fig. 2 und 3. Die Entscheidung, welche der beiden Möglichkeiten nunmehr die richtige ist, kann das Computersystem dann zu einem späteren Zeitpunkt anhand weiterer Informationen, insbesondere der Erkenntnis, daß in dem zweiten Satz eine indirekte Rede enthalten ist, entscheiden.

Liegt dem Computersystem der erste Satz "Er wollte nach Hause gehen." zur Analyse vor, so entnimmt das Computersystem über den Wortstamm, den Geltungsbereich und die Endungen ebenfalls die beiden genannten Möglichkeiten aus den Tabellen der Fig. 2 und 3. Nachdem das Computersystem erkannt hat, daß es sich bei dem ersten Satz um einen normalen Hauptsatz handelt, kann es sich, wie erläutert, für die richtige der beiden Möglichkeiten entscheiden.

Die Analyse wird somit nur ein einziges Mal durchgeführt, wobei bei dieser Durchführung die verschiedenen Möglichkeiten verarbeitet und berücksichtigt werden. Eine mehrfache Durchführung der Analyse mit jeder der einzelnen Möglichkeiten ist nicht erforderlich.

Claims

1. Computersystem zur automatisierten Analyse von Texten, die aus Wörtern einer natürlichen Sprache zusammengesetzt sind, dadurch gekennzeichnet, daß der gemeinsame Wortstamm von bestimmten Wörtern einmalig abgespeichert ist, und daß zu jedem Wortstamm ein Geltungsbereich und Endungen abgespeichert sind (Fig. 1).

2. Computersystem nach Anspruch 1, dadurch gekennzeichnet, daß der Geltungsbereich und die Endungen in der Form von jeweils einer Kodierung abgespeichert ist.

3. Computersystem nach Anspruch 2, dadurch gekennzeichnet, daß Tabellen abgespeichert sind für die Zuordnung der Kodierungen zu den Geltungsbereichen und den Endungen.

4. Computersystem nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß jedem Wortstamm einer der Geltungsbereiche zugeordnet ist (Fig. 2).

5. Computersystem nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß jedem Wortstamm ein Satz der Endungen zugeordnet ist (Fig. 3).

6. Computersystem nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die den Verben zugehörigen Wortstämme einmalig abgespeichert sind.

7. Computersystem nach Anspruch 6, dadurch gekennzeichnet, daß der Geltungsbereich sich aus der Gültigkeit des Wortstamms für bestimmte Zeiten und Personen des zugehörigen Verbs zusammensetzt.

8. Computersystem nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die Endungen sich aus den dem Wortstamm hinzuzufügenden Endungen für alle Zeiten und Personen des zugehörigen Verbs zusammensetzen.

9. Computersystem nach einem der Ansprüche 1 bis 8, gekennzeichnet durch die Verwendung im Zusammenhang mit Spracherkennung, Textkorrektur bzw. -verarbeitung oder Sprachübersetzung.

10. Verfahren zur automatisierten Analyse von Texten, die aus Wörtern einer natürlichen Sprache zusammengesetzt sind, mit Hilfe eines Computersystems, dadurch gekennzeichnet, daß die Wörter mit einer Vielzahl von abgespeicherten Wortstämmen und mit jeweils zugehörigen abgespeicherten Geltungsbereichen und Endungen verglichen werden.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß im Falle einer einzigen Übereinstimmung eines Wortes mit einem der abgespeicherten Wortstämme, dem zugehörigen abgespeicherten Geltungsbereich und den zugehörigen abgespeicherten Endungen aus diesem Geltungsbereich und diesen Endungen allein weitere Informationen bezüglich des Wortes abgeleitet werden.

12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß im Falle von mehreren Übereinstimmungen eines Wortes mit einem der abgespeicherten Wortstämme, dem zugehörigen abgespeicherten Geltungsbereich und den zugehörigen abgespeicherten Endungen erst unter Zuhilfenahme der Analyse von weiteren Wörtern weitere Informationen bezüglich des vorliegenden Wortes abgeleitet werden.