DE4209280A1 - Computersystem und verfahren zur automatisierten analyse von texten - Google Patents

Computersystem und verfahren zur automatisierten analyse von texten

Info

Publication number
DE4209280A1
DE4209280A1 DE4209280A DE4209280A DE4209280A1 DE 4209280 A1 DE4209280 A1 DE 4209280A1 DE 4209280 A DE4209280 A DE 4209280A DE 4209280 A DE4209280 A DE 4209280A DE 4209280 A1 DE4209280 A1 DE 4209280A1
Authority
DE
Germany
Prior art keywords
computer system
endings
word
scope
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE4209280A
Other languages
English (en)
Other versions
DE4209280C2 (de
Inventor
Magdalena Zoeppritz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to DE4209280A priority Critical patent/DE4209280C2/de
Priority to EP93103588A priority patent/EP0562334A2/de
Publication of DE4209280A1 publication Critical patent/DE4209280A1/de
Application granted granted Critical
Publication of DE4209280C2 publication Critical patent/DE4209280C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Computersystem zur automatisierten Analyse von Texten, die aus Wörtern einer natürlichen Sprache zusammengesetzt sind, sowie ein Verfahren zur automatisierten Analyse von derartigen Texten mit Hilfe eines Computersystems.
Ein Trend in der allgemeinen Entwicklung von Computer­ systemen ist, die Schnittstelle Mensch-Computer zu vereinfachen. Als Beispiele aus der Vergangenheit können die Bereitstellung der "Maus" oder die Entwick­ lung von sogenannten Tastbildschirmen jeweils als Mittel für Benutzereingaben genannt werden. Eine andere Möglichkeit, dem Benutzer die Eingaben in das Computersystem zu erleichtern, ist die Spracherkennung durch das Computersystem. Dabei werden die vom Benutzer gesprochenen Wörter in elektrische Signale umgesetzt und danach vom Computersystem verarbeitet und erkannt. Die erkannten Wörter können dann vom Computersystem beispielsweise als Befehle weiterverarbeitet werden.
Hierzu ist es jedoch erforderlich, daß die vom Benutzer gesprochenen Wörter vom Computersystem richtig erkannt und interpretiert werden. So ist es möglich, daß das Computersystem die aufeinanderfolgenden Wörter "der", "gefangene" und "floh" als solche erkennt; ob es sich dabei aber um den Satz "der Gefangene floh" handelt oder um den Satzteil "der gefangene Floh . . . " kann das Computersystem aus den erkannten Wörtern allein nicht entscheiden. Hierzu ist die Analyse dieses Textes erforderlich, also eine Betrachtung nicht nur der einzelnen Wörter, sondern auch der Zusammenhänge dieser Wörter.
Derartige Analysen von Texten sind ebenfalls erforderlich, wenn beispielsweise ein Textverarbeitungssystem nicht nur reine Schreibfehler korrigieren soll, sondern auch darüber hinausgehende Fehler, wie beispielsweise die fallabhängige richtige Schreibweise von "daß" und "das". Schließlich ist es auch für ein System zur automatischen Übersetzung eines Textes von einer Quellsprache in eine Zielsprache erforderlich, daß zuerst der Text der Quellsprache analysiert, also "verstanden" wird, um ihn danach in die Zielsprache übersetzen zu können.
Wie bereits erwähnt wurde, geht es bei der automatisierten Analyse von Texten mit Hilfe eines Computersystems darum, die einzelnen Wörter beispielsweise eines Satzes nicht mehr einzeln zu betrachten, sondern in ihrem Zusammenhang. So ist es, wie ebenfalls schon erwähnt wurde, für die Spracherkennung oder die Textübersetzung wichtig, daß das Computersystem beispielsweise erkennt, ob ein in einem Satz auf tretendes Verb im Präsens oder im Imperfekt auftritt, oder ob es im Singular oder Plural auftritt, usw. Dies soll an den beiden Sätzen "Er wollte nach Hause gehen." und "Er sagt, er wollte nach Hause gehen." verdeutlicht werden. In beiden Sätzen ist das Verb "wollte" enthalten. Im ersten Satz steht dieses Verb in der dritten Person Singular Imperfekt Indikativ, während es im zweiten Satz in der dritten Person Singular Imperfekt Konjunktiv auftritt. Diese unterschiedlichen Formen des Verbs "wollte" werden bei der Analyse des Satzes erkannt. Erst danach ist es dem Computersystem möglich, die Sätze vollständig richtig zu verarbeiten oder gar zu übersetzen.
Eine Möglichkeit, derartige automatisierte Analysen von Texten mit Hilfe eines Computersystems durchzu­ führen, besteht darin, sämtliche möglichen Wörter mit allen unterschiedlichen Wortformen oder dergleichen im Speicher des Computersystems abzuspeichern. Bei der Analyse eines Textes werden dann die einzelnen Wörter des Textes mit den abgespeicherten Wörtern verglichen und auf Übereinstimmung geprüft. Alle Übereinstimmungen werden dann als mögliche Kandidaten nacheinander weiterverarbeitet. Es entsteht dadurch ein sogenannter Entscheidungsbaum, der schon bei einem normalen Satz eine Vielzahl von Verzweigungen aufweisen kann, also beliebig komplex sein kann. Dies bedeutet, daß die Verarbeitungszeit schon bei normalen Sätzen sehr groß ist. Eine Echtzeit-Verarbeitung, wie dies beispielsweise bei der Spracherkennung notwendig ist, ist nicht mehr möglich. Ebenfalls erfordert die große Menge abzuspeichernder Wörter einen großen Speicher, was üblicherweise zur Folge hat, daß derartige automatisierte Analysen bisher nur auf Großrechenanlagen durchführbar sind.
Aufgabe der Erfindung ist die Verbesserung der bekannten Computersysteme und Verfahren zur automatisierten Analyse von Texten, insbesondere im Hinblick auf deren Verarbeitungsgeschwindigkeit.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß bei einem Computersystem der eingangs genannten Art der gemeinsame Wortstamm von bestimmten Wörtern einmalig abgespeichert ist, und daß zu jedem Wortstamm ein Geltungsbereich und Endungen abgespeichert sind.
Bei einem Verfahren der eingangs genannten Art wird die Aufgabe erfindungsgemäß dadurch gelöst, daß die Wörter mit einer Vielzahl von abgespeicherten Wort­ stämmen und mit jeweils zugehörigen abgespeicherten Geltungsbereichen und Endungen verglichen werden.
Es werden also nicht alle Wörter im Speicher des Computersystems abgespeichert, sondern es werden nur die gemeinsamen Wortstämme von bestimmten, zusammen­ gehörenden Wörtern jeweils einmalig abgespeichert. Schon allein durch diese Maßnahme wird der Speicher­ platzbedarf wesentlich verringert. Durch die jeweils den einzelnen Wortstämmen zugeordnete Abspeicherung eines Geltungsbereichs und von Endungen wird erreicht, daß die gesamte Bandbreite aller Ausgestaltungs­ möglichkeiten des Wortstamms erhalten bleibt und von dem Computersystem berücksichtigt werden kann.
Eine weitere Einsparung an Speicherplatzbedarf kann dadurch erfolgen, daß die Geltungsbereiche und die Endungen in der Form von unterschiedlichen Kodierungen abgespeichert sind. Die Zuordnung der einzelnen Kodierungen zu den Geltungsbereichen und den Endungen kann dann in der Form von abgespeicherten Tabellen erfolgen.
Besonders vorteilhaft ist es, die den Verben zuge­ hörigen Wortstämme im Speicher des Computersystems abzuspeichern. In diesem Fall kann sich der Geltungs­ bereich des Verbs aus der Gültigkeit des Wortstamms für bestimmte Zeiten und Personen zusammensetzen. Entsprechend können sich die Endungen aus den dem Wortstamm hinzuzufügenden Änderungen für alle Zeiten und Personen des zugehörigen Verbs zusammensetzen.
Wie bereits erwähnt wurde, ist es durch die Abspeicherung des Wortstamms mit zugehörigem Geltungsbereich und Endungen möglich, sämtliche Ausgestaltungsmöglichkeiten des jeweils zugehörigen Wortes bei der Analyse zu berücksichtigen. Dies erfolgt dadurch, daß das Computersystem bei der Analyse die zu analysierenden Wörter mit den abgespeicherten Wortstämmen und mit den jeweils zugehörigen abgespeicherten Geltungsbereichen und Endungen vergleicht. Allein schon durch die Einschränkung des Vergleichs in einem ersten Schritt auf die Wortstämme wird eine wesentliche Erhöhung der Verarbeitungsgeschwindigkeit erreicht.
Darüberhinaus ist es bei dem erfindungsgemäßen Verfahren zur automatisierten Analyse von Texten mit Hilfe eines Computersystems möglich, nach dem Auffinden eines übereinstimmenden Wortstamms den zugehörigen Geltungsbereich und die Endungen nicht sofort zu berücksichtigen, sondern diese Berück­ sichtigung erst in einem späteren Stadium der Analyse vorzunehmen. Der Geltungsbereich und die Endungen können also ähnlich wie Variablen bei der weiteren Analyse mitgeführt werden. Dies hat zur Folge, daß der bereits erwähnte Entscheidungsbaum wesentlich weniger Zweige aufweist. Der Zeitbedarf für die Verarbeitung eines derartigen Entscheidungsbaumes wird dadurch wesentlich geringer, was gleichbedeutend ist mit einer Erhöhung der Verarbeitungsgeschwindigkeit.
Insgesamt wird durch die Erfindung ein wesentlicher Beitrag für eine Echtzeitanalyse von Texten mit Hilfe eines Computersystems geleistet. Darüberhinaus wird durch die Erfindung der Speicherplatzbedarf für eine derartige automatisierte Analyse von Textes wesentlich verringert, so daß derartige Analysen auch auf kleineren Computersystemen durchgeführt werden können.
Weitere Ausgestaltungen der Erfindung ergeben sich aus den Patentansprüchen, sowie aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die anhand der Zeichnung erläutert werden.
Fig. 1 zeigt einen Auszug aus einem Speicher eines Computersystems zur automatisierten Analyse von Texten,
Fig. 2 zeigt eine in dem Speicher abgespeicherte Tabelle möglicher Geltungsbereiche von Wortstämmen und
Fig. 3 zeigt eine in dem Speicher abgespeicherte Tabelle möglicher Endungen von Wortstämmen.
Für die nachfolgende Beschreibung wird davon ausgegangen, daß ein bestimmter Text von einem Computersystem analysiert werden soll. Der Text ist aus Wörtern einer natürlichen Sprache zusammengesetzt und ist dem Computersystem beispielsweise durch eine sprachliche Eingabe oder mit Hilfe einer Tastatur eingegeben worden. Wie bereits erläutert worden ist, ist es für eine derartige automatisierte Analyse eines Textes erforderlich, daß die Wörter des Textes mit allen möglichen abgespeicherten Wörtern der natürlichen Sprache verglichen werden. Es muß also ein Lexikon der natürlichen Sprache im Speicher des Computersystems abgespeichert sein.
Handelt es sich bei der natürlichen Sprache um die deutsche Sprache oder um eine andere, sogenannte ablautende Sprache, so treten die Verben dieser Sprache in einer Vielzahl von verschiedenen Formen auf. Dies ist nachfolgend anhand des deutschen Verbs "backen" gezeigt:
Wie ersichtlich ist, tritt das Verb "backen" immer mit dem Wortstamm "back" und bestimmten, von der Zeit und der Person abhängigen Endungen auf. Darüberhinaus gibt es drei Ausnahmen für das Verb "backen", nämlich den Wortstamm "bäck" mit den entsprechenden Endungen in der zweiten und dritten Person Präsens Indikativ, den Wortstamm "buk" mit den zugehörigen Endungen für die einzelnen Personen des Imperfekt Indikativ sowie den Wortstamm "bük" mit den zugehörigen Endungen für die einzelnen Personen des Imperfekt Konjunktiv.
In der Fig. 1 ist ein Auszug aus dem Speicher des Computersystem dargestellt. In der ersten Spalte 110 der Fig. 1 sind die einzelnen Wortstämme angegeben, in der zweiten Spalte 111 jeweils zugehörige Geltungsbereiche und in der dritten Spalte 112 jeweils zugehörige Endungen. Für die Geltungsbereiche und die Endungen sind in der Fig. 1 nur Kodierungen angegeben. Bei diesen Kodierungen kann es sich um allgemeine Kennzeichnungen handeln, die aus mehreren Komponenten bestehen und die auch direkt im Lexikon eingetragen sein können.
Die entsprechenden, zu den Kodierungen zugehörigen Geltungsbereiche und Endungen ergeben sich aus den Fig. 2 und 3. Dabei ist in der Fig. 2 eine Tabelle angegeben, die in den Spalten 120 die Geltungsbereiche und in der Spalte 121 die zugehörigen Kodierungen zum Inhalt hat, während die Fig. 3 eine Tabelle zeigt, die in den Spalten 130 die Endungen und in der Spalte 131 die zugehörigen Kodierungen angibt. Die Tabellen der Fig. 2 und 3 zusammen mit den Kodierungen, jedoch ohne die Beispiele, sind ebenfalls im Speicher des Computersystems abgespeichert.
Aus der Fig. 1 ist ersichtlich, daß nicht sämtliche Formen des deutschen Verbs "backen" im Speicher des Computersystems abgespeichert sind, sondern daß immer nur ein Wortstamm mit einem zugeordneten Geltungsbe­ reich und zugeordneten Endungen abgespeichert ist. Bei dem deutschen Verb "backen" ist somit als erstes nur der Wortstamm "back" mit dem Geltungsbereich 01 und den Endungen 07 im Speicher des Computersystems abgespeichert. Aus der Tabelle der Fig. 2 ergibt sich für den Geltungsbereich 01, daß der Wortstamm "back" für alle möglichen Formen des Verbs "backen" gültig ist. Aus der Tabelle der Fig. 3 sind aus der Zeile für die Endungen 07 sämtliche Endungen zu entnehmen, die an den Wortstamm "back" in den einzelnen Formen des Verbs "backen" angehängt werden müssen. Es ist ersichtlich, daß alle oben angegebenen Formen des Verbs "backen", die den Wortstamm "back" enthalten, sich aus diesem Wortstamm und den zugehörigen Endungen der Fig. 3 ergeben.
Wie bereits erwähnt wurde, weist das Verb "backen" auch Ausnahmen auf, u. a. "du bäckst" und "er/sie/es bäckt". Diese Ausnahmen sind gemäß der Fig. 1 im Speicher des Computersystem mit Hilfe des Wortstamms "bäck", dem zugeordneten Geltungsbereich 19 und den zugeordneten Endungen 07 abgespeichert. Aus dem Geltungsbereich 19 ergibt sich, daß der Wortstamm "bäck" nur gültig ist für die zweite und dritte Person Präsens Indikativ. Der Geltungsbereich 19 stellt damit eine Einschränkung des Wortstamms "bäck" nur auf diese beiden Formen des Verbs "backen" dar. Aus der Tabelle der Fig. 3 ergibt sich aus den Endungen 07, daß an den Wortstamm "bäck" in der zweiten Person Präsens Indikativ ein "st" angefügt werden muß, während in der dritten Person Singular Präsens Indikativ ein "t" an den Wortstamm angefügt werden muß. Es ist dabei zu beachten, daß aufgrund der Einschränkung durch den Geltungsbereich 19 auf die zweite und dritte Person Singular Präsens Indikativ nur diese beiden Endungen aus der Fig. 3 relevant sind. Insgesamt ergeben sich auf diese Weise aus den Tabellen der Fig. 2 und 3 und dem Wortstamm "bäck" die erwähnten Ausnahmen "du bäckst" und "er/sie/es bäckt".
Wie ebenfalls bereits ausgeführt wurde, ist bei dem Verb "backen" eine weitere Ausnahme bei allen Personen des Imperfekt Indikativ möglich. Dies ist gemäß der Fig. 1 in der Form des Wortstamms "buk", des zugehörigen Geltungsbereichs 26 und der zugehörigen Endungen 12 im Speicher des Computersystems abgespeichert. Aus der Tabelle der Fig. 2 ergibt sich, daß der Wortstamm "buk" gemäß dem Geltungsbereich 26 nur für die Formen des Imperfekt Indikativ gültig ist. Aus den Endungen 12 der Tabelle der Fig. 3 ergibt sich, daß an den Wortstamm "buk" in der ersten und dritten Person Singular Imperfekt Indikativ keine Endung angefügt werden darf, daß hingegen in der zweiten Person Singular, der ersten und dritten Person Plural und der zweiten Person Plural Imperfekt Indikativ die Endungen "st", "en", "t" an den Wortstamm angefügt werden müssen. Damit ergeben sich die Formen "ich buk", "du bukst", "er/sie/es buk", "wir buken", "ihr bukt" und "sie buken", wie dies oben angegeben ist. Zu beachten ist, daß aufgrund des Geltungsbereiches 26 nur die Endungen des Imperfekt Indikativ der dem Wortstamm "buk" zugeordneten Endungen 12 relevant sind.
Entsprechendes gilt für den Wortstamm "bük", dem gemäß der Fig. 1 der Geltungsbereich 34 und die Endungen 12 zugeordnet sind.
Insgesamt ist es somit dem Computersystem möglich, aus den abgespeicherten Wortstämmen "back", "bäck", "buk" und "bük" und den jeweils zugeordneten abgespeicherten Geltungsbereichen und Endungen sämtliche Formen für alle Personen und Zeiten des Verbs "backen" abzuleiten.
Gleiches gilt für die deutschen Verben "wollen" und "blasen", deren Wortstämme "woll", "will", "blas", "bläs" und "blies" mit den jeweils zugehörigen Geltungs­ bereichen und Endungen gemäß der Fig. 1 ebenfalls im Speicher des Computersystems abgespeichert sind.
Allgemein sind auf diese Weise die relevanten Wort­ stämme sämtlicher Verben beispielsweise der deutschen Sprache im Speicher des Computersystems abgespeichert. Für die deutsche Sprache hat sich dabei herausgestellt, daß für die Abspeicherung sämtlicher Verben die Unterscheidung in 39 verschiedene Geltungsbereiche und 26 Sätze von Endungen ausreicht. Durch die Zuordnung jeweils eines Geltungsbereiches und eines Satzes von Endungen zu einem Wortstamm ist es möglich, alle Formen aller Verben aus den Wortstämmen abzuleiten.
Es versteht sich, daß auf diese Art und Weise auch andere Wortarten, beispielsweise Substantive oder Adjektive im Speicher des Computersystems abgespeichert werden können. Ebenfalls versteht es sich, daß diese Abspeicherung in Form von Wortstämmen, Geltungsbereichen und Endungen nicht nur auf die deutsche Sprache, sondern auch auf andere Sprachen, insbesondere auf sogenannte ablautende Sprachen anwendbar ist. Auf diese Weise ist es also möglich, das gesamte Lexikon einer natürlichen Sprache im Speicher eines Computersystems abzuspeichern.
Liegt nun dem Computersystem ein bestimmter Text zur Analyse vor, so wird diese Analyse von dem Computer­ system mit Hilfe des abgespeicherten Lexikons durch­ geführt. Dies wird nachfolgend anhand der beiden schon erwähnten Sätze "Er wollte nach Hause gehen." und "Er sagte, er wollte nach Hause gehen." näher erläutert.
Ersichtlich ist in beiden Sätzen das Wort "wollte" enthalten. Im ersten Satz steht es jedoch in der dritten Person Singular Imperfekt Indikativ, während es im zweiten Satz in der dritten Person Singular Imperfekt Konjunktiv auftritt. Dieser Unterschied kann von dem Computersystem jedoch nicht an dem Wort "wollte" selbst erkannt werden, sondern nur über den Zusammenhang dieses Wortes mit den anderen Wörtern des jeweiligen Satzes.
Hierzu bestimmt das Computersystem in einem ersten Schritt den Wortstamm "woll" zu dem Wort "wollte". Danach sucht das Computersystem in seinem Speicher diesen Wortstamm "woll" und findet hierzu entsprechend der Fig. 1 den Geltungsbereich 02 und die Endungen 15. Aus der ebenfalls im Speicher des Computersystems abgespeicherten Tabelle der Fig. 2 entnimmt das Computersystem, daß der Wortstamm "woll" gemäß dem Geltungsbereich 02 für alle Formen des Verbs "wollen" gültig ist, außer der ersten, der zweiten und der dritten Person Singular Präsens Indikativ. Des weiteren entnimmt das Computersystem aus der im Speicher abgespeicherten Tabelle der Fig. 3 die Endungen 15, die an den Wortstamm "woll" angefügt werden müssen, um die jeweiligen Formen des Verbs "wollen" zu bilden.
Das Wort "wollte" setzt sich ersichtlich aus dem Wortstamm "woll" und der Endung "te" zusammen. Diese Endung "te" ist entsprechend den Endungen 15 der Tabelle der Fig. 3 zweimal vorhanden, nämlich bei der ersten und dritten Person Singular Imperfekt Indikativ sowie bei der ersten und dritten Person Singular Imperfekt Konjunktiv. Daraus ergibt sich für das Computersystem, daß das Wort "wollte" entweder in der Form der ersten oder dritten Person Singular Imperfekt Indikativ oder in der Form der ersten oder dritten Person Singular Imperfekt Konjunktiv auftritt. Diese beiden Möglichkeiten werden bei der nachfolgenden weiteren Analyse der beiden Sätze durch das Computer­ system ähnlich wie Variablen mitgeführt. Auf diese Weise kann das Computersystem beide Möglichkeiten bei der weiteren Analyse berücksichtigen. Erst wenn das Computersystem durch diese weitere Analyse weitere Informationen erarbeitet hat, die mit einer der beiden Möglichkeiten nicht mehr vereinbar sind, erst dann entscheidet sich das Computersystem für die vereinbare Möglichkeit und führt die Analyse nur noch mit dieser Möglichkeit fort. Im Bild eines Entscheidungsbaums werden also die beiden Möglichkeiten in einer Linie mitgeführt, bis in einem späteren Stadium eine Entscheidung möglich ist.
In dem vorliegenden Beispielfall der beiden genannten Sätze ist eine Entscheidung dann möglich, wenn das Computersystem aufgrund der weiteren Analyse erkannt hat, daß es sich bei dem ersten Satz "Er wollte nach Hause gehen." um einen einfachen Hauptsatz handelt, während es sich bei dem zweiten Satz "Er sagt, er wollte nach Hause gehen." um einen Satz mit indirekter Rede handelt.
Bei dem zweiten Satz ergibt sich für das Computersystem, daß das Wort "wollte", das in dem Nebensatz mit indirekter Rede enthalten ist, im Konjunktiv auftreten muß. Somit kann es sich bei dem Wort "wollte" im zweiten Satz nur um die zweite Möglichkeit handeln, nämlich um die erste oder dritte Person Singular Imperfekt Konjunktiv. Da im ersten Satz keinerlei derartige Besonderheiten vorliegen, kann es sich bei dem Wort "wollte" nur um die erste Möglichkeit, nämlich um die erste oder dritte Person Singular Imperfekt Indikativ handeln. Daß es sich schließlich jeweils um die dritte Person handelt, kann das Computersystem direkt aus dem Wort "Er" in den beiden Sätzen folgern.
Liegt somit dem Computersystem der zweite Satz "Er sagt, er wollte nach Hause gehen." zur Analyse vor, so entnimmt das Computersystem, wie erläutert wurde, über den Wortstamm "woll", den Geltungsbereich 02 und die Endungen 15 die beiden genannten Möglichkeiten aus den Tabellen der Fig. 2 und 3. Die Entscheidung, welche der beiden Möglichkeiten nunmehr die richtige ist, kann das Computersystem dann zu einem späteren Zeitpunkt anhand weiterer Informationen, insbesondere der Erkenntnis, daß in dem zweiten Satz eine indirekte Rede enthalten ist, entscheiden.
Liegt dem Computersystem der erste Satz "Er wollte nach Hause gehen." zur Analyse vor, so entnimmt das Computersystem über den Wortstamm, den Geltungsbereich und die Endungen ebenfalls die beiden genannten Möglichkeiten aus den Tabellen der Fig. 2 und 3. Nachdem das Computersystem erkannt hat, daß es sich bei dem ersten Satz um einen normalen Hauptsatz handelt, kann es sich, wie erläutert, für die richtige der beiden Möglichkeiten entscheiden.
Die Analyse wird somit nur ein einziges Mal durchgeführt, wobei bei dieser Durchführung die verschiedenen Möglichkeiten verarbeitet und berücksichtigt werden. Eine mehrfache Durchführung der Analyse mit jeder der einzelnen Möglichkeiten ist nicht erforderlich.

Claims (12)

1. Computersystem zur automatisierten Analyse von Texten, die aus Wörtern einer natürlichen Sprache zusammengesetzt sind, dadurch gekennzeichnet, daß der gemeinsame Wortstamm von bestimmten Wörtern einmalig abgespeichert ist, und daß zu jedem Wortstamm ein Geltungsbereich und Endungen abgespeichert sind (Fig. 1).
2. Computersystem nach Anspruch 1, dadurch gekennzeichnet, daß der Geltungsbereich und die Endungen in der Form von jeweils einer Kodierung abgespeichert ist.
3. Computersystem nach Anspruch 2, dadurch gekennzeichnet, daß Tabellen abgespeichert sind für die Zuordnung der Kodierungen zu den Geltungsbereichen und den Endungen.
4. Computersystem nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß jedem Wortstamm einer der Geltungsbereiche zugeordnet ist (Fig. 2).
5. Computersystem nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß jedem Wortstamm ein Satz der Endungen zugeordnet ist (Fig. 3).
6. Computersystem nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die den Verben zugehörigen Wortstämme einmalig abgespeichert sind.
7. Computersystem nach Anspruch 6, dadurch gekennzeichnet, daß der Geltungsbereich sich aus der Gültigkeit des Wortstamms für bestimmte Zeiten und Personen des zugehörigen Verbs zusammensetzt.
8. Computersystem nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die Endungen sich aus den dem Wortstamm hinzuzufügenden Endungen für alle Zeiten und Personen des zugehörigen Verbs zusammensetzen.
9. Computersystem nach einem der Ansprüche 1 bis 8, gekennzeichnet durch die Verwendung im Zusammenhang mit Spracherkennung, Textkorrektur bzw. -verarbeitung oder Sprachübersetzung.
10. Verfahren zur automatisierten Analyse von Texten, die aus Wörtern einer natürlichen Sprache zusammengesetzt sind, mit Hilfe eines Computersystems, dadurch gekennzeichnet, daß die Wörter mit einer Vielzahl von abgespeicherten Wortstämmen und mit jeweils zugehörigen abgespeicherten Geltungsbereichen und Endungen verglichen werden.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß im Falle einer einzigen Übereinstimmung eines Wortes mit einem der abgespeicherten Wortstämme, dem zugehörigen abgespeicherten Geltungsbereich und den zugehörigen abgespeicherten Endungen aus diesem Geltungsbereich und diesen Endungen allein weitere Informationen bezüglich des Wortes abgeleitet werden.
12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß im Falle von mehreren Übereinstimmungen eines Wortes mit einem der abgespeicherten Wortstämme, dem zugehörigen abgespeicherten Geltungsbereich und den zugehörigen abgespeicherten Endungen erst unter Zuhilfenahme der Analyse von weiteren Wörtern weitere Informationen bezüglich des vorliegenden Wortes abgeleitet werden.
DE4209280A 1992-03-21 1992-03-21 Verfahren und Computersystem zur automatisierten Analyse von Texten Expired - Fee Related DE4209280C2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE4209280A DE4209280C2 (de) 1992-03-21 1992-03-21 Verfahren und Computersystem zur automatisierten Analyse von Texten
EP93103588A EP0562334A2 (de) 1992-03-21 1993-03-05 Rechnersystem und Verfahren zur automatischen Analyse von Texten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4209280A DE4209280C2 (de) 1992-03-21 1992-03-21 Verfahren und Computersystem zur automatisierten Analyse von Texten

Publications (2)

Publication Number Publication Date
DE4209280A1 true DE4209280A1 (de) 1993-09-23
DE4209280C2 DE4209280C2 (de) 1995-12-07

Family

ID=6454727

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4209280A Expired - Fee Related DE4209280C2 (de) 1992-03-21 1992-03-21 Verfahren und Computersystem zur automatisierten Analyse von Texten

Country Status (2)

Country Link
EP (1) EP0562334A2 (de)
DE (1) DE4209280C2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
FR2839167B1 (fr) * 2002-04-26 2005-02-18 Andre Marie Georges Baverel Procede de traitement de donnees notamment de donnees linguistiques (mots lexicaux et mots grammaticaux)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0274281A1 (de) * 1987-01-05 1988-07-13 Gachot S.A. Verfahren zur Übersetzung natürlicher Sprachen mittels eines programmierten Digitalrechners
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPS62251876A (ja) * 1986-04-18 1987-11-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 言語処理システム
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0274281A1 (de) * 1987-01-05 1988-07-13 Gachot S.A. Verfahren zur Übersetzung natürlicher Sprachen mittels eines programmierten Digitalrechners
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system

Also Published As

Publication number Publication date
EP0562334A3 (de) 1994-01-19
EP0562334A2 (de) 1993-09-29
DE4209280C2 (de) 1995-12-07

Similar Documents

Publication Publication Date Title
DE4015905C2 (de) Sprachanalyseeinrichtung, -verfahren und -programm
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE3042508C2 (de) Elektronisches Sprachübersetzungsgerät
DE4323241A1 (de) Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
EP0792492A1 (de) Verfahren zur erzeugung von deskriptoren für die klassifikation von texten
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE2946857A1 (de) Wortspeichergeraet
DE19922974A1 (de) Verfahren und Vorrichtung zur Bearbeitung eines Dokuments
DE3034510A1 (de) Elektronisches uebersetzungsgeraet
Gorozhanov et al. Corpus analysis of the grammatical categories’ constituents in fiction texts considering the linguo-regional component
DE4135261C1 (de)
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE4209280C2 (de) Verfahren und Computersystem zur automatisierten Analyse von Texten
DE4213533C2 (de) Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
EP2034472A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP1038293B1 (de) Vefahren zur spracherkennung unter verwendung von einer grammatik
DE4015939C2 (de) Vorrichtung zum beschleunigten Fixieren eines über eine Tastatur einzugebenden Textes in Buchstaben
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
DE3732849A1 (de) System-architektur fuer ein akustisches mensch/maschine-dialogsystem
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
DE202022105577U1 (de) Ein System zur Entwicklung von Part-of-Speech (POS)-tagging unter Verwendung von Deep-Learning-basierten Ansätzen auf dem Khasi-POS-Korpus
Gorozhanov et al. Corpus analysis of the grammatical categories’
EP0417854A2 (de) Verfahren zur Erkennung von N unterschiedlichen Wortketten in einem Sprachsignal

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee