DE4209280A1 - Computersystem und verfahren zur automatisierten analyse von texten - Google Patents
Computersystem und verfahren zur automatisierten analyse von textenInfo
- Publication number
- DE4209280A1 DE4209280A1 DE4209280A DE4209280A DE4209280A1 DE 4209280 A1 DE4209280 A1 DE 4209280A1 DE 4209280 A DE4209280 A DE 4209280A DE 4209280 A DE4209280 A DE 4209280A DE 4209280 A1 DE4209280 A1 DE 4209280A1
- Authority
- DE
- Germany
- Prior art keywords
- computer system
- endings
- word
- scope
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Computersystem zur
automatisierten Analyse von Texten, die aus Wörtern
einer natürlichen Sprache zusammengesetzt sind, sowie
ein Verfahren zur automatisierten Analyse von
derartigen Texten mit Hilfe eines Computersystems.
Ein Trend in der allgemeinen Entwicklung von Computer
systemen ist, die Schnittstelle Mensch-Computer zu
vereinfachen. Als Beispiele aus der Vergangenheit
können die Bereitstellung der "Maus" oder die Entwick
lung von sogenannten Tastbildschirmen jeweils als
Mittel für Benutzereingaben genannt werden. Eine
andere Möglichkeit, dem Benutzer die Eingaben in das
Computersystem zu erleichtern, ist die Spracherkennung
durch das Computersystem. Dabei werden die vom Benutzer
gesprochenen Wörter in elektrische Signale umgesetzt
und danach vom Computersystem verarbeitet und erkannt.
Die erkannten Wörter können dann vom Computersystem
beispielsweise als Befehle weiterverarbeitet werden.
Hierzu ist es jedoch erforderlich, daß die vom Benutzer
gesprochenen Wörter vom Computersystem richtig erkannt
und interpretiert werden. So ist es möglich, daß das
Computersystem die aufeinanderfolgenden Wörter "der",
"gefangene" und "floh" als solche erkennt; ob es sich
dabei aber um den Satz "der Gefangene floh" handelt
oder um den Satzteil "der gefangene Floh . . . " kann das
Computersystem aus den erkannten Wörtern allein nicht
entscheiden. Hierzu ist die Analyse dieses Textes
erforderlich, also eine Betrachtung nicht nur der
einzelnen Wörter, sondern auch der Zusammenhänge
dieser Wörter.
Derartige Analysen von Texten sind ebenfalls
erforderlich, wenn beispielsweise ein
Textverarbeitungssystem nicht nur reine Schreibfehler
korrigieren soll, sondern auch darüber hinausgehende
Fehler, wie beispielsweise die fallabhängige richtige
Schreibweise von "daß" und "das". Schließlich ist es
auch für ein System zur automatischen Übersetzung
eines Textes von einer Quellsprache in eine
Zielsprache erforderlich, daß zuerst der Text der
Quellsprache analysiert, also "verstanden" wird, um
ihn danach in die Zielsprache übersetzen zu können.
Wie bereits erwähnt wurde, geht es bei der
automatisierten Analyse von Texten mit Hilfe eines
Computersystems darum, die einzelnen Wörter
beispielsweise eines Satzes nicht mehr einzeln zu
betrachten, sondern in ihrem Zusammenhang. So ist es,
wie ebenfalls schon erwähnt wurde, für die
Spracherkennung oder die Textübersetzung wichtig, daß
das Computersystem beispielsweise erkennt, ob ein in
einem Satz auf tretendes Verb im Präsens oder im
Imperfekt auftritt, oder ob es im Singular oder Plural
auftritt, usw. Dies soll an den beiden Sätzen "Er
wollte nach Hause gehen." und "Er sagt, er wollte nach
Hause gehen." verdeutlicht werden. In beiden Sätzen
ist das Verb "wollte" enthalten. Im ersten Satz steht
dieses Verb in der dritten Person Singular Imperfekt
Indikativ, während es im zweiten Satz in der dritten
Person Singular Imperfekt Konjunktiv auftritt. Diese
unterschiedlichen Formen des Verbs "wollte" werden bei
der Analyse des Satzes erkannt. Erst danach ist es dem
Computersystem möglich, die Sätze vollständig richtig
zu verarbeiten oder gar zu übersetzen.
Eine Möglichkeit, derartige automatisierte Analysen
von Texten mit Hilfe eines Computersystems durchzu
führen, besteht darin, sämtliche möglichen Wörter mit
allen unterschiedlichen Wortformen oder dergleichen im
Speicher des Computersystems abzuspeichern. Bei der
Analyse eines Textes werden dann die einzelnen Wörter
des Textes mit den abgespeicherten Wörtern verglichen
und auf Übereinstimmung geprüft. Alle Übereinstimmungen
werden dann als mögliche Kandidaten nacheinander
weiterverarbeitet. Es entsteht dadurch ein sogenannter
Entscheidungsbaum, der schon bei einem normalen Satz
eine Vielzahl von Verzweigungen aufweisen kann, also
beliebig komplex sein kann. Dies bedeutet, daß die
Verarbeitungszeit schon bei normalen Sätzen sehr groß
ist. Eine Echtzeit-Verarbeitung, wie dies
beispielsweise bei der Spracherkennung notwendig ist,
ist nicht mehr möglich. Ebenfalls erfordert die große
Menge abzuspeichernder Wörter einen großen Speicher,
was üblicherweise zur Folge hat, daß derartige
automatisierte Analysen bisher nur auf
Großrechenanlagen durchführbar sind.
Aufgabe der Erfindung ist die Verbesserung der bekannten
Computersysteme und Verfahren zur automatisierten
Analyse von Texten, insbesondere im Hinblick auf deren
Verarbeitungsgeschwindigkeit.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß
bei einem Computersystem der eingangs genannten Art
der gemeinsame Wortstamm von bestimmten Wörtern
einmalig abgespeichert ist, und daß zu jedem Wortstamm
ein Geltungsbereich und Endungen abgespeichert sind.
Bei einem Verfahren der eingangs genannten Art wird
die Aufgabe erfindungsgemäß dadurch gelöst, daß die
Wörter mit einer Vielzahl von abgespeicherten Wort
stämmen und mit jeweils zugehörigen abgespeicherten
Geltungsbereichen und Endungen verglichen werden.
Es werden also nicht alle Wörter im Speicher des
Computersystems abgespeichert, sondern es werden nur
die gemeinsamen Wortstämme von bestimmten, zusammen
gehörenden Wörtern jeweils einmalig abgespeichert.
Schon allein durch diese Maßnahme wird der Speicher
platzbedarf wesentlich verringert. Durch die jeweils
den einzelnen Wortstämmen zugeordnete Abspeicherung
eines Geltungsbereichs und von Endungen wird erreicht,
daß die gesamte Bandbreite aller Ausgestaltungs
möglichkeiten des Wortstamms erhalten bleibt und von
dem Computersystem berücksichtigt werden kann.
Eine weitere Einsparung an Speicherplatzbedarf kann
dadurch erfolgen, daß die Geltungsbereiche und die
Endungen in der Form von unterschiedlichen Kodierungen
abgespeichert sind. Die Zuordnung der einzelnen
Kodierungen zu den Geltungsbereichen und den
Endungen kann dann in der Form von abgespeicherten
Tabellen erfolgen.
Besonders vorteilhaft ist es, die den Verben zuge
hörigen Wortstämme im Speicher des Computersystems
abzuspeichern. In diesem Fall kann sich der Geltungs
bereich des Verbs aus der Gültigkeit des Wortstamms
für bestimmte Zeiten und Personen zusammensetzen.
Entsprechend können sich die Endungen aus den dem
Wortstamm hinzuzufügenden Änderungen für alle Zeiten
und Personen des zugehörigen Verbs zusammensetzen.
Wie bereits erwähnt wurde, ist es durch die
Abspeicherung des Wortstamms mit zugehörigem
Geltungsbereich und Endungen möglich, sämtliche
Ausgestaltungsmöglichkeiten des jeweils zugehörigen
Wortes bei der Analyse zu berücksichtigen. Dies
erfolgt dadurch, daß das Computersystem bei der
Analyse die zu analysierenden Wörter mit den
abgespeicherten Wortstämmen und mit den jeweils
zugehörigen abgespeicherten Geltungsbereichen und
Endungen vergleicht. Allein schon durch die
Einschränkung des Vergleichs in einem ersten Schritt
auf die Wortstämme wird eine wesentliche Erhöhung der
Verarbeitungsgeschwindigkeit erreicht.
Darüberhinaus ist es bei dem erfindungsgemäßen
Verfahren zur automatisierten Analyse von Texten mit
Hilfe eines Computersystems möglich, nach dem
Auffinden eines übereinstimmenden Wortstamms den
zugehörigen Geltungsbereich und die Endungen nicht
sofort zu berücksichtigen, sondern diese Berück
sichtigung erst in einem späteren Stadium der Analyse
vorzunehmen. Der Geltungsbereich und die Endungen
können also ähnlich wie Variablen bei der weiteren
Analyse mitgeführt werden. Dies hat zur Folge, daß der
bereits erwähnte Entscheidungsbaum wesentlich weniger
Zweige aufweist. Der Zeitbedarf für die Verarbeitung
eines derartigen Entscheidungsbaumes wird dadurch
wesentlich geringer, was gleichbedeutend ist mit einer
Erhöhung der Verarbeitungsgeschwindigkeit.
Insgesamt wird durch die Erfindung ein wesentlicher
Beitrag für eine Echtzeitanalyse von Texten mit Hilfe
eines Computersystems geleistet. Darüberhinaus wird
durch die Erfindung der Speicherplatzbedarf für eine
derartige automatisierte Analyse von Textes wesentlich
verringert, so daß derartige Analysen auch auf
kleineren Computersystemen durchgeführt werden können.
Weitere Ausgestaltungen der Erfindung ergeben sich aus
den Patentansprüchen, sowie aus der nachfolgenden
Beschreibung von Ausführungsbeispielen der Erfindung,
die anhand der Zeichnung erläutert werden.
Fig. 1 zeigt einen Auszug aus einem Speicher eines
Computersystems zur automatisierten Analyse
von Texten,
Fig. 2 zeigt eine in dem Speicher abgespeicherte
Tabelle möglicher Geltungsbereiche von
Wortstämmen und
Fig. 3 zeigt eine in dem Speicher abgespeicherte
Tabelle möglicher Endungen von Wortstämmen.
Für die nachfolgende Beschreibung wird davon
ausgegangen, daß ein bestimmter Text von einem
Computersystem analysiert werden soll. Der Text ist
aus Wörtern einer natürlichen Sprache zusammengesetzt
und ist dem Computersystem beispielsweise durch eine
sprachliche Eingabe oder mit Hilfe einer Tastatur
eingegeben worden. Wie bereits erläutert worden ist,
ist es für eine derartige automatisierte Analyse eines
Textes erforderlich, daß die Wörter des Textes mit
allen möglichen abgespeicherten Wörtern der
natürlichen Sprache verglichen werden. Es muß also ein
Lexikon der natürlichen Sprache im Speicher des
Computersystems abgespeichert sein.
Handelt es sich bei der natürlichen Sprache um die
deutsche Sprache oder um eine andere, sogenannte
ablautende Sprache, so treten die Verben dieser
Sprache in einer Vielzahl von verschiedenen Formen
auf. Dies ist nachfolgend anhand des deutschen Verbs
"backen" gezeigt:
Wie ersichtlich ist, tritt das Verb "backen" immer mit
dem Wortstamm "back" und bestimmten, von der Zeit und
der Person abhängigen Endungen auf. Darüberhinaus gibt
es drei Ausnahmen für das Verb "backen", nämlich den
Wortstamm "bäck" mit den entsprechenden Endungen in
der zweiten und dritten Person Präsens Indikativ, den
Wortstamm "buk" mit den zugehörigen Endungen für die
einzelnen Personen des Imperfekt Indikativ sowie den
Wortstamm "bük" mit den zugehörigen Endungen für die
einzelnen Personen des Imperfekt Konjunktiv.
In der Fig. 1 ist ein Auszug aus dem Speicher des
Computersystem dargestellt. In der ersten Spalte 110
der Fig. 1 sind die einzelnen Wortstämme angegeben, in
der zweiten Spalte 111 jeweils zugehörige
Geltungsbereiche und in der dritten Spalte 112 jeweils
zugehörige Endungen. Für die Geltungsbereiche und die
Endungen sind in der Fig. 1 nur Kodierungen angegeben.
Bei diesen Kodierungen kann es sich um allgemeine
Kennzeichnungen handeln, die aus mehreren Komponenten
bestehen und die auch direkt im Lexikon eingetragen
sein können.
Die entsprechenden, zu den Kodierungen zugehörigen
Geltungsbereiche und Endungen ergeben sich aus den
Fig. 2 und 3. Dabei ist in der Fig. 2 eine Tabelle
angegeben, die in den Spalten 120 die Geltungsbereiche
und in der Spalte 121 die zugehörigen Kodierungen zum
Inhalt hat, während die Fig. 3 eine Tabelle zeigt, die
in den Spalten 130 die Endungen und in der Spalte 131
die zugehörigen Kodierungen angibt. Die Tabellen der
Fig. 2 und 3 zusammen mit den Kodierungen, jedoch
ohne die Beispiele, sind ebenfalls im Speicher des
Computersystems abgespeichert.
Aus der Fig. 1 ist ersichtlich, daß nicht sämtliche
Formen des deutschen Verbs "backen" im Speicher des
Computersystems abgespeichert sind, sondern daß immer
nur ein Wortstamm mit einem zugeordneten Geltungsbe
reich und zugeordneten Endungen abgespeichert ist. Bei
dem deutschen Verb "backen" ist somit als erstes nur
der Wortstamm "back" mit dem Geltungsbereich 01 und
den Endungen 07 im Speicher des Computersystems
abgespeichert. Aus der Tabelle der Fig. 2 ergibt sich
für den Geltungsbereich 01, daß der Wortstamm "back"
für alle möglichen Formen des Verbs "backen" gültig
ist. Aus der Tabelle der Fig. 3 sind aus der Zeile für
die Endungen 07 sämtliche Endungen zu entnehmen, die
an den Wortstamm "back" in den einzelnen Formen des
Verbs "backen" angehängt werden müssen. Es ist
ersichtlich, daß alle oben angegebenen Formen des
Verbs "backen", die den Wortstamm "back" enthalten,
sich aus diesem Wortstamm und den zugehörigen Endungen
der Fig. 3 ergeben.
Wie bereits erwähnt wurde, weist das Verb "backen"
auch Ausnahmen auf, u. a. "du bäckst" und "er/sie/es
bäckt". Diese Ausnahmen sind gemäß der Fig. 1 im
Speicher des Computersystem mit Hilfe des Wortstamms
"bäck", dem zugeordneten Geltungsbereich 19 und den
zugeordneten Endungen 07 abgespeichert. Aus dem
Geltungsbereich 19 ergibt sich, daß der Wortstamm
"bäck" nur gültig ist für die zweite und dritte Person
Präsens Indikativ. Der Geltungsbereich 19 stellt damit
eine Einschränkung des Wortstamms "bäck" nur auf diese
beiden Formen des Verbs "backen" dar. Aus der Tabelle
der Fig. 3 ergibt sich aus den Endungen 07, daß an den
Wortstamm "bäck" in der zweiten Person Präsens
Indikativ ein "st" angefügt werden muß, während in der
dritten Person Singular Präsens Indikativ ein "t" an
den Wortstamm angefügt werden muß. Es ist dabei zu
beachten, daß aufgrund der Einschränkung durch den
Geltungsbereich 19 auf die zweite und dritte Person
Singular Präsens Indikativ nur diese beiden Endungen
aus der Fig. 3 relevant sind. Insgesamt ergeben sich
auf diese Weise aus den Tabellen der Fig. 2 und 3 und
dem Wortstamm "bäck" die erwähnten Ausnahmen "du
bäckst" und "er/sie/es bäckt".
Wie ebenfalls bereits ausgeführt wurde, ist bei dem
Verb "backen" eine weitere Ausnahme bei allen Personen
des Imperfekt Indikativ möglich. Dies ist gemäß der
Fig. 1 in der Form des Wortstamms "buk", des zugehörigen
Geltungsbereichs 26 und der zugehörigen Endungen 12 im
Speicher des Computersystems abgespeichert. Aus der
Tabelle der Fig. 2 ergibt sich, daß der Wortstamm
"buk" gemäß dem Geltungsbereich 26 nur für die Formen
des Imperfekt Indikativ gültig ist. Aus den Endungen
12 der Tabelle der Fig. 3 ergibt sich, daß an den
Wortstamm "buk" in der ersten und dritten Person
Singular Imperfekt Indikativ keine Endung angefügt
werden darf, daß hingegen in der zweiten Person
Singular, der ersten und dritten Person Plural und der
zweiten Person Plural Imperfekt Indikativ die Endungen
"st", "en", "t" an den Wortstamm angefügt werden
müssen. Damit ergeben sich die Formen "ich buk", "du
bukst", "er/sie/es buk", "wir buken", "ihr bukt" und
"sie buken", wie dies oben angegeben ist. Zu beachten
ist, daß aufgrund des Geltungsbereiches 26 nur die
Endungen des Imperfekt Indikativ der dem Wortstamm
"buk" zugeordneten Endungen 12 relevant sind.
Entsprechendes gilt für den Wortstamm "bük", dem gemäß
der Fig. 1 der Geltungsbereich 34 und die Endungen 12
zugeordnet sind.
Insgesamt ist es somit dem Computersystem möglich, aus
den abgespeicherten Wortstämmen "back", "bäck", "buk"
und "bük" und den jeweils zugeordneten abgespeicherten
Geltungsbereichen und Endungen sämtliche Formen für
alle Personen und Zeiten des Verbs "backen" abzuleiten.
Gleiches gilt für die deutschen Verben "wollen" und
"blasen", deren Wortstämme "woll", "will", "blas",
"bläs" und "blies" mit den jeweils zugehörigen Geltungs
bereichen und Endungen gemäß der Fig. 1 ebenfalls im
Speicher des Computersystems abgespeichert sind.
Allgemein sind auf diese Weise die relevanten Wort
stämme sämtlicher Verben beispielsweise der deutschen
Sprache im Speicher des Computersystems abgespeichert.
Für die deutsche Sprache hat sich dabei herausgestellt,
daß für die Abspeicherung sämtlicher Verben die
Unterscheidung in 39 verschiedene Geltungsbereiche und
26 Sätze von Endungen ausreicht. Durch die Zuordnung
jeweils eines Geltungsbereiches und eines Satzes von
Endungen zu einem Wortstamm ist es möglich, alle
Formen aller Verben aus den Wortstämmen abzuleiten.
Es versteht sich, daß auf diese Art und Weise auch
andere Wortarten, beispielsweise Substantive oder
Adjektive im Speicher des Computersystems
abgespeichert werden können. Ebenfalls versteht es
sich, daß diese Abspeicherung in Form von Wortstämmen,
Geltungsbereichen und Endungen nicht nur auf die
deutsche Sprache, sondern auch auf andere Sprachen,
insbesondere auf sogenannte ablautende Sprachen
anwendbar ist. Auf diese Weise ist es also möglich,
das gesamte Lexikon einer natürlichen Sprache im
Speicher eines Computersystems abzuspeichern.
Liegt nun dem Computersystem ein bestimmter Text zur
Analyse vor, so wird diese Analyse von dem Computer
system mit Hilfe des abgespeicherten Lexikons durch
geführt. Dies wird nachfolgend anhand der beiden schon
erwähnten Sätze "Er wollte nach Hause gehen." und "Er
sagte, er wollte nach Hause gehen." näher erläutert.
Ersichtlich ist in beiden Sätzen das Wort "wollte"
enthalten. Im ersten Satz steht es jedoch in der
dritten Person Singular Imperfekt Indikativ, während
es im zweiten Satz in der dritten Person Singular
Imperfekt Konjunktiv auftritt. Dieser Unterschied kann
von dem Computersystem jedoch nicht an dem Wort
"wollte" selbst erkannt werden, sondern nur über den
Zusammenhang dieses Wortes mit den anderen Wörtern des
jeweiligen Satzes.
Hierzu bestimmt das Computersystem in einem ersten
Schritt den Wortstamm "woll" zu dem Wort "wollte".
Danach sucht das Computersystem in seinem Speicher
diesen Wortstamm "woll" und findet hierzu entsprechend
der Fig. 1 den Geltungsbereich 02 und die Endungen 15.
Aus der ebenfalls im Speicher des Computersystems
abgespeicherten Tabelle der Fig. 2 entnimmt das
Computersystem, daß der Wortstamm "woll" gemäß dem
Geltungsbereich 02 für alle Formen des Verbs "wollen"
gültig ist, außer der ersten, der zweiten und der
dritten Person Singular Präsens Indikativ. Des
weiteren entnimmt das Computersystem aus der im
Speicher abgespeicherten Tabelle der Fig. 3 die
Endungen 15, die an den Wortstamm "woll" angefügt
werden müssen, um die jeweiligen Formen des Verbs
"wollen" zu bilden.
Das Wort "wollte" setzt sich ersichtlich aus dem
Wortstamm "woll" und der Endung "te" zusammen. Diese
Endung "te" ist entsprechend den Endungen 15 der
Tabelle der Fig. 3 zweimal vorhanden, nämlich bei der
ersten und dritten Person Singular Imperfekt Indikativ
sowie bei der ersten und dritten Person Singular
Imperfekt Konjunktiv. Daraus ergibt sich für das
Computersystem, daß das Wort "wollte" entweder in der
Form der ersten oder dritten Person Singular Imperfekt
Indikativ oder in der Form der ersten oder dritten
Person Singular Imperfekt Konjunktiv auftritt. Diese
beiden Möglichkeiten werden bei der nachfolgenden
weiteren Analyse der beiden Sätze durch das Computer
system ähnlich wie Variablen mitgeführt. Auf diese
Weise kann das Computersystem beide Möglichkeiten bei
der weiteren Analyse berücksichtigen. Erst wenn das
Computersystem durch diese weitere Analyse weitere
Informationen erarbeitet hat, die mit einer der beiden
Möglichkeiten nicht mehr vereinbar sind, erst dann
entscheidet sich das Computersystem für die vereinbare
Möglichkeit und führt die Analyse nur noch mit dieser
Möglichkeit fort. Im Bild eines Entscheidungsbaums
werden also die beiden Möglichkeiten in einer Linie
mitgeführt, bis in einem späteren Stadium eine
Entscheidung möglich ist.
In dem vorliegenden Beispielfall der beiden genannten
Sätze ist eine Entscheidung dann möglich, wenn das
Computersystem aufgrund der weiteren Analyse erkannt
hat, daß es sich bei dem ersten Satz "Er wollte nach
Hause gehen." um einen einfachen Hauptsatz handelt,
während es sich bei dem zweiten Satz "Er sagt, er
wollte nach Hause gehen." um einen Satz mit indirekter
Rede handelt.
Bei dem zweiten Satz ergibt sich für das
Computersystem, daß das Wort "wollte", das in dem
Nebensatz mit indirekter Rede enthalten ist, im
Konjunktiv auftreten muß. Somit kann es sich bei dem
Wort "wollte" im zweiten Satz nur um die zweite
Möglichkeit handeln, nämlich um die erste oder dritte
Person Singular Imperfekt Konjunktiv. Da im ersten
Satz keinerlei derartige Besonderheiten vorliegen,
kann es sich bei dem Wort "wollte" nur um die erste
Möglichkeit, nämlich um die erste oder dritte Person
Singular Imperfekt Indikativ handeln. Daß es sich
schließlich jeweils um die dritte Person handelt, kann
das Computersystem direkt aus dem Wort "Er" in den
beiden Sätzen folgern.
Liegt somit dem Computersystem der zweite Satz "Er
sagt, er wollte nach Hause gehen." zur Analyse vor, so
entnimmt das Computersystem, wie erläutert wurde, über
den Wortstamm "woll", den Geltungsbereich 02 und die
Endungen 15 die beiden genannten Möglichkeiten aus den
Tabellen der Fig. 2 und 3. Die Entscheidung, welche
der beiden Möglichkeiten nunmehr die richtige ist,
kann das Computersystem dann zu einem späteren
Zeitpunkt anhand weiterer Informationen, insbesondere
der Erkenntnis, daß in dem zweiten Satz eine indirekte
Rede enthalten ist, entscheiden.
Liegt dem Computersystem der erste Satz "Er wollte
nach Hause gehen." zur Analyse vor, so entnimmt das
Computersystem über den Wortstamm, den Geltungsbereich
und die Endungen ebenfalls die beiden genannten
Möglichkeiten aus den Tabellen der Fig. 2 und 3.
Nachdem das Computersystem erkannt hat, daß es sich
bei dem ersten Satz um einen normalen Hauptsatz
handelt, kann es sich, wie erläutert, für die richtige
der beiden Möglichkeiten entscheiden.
Die Analyse wird somit nur ein einziges Mal
durchgeführt, wobei bei dieser Durchführung die
verschiedenen Möglichkeiten verarbeitet und
berücksichtigt werden. Eine mehrfache Durchführung der
Analyse mit jeder der einzelnen Möglichkeiten ist
nicht erforderlich.
Claims (12)
1. Computersystem zur automatisierten Analyse von
Texten, die aus Wörtern einer natürlichen Sprache
zusammengesetzt sind,
dadurch gekennzeichnet, daß
der gemeinsame Wortstamm von bestimmten Wörtern
einmalig abgespeichert ist, und daß zu jedem
Wortstamm ein Geltungsbereich und Endungen
abgespeichert sind (Fig. 1).
2. Computersystem nach Anspruch 1,
dadurch gekennzeichnet, daß
der Geltungsbereich und die Endungen in der Form
von jeweils einer Kodierung abgespeichert ist.
3. Computersystem nach Anspruch 2,
dadurch gekennzeichnet, daß
Tabellen abgespeichert sind für die Zuordnung der
Kodierungen zu den Geltungsbereichen und den
Endungen.
4. Computersystem nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet, daß
jedem Wortstamm einer der Geltungsbereiche
zugeordnet ist (Fig. 2).
5. Computersystem nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet, daß
jedem Wortstamm ein Satz der Endungen zugeordnet
ist (Fig. 3).
6. Computersystem nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet, daß
die den Verben zugehörigen Wortstämme einmalig
abgespeichert sind.
7. Computersystem nach Anspruch 6,
dadurch gekennzeichnet, daß
der Geltungsbereich sich aus der Gültigkeit des
Wortstamms für bestimmte Zeiten und Personen des
zugehörigen Verbs zusammensetzt.
8. Computersystem nach Anspruch 6 oder 7,
dadurch gekennzeichnet, daß
die Endungen sich aus den dem Wortstamm
hinzuzufügenden Endungen für alle Zeiten und
Personen des zugehörigen Verbs zusammensetzen.
9. Computersystem nach einem der Ansprüche 1 bis 8,
gekennzeichnet durch
die Verwendung im Zusammenhang mit
Spracherkennung, Textkorrektur bzw. -verarbeitung
oder Sprachübersetzung.
10. Verfahren zur automatisierten Analyse von Texten,
die aus Wörtern einer natürlichen Sprache
zusammengesetzt sind, mit Hilfe eines
Computersystems,
dadurch gekennzeichnet, daß
die Wörter mit einer Vielzahl von abgespeicherten
Wortstämmen und mit jeweils zugehörigen
abgespeicherten Geltungsbereichen und
Endungen verglichen werden.
11. Verfahren nach Anspruch 10,
dadurch gekennzeichnet, daß
im Falle einer einzigen Übereinstimmung eines
Wortes mit einem der abgespeicherten Wortstämme,
dem zugehörigen abgespeicherten Geltungsbereich
und den zugehörigen abgespeicherten Endungen aus
diesem Geltungsbereich und diesen Endungen allein
weitere Informationen bezüglich des Wortes
abgeleitet werden.
12. Verfahren nach Anspruch 10,
dadurch gekennzeichnet, daß
im Falle von mehreren Übereinstimmungen eines
Wortes mit einem der abgespeicherten Wortstämme,
dem zugehörigen abgespeicherten Geltungsbereich
und den zugehörigen abgespeicherten Endungen erst
unter Zuhilfenahme der Analyse von weiteren
Wörtern weitere Informationen bezüglich des
vorliegenden Wortes abgeleitet werden.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4209280A DE4209280C2 (de) | 1992-03-21 | 1992-03-21 | Verfahren und Computersystem zur automatisierten Analyse von Texten |
EP93103588A EP0562334A2 (de) | 1992-03-21 | 1993-03-05 | Rechnersystem und Verfahren zur automatischen Analyse von Texten |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4209280A DE4209280C2 (de) | 1992-03-21 | 1992-03-21 | Verfahren und Computersystem zur automatisierten Analyse von Texten |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4209280A1 true DE4209280A1 (de) | 1993-09-23 |
DE4209280C2 DE4209280C2 (de) | 1995-12-07 |
Family
ID=6454727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4209280A Expired - Fee Related DE4209280C2 (de) | 1992-03-21 | 1992-03-21 | Verfahren und Computersystem zur automatisierten Analyse von Texten |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP0562334A2 (de) |
DE (1) | DE4209280C2 (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5680628A (en) * | 1995-07-19 | 1997-10-21 | Inso Corporation | Method and apparatus for automated search and retrieval process |
FR2839167B1 (fr) * | 2002-04-26 | 2005-02-18 | Andre Marie Georges Baverel | Procede de traitement de donnees notamment de donnees linguistiques (mots lexicaux et mots grammaticaux) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0274281A1 (de) * | 1987-01-05 | 1988-07-13 | Gachot S.A. | Verfahren zur Übersetzung natürlicher Sprachen mittels eines programmierten Digitalrechners |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4724523A (en) * | 1985-07-01 | 1988-02-09 | Houghton Mifflin Company | Method and apparatus for the electronic storage and retrieval of expressions and linguistic information |
JPS62251876A (ja) * | 1986-04-18 | 1987-11-02 | インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション | 言語処理システム |
US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US4862408A (en) * | 1987-03-20 | 1989-08-29 | International Business Machines Corporation | Paradigm-based morphological text analysis for natural languages |
-
1992
- 1992-03-21 DE DE4209280A patent/DE4209280C2/de not_active Expired - Fee Related
-
1993
- 1993-03-05 EP EP93103588A patent/EP0562334A2/de not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0274281A1 (de) * | 1987-01-05 | 1988-07-13 | Gachot S.A. | Verfahren zur Übersetzung natürlicher Sprachen mittels eines programmierten Digitalrechners |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
Also Published As
Publication number | Publication date |
---|---|
EP0562334A3 (de) | 1994-01-19 |
EP0562334A2 (de) | 1993-09-29 |
DE4209280C2 (de) | 1995-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4015905C2 (de) | Sprachanalyseeinrichtung, -verfahren und -programm | |
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE3042508C2 (de) | Elektronisches Sprachübersetzungsgerät | |
DE4323241A1 (de) | Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text | |
EP0792492A1 (de) | Verfahren zur erzeugung von deskriptoren für die klassifikation von texten | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE2946857A1 (de) | Wortspeichergeraet | |
DE19922974A1 (de) | Verfahren und Vorrichtung zur Bearbeitung eines Dokuments | |
DE3034510A1 (de) | Elektronisches uebersetzungsgeraet | |
Gorozhanov et al. | Corpus analysis of the grammatical categories’ constituents in fiction texts considering the linguo-regional component | |
DE4135261C1 (de) | ||
DE19849855C1 (de) | Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem | |
DE4209280C2 (de) | Verfahren und Computersystem zur automatisierten Analyse von Texten | |
DE4213533C2 (de) | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern | |
EP2034472A1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
EP1038293B1 (de) | Vefahren zur spracherkennung unter verwendung von einer grammatik | |
DE4015939C2 (de) | Vorrichtung zum beschleunigten Fixieren eines über eine Tastatur einzugebenden Textes in Buchstaben | |
DE4311211C2 (de) | Computersystem und Verfahren zur automatisierten Analyse eines Textes | |
DE10112587A1 (de) | Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element | |
DE3732849A1 (de) | System-architektur fuer ein akustisches mensch/maschine-dialogsystem | |
DE10010232B4 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE202022105577U1 (de) | Ein System zur Entwicklung von Part-of-Speech (POS)-tagging unter Verwendung von Deep-Learning-basierten Ansätzen auf dem Khasi-POS-Korpus | |
Gorozhanov et al. | Corpus analysis of the grammatical categories’ | |
EP0417854A2 (de) | Verfahren zur Erkennung von N unterschiedlichen Wortketten in einem Sprachsignal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |