DE4311211C2 - Computersystem und Verfahren zur automatisierten Analyse eines Textes - Google Patents

Computersystem und Verfahren zur automatisierten Analyse eines Textes

Info

Publication number
DE4311211C2
DE4311211C2 DE4311211A DE4311211A DE4311211C2 DE 4311211 C2 DE4311211 C2 DE 4311211C2 DE 4311211 A DE4311211 A DE 4311211A DE 4311211 A DE4311211 A DE 4311211A DE 4311211 C2 DE4311211 C2 DE 4311211C2
Authority
DE
Germany
Prior art keywords
dative
verb
coding
dativus
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Revoked
Application number
DE4311211A
Other languages
English (en)
Other versions
DE4311211A1 (de
Inventor
Angelika Storrer
Ulrike Dr Schwall
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to DE4311211A priority Critical patent/DE4311211C2/de
Publication of DE4311211A1 publication Critical patent/DE4311211A1/de
Application granted granted Critical
Publication of DE4311211C2 publication Critical patent/DE4311211C2/de
Anticipated expiration legal-status Critical
Revoked legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Computersystem zur automatisierten Analyse eines Textes, der aus Wörtern einer natürlichen Sprache zusammengesetzt ist. Des weiteren betrifft die Erfindung ein Verfahren zur automatisierten Analyse eines Textes mit Hilfe eines Computersystems.
Ein derartiges Computersystem sowie ein derartiges Verfahren sind beispielsweise aus Übersetzungssystemen bekannt, mit deren Hilfe ein Text aus einer Quellsprache in eine Zielsprache automatisch übersetzt wird. Damit die Übersetzung von dem Computersystem korrekt ausgeführt werden kann, ist es erforderlich, daß das Computersystem durch eine Analyse des zu übersetzenden Textes erkennt, welche Funktion die einzelnen Wörter des Textes haben, ob also beispielsweise ein bestimmtes Wort das Subjekt, das Objekt oder dergleichen in dem zugehörigen Satz darstellt. Entsprechend ist es für eine korrekte Übersetzung ebenfalls erforderlich, daß das Computersystem erkennt, ob ein Wort innerhalb des zugehörigen Satzes ein Objekt im Akkusativ, ein Objekt im Dativ oder dergleichen darstellt.
Handelt es sich um ein Objekt, das im Dativ auftritt, so sind in der deutschen Sprache mehrere unterschiedliche Dativtypen möglich, die sich durch unterschiedliche Funktionen in dem zugehörigen Satz auszeichnen. Der am häufigsten auftretende Dativtyp ist der sogenannte Objektsdativ. Beispielsweise stellen die Wörter "seiner Schwester" in dem Satz "Er schickt seiner Schwester ein Buch." einen Objektsdativ dar. Ein weiterer Dativtyp ist der sogenannte possessive Dativ oder Pertinenzdativ. So enthält beispielsweise der Satz "Er streicht dem Kind über die Wangen." einen derartigen possessiven Dativ, nämlich hinsichtlich der Wörter "dem Kind". Durch den possessiven Dativ wird das Ganze in einer Teil-Ganzes-Relation bezeichnet, also in dem vorgenannten Beispielsatz das Kind, zu dem die Wangen gehören. In dem Satz "Peter singt der Oma nicht laut genug." stellen die Wörter "der Oma" einen Dativus Judicantis dar. Für diesen Dativtyp ist es erforderlich, daß eine Konstruktion mit den Wörtern "nicht ... genug" oder mit dem Wort "zu" in dem zugehörigen Satz enthalten ist. Der Dativus Commodi und der Dativus Incommodi stellen weitere Dativtypen dar. Die Wörter "dem Baby" bilden in dem Satz "Die Mutter strickt dem Baby Wollsocken." einen Dativus Commodi. Bei diesem Dativtyp ist es erforderlich, daß in dem zugehörigen Satz ein Handlungsträger vorhanden ist. In dem vorgenannten Beispielsatz ist die Mutter der Handlungsträger, der dem Baby Wollsocken strickt. In dem Satz "Mir sind Peters Blumen verwelkt." bildet das Wort "mir" einen Dativus Incommodi. Bei diesem Dativtyp ist in dem zugehörigen Satz kein Handlungsträger enthalten. Der Verursacher des in dem Satz beschriebenen Vorgangs wird durch den Dativus Incommodi selbst genannt.
Die Übersetzung der verschiedenen Dativtypen unterscheidet sich voneinander. Der Objektsdativ kann zumeist ohne weitere Besonderheiten übersetzt werden. So ergibt die Übersetzung des Satzes "Er schickt seiner Schwester ein Buch." in die englische Sprache den Satz "He sends a book to his sister.". Hier ist bei der Übersetzung nur die Besonderheit zu berücksichtigen, daß das englische Verb "to send" im Dativ immer die Präposition "to" nach sich zieht. Beim possessiven Dativ ist für die Übersetzung die Kenntnis der genannten Teil-Ganzes-Relation erforderlich. Wie bereits erläutert wurde, stellt in dem Satz "Er streicht dem Kind über die Wangen." das Kind das Ganze dar, von dem die Wangen ein Teil sind. Dies führt in der Übersetzung zu dem Satz "He strikes the child's cheek.". Die Teil-Ganzes-Relation äußert sich in der Übersetzung in den Wörtern "the child's". Der Satz "Peter singt der Oma nicht laut genug." ergibt in der englischen Sprache den Satz "Peter doesn't sing loud enough for Grandma." Der Dativus Judicantis wird also in der englischen Sprache mit Hilfe des Wortes "for" übersetzt. Der Dativus Commodi in dem Satz "Die Mutter strickt dem Baby Wollsocken." wird in der englischen Sprache mit dem Satz "The mother is knitting socks for the baby." in ähnlicher Weise übersetzt wie der Dativus Judicantis. Der Satz "Mir sind Peter's Blumen verwelkt." ergibt hingegen in der englischen Sprache den Satz "It was my fault that Peter's flowers wilted.". Der darin enthaltene Dativus Incommodi wird also durch die Wörter "It was my fault that" übersetzt.
Aus der deutschen Offenlegungsschrift DE 36 16 011 A1, angemeldet von K. K. Sharp und J. P. Ossaka, ist ein Übersetzungsgerät bekannt, das aus einem eingegebenen Originalsatz einen in eine andere Sprache übersetzten Satz erzeugt. Insbesondere wird eine Synonymanzeigevorrichtung vorgestellt, die die Synonyme eines bestimmten Ausdrucks in dem übersetzten Satz anzeigt. Durch eine Ersetzvorrichtung kann der bestimmte übersetzte Ausdruck, von dem in der Synonymanzeigevorrichtung die Synonyme angezeigt werden, durch eines dieser Synonyme ersetzt werden. Zur Analyse der einzelnen Elemente des Satzes wird in einem Wörterbuch nachgeschlagen, das die zugehörigen Übersetzungen enthält. Dadurch erhält man zum einen übersetzte Ausdrücke für jedes Wort des Satzes, zum andern enthält das Wörterbuch aber auch grammatikalische Informationen zu jedem übersetzten Ausdruck, um den übersetzten Ausdruck in eine grammatikalisch korrekte Form überführen zu können.
US Patent 4 724 523, " METHOD AND APPARATUS FOR THE ELECTRONIC STORAGE AND RETRIEVAL OF EXPRESSIONS AND LINGUISTIC INFORMATION " (H. Kucera) beschreibt ein System zum Abspeichern, Verarbeiten und Wiederauffinden von linguistischer Information. Das System umfaßt ein Hauptwörterbuch, sowie drei Speicherbereiche, die Informationen über zu den Wörtern gehörige grammatikalische Muster enthalten. Beispielsweise ist zu einem Verb Information über die Konjungationsformen des Verbs abgespeichert; zu einem Adjektiv ist Information über die Deklination abgespeichert. Die abgespeicherte Kodierung weist also auf eine Funktion des Worts in dem zu analysierenden Text hin.
Weiterhin ist bekannt, zu jedem Verb, das mit einem Objektdativ auftreten kann, eine entsprechende, auf diesen Objektdativ hinweisende Kodierung im Speicher eines Computersystems abzuspeichern. Das Computersystem ist damit in der Lage, bei diesen Verben einen Objektdativ zu erkennen und bei der Übersetzung zu berücksichtigen. Alle anderen Dativtypen sind bei den bekannten Übersetzungssystemen entweder gar nicht berücksichtigt oder es ist die korrekte Übersetzung bei jedem einzelnen Verb explizit im Speicher des Computersystems abgespeichert.
Im ersten Fall, wenn also die anderen Dativtypen nicht berücksichtigt sind, ergeben sich bei Verben, die beispielsweise einen possessiven Dativ nach sich ziehen, automatisch Fehler bei der Übersetzung des zugehörigen Satzes aus der deutschen Sprache in eine Zielsprache. Im zweiten Fall hat die jeweilige explizite Abspeicherung der korrekten Übersetzung bei jedem Verb einen äußerst hohen Speicherplatzbedarf zur Folge. Dies umso mehr, als es unter Umständen erforderlich ist, zu ein und demselben Verb mehrere verschiedene Übersetzungen im Speicher des Computersystems abzuspeichern. Diese große Menge an abgespeicherten Informationen bewirkt gleichzeitig, daß die mittlere Zugriffszeit des Computersystems auf eine bestimmte Information größer wird. Je mehr Informationen im Speicher des Computersystems enthalten sind, desto mehr Zeit benötigt das Computersystem, um diese Informationen zu verarbeiten.
Aufgabe der Erfindung ist es, ein Computersystem sowie ein entsprechendes Verfahren zur automatisierten Analyse und automatischen Übersetzung eines Textes, der aus Wörtern einer natürlichen Ursprungs-Sprache zusammengesetzt und in eine natürliche Ziel-Sprache zu übersetzen ist, zu schaffen, bei dem die Dativtypen der deutschen Sprache in einer technisch sinnvollen Art und Weise berücksichtigt werden.
Erfindungsgemäß wird diese Aufgabe durch ein computerbasiertes Verfahren gemäß Anspruch 1 gelöst. Bei diesem computerbasierten Verfahren zur automatisierten Analyse und automatischen Übersetzung eines Textes, der aus Wörtern einer natürlichen Ursprungs-Sprache zusammengesetzt und in eine natürliche Ziel-Sprache zu übersetzen ist, mit Hilfe eines Computersystems, in dessen Speicher ein Wörterbuch mit einer Vielzahl von Verben abgespeichert ist, wobei zu jedem Verb mindestens eine Kodierung abgespeichert ist, die auf eine Funktion des Verbs in einem zu analysierenden Text hinweist, wird zunächst geprüft, ob einem in dem Text enthaltenen Verb eine Kodierung zugeordnet ist, die auf einen Objektdativ hinweist.
Falls dies nicht der Fall ist, wird nachgeprüft, ob dem Verb eine Kodierung zugeordnet ist, die auf einen possessiven Dativ hinweist. Liegt dem Computersystem beispielsweise ein Text zur Übersetzung vor, so prüft das Computersystem zuerst, ob dem Verb ein Objektdativ zugeordnet ist. Ist dies der Fall, so kann dieser Objektdativ korrekt in die Zielsprache, beispielsweise in die englische Sprache übersetzt werden.
Ist dies nicht der Fall, so prüft das Computersystem im nächsten Schritt, ob dem Verb ein possessiver Dativ zugeordnet ist. Ist dies der Fall, so kann das Computersystem nunmehr den vorliegenden Satz ebenfalls korrekt in die Zielsprache übersetzen. Ist der letzte Schritt nicht positiv, so prüft das Computersystem in einem nächsten Schritt anhand der in dem Wörterbuch zu dem Verb abgespeicherten Kodierung, ob die Dativform des Dativus Judikantis zu dem Verb gehört. Ist dies der Fall, so kann das Computersystem nunmehr den vorliegenden ebenfalls korrekt in die Zielsprache übersetzen. Ist dies nicht der Fall, so prüft das Computersystem anhand der in dem Wörterbuch zu dem Verb abgespeicherten Kodierung, ob die Dativform des Dativus Commodi zu dem Verb gehört. Ist dies der Fall, so kann das Computersystem nunmehr den vorliegenden Satz ebenfalls korrekt in die Zielsprache übersetzen. Ist dies nicht der Fall, so prüft das Computersystem, ob die Dativform des Dativus Incommodi zu dem Verb gehört. Ist dies der Fall, so kann das Computersystem nunmehr den vorliegenden Fall ebenfalls korrekt in die Zielsprache übersetzen.
Es ist somit nicht mehr erforderlich, daß sämtliche korrekten Übersetzungen des Dativs bei dem jeweiligen Verb abgespeichert sind. Stattdessen ist im Speicher des Computersystems zu dem jeweiligen Verb nur noch die auf den Dativ hinweisende Kodierung abgespeichert. Dies bedeutet eine wesentliche Verringerung des erforderlichen Speicherplatzbedarfs.
Die Kodierung besteht aus einer geringen Anzahl von Buchstaben, während die bisher erforderliche Abspeicherung der korrekten Übersetzung eine Vielzahl von Wörtern umfaßte. Mit dieser Verringerung des Speicherplatzbedarfes geht gleichzeitig eine wesentliche Beschleunigung bei der Verarbeitung einher. Da eine geringere Anzahl von Informationen vorhanden ist, benötigt das Computersystem auch eine geringere Zugriffszeit auf eine bestimmte Information. Die Verarbeitungsgeschwindigkeit des Computers ist demzufolge also größer.
Durch die erfindungsgemäße Sequenz von Dativ- Erkennungsschritten ist es nach der Durchführung des Objektdativ-Erkennungsschritts möglich, daß auch die nunmehr noch verbleibenden Dativtypen (Dativus Judicantis, Dativus Commodi, Dativus Incommodi) vom Computersystem korrekt erkannt werden können, ohne daß es erforderlich wäre, irgendwelche Übersetzungen abzuspeichern. Dies hat zur Folge, daß auch zur Erkennung der verbleibenden Dativtypen wesentlich weniger Speicherplatz erforderlich ist. Die Verarbeitungsgeschwindigkeit des Computersystems wird dadurch gesteigert. Insgesamt ist es durch die Abspeicherung von Kodierungen, die auf die verschiedenen Dativformen hinweisen, möglich, daß die Dativtypen der deutschen Sprache vom Computersystem automatisch und korrekt erkannt werden. Die Abspeicherung dieser Kodierungen ist dabei vollständig ausreichend. Zusätzliche Informationen, wie beispielsweise die bisher erforderlichen korrekten Übersetzungen für die einzelnen Dativtypen der deutschen Sprache, sind nicht mehr erforderlich.
Die erfindungsgemäße Sequenz von Dativ-Erkennungsschritten berücksichtigt weiterhin die Häufigkeit des Vorkommens der verschiedenen Dativtypen in der deutschen Sprache. So wird zunächst der Objektdativ-Erkennungsschritt durchgeführt, da der Objektdativ die statistisch am häufigsten vorkommende Dativform darstellt. Liegt ein Objektdativ vor, so kann bereits nach dem ersten Erkennungsschritt der Sequenz die korrekte Übersetzung veranlaßt werden, ohne die folgenden Erkennungsschritte durchführen zu müssen. Der zweite Dativ- Erkennungsschritt prüft, ob der possessive Dativ vorliegt, welcher statistisch die zweitgrößte Häufigkeit besitzt. Liegt ein possessiver Dativ vor, so kann sofort die korrekte Übersetzung veranlaßt werden.
Bei einer vorteilhaften Weiterbildung der Erfindung gibt die auf den possessiven Dativ hinweisende Kodierung an, auf welches andere Wort bzw. auf welche andere Wortgruppe des Textes sich der possessive Dativ bezieht. Wie erläutert wurde, tritt der possessive Dativ in Zusammenhang mit einer Teil-Ganzes-Relation auf. Es besteht nun die Möglichkeit, daß in einem Satz ein Teil angegeben ist, das zumindest theoretisch sich auf verschiedene in dem Satz vorhandene Wörter bzw. Wortgruppen als ganzes beziehen kann. Mit der Erkenntnis, daß es sich um einen possessiven Dativ handelt, wäre es somit noch nicht möglich, das Teil dem richtigen Ganzen zuzuordnen. Durch das zusätzliche Merkmal hingegen, daß die Kodierung angibt, auf welches andere Wort bzw. auf welche andere Wortgruppe des Textes sich der possessive Dativ bezieht, wird dieses Problem gelöst. Das Computersystem kann aus der zusätzlichen Information eindeutig die Beziehung des Teils zu dem richtigen Ganzen herstellen. Eine korrekte Übersetzung des Textes ist somit auch in diesem Fall gewährleistet.
Bei einer vorteilhaften Weiterbildung der Erfindung wird geprüft, ob der Text in der Umgebung des Verbs eine Konstruktion mit "zu" oder mit "nicht ... genug" enthält. Auf diese Weise erkennt das Computersystem, ob dem Verb ein Dativus Judicantis zugeordnet ist. Ist dies der Fall, so kann das Computersystem nunmehr diesen Dativtyp korrekt übersetzen. Zusätzliche Informationen, insbesondere die korrekten Übersetzungen, sind also nicht mehr erforderlich. Besonders vorteilhaft, ist es, diese Prüfung hinsichtlich des Dativus Judikantis nach den Prüfungen bezüglich des Objektdativs und des possessiven Dativs und vor den Prüfungen des Dativus Commodi und des Dativus Incommodi durchzuführen.
Bei einer weiteren vorteilhaften Weiterbildung der Erfindung wird geprüft, ob dem Verb eine Kodierung zugeordnet ist, die auf das Vorhandensein oder das Nicht-Vorhandensein eines Handlungsträgers hinweist. Ist dem Verb eine Kodierung zugeordnet, die auf das Vorhandensein eines Handlungsträgers hinweist, so bedeutet dies, das es sich um einen Dativus Commodi handelt. Im andern Fall, also wenn kein Handlungsträger vorhanden ist, ist dem Verb ein Dativus Incommodi zugeordnet. In beiden Fällen kann das Computersystem aufgrund des erkannten Dativtyps nunmehr den zugehörigen Text korrekt übersetzen, ohne daß hierzu weitere Informationen erforderlich wären.
Die Aufgabe wird weiterhin gelöst durch ein Computersystem zur automatisierten Analyse und automatischen Übersetzung eines Textes, der aus Wörtern einer natürlichen Ursprungs- Sprache zusammengesetzt ist und in eine natürliche Ziel- Sprache zu übersetzen ist, mit einem Speicher, in dem ein Wörterbuch mit einer Vielzahl von Verben der Ursprungs- Sprache abgespeichert ist, wobei Verben in dem Wörterbuch unter Vermeidung einer Speicherung der Dativformen als solche und unter speicheroptimalen und performanzoptimalen Nutzung des Computersystems dadurch beschrieben sind, daß neben dem Verbstamm lediglich eine auf die zu einem Verb gehörige Dativform hinweisende Kodierung abgespeichert ist, wobei alle Dativformen der natürlichen Ursprungs-Sprache durch die hinweisende Kodierung erfaßt sind, und wobei mittels der hinweisenden Kodierung zum Analyse- und Übersetzungszeitpunkt automatisch die Erkennung der Dativform des zu übersetzenden Verbs und dessen korrekter Übersetzung in die natürliche Ziel-Sprache steuerbar ist.
Die Kodierung besteht aus einer geringen Anzahl von Buchstaben, während die bisher erforderliche Abspeicherung der korrekten Übersetzung eine Vielzahl von Wörtern umfaßte. Mit dieser Verringerung des Speicherplatzbedarfs geht gleichzeitig eine wesentlich Beschleunigung bei der Verarbeitung einher. Da eine geringere Anzahl von Informationen vorhanden ist, benötigt das Computersystem auch eine geringere mittlere Zugriffszeit auf eine bestimmte Information. Die Verarbeitungsgeschwindigkeit des Computersystems wird also größer.
Weitere vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus der nachfolgenden Beschreibung eines Ausführungsbeispiels der Erfindung anhand der Zeichnungen.
Fig. 1 zeigt eine schematische Darstellung eines erfindungsgemäßen Verfahrens zur automatisierten Analyse eines Textes mit Hilfe eines Computersystems.
Fig. 2 zeigt eine Auszug aus einem Speicher eines erfindungsgemäßen Computersystems zur automatisierten Analyse eines Textes.
Fig. 3 ist eine Liste, in der die in Fig. 2 verwendeten Abkürzungen näher erläutert sind.
Fig. 4 enthält eine Anzahl von Beispielsätzen, mit deren Hilfe das erfindungsgemäße Verfahren zur automatisierten Analyse eines Textes näher erläutert wird.
Die Erfindung ist nachfolgend anhand eines Übersetzungssystems erläutert, das einen Text aus der deutschen Sprache automatisch in die englische Sprache übersetzt. Zu diesem Zweck ist in einem Speicher eines Computersystems ein Lexikon abgespeichert, in dem sämtliche deutschen Wörter mit einer Anzahl von Kodierungen sowie mit der zugehörigen Übersetzung in die englische Sprache abgespeichert sind. Anhand dieser Kodierungen kann das Computersystem erkennen, ob es sich bei dem jeweiligen Wort um ein Verb, ein Substantiv oder dergleichen handelt. Ebenfalls kann das Computersystem anhand dieser Kodierungen die Zusammenhänge zwischen einzelnen Wörtern feststellen.
Soll beispielsweise der in Fig. 4 angegebene Satz "Hans schickte einen Brief an Oma." übersetzt werden, so findet das Computersystem den Stamm des Wortes "schickte" in dem genannten Lexikon. Dieser Stamm "schick" mit den zugehörigen Kodierungen und der zugehörigen Übersetzung ist in der Fig. 2 angegeben. Gemäß der Fig. 3 hat die Abkürzung "v" die Bedeutung, daß es sich bei dem Wort mit dem Stamm "schick" um ein Verb handelt. Die Abkürzung "action" bedeutet, daß das Wort mit dem Stamm "schick" immer das Vorhandensein eines Handlungsträgers erfordert. In dem genannten Beispielsatz ist Hans der Handlungsträger, der einen Brief schickte. Das Zeichen "*" hat die Bedeutung eines Platzhalters für weitere Abkürzungen, die jedoch bei dem vorliegenden Wort nicht relevant sind. Die Abkürzung "obj" zeigt an, daß das Wort mit dem Stamm "schick" mit einem Akkusativobjekt verknüpft sein kann. Entsprechend zeigt die Abkürzung "iobj" an, daß das Wort mit dem Stamm "schick" mit einem Objektsdativ verknüpft sein kann. Die in der Klammer nach der Abkürzung "iobj" enthaltenen weiteren Abkürzungen stellen nähere Erläuterungen zu dem Objektsdativ dar. So hat die Abkürzung "n" die Bedeutung, daß es sich um einen normalen Objektsdativ handelt. Das Zeichen "!" stellt eine Oder-Verknüpfung dar. Die nachfolgende Abkürzung "p(an.acc)" bedeutet, daß der Objektsdativ mit der Präposition "an" gebildet wird. Insgesamt kann also der Objektsdativ normal oder mit der Präposition "an" gebildet sein. Die Abkürzung "t" in der nächsten Zeile zeigt an, daß danach die Übersetzung des Stammes "schick" folgt. Diese Übersetzung lautet "send". Die nachfolgende Abkürzung "pc(to)" hat die Bedeutung, daß das Wort "send" mit der nachfolgenden Präposition "to" gebildet werden muß.
Entsprechend der Fig. 1 und der bei dem Stamm "schick" abgespeicherten Kodierung "iobj" erkennt das Computersystem, daß in dem Beispielsatz "Hans schickte einen Brief an Oma." dem Verb "schickte" ein Objektsdativ zugeordnet ist, nämlich "an Oma". Bei diesem Objektsdativ handelt es sich nicht um einen normalen Objektsdativ, sondern um einen mit dem Wort "an" gebildeten Objektsdativ. Das Computersystem kann nunmehr den Beispielsatz übersetzen. Hierzu übernimmt es aus dem Lexikon die Übersetzung des Stammes "schick", also das Wort "send", sowie das nachfolgende Wort "to". Daraus und aus den Übersetzungen der anderen Wörter des Beispielsatzes bildet dann das Computersystem die Übersetzung zu "Hans sent a letter to Grandma." Der ebenfalls angegebene Beispielsatz "Hans schickte Oma einen Brief." führt zu derselben Übersetzung. In diesem Fall handelt es sich jedoch bei dem Wort "Oma" um einen normalen Objektsdativ, also ohne das Wort "an".
Bei dem in Fig. 4 angegebenen Beispielsatz "Oma kämmte ihm das Haar." stellt das Computersystem entsprechend der Fig. 1 fest, daß dem Stamm "kämm" keine Kodierung "iobj" zugeordnet ist, jedoch eine Kodierung "poss". Daraus erkennt das Computersystem, daß zu dem Verb "kämmte" ein possessiver Dativ gehört. Aus den abgespeicherten Kodierungen kann das Computersystem darüber hinaus erkennen, daß es sich um ein Verb handelt, das immer das Vorhandensein eines Handlungsträgers erfordert. Im vorliegenden Beispielfall ist die Oma der Handlungsträger. Des weiteren zeigt die abgespeicherte Kodierung "obj", daß dem Verb mit dem Stamm "kämm" ein Akkusativobjekt zugeordnet sein kann. Wie erwähnt hat die Abkürzung "poss(o)" die Bedeutung, daß dem Verb mit dem Stamm "kämm" ein possessiver Dativ zugeordnet ist. Die dabei in der Klammer angegebene Abkürzung, im vorliegenden Fall der Buchstabe "o", gibt an, auf welches andere Wort bzw. auf welche andere Wortgruppe sich der possessive Dativ bezieht. Entsprechend der Fig. 3 weist der Buchstabe "o" darauf hin, daß sich der possessive Dativ auf das Objekt des Satzes bezieht, der Buchstabe "s" sagt aus, daß der possessive Dativ auf das Subjekt bezogen ist, der Buchstabe "i" bedeutet einen Bezug auf das Objektsdativ, der Buchstabe "p" einen Bezug auf eine Präposition und der Buchstabe "g" hat die Bedeutung, daß sich der possessive Dativ auf das Genetivobjekt des Satzes bezieht. Für den vorliegenden Beispielsatz gibt das Lexikon gemäß der Fig. 2 an, daß zu dem Verb mit dem Stamm "kämm" ein possessiver Dativ vorhanden sein kann, der sich auf das Objekt bezieht. Das Objekt ist in diesem Fall "das Haar" und der possessive Dativ ist das Wort "ihm". Mit diesen Informationen sowie mit den zu den einzelnen Wörtern des Beispielsatzes gehörigen Übersetzungen kann das Computersystem den Beispielsatz zu "Grandma combed his hair." übersetzen.
Bei den weiteren, in der Fig. 4 angegebenen Beispielsätzen "Heinz lief der Oma zu schnell." und "Heintje singt der Oma nicht laut genug." stellt das Computersystem anhand des Lexikons der Fig. 2 fest, daß zu den Verben mit den Stämmen "lauf" und "sing" jeweils keine Kodierung abgespeichert ist, die auf einen Objektsdativ oder einen possessiven Dativ hinweist. Die Abkürzung "nil" hat dabei die Bedeutung, daß für den jeweiligen Stamm keine entsprechende Kodierung eingetragen ist. Gemäß der Fig. 1 prüft das Computersystem nunmehr, ob der Satz eine Konstruktion mit dem Wort "zu" oder eine Konstruktion mit den Worten "nicht ... genug" enthält. In den beiden genannten Beispielsätzen ist dies der Fall. Das Computersystem erkennt dadurch, daß es sich um einen Dativus Judicantis handelt. Mit Hilfe von ebenfalls abgespeicherten Transferregeln für die Übersetzung ist es damit dem Computersystem möglich, die genannten Beispielsätze zu übersetzen, und zwar zu "Heinz ran too fast for Grandma." und "Heintje doesn't sing loud enough for Grandma.".
Ein weiterer Beispielsatz in der Fig. 4 lautet "Karl baute der Oma ein Haus.". Zur Analyse dieses Satzes prüft das Computersystem die Kodierungen zu dem Stamm "bau" im Lexikon entsprechend der Fig. 2. Dort kann das Computersystem erkennen, daß dem Verb mit dem Stamm "bau" kein Objektsdativ oder possessiver Dativ zugeordnet sein kann. Des weiteren entnimmt das Computersystem dem Lexikon der Fig. 2, daß das Verb mit dem Stamm "bau" das Vorhandensein eines Handlungsträgers erfordert. Da in dem genannten Beispielsatz keine Konstruktion mit dem Wort "zu" oder mit den Worten "nicht ... genug" enthalten ist, ergibt sich entsprechend der Fig. 1, daß es sich in dem Beispielsatz um einen Dativus Commodi handelt, wobei Karl der Handlungsträger ist. Mit Hilfe von abgespeicherten Transferregeln kann das Computersystem nunmehr den Beispielsatz übersetzen, und zwar zu "Karl built a house for Grandma."
Der letzte in Fig. 4 enthaltene Beispielsatz lautet "Ihm sind Oma's Blumen verwelkt.". Aus dem Lexikon entnimmt das Computersystem, daß dem Stamm "verwelk" kein Objektsdativ und kein possessiver Dativ zugeordnet sein kann. Des weiteren ist in dem Lexikon zu dem Stamm "verwelk" die Abkürzung "event" angegeben. Gemäß der Fig. 3 weist diese Kodierung auf das Nicht-Vorhandensein eines Handlungsträgers hin. Mit Hilfe dieser Informationen, und da in dem Beispielsatz weder eine Konstruktion mit dem Wort "zu" noch mit den Wörtern "nicht ... genug" enthalten ist, kommt das Computersystem zu dem Ergebnis, daß der Satz einen Dativus Incommodi enthalten muß. Im vorliegenden Beispielsatz stellt das Wort "ihm" diesen Dativus Incommodi dar. Mit Hilfe von entsprechenden abgespeicherten Transferregeln ist es dem Computersystem möglich, den Beispielsatz zu übersetzen. Dabei kann der Dativus Incommodi entweder in der Form von "Grandma's flowers wilted on him." oder mit Hilfe einer "let-Konstruktion" als "He let Grandma's flowers wilt." übersetzt werden.

Claims (7)

1. Computerbasiertes Verfahren zur automatisierten Analyse und automatischen Übersetzung eines Textes, der aus Wörtern einer natürlichen Ursprungs-Sprache zusammengesetzt ist und in eine natürliche Ziel-Sprache zu übersetzen ist, mit Hilfe eines Computersystems, in dessen Speicher ein Wörterbuch mit einer Vielzahl von Verben abgespeichert ist, wobei zu jedem Verb mindestens eine Kodierung abgespeichert ist, die auf eine Funktion des Verbs in einem zu analysierenden Text hinweist,
wobei der Text hinsichtlich der Dativ-Form mittels der Schritte analysiert wird,
daß in einem ersten Objektdativ-Erkennungsschritt automatisch anhand der in dem Wörterbuch zu dem Verb abgespeicherten Kodierung bestimmt wird, ob die Dativform des Objektsdativs zu dem Verb gehört, oder, wenn dies nicht der Fall ist,
daß in einem weiteren Possessiv-Dativ-Erkennungsschritt automatisch anhand der in dem Wörterbuch zu dem Verb abgespeicherten Kodierung bestimmt wird, ob die Dativform des possessiven Dativs zu dem Verb gehört, oder, wenn dies nicht der Fall ist,
daß in einem weiteren Dativus-Judicantis- Erkennungsschritt automatisch anhand der in dem Wörterbuch zu dem Verb abgespeicherten Kodierung bestimmt wird, ob die Dativform des Dativus Judicantis zu dem Verb gehört, oder, wenn dies nicht der Fall ist,
daß in einem weiteren Dativus-Commodi-Erkennungsschritt automatisch anhand der in dem Wörterbuch zu dem Verb abgespeicherten Kodierung bestimmt wird, ob die Dativform des Dativus Commodi zu dem Verb gehört, oder, wenn dies nicht der Fall ist,
daß in einem weiteren Dativus-Incommodi- Erkennungsschritt automatisch anhand der in dem Wörterbuch zu dem Verb abgespeicherten Kodierung bestimmt wird, ob die Dativform des Dativus Incommodi zu dem Verb gehört,
und wobei danach eine gemäß der Kodierung erkannte Dativform automatisch in die natürliche Ziel-Sprache übersetzt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß in dem Possessiv-Dativ-Erkennungsschritt anhand der auf den possessiven Dativ hinweisenden Kodierung geprüft wird, auf welches andere Wort bzw. auf welche andere Wortgruppe des Textes sich der possessive Dativ bezieht.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß, in einem kombinierten Dativus- Commodi-Erkennungsschritt und Dativus-Incommodi- Erkennungsschritt geprüft wird, ob dem Verb eine Kodierung zugeordnet ist, die auf das Vorhandensein oder das Nicht-Vorhandensein eines Handlungsträgers hinweist.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß es sich bei Vorhandensein eines Handlungsträgers um einen Dativus Commodi handelt und bei Nicht- Vorhandensein eines Handlungsträgers um einen Dativus Incommodi.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß im Dativus-Judicantis- Erkennungsschritt geprüft wird, ob der Text in der Umgebung des Verbs eine Konstruktion mit "zu" oder mit "nicht ... genug" enthält.
6. Computersystem zur automatisierten Analyse und automatischen Übersetzung eines Textes, der aus Wörtern einer natürlichen Ursprungs-Sprache zusammengesetzt ist und in eine natürliche Ziel-Sprache zu übersetzen ist, mit einem Speicher, in dem ein Wörterbuch mit einer Vielzahl von Verben der Ursprungs-Sprache abgespeichert ist,
wobei Verben in dem Wörterbuch unter Vermeidung einer Speicherung der Dativformen als solche und unter speicheroptimalen und performanzoptimalen Nutzung des Computersystems dadurch beschrieben sind, daß neben dem Verbstamm lediglich eine auf die zu einem Verb gehörige Dativform hinweisende Kodierung abgespeichert ist,
wobei alle Dativformen der natürlichen Ursprungs-Sprache durch die hinweisende Kodierung erfaßt sind,
und wobei mittels der hinweisenden Kodierung zum Analyse- und Übersetzungs-Zeitpunkt automatisch die Erkennung der Dativform des zu übersetzenden Verbs und dessen korrekter Übersetzung in die natürliche Ziel- Sprache steuerbar ist.
7. Computersystem nach Anspruch 6, dadurch gekennzeichnet, daß die auf einen possessiven Dativ hinweisende Kodierung angibt, auf welches andere Wort oder auf welche andere Wortgruppe des Textes sich der possessive Dativ bezieht.
DE4311211A 1993-04-05 1993-04-05 Computersystem und Verfahren zur automatisierten Analyse eines Textes Revoked DE4311211C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE4311211A DE4311211C2 (de) 1993-04-05 1993-04-05 Computersystem und Verfahren zur automatisierten Analyse eines Textes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4311211A DE4311211C2 (de) 1993-04-05 1993-04-05 Computersystem und Verfahren zur automatisierten Analyse eines Textes

Publications (2)

Publication Number Publication Date
DE4311211A1 DE4311211A1 (de) 1994-10-06
DE4311211C2 true DE4311211C2 (de) 1998-04-30

Family

ID=6484827

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4311211A Revoked DE4311211C2 (de) 1993-04-05 1993-04-05 Computersystem und Verfahren zur automatisierten Analyse eines Textes

Country Status (1)

Country Link
DE (1) DE4311211C2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001006407A1 (fr) * 1999-07-19 2001-01-25 Iliya Alexandrovich Boldov Procede de conversion d'informations texte
DE10015859C2 (de) * 2000-03-30 2002-04-04 Gunthard Born Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE10015858C2 (de) * 2000-03-30 2002-03-28 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3616011A1 (de) * 1985-05-14 1986-11-20 Sharp K.K., Osaka Uebersetzungsgeraet
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3616011A1 (de) * 1985-05-14 1986-11-20 Sharp K.K., Osaka Uebersetzungsgeraet
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information

Also Published As

Publication number Publication date
DE4311211A1 (de) 1994-10-06

Similar Documents

Publication Publication Date Title
DE68923981T2 (de) Verfahren zur Bestimmung von Textteilen und Verwendung.
DE4440598C1 (de) Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69728282T2 (de) System und verfahren zur extraktion und kodierung von medizinischer fachsprache
DE69022842T2 (de) Verwendung von Befehlsähnlichkeiten in einem intelligenten Hilfssystem.
DE2756352C3 (de) Schaltungsanordnung zum Aussuchen und Sortieren von Daten in gleichartig aufgebauten Sätzen
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE3032664A1 (de) Elektronisches sprachuebersetzungsgeraet.
DE69025091T2 (de) Verfahren und Vorrichtung zur Übersetzung eines Satzes mit einem durch Trennung gebildeten, zusammengesetzten Wort
DE69025498T2 (de) Verfahren und Vorrichtung zur Übersetzung von Sätzen mit adverbialen Sätzen
DE102009030304A1 (de) System zur Speicherung von Symptominformationen der Traditonellen Chinesischen Medizin (TCM) sowie Verfahren zur Speicherung von TCM-Symptominformationen
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE4135261C1 (de)
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes
DE3511920A1 (de) Elektronischer ratgeber
DE4209280C2 (de) Verfahren und Computersystem zur automatisierten Analyse von Texten
DE3732849A1 (de) System-architektur fuer ein akustisches mensch/maschine-dialogsystem
DE102016125162B4 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten
Bernth Controlling input and output of MT for greater user acceptance
DE10010232B4 (de) Verfahren und Vorrichtung zur Spracherkennung
DE102009009123A1 (de) Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt
WO2022122061A1 (de) Vorrichtung zum syntaktischen parsing natürlicher sprachen
DE10253786B4 (de) Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben
Gorozhanov et al. Corpus analysis of the grammatical categories’
DE19911535A1 (de) Verfahren zur Spracherkennung , welches das Vokabular an die zuerkennenden Inhalte, z.B. von Internetseiten, dynamisch anpaßt

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8363 Opposition against the patent
8331 Complete revocation