DE3853045T2

DE3853045T2 - Verfahren zur Beseitigung von enklitischen Endungen aus Verben in romanischen Sprachen.

Info

Publication number: DE3853045T2
Application number: DE3853045T
Authority: DE
Inventors: Antonio Zamora
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1987-11-18
Filing date: 1988-11-09
Publication date: 1995-08-10
Anticipated expiration: 2008-11-10
Also published as: US4852003A; JPH01142866A; EP0316743A2; EP0316743B1; DE3853045D1; EP0316743A3; JPH0519186B2

Description

Die beschriebene Erfindung bezieht sich auf ein verbessertes Verfahren zum Abtrennen enklitischer Endungen von Verben in romanischen Sprachen.
Die Beschreibung der Patentanmeldung "Paradigmabasierte morphologische Textanalyse für natürliche Sprachen" von A. Zamora, lfd. Nr. 028,437, eingereicht am 20. März 1987, übertragen auf IBM, kann als Referenz für die hier beschriebene Erfindung herangezogen werden.
Sowohl für eigenständige Anwendungen als auch für Anwendungen für verteilte Verarbeitung wurden Textverarbeitungssysteme entwickelt, die zusammenhängenden Text verarbeiten können. Der Begriff Textverarbeitungssystem bezieht sich auf Datenverarbeitungssysteme, die vor allem zum Erstellen, Editieren, Übertragen und/oder Drucken von alphanumerischen Zeichenfolgen verwendet werden, die zusammenhängenden Text ergeben. Ein spezielles verteiltes System zur Textverarbeitung wird in EP-A 217 174 unter dem Titel "Mehrsprachige Verarbeitung für Anzeigenaufbau und Befehlsentschlüsselung in einem Textverarbeitungssystem mit den unterstützenden Funktionen Full Command, Message und Help" von K. W. Borgendale et al. beschrieben, das als Beispiel für ein Host-System dient, auf dem die hier beschriebene Erfindung angewendet werden kann.
In EP-A 241 717 wird ein compilerbasiertes linguistisches Analyseverfahren bzw. ein Analysemechanismus beschrieben, das bzw. der die Kompilierung einer Klassifikationstabelle für alle Wörter eines Wörterbuchs und einer Vielzahl von Flexionstabellen umfaßt.
Dieses Verfahren kann auf fast alle indoeuropäischen Sprachen angewendet werden.
Um jedoch die enklitischen Endungen von Verben in romanischen Sprachen abzutrennen, ist dieses Verfahren nicht geeignet. Ein neues Verfahren muß entwickelt werden.
In US-A-4799191 wird ein System beschrieben, das ein Wörterbuch umfaßt, in dem eine Vielzahl englischer Wörter gespeichert sind, die in zwei Gruppen jeweils als Substantive und Nicht- Substantive klassifiziert werden. Das System enthält eine Suchlogik, mit der ermittelt wird, ob ein eingegebenes Wort im gespeicherten Wörterbuch vorhanden ist oder nicht und eine Logik, nach der entschieden wird, ob ein eingegebenes Wort ein Possessivsuffix enthält oder nicht. Weist das eingegebene Wort ein Possessivsuffix auf, wird die Gruppe der Substantive im gespeicherten Wörterbuch nach den Wortdaten durchsucht, die mit dem desuffigierten Eingabewort übereinstimmen. In der Ausgabeanzeige wird das Eingabewort und das Suchergebnis angezeigt. Das beschriebene System kann nur die englische Sprache verarbeiten und ist auf romanische Sprachen nicht anwendbar.

A. Spanisch

Es ist bekannt, daß in der spanischen Sprache neue Wörter gebildet werden, indem Pronomen an bestimmte Verbformen gehängt werden. Die Form "dame" (Deutsch: "gib mir") wird beispielsweise aus der Imperativverbform "da" und dem Pronomen "me" gebildet. Pronomen dieser Art werden "enklitische Pronomen" genannt, da sie an das vorhergehende Wort angehängt werden und ein neues bilden.
In der spanischen Sprache gibt es elf Pronomen, die in enklitischer Form verwendet werden können. Sie werden im folgenden nach ihrer Verwendung klassifiziert aufgeführt:
1) se - reflexiv oder unpersönlich
2) me, nos - erste Person (Singular, Plural)
3) te, os - zweite Person (Singular, Plural)
4) lo, la, lo, los - dritte Person (Akkusativ)
le, les - dritte Person (Dativ)
Einem Wort können mehrere enklitische Pronomen angehängt werden. So enthält die Form "damelo" (Deutsch: "gib mir das") nicht nur ein zweites enklitisches Pronomen, sie erhält auch einen Akzent, damit das neue Wort den Hauptbetonungsregeln entspricht.
Es gibt drei Hauptbetonungsregeln in der spanischen Sprache:
1. Alle Wörter, die auf der letzten Silbe betont werden und auf einem Vokal oder auf "n" oder "s" enden, haben einen Akzent.
2. Wörter, die auf der vorletzten Silbe betont werden, haben einen Akzent, wenn sie auf einem Konsonanten enden, der nicht "n" oder "s" ist.
3. Wörter, die vor der vorletzten Silbe betont werden, haben immer einen Akzent.
Selbstverständlich steht der Akzent auf dem Vokal der betonten Silbe. Zusätzlich gibt es euphonische Regeln für bestimmte Verb- Pronomen-Verbindungen, damit falsche Aussprache vermieden wird. Beim Imperativ der ersten Person Plural "vamos" (Deutsch: "wir gehen") fällt das "s" am Ende weg, wenn das enklitische Pronomen "nos" hinzugefügt wird. So wird aus "vamos" plus "nos" "vamonos" (Deutsch: "laßt uns gehen"). Das zweite "s", das sich beim Hinzufügen des enklitischen Pronomens "se" an die erste Person Plural ergeben würde, fällt weg, so daß aus "hagamos" plus "se" plus "lo" "hagamoselo" wird (Deutsch: "Laßt es uns für sie tun") . Das "d" am Ende der Imperativform der zweiten Person Plural fällt weg, wenn das enklitische Pronomen "os" folgt, so daß aus "comed" plus "os" "comeos" (Deutsch: "ihr eßt") wird.
Eine Besonderheit bei der Bildung der spanischen enklitischen Pronomen ist, daß nicht alle Formen eines Verbs enklitische Formen bilden können. Nur der Infinitiv, das Gerundium (Partizip Präsens) und die fünf Formen des Imperativs können enklitische Pronomen bilden. Für die Formen des Verbs "amar" (Deutsch: "lieben") werden unten einige gültige enklitische Formen aufgeführt: Gramm. Form Verb Beispiel Infinitiv Gerundium Imperativ s Imperativ p amar amando ama ame amemos amad amen amarla (Deutsch: "sie lieben") amandola (Deutsch: "sie liebend") amala (Deutsch: "liebe sie!") amela (Deutsch: "(er) liebe sie!") amemosla (Deutsch: "laßt uns sie lieben!") amadla (Deutsch: "liebet sie!") amenla (Deutsch: "(sie) lieben sie!")
In dieser Tabelle stehen 1, 2 und 3 für die erste, zweite und dritte Person; "s" und "p" stehen jeweils für die Singular- und die Pluralform.
Die spanische Grammatik erfordert eine strikte Reihenfolge für enklitische Pronomen: "se" steht immer vorn, gefolgt von den Pronomen der ersten, dann der zweiten und schließlich der dritten Person. Die Verwendung dieser Pronomen ist natürlich optional. Selten werden mehr als zwei Pronomen an ein Verb gehängt.

B. Italienisch

Ein Merkmal der italienischen Sprache ist die Bildung neuer Wörter durch Hinzufügen von Pronomen an bestimmte Verbformen. Zum Beispiel wird die Form "dammi" (Deutsch: "gib mir") aus der Imperativverbform "da" und dem Pronomen "mi" gebildet (in diesem Fall wird der erste Buchstabe des Pronomens verdoppelt). Diese Pronomen werden "enklitisch" genannt, da sie durch Anfügen an das vorhergehende Wort ein neues Wort bilden. Nicht alle Formen eines Verbs können enklitische Formen bilden. Nur an den Infinitiv, das Gerundium und die fünf Formen des Imperativs können enklitische Pronomen angehängt werden. In der italienischen Sprache gibt es 17 Pronomen und Partikel, die in der enklitischen Form verwendet werden können. Sie werden im folgenden nach ihrer Verwendung klassifiziert aufgeführt: UNBETONT BETONT mi ci ti vi si gli mici me ce te ve se glie erste Person Singular erste Person Plural zweite Person Singular zweite Person Plural dritte Person Reflexiv dritte Person Singular Maskulinum erste Person Singular + Partikel "ci" tici vici zweite Person Singular + Partikel zweite Person Plural + Partikel

KOMPLEMENTÄRE FORMEN

lo, li - dritte Person Maskulinum (Singular, Plural)
la, le - dritte Person Femininum (Singular, Plural)
ne - dritte Person Plural Adverbialpartizip
An ein Wort können mehrere enklitische Pronomen angehängt werden, die jedoch bestimmten Agglutinationsregeln entsprechen müssen. Die Verbform muß entweder auf ein unbetontes oder komplementäres Pronomen enden. Treten mehrere Pronomen auf, steht die betonte Form eines Pronomens vor der komplementären. Ausgenommen sind die Kombinationen "mici", "tici" und "vici", die aus Gründen der einheitlichen Verarbeitung zu den unbetonten Formen gezählt werden, da "ci" in diesen Fällen ein Demonstrativpronomen und kein Personalpronomen ist.
Zusätzlich gibt es zwei Regeln für die Änderung der Schreibweise: 1) Bei der Infinitivform eines Verbs fällt das "e" am Ende weg, wenn ein enklitisches Pronomen angehängt wird, es sei denn, die Infinitivform endet auf "rre". In diesem Fall fällt das "re" am Ende weg. 2) Wird eine Imperativform des Verbs auf der letzten Silbe betont, wird der Konsonant des dem Verb am nächsten liegenden enklitischen Pronomens verdoppelt (außer bei "gli" und "glie"). Die folgende Tabelle enthält Beispiele für diese Fälle: Gramm. Form Verb Beispiel Infinitiv parlare produrre dire parlarti (Deutsch: "mit dir sprechen") produrlo (Deutsch: "es produzieren") dirtelo (Deutsch: "es dir sagen") Gerundium Imperativ 2S pensando di pensandolo(Deutsch: "über es nachdenken") dillo (Deutsch: "sage es!") (2s = zweite Person Singular)
Die Komplexität der Regeln und die Vielzahl der Verbformen, an die enklitische Pronomen angehängt werden können, erfordern umfassende Wörterbücher und analytische Prozeduren, um enklitische Verbformen zu zerlegen. Viele Wörter scheinen auf ihrer morphologischen Basis enklitische Pronomen aufzuweisen, z. B. "Oslo" oder "cola", in Wirklichkeit handelt es sich jedoch nicht um enklitischen Endungen. Einige italienische Verbformen, wie z. B. Formen im Konjunktiv Imperfekt, enden auf das Suffix "si", das in einer inadäquaten Analyseprozedur möglicherweise mit einem Reflexivpronomen verwechselt wird. Obwohl es Computerwörterbücher gibt, die Verben mit enklitischen Endungen enthalten, wurde es auf dem bisherigen Stand der Technik nicht in Angriff genommen, die enklitischen Endungen automatisch abzutrennen, um die Grundform des Verbs zu ermitteln, was für zahlreiche Anwendungen erforderlich ist.
Daher ist es Gegenstand der Erfindung, ein verbessertes Verfahren zum Abtrennen enklitischer Endungen von Verben in romanischen Sprachen, besonders in der spanischen, italienischen, portugiesischen, und französischen Sprache, aber auch in anderen romanischen Sprachen zur Verfügung zu stellen.
Die Aufgabe der Erfindung wird durch den Inhalt von Anspruch 1 erfüllt. Weitere Vorteile der Erfindung werden in den Unteransprüchen beschrieben. Die Erfindung beinhaltet einen Prozeß für das Abtrennen der enklitischen Endungen zur Identifizierung des Verbs, aus dem die enklitische Form gebildet wurde. Der Prozeß kombiniert die morphologischen Transformationen, die die enklitischen Bildungsregeln umkehren, die Regeln für den Akzentwechsel und die Wörterbuchnachschlagefunktion, die gültige Verbformen und Mehrdeutigkeiten identifizieren kann.

Anwendungsmöglichkeiten für die Erfindung

1) Wortprüfung in Textverarbeitungssystemen. Durch die sehr produktiven kombinatorischen Mechanismen enklitischer Pronomen ist es kaum möglich, lückenlos alle Formen eines Verbs aufzulisten. Daher kann eine Prozedur zur Identifizierung und Bildung der Verbformen ohne enklitische Pronomen als effektives Verfahren zur Wortprüfung verwendet werden.
2) In jeder Sprachanalyseanwendung, wie beispielsweise beim Datenbankzugriff über natürliche Sprache, ist es erforderlich, Abfragen zu interpretieren, indem die in der Abfrage verwendeten Verbformen isoliert werden. Die Normalisierung enklitischer Formen ermöglicht die Verarbeitung von Verbformen romanischer Sprachen.
3) Die maschinelle Übersetzung erfordert die Identifizierung von enklitischen Formen und die Bildung von Verbformen ohne ihre enklitischen Pronomen. Diese Erfindung ermöglicht die Verarbeitung von Verben romanischer Sprachen für Anwendungen im Bereich der maschinellen Übersetzung.
Diese und weitere Vorteile der Erfindung werden in den beigefügten Figuren dargestellt.
Fig. 1 enthält ein Flußdiagramm des Verfahrens zum Abtrennen enklitischer Endungen von spanischen Verben.
Fig. 2 enthält ein Flußdiagramm des Verfahrens zum Abtrennen enklitischer Endungen von italienischen Verben.
Fig. 3 enthält ein Flußdiagramm des Verfahrens zum Abtrennen enklitischer Endungen von portugiesischen Verben.

A. Spanisch

Das folgende Ausführungsbeispiel der Erfindung besteht aus einem iterativen Prozeß, der auf die spanische Sprache angewendet wird, um enklitische Endungen abzutrennen und das Verb zu identifizieren, aus dem die enklitische Form gebildet wurde. Der iterative Prozeß kombiniert 1) die morphologischen Transformationen, die die enklitische Bildung und die Betonungsregeln umkehren und 2) das Nachschlagen in einem Wörterbuch zur Identifizierung gültiger Verbformen. Dieser Prozeß ist in Fig. 1 anschaulich dargestellt.
In Schritt 20 beginnt der Prozeß des Abtrennens der enklitischen Endung mit dem Eingabewort. Falls erforderlich, wird das Wort in Kleinschreibung konvertiert, um für das Nachschlagen im Wörterbuch eine einheitliche Schriftart sicherzustellen. In Schritt 22 wird die Endung des Worts nach der Liste der 11 enklitischen Pronomen überprüft. Weist das Wort keine enklitische Endung auf, stehen die enklitischen Pronomen in der falschen Reihenfolge, oder werden mehr als drei enklitische Pronomen gefunden, endet der Prozeß, da das Wort keine gültigen enklitischen Endungen aufweist.
In Schritt 24 wird die Liste der mehrdeutigen Wörter geprüft. Das Wort "salte" kann beispielsweise aus "sal" plus "te" (Deutsch: "geh raus") gebildet werden oder "spring" heißen, wenn das Wort ohne enklitische Endung interpretiert wird. Wird ein Wort in der Liste gefunden, wird die Ausgabewortform dem Eingabewort zugeordnet und in der Liste lokalisiert.
Schritt 26 beinhaltet den Prozeß des Nachschlagens im Wörterbuch. Die Wortform muß im Wörterbuch lokalisiert werden, damit bestimmt werden kann, ob es sich um ein Verb handelt. Ist das der Fall, wird auf das zugehörige Konjugationsparadigma (Tabelle 1) zugegriffen, um die Verbform zu bestimmen. Für diese Prozedur ist es erforderlich, die Endung der Wortform mit den Endungen zu vergleichen, die in der Tabelle des Paradigmas angegeben sind. Die übereinstimmenden Endungen werden ihren zugehörigen grammatischen Formen in der Tabelle zugeordnet. Diese Vergleichsprozedur ermöglicht es zu bestimmen, ob die Verbform enklitische Endungen zuläßt oder nicht. Ist das der Fall, kann die Lemmaform des Verbs (im allgemeinen der Infinitiv) gebildet werden, indem die übereinstimmende Endung durch die Infinitivendung ersetzt wird. Bei einer erfolgreichen Übereinstimmung endet die Prozedur.
Die enklitische Endung wird in Schritt 27 abgetrennt. Sie wird gespeichert, da in den Schritten 28 und 30 auf sie verwiesen wird.
Schritt 28 beinhaltet den Prozeß, der beim Abtrennen des enklitischen Pronomens "os" abläuft. Die enklitische Endung "os" wird einfach abgetrennt. Ist der Buchstabe vor "os" jedoch einer der Vokale "a", "e", "i" oder "i" mit Akzent, wird die enklitische Endung "os" abgetrennt und durch ein "d" ersetzt. Beispielsweise wird "reios" zu "reid" und "burlaos" zu "burlad"; "obedeceros" wird einfach zu "obedecer".
Schritt 30 beinhaltet den Prozeß, der beim Abtrennen der enklitischen Pronomen "nos" oder "se" abläuft. Diese enklitischen Endungen werden nach ihrer Identifizierung abgetrennt. Steht vor diesen Endungen ein "mo" (für eine Verbform im Plural), wird die enklitische Endung durch ein "s" ersetzt. Beispielsweise wird "preparemonos" zu "preparemos", "rianse" jedoch zu "rian". Dieser Schritt wird unabhängig von der Akzentaufhebung durchgeführt; einige in diesem Schritt gebildete Wort formen stimmen nicht mit den Formen im Wörterbuch überein, da sie falsche Akzente aufweisen.
In Schritt 32 werden die Akzente, falls vorhanden, aufgehoben. In der korrigierten Schreibweise wird erneut nach einer Übereinstimmung im Wörterbuch gesucht.
In Schritt 34 werden die Akzente wieder gesetzt, die bei dem Versuch, für ein Wort mit Akzent und mehreren enklitischen Endungen, wie beispielsweise "freidmelo" (Deutsch: "brate das für mich"), eine Übereinstimmung zu finden, entfernt wurden. Im ersten Versuch wird lediglich die erste enklitische Endung abgetrennt. Da es für das daraus entstehende "freidme" keine Übereinstimmung gibt, wird in Schritt 32 der Akzent aufgehoben. In Schritt 34 wird der Akzent wieder gesetzt, bevor das Wort zu Schritt 22 zurückverwiesen wird, wo die weitere enklitische Endung erkannt und später abgetrennt wird.
Tabelle 2 enthält Pseudocode für das vorliegende Ausführungsbeispiel dieses Prozesses. Obwohl in diesem Ausführungsbeispiel der Erfindung eine bestimmte Schrittfolge beschrieben wird, ist die Reihenfolge einiger Schritte beliebig. Es ist möglich, den Prozeß durch die Kombination mehrerer Operationen zu optimieren, wie beispielsweise das Abtrennen der enklitischen Endungen und die Aufhebung der Akzente in einer Operation, indem die Silben des Eingabeworts berücksichtigt werden. Paradigma für regelmäßige Verben auf "..ar" * FORMAS NO PERSONALES infinitivo gerundio participio ar (lemma) ando ado * MODO INDICATIVO * presente pres o as a amos ais an * preterito imperfecto pasi aba abas aba abamos abais aban * preterito perfecto simple pasp e aste o amos asteis aron * futuro futu are aras ara aremos areis aran * conditional cond aria arias aria ariamos ariais arian * MODO SUBJUNCTIVO * presente spre e es e emos eis en * preterito imperfecto spai ara, ase aras, ases ara, ase aremos, asemos arais, aseis aran, asen * futuro sfut are ares are aremos areis aren * MODO IMPERATIVO impe a e emos ad en

TABELLE 1 - BEISPIEL FÜR DAS PARADIGMA EINES SPANISCHEN REGELMÄSSIGEN VERBS

TABELLE 2 - PSEUDOCODE FÜR DEN ENKLITISCHEN PROZESS IN DER SPANISCHEN SPRACHE

Eingabe: Wortlänge,
Eingabewort.
Ausgabe: Rückkehrcode
= 8 Eingabewort ist kein Verb ODER Eingabewort ist kein Verb mit enklitischer Endung
= 4 Eingabewort ist mehrdeutig, wahrscheinlich enklitische Form, enklitische Interpretation liegt vor
= 0 Eingabewort ist ein Verb mit enklitischer Endung
Bei Rückkehrcode 0 und 4 wird das Eingabewort ohne die enklitische Endung und das Lemma zurückgegeben. (Das Wort kann eine andere Akzentuierung und zusätzliche Buchstaben aufweisen, bei "vamonos" wird beispielsweise "vamos" als Ausgabewort und "ir" als Lemma zurückgegeben.)
Ausgabewortlänge,
Ausgabewort.
Lemmalänge,
Lemma für Eingabewort.
/* * * */
Diese Prozedur implementiert einen iterativen Prozeß für das Abtrennen von enklitischen Endungen. Ergebnis ist die Identifizierung des Lemmas des Worts und der Wortform, aus der die enklitische Form gebildet wurde.

B. Italienisch

Das folgende Ausführungsbeispiel der Erfindung besteht aus einem Prozeß, der auf die italienische Sprache angewendet wird, um enklitische Endungen abzutrennen und das Verb zu identifizieren, aus dem die enklitische Form gebildet wurde. Der Prozeß kombiniert 1) die morphologische Transformationen, die die enklitische Bildung und die Betonungsregeln umkehren und 2) das Nachschlagen in einem Wörterbuch zur Identifizierung gültiger Verbformen. Dieser Prozeß ist in Fig. 2 anschaulich dargestellt.
In Schritt 120 beginnt der Prozeß des Abtrennens der enklitischen Endung mit dem Eingabewort. Falls erforderlich, wird das Wort in Kleinschreibung konvertiert, um für das Nachschlagen im Wörterbuch eine einheitliche Schriftart sicherzustellen.
In Schritt 122 wird die Endung des Eingabeworts mit der Liste von unbetonten und komplementären Pronomen verglichen. Weist das Wort keine gültige enklitische Endung auf, wird der Prozeß beendet.
In Schritt 124 wird das Wort mit der Liste der mehrdeutigen Wörter verglichen. Hierdurch wird sichergestellt, daß die enklitische Form als solche erkannt werden kann, wenn ein Wort mit einem enklitischen Pronomen auch eine gültige Verbform sein kann. Die Liste der mehrdeutigen Wörter besteht aus dem mehrdeutigen Wort, der entsprechenden Verbform ohne das enklitische Pronomen und optional der Lemmaform des Verbs. Nach dem Vergleich mit dieser Liste endet die Prozedur. Das Wort "segnalo" beispielsweise kann die erste Person Singular Präsensform des Verbs "segnalare (Deutsch: "signalisieren") oder die dritte Person Singular Imperativform des Verbs "segnare" (Deutsch: "markieren") plus enklitisches Pronomen "lo" sein.
Schritt 126 beinhaltet den Prozeß des Nachschlagens im Wörterbuch. Die Wortform muß im Wörterbuch lokalisiert werden, damit bestimmt werden kann, ob es sich um ein Verb handelt. Ist das der Fall, wird auf das zugehörige Konjugationsparadigma (Tabelle 3) zugegriffen, um die Verbform zu bestimmen. Für diese Prozedur ist es erforderlich, die Endung der Wortform mit den Endungen zu vergleichen, die in der Tabelle des Paradigmas angegeben sind. Die übereinstimmenden Endungen werden ihren zugehörigen grammatischen Formen in der Tabelle zugeordnet. Diese Prozedur ermöglicht es zu bestimmen, ob die Verbform enklitische Endungen zuläßt oder nicht. Ist das der Fall, kann die Lemmaform des Verbs (der Infinitiv) gebildet werden, indem die übereinstimmende Endung durch die Infinitivendung ersetzt wird. Bei einer erfolgreichen Übereinstimmung endet die Prozedur.
Die enklitische Endung wird in Schritt 128 abgetrennt und für die Auswertung in Schritt 134 gespeichert. Ein ursprünglich auf null gesetzter Zähler wird an dieser Stelle erhöht, um zu verfolgen, wieviele enklitische Endungen abgetrennt wurden; auf den Zähler wird in Schritt 132 verwiesen.
In Schritt 130 werden die Änderungen in der Schreibweise rückgängig gemacht, die bei der Bildung enklitischer Formen vorgenommen wurden. Das heißt, ist der Buchstabe vor dem abgetrennten enklitischen Pronomen ein "r", wird ein "e" oder "re" hinzugefügt, da die Verbform im Infinitiv vorliegen muß. Ist der Buchstabe vor dem abgetrennten enklitischen Pronomen derselbe wie der erste Buchstabe des enklitischen Pronomens, wird dieser verdoppelte Buchstabe entfernt, da es sich wahrscheinlich um eine Verbform des Imperativs mit betonter letzter Silbe handelt. Die Ausnahmen bei "gli" und "glie" werden dabei berücksichtigt.
In Schritt 132 wird anhand des in Schritt 128 erhöhten Zählers geprüft, wieviele enklitische Endungen vom Wort abgetrennt wurden. Wurden zwei Endungen entfernt, und konnte beim Zugriff auf das Wörterbuch der übrige Teil des Worts bisher nicht als Verb bestätigt werden, endet der Prozeß ohne die Identifizierung eines enklitischen Pronomens.
In Schritt 134 wird geprüft, ob es sich bei der abgetrennten Endung um eine komplementäre Endung handelt. Ist das der Fall, wird die Möglichkeit mehrerer enklitischer Pronomen geprüft. Ist die enklitische Endung keine komplementäre Endung, wird der Prozeß ohne die Identifizierung einer enklitischen Endung beendet, da im vorher erfolgten Zugriff auf das Wörterbuch keine Verbform gefunden werden konnte. Bei der scheinbar enklitischen Form handelte es sich um eine falsche enklitische Endung.
In Schritt 136 wird die Endung des Worts ohne komplementäre enklitische Endung mit der Liste der betonten Pronomen verglichen. Wird kein Pronomen gefunden, endet der Prozeß, und die zuvor gefundene komplementäre Endung wird als falsches enklitisches Pronomen behandelt, da im vorher erfolgten Zugriff auf das Wörterbuch kein Verb gefunden wurde. Wird jedoch ein betontes Pronomen gefunden, wird mit der Verarbeitung in Schritt 128 fortgefahren. Hier wird die Endung abgetrennt, anschließend die Schreibweise normalisiert und erneut auf das Wörterbuch zugegriffen.
Tabelle 4 enthält Pseudocode für das vorliegende Ausführungsbeispiel dieses Prozesses. Obwohl in diesem Ausführungsbeispiel der Erfindung eine bestimmte Schrittfolge beschrieben wird, ist die Reihenfolge einiger Schritte beliebig.
Es ist möglich, den Prozeß durch die Kombination mehrerer Operationen zu optimieren, wie beispielsweise das Abtrennen der enklitischen Endungen und die Umkehrung der Änderungen in der Schreibweise. Paradigma für regelmäßige Verben auf "-ere" Beispiel: temere * FORME IMPERSONALI infinito gerundio participio passato emere (lemma) emendo emuto * MODO INDICATIVO * presente pres emo emi eme emiamo emete emono * imperfetto pasi emevo emevi emeva emevamo emevate emevano * passato remoto pasp emei, emetti emesti eme emette ememmo emeste emerono, emettero * futuro semplice futu emero emerai emera emeremo emerete emeranno * MODO CONDIZIONALE * presente cond emerei emeresti emerebbe emeremmo emereste emerebbero * MODO CONGIUNTIVO * presente spre ema ema ema emiano emiate emano * imperfetto spai emessi emessi emesse emessimo emeste emessero * MODO IMPERATIVO impe emi ema impe emianio emete emano

TABELLE 3 - BEISPIEL FÜR DAS PARADIGMA EINES ITALIENISCHEN REGELMÄSSIGEN VERBS

TABELLE 4 - PSEUDOCODE FÜR DEN ENKLITISCHEN PROZESS IN DER ITALIENISCHEN SPRACHE

Eingabe: Wortlänge,
Eingabewort.
Ausgabe: Rückkehrcode
= 8 Eingabewort ist kein Verb ODER Eingabewort ist kein Verb mit enklitischer Endung
= 4 Eingabewort ist mehrdeutig, wahrscheinlich enklitische Form, enklitische Interpretation liegt vor
= 0 Eingabewort ist ein Verb mit enklitischer Endung
Bei Rückkehrcode 0 und 4 wird das Eingabewort ohne die enklitische Endung und das Lemma zurückgegeben. (Bsp. : Bei "parlati" wird "parlare" als Wortform ohne enklitische Endung zurückgegeben.)
Ausgabewortlänge,
Ausgabewort.
Lemmalänge,
Lemma für Eingabewort.
Diese Prozedur implementiert einen iterativen Prozeß für das Abtrennen von enklitischen Endungen. Ergebnis ist die Identifizierung des Lemmas des Worts und der Wortform aus der die enklitische Form gebildet wurde.

C. Portugiesisch

Struktur der portuciesischen enklitischen Pronomen

Portugiesische enklitische Pronomen können im Gegensatz zu spanischen und italienischen in Verbformen eingebettet sein. In den folgenden Abschnitten werden die Regeln für die Bildung dieser enklitischen Formen beschrieben. Diese Informationen werden für das Design des Algorithmus verwendet, mit dem die enklitischen Pronomen aus einem Verb entfernt werden, um die ursprüngliche Verbform, der die enklitischen Pronomen angefügt wurden, zu bilden. Kategorien von Pronomen und Kontraktionen: Reflexivpronomen (RP): Person -se Personalpronomen (PP): Numerus,Person Kasus: Akkusativ und Dativ -me -te -nos -no -vos -vo Unpersönliche Pronomen (UP): Genus,Numerus, Person Kasus: Akkusativ -o -lo -no -os -los -nos -a -la -na -as -las -nas Pronomen des indirekten Objekts (10): Numerus,Person Kasus: Dativ -lhe -lhes PP/UP-Kontraktionen (PPUPK): Kasus: Dativ und Akkusativ me + UP te + UP -m'o -mo -m'os -mos -m'a -ma -m'as -mas -t'o -to -t'os -tos -t'a -ta -t'as -tas IO/UP-Kontraktionen (IOUPK): Kasus: Dativ und Akkusativ lhe + UP -lh'o -lho -lh'os -lhos -lh'a -lha -lh'as -lhas
In der brasilianischen Variante der portugiesischen Sprache werden die Kontraktionen apostrophiert. Außerdem gibt es die Sonderform der Kontraktion -lh' anstatt -lhe-, wenn das enklitische Pronomen in die Futur- oder Konditionalform des Verbs eingebettet ist, z. B. dar-lh'emos.

Allgemeine Regeln für die Bildung enklitischer Pronomen:

Jede Verbform kann bis zu drei enklitische Pronomen enthalten. Jedes enklitische Pronomen wird abgetrennt durch einen Bindestrich an die Verbform angehängt oder darin eingebettet. Wird nur ein enklitisches Pronomen verwendet, können die Fälle RP, PP, IO, UP, PPUPK oder IOUPK vorliegen. Werden zwei enklitische Pronomen verwendet, können die Kombinationen PP+UP, RP+PP, RP+IO, RP+PPUPK oder RP+IOUPK gebildet werden. Die Kombination RP+UP wird nie verwendet. Werden drei enklitische Pronomen verwendet, ist nur die Kombination RP+PP+UP gültig, wobei PP abhängig von den Transformationsregeln "nos" oder "vos" ist.
Jedes enklitische Pronomen wird von der Verbform oder vom vorherigen Pronomen durch einen Bindestrich getrennt. Kontraktionen, mit Ausnahme des alleinstehenden -lh', werden wie zwei Pronomen behandelt und in den oben aufgeführten Kombinationen verwendet. Die UP-Formen, die mit "l" oder "n" beginnen, werden nur verwendet, wenn die unten aufgeführten Transformationsregeln angewendet werden.

Einbettungsregeln:

Die Verbformen im Futur und Konditional werden vor der Einbettung der enklitischen Pronomen in Stamm und Endung zerlegt. Anschließend wird die Endung hinter die enklitischen Pronomen angehängt und durch einen Bindestrich von ihnen getrennt. Der Verbstamm und auch die enklitischen Pronomen selbst werden möglicherweise nach den unten aufgeführten Regeln transformiert.
Die Futurendungen sind -ei, -as, -a, -emos, -eis, -ao.
Die Konditionalendungen sind -ia, -ias, -ia, -iamos, -ieis, -iam.
Beispiele: dar-lhe-emos
dar-lho-emos
Die Futur- und Konditionalformen der Verben "fazer", "dizer" und "trazer" sind insofern unregelmäßig, als daß sie aus den verkürzten Infinitivformen der lateinischen Verben "far(e)", "dir(e)" und "trar(e)" abgeleitet werden. Es gelten jedoch dieselben Regeln für die Einbettung (s.o.) und die Transformationsregeln, z. B. farei + o => fa-lo-ei.

Transformationsregeln:

Die UP-Formen -lo, -los, -la und -las existieren nur als Transformationen der Formen -o, -os, -a und -as unter den folgenden Bedingungen:
1) Soll die Infinitivform eines Verbs (oder die Futur- bzw. Konditionalform, die aus dem Infinitiv plus einer Endung besteht) das enklitische Pronomen -o, -os, -a oder -as erhalten, fällt das "r" des Infinitivstamms weg, und das enklitische Pronomen wird jeweils zu -lo, -los, -la oder -las transformiert. Steht vor dem "r" ein "a", wird es zu "a", steht dort ein "e", außer bei "oe", wird es zu "e" und steht dort ein "o", wird es zu "o".
2) Sollen Formen der Verben "trazer", "fazer", "dizer" und ihrer Ableitungen wie "afazer", "satisfazer", "benedizer" etc., die auf "z" enden, das enklitische Pronomen -o, -os, -a oder -as erhalten, fällt das "z" weg, und das enklitische Pronomen wird jeweils zu -lo, -los, -la oder -las transformiert. Steht vor dem "z" der Vokal "a", wird er zu "/a", steht dort der Vokal "e", wird er zu "-e".
3) Soll eine Verbform, die auf "s" endet, das enklitische Pronomen -o, -os, -a oder -as erhalten, fällt das "s" weg, und das enklitische Pronomen wird jeweils zu -lo, -los, -la oder -las.
4) Das "s" am Ende der Verbform der ersten Person Plural "mos" fällt weg, wenn das enklitische Pronomen "-nos" folgt, so daß die Form "mo-nos" entsteht. Diese Regel gilt nicht für die Futur- und Konditionalformen, die die enklitischen Pronomen einbetten.
5) Soll hinter den Pronomen "nos" und "vos" -o, -os, -a oder -as stehen, fällt das "s" in "nos" und "vos" weg, und das folgende enklitische Pronomen wird jeweils zu -lo, -los, la oder -las transformiert.
Diese Regeln gelten auch bei Einbettung von enklitischen Pronomen.
Beispiel: dar + o => da-lo
traz + o => tra-lo
p oes + o => p oe-lo
darei + o => da-lo-ei
daria + as => da-las-ia
viveriam + o => vive-lo-iam
trazes + nos + o => trazes-no-lo
trazem + vos + o => trazem-vo-lo
dispor + o => dispo-o-lo
Die UP-Formen -no, -nos, -na und -nas sind Transformationen der Formen -o, -os, -a und -as, wenn diese hinter einer Verbform, die auf "m" endet, oder hinter den nasalen Vokalkombinationen " " und " " stehen. Die Tatsache, daß die Endung -nos auch ein Personalpronomen ist, stellt eine potentielle Mehrdeutigkeit dar.
Beispiel: lavavam + os => lavavam-nos
trazem + o => trazem-no
----
/* Pseudocode für den enklitischen Prozeß in der */
/* portugiesischen Sprache */
/* Antonio Zamora - 1. September 1987 */
Eingabe: Wortlänge,
Wort im Zeichensatz der Zeichenumsetztabelle 500.
Ausgabe: Rückkehrcode
= 8 Eingabewort ist kein Verb ODER Eingabewort ist kein Verb mit enklitischer Endung
= 4 Eingabewort ist mehrdeutig, wahrscheinlich enklitische Form, enklitische Interpretation liegt vor
= 0 Eingabewort ist ein Verb mit enklitischer Endung
Bei Rückkehrcode 0 und 4 wird das Eingabewort ohne die enklitische Endung und das Lemma zurückgegeben.
/****/
Diese Prozedur implementiert einen Prozeß für das Abtrennen von enklitischen Endungen. Ergebnis ist die Identifizierung der Wortform, aus der die enklitische Form gebildet wurde.
Der Prozeß wird in Fig. 3 anschaulich beschreiben.
In Schritt 220 beginnt der Prozeß des Entfernens der enklitischen Endung mit dem Eingabewort.
In Schritt 222 wird das Wort auf Bindestriche hin geprüft. Sind keine Bindestriche vorhanden, kann kein portugiesisches enklitisches Pronomen vorliegen, und der Prozeß endet.
In Schritt 224 wird geprüft, ob die letzte mit Bindestrich versehene Zeichenfolge des Worts die Endung einer Futur- oder Konditionalverbform ist. Ist das der Fall, wird die Endung für die spätere Verwendung gespeichert.
In Schritt 226 wird die erste Zeichenfolge des Wortes (bis zum ersten Bindestrich) isoliert. Sie entspricht dem Verbstamm oder Kopf des Worts. Dieser Verbstamm wird für die weitere Verarbeitung untersucht.
In Schritt 228 wird der letzte Buchstabe des Verbstamms auf einen Akzent hin überprüft. Liegt ein Akzent vor, wird mit der Verarbeitung in Schritt 230 fortgefahren. Verbstämme ohne Akzent werden ab Schritt 236 verarbeitet.
In Schritt 230 wird das "z" verarbeitet. In diesem Prozeß werden anhand einer Liste die Verbstämme mit Akzent identifiziert, denen ein "z" anstatt einem "r" wieder angefügt wird. Die Liste besteht aus Einträgen wie "contraf ", das von "contrafaz" stammt, und anderen Verbformen, die aus den Verben "fazer", "dizer" und "trazer" abgeleitet werden. Diese Verarbeitung des "z" wird nur durchgeführt, wenn keine Futur- oder Konditionalendungen vorliegen.
In Schritt 232 wird geprüft, ob das enklitische Pronomen hinter dem Verbstamm "-la", "-las", "-lo" oder "-los" ist. Ist das der Fall, wird der akzentuierte Buchstabe durch den unakzentuierten ersetzt und das "r" für den Verbstamm wiederangefügt.
In Schritt 234 werden, falls vorhanden, die Futur- oder Konditionalendungen an den Verbstamm angehängt, um die ursprüngliche Form des Verbs wiederherzustellen, und der Prozeß endet.
In Schritt 236 wird die Verarbeitung von "z" mit Verbstämmen ohne Akzente durchgeführt. Der Prozeß ist mit Schritt 230 identisch. Er unterscheidet sich nur in der Liste der geprüften Wörter. Hier besteht sie aus unakzentuierten Einträgen wie "contrafi", das von "contrafiz" abgeleitet wird.
In Schritt 238 wird "mo" verarbeitet. In diesem Prozeß werden die Verbstämme auf die Endung "mo" hin überprüft, um festzustellen, ob ein "s" elidiert wurde. Ist das enklitische Pronomen hinter dem Verbstamm "-la", "-las", "-lo", "-los" oder "-nos" bzw. "-no" gefolgt von einem weiteren enklitischen Pronomen, dann wird dem Verbstamm ein "s" angefügt, und der Prozeß endet.
In Schritt 240 wird geprüft, ob das enklitische Pronomen hinter dem Verbstamm "-la", "-las", "-lo" oder "-los" ist. Ist das der Fall, und handelt es sich nicht um eine Futur- oder Konditionalendung, wird dem Verbstamm das "s" wiederangefügt, und der Prozeß endet.
In Schritt 242 wird ein "r" und, falls vorhanden, die Futur- oder Konditionalendung an den Verbstamm angehängt, um die Ausgangsform des Verbs wiederherzustellen, und der Prozeß endet.

D. Französisch

Enklitische Pronomen in der französischen Sprache:

In der französischen Sprache werden enklitische Pronomen durch einen Bindestrich abgetrennt an das Ende eines Verbs angehängt. Das enklitische Pronomen beeinflußt weder Schreibweise noch Akzentuierung des voranstehenden Verbs. Somit können die enklitischen Pronomen in der französischen Sprache am einfachsten erkannt und abgetrennt werden, um die ursprüngliche Form des Verbs wiederherzustellen. Zusätzlich zu den enklitischen Pronomen können bei einigen französischen Wörtern Adverbialpartizipien angehängt werden, die von den enklitischen Pronomen unterschieden werden müssen.
Die folgenden enklitischen Pronomen werden in der französischen Sprache verwendet: ce, ces, cet, cette, elle, elles, en, eux, il, ils, je, la, le, les, leur, lui, me, moi, nous, on, te, toi, tu, vous und y. Manchmal werden die Pronomen von den Verben durch die "euphonische" Partikel "t", wie in "a-t-il", getrennt. Das "t" hat nur euphonische Funktion und stellt kein Pronomen dar. Die Pronomen "me" und "te" werden vor bestimmten anderen Pronomen kontrahiert. So wird "me" vor "en" zu "m'en", wie in "montrez-m'en" (zeig mir das), kontrahiert. Außer bei diesen auf euphonischen Konventionen und Kontraktionskonventionen beruhenden Ausnahmen können ein oder mehrere französische enklitische Pronomen durch Bindestriche abgetrennt an das Ende des Verbs angehängt werden, z. B. "donnez-le-moi" (geben Sie es mir). Die Reihenfolge dieser Pronomen wird von den Regeln der französischen Grammatik bestimmt.
Zusätzlich zu enklitischen Pronomen können an französische Wörter die Adverbialpartizipien "ci" und "la" durch Bindestriche abgetrennt angehängt werden (z. B. "fille-ci"). Sie dürfen nicht mit den enklitischen Pronomen verwechselt werden.

Claims

1. Ein Computerprozeß zum Abtrennen von enklitischen Pronomen in den Sprachen Spanisch, Italienisch und Portugiesisch zur Identifizierung des Verbs, aus dem die enklitische Form gebildet wurde, der die folgenden Schritte umfaßt:

Speichern einer Menge von möglichen enklitischen Pronomen, wobei jedem dieser enklitischen Pronomen jeweils ein Wert zugeordnet ist, der die Reihenfolge anzeigt, in der das entsprechende enklitische Pronomen in einem Wort mit mehreren aufeinanderfolgenden enklitischen Pronomen vorkommen darf;

Eingeben eines Eingabeworts aus einer Eingabewortfolge;

Vergleichen des Eingabeworts mit der Menge der möglichen enklitischen Pronomen zur Identifizierung des letzten vorkommenden enklitischen Pronomens in diesem Eingabewort;

Speichern eines ersten Werts für die Reihenfolge, der dem letzten vorkommenden enklitischen Pronomen zugeordnet wird;

Vergleichen des Eingabeworts mit einer Liste von mehrdeutigen Wörtern und Erzeugen einer Ausgabewortform, nachdem eine Übereinstimmung gefunden wurde;

Zugreifen auf ein Wörterbuch zur Bestimmung, ob das Eingabewort ein Verb ist und Zugreifen auf ein entsprechendes Konjugationsparadigma zur Bestimmung der Verbform für das Eingabewort, indem die Endung des Eingabeworts mit den Endungen in einer Paradigmatabelle verglichen wird, in der nach Feststellen einer Übereinstimmung die Endung der entsprechenden grammatischen Form zugeordnet wird, um zu bestimmen, ob die Verbform enklitische Pronomen zuläßt wobei sich die Lemmaform des Verbs ergibt, nachdem die übereinstimmende Endung durch die Infinitivendung ersetzt wird;

Läßt die Verbform enklitische Pronomen zu, Ausgabe des Lemmas, das die Verbform des Eingabeworts repräsentiert, wobei das letzte vorkommende enklitische Pronomen abgetrennt ist;

Läßt die Verbform keine enklitischen Pronomen zu, Abtrennen des letzten vorkommenden enklitischen Pronomens vom Eingabewort, wobei ein Wortteil übrigbleibt;

Vergleichen dieses Wortteils mit der oben genannten Menge von möglichen enklitischen Pronomen zur Identifizierung eines an zweitletzter Stelle vorkommenden enklitischen Pronomens im Eingabewort;

Zugreifen auf ein Wörterbuch zur Bestimmung, ob der übrige Wortteil ein Verb ist und Zugreifen auf ein entsprechendes Konjugationsparadigma zur Bestimmung der Verbform für den Wortteil, indem die Endung des Wortteils mit den Endungen in einer Paradigmatabelle verglichen wird, in der nach Feststellen einer Ubereinstimmung die Endung der entsprechenden grammatischen Form zugeordnet wird, um zu bestimmen, ob die Verbform enklitische Pronomen zuläßt, wobei sich die Lemmaform des Verbs ergibt, nachdem die übereinstimmende Endung durch die Infinitivendung ersetzt wird;

Vergleichen des ersten Werts für die Reihenfolge mit dem zweiten Wert für die Reihenfolge, der dem zweitletzten enklitischen Pronomen im Eingabewort zugeordnet ist;

Ist dieser zweite Wert für die Reihenfolge größer als der erste Wert für die Reihenfolge, und läßt die Verbform des übrigen Wortteils ein enklitisches Pronomen zu, Ausgabe des Lemmas, das die Verbform dieses Wortteils repräsentiert, wobei das zweitletzte enklitische Pronomen abgetrennt ist.

2. Das Verfahren von Anspruch 1 dahingehend modifiziert, daß auf eine Liste von mehrdeutigen Wörtern verwiesen wird, wasl falls erforderlich, die Ausgabe mehrerer Verbformen zuläßt;

3. Das Verfahren von Anspruch 1 dahingehend modifiziert, daß zusätzlich zu den Verbformen eine Liste von enklitischen Pronomen ausgegeben wird;

4. Das Verfahren von Anspruch 1 dahingehend modifiziert, daß morphologische Tranformationen einschließlich Hinzufügen oder Entfernen von Buchstaben oder Akzenten durchgeführt werden, um die Verbform ohne enklitische Pronomen wiederherzustellen.