DE602005001840T2

DE602005001840T2 - System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text

Info

Publication number: DE602005001840T2
Application number: DE602005001840T
Authority: DE
Inventors: Hisham Dokki El-Shishiny
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2004-12-10
Filing date: 2005-11-14
Publication date: 2008-04-30
Anticipated expiration: 2025-11-15
Also published as: US8041559B2; EP1675019A3; US20060129380A1; ATE368895T1; EP1675019A2; EP1675019B1; DE602005001840D1

Description

TECHNISCHES GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft die arabische Sprache und insbesondere ein System, ein Verfahren und ein Computerprogramm zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text auf der Grundlage eines Lernkonzepts, das auf einer lexikalischen Suche im Arabischen und auf einer morphologischen Analyse des Arabischen beruht. Das disambiguierende System wird an einem Korpus aus diakritischem arabischen Text trainiert, der zu einer spezifischen Domäne gehört.
STAND DER TECHNIK
Das arabische Alphabet besteht aus achtundzwanzig Buchstaben, von denen fünfundzwanzig Konsonanten darstellen. Die übrigen drei Buchstaben stellen die langen Vokale des Arabischen dar. Im Arabischen gibt es sechs Vokale, die in drei aus einem kurzen und einem langen Vokal bestehende Paare unterteilt sind. Jedes Paar entspricht einem anderen phonetischen Wert. Ein markantes Merkmal des arabischen Schriftsystems besteht darin, dass kurze Vokale nicht durch die Buchstaben des Alphabets dargestellt werden. Sie werden stattdessen durch so genannte diakritische Zeichen gekennzeichnet, bei denen es sich um kurze Striche (Markierungen) handelt, die entweder über oder unter dem voranstehenden Konsonanten platziert sind. Der Prozess, einem nicht gekennzeichneten Text alle diakritischen Zeichen hinzuzufügen, wird als Diacritization („Diakritisierung") bezeichnet.
Moderne geschriebene arabische Texte sind fast nie diakritisch (in einer Schrift verfasst, welche die Vokale der Wörter auslässt). Muttersprachler sind jedoch im Allgemeinen in der Lage, Wörter in einem Text auf Grund des Kontextes und ihrer Kenntnis der Grammatik und des Wortschatzes der Sprache zu vokalisieren (in die diakritische Form zu bringen).
Wenn in einem arabischen Text keine Vokalzeichen verwendet werden, gibt es eine Vielzahl möglicher Vokalkombinationen für den Satz aus Zeichen, die das Wort bilden. Einerseits sind alle diese Kombinationen in dem Sinne korrekt, dass die Form gültig ist, andererseits sind jedoch nicht alle von ihnen in dem Kontext korrekt, in dem das Wort verwendet wird. Da viele Wörter mit unterschiedlichen Vokalmustern in einer vokallosen Umgebung identisch erscheinen können, besteht eine erhebliche Ambiguität auf der Wortebene (lexikalische Ambiguität). Jüngste Studien ergaben, dass etwa 74 % der Wörter in einem arabischen Text lexikalisch ambig sind. Diese lexikalische Ambiguität muss durch kontextuelle Informationen aufgelöst werden, die alle korrekten diakritischen Zeichen arabischer Wörter bis auf diejenigen diakritischen Zeichen am Wortende identifizieren, die den Kasus angebende Endungen anzeigen (ihre Verwendung ist je nach Sprecher und Förmlichkeit der Sprache in gewisser Hinsicht optional).
Die lexikalische Ambiguität des Arabischen ist u. a. auf die komplexe Morphologie des Arabischen zurückzuführen. Studien zeigen, dass pro arabischem Wort durchschnittlich etwa fünf unterschiedliche morphologische Analysen möglich sind. Präfixe und Suffixe können Wörtern durch Verkettung angehängt werden. Eine einzelne Zeichenfolge kann Verbflexionen, Präpositionen, Pronomen und Konnektoren umfassen. Daher ist die lexikalische Disambiguierung bei Wörtern und die Vokalwiederherstellung in arabischem Text eine herausfordernde Aufgabe.
Ohne die Disambiguierung bei arabischen Wörtern ist es unmöglich, die Aussprache eines nicht diakritischen Texts zu bestimmen. Es gibt viele Wörter, für die mehrere Aussprachen möglich sind, und Softwareanwendungen wie Text-To-Speech-Systeme (TTS) für Arabisch können nicht ordnungsgemäß funktionieren. Das Wiederherstellen der diakritischen Form arabischer Schriften wäre neben der lexikalischen Disambiguierung ebenfalls sehr hilfreich für Nicht-Muttersprachler und könnte dazu beitragen, Anfängertexte wie Schulbücher für Kinder und Gedichtbände in die diakritische Form zu bringen – eine Aufgabe, die gegenwärtig manuell ausgeführt wird.
Das Problem der aktuellen Verfahren zur automatischen Hinzufügung diakritischer Zeichen zu arabischen Schriften besteht darin, dass die lexikalische Ambiguität des Worts die Genauigkeit der „Diakritisierung" von Wörtern stark herabsetzt.
Zu den aktuellen Konzepten gehören

• auf der Statistik basierende Konzepte: ein auf Bigrammen basierendes Hidden-Markov-Modell dient zur Erfassung kontextueller Informationen und zur Wiederherstellung von Vokalen. Das Problem, dass unbekannte Wörter nicht im Trainingskorpus gefunden werden, wird jedoch nicht berücksichtigt. Die Verwendung eines ausreichend großen, modernen Korpus diakritischer Wörter führt zu einer starken zahlenmäßigen Zunahme der Anzahl der Modellparameter, da diese quadratisch in der Anzahl der Wortarten im Trainingskorpus sind.
• auf der Morphologie basierende Konzepte: Diese Techniken sind wortbasiert und können Wörter nicht im Kontext disambiguieren. Sie geben für jedes Wort im Text alle möglichen Analysen aus und beruhen auf handgeschriebenen Regeln und einem Lexikon, welche die Morphologie des Arabischen regeln. Es ist jedoch immer noch unklar, wie anhand eines gegebenen Kontextes die wahrscheinlichste grammatische Beschreibung gewählt werden kann.

Ein Beispiel findet sich in Debili et. al., „Voyellation automatique de l'arabe", Computational Approaches to Semitic Languages Workshop Proc., 1998, S. 42–49.
Eine erfolgreiche Vokalwiederherstellung in arabischer Schrift ist für wichtige Anwendungen, wie z. B. für das Arabische vorgesehene Text-To-Speech-Systeme (TTS), unerlässlich. Daher wird ein solides Verfahren benötigt, das unempfindlich gegenüber nicht erkannten Wörtern im Trainingskorpus ist und die lexikalische Ambiguität von Wörtern in arabischen Texten auflösen kann.
ÜBERBLICK ÜBER DIE ERFINDUNG
Die vorliegende Erfindung ist auf ein Verfahren, ein System und ein Computerprogramm ausgerichtet, wie sie in den unabhängigen Ansprüchen definiert sind.
Weitere Ausführungsarten der Erfindung werden in den beigefügten Unteransprüchen vorgestellt.
Die vorliegende Erfindung schlägt eine Lösung für das Problem der lexikalischen Disambiguierung bei Wörtern in arabischen Texten vor. Diese Lösung basiert auf domänenspezifischem Textwissen, das die automatische Vokalwiederherstellung bei Schriften des modernen Standardarabisch erleichtert. Inhaltlich einander ähnelnde Texte, die auf ein spezifisches Gebiet beschränkt sind oder denen ein gemeinsames Wissen zugrunde liegt, lassen sich in einer spezifischen Kategorie oder in einer spezifischen Domäne gruppieren (Beispiele für spezifische Domänen: Sport, Kunst, Wirtschaft, Wissenschaft ...).
Die vorliegende Erfindung beschreibt ein Verfahren, ein System und ein Computerprogramm zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text auf der Grundlage eines Lernkonzepts, das auf

• einer lexikalischen Suche im Arabischen und
• einer morphologischen Analyse des Arabischen

Die vorliegende Erfindung bietet folgende Hauptvorteile:

• 1. Arabische Wörter in einem domänenspezifischen Text werden mit großer Genauigkeit lexikalisch disambiguiert, sodass ein korrektes Vokalmuster identifiziert werden kann. Dies führt zu einer signifikanten Verbesserung der Genauigkeit bei der automatischen Wiederherstellung von Vokalen der Wörter im Text. Die mithilfe der vorliegenden Erfindung erreichte Genauigkeit bei der „Diakritisierung" von Wörtern übertrifft die Genauigkeit anderer zurzeit gängiger Verfahren zur „Diakritisierung".
• 2. Das in aktuellen Systemen für die automatische Vokalwiederherstellung beobachtete Problem der Ungenauigkeit bei der „Diakritisierung" von Wörtern aufgrund von unbekannten Wörtern im Trainingskorpus wird basierend auf den morphologischen Varianten unbekannter Wörter innerhalb der Trainingsdaten deutlich abgeschwächt.
• 3. Das Verfahren und das System lassen sich generell auf andere semitische Sprachen übertragen.

Das Vorhergehende sowie andere Aufgaben, Merkmale und Vorteile dieser Erfindung lassen sich unter Bezugnahme auf die folgenden Spezifizierungen, Ansprüche und Zeichnungen besser nachvollziehen.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die neuen und erfindungsgemäßen Merkmale, die als Merkmale der Erfindung gelten, sind in den beigefügten Ansprüchen dargestellt. Die Erfindung selbst sowie deren bevorzugte Ausführungsart, weitere Aufgaben und Vorteile werden jedoch aus der folgenden detaillierten Beschreibung einer veranschaulichenden, detaillierten Ausführungsart am besten verständlich, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist. Es zeigen:
1 eine allgemeine Ansicht des Systems gemäß der vorliegenden Erfindung,
2 ein Ablaufdiagramm, das die Schritte des Verfahrens gemäß der vorliegenden Erfindung zum Generieren eines domänenspezifischen arabischen Wortschatzes darstellt,
3 ein Ablaufdiagramm, das die Schritte des Verfahrens gemäß der vorliegenden Erfindung zur automatischen Disambiguierung und zur Wiederherstellung von Vokalen darstellt.
BEVORZUGTE AUSFÜHRUNGSART DER ERFINDUNG
Die folgende Beschreibung soll dem Fachmann die Nutzung der Erfindung ermöglichen und wird im Kontext einer Patentanmeldung und deren Erfordernissen dargelegt. Verschiedene Modifikationen der bevorzugten Ausführungsart und die hier beschriebenen generischen Prinzipien und Merkmale sind für den Fachmann ohne Weiteres ersichtlich. Folglich soll die vorliegende Erfindung nicht auf die dargestellte Ausführungsart beschränkt sein, sondern ihr ist der Geltungsbereich zuzuordnen, der von den beigefügten Ansprüchen definiert wird.
A/ System zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern
1 ist eine allgemeine Sicht auf das erfindungsgemäße System zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text auf der Grundlage eines Lernkonzepts, das auf einer Suche im arabischen Wortschatz und auf einer morphologischen Analyse (104) des Arabischen beruht. Das System wird an einem Korpus (103) aus diakritischem arabischen Text trainiert, der zu einer spezifischen Domäne gehört.
B/ Verfahren zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern
Das Verfahren gemäß der vorliegenden Erfindung umfasst zwei Hauptphasen:

1. eine Phase der Generierung eines domänenspezifischen arabischen Wortschatzes,
2. eine Phase der automatischen Disambiguierung und der Vokalwiederherstellung.

1. Generierung eines domänenspezifischen arabischen Wortschatzes
2 veranschaulicht die Phase der Generierung eines domänenspezifischen arabischen Wortschatzes. Diese Phase wird von dem in 1 dargestellten Subsystem (101) zur Generierung eines domänenspezifischen Wortschatzes ausgeführt. In dieser ersten Phase wird ein diakritischer Trainingskorpus (103) des Arabischen (etwa einige Zehntausend Wörter umfassend), der zu einer spezifischen Domäne gehört, basierend auf der gültigen Annahme verwendet, dass es im Vergleich zu einem freien Text beim Gebrauch der Wörter und ihrer morphologischen Varianten innerhalb einer Domäne weniger lexikalische Variabilität gibt.
Wie in 2 dargestellt, werden für jedes Wort in diesem diakritischen arabischen Text die folgenden Schritte ausgeführt:

• Schritt 201: Entfernen der diakritischen Zeichen aus dem Wort.
• Schritt 202: Abrufen aller möglichen gültigen Vokalisierungsmuster für das Wort mithilfe einer Komponente (104) zur morphologischen Analyse und eines generischen arabischen Wortschatzes (105). Jedes Vokalisierungsmuster gehört zu einem anderen Stamm, obwohl einige Stämme dieselbe Sequenz arabischer Buchstaben in einer vokallosen Anordnung aufweisen können.
• Schritt 203: Auswählen desjenigen Musters (der in Schritt 202 abgerufenen Vokalisierungsmuster), das mit dem Vokalisierungsmuster des Worts übereinstimmt, bevor dessen diakritische Zeichen in Schritt 201 oben entfernt wurden.
• Schritt 204:
• Identifizieren des Stammes im arabischen Wortschatz (105), der zu dem Vokalisierungsmuster, das mit dem Vokalisierungsmuster des Worts übereinstimmt, gehört, mithilfe einer Komponente (104) zur morphologischen Analyse,
• Aufzeichnen, wie häufig der Vokalisierungsstamm im diakritischen Trainingskorpus vorkommt (wie häufig derselbe Stamm im diakritischen Trainingskorpus identifiziert wird). Hinweis: Der Schritt, für jedes Wort aufzuzeichnen, wie häufig der Vokalisierungsstamm im diakritischen Trainingskorpus vorkommt, ist notwendig, um alle Wörter im nicht diakritischen Text zu disambiguieren und in die diakritische Form zu bringen. Das Disambiguieren von Verben ist ein Sonderfall, da das Genus verbi in einem nicht diakritischen arabischen Text ambig ist, und wirkt sich auf die „Diakritisierung" aus. Daher ist es zum Disambiguieren des Genus verbi nicht diakritischer Verben ebenfalls notwendig, für jedes Verb aufzuzeichnen, wie häufig das Genus verbi im diakritischen Trainingskorpus vorkommt.
• Schritt 205: Falls der Stamm für ein Verb ist (wie von der Komponente zur morphologischen Analyse identifiziert),
• Bestimmen des Genus verbi (Aktiv/Passiv) des Verbstammes wie vom Vokalisierungsmuster für das Wort erkannt,
• Aufzeichnen, wie häufig das Genus verbi des Verbstammes im diakritischen Trainingskorpus (103) vorkommt (wie oft das Genus verbi des Verbstammes im diakritischen Trainingskorpus identifiziert wird). Hinweis: Grammatisch kann ein Verb das Genus verbi „Aktiv" oder „Passiv" aufweisen. Das Genus verbi des Verbs entspricht der Form, die das Verb in Abhängigkeit davon annehmen kann, ob das Subjekt des Verbs agiert oder der Handlung unterliegt.

Nach dem Ausführen der oben genannten Schritte für alle Wörter des diakritischen, domänenspezifischen Trainingskorpus (103) des Arabischen:

• Schritt 206: Belassen ausschließlich folgender Einträge im arabischen Wortschatz (106):
• derjenigen Stämme mit der größten Anzahl im diakritischen Trainingskorpus (103) gefundener morphologischer Varianten, wenn mehrere Stämme mit identischen Zeichenfolgen existieren;
• derjenigen Stämme, die keine andere identische Zeichenfolge aufweisen;
• jeden Stammes, der zufällig unter Stämmen ausgewählt wurde, die nicht mit Wörtern im Trainingskorpus (103) verwandt sind und mehrere identische Zeichenfolgen aufweisen. Hinweis: Bei den morphologischen Varianten handelt es sich um die verschiedenen morphologisch verwandten Wörtern, die im diakritischen Trainingskorpus gefunden werden (diejenigen Wörter, die denselben Stamm aufweisen).
• Schritt 207: Löschen aller anderen Stamm-Einträge aus dem Wortschatz. Somit wird aus dem generischen Wortschatz (105) des Arabischen ein domänenspezifischer Wortschatz (106) generiert.
• Schritt 208: Schließlich Generieren einer Liste, welche die Stämme der im diakritischen Trainingskorpus (103) vorkommenden Verben und für jeden Stamm eine Angabe des wahrscheinlichsten Genus verbi enthält (Genus verbi, das am häufigsten im Trainingskorpus vorkommt).

2. Automatische Disambiguierung und Vokalwiederherstellung
3 stellt die Phase der automatischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text und der Wiederherstellung von Vokalen dar. Diese Phase wird von dem in 1 dargestellten Subsystem (102) zur automatischen Disambiguierung und Vokalwiederherstellung ausgeführt.
Die automatische „Diakritisierung" des Arabischen basiert auf dem folgenden Modell für arabische Wörter: Wort = Präfix (eins oder mehr oder null) + Stamm + Suffix (eins oder mehr oder null).
Ein Stamm wurde von einer Wurzel entweder abgeleitet oder nicht abgeleitet. Das Vokalmuster eines nicht abgeleiteten Stammes wird zusammen mit dem Stamm selbst im Wortschatz gespeichert. Abgeleitete Stämme folgen Mustern, welche die „Diakritisierung" ihrer Zeichen definieren, und werden über eine Komponente (104) zur morphologischen Analyse bestimmt (mit Ausnahme von diakritischen Zeichen am Wortende, die den grammatischen Kasus angebende Endungen anzeigen). Die „Diakritisierung" der Affixe (Präfix und Suffixe) ist festgeschrieben. Das diakritische Wort ist die Verkettung von diakritischen Präfixen, Stamm und Suffixen.
Wenn ein domänenspezifischer arabischer Wortschatz (106) und eine Datei vorhanden sind, die das wahrscheinlichste (häufigste) Genus verbi jedes Verbs in der Domäne (107) enthält, umfasst das Verfahren zur automatischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text (108) und zur Vokalwiederherstellung für jedes Wort in einem nicht diakritischen arabischen Text (108) die folgenden Schritte:

• Schritt 301: Als Erstes Segmentieren des Worts (108) in einen Stamm, ein Präfix und ein Suffix mithilfe einer Komponente (104) zur morphologischen Analyse.
• Schritt 302: Anschließend Disambiguieren des Worts, da der domänenspezifische Wortschatz (106) eindeutige Vokalisierungsmuster für jeden Stamm enthält, und
• Schritt 303: Bestimmen des Vokalisierungsmusters des Stammes.
• Schritt 304: Schließlich vollständige „Diakritisierung" des Worts (109) durch Hinzufügen der diakritischen Präfixe und Suffixe zum diakritischen Stamm gemäß dem oben beschriebenen Modell für die „Diakritisierung".

Die „Diakritisierung" eines Verbs basiert auf dem wahrscheinlichsten (häufigsten) Genus verbi dieses Verbs im diakritischen Trainingskorpus. Das wahrscheinlichste Genus verbi wird aus der zuvor generierten Liste der Verbstämme (107) abgerufen. Diese Liste enthält für jeden Verbstamm das Genus verbi, das am häufigsten im diakritischen Trainingskorpus vorkommt. Die „Diakritisierung" eines Verbs hängt davon ab, ob es sich bei dem Genus verbi des Verbs um Aktiv oder Passiv handelt. Die „Diakritisierung" entsprechend dem im Trainingskorpus am häufigsten vorkommenden Genus verbi wird jedem nicht diakritischen Verb im Text zugewiesen.
An Wortenden befindliche diakritische Zeichen, die den grammatischen Kasus angebende Endungen anzeigen, sind je nach Sprecher und Förmlichkeit der Sprache in gewisser Hinsicht optional. Sie könnten mithilfe einer Komponente zur Syntaxanalyse bestimmt werden, was außerhalb des Geltungsbereichs dieser Erfindung liegt.
In einer bevorzugten Ausführungsart umfasst das erfindungsgemäße System zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text ein Computersystem und ein Computerprogramm, um bei der Ausführung des Computerprogramms in dem Computersystem die Schritte des Verfahrens erfindungsgemäß auszuführen.
Obwohl die Erfindung insbesondere in Bezug auf eine bevorzugte Ausführungsart dargestellt und beschrieben wurde, lässt sich nachvollziehen, dass verschiedene Änderungen in Form und Detail vorgenommen werden können, ohne vom Geltungsbereich der Erfindung abzuweichen, der in den beigefügten Ansprüchen definiert ist.

Claims

Computerimplementiertes Verfahren in einer bestimmten Sprache zur lexikalischen Disambiguierung bei nicht diakritischen Wörtern in einem Text und zur Wiederherstellung von Vokalen, wobei das Verfahren folgende Schritte umfasst: • Generieren eines domänenspezifischen Wortschatzes auf der Grundlage eines diakritischen Trainingskorpus, der zu einer spezifischen Domäne gehört; • Disambiguieren nicht diakritischer Wörter in einem Text, der zu der spezifischen Domäne gehört, und Wiederherstellen von Vokalen mit Hilfe des zuvor generierten domänenspezifischen Wortschatzes.
Verfahren nach dem vorhergehenden Anspruch, wobei der Schritt, auf der Grundlage eines diakritischen Trainingskorpus, der zu einer bestimmten Domäne gehört, einen domänenspezifischen Wortschatz zu generieren, folgende weitere Schritte umfasst: für jedes Wort in dem diakritischen Trainingskorpus: • Entfernen der diakritischen Zeichen aus dem Wort; • Abrufen aller möglichen gültigen Vokalisierungsmuster für das Wort, wobei jedes Vokalisierungsmuster zu einem anderen Stamm gehört; • Auswählen desjenigen Vokalisierungsmusters aus den abgerufenen Vokalisierungsmustern, das mit dem Vokalisierungsmuster des Worts übereinstimmt, bevor die diakritischen Zeichen aus dem Wort entfernt wurden; • Identifizieren eines Stammes in einem generischen Wortschatz, der mit dem Vokalisierungsmuster verknüpft ist, das mit dem Vokalisierungsmuster des Worts übereinstimmt.
Verfahren nach Anspruch 2, wobei der Schritt, für jedes Wort im diakritischen Trainingskorpus in einem generischen Wortschatz einen Stamm zu identifizieren, der mit dem Vokalisierungsmuster verknüpft ist, das mit dem Vokalisierungsmuster des Worts übereinstimmt, folgende weitere Schritte umfasst: • Aufzeichnen, wie häufig der identifizierte Stamm in dem diakritischen Trainingskorpus vorkommt.
Verfahren nach Anspruch 2, wobei der Schritt, auf der Grundlage eines diakritischen Trainingskorpus, der zu einer spezifischen Domäne gehört, einen domänenspezifischen Wortschatz zu generieren, folgende weitere Schritte umfasst: • Belassen folgender Stämme im generischen Wortschatz: • Stämme mit der größten Anzahl im diakritischen Trainingskorpus identifizierter morphologischer Varianten, wenn mehrere Stämme mit identischen Zeichenfolgen existieren; • Stämme, die keine andere identische Zeichenfolge aufweisen; • jeder zufällig ausgewählte Stamm unter Stämmen, die: • nicht mit Wörtern im diakritischen Trainingskorpus verwandt sind, und • mehrere identische Zeichenfolgen aufweisen, • Löschen aller anderen Stämme aus dem generischen Wortschatz und deshalb Generieren eines domänenspezifischen Wortschatzes aus dem generischen Wortschatz.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, nicht diakritische Wörter in einem Text zu disambiguieren und Vokale wiederherzustellen, folgende weitere Schritte umfasst: für jedes Wort im nicht diakritischen Text: • Segmentieren des Worts in einen Stamm und eventuell vorhandene Affixe; • Disambiguieren des Worts mit Hilfe des domänenspezifischen Wortschatzes, wobei der domänenspezifische Wortschatz ein eindeutiges Vokalisierungsmuster für jeden Stamm umfasst; • Bestimmen des Vokalisierungsmusters des Stammes; • Das Wort durch Verkettung des diakritischen Stammes mit eventuell vorhandenen diakritischen Affixen in die diakritische Form bringen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, auf der Grundlage eines diakritischen Trainingskorpus, der zu einer spezifischen Domäne gehört, einen domänenspezifischen Wortschatz zu generieren, den folgenden weiteren Schritt umfasst: • Bestimmen des am häufigsten vorkommenden Genus verbi für jedes im diakritischen Trainingskorpus vorkommende Verb.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, für jedes Wort im diakritischen Trainingskorpus in einem generischen Wortschatz einen Stamm zu identifizieren, der mit dem Vokalisierungsmuster verknüpft ist, das mit dem Vokalisierungsmuster des Worts übereinstimmt, folgende weitere Schritte umfasst: wenn der identifizierte Stamm für ein Verb ist: • Bestimmen des Genus verbi des Verbstammes anhand des Vokalisierungsmusters des Worts; und • Aufzeichnen, wie häufig das Genus verbi des Verbstammes in dem diakritischen Trainingskorpus vorkommt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, nicht diakritische Verben jeweils anhand des im diakritischen Trainingskorpus am häufigsten vorkommenden Genus verbi zu disambiguieren, den folgenden vorausgehenden Schritt umfasst: • Generieren einer Liste, welche die im diakritischen Trainingskorpus vorkommenden Verbstämme und für jeden der Stämme eine Angabe des häufigsten Genus verbi umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, nicht diakritische Wörter in einem zu der Domäne gehörenden Text zu disambiguieren und Vokale mit Hilfe des zuvor generierten domänenspezifischen Wortschatzes wiederherzustellen, den folgenden weiteren Schritt umfasst: • Disambiguieren nicht diakritischer Verben jeweils anhand des im diakritischen Trainingskorpus am häufigsten vorkommenden Genus verbi.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die bestimmte Sprache Arabisch ist, der nicht diakritische Text ein arabischer Text ist und der diakritische Trainingskorpus in Arabisch vorliegt.
System, das zum Ausführen jedes der Schritte des Verfahrens gemäß einem der vorhergehenden Ansprüche angepasste Mittel umfasst.
Computerprogramm, das Befehle umfasst, um beim Ausführen des Computerprogramms in einem Computersystem jeden der Schritte des Verfahrens nach den Ansprüchen 1 bis 10 auszuführen.