-
TECHNISCHES GEBIET DER ERFINDUNG
-
Die
vorliegende Erfindung betrifft die arabische Sprache und insbesondere
ein System, ein Verfahren und ein Computerprogramm zur lexikalischen Disambiguierung
bei nicht diakritischen arabischen Wörtern in einem Text auf der
Grundlage eines Lernkonzepts, das auf einer lexikalischen Suche
im Arabischen und auf einer morphologischen Analyse des Arabischen
beruht. Das disambiguierende System wird an einem Korpus aus diakritischem
arabischen Text trainiert, der zu einer spezifischen Domäne gehört.
-
STAND DER TECHNIK
-
Das
arabische Alphabet besteht aus achtundzwanzig Buchstaben, von denen
fünfundzwanzig Konsonanten
darstellen. Die übrigen
drei Buchstaben stellen die langen Vokale des Arabischen dar. Im Arabischen
gibt es sechs Vokale, die in drei aus einem kurzen und einem langen
Vokal bestehende Paare unterteilt sind. Jedes Paar entspricht einem anderen
phonetischen Wert. Ein markantes Merkmal des arabischen Schriftsystems
besteht darin, dass kurze Vokale nicht durch die Buchstaben des
Alphabets dargestellt werden. Sie werden stattdessen durch so genannte
diakritische Zeichen gekennzeichnet, bei denen es sich um kurze
Striche (Markierungen) handelt, die entweder über oder unter dem voranstehenden
Konsonanten platziert sind. Der Prozess, einem nicht gekennzeichneten
Text alle diakritischen Zeichen hinzuzufügen, wird als Diacritization („Diakritisierung") bezeichnet.
-
Moderne
geschriebene arabische Texte sind fast nie diakritisch (in einer
Schrift verfasst, welche die Vokale der Wörter auslässt). Muttersprachler sind jedoch
im Allgemeinen in der Lage, Wörter
in einem Text auf Grund des Kontextes und ihrer Kenntnis der Grammatik
und des Wortschatzes der Sprache zu vokalisieren (in die diakritische
Form zu bringen).
-
Wenn
in einem arabischen Text keine Vokalzeichen verwendet werden, gibt
es eine Vielzahl möglicher
Vokalkombinationen für
den Satz aus Zeichen, die das Wort bilden. Einerseits sind alle
diese Kombinationen in dem Sinne korrekt, dass die Form gültig ist,
andererseits sind jedoch nicht alle von ihnen in dem Kontext korrekt,
in dem das Wort verwendet wird. Da viele Wörter mit unterschiedlichen
Vokalmustern in einer vokallosen Umgebung identisch erscheinen können, besteht
eine erhebliche Ambiguität auf
der Wortebene (lexikalische Ambiguität). Jüngste Studien ergaben, dass
etwa 74 % der Wörter
in einem arabischen Text lexikalisch ambig sind. Diese lexikalische
Ambiguität
muss durch kontextuelle Informationen aufgelöst werden, die alle korrekten
diakritischen Zeichen arabischer Wörter bis auf diejenigen diakritischen
Zeichen am Wortende identifizieren, die den Kasus angebende Endungen
anzeigen (ihre Verwendung ist je nach Sprecher und Förmlichkeit
der Sprache in gewisser Hinsicht optional).
-
Die
lexikalische Ambiguität
des Arabischen ist u. a. auf die komplexe Morphologie des Arabischen
zurückzuführen. Studien
zeigen, dass pro arabischem Wort durchschnittlich etwa fünf unterschiedliche
morphologische Analysen möglich
sind. Präfixe und
Suffixe können
Wörtern
durch Verkettung angehängt
werden. Eine einzelne Zeichenfolge kann Verbflexionen, Präpositionen, Pronomen
und Konnektoren umfassen. Daher ist die lexikalische Disambiguierung
bei Wörtern
und die Vokalwiederherstellung in arabischem Text eine herausfordernde
Aufgabe.
-
Ohne
die Disambiguierung bei arabischen Wörtern ist es unmöglich, die
Aussprache eines nicht diakritischen Texts zu bestimmen. Es gibt
viele Wörter,
für die
mehrere Aussprachen möglich
sind, und Softwareanwendungen wie Text-To-Speech-Systeme (TTS) für Arabisch
können
nicht ordnungsgemäß funktionieren.
Das Wiederherstellen der diakritischen Form arabischer Schriften
wäre neben
der lexikalischen Disambiguierung ebenfalls sehr hilfreich für Nicht-Muttersprachler
und könnte
dazu beitragen, Anfängertexte
wie Schulbücher
für Kinder
und Gedichtbände
in die diakritische Form zu bringen – eine Aufgabe, die gegenwärtig manuell
ausgeführt
wird.
-
Das
Problem der aktuellen Verfahren zur automatischen Hinzufügung diakritischer
Zeichen zu arabischen Schriften besteht darin, dass die lexikalische
Ambiguität
des Worts die Genauigkeit der „Diakritisierung" von Wörtern stark
herabsetzt.
-
Zu
den aktuellen Konzepten gehören
- • auf
der Statistik basierende Konzepte: ein auf Bigrammen basierendes
Hidden-Markov-Modell dient zur Erfassung kontextueller Informationen und
zur Wiederherstellung von Vokalen. Das Problem, dass unbekannte
Wörter
nicht im Trainingskorpus gefunden werden, wird jedoch nicht berücksichtigt.
Die Verwendung eines ausreichend großen, modernen Korpus diakritischer
Wörter führt zu einer
starken zahlenmäßigen Zunahme der
Anzahl der Modellparameter, da diese quadratisch in der Anzahl der
Wortarten im Trainingskorpus sind.
- • auf
der Morphologie basierende Konzepte: Diese Techniken sind wortbasiert
und können
Wörter nicht
im Kontext disambiguieren. Sie geben für jedes Wort im Text alle möglichen
Analysen aus und beruhen auf handgeschriebenen Regeln und einem
Lexikon, welche die Morphologie des Arabischen regeln. Es ist jedoch
immer noch unklar, wie anhand eines gegebenen Kontextes die wahrscheinlichste
grammatische Beschreibung gewählt
werden kann.
-
Ein
Beispiel findet sich in Debili et. al., „Voyellation automatique de
l'arabe", Computational Approaches
to Semitic Languages Workshop Proc., 1998, S. 42–49.
-
Eine
erfolgreiche Vokalwiederherstellung in arabischer Schrift ist für wichtige
Anwendungen, wie z. B. für
das Arabische vorgesehene Text-To-Speech-Systeme (TTS), unerlässlich.
Daher wird ein solides Verfahren benötigt, das unempfindlich gegenüber nicht
erkannten Wörtern
im Trainingskorpus ist und die lexikalische Ambiguität von Wörtern in
arabischen Texten auflösen
kann.
-
ÜBERBLICK ÜBER DIE ERFINDUNG
-
Die
vorliegende Erfindung ist auf ein Verfahren, ein System und ein
Computerprogramm ausgerichtet, wie sie in den unabhängigen Ansprüchen definiert
sind.
-
Weitere
Ausführungsarten
der Erfindung werden in den beigefügten Unteransprüchen vorgestellt.
-
Die
vorliegende Erfindung schlägt
eine Lösung
für das
Problem der lexikalischen Disambiguierung bei Wörtern in arabischen Texten
vor. Diese Lösung
basiert auf domänenspezifischem
Textwissen, das die automatische Vokalwiederherstellung bei Schriften
des modernen Standardarabisch erleichtert. Inhaltlich einander ähnelnde
Texte, die auf ein spezifisches Gebiet beschränkt sind oder denen ein gemeinsames
Wissen zugrunde liegt, lassen sich in einer spezifischen Kategorie
oder in einer spezifischen Domäne
gruppieren (Beispiele für
spezifische Domänen:
Sport, Kunst, Wirtschaft, Wissenschaft ...).
-
Die
vorliegende Erfindung beschreibt ein Verfahren, ein System und ein
Computerprogramm zur lexikalischen Disambiguierung bei nicht diakritischen
arabischen Wörtern
in einem Text auf der Grundlage eines Lernkonzepts, das auf
- • einer
lexikalischen Suche im Arabischen und
- • einer
morphologischen Analyse des Arabischen
beruht, um das System
an einem Korpus aus diakritischem arabischen Text zu trainieren,
der zu einer spezifischen Domäne
gehört.
Dadurch werden die kontextuellen Beziehungen der zu einer spezifischen Domäne gehörenden Wörter basierend
auf der gültigen
Annahme identifiziert, dass es im Vergleich zu einem freien Text
beim Gebrauch der Wörter
und ihrer morphologischen Varianten innerhalb einer Domäne weniger
lexikalische Variabilität
gibt.
-
Die
vorliegende Erfindung bietet folgende Hauptvorteile:
- • 1.
Arabische Wörter
in einem domänenspezifischen
Text werden mit großer
Genauigkeit lexikalisch disambiguiert, sodass ein korrektes Vokalmuster
identifiziert werden kann. Dies führt zu einer signifikanten
Verbesserung der Genauigkeit bei der automatischen Wiederherstellung
von Vokalen der Wörter
im Text. Die mithilfe der vorliegenden Erfindung erreichte Genauigkeit
bei der „Diakritisierung" von Wörtern übertrifft
die Genauigkeit anderer zurzeit gängiger Verfahren zur „Diakritisierung".
- • 2.
Das in aktuellen Systemen für
die automatische Vokalwiederherstellung beobachtete Problem der
Ungenauigkeit bei der „Diakritisierung" von Wörtern aufgrund
von unbekannten Wörtern im
Trainingskorpus wird basierend auf den morphologischen Varianten
unbekannter Wörter
innerhalb der Trainingsdaten deutlich abgeschwächt.
- • 3.
Das Verfahren und das System lassen sich generell auf andere semitische
Sprachen übertragen.
-
Das
Vorhergehende sowie andere Aufgaben, Merkmale und Vorteile dieser
Erfindung lassen sich unter Bezugnahme auf die folgenden Spezifizierungen,
Ansprüche
und Zeichnungen besser nachvollziehen.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
Die
neuen und erfindungsgemäßen Merkmale,
die als Merkmale der Erfindung gelten, sind in den beigefügten Ansprüchen dargestellt.
Die Erfindung selbst sowie deren bevorzugte Ausführungsart, weitere Aufgaben
und Vorteile werden jedoch aus der folgenden detaillierten Beschreibung
einer veranschaulichenden, detaillierten Ausführungsart am besten verständlich,
die in Verbindung mit den beigefügten
Zeichnungen zu lesen ist. Es zeigen:
-
1 eine
allgemeine Ansicht des Systems gemäß der vorliegenden Erfindung,
-
2 ein
Ablaufdiagramm, das die Schritte des Verfahrens gemäß der vorliegenden
Erfindung zum Generieren eines domänenspezifischen arabischen
Wortschatzes darstellt,
-
3 ein
Ablaufdiagramm, das die Schritte des Verfahrens gemäß der vorliegenden
Erfindung zur automatischen Disambiguierung und zur Wiederherstellung
von Vokalen darstellt.
-
BEVORZUGTE AUSFÜHRUNGSART
DER ERFINDUNG
-
Die
folgende Beschreibung soll dem Fachmann die Nutzung der Erfindung
ermöglichen
und wird im Kontext einer Patentanmeldung und deren Erfordernissen
dargelegt. Verschiedene Modifikationen der bevorzugten Ausführungsart
und die hier beschriebenen generischen Prinzipien und Merkmale sind
für den
Fachmann ohne Weiteres ersichtlich. Folglich soll die vorliegende
Erfindung nicht auf die dargestellte Ausführungsart beschränkt sein,
sondern ihr ist der Geltungsbereich zuzuordnen, der von den beigefügten Ansprüchen definiert
wird.
-
A/ System zur lexikalischen Disambiguierung
bei nicht diakritischen arabischen Wörtern
-
1 ist
eine allgemeine Sicht auf das erfindungsgemäße System zur lexikalischen
Disambiguierung bei nicht diakritischen arabischen Wörtern in
einem Text auf der Grundlage eines Lernkonzepts, das auf einer Suche
im arabischen Wortschatz und auf einer morphologischen Analyse (104)
des Arabischen beruht. Das System wird an einem Korpus (103)
aus diakritischem arabischen Text trainiert, der zu einer spezifischen
Domäne
gehört.
-
B/ Verfahren zur lexikalischen Disambiguierung
bei nicht diakritischen arabischen Wörtern
-
Das
Verfahren gemäß der vorliegenden
Erfindung umfasst zwei Hauptphasen:
- 1. eine
Phase der Generierung eines domänenspezifischen
arabischen Wortschatzes,
- 2. eine Phase der automatischen Disambiguierung und der Vokalwiederherstellung.
-
1. Generierung eines domänenspezifischen
arabischen Wortschatzes
-
2 veranschaulicht
die Phase der Generierung eines domänenspezifischen arabischen Wortschatzes.
Diese Phase wird von dem in 1 dargestellten
Subsystem (101) zur Generierung eines domänenspezifischen
Wortschatzes ausgeführt. In
dieser ersten Phase wird ein diakritischer Trainingskorpus (103)
des Arabischen (etwa einige Zehntausend Wörter umfassend), der zu einer
spezifischen Domäne
gehört,
basierend auf der gültigen
Annahme verwendet, dass es im Vergleich zu einem freien Text beim
Gebrauch der Wörter
und ihrer morphologischen Varianten innerhalb einer Domäne weniger
lexikalische Variabilität
gibt.
-
Wie
in 2 dargestellt, werden für jedes Wort in diesem diakritischen
arabischen Text die folgenden Schritte ausgeführt:
- • Schritt 201:
Entfernen der diakritischen Zeichen aus dem Wort.
- • Schritt 202:
Abrufen aller möglichen
gültigen
Vokalisierungsmuster für
das Wort mithilfe einer Komponente (104) zur morphologischen
Analyse und eines generischen arabischen Wortschatzes (105).
Jedes Vokalisierungsmuster gehört
zu einem anderen Stamm, obwohl einige Stämme dieselbe Sequenz arabischer
Buchstaben in einer vokallosen Anordnung aufweisen können.
- • Schritt 203:
Auswählen
desjenigen Musters (der in Schritt 202 abgerufenen Vokalisierungsmuster),
das mit dem Vokalisierungsmuster des Worts übereinstimmt, bevor dessen
diakritische Zeichen in Schritt 201 oben entfernt wurden.
- • Schritt 204:
- • Identifizieren
des Stammes im arabischen Wortschatz (105), der zu dem
Vokalisierungsmuster, das mit dem Vokalisierungsmuster des Worts übereinstimmt,
gehört,
mithilfe einer Komponente (104) zur morphologischen Analyse,
- • Aufzeichnen,
wie häufig
der Vokalisierungsstamm im diakritischen Trainingskorpus vorkommt
(wie häufig
derselbe Stamm im diakritischen Trainingskorpus identifiziert wird).
Hinweis:
Der Schritt, für
jedes Wort aufzuzeichnen, wie häufig
der Vokalisierungsstamm im diakritischen Trainingskorpus vorkommt,
ist notwendig, um alle Wörter
im nicht diakritischen Text zu disambiguieren und in die diakritische
Form zu bringen. Das Disambiguieren von Verben ist ein Sonderfall,
da das Genus verbi in einem nicht diakritischen arabischen Text
ambig ist, und wirkt sich auf die „Diakritisierung" aus. Daher ist es
zum Disambiguieren des Genus verbi nicht diakritischer Verben ebenfalls
notwendig, für
jedes Verb aufzuzeichnen, wie häufig
das Genus verbi im diakritischen Trainingskorpus vorkommt.
- • Schritt 205:
Falls der Stamm für
ein Verb ist (wie von der Komponente zur morphologischen Analyse
identifiziert),
- • Bestimmen
des Genus verbi (Aktiv/Passiv) des Verbstammes wie vom Vokalisierungsmuster
für das
Wort erkannt,
- • Aufzeichnen,
wie häufig
das Genus verbi des Verbstammes im diakritischen Trainingskorpus (103)
vorkommt (wie oft das Genus verbi des Verbstammes im diakritischen
Trainingskorpus identifiziert wird).
Hinweis: Grammatisch
kann ein Verb das Genus verbi „Aktiv" oder „Passiv" aufweisen. Das Genus verbi
des Verbs entspricht der Form, die das Verb in Abhängigkeit
davon annehmen kann, ob das Subjekt des Verbs agiert oder der Handlung
unterliegt.
-
Nach
dem Ausführen
der oben genannten Schritte für
alle Wörter
des diakritischen, domänenspezifischen
Trainingskorpus (103) des Arabischen:
- • Schritt 206:
Belassen ausschließlich
folgender Einträge
im arabischen Wortschatz (106):
- • derjenigen
Stämme
mit der größten Anzahl
im diakritischen Trainingskorpus (103) gefundener morphologischer
Varianten, wenn mehrere Stämme
mit identischen Zeichenfolgen existieren;
- • derjenigen
Stämme,
die keine andere identische Zeichenfolge aufweisen;
- • jeden
Stammes, der zufällig
unter Stämmen
ausgewählt
wurde, die nicht mit Wörtern
im Trainingskorpus (103) verwandt sind und mehrere identische
Zeichenfolgen aufweisen.
Hinweis: Bei den morphologischen
Varianten handelt es sich um die verschiedenen morphologisch verwandten
Wörtern,
die im diakritischen Trainingskorpus gefunden werden (diejenigen
Wörter, die
denselben Stamm aufweisen).
- • Schritt 207:
Löschen
aller anderen Stamm-Einträge
aus dem Wortschatz. Somit wird aus dem generischen Wortschatz (105)
des Arabischen ein domänenspezifischer
Wortschatz (106) generiert.
- • Schritt 208:
Schließlich
Generieren einer Liste, welche die Stämme der im diakritischen Trainingskorpus
(103) vorkommenden Verben und für jeden Stamm eine Angabe des
wahrscheinlichsten Genus verbi enthält (Genus verbi, das am häufigsten
im Trainingskorpus vorkommt).
-
2. Automatische Disambiguierung und Vokalwiederherstellung
-
3 stellt
die Phase der automatischen Disambiguierung bei nicht diakritischen
arabischen Wörtern
in einem Text und der Wiederherstellung von Vokalen dar. Diese Phase
wird von dem in 1 dargestellten Subsystem (102)
zur automatischen Disambiguierung und Vokalwiederherstellung ausgeführt.
-
Die
automatische „Diakritisierung" des Arabischen basiert
auf dem folgenden Modell für
arabische Wörter:
Wort = Präfix
(eins oder mehr oder null) + Stamm + Suffix (eins oder mehr oder
null).
-
Ein
Stamm wurde von einer Wurzel entweder abgeleitet oder nicht abgeleitet.
Das Vokalmuster eines nicht abgeleiteten Stammes wird zusammen mit dem
Stamm selbst im Wortschatz gespeichert. Abgeleitete Stämme folgen
Mustern, welche die „Diakritisierung" ihrer Zeichen definieren,
und werden über eine
Komponente (104) zur morphologischen Analyse bestimmt (mit
Ausnahme von diakritischen Zeichen am Wortende, die den grammatischen
Kasus angebende Endungen anzeigen). Die „Diakritisierung" der Affixe (Präfix und
Suffixe) ist festgeschrieben. Das diakritische Wort ist die Verkettung
von diakritischen Präfixen,
Stamm und Suffixen.
-
Wenn
ein domänenspezifischer
arabischer Wortschatz (106) und eine Datei vorhanden sind,
die das wahrscheinlichste (häufigste)
Genus verbi jedes Verbs in der Domäne (107) enthält, umfasst
das Verfahren zur automatischen Disambiguierung bei nicht diakritischen
arabischen Wörtern
in einem Text (108) und zur Vokalwiederherstellung für jedes
Wort in einem nicht diakritischen arabischen Text (108)
die folgenden Schritte:
- • Schritt 301: Als
Erstes Segmentieren des Worts (108) in einen Stamm, ein
Präfix
und ein Suffix mithilfe einer Komponente (104) zur morphologischen
Analyse.
- • Schritt 302:
Anschließend
Disambiguieren des Worts, da der domänenspezifische Wortschatz (106)
eindeutige Vokalisierungsmuster für jeden Stamm enthält, und
- • Schritt 303:
Bestimmen des Vokalisierungsmusters des Stammes.
- • Schritt 304:
Schließlich
vollständige „Diakritisierung" des Worts (109)
durch Hinzufügen
der diakritischen Präfixe
und Suffixe zum diakritischen Stamm gemäß dem oben beschriebenen Modell für die „Diakritisierung".
-
Die „Diakritisierung" eines Verbs basiert
auf dem wahrscheinlichsten (häufigsten)
Genus verbi dieses Verbs im diakritischen Trainingskorpus. Das wahrscheinlichste
Genus verbi wird aus der zuvor generierten Liste der Verbstämme (107)
abgerufen. Diese Liste enthält
für jeden
Verbstamm das Genus verbi, das am häufigsten im diakritischen Trainingskorpus
vorkommt. Die „Diakritisierung" eines Verbs hängt davon
ab, ob es sich bei dem Genus verbi des Verbs um Aktiv oder Passiv
handelt. Die „Diakritisierung" entsprechend dem
im Trainingskorpus am häufigsten
vorkommenden Genus verbi wird jedem nicht diakritischen Verb im
Text zugewiesen.
-
An
Wortenden befindliche diakritische Zeichen, die den grammatischen
Kasus angebende Endungen anzeigen, sind je nach Sprecher und Förmlichkeit
der Sprache in gewisser Hinsicht optional. Sie könnten mithilfe einer Komponente
zur Syntaxanalyse bestimmt werden, was außerhalb des Geltungsbereichs
dieser Erfindung liegt.
-
In
einer bevorzugten Ausführungsart
umfasst das erfindungsgemäße System
zur lexikalischen Disambiguierung bei nicht diakritischen arabischen
Wörtern
in einem Text ein Computersystem und ein Computerprogramm, um bei
der Ausführung des
Computerprogramms in dem Computersystem die Schritte des Verfahrens
erfindungsgemäß auszuführen.
-
Obwohl
die Erfindung insbesondere in Bezug auf eine bevorzugte Ausführungsart
dargestellt und beschrieben wurde, lässt sich nachvollziehen, dass
verschiedene Änderungen
in Form und Detail vorgenommen werden können, ohne vom Geltungsbereich
der Erfindung abzuweichen, der in den beigefügten Ansprüchen definiert ist.