DE602005001840T2 - System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text - Google Patents

System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text Download PDF

Info

Publication number
DE602005001840T2
DE602005001840T2 DE602005001840T DE602005001840T DE602005001840T2 DE 602005001840 T2 DE602005001840 T2 DE 602005001840T2 DE 602005001840 T DE602005001840 T DE 602005001840T DE 602005001840 T DE602005001840 T DE 602005001840T DE 602005001840 T2 DE602005001840 T2 DE 602005001840T2
Authority
DE
Germany
Prior art keywords
diacritic
domain
specific
word
arabic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005001840T
Other languages
English (en)
Other versions
DE602005001840D1 (de
Inventor
Hisham Dokki El-Shishiny
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE602005001840D1 publication Critical patent/DE602005001840D1/de
Application granted granted Critical
Publication of DE602005001840T2 publication Critical patent/DE602005001840T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Character Input (AREA)

Description

  • TECHNISCHES GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft die arabische Sprache und insbesondere ein System, ein Verfahren und ein Computerprogramm zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text auf der Grundlage eines Lernkonzepts, das auf einer lexikalischen Suche im Arabischen und auf einer morphologischen Analyse des Arabischen beruht. Das disambiguierende System wird an einem Korpus aus diakritischem arabischen Text trainiert, der zu einer spezifischen Domäne gehört.
  • STAND DER TECHNIK
  • Das arabische Alphabet besteht aus achtundzwanzig Buchstaben, von denen fünfundzwanzig Konsonanten darstellen. Die übrigen drei Buchstaben stellen die langen Vokale des Arabischen dar. Im Arabischen gibt es sechs Vokale, die in drei aus einem kurzen und einem langen Vokal bestehende Paare unterteilt sind. Jedes Paar entspricht einem anderen phonetischen Wert. Ein markantes Merkmal des arabischen Schriftsystems besteht darin, dass kurze Vokale nicht durch die Buchstaben des Alphabets dargestellt werden. Sie werden stattdessen durch so genannte diakritische Zeichen gekennzeichnet, bei denen es sich um kurze Striche (Markierungen) handelt, die entweder über oder unter dem voranstehenden Konsonanten platziert sind. Der Prozess, einem nicht gekennzeichneten Text alle diakritischen Zeichen hinzuzufügen, wird als Diacritization („Diakritisierung") bezeichnet.
  • Moderne geschriebene arabische Texte sind fast nie diakritisch (in einer Schrift verfasst, welche die Vokale der Wörter auslässt). Muttersprachler sind jedoch im Allgemeinen in der Lage, Wörter in einem Text auf Grund des Kontextes und ihrer Kenntnis der Grammatik und des Wortschatzes der Sprache zu vokalisieren (in die diakritische Form zu bringen).
  • Wenn in einem arabischen Text keine Vokalzeichen verwendet werden, gibt es eine Vielzahl möglicher Vokalkombinationen für den Satz aus Zeichen, die das Wort bilden. Einerseits sind alle diese Kombinationen in dem Sinne korrekt, dass die Form gültig ist, andererseits sind jedoch nicht alle von ihnen in dem Kontext korrekt, in dem das Wort verwendet wird. Da viele Wörter mit unterschiedlichen Vokalmustern in einer vokallosen Umgebung identisch erscheinen können, besteht eine erhebliche Ambiguität auf der Wortebene (lexikalische Ambiguität). Jüngste Studien ergaben, dass etwa 74 % der Wörter in einem arabischen Text lexikalisch ambig sind. Diese lexikalische Ambiguität muss durch kontextuelle Informationen aufgelöst werden, die alle korrekten diakritischen Zeichen arabischer Wörter bis auf diejenigen diakritischen Zeichen am Wortende identifizieren, die den Kasus angebende Endungen anzeigen (ihre Verwendung ist je nach Sprecher und Förmlichkeit der Sprache in gewisser Hinsicht optional).
  • Die lexikalische Ambiguität des Arabischen ist u. a. auf die komplexe Morphologie des Arabischen zurückzuführen. Studien zeigen, dass pro arabischem Wort durchschnittlich etwa fünf unterschiedliche morphologische Analysen möglich sind. Präfixe und Suffixe können Wörtern durch Verkettung angehängt werden. Eine einzelne Zeichenfolge kann Verbflexionen, Präpositionen, Pronomen und Konnektoren umfassen. Daher ist die lexikalische Disambiguierung bei Wörtern und die Vokalwiederherstellung in arabischem Text eine herausfordernde Aufgabe.
  • Ohne die Disambiguierung bei arabischen Wörtern ist es unmöglich, die Aussprache eines nicht diakritischen Texts zu bestimmen. Es gibt viele Wörter, für die mehrere Aussprachen möglich sind, und Softwareanwendungen wie Text-To-Speech-Systeme (TTS) für Arabisch können nicht ordnungsgemäß funktionieren. Das Wiederherstellen der diakritischen Form arabischer Schriften wäre neben der lexikalischen Disambiguierung ebenfalls sehr hilfreich für Nicht-Muttersprachler und könnte dazu beitragen, Anfängertexte wie Schulbücher für Kinder und Gedichtbände in die diakritische Form zu bringen – eine Aufgabe, die gegenwärtig manuell ausgeführt wird.
  • Das Problem der aktuellen Verfahren zur automatischen Hinzufügung diakritischer Zeichen zu arabischen Schriften besteht darin, dass die lexikalische Ambiguität des Worts die Genauigkeit der „Diakritisierung" von Wörtern stark herabsetzt.
  • Zu den aktuellen Konzepten gehören
    • • auf der Statistik basierende Konzepte: ein auf Bigrammen basierendes Hidden-Markov-Modell dient zur Erfassung kontextueller Informationen und zur Wiederherstellung von Vokalen. Das Problem, dass unbekannte Wörter nicht im Trainingskorpus gefunden werden, wird jedoch nicht berücksichtigt. Die Verwendung eines ausreichend großen, modernen Korpus diakritischer Wörter führt zu einer starken zahlenmäßigen Zunahme der Anzahl der Modellparameter, da diese quadratisch in der Anzahl der Wortarten im Trainingskorpus sind.
    • • auf der Morphologie basierende Konzepte: Diese Techniken sind wortbasiert und können Wörter nicht im Kontext disambiguieren. Sie geben für jedes Wort im Text alle möglichen Analysen aus und beruhen auf handgeschriebenen Regeln und einem Lexikon, welche die Morphologie des Arabischen regeln. Es ist jedoch immer noch unklar, wie anhand eines gegebenen Kontextes die wahrscheinlichste grammatische Beschreibung gewählt werden kann.
  • Ein Beispiel findet sich in Debili et. al., „Voyellation automatique de l'arabe", Computational Approaches to Semitic Languages Workshop Proc., 1998, S. 42–49.
  • Eine erfolgreiche Vokalwiederherstellung in arabischer Schrift ist für wichtige Anwendungen, wie z. B. für das Arabische vorgesehene Text-To-Speech-Systeme (TTS), unerlässlich. Daher wird ein solides Verfahren benötigt, das unempfindlich gegenüber nicht erkannten Wörtern im Trainingskorpus ist und die lexikalische Ambiguität von Wörtern in arabischen Texten auflösen kann.
  • ÜBERBLICK ÜBER DIE ERFINDUNG
  • Die vorliegende Erfindung ist auf ein Verfahren, ein System und ein Computerprogramm ausgerichtet, wie sie in den unabhängigen Ansprüchen definiert sind.
  • Weitere Ausführungsarten der Erfindung werden in den beigefügten Unteransprüchen vorgestellt.
  • Die vorliegende Erfindung schlägt eine Lösung für das Problem der lexikalischen Disambiguierung bei Wörtern in arabischen Texten vor. Diese Lösung basiert auf domänenspezifischem Textwissen, das die automatische Vokalwiederherstellung bei Schriften des modernen Standardarabisch erleichtert. Inhaltlich einander ähnelnde Texte, die auf ein spezifisches Gebiet beschränkt sind oder denen ein gemeinsames Wissen zugrunde liegt, lassen sich in einer spezifischen Kategorie oder in einer spezifischen Domäne gruppieren (Beispiele für spezifische Domänen: Sport, Kunst, Wirtschaft, Wissenschaft ...).
  • Die vorliegende Erfindung beschreibt ein Verfahren, ein System und ein Computerprogramm zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text auf der Grundlage eines Lernkonzepts, das auf
    • • einer lexikalischen Suche im Arabischen und
    • • einer morphologischen Analyse des Arabischen
    beruht, um das System an einem Korpus aus diakritischem arabischen Text zu trainieren, der zu einer spezifischen Domäne gehört. Dadurch werden die kontextuellen Beziehungen der zu einer spezifischen Domäne gehörenden Wörter basierend auf der gültigen Annahme identifiziert, dass es im Vergleich zu einem freien Text beim Gebrauch der Wörter und ihrer morphologischen Varianten innerhalb einer Domäne weniger lexikalische Variabilität gibt.
  • Die vorliegende Erfindung bietet folgende Hauptvorteile:
    • • 1. Arabische Wörter in einem domänenspezifischen Text werden mit großer Genauigkeit lexikalisch disambiguiert, sodass ein korrektes Vokalmuster identifiziert werden kann. Dies führt zu einer signifikanten Verbesserung der Genauigkeit bei der automatischen Wiederherstellung von Vokalen der Wörter im Text. Die mithilfe der vorliegenden Erfindung erreichte Genauigkeit bei der „Diakritisierung" von Wörtern übertrifft die Genauigkeit anderer zurzeit gängiger Verfahren zur „Diakritisierung".
    • • 2. Das in aktuellen Systemen für die automatische Vokalwiederherstellung beobachtete Problem der Ungenauigkeit bei der „Diakritisierung" von Wörtern aufgrund von unbekannten Wörtern im Trainingskorpus wird basierend auf den morphologischen Varianten unbekannter Wörter innerhalb der Trainingsdaten deutlich abgeschwächt.
    • • 3. Das Verfahren und das System lassen sich generell auf andere semitische Sprachen übertragen.
  • Das Vorhergehende sowie andere Aufgaben, Merkmale und Vorteile dieser Erfindung lassen sich unter Bezugnahme auf die folgenden Spezifizierungen, Ansprüche und Zeichnungen besser nachvollziehen.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die neuen und erfindungsgemäßen Merkmale, die als Merkmale der Erfindung gelten, sind in den beigefügten Ansprüchen dargestellt. Die Erfindung selbst sowie deren bevorzugte Ausführungsart, weitere Aufgaben und Vorteile werden jedoch aus der folgenden detaillierten Beschreibung einer veranschaulichenden, detaillierten Ausführungsart am besten verständlich, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist. Es zeigen:
  • 1 eine allgemeine Ansicht des Systems gemäß der vorliegenden Erfindung,
  • 2 ein Ablaufdiagramm, das die Schritte des Verfahrens gemäß der vorliegenden Erfindung zum Generieren eines domänenspezifischen arabischen Wortschatzes darstellt,
  • 3 ein Ablaufdiagramm, das die Schritte des Verfahrens gemäß der vorliegenden Erfindung zur automatischen Disambiguierung und zur Wiederherstellung von Vokalen darstellt.
  • BEVORZUGTE AUSFÜHRUNGSART DER ERFINDUNG
  • Die folgende Beschreibung soll dem Fachmann die Nutzung der Erfindung ermöglichen und wird im Kontext einer Patentanmeldung und deren Erfordernissen dargelegt. Verschiedene Modifikationen der bevorzugten Ausführungsart und die hier beschriebenen generischen Prinzipien und Merkmale sind für den Fachmann ohne Weiteres ersichtlich. Folglich soll die vorliegende Erfindung nicht auf die dargestellte Ausführungsart beschränkt sein, sondern ihr ist der Geltungsbereich zuzuordnen, der von den beigefügten Ansprüchen definiert wird.
  • A/ System zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern
  • 1 ist eine allgemeine Sicht auf das erfindungsgemäße System zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text auf der Grundlage eines Lernkonzepts, das auf einer Suche im arabischen Wortschatz und auf einer morphologischen Analyse (104) des Arabischen beruht. Das System wird an einem Korpus (103) aus diakritischem arabischen Text trainiert, der zu einer spezifischen Domäne gehört.
  • B/ Verfahren zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern
  • Das Verfahren gemäß der vorliegenden Erfindung umfasst zwei Hauptphasen:
    • 1. eine Phase der Generierung eines domänenspezifischen arabischen Wortschatzes,
    • 2. eine Phase der automatischen Disambiguierung und der Vokalwiederherstellung.
  • 1. Generierung eines domänenspezifischen arabischen Wortschatzes
  • 2 veranschaulicht die Phase der Generierung eines domänenspezifischen arabischen Wortschatzes. Diese Phase wird von dem in 1 dargestellten Subsystem (101) zur Generierung eines domänenspezifischen Wortschatzes ausgeführt. In dieser ersten Phase wird ein diakritischer Trainingskorpus (103) des Arabischen (etwa einige Zehntausend Wörter umfassend), der zu einer spezifischen Domäne gehört, basierend auf der gültigen Annahme verwendet, dass es im Vergleich zu einem freien Text beim Gebrauch der Wörter und ihrer morphologischen Varianten innerhalb einer Domäne weniger lexikalische Variabilität gibt.
  • Wie in 2 dargestellt, werden für jedes Wort in diesem diakritischen arabischen Text die folgenden Schritte ausgeführt:
    • • Schritt 201: Entfernen der diakritischen Zeichen aus dem Wort.
    • • Schritt 202: Abrufen aller möglichen gültigen Vokalisierungsmuster für das Wort mithilfe einer Komponente (104) zur morphologischen Analyse und eines generischen arabischen Wortschatzes (105). Jedes Vokalisierungsmuster gehört zu einem anderen Stamm, obwohl einige Stämme dieselbe Sequenz arabischer Buchstaben in einer vokallosen Anordnung aufweisen können.
    • • Schritt 203: Auswählen desjenigen Musters (der in Schritt 202 abgerufenen Vokalisierungsmuster), das mit dem Vokalisierungsmuster des Worts übereinstimmt, bevor dessen diakritische Zeichen in Schritt 201 oben entfernt wurden.
    • • Schritt 204:
    • • Identifizieren des Stammes im arabischen Wortschatz (105), der zu dem Vokalisierungsmuster, das mit dem Vokalisierungsmuster des Worts übereinstimmt, gehört, mithilfe einer Komponente (104) zur morphologischen Analyse,
    • • Aufzeichnen, wie häufig der Vokalisierungsstamm im diakritischen Trainingskorpus vorkommt (wie häufig derselbe Stamm im diakritischen Trainingskorpus identifiziert wird). Hinweis: Der Schritt, für jedes Wort aufzuzeichnen, wie häufig der Vokalisierungsstamm im diakritischen Trainingskorpus vorkommt, ist notwendig, um alle Wörter im nicht diakritischen Text zu disambiguieren und in die diakritische Form zu bringen. Das Disambiguieren von Verben ist ein Sonderfall, da das Genus verbi in einem nicht diakritischen arabischen Text ambig ist, und wirkt sich auf die „Diakritisierung" aus. Daher ist es zum Disambiguieren des Genus verbi nicht diakritischer Verben ebenfalls notwendig, für jedes Verb aufzuzeichnen, wie häufig das Genus verbi im diakritischen Trainingskorpus vorkommt.
    • • Schritt 205: Falls der Stamm für ein Verb ist (wie von der Komponente zur morphologischen Analyse identifiziert),
    • • Bestimmen des Genus verbi (Aktiv/Passiv) des Verbstammes wie vom Vokalisierungsmuster für das Wort erkannt,
    • • Aufzeichnen, wie häufig das Genus verbi des Verbstammes im diakritischen Trainingskorpus (103) vorkommt (wie oft das Genus verbi des Verbstammes im diakritischen Trainingskorpus identifiziert wird). Hinweis: Grammatisch kann ein Verb das Genus verbi „Aktiv" oder „Passiv" aufweisen. Das Genus verbi des Verbs entspricht der Form, die das Verb in Abhängigkeit davon annehmen kann, ob das Subjekt des Verbs agiert oder der Handlung unterliegt.
  • Nach dem Ausführen der oben genannten Schritte für alle Wörter des diakritischen, domänenspezifischen Trainingskorpus (103) des Arabischen:
    • • Schritt 206: Belassen ausschließlich folgender Einträge im arabischen Wortschatz (106):
    • • derjenigen Stämme mit der größten Anzahl im diakritischen Trainingskorpus (103) gefundener morphologischer Varianten, wenn mehrere Stämme mit identischen Zeichenfolgen existieren;
    • • derjenigen Stämme, die keine andere identische Zeichenfolge aufweisen;
    • • jeden Stammes, der zufällig unter Stämmen ausgewählt wurde, die nicht mit Wörtern im Trainingskorpus (103) verwandt sind und mehrere identische Zeichenfolgen aufweisen. Hinweis: Bei den morphologischen Varianten handelt es sich um die verschiedenen morphologisch verwandten Wörtern, die im diakritischen Trainingskorpus gefunden werden (diejenigen Wörter, die denselben Stamm aufweisen).
    • • Schritt 207: Löschen aller anderen Stamm-Einträge aus dem Wortschatz. Somit wird aus dem generischen Wortschatz (105) des Arabischen ein domänenspezifischer Wortschatz (106) generiert.
    • • Schritt 208: Schließlich Generieren einer Liste, welche die Stämme der im diakritischen Trainingskorpus (103) vorkommenden Verben und für jeden Stamm eine Angabe des wahrscheinlichsten Genus verbi enthält (Genus verbi, das am häufigsten im Trainingskorpus vorkommt).
  • 2. Automatische Disambiguierung und Vokalwiederherstellung
  • 3 stellt die Phase der automatischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text und der Wiederherstellung von Vokalen dar. Diese Phase wird von dem in 1 dargestellten Subsystem (102) zur automatischen Disambiguierung und Vokalwiederherstellung ausgeführt.
  • Die automatische „Diakritisierung" des Arabischen basiert auf dem folgenden Modell für arabische Wörter: Wort = Präfix (eins oder mehr oder null) + Stamm + Suffix (eins oder mehr oder null).
  • Ein Stamm wurde von einer Wurzel entweder abgeleitet oder nicht abgeleitet. Das Vokalmuster eines nicht abgeleiteten Stammes wird zusammen mit dem Stamm selbst im Wortschatz gespeichert. Abgeleitete Stämme folgen Mustern, welche die „Diakritisierung" ihrer Zeichen definieren, und werden über eine Komponente (104) zur morphologischen Analyse bestimmt (mit Ausnahme von diakritischen Zeichen am Wortende, die den grammatischen Kasus angebende Endungen anzeigen). Die „Diakritisierung" der Affixe (Präfix und Suffixe) ist festgeschrieben. Das diakritische Wort ist die Verkettung von diakritischen Präfixen, Stamm und Suffixen.
  • Wenn ein domänenspezifischer arabischer Wortschatz (106) und eine Datei vorhanden sind, die das wahrscheinlichste (häufigste) Genus verbi jedes Verbs in der Domäne (107) enthält, umfasst das Verfahren zur automatischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text (108) und zur Vokalwiederherstellung für jedes Wort in einem nicht diakritischen arabischen Text (108) die folgenden Schritte:
    • • Schritt 301: Als Erstes Segmentieren des Worts (108) in einen Stamm, ein Präfix und ein Suffix mithilfe einer Komponente (104) zur morphologischen Analyse.
    • • Schritt 302: Anschließend Disambiguieren des Worts, da der domänenspezifische Wortschatz (106) eindeutige Vokalisierungsmuster für jeden Stamm enthält, und
    • • Schritt 303: Bestimmen des Vokalisierungsmusters des Stammes.
    • • Schritt 304: Schließlich vollständige „Diakritisierung" des Worts (109) durch Hinzufügen der diakritischen Präfixe und Suffixe zum diakritischen Stamm gemäß dem oben beschriebenen Modell für die „Diakritisierung".
  • Die „Diakritisierung" eines Verbs basiert auf dem wahrscheinlichsten (häufigsten) Genus verbi dieses Verbs im diakritischen Trainingskorpus. Das wahrscheinlichste Genus verbi wird aus der zuvor generierten Liste der Verbstämme (107) abgerufen. Diese Liste enthält für jeden Verbstamm das Genus verbi, das am häufigsten im diakritischen Trainingskorpus vorkommt. Die „Diakritisierung" eines Verbs hängt davon ab, ob es sich bei dem Genus verbi des Verbs um Aktiv oder Passiv handelt. Die „Diakritisierung" entsprechend dem im Trainingskorpus am häufigsten vorkommenden Genus verbi wird jedem nicht diakritischen Verb im Text zugewiesen.
  • An Wortenden befindliche diakritische Zeichen, die den grammatischen Kasus angebende Endungen anzeigen, sind je nach Sprecher und Förmlichkeit der Sprache in gewisser Hinsicht optional. Sie könnten mithilfe einer Komponente zur Syntaxanalyse bestimmt werden, was außerhalb des Geltungsbereichs dieser Erfindung liegt.
  • In einer bevorzugten Ausführungsart umfasst das erfindungsgemäße System zur lexikalischen Disambiguierung bei nicht diakritischen arabischen Wörtern in einem Text ein Computersystem und ein Computerprogramm, um bei der Ausführung des Computerprogramms in dem Computersystem die Schritte des Verfahrens erfindungsgemäß auszuführen.
  • Obwohl die Erfindung insbesondere in Bezug auf eine bevorzugte Ausführungsart dargestellt und beschrieben wurde, lässt sich nachvollziehen, dass verschiedene Änderungen in Form und Detail vorgenommen werden können, ohne vom Geltungsbereich der Erfindung abzuweichen, der in den beigefügten Ansprüchen definiert ist.

Claims (12)

  1. Computerimplementiertes Verfahren in einer bestimmten Sprache zur lexikalischen Disambiguierung bei nicht diakritischen Wörtern in einem Text und zur Wiederherstellung von Vokalen, wobei das Verfahren folgende Schritte umfasst: • Generieren eines domänenspezifischen Wortschatzes auf der Grundlage eines diakritischen Trainingskorpus, der zu einer spezifischen Domäne gehört; • Disambiguieren nicht diakritischer Wörter in einem Text, der zu der spezifischen Domäne gehört, und Wiederherstellen von Vokalen mit Hilfe des zuvor generierten domänenspezifischen Wortschatzes.
  2. Verfahren nach dem vorhergehenden Anspruch, wobei der Schritt, auf der Grundlage eines diakritischen Trainingskorpus, der zu einer bestimmten Domäne gehört, einen domänenspezifischen Wortschatz zu generieren, folgende weitere Schritte umfasst: für jedes Wort in dem diakritischen Trainingskorpus: • Entfernen der diakritischen Zeichen aus dem Wort; • Abrufen aller möglichen gültigen Vokalisierungsmuster für das Wort, wobei jedes Vokalisierungsmuster zu einem anderen Stamm gehört; • Auswählen desjenigen Vokalisierungsmusters aus den abgerufenen Vokalisierungsmustern, das mit dem Vokalisierungsmuster des Worts übereinstimmt, bevor die diakritischen Zeichen aus dem Wort entfernt wurden; • Identifizieren eines Stammes in einem generischen Wortschatz, der mit dem Vokalisierungsmuster verknüpft ist, das mit dem Vokalisierungsmuster des Worts übereinstimmt.
  3. Verfahren nach Anspruch 2, wobei der Schritt, für jedes Wort im diakritischen Trainingskorpus in einem generischen Wortschatz einen Stamm zu identifizieren, der mit dem Vokalisierungsmuster verknüpft ist, das mit dem Vokalisierungsmuster des Worts übereinstimmt, folgende weitere Schritte umfasst: • Aufzeichnen, wie häufig der identifizierte Stamm in dem diakritischen Trainingskorpus vorkommt.
  4. Verfahren nach Anspruch 2, wobei der Schritt, auf der Grundlage eines diakritischen Trainingskorpus, der zu einer spezifischen Domäne gehört, einen domänenspezifischen Wortschatz zu generieren, folgende weitere Schritte umfasst: • Belassen folgender Stämme im generischen Wortschatz: • Stämme mit der größten Anzahl im diakritischen Trainingskorpus identifizierter morphologischer Varianten, wenn mehrere Stämme mit identischen Zeichenfolgen existieren; • Stämme, die keine andere identische Zeichenfolge aufweisen; • jeder zufällig ausgewählte Stamm unter Stämmen, die: • nicht mit Wörtern im diakritischen Trainingskorpus verwandt sind, und • mehrere identische Zeichenfolgen aufweisen, • Löschen aller anderen Stämme aus dem generischen Wortschatz und deshalb Generieren eines domänenspezifischen Wortschatzes aus dem generischen Wortschatz.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, nicht diakritische Wörter in einem Text zu disambiguieren und Vokale wiederherzustellen, folgende weitere Schritte umfasst: für jedes Wort im nicht diakritischen Text: • Segmentieren des Worts in einen Stamm und eventuell vorhandene Affixe; • Disambiguieren des Worts mit Hilfe des domänenspezifischen Wortschatzes, wobei der domänenspezifische Wortschatz ein eindeutiges Vokalisierungsmuster für jeden Stamm umfasst; • Bestimmen des Vokalisierungsmusters des Stammes; • Das Wort durch Verkettung des diakritischen Stammes mit eventuell vorhandenen diakritischen Affixen in die diakritische Form bringen.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, auf der Grundlage eines diakritischen Trainingskorpus, der zu einer spezifischen Domäne gehört, einen domänenspezifischen Wortschatz zu generieren, den folgenden weiteren Schritt umfasst: • Bestimmen des am häufigsten vorkommenden Genus verbi für jedes im diakritischen Trainingskorpus vorkommende Verb.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, für jedes Wort im diakritischen Trainingskorpus in einem generischen Wortschatz einen Stamm zu identifizieren, der mit dem Vokalisierungsmuster verknüpft ist, das mit dem Vokalisierungsmuster des Worts übereinstimmt, folgende weitere Schritte umfasst: wenn der identifizierte Stamm für ein Verb ist: • Bestimmen des Genus verbi des Verbstammes anhand des Vokalisierungsmusters des Worts; und • Aufzeichnen, wie häufig das Genus verbi des Verbstammes in dem diakritischen Trainingskorpus vorkommt.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, nicht diakritische Verben jeweils anhand des im diakritischen Trainingskorpus am häufigsten vorkommenden Genus verbi zu disambiguieren, den folgenden vorausgehenden Schritt umfasst: • Generieren einer Liste, welche die im diakritischen Trainingskorpus vorkommenden Verbstämme und für jeden der Stämme eine Angabe des häufigsten Genus verbi umfasst.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt, nicht diakritische Wörter in einem zu der Domäne gehörenden Text zu disambiguieren und Vokale mit Hilfe des zuvor generierten domänenspezifischen Wortschatzes wiederherzustellen, den folgenden weiteren Schritt umfasst: • Disambiguieren nicht diakritischer Verben jeweils anhand des im diakritischen Trainingskorpus am häufigsten vorkommenden Genus verbi.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei die bestimmte Sprache Arabisch ist, der nicht diakritische Text ein arabischer Text ist und der diakritische Trainingskorpus in Arabisch vorliegt.
  11. System, das zum Ausführen jedes der Schritte des Verfahrens gemäß einem der vorhergehenden Ansprüche angepasste Mittel umfasst.
  12. Computerprogramm, das Befehle umfasst, um beim Ausführen des Computerprogramms in einem Computersystem jeden der Schritte des Verfahrens nach den Ansprüchen 1 bis 10 auszuführen.
DE602005001840T 2004-12-10 2005-11-14 System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text Active DE602005001840T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04300877 2004-12-10
EP04300877 2004-12-10

Publications (2)

Publication Number Publication Date
DE602005001840D1 DE602005001840D1 (de) 2007-09-13
DE602005001840T2 true DE602005001840T2 (de) 2008-04-30

Family

ID=36585169

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005001840T Active DE602005001840T2 (de) 2004-12-10 2005-11-14 System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text

Country Status (4)

Country Link
US (1) US8041559B2 (de)
EP (1) EP1675019B1 (de)
AT (1) ATE368895T1 (de)
DE (1) DE602005001840T2 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US7966173B2 (en) * 2006-03-22 2011-06-21 Nuance Communications, Inc. System and method for diacritization of text
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
US20080300861A1 (en) * 2007-06-04 2008-12-04 Ossama Emam Word formation method and system
US8438010B2 (en) * 2007-12-06 2013-05-07 International Business Machines Corporation Efficient stemming of semitic languages
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US8111911B2 (en) 2009-04-27 2012-02-07 King Abdulaziz City For Science And Technology System and methods for arabic text recognition based on effective arabic text feature extraction
US8543382B2 (en) * 2010-10-27 2013-09-24 King Abdulaziz City for Science and Technology (KACST) Method and system for diacritizing arabic language text
US20120281919A1 (en) * 2011-05-06 2012-11-08 King Abdul Aziz City For Science And Technology Method and system for text segmentation
US8812302B2 (en) * 2012-01-17 2014-08-19 Google Inc. Techniques for inserting diacritical marks to text input via a user device
US9727619B1 (en) * 2013-05-02 2017-08-08 Intelligent Language, LLC Automated search
US20140380169A1 (en) * 2013-06-20 2014-12-25 Google Inc. Language input method editor to disambiguate ambiguous phrases via diacriticization
RU2632137C2 (ru) * 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN113011135A (zh) * 2021-03-03 2021-06-22 科大讯飞股份有限公司 阿拉伯语元音恢复方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US6466901B1 (en) * 1998-11-30 2002-10-15 Apple Computer, Inc. Multi-language document search and retrieval system
US7233940B2 (en) * 2000-11-06 2007-06-19 Answers Corporation System for processing at least partially structured data
US20050015237A1 (en) * 2003-07-17 2005-01-20 Fathi Debili Process, computerized device and computer program for assisting the vowelization of Arabic language words

Also Published As

Publication number Publication date
US8041559B2 (en) 2011-10-18
EP1675019A3 (de) 2006-09-06
US20060129380A1 (en) 2006-06-15
ATE368895T1 (de) 2007-08-15
EP1675019A2 (de) 2006-06-28
EP1675019B1 (de) 2007-08-01
DE602005001840D1 (de) 2007-09-13

Similar Documents

Publication Publication Date Title
DE602005001840T2 (de) System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
CN100568225C (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
Alghamdi et al. Automatic restoration of arabic diacritics: a simple, purely statistical approach
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
Leong et al. Cognitive processing of Chinese characters, words, sentences and Japanese kanji and kana: An introduction
Sodhar et al. Identification of issues and challenges in romanized Sindhi text
Dipper Morphological and part-of-speech tagging of historical language data: A comparison
Nederhof et al. A probabilistic model of Ancient Egyptian writing
CN105511636B (zh) 改进的全部汉字汉词简易无重码统一输入法
Dhindsa et al. English to Hindi transliteration system using combination-based approach
Khorsheed A HMM-based system to diacritize Arabic text
KR20190023042A (ko) 외국어 발음 한글 표기 방법 및 시스템
Jee et al. The substructure of phonics: The visual form of letters and their paradigmatic English pronunciation are systematically related
Berkling et al. Systematic acquisition of reading and writing. An Exploration of Structure in Didactic Elementary Texts for German
JP2006053866A (ja) カタカナ文字列の表記ゆれの検出方法
Haverals et al. Data-driven syllabification for Middle Dutch
Norkevičius et al. Knowledge-based grapheme-to-phoneme conversion of Lithuanian words
De Pauw et al. African language technology: The data-driven perspective
Sathe A rule-based system for the transcription of Sanskrit from the Devanagari orthography to the International Phonetic Alphabet
Somsap et al. Isarn Dharma word segmentation
Putraa et al. Syllabification of Balinese Words Using the Syllabification Algorithm
List Automatic morpheme segmentation (Open problems in computational diversity linguistics 1)
Covington Building natural language generation systems

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)