DE10392450T5

DE10392450T5 - Statistische Maschinenübersetzung

Info

Publication number: DE10392450T5
Application number: DE10392450T
Authority: DE
Inventors: Philipp Venice Koehn; Kevin Hermosa Beach Knight
Original assignee: University of Southern California USC
Current assignee: University of Southern California USC
Priority date: 2002-03-28
Filing date: 2003-03-28
Publication date: 2005-04-21
Also published as: WO2003083709A2; US7624005B2; US20040024581A1; AU2003222126A1; JP2005527894A; WO2003083709A3; CN1647068A

Abstract

Verfahren, umfassend die folgenden Schritte:
Erfassen eines syntaktischen Chunk in einem Quellstring in einer ersten Sprache;
Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring;
Mapping des erfassten syntaktischen Chunk in dem Quellstring auf einen syntaktischen Chunk in einem Zielstring in einer zweiten Sprache, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert; und
Übersetzen des Quellstrings in eine mögliche Übersetzung in der zweiten Sprache.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Die vorliegende Anmeldung beansprucht die Priorität der provisorischen US-Anmeldung mit der Seriennummer 60/368,851, eingereicht am 28. März 2002, die hiermit durch Bezugnahme eingeschlossen ist.
URSPRUNG DER ERFINDUNG
Die in dieser Anmeldung beschriebenen Forschungs- und Entwicklungsarbeiten wurden von der DARPA-ITO unter der Grant-Nummer N66001-00-1-8914 unterstützt. Die US-Regierung hat möglicherweise bestimmte Rechte an den beanspruchten Erfindungen.
HINTERGRUND
Maschinenübersetzung (MT) ist die automatische Übersetzung, z.B. mit einem Computersystem, von einer ersten Sprache („Quell"-Sprache) in eine andere Sprache („Ziel"-Sprache). Man sagt von Systemen, die einen MT-Prozess durchführen, dass sie die Quellsprache in die Zielsprache „decodieren". Vom Standpunkt des Endbenutzers aus gesehen ist der MT-Prozess relativ unkompliziert. Der MT-Prozess erhält als Eingabe einen Quellsatz (oder einen „String" von Worten) und gibt nach der Verarbeitung des eingegebenen Satzes einen übersetzten Satz in der Zielsprache aus.
Ein Typ von MT-Prozess wird als statistischer MT-Decoder bezeichnet. Konventionelle statistische MT-Decoder können ein Sprachmodell (LM) und ein Übersetzungsmodell (TM) beinhalten.
ZUSAMMENFASSUNG
Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein Verfahren das Erfassen eines syntaktischen Chunk in einem ersten String in einer ersten Sprache, das Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem ersten String, das Ausrichten des erfassten syntaktischen Chunk in dem ersten String auf einen syntaktischen Chunk im String einer zweiten Sprache, wobei das genannte Ausrichten auf dem zugeordneten syntaktischen Etikett basiert, und das Übersetzen jedes Wortes aus dem ersten String in ein zweites Wort, das einer möglichen Übersetzung in der zweiten Sprache entspricht.
Es können auch ein oder mehrere der folgenden Merkmale enthalten sein: Gruppieren von wenigstens zwei Wörtern aus dem ersten String auf der Basis von Sprachkennungen, die an wenigstens zwei Wörter angehängt wurden; Definieren von Verbindungen zwischen dem erfassten syntaktischen Chunk in dem Quellstring und einem Chunk in dem zweiten String; Ermitteln von Verbindungen auf der Basis einer Chunk-Mapping-Tabelle, wobei die Chunk-Mapping-Tabelle vordefinierte Verbindungen auf der Basis von syntaktischen Chunk-Etiketten verwendet; Definieren einer Verbindung zwischen dem erfassten Chunk aus dem ersten String und wenigstens zwei nicht nebeneinander liegenden Chunks im Zielstring; Definieren einer Verbindung zwischen wenigstens zwei erfassten Chunks aus dem Quellstring und einem einzelnen Chunk im Zielstring.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Ablaufdiagramm eines linguistischen statistischen Übersetzungsprozesses (LST).
2 illustriert einen beispielhaften Quell- und Zielsuatz.
3 illustriert eine Chunk-Umordnungstabelle auf Satzebene, die den Sätzen von 2 entspricht.
4 illustriert Chunk-Mapping-Ausrichtungstabellen, die den 2–3 entsprechen.
5 illustriert Wortübersetzungen, die den 1–4 entsprechen.
6 zeigt eine zweite Ausgestaltung eines LST-Prozesses.
AUSFÜHRLICHE BESCHREIBUNG
Ein statistisches MT-System wie hierin beschrieben kann als drei separate Teile modelliert werden: (1) ein Sprachmodell (LM), das einem beliebigen Zielstring von Wörtern eine Wahrscheinlichkeit P(e) zuordnet, (2) ein Übersetzungsmodell (TM), das einem beliebigen Paar von Ziel- und Quellstrings eine Wahrscheinlichkeit P(f|e) zuordnet, und (3) einen Decoder, der Übersetzungen auf der Basis der zugeordneten Wahrscheinlichkeiten von LM und TM ermittelt.
Ein konventionelles MT-System kann Quellsätze in Zielsätze übersetzen, indem es eine Reihe von wortgestützten Entscheidungen trifft. Die wortgestützten Entscheidungen können eine Übersetzungsentscheidung beinhalten, wo jedes Quellwort in ein Zielwort übersetzt wird. Es kann auch eine Mapping-(„Ausrichtungs-") Entscheidung für jedes übersetzte Wort durchgeführt werden, z.B. Mappen mehrerer Quellwörter auf ein einzelnes Zielwort auf der Basis einer ermittelten Fertilität des übersetzten Quellwortes. Es kann auch eine Umordnungs-(„Verzerrungs-") Entscheidung durchgeführt werden, z.B. Umordnen der Reihenfolge von Wörtern von einem Quellsatz in übersetzte Worte in dem entsprechenden Zielsatz. Die Übersetzungs-, Mapping- und Verzerrungsentscheidungen basieren auf gewichteten Wahrscheinlichkeiten, die während des Übersetzungsvorgangs ermittelt werden.
Einige Quellsätze stellen übersetzerische Herausforderungen dar, die sich mit konventionellen wortgestützten MT-Systemen nicht gut handhaben lassen. Solche übersetzerischen Herausforderungen sind z.B. die Übersetzung von Phrasen, die Umstrukturierung von Sätzen aus syntaktischen Gründen oder die Übersetzung von nicht nebeneinander stehenden Wörtern in einzelne Wörter oder Phrasen im Zielsatz.
1 zeigt einen linguistischen statistischen Übersetzungsmodellprozess (LST) 10, der Folgendes beinhaltet: Empfangen (15) eines zu übersetzenden Quellsatzes, Zuordnen (20) von „Satzteil"-(POS)-Tags für jedes Quellwort in einem Quellsatz, und Erfassen (30) von in dem Quellsatz enthaltenen syntaktischen „Chunks". Der LST-Prozess 10 beinhaltet auch Aktionen (40), (50) und (60), die teilweise auf dem/den zugeordneten POS-Tag(s) und/oder dem/den erfassten syntaktischen Chunk(s) basieren. Die Verwendung von POS-Tag(s) und/oder syntaktischen Chunks im Prozess 10 ermöglicht bessere Übersetzungen von Quellsätzen in Zielsätze und insbesondere bessere String-Übersetzungen der oben genannten übersetzerischen Herausforderungen.
Ein POS-Tag bezieht sich auf ein Identifikationssymbol, das einen Worttyp repräsentiert. So kann beispielsweise ein „VVFIN"-Symbol an ein finites Verb angehängt werden. Ein beispielhafter Satz von POS-Tags, die im Prozess 10 verwendet werden können, wird als „Penn Treebank Tag Satz" bezeichnet und ist in Mitchell P. Marcus, Beatrice Santorini und Mary Ann Marcinkiewicz: „Building a Large Annotated Corpus of English: The Penn Treebank", in Computational Linguistics, Band 19, Nummer 2 (Juni 1993) auf den Seiten 313–330 (Sonderausgabe über Using Large Corpora) (hiermit durch Bezugnahme eingeschlossen) beschrieben.
Chunking bezieht sich auf die Gruppierung von nicht rekursiven Verb-, Substantiv-, Präpositions- oder anderen Phrasen in einem Satz. Chunking kann das Erfassen von Gruppierungen in einem Quellsatz und die Ausgabe von Chunk-Kombinationen in einem Zielsatz beinhalten. Das Chunking-Konzept wird in Abney, S. (1991) „Parsing by chunks" in Robert Berwick, Steven Abney und Carol Tenny: Principle-Based Parsing, Kluwer Academic Publishers, erörtert.
Weiter mit Bezug auf 1, der LST-Prozess 10 beinhaltet: Empfangen (15) eines zu übersetzenden Eingangsquellsatzes, Anhängen (20) eines POS-Tags an jedes Wort in dem Quellsatz, Erfassen (30) von syntaktischen Chunks (z.B. Phrasen) in jedem Quellsatz, Chunk-Umordnung auf Satzebene (40), Mapping (50) von erfassten Quell-Chunks auf Ziel-Chunks im Zielsatz, und Übersetzen (60) jedes Wortes des Satzes aus der Quell- in die Zielsprache. Die durch die Aktion (60) erzeugten Wortübersetzungen können mit Hilfe eines optionalen Zielsprachmodells (70) noch weiter verfeinert werden.
2 zeigt einen beispielhaften Quellsatz 100, wobei mit jedem Wort ein POS-Tag 110–116 assoziiert ist, der bei der Aktion (20) erzeugt wurde, sowie erfasste syntaktische Chunks 101–105, die bei der Aktion (30) erzeugt wurden. Die erfassten Chunks 101–105 haben auch syntaktische Etiketten wie z.B. jeweils „N, V, N, V und !". Syntaktische Etiketten beziehen sich auf den syntaktischen Teil eines Satzes für den erfassten Chunk. So kann sich z.B. „N" auf einen Subjektteil, „V" auf einen Verbkomplex, „P" auf einen Präpositionalobjektteil, „A" auf ein Adjektiv, „F" auf ein Funktionswort und „!" auf ein Interpunktionszeichen beziehen.
Chunk-Umordnung (40) auf Satzebene definiert Verbindungen 120–125 zwischen jedem Quell-Chunk 101–106 und einem entsprechenden Ziel-Chunk 130–134, die in den Zielsatz 150 eingebaut werden. In vielen Fällen werden die Ziel-Chunks relativ zu den Quell-Chunks umgeordnet. Diese Umordnung kann auf Schablonen basieren, die wahrscheinliche Verbindungen zwischen erfassten syntaktischen Chunks in entsprechende syntaktische Chunks in einem Zielsatz definieren. (Eine) Verbindung(en) kann/können einzelwertig oder mehrwertig sein (z.B. eins-zu-eins, viele-zu-viele, oder eins-zu-viele usw.). 3 zeigt eine Chunk- Verbindungstabelle 160, die für die Verbindungen 120-125 zwischen Quell-Chunks 101–105 und Ziel-Chunks 130–134 repräsentativ sind, die den in 2 gezeigten entsprechen.
4 zeigt Chunk-Mapping-Tabellen 170, 180, 190 und 200, die für die Chunk-Mappings repräsentativ sind, die durch Aktion (50) von Prozess 10 bei Anwendung auf den Beispielsatz 100 erzeugt wurden. Chunk-Mapping bezieht sich auf die Ausrichtung jedes Quell-Chunks auf einen Ziel-Chunk und kann im Sinne des POS-Tags von Wörtern im Quell-Chunk und Wörtern im Ziel-Chunk referenziert werden. So werden beispielsweise, wie in Tabelle 170 gezeigt, Quell-POS-Tags 110 („ART") und 111 („NN") auf Ziel-POS-Tags 140 („DT") und 141 („NNP") ausgerichtet. Chunk-Mappings können mehrere Chunks („komplexe Chunks") auf einzelne Chunks oder andere komplexe Chunks ausrichten. So wird beispielsweise, wie in Tabelle 190 gezeigt, der Quell-Chunk 103 auf einen komplexen Chunk einschließlich Ziel-Chunk 130 und 131 ausgerichtet. Nicht nebeneinander stehende Chunks vom Quellsatz 110 können zu einem einzelnen Chunk, z.B. wie in Tabelle 180 gezeigt, kombiniert werden, so dass die Chunks 102 und 104 zum Ziel-Chunk 132 kombiniert werden.
Wie zuvor beschrieben, kann jeder komplexe Chunk mit einem zugeordneten syntaktischen Chunk-Etikett „etikettiert" werden. Diese Etikettierung kann eine bessere Umordnung von Chunks auf Satzebene ermöglichen, da das syntaktische Etikett ihre syntaktische Rolle in einem Satz identifizieren kann.
Prozess 10 übersetzt (60) dann die Quellwörter aus dem Satz in der Quellsprache in Wörter für den Satz in der Zielsprache. Die Wortübersetzung kann teilweise an dem Satzteil ermittelt werden, der dem entsprechenden Quellwort zugeordnet wird (durch das Chunk-Mapping gewählt), z.B. Beschränken der Wahl eines Wortes, das dem zugeordneten POS-Tag entspricht. 5 veranschaulicht die Durchführung der Aktion (60) vom Prozess 10, z.B. Veranschaulichen von Wortübersetzungen, die dem in den 1–4 gezeigten Beispiel entsprechen.
In einer Ausgestaltung kann anstatt des Erzeugens von Wörtern in der Zielsprache durch individuelle Wortübersetzungen ein komplexer Chunk durch exaktes Phrasen-Lookup übersetzt werden. Ausführlicher ausgedrückt, wenn ein gesamter Quell-Chunk als eine bekannte Phrase ermittelt wird, dann kann der gesamte Quell-Chunk als die bekannte Phrase übersetzt werden. Wenn beispielsweise, wie in 2 gezeigt, die im Quell-Chunk 103 enthaltenen Wörter „der Agrarausschuss" eine bekannte Phrase sind, dann kann sie direkt in die Wörter in Ziel-Chunks 130–131 „the sub-committee for agriculture" übersetzt werden. Exaktes Phrasen-Lookup ermöglicht die Übersetzung von idiomatischen Phrasen, die sich nicht leicht auf Wortbasis übersetzen lassen.
Der Prozess 10 kann ein optionales Zielsprachmodell (70) beinhalten, das ausgeführt wird, um zusätzliche Flüssigkeitsverbesserungen am Zielsatz zu erzielen.
Mathematische Formulierung von Prozess 10 Die Operationen des LST-Prozesses 10 können mathematisch beispielsweise an einem Satz von Wahrscheinlichkeitsermittlungen modelliert werden. Das nachfolgende mathematische Modell von Prozess 10 beinhaltet eine Formulierung, die dem Noisy-Channel-Modell entspricht. Ausführlicher ausgedrückt, dies bedeutet, dass anstatt p(e|f) direkt zu schätzen (z.B. die beste Übersetzung e für einen Eingangsstring f), die Bayes-Regel angewendet wird, um p(f|e) × p(e) zu maximieren. Dadurch wird dieses Modell in zwei Teile aufgespalten: einen Übersetzungsteil p(f|e) und ein Sprachmodell p(e). Für den Sprachteil kann ein Trigram-Sprachmodell angewendet werden.
Der Übersetzungsteil wird in Satz-Level-Umordnung (SLR), Chunk-Mapping (CM) und Wortübersetzungen (W) zerlegt und kann mit der folgenden Wahrscheinlichkeitsgleichung modelliert werden: p(f|e) = p(SLR|e) × Πip (CMi|e,SLR) × Πjp (Wij|CMi,SLR,e)
Da POS-Tagging und Chunking deterministisch sind, repräsentiert e nicht nur Wörter des Zielstrings, sondern auch ihre POS und Chunk-Gruppierungen. Die Satz-Level-Chunk-Umordnung (SLR) und die Wortumordnung innerhalb von Chunks (CM) können mit Schablonen erfolgen, beispielsweise unter Verwendung von Schablonen, die für die Informationen aus den in den 3 und 4 gezeigten Tabellen repräsentativ sind. Eine Wortübersetzung (W) kann mit Hilfe einer Wort-für-Wort-Übersetzungstabelle erfolgen.
Eine direkte Anwendung der obigen drei Wahrscheinlichkeitsgleichungen kann wegen Datenmangels problematisch sein. Daher können die drei konditionellen Wahrscheinlichkeitsverteilungen wie folgt vereinfacht werden:
p(SLR) kann nur an jeder Ziel-Chunk-Etikettensequenz konditioniert werden;
p(CM_i) kann nur an den relevanten Quell- und Ziel-Chunk-Etiketten und den Ziel-POS-Tags konditioniert werden;
p(W_ij) kann nur an dem relevanten Ziel-POS-Tag und Wort konditioniert werden.
Für jede Wortausrichtung in einem Chunk-Mapping wird eine Wortübersetzungswahrscheinlichkeit eingerechnet. In unausgerichtete Quellwörter wird die Wahrscheinlichkeit p(f_k|ZFERT,f_posk) eingerechnet. In unausgerichtete Zielwörter wird die Wahrscheinlichkeit p(NULL|e_k,f_posk) eingerechnet.
Anstatt das Chunk-Mapping in Wortübersetzungen zu zerlegen, kann ein direktes Phrasen-Lookup durchgeführt werden, das durch die folgende Gleichung modelliert wird: p(Wi1, ... Win|CM1,SLR,e)
Parameter für die Wortausrichtungen können mit einer so genannten „Parallel Corpus" Methode ermittelt werden, bei der Text in einen Quellsprachenstring (einem ersten Corpus) auf übersetzten Text in einem Zielsprachenstring (dem zweiten Corpus) ausgerichtet wird. Diese Ausrichtungen stellen Entsprechungen zwischen Quellwörtern im Quellstring und im Zielstring her. Auf beiden Seiten des parallelen Corpus sind auch POS-Tagging und Chunking möglich.
Chunk-Mappings können mit einer Parallel Corpus Methode ermittelt werden; wenn z.B. ein Quell-Chunk und ein Ziel-Chunk ein Quellwort und ein Zielwort enthalten, die aufeinander ausgerichtet sind, dann sind die beiden Chunks verbunden. Chunks, die keine ausgerichteten Wörter enthalten, können an andere Chunks auf der Basis eines Satzes von Regeln angehängt werden. So werden z.B. Adverben an einen folgenden Verb-Chunk angehängt, wenn sie unausgerichtet sind, oder es werden Kommas an ein nachfolgendes Funktionswort angehängt, wenn sie unausgerichtet sind, usw.
Dann kann ein transitiver Schluss an beliebigen Chunk-Ausrichtungen durchgeführt werden, z.B. unter Anwendung des folgenden Regelsatzes: Wenn Chunk f_i auf e_x ausgerichtet ist, f_j auf e_x ausgerichtet ist und Chunk f_i auf e_y ausgerichtet ist, dann wird Chunk f_j selbst dann als auf e_y ausgerichtet angesehen, wenn sie keine aufeinander ausgerichteten Wörter enthalten. Durch den transitiven Schluss wird ein Eins-zu-eins-Mapping zwischen komplexen Chunks in einem Quellsatz und einem Zielsatz gewährleistet.
Durch Ausrichten eines parallelen Corpus auf der Basis der obigen Formulierungen können Statistiken über Wortübersetzungen (einschließlich p(f_k|ZFERT,f_posk) und p(NULL|e_k,f_posk)), komplexe Chunk-Mappings und Satz-Level-Umordnung gesammelt werden. Dann können konditionelle Wahrscheinlichkeitsverteilungen durch eine Maximum- Likelihood-Schätzung gesammelt werden. Da die Daten für ein exaktes Phrasen-Lookup äußerst verrauscht sind, können die Wahrscheinlichkeiten geglättet werden.
In einer Ausgestaltung kann der Übersetzungsteil des Modells (z.B. „Decodieren") in zwei Stufen erfolgen: Zunächst wird eine Satz-Level-Schablone (SLT) für jede Satz-Level-Chunk-Umordnung erzeugt. Zweitens wird eine Zielübersetzung Wort für Wort von links nach rechts konstruiert. Dies wird für die obersten n SLTs für jede gegebene Quell-Chunk-Sequenz wiederholt. Schließlich wird die Übersetzung mit dem besten Gesamtergebnis als Systemausgang gewählt.
Die Konstruktion eines Zielsatzes für eine bestimmte Satz-Level-Schablone (SLT) kann durch eine Viterbi-Suche mit dynamischer Programmierung implementiert werden. In diesem Fall werden Chunk-Mapping-Schablonen nach Bedarf gewählt. Dann werden Wortfenster mittels einer Wort-für-Wort-Übersetzungstabelle und einem Sprachmodell gefüllt. Am Ende jedes komplexen Chunks können Informationen darüber, welche Chunk-Mapping-Schablone verwendet wurde, verworfen werden. In einigen Implementationen kann die Konstruktion des Zielstrings das Einfügen eines NULL-Wortes beinhalten.
Für jede Teilübersetzung (oder Hypothese) werden die folgenden Informationen geführt:

– die letzten beiden erzeugten Wörter (für das Sprachmodell benötigt);
– die aktuelle Chunk-Mapping-Schablone, wenn sie nicht komplett ist;
– das aktuelle Ergebnis (Ergebnis (,score') bezieht sich auf das Produkt aus den kombinierten Wahrscheinlichkeiten von Teilübersetzungsentscheidung, Chunk-Mapping-Entscheidungen usw.)
– Rückzeiger auf besten Pfad;
– Position des letzten Chunk;
– Position des letzten im Chunk erzeugten Wortes;
– „gestapelte Chunk-Mapping-Schablonen"

Gestapelte Chunk-Mapping-Schablonen beziehen sich auf Informationen, die benötigt werden, wenn ein unverbundener komplexer Chunk in der Zielübersetzung gefüllt wird: z.B. wenn die SLT die Erzeugung eines „V+P" Chunks verlangt, mit zusätzlichem Material zwischen „V" und „P". In diesem Fall müssen die Informationen über die Chunk-Mapping-Schablone, die gewählt wurde, so lange zwischen „V" und „P" durchgetragen werden, bis sie vollständig gefüllt ist.
Die Komplexität des Hypothesenraums in jeder gegebenen Position in einem Zielsatz kann als O(V²C^1+s) repräsentiert werden, wobei V die Vokabulargröße, C die Zahl der anwendbaren Chunk-Mapping-Schablonen und s die Zahl der gestapelten Chunk-Mapping-Schablonen ist.
Das Modell kann durch Beschränken von Übersetzungen auf nebeneinander liegende komplexe Chunks in der Zielsprache vereinfacht werden, was die Notwendigkeit für gestapelte Chunk-Mapping-Schablonen eliminiert. Dies vereinfacht die Komplexitätsgleichung auf O(V²C) in jeder gegebenen Position. Dadurch wird auch gewährleistet, dass in Bezug auf die Satzlänge Decodierung eine lineare Komplexität hat.
6 zeigt eine Ausgestaltung eines LST-Prozesses 100, der auf den zuvor erörterten Gleichungen und Formulierungen modelliert wird. In diesem Beispiel beinhaltet der LST-Prozess 100 eine Schleife (135, 140, 150, 160 und 170), die n Mal für n verschiedene Satz-Level-Schablonen wiederholt wird.
Es wurde eine Reihe von Ausgestaltungen beschrieben. Es ist jedoch zu verstehen, dass verschiedene Modifikationen vorgenommen werden können, ohne von Wesen und Umfang der Erfindung abzuweichen. So können z.B. Chunk-Mapping-Fehler durch Quellwörter verursacht werden, die in mehrere Zielwörter übersetzt werden. Dieser Fehlertyp kann durch Hinzufügen von Fertilitätsmerkmalen oder durch weitere Vorverarbeitung von zusammengesetzten Substantiven vermieden oder reduziert werden. Als weiteres Beispiel kann eine Wortübersetzung mit Hilfe einer probabilistischen Wortübersetzungsmethode, z.B. einer „T-Table"-Übersetzungsmethode, durchgeführt werden. Als weiteres Beispiel sind möglicherweise nicht genügend Statistiken vorhanden, um Satz-Level-Schablonen (SLT) zuverlässig zu schätzen. Es können daher andere Schätzungen verwendet werden, wie z.B. Klausel-Level-Schablonen, oder es kann eine Methode angewendet werden, die den Satz-Level-Chunk-Übersetzungsschritt in eine Anzahl von Chunk-Segmentierungs- und Übersetzungsentscheidungen zerlegt.
Demgemäß liegen auch andere Ausgestaltungen im Rahmen der nachfolgenden Ansprüche.
Zusammenfassung
Es wird ein Verfahren beschrieben, umfassend die folgenden Schritte:
Erfassen eines syntaktischen Chunk in einem Quellstring in einer ersten Sprache;
Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring;
Mapping des erfassten syntaktischen Chunk in dem Quellstring auf einen syntaktischen Chunk in einem Zielstring in einer zweiten Sprache, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert;
Übersetzen des Quellstrings in eine mögliche Übersetzung in der zweiten Sprache.
(1)

Claims

Verfahren, umfassend die folgenden Schritte: Erfassen eines syntaktischen Chunk in einem Quellstring in einer ersten Sprache; Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring; Mapping des erfassten syntaktischen Chunk in dem Quellstring auf einen syntaktischen Chunk in einem Zielstring in einer zweiten Sprache, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert; und Übersetzen des Quellstrings in eine mögliche Übersetzung in der zweiten Sprache.
Verfahren nach Anspruch 1, wobei das Zuordnen des syntaktischen Etiketts das Zuordnen auf der Basis eines Teils einer Sprachkennung umfasst, die an ein Wort im Quellstring angehängt wurde.
Verfahren nach Anspruch 1, ferner umfassend das Definieren von Verbindungen zwischen dem erfassten syntaktischen Chunk im Quellstring und einem Chunk im Zielstring.
Verfahren nach Anspruch 3, wobei das Definieren von Verbindungen das Ermitteln von Verbindungen auf der Basis einer Chunk-Mapping-Tabelle umfasst, wobei die Chunk-Mapping-Tabelle vordefinierte Verbindungen auf der Basis von syntaktischen Chunk-Etiketten verwendet.
Verfahren nach Anspruch 3, wobei das Definieren von Verbindungen das Definieren einer Verbindung zwischen dem erfassten Chunk von dem Quellstring mit wenigstens zwei nicht nebeneinander liegenden Chunks im Zielstring umfasst.
Verfahren nach Anspruch 3, wobei das Definieren von Verbindungen das Definieren einer Verbindung von wenigstens zwei erfassten Chunks von dem Quellstring mit einem einzelnen Chunk im Zielstring umfasst.
Verfahren nach Anspruch 1, wobei das Übersetzen das Einbeziehen von wenigstens zwei Wörtern in den Zielstring umfasst, die einem einzigen Wort im Quellstring entsprechen.
Verfahren nach Anspruch 1, wobei das Übersetzen das Übersetzen von Phrasen umfasst.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Anwenden eines Sprachmodells auf den Quellstring, wobei das Sprachmodell auf der Sprache des Zielstrings basiert.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Ermitteln einer Wahrscheinlichkeit des genannten Mappings.
Verfahren nach Anspruch 1, wobei das Übersetzen das Einfügen von wenigstens einem NULL-Wort in den Zielstring umfasst.
Artikel, umfassend ein rechnerlesbares Medium mit maschinenausführbaren Anweisungen, wobei die Anweisungen eine Maschine zu folgenden Tätigkeiten veranlassen sollen: Erfassen eines syntaktischen Chunks in einem Quellstring in einer ersten Sprache; Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring; Ausrichten des erfassten syntaktischen Chunks in dem Quellstring auf einen syntaktischen Chunk in einem zweiten Sprachstring, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert; und Übersetzen jedes Wortes aus dem Quellstring in ein zweites Wort, das einer möglichen Übersetzung in der zweiten Sprache entspricht.
Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine veranlassen sollen, das syntaktische Etikett zuzuordnen, Anweisungen umfassen, die eine Maschine veranlassen sollen, das syntaktische Etikett auf der Basis eines Sprachkennungsteils zuzuordnen, der an ein Wort im Quellstring angehängt wird.
Artikel nach Anspruch 12, ferner umfassend Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zwischen dem erfassten syntaktischen Chunk im Quellstring und einem Chunk im Zielstring zu definieren.
Artikel nach Anspruch 14, wobei Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zu definieren, Anweisungen umfassen, die eine Maschine veranlassen sollen, Verbindungen auf der Basis einer Chunk-Mapping-Tabelle zu ermitteln, wobei die Chunk-Mapping-Tabelle vordefinierte Verbindungen auf der Basis von syntaktischen Chunk-Etiketten verwendet.
Artikel nach Anspruch 14, wobei Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zu definieren, Anweisungen umfassen, die eine Maschine veranlassen sollen, eine Verbindung zwischen dem erfassten Chunk von dem Quellstring mit wenigstens zwei nicht nebeneinander liegenden Chunks im Zielstring zu definieren.
Artikel nach Anspruch 3, wobei Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zu definieren, Anweisungen umfassen, die eine Maschine veranlassen sollen, eine Verbindung von wenigstens zwei erfassten Chunks von dem Quellstring zu einem einzelnen Chunk im Zielstring zu definieren.
Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine zum Übersetzen veranlassen sollen, Anweisungen umfassen, die eine Maschine veranlassen sollen, wenigstens zwei Wörter in den Zielstring einzubeziehen, die einem einzelnen Wort im Quellstring entsprechen.
Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine zum Übersetzen veranlassen sollen, Anweisungen umfassen, die eine Maschine zum Übersetzen von Phrasen veranlassen sollen.
Artikel nach Anspruch 12, ferner umfassend Anweisungen, die eine Maschine zu Folgendem veranlassen sollen: Anwenden eines Sprachmodells auf den Quellstring, wobei das Sprachmodell auf der Sprache des Zielstrings basiert.
Artikel nach Anspruch 12, ferner umfassend Anweisungen, die eine Maschine zu Folgendem veranlassen sollen: Ermitteln einer Wahrscheinlichkeit des genannten Mapping.
Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine zum Übersetzen veranlassen sollen, Anweisungen umfassen, die eine Maschine veranlassen sollen, wenigstens ein NULL-Wort in den Zielstring einzufügen.