DE10392450T5 - Statistische Maschinenübersetzung - Google Patents

Statistische Maschinenübersetzung Download PDF

Info

Publication number
DE10392450T5
DE10392450T5 DE10392450T DE10392450T DE10392450T5 DE 10392450 T5 DE10392450 T5 DE 10392450T5 DE 10392450 T DE10392450 T DE 10392450T DE 10392450 T DE10392450 T DE 10392450T DE 10392450 T5 DE10392450 T5 DE 10392450T5
Authority
DE
Germany
Prior art keywords
chunk
string
syntactic
machine
instructions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10392450T
Other languages
English (en)
Inventor
Philipp Venice Koehn
Kevin Hermosa Beach Knight
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Southern California USC
Original Assignee
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Southern California USC filed Critical University of Southern California USC
Publication of DE10392450T5 publication Critical patent/DE10392450T5/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

Verfahren, umfassend die folgenden Schritte:
Erfassen eines syntaktischen Chunk in einem Quellstring in einer ersten Sprache;
Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring;
Mapping des erfassten syntaktischen Chunk in dem Quellstring auf einen syntaktischen Chunk in einem Zielstring in einer zweiten Sprache, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert; und
Übersetzen des Quellstrings in eine mögliche Übersetzung in der zweiten Sprache.

Description

  • QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
  • Die vorliegende Anmeldung beansprucht die Priorität der provisorischen US-Anmeldung mit der Seriennummer 60/368,851, eingereicht am 28. März 2002, die hiermit durch Bezugnahme eingeschlossen ist.
  • URSPRUNG DER ERFINDUNG
  • Die in dieser Anmeldung beschriebenen Forschungs- und Entwicklungsarbeiten wurden von der DARPA-ITO unter der Grant-Nummer N66001-00-1-8914 unterstützt. Die US-Regierung hat möglicherweise bestimmte Rechte an den beanspruchten Erfindungen.
  • HINTERGRUND
  • Maschinenübersetzung (MT) ist die automatische Übersetzung, z.B. mit einem Computersystem, von einer ersten Sprache („Quell"-Sprache) in eine andere Sprache („Ziel"-Sprache). Man sagt von Systemen, die einen MT-Prozess durchführen, dass sie die Quellsprache in die Zielsprache „decodieren". Vom Standpunkt des Endbenutzers aus gesehen ist der MT-Prozess relativ unkompliziert. Der MT-Prozess erhält als Eingabe einen Quellsatz (oder einen „String" von Worten) und gibt nach der Verarbeitung des eingegebenen Satzes einen übersetzten Satz in der Zielsprache aus.
  • Ein Typ von MT-Prozess wird als statistischer MT-Decoder bezeichnet. Konventionelle statistische MT-Decoder können ein Sprachmodell (LM) und ein Übersetzungsmodell (TM) beinhalten.
  • ZUSAMMENFASSUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein Verfahren das Erfassen eines syntaktischen Chunk in einem ersten String in einer ersten Sprache, das Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem ersten String, das Ausrichten des erfassten syntaktischen Chunk in dem ersten String auf einen syntaktischen Chunk im String einer zweiten Sprache, wobei das genannte Ausrichten auf dem zugeordneten syntaktischen Etikett basiert, und das Übersetzen jedes Wortes aus dem ersten String in ein zweites Wort, das einer möglichen Übersetzung in der zweiten Sprache entspricht.
  • Es können auch ein oder mehrere der folgenden Merkmale enthalten sein: Gruppieren von wenigstens zwei Wörtern aus dem ersten String auf der Basis von Sprachkennungen, die an wenigstens zwei Wörter angehängt wurden; Definieren von Verbindungen zwischen dem erfassten syntaktischen Chunk in dem Quellstring und einem Chunk in dem zweiten String; Ermitteln von Verbindungen auf der Basis einer Chunk-Mapping-Tabelle, wobei die Chunk-Mapping-Tabelle vordefinierte Verbindungen auf der Basis von syntaktischen Chunk-Etiketten verwendet; Definieren einer Verbindung zwischen dem erfassten Chunk aus dem ersten String und wenigstens zwei nicht nebeneinander liegenden Chunks im Zielstring; Definieren einer Verbindung zwischen wenigstens zwei erfassten Chunks aus dem Quellstring und einem einzelnen Chunk im Zielstring.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Ablaufdiagramm eines linguistischen statistischen Übersetzungsprozesses (LST).
  • 2 illustriert einen beispielhaften Quell- und Zielsuatz.
  • 3 illustriert eine Chunk-Umordnungstabelle auf Satzebene, die den Sätzen von 2 entspricht.
  • 4 illustriert Chunk-Mapping-Ausrichtungstabellen, die den 23 entsprechen.
  • 5 illustriert Wortübersetzungen, die den 14 entsprechen.
  • 6 zeigt eine zweite Ausgestaltung eines LST-Prozesses.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Ein statistisches MT-System wie hierin beschrieben kann als drei separate Teile modelliert werden: (1) ein Sprachmodell (LM), das einem beliebigen Zielstring von Wörtern eine Wahrscheinlichkeit P(e) zuordnet, (2) ein Übersetzungsmodell (TM), das einem beliebigen Paar von Ziel- und Quellstrings eine Wahrscheinlichkeit P(f|e) zuordnet, und (3) einen Decoder, der Übersetzungen auf der Basis der zugeordneten Wahrscheinlichkeiten von LM und TM ermittelt.
  • Ein konventionelles MT-System kann Quellsätze in Zielsätze übersetzen, indem es eine Reihe von wortgestützten Entscheidungen trifft. Die wortgestützten Entscheidungen können eine Übersetzungsentscheidung beinhalten, wo jedes Quellwort in ein Zielwort übersetzt wird. Es kann auch eine Mapping-(„Ausrichtungs-") Entscheidung für jedes übersetzte Wort durchgeführt werden, z.B. Mappen mehrerer Quellwörter auf ein einzelnes Zielwort auf der Basis einer ermittelten Fertilität des übersetzten Quellwortes. Es kann auch eine Umordnungs-(„Verzerrungs-") Entscheidung durchgeführt werden, z.B. Umordnen der Reihenfolge von Wörtern von einem Quellsatz in übersetzte Worte in dem entsprechenden Zielsatz. Die Übersetzungs-, Mapping- und Verzerrungsentscheidungen basieren auf gewichteten Wahrscheinlichkeiten, die während des Übersetzungsvorgangs ermittelt werden.
  • Einige Quellsätze stellen übersetzerische Herausforderungen dar, die sich mit konventionellen wortgestützten MT-Systemen nicht gut handhaben lassen. Solche übersetzerischen Herausforderungen sind z.B. die Übersetzung von Phrasen, die Umstrukturierung von Sätzen aus syntaktischen Gründen oder die Übersetzung von nicht nebeneinander stehenden Wörtern in einzelne Wörter oder Phrasen im Zielsatz.
  • 1 zeigt einen linguistischen statistischen Übersetzungsmodellprozess (LST) 10, der Folgendes beinhaltet: Empfangen (15) eines zu übersetzenden Quellsatzes, Zuordnen (20) von „Satzteil"-(POS)-Tags für jedes Quellwort in einem Quellsatz, und Erfassen (30) von in dem Quellsatz enthaltenen syntaktischen „Chunks". Der LST-Prozess 10 beinhaltet auch Aktionen (40), (50) und (60), die teilweise auf dem/den zugeordneten POS-Tag(s) und/oder dem/den erfassten syntaktischen Chunk(s) basieren. Die Verwendung von POS-Tag(s) und/oder syntaktischen Chunks im Prozess 10 ermöglicht bessere Übersetzungen von Quellsätzen in Zielsätze und insbesondere bessere String-Übersetzungen der oben genannten übersetzerischen Herausforderungen.
  • Ein POS-Tag bezieht sich auf ein Identifikationssymbol, das einen Worttyp repräsentiert. So kann beispielsweise ein „VVFIN"-Symbol an ein finites Verb angehängt werden. Ein beispielhafter Satz von POS-Tags, die im Prozess 10 verwendet werden können, wird als „Penn Treebank Tag Satz" bezeichnet und ist in Mitchell P. Marcus, Beatrice Santorini und Mary Ann Marcinkiewicz: „Building a Large Annotated Corpus of English: The Penn Treebank", in Computational Linguistics, Band 19, Nummer 2 (Juni 1993) auf den Seiten 313–330 (Sonderausgabe über Using Large Corpora) (hiermit durch Bezugnahme eingeschlossen) beschrieben.
  • Chunking bezieht sich auf die Gruppierung von nicht rekursiven Verb-, Substantiv-, Präpositions- oder anderen Phrasen in einem Satz. Chunking kann das Erfassen von Gruppierungen in einem Quellsatz und die Ausgabe von Chunk-Kombinationen in einem Zielsatz beinhalten. Das Chunking-Konzept wird in Abney, S. (1991) „Parsing by chunks" in Robert Berwick, Steven Abney und Carol Tenny: Principle-Based Parsing, Kluwer Academic Publishers, erörtert.
  • Weiter mit Bezug auf 1, der LST-Prozess 10 beinhaltet: Empfangen (15) eines zu übersetzenden Eingangsquellsatzes, Anhängen (20) eines POS-Tags an jedes Wort in dem Quellsatz, Erfassen (30) von syntaktischen Chunks (z.B. Phrasen) in jedem Quellsatz, Chunk-Umordnung auf Satzebene (40), Mapping (50) von erfassten Quell-Chunks auf Ziel-Chunks im Zielsatz, und Übersetzen (60) jedes Wortes des Satzes aus der Quell- in die Zielsprache. Die durch die Aktion (60) erzeugten Wortübersetzungen können mit Hilfe eines optionalen Zielsprachmodells (70) noch weiter verfeinert werden.
  • 2 zeigt einen beispielhaften Quellsatz 100, wobei mit jedem Wort ein POS-Tag 110116 assoziiert ist, der bei der Aktion (20) erzeugt wurde, sowie erfasste syntaktische Chunks 101105, die bei der Aktion (30) erzeugt wurden. Die erfassten Chunks 101105 haben auch syntaktische Etiketten wie z.B. jeweils „N, V, N, V und !". Syntaktische Etiketten beziehen sich auf den syntaktischen Teil eines Satzes für den erfassten Chunk. So kann sich z.B. „N" auf einen Subjektteil, „V" auf einen Verbkomplex, „P" auf einen Präpositionalobjektteil, „A" auf ein Adjektiv, „F" auf ein Funktionswort und „!" auf ein Interpunktionszeichen beziehen.
  • Chunk-Umordnung (40) auf Satzebene definiert Verbindungen 120125 zwischen jedem Quell-Chunk 101106 und einem entsprechenden Ziel-Chunk 130134, die in den Zielsatz 150 eingebaut werden. In vielen Fällen werden die Ziel-Chunks relativ zu den Quell-Chunks umgeordnet. Diese Umordnung kann auf Schablonen basieren, die wahrscheinliche Verbindungen zwischen erfassten syntaktischen Chunks in entsprechende syntaktische Chunks in einem Zielsatz definieren. (Eine) Verbindung(en) kann/können einzelwertig oder mehrwertig sein (z.B. eins-zu-eins, viele-zu-viele, oder eins-zu-viele usw.). 3 zeigt eine Chunk- Verbindungstabelle 160, die für die Verbindungen 120-125 zwischen Quell-Chunks 101105 und Ziel-Chunks 130134 repräsentativ sind, die den in 2 gezeigten entsprechen.
  • 4 zeigt Chunk-Mapping-Tabellen 170, 180, 190 und 200, die für die Chunk-Mappings repräsentativ sind, die durch Aktion (50) von Prozess 10 bei Anwendung auf den Beispielsatz 100 erzeugt wurden. Chunk-Mapping bezieht sich auf die Ausrichtung jedes Quell-Chunks auf einen Ziel-Chunk und kann im Sinne des POS-Tags von Wörtern im Quell-Chunk und Wörtern im Ziel-Chunk referenziert werden. So werden beispielsweise, wie in Tabelle 170 gezeigt, Quell-POS-Tags 110 („ART") und 111 („NN") auf Ziel-POS-Tags 140 („DT") und 141 („NNP") ausgerichtet. Chunk-Mappings können mehrere Chunks („komplexe Chunks") auf einzelne Chunks oder andere komplexe Chunks ausrichten. So wird beispielsweise, wie in Tabelle 190 gezeigt, der Quell-Chunk 103 auf einen komplexen Chunk einschließlich Ziel-Chunk 130 und 131 ausgerichtet. Nicht nebeneinander stehende Chunks vom Quellsatz 110 können zu einem einzelnen Chunk, z.B. wie in Tabelle 180 gezeigt, kombiniert werden, so dass die Chunks 102 und 104 zum Ziel-Chunk 132 kombiniert werden.
  • Wie zuvor beschrieben, kann jeder komplexe Chunk mit einem zugeordneten syntaktischen Chunk-Etikett „etikettiert" werden. Diese Etikettierung kann eine bessere Umordnung von Chunks auf Satzebene ermöglichen, da das syntaktische Etikett ihre syntaktische Rolle in einem Satz identifizieren kann.
  • Prozess 10 übersetzt (60) dann die Quellwörter aus dem Satz in der Quellsprache in Wörter für den Satz in der Zielsprache. Die Wortübersetzung kann teilweise an dem Satzteil ermittelt werden, der dem entsprechenden Quellwort zugeordnet wird (durch das Chunk-Mapping gewählt), z.B. Beschränken der Wahl eines Wortes, das dem zugeordneten POS-Tag entspricht. 5 veranschaulicht die Durchführung der Aktion (60) vom Prozess 10, z.B. Veranschaulichen von Wortübersetzungen, die dem in den 14 gezeigten Beispiel entsprechen.
  • In einer Ausgestaltung kann anstatt des Erzeugens von Wörtern in der Zielsprache durch individuelle Wortübersetzungen ein komplexer Chunk durch exaktes Phrasen-Lookup übersetzt werden. Ausführlicher ausgedrückt, wenn ein gesamter Quell-Chunk als eine bekannte Phrase ermittelt wird, dann kann der gesamte Quell-Chunk als die bekannte Phrase übersetzt werden. Wenn beispielsweise, wie in 2 gezeigt, die im Quell-Chunk 103 enthaltenen Wörter „der Agrarausschuss" eine bekannte Phrase sind, dann kann sie direkt in die Wörter in Ziel-Chunks 130131 „the sub-committee for agriculture" übersetzt werden. Exaktes Phrasen-Lookup ermöglicht die Übersetzung von idiomatischen Phrasen, die sich nicht leicht auf Wortbasis übersetzen lassen.
  • Der Prozess 10 kann ein optionales Zielsprachmodell (70) beinhalten, das ausgeführt wird, um zusätzliche Flüssigkeitsverbesserungen am Zielsatz zu erzielen.
  • Mathematische Formulierung von Prozess 10 Die Operationen des LST-Prozesses 10 können mathematisch beispielsweise an einem Satz von Wahrscheinlichkeitsermittlungen modelliert werden. Das nachfolgende mathematische Modell von Prozess 10 beinhaltet eine Formulierung, die dem Noisy-Channel-Modell entspricht. Ausführlicher ausgedrückt, dies bedeutet, dass anstatt p(e|f) direkt zu schätzen (z.B. die beste Übersetzung e für einen Eingangsstring f), die Bayes-Regel angewendet wird, um p(f|e) × p(e) zu maximieren. Dadurch wird dieses Modell in zwei Teile aufgespalten: einen Übersetzungsteil p(f|e) und ein Sprachmodell p(e). Für den Sprachteil kann ein Trigram-Sprachmodell angewendet werden.
  • Der Übersetzungsteil wird in Satz-Level-Umordnung (SLR), Chunk-Mapping (CM) und Wortübersetzungen (W) zerlegt und kann mit der folgenden Wahrscheinlichkeitsgleichung modelliert werden: p(f|e) = p(SLR|e) × Πip (CMi|e,SLR) × Πjp (Wij|CMi,SLR,e)
  • Da POS-Tagging und Chunking deterministisch sind, repräsentiert e nicht nur Wörter des Zielstrings, sondern auch ihre POS und Chunk-Gruppierungen. Die Satz-Level-Chunk-Umordnung (SLR) und die Wortumordnung innerhalb von Chunks (CM) können mit Schablonen erfolgen, beispielsweise unter Verwendung von Schablonen, die für die Informationen aus den in den 3 und 4 gezeigten Tabellen repräsentativ sind. Eine Wortübersetzung (W) kann mit Hilfe einer Wort-für-Wort-Übersetzungstabelle erfolgen.
  • Eine direkte Anwendung der obigen drei Wahrscheinlichkeitsgleichungen kann wegen Datenmangels problematisch sein. Daher können die drei konditionellen Wahrscheinlichkeitsverteilungen wie folgt vereinfacht werden:
    p(SLR) kann nur an jeder Ziel-Chunk-Etikettensequenz konditioniert werden;
    p(CMi) kann nur an den relevanten Quell- und Ziel-Chunk-Etiketten und den Ziel-POS-Tags konditioniert werden;
    p(Wij) kann nur an dem relevanten Ziel-POS-Tag und Wort konditioniert werden.
  • Für jede Wortausrichtung in einem Chunk-Mapping wird eine Wortübersetzungswahrscheinlichkeit eingerechnet. In unausgerichtete Quellwörter wird die Wahrscheinlichkeit p(fk|ZFERT,fposk) eingerechnet. In unausgerichtete Zielwörter wird die Wahrscheinlichkeit p(NULL|ek,fposk) eingerechnet.
  • Anstatt das Chunk-Mapping in Wortübersetzungen zu zerlegen, kann ein direktes Phrasen-Lookup durchgeführt werden, das durch die folgende Gleichung modelliert wird: p(Wi1, ... Win|CM1,SLR,e)
  • Parameter für die Wortausrichtungen können mit einer so genannten „Parallel Corpus" Methode ermittelt werden, bei der Text in einen Quellsprachenstring (einem ersten Corpus) auf übersetzten Text in einem Zielsprachenstring (dem zweiten Corpus) ausgerichtet wird. Diese Ausrichtungen stellen Entsprechungen zwischen Quellwörtern im Quellstring und im Zielstring her. Auf beiden Seiten des parallelen Corpus sind auch POS-Tagging und Chunking möglich.
  • Chunk-Mappings können mit einer Parallel Corpus Methode ermittelt werden; wenn z.B. ein Quell-Chunk und ein Ziel-Chunk ein Quellwort und ein Zielwort enthalten, die aufeinander ausgerichtet sind, dann sind die beiden Chunks verbunden. Chunks, die keine ausgerichteten Wörter enthalten, können an andere Chunks auf der Basis eines Satzes von Regeln angehängt werden. So werden z.B. Adverben an einen folgenden Verb-Chunk angehängt, wenn sie unausgerichtet sind, oder es werden Kommas an ein nachfolgendes Funktionswort angehängt, wenn sie unausgerichtet sind, usw.
  • Dann kann ein transitiver Schluss an beliebigen Chunk-Ausrichtungen durchgeführt werden, z.B. unter Anwendung des folgenden Regelsatzes: Wenn Chunk fi auf ex ausgerichtet ist, fj auf ex ausgerichtet ist und Chunk fi auf ey ausgerichtet ist, dann wird Chunk fj selbst dann als auf ey ausgerichtet angesehen, wenn sie keine aufeinander ausgerichteten Wörter enthalten. Durch den transitiven Schluss wird ein Eins-zu-eins-Mapping zwischen komplexen Chunks in einem Quellsatz und einem Zielsatz gewährleistet.
  • Durch Ausrichten eines parallelen Corpus auf der Basis der obigen Formulierungen können Statistiken über Wortübersetzungen (einschließlich p(fk|ZFERT,fposk) und p(NULL|ek,fposk)), komplexe Chunk-Mappings und Satz-Level-Umordnung gesammelt werden. Dann können konditionelle Wahrscheinlichkeitsverteilungen durch eine Maximum- Likelihood-Schätzung gesammelt werden. Da die Daten für ein exaktes Phrasen-Lookup äußerst verrauscht sind, können die Wahrscheinlichkeiten geglättet werden.
  • In einer Ausgestaltung kann der Übersetzungsteil des Modells (z.B. „Decodieren") in zwei Stufen erfolgen: Zunächst wird eine Satz-Level-Schablone (SLT) für jede Satz-Level-Chunk-Umordnung erzeugt. Zweitens wird eine Zielübersetzung Wort für Wort von links nach rechts konstruiert. Dies wird für die obersten n SLTs für jede gegebene Quell-Chunk-Sequenz wiederholt. Schließlich wird die Übersetzung mit dem besten Gesamtergebnis als Systemausgang gewählt.
  • Die Konstruktion eines Zielsatzes für eine bestimmte Satz-Level-Schablone (SLT) kann durch eine Viterbi-Suche mit dynamischer Programmierung implementiert werden. In diesem Fall werden Chunk-Mapping-Schablonen nach Bedarf gewählt. Dann werden Wortfenster mittels einer Wort-für-Wort-Übersetzungstabelle und einem Sprachmodell gefüllt. Am Ende jedes komplexen Chunks können Informationen darüber, welche Chunk-Mapping-Schablone verwendet wurde, verworfen werden. In einigen Implementationen kann die Konstruktion des Zielstrings das Einfügen eines NULL-Wortes beinhalten.
  • Für jede Teilübersetzung (oder Hypothese) werden die folgenden Informationen geführt:
    • – die letzten beiden erzeugten Wörter (für das Sprachmodell benötigt);
    • – die aktuelle Chunk-Mapping-Schablone, wenn sie nicht komplett ist;
    • – das aktuelle Ergebnis (Ergebnis (,score') bezieht sich auf das Produkt aus den kombinierten Wahrscheinlichkeiten von Teilübersetzungsentscheidung, Chunk-Mapping-Entscheidungen usw.)
    • – Rückzeiger auf besten Pfad;
    • – Position des letzten Chunk;
    • – Position des letzten im Chunk erzeugten Wortes;
    • – „gestapelte Chunk-Mapping-Schablonen"
  • Gestapelte Chunk-Mapping-Schablonen beziehen sich auf Informationen, die benötigt werden, wenn ein unverbundener komplexer Chunk in der Zielübersetzung gefüllt wird: z.B. wenn die SLT die Erzeugung eines „V+P" Chunks verlangt, mit zusätzlichem Material zwischen „V" und „P". In diesem Fall müssen die Informationen über die Chunk-Mapping-Schablone, die gewählt wurde, so lange zwischen „V" und „P" durchgetragen werden, bis sie vollständig gefüllt ist.
  • Die Komplexität des Hypothesenraums in jeder gegebenen Position in einem Zielsatz kann als O(V2C1+s) repräsentiert werden, wobei V die Vokabulargröße, C die Zahl der anwendbaren Chunk-Mapping-Schablonen und s die Zahl der gestapelten Chunk-Mapping-Schablonen ist.
  • Das Modell kann durch Beschränken von Übersetzungen auf nebeneinander liegende komplexe Chunks in der Zielsprache vereinfacht werden, was die Notwendigkeit für gestapelte Chunk-Mapping-Schablonen eliminiert. Dies vereinfacht die Komplexitätsgleichung auf O(V2C) in jeder gegebenen Position. Dadurch wird auch gewährleistet, dass in Bezug auf die Satzlänge Decodierung eine lineare Komplexität hat.
  • 6 zeigt eine Ausgestaltung eines LST-Prozesses 100, der auf den zuvor erörterten Gleichungen und Formulierungen modelliert wird. In diesem Beispiel beinhaltet der LST-Prozess 100 eine Schleife (135, 140, 150, 160 und 170), die n Mal für n verschiedene Satz-Level-Schablonen wiederholt wird.
  • Es wurde eine Reihe von Ausgestaltungen beschrieben. Es ist jedoch zu verstehen, dass verschiedene Modifikationen vorgenommen werden können, ohne von Wesen und Umfang der Erfindung abzuweichen. So können z.B. Chunk-Mapping-Fehler durch Quellwörter verursacht werden, die in mehrere Zielwörter übersetzt werden. Dieser Fehlertyp kann durch Hinzufügen von Fertilitätsmerkmalen oder durch weitere Vorverarbeitung von zusammengesetzten Substantiven vermieden oder reduziert werden. Als weiteres Beispiel kann eine Wortübersetzung mit Hilfe einer probabilistischen Wortübersetzungsmethode, z.B. einer „T-Table"-Übersetzungsmethode, durchgeführt werden. Als weiteres Beispiel sind möglicherweise nicht genügend Statistiken vorhanden, um Satz-Level-Schablonen (SLT) zuverlässig zu schätzen. Es können daher andere Schätzungen verwendet werden, wie z.B. Klausel-Level-Schablonen, oder es kann eine Methode angewendet werden, die den Satz-Level-Chunk-Übersetzungsschritt in eine Anzahl von Chunk-Segmentierungs- und Übersetzungsentscheidungen zerlegt.
  • Demgemäß liegen auch andere Ausgestaltungen im Rahmen der nachfolgenden Ansprüche.
  • Zusammenfassung
  • Es wird ein Verfahren beschrieben, umfassend die folgenden Schritte:
    Erfassen eines syntaktischen Chunk in einem Quellstring in einer ersten Sprache;
    Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring;
    Mapping des erfassten syntaktischen Chunk in dem Quellstring auf einen syntaktischen Chunk in einem Zielstring in einer zweiten Sprache, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert;
    Übersetzen des Quellstrings in eine mögliche Übersetzung in der zweiten Sprache.
    (1)

Claims (22)

  1. Verfahren, umfassend die folgenden Schritte: Erfassen eines syntaktischen Chunk in einem Quellstring in einer ersten Sprache; Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring; Mapping des erfassten syntaktischen Chunk in dem Quellstring auf einen syntaktischen Chunk in einem Zielstring in einer zweiten Sprache, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert; und Übersetzen des Quellstrings in eine mögliche Übersetzung in der zweiten Sprache.
  2. Verfahren nach Anspruch 1, wobei das Zuordnen des syntaktischen Etiketts das Zuordnen auf der Basis eines Teils einer Sprachkennung umfasst, die an ein Wort im Quellstring angehängt wurde.
  3. Verfahren nach Anspruch 1, ferner umfassend das Definieren von Verbindungen zwischen dem erfassten syntaktischen Chunk im Quellstring und einem Chunk im Zielstring.
  4. Verfahren nach Anspruch 3, wobei das Definieren von Verbindungen das Ermitteln von Verbindungen auf der Basis einer Chunk-Mapping-Tabelle umfasst, wobei die Chunk-Mapping-Tabelle vordefinierte Verbindungen auf der Basis von syntaktischen Chunk-Etiketten verwendet.
  5. Verfahren nach Anspruch 3, wobei das Definieren von Verbindungen das Definieren einer Verbindung zwischen dem erfassten Chunk von dem Quellstring mit wenigstens zwei nicht nebeneinander liegenden Chunks im Zielstring umfasst.
  6. Verfahren nach Anspruch 3, wobei das Definieren von Verbindungen das Definieren einer Verbindung von wenigstens zwei erfassten Chunks von dem Quellstring mit einem einzelnen Chunk im Zielstring umfasst.
  7. Verfahren nach Anspruch 1, wobei das Übersetzen das Einbeziehen von wenigstens zwei Wörtern in den Zielstring umfasst, die einem einzigen Wort im Quellstring entsprechen.
  8. Verfahren nach Anspruch 1, wobei das Übersetzen das Übersetzen von Phrasen umfasst.
  9. Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Anwenden eines Sprachmodells auf den Quellstring, wobei das Sprachmodell auf der Sprache des Zielstrings basiert.
  10. Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Ermitteln einer Wahrscheinlichkeit des genannten Mappings.
  11. Verfahren nach Anspruch 1, wobei das Übersetzen das Einfügen von wenigstens einem NULL-Wort in den Zielstring umfasst.
  12. Artikel, umfassend ein rechnerlesbares Medium mit maschinenausführbaren Anweisungen, wobei die Anweisungen eine Maschine zu folgenden Tätigkeiten veranlassen sollen: Erfassen eines syntaktischen Chunks in einem Quellstring in einer ersten Sprache; Zuordnen eines syntaktischen Etiketts zu dem erfassten syntaktischen Chunk in dem Quellstring; Ausrichten des erfassten syntaktischen Chunks in dem Quellstring auf einen syntaktischen Chunk in einem zweiten Sprachstring, wobei das genannte Mapping auf dem zugeordneten syntaktischen Etikett basiert; und Übersetzen jedes Wortes aus dem Quellstring in ein zweites Wort, das einer möglichen Übersetzung in der zweiten Sprache entspricht.
  13. Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine veranlassen sollen, das syntaktische Etikett zuzuordnen, Anweisungen umfassen, die eine Maschine veranlassen sollen, das syntaktische Etikett auf der Basis eines Sprachkennungsteils zuzuordnen, der an ein Wort im Quellstring angehängt wird.
  14. Artikel nach Anspruch 12, ferner umfassend Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zwischen dem erfassten syntaktischen Chunk im Quellstring und einem Chunk im Zielstring zu definieren.
  15. Artikel nach Anspruch 14, wobei Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zu definieren, Anweisungen umfassen, die eine Maschine veranlassen sollen, Verbindungen auf der Basis einer Chunk-Mapping-Tabelle zu ermitteln, wobei die Chunk-Mapping-Tabelle vordefinierte Verbindungen auf der Basis von syntaktischen Chunk-Etiketten verwendet.
  16. Artikel nach Anspruch 14, wobei Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zu definieren, Anweisungen umfassen, die eine Maschine veranlassen sollen, eine Verbindung zwischen dem erfassten Chunk von dem Quellstring mit wenigstens zwei nicht nebeneinander liegenden Chunks im Zielstring zu definieren.
  17. Artikel nach Anspruch 3, wobei Anweisungen, die eine Maschine veranlassen sollen, Verbindungen zu definieren, Anweisungen umfassen, die eine Maschine veranlassen sollen, eine Verbindung von wenigstens zwei erfassten Chunks von dem Quellstring zu einem einzelnen Chunk im Zielstring zu definieren.
  18. Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine zum Übersetzen veranlassen sollen, Anweisungen umfassen, die eine Maschine veranlassen sollen, wenigstens zwei Wörter in den Zielstring einzubeziehen, die einem einzelnen Wort im Quellstring entsprechen.
  19. Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine zum Übersetzen veranlassen sollen, Anweisungen umfassen, die eine Maschine zum Übersetzen von Phrasen veranlassen sollen.
  20. Artikel nach Anspruch 12, ferner umfassend Anweisungen, die eine Maschine zu Folgendem veranlassen sollen: Anwenden eines Sprachmodells auf den Quellstring, wobei das Sprachmodell auf der Sprache des Zielstrings basiert.
  21. Artikel nach Anspruch 12, ferner umfassend Anweisungen, die eine Maschine zu Folgendem veranlassen sollen: Ermitteln einer Wahrscheinlichkeit des genannten Mapping.
  22. Artikel nach Anspruch 12, wobei Anweisungen, die eine Maschine zum Übersetzen veranlassen sollen, Anweisungen umfassen, die eine Maschine veranlassen sollen, wenigstens ein NULL-Wort in den Zielstring einzufügen.
DE10392450T 2002-03-28 2003-03-28 Statistische Maschinenübersetzung Ceased DE10392450T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US36885102P 2002-03-28 2002-03-28
US60/368,851 2002-03-28
PCT/US2003/009749 WO2003083709A2 (en) 2002-03-28 2003-03-28 Statistical machine translation

Publications (1)

Publication Number Publication Date
DE10392450T5 true DE10392450T5 (de) 2005-04-21

Family

ID=28675546

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10392450T Ceased DE10392450T5 (de) 2002-03-28 2003-03-28 Statistische Maschinenübersetzung

Country Status (6)

Country Link
US (1) US7624005B2 (de)
JP (1) JP2005527894A (de)
CN (1) CN1647068A (de)
AU (1) AU2003222126A1 (de)
DE (1) DE10392450T5 (de)
WO (1) WO2003083709A2 (de)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
AU2002316581A1 (en) 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
DE112005002534T5 (de) 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
WO2006133571A1 (en) * 2005-06-17 2006-12-21 National Research Council Of Canada Means and method for adapted language translation
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7827028B2 (en) * 2006-04-07 2010-11-02 Basis Technology Corporation Method and system of machine translation
US8209162B2 (en) * 2006-05-01 2012-06-26 Microsoft Corporation Machine translation split between front end and back end processors
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8452585B2 (en) * 2007-06-21 2013-05-28 Microsoft Corporation Discriminative syntactic word order model for machine translation
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
US8150677B2 (en) * 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
US9176952B2 (en) * 2008-09-25 2015-11-03 Microsoft Technology Licensing, Llc Computerized statistical machine translation with phrasal decoder
US8407042B2 (en) 2008-12-09 2013-03-26 Xerox Corporation Cross language tool for question answering
US8280718B2 (en) * 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9552355B2 (en) 2010-05-20 2017-01-24 Xerox Corporation Dynamic bi-phrases for statistical machine translation
US8612205B2 (en) 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US20120035905A1 (en) 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
KR101745349B1 (ko) * 2010-09-02 2017-06-09 에스케이플래닛 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
US8775155B2 (en) 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
TWI434187B (zh) * 2010-11-03 2014-04-11 Inst Information Industry 文字轉換方法與系統
CN102486770B (zh) * 2010-12-02 2014-09-17 财团法人资讯工业策进会 文字转换方法与系统
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8798984B2 (en) 2011-04-27 2014-08-05 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
WO2012170817A1 (en) * 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8781810B2 (en) 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9026425B2 (en) 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9652453B2 (en) 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
US9606988B2 (en) 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
US9442922B2 (en) * 2014-11-18 2016-09-13 Xerox Corporation System and method for incrementally updating a reordering model for a statistical machine translation system
US9367541B1 (en) 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US10025779B2 (en) 2015-08-13 2018-07-17 Xerox Corporation System and method for predicting an optimal machine translation system for a user based on an updated user profile
US9836453B2 (en) 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10747962B1 (en) 2018-03-12 2020-08-18 Amazon Technologies, Inc. Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
US10769307B2 (en) 2018-05-30 2020-09-08 Bank Of America Corporation Processing system using natural language processing for performing dataset filtering and sanitization
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57201958A (en) * 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
JP3345763B2 (ja) 1994-03-04 2002-11-18 日本電信電話株式会社 自然言語翻訳装置
JPH1011447A (ja) 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
JP3430007B2 (ja) 1998-03-20 2003-07-28 富士通株式会社 機械翻訳装置及び記録媒体

Also Published As

Publication number Publication date
WO2003083709A2 (en) 2003-10-09
US7624005B2 (en) 2009-11-24
US20040024581A1 (en) 2004-02-05
AU2003222126A1 (en) 2003-10-13
JP2005527894A (ja) 2005-09-15
WO2003083709A3 (en) 2004-09-10
CN1647068A (zh) 2005-07-27

Similar Documents

Publication Publication Date Title
DE10392450T5 (de) Statistische Maschinenübersetzung
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
Durrani et al. A joint sequence translation model with integrated reordering
US7774192B2 (en) Method for extracting translations from translated texts using punctuation-based sub-sentential alignment
Padó et al. Cross-lingual annotation projection for semantic roles
US8548794B2 (en) Statistical noun phrase translation
US6539348B1 (en) Systems and methods for parsing a natural language sentence
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US8046211B2 (en) Technologies for statistical machine translation based on generated reordering knowledge
Yang et al. Phrase-based backoff models for machine translation of highly inflected languages
US20030182102A1 (en) Sentence realization model for a natural language generation system
DE3616751A1 (de) Uebersetzungssystem
Yngve et al. Mechanical translation
WO2001086491A2 (en) Machine translation techniques
EP1157500A1 (de) Vorrichtung und verfahren zum verbergen von informationen und vorrichtung und verfahren zum extrahieren von informationen
Corston-Oliver et al. An overview of Amalgam: A machine-learned generation module
DE112020002129T5 (de) Deep-learning-ansatz für datenverarbeitungsspannen
Zhang Evaluating the factual correctness for abstractive summarization
Dias et al. Multilingual aspects of multiword lexical units
Srivastava et al. Extraction of reordering rules for statistical machine translation
Weiner Pronominal anaphora in machine translation
Bisazza et al. Chunk-lattices for verb reordering in Arabic–English statistical machine translation: Special issues on machine translation for Arabic
Dione Pruning the Search Space of the Wolof LFG Grammar Using a Probabilistic and a Constraint Grammar Parser.
Iomdin et al. Learning from Parallel Corpora: Experiments in Machine Translation
Lee et al. Interlingua-based broad-coverage Korean-to-English translation in CCLINC

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final
R003 Refusal decision now final

Effective date: 20150306