DE202005022113U1

DE202005022113U1 - Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet

Info

Publication number: DE202005022113U1
Application number: DE202005022113.9U
Authority: DE
Original assignee: University of Southern California USC
Current assignee: University of Southern California USC
Priority date: 2004-10-12
Filing date: 2005-10-12
Publication date: 2014-02-05
Anticipated expiration: 2015-10-13
Also published as: US8600728B2; DE112005002534T5; JP2008516357A; WO2006042321A3; US20060142995A1; JP5452868B2; WO2006042321A2

Abstract

System mit: einem Trainingsteil, der einen Korpus von Trainingsinformationen auf Zeichenkettenbasis empfängt, um eine Vielzahl von Regeln zu erzeugen, die auf den Trainingsinformationen basieren, und wobei die Regeln Teile von Bäumen als Komponenten der Regeln umfassen; einem Text-Text-Anwendungsteil, der ein n-Gram-Sprachmodell, ein Sprachmodell auf Syntaxbasis und die Regeln für eine Text-Text-Anwendung verwendet; und einem Decodierteil, der eine Zeichenkette in einer in eine Zielsprache zu übersetzenden Quellensprache erhält, die Regeln empfängt und mindestens einen Regelsatz, das n-Gram-Sprachmodell und das Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die Zielsprache zu übersetzen.

Description

PRIORITÄTSANSPRUCH
Diese Anmeldung beansprucht die Priorität unter 35 USC §119(e) zur US-Patentanmeldung Seriennrn. 60/618 244 und 60/618 366, beide eingereicht am 12. Oktober 2004, deren gesamter Inhalt durch Bezugnahme hiermit aufgenommen wird.
Hintergrund
Moderne Maschinenübersetzungssysteme verwenden Wort-Wort- und Ausdruck-Ausdruck-Wahrscheinlichkeitskanalmodelle sowie Wahrscheinlichkeits-n-Gram-Sprachmodelle.
Eine herkömmliche Weise zum Übersetzen unter Verwendung von Maschinenübersetzung ist in 1 dargestellt. 1 stellt das Konzept von Chinesisch und Englisch als Sprachpaar dar, es sollte jedoch selbstverständlich sein, dass ein beliebiges anderes Sprachpaar alternativ verwendet werden kann.
Das Training ist als 150 gezeigt, wobei ein Trainingskorpus 153 verwendet wird. Der Korpus weist eine englische Zeichenkette 151 und eine chinesische Zeichenkette 152 auf.
Ein existierendes Verfahren kann verwendet werden, um die Worte im Trainingskorpus auf einer Wortebene auszurichten. Die ausgerichteten Worte werden in ein Trainingsmodul 155 eingegeben, das verwendet wird, um auf der Basis des Trainingskorpus Wahrscheinlichkeiten 160 zu bilden. Ein Decodiermodul 167 wird verwendet, das das Argument argmax/e P(e)·P(f|e) maximiert und die Wahrscheinlichkeit von e in Anbetracht von bestimmten Sprachen im Korpus maximiert, wobei e und f Worte oder Ausdrücke im Trainingskorpus sind. Das Decodiermodul 167 kann einfach ein Modul innerhalb derselben Einheit wie das Trainingsmodul sein. Der Decodierer nimmt folglich eine neue chinesische Zeichenkette wie z. B. 160 und verwendet die Wahrscheinlichkeiten 160 zusammen mit einem Sprachmodell 161, das ein n-Gram-Sprachmodell sein kann. Der Decodierer gibt englische Zeichenketten, die den höchsten Punktwerten entsprechen, auf der Basis der Wahrscheinlichkeiten und des Sprachmodells aus.
Systeme auf Ausdruckbasis können manchmal die genauesten Übersetzungen ergeben. Diese Systeme sind jedoch häufig zu schwach, um eine Bestandteilsumordnung auf langer Strecke zu fördern, wenn die Quellensätze in eine Zielsprache übersetzt werden, und steuern nicht die global grammatikalische Ausgabe.
Andere Systeme können versuchen, diese Probleme unter Verwendung von Syntax zu lösen. Eine gewisse Umordnung in bestimmten Sprachpaaren kann beispielsweise ausgeführt werden. Eine Studie hat gezeigt, dass viele übliche Übersetzungsmuster selbst für ähnliche Sprachpaare wie z. B. Englisch/Französisch außerhalb den Umfang des Kind-Umordnungsmodells von Yamada & Knight fallen. Dies führte zu verschiedenen möglichen Alternativen. Ein Vorschlag bestand darin, die Syntax mit der Begründung aufzugeben, dass die Syntax eine schlechte Anpassung für die Daten war. Eine weitere Möglichkeit besteht darin, die gültige englische Syntax beizubehalten, während alternative Transformationsmodelle untersucht werden.
Zusammenfassung
Die vorliegende Anmeldung beschreibt die Ausführung einer statistischen Analyse unter Verwendung von Bäumen, die aus den Zeichenketten erzeugt werden. Beim Training werden Bäume erzeugt und verwendet, um zusätzlich zu den Wahrscheinlichkeiten Regeln zu bilden. Bei der Anwendung werden Bäume als Ausgabe verwendet und entweder die Bäume oder von den Bäumen abgeleitete Informationen können ausgegeben werden. Das System kann Zeichenketten von Quellensymbolen eingeben und gibt Zielbäume aus.
Bei einem Ausführungsbeispiel werden Transformationsregeln, die von größeren Fragmenten einer Baumstruktur abhängen, erzeugt. Diese Regeln können manuell oder automatisch durch eine Korpusanalyse erzeugt werden, um einen großen Satz solcher Regeln zu bilden. Spezialfälle von Kreuzung und Divergenz können verwendet werden, um die Algorithmen zu motivieren, eine bessere Erklärung der Daten und bessere Regeln zu erzeugen.
Die vorliegende Beschreibung beschreibt eine Zeichenketten-Baum-Übersetzung. Verschiedene Aspekte werden beschrieben, die eine direkte Übersetzung zwischen der Zeichenkette und dem Syntaxbaum ermöglichen.
Kurzbeschreibung der Zeichnungen
Diese und weitere Aspekte werden nun im Einzelnen mit Bezug auf die zugehörigen Zeichnungen beschrieben, in denen gilt:
1 zeigt ein Blockdiagramm eines Übersetzungssystems;
2 zeigt ein Ausführungsbeispiel unter Verwendung von Baumteilen als Teile der Regeln;
3A–3C zeigen die Bildung von Bäumen und die Ausrichtung der Schritte;
4 zeigt Ableitungsschritte und die daraus induzierten Regeln;
5 zeigt einen Ausrichtungsgraphen und 6 und 7 zeigen minimale Fragmente, die von dem Ausrichtungsgraphen von 5 abgeleitet sind;
8 zeigt, wie die minimalen Fragmente kombiniert werden;
9 zeigt einen Ablaufplan, der auf dem Computer von 10 läuft;
11 und 12 zeigen eine Kreuzung und Umordnung; und
13 zeigt eine Decodierregel.
Ausführliche Beschreibung
Die allgemeine Struktur und die allgemeinen Verfahren und speziellere Ausführungsbeispiele, die verwendet werden können, um verschiedene Arten der Ausführung der allgemeineren Ziele zu bewirken, werden hierin beschrieben.
2 stellt ein Gesamtblockdiagramm eines Ausführungsbeispiels dar. Bei einem Ausführungsbeispiel wird das Regellernen zum Lernen von Regeln für eine Text-Text-Anwendung verwendet. Das Regellernen und die Text-Text-Anwendung können jeweils auf einem Computer 1000, wie z. B. in 10 gezeigt, ausgeführt werden, welcher einen zugehörigen Speicher 1001 umfasst, der die Übersetzungsregeln, Wahrscheinlichkeiten und/oder Modelle speichert. Die hierin beschriebenen Computer können eine beliebige Art von Computer, entweder ein Universal- oder irgendein Spezialcomputer wie z. B. ein Arbeitsplatzrechner sein. Der Computer kann ein Computer der Pentium-Klasse, der auf Windows XP oder Linux läuft, sein oder kann ein McIntosh-Computer sein. Die Programme können in C oder Java oder irgendeiner anderen Programmiersprache geschrieben sein. Die Programme können sich auf einem Speichermedium, z. B. einem magnetischen oder optischen, z. B. dem Computer-Festplattenlaufwerk, einer entnehmbaren Platte oder einem anderen entnehmbaren Medium, befinden. Die Programme können auch über ein Netz betrieben werden.
Bei diesem Ausführungsbeispiel werden die englische Zeichenkette 151 und die chinesische Zeichenkette 152 zuerst hinsichtlich der Worte durch eine Ausrichtungsvorrichtung 251 ausgerichtet. Die englische Zeichenkette wird durch einen Parser 250, wie hierin beschrieben, in einen englischen Baum 255 analysiert, der den Inhalt der englischen Zeichenkette darstellt. Der englische Baum wird zusammen mit der chinesischen Zeichenkette 152 von einem Trainingsmodul 260 auf Zeichenkettenbasis verwendet. Das Übersetzungsmodul 260 erzeugt Wahrscheinlichkeiten, die als 265 gezeigt sind, und erzeugt auch Unterbaum/Unterzeichenketten-Regeln, die das Training anzeigen und als 270 gezeigt sind. Folglich erzeugt die Trainingsvorrichtung Regeln mit Wahrscheinlichkeiten, wobei zumindest ein Teil von zumindest einigen dieser Regeln in Form von Bäumen vorliegen.
Die Regeln und Wahrscheinlichkeiten werden vom Decodiermodul 267 für die anschließende Decodierung einer neuen chinesischen Zeichenkette 160 verwendet. Das Decodiermodul 267 verwendet auch mehrere Sprachmodelle, hier ein n-Gram-Sprachmodell 161, und auch ein Sprachmodell 262 auf Syntaxbasis. Die Ausgabe 280 des Decodierers 267 entspricht allen möglichen englischen Bäumen, die Übersetzungen der chinesischen Zeichenkette gemäß den Regeln sind. Die englischen Bäume mit höchster Bewertung werden dem Benutzer angezeigt. Alternativ kann eine Information, die auf diesen Bäumen basiert, angezeigt werden, beispielsweise eine Zeichenketteninformation, die diesen Bäumen entspricht.
Einige Vorteile des Ausführungsbeispiels umfassen das Folgende. Die Verwendung einer Information von Bäumen innerhalb der Regeln kann ermöglichen, dass das Modell lernt, was die verschiedenen Teile darstellen. Das Maschinenübersetzungssystem von 1 hat beispielsweise keine Vorstellung davon, was ein Substantiv ist, aber das Ausführungsbeispiel kann dies als Teil der Übersetzung lernen. Außerdem stellt das vorliegende Ausführungsbeispiel Baum/Zeichenketten-Regeln im Vergleich zu den Ausdrucksubstitutionsregeln bereit, die vom System von 1 erzeugt werden. Die Verwendung von Bäumen ermöglicht die Verwendung des Sprachmodells 262 auf Syntaxbasis, das im Stand der Technik nicht üblich ist.
Gemäß einem weiteren Ausführungsbeispiel kann die Trainingsinformation in beiden Sprachen vor dem Training in Bäume analysiert werden.
Die Baumausgaben erzeugen Ausgaben, die gut gebildet sind, wobei sie beispielsweise ein Verb an der richtigen Stelle und andere Teile auch an den richtigen Stellen haben. Außerdem erfassen die Baum/Zeichenketten-Regeln eine Information darüber, wann eine Umordnung nützlich sein kann. Die Baum/Zeichenketten-Regeln steuern, wann Funktionsworte zu verwenden sind und wann nicht. Viele der Baum-Zeichenketten-Regeln können jedoch einfache Wort-Ausdruck-Substitutionen sein.
Das Training wird hierin mit Bezug auf die 3–9 beschrieben.
3a zeigt einen französischen Satz (il ne va pas) und einen Analysebaum 300 seiner Übersetzung in Englisch. Der Analysebaum umfasst die herkömmlichen Analyseteile, den Satz S, den Substantivausdruck (NP), den Verbausdruck (VP) und andere übliche Satzteile.
Ein Ausführungsbeispiel definiert Bestimmungsregeln unter Verwendung einer Zeichenkette von einem Quellenalphabet, die auf einen Zielwegebaum abgebildet wird. Knoten dieses Zielwegebaums werden von einem Zielalphabet bezeichnet. Um diese Nomenklatur beizubehalten, werden Symbole vom Quellenalphabet als ”Quellensymbole” bezeichnet. Symbole vom Zielalphabet werden als ”Zielsymbole” bezeichnet. Ein Symbolbaum wird über ein Alphabet Δ als gerichteter Wegebaum definiert. Die Knoten dieses Alphabets sind jeweils mit einem Symbol Δ bezeichnet. Bei einem Ausführungsbeispiel wird ein Prozess, durch den der Symbolbaum von der Zeichenkette von Quellensignalen abgeleitet wird, über die Zielsprache erfasst. Der abzuleitende Symbolbaum wird Zielbaum genannt, da er sich in der Zielsprache befindet. Irgendein Unterbaum dieses Baums wird Zielunterbaum genannt.
Eine Ableitungszeichenkette S wird als geordnete Folge von Elementen abgeleitet, wobei jedes der Elemente entweder ein Quellensymbol oder ein Zielunterbaum ist.
Das Folgende ist eine formale Definition des Ableitungsprozesses. In Anbetracht einer Ableitungszeichenkette S tauscht ein Ableitungsschritt die Unterzeichenkette S' von S gegen einen Zielunterbaum T aus, der die folgenden Eigenschaften aufweist:

1. Irgendein Zielunterbaum in S' ist auch ein Unterbaum von T,
2. Irgendein Zielunterbaum in S, der sich nicht in S' befindet, teilt sich keine Knoten mit T, und
3. Eine Ableitung von einer Zeichenkette S von Quellensymbolen zum Zielbaum T ist eine Folge von Ableitungsschritten, die T aus S erzeugen.

Man betrachte das spezielle Beispiel der Ausrichtung in 3a. 3B stellt verschiedene Ableitungen des Zielbaums 300 aus der französischen Quellenzeichenkette dar. Die drei Ableitungen sind als 201, 202 und 203 bezeichnet. Jede von diesen Ableitungen ist mit den obigen Definitionen 1 bis 3 konsistent.
Die Analyse dieser Ableitungen zeigt jedoch, dass mindestens eine der Ableitungen ”falscher” ist als die anderen. In der zweiten Ableitung 202 wurde beispielsweise das Wort ”pas” gegen das englische Wort ”he” ausgetauscht, was falsch ist.
Die Ausrichtung ermöglicht, dass das Trainingssystem zwischen einer guten Ableitung und einer schlechten Ableitung unterscheidet. Die Ausrichtung zwischen S und T kann ausgeführt werden, um die möglichen Ableitungen zu verbessern. Wenn S eine Zeichenkette von Quellensymbolen ist und T ein Zielbaum ist, dann würden die Definitionen zu der Schlussfolgerung führen, dass jedes Element von S in exakt einem Schritt in der Ableitung ausgetauscht wird und jeder Knoten von T in exakt einem Schritt in der Ableitung erzeugt wird. Für jedes Element s von s₁ wird folglich ein Satz, der ausgetauscht (s, D) genannt wird, im Schritt der Ableitung D erzeugt, während dessen s ausgetauscht wird. Dieser Satz verfolgt, wo in der Ableitung verschiedene Teile ausgetauscht werden.
Bei 201 wird das Wort ”va” im zweiten Schritt der Ableitung ausgetauscht.
Jede der verschiedenen Ableitungen umfasst eine Anzahl von ”Schritten”, wobei jeder Schritt daher verschiedene Dinge tut. Die Ableitung 201 umfasst beispielsweise die Schritte 210, 211, 212, 213. In 201 wird beispielsweise das französische Wort ”va” während des zweiten Schritts 211 der Ableitung ausgetauscht. In Schreibweisenform können folglich Dateien erzeugt werden, die den Schritt angeben, in dem die Worte ausgetauscht werden. Hier gilt beispielsweise
Ausgetauscht (s, D) = 2
Analog kann jeder Knoten t von T eine definierte Datei aufweisen, die erzeugt (T, D) genannt wird, so dass es der Schritt der Ableitung D ist, während dessen t erzeugt wird. In 201 werden die mit Hilfe und VP (Verbausdruck) bezeichneten Knoten während des dritten Schritts 212 der Ableitung erzeugt. Folglich gilt erzeugt (AUX, D) = 3 und erzeugt (VP, D) = 3.
In Anbetracht einer Zeichenkette S von Quellensymbolen und eines Zielbaums T bildet eine Ausrichtung A in Bezug auf S und T eine Relation zwischen den Blättern von T und den Elementen von S. Wenn die Ableitung D zwischen S und T ausgewählt wird, dann wird die durch D induzierte Ausrichtung durch Ausrichten eines Elements s von S auf einen Blattknoten t von T erzeugt, aber wenn und nur wenn das ausgetauscht (s, D) gleich dem erzeugt (T, D) ist. Mit anderen Worten, ein Quellenwort wird auf ein Zielwort ”ausgerichtet”, wenn das Zielwort während desselben Schritts wie desjenigen, bei dem das Quellenwort ausgetauscht wird, erzeugt wird.
3C stellt Ausrichtungen dar. Der Baum 301 in 1 entspricht der Ableitung 201 in 3B. In analoger Weise: 302 entspricht 202 und 303 entspricht 203. Eine Regel zum Analysieren der Ableitungen wird beschrieben. Der Satz von ”guten” Ableitungen gemäß einer Ausrichtung A ist präzise jener Satz von Ableitungen, die Ausrichtungen A' induzieren, so dass A eine Unterausrichtung von A' ist. Der Begriff Unterausrichtung, wie hierin verwendet, erfordert, dass A ⊆ A' gilt. Da Ausrichtungen einfache mathematische Beziehungen sind, ist dies relativ leicht festzustellen. Mit anderen Worten, A ist eine Unterausrichtung von A', wenn A 2 Elemente nur dann ausrichtet, wenn A' auch diese zwei Elemente ausrichtet. Dies ist aus 3B und 3C intuitiv verständlich. Die zwei Ableitungen, die auf den ersten Blick korrekt zu sein scheinen, umfassen die Ableitungen 201 und 203. Diese sind Superausrichtungen der in 3A gegebenen Ausrichtung. Die Ableitung 202, die klar falsch ist, ist keine solche Superausrichtung.
In Notation ausgedrückt wird die Ableitung durch eine Ausrichtung A zugelassen, wenn sie eine Superausrichtung von A induziert. Der Satz von Ableitungen zwischen der Quellenzeichenkette S und der Zielzeichenkette T, die durch die Ausrichtung A zugelassen werden, kann mit
δ_A(S, T)
bezeichnet werden.
Im Wesentlichen kann jeder Ableitungsschritt erneut als Regel betrachtet werden. Durch Kompilieren des Satzes von Ableitungsschritten, die in irgendeiner Ableitung von δA(S, T) verwendet werden, kann das System folglich alle relevanten Regeln ermitteln, die aus (S, T, A) gewonnen werden können. Jeder Ableitungsschritt wird gemäß diesem Ausführungsbeispiel in eine brauchbare Regel umgewandelt.
Diese Regel kann für die Bildung von automatischen Trainingsinformationen verwendet werden.
Der Ableitungsschritt 212 in der Ableitung 201 beginnt mit einem Quellensymbol ”ne”, dem ein Zielunterbaum folgt, der bei VB mit einer Wurzel versehen ist und dem ein weiteres Quellensymbol ”pas” folgt. Diese drei Elemente der Ableitung werden durch die Ableitung gegen einen Zielunterbaum ausgetauscht, der bei VP mit einer Wurzel versehen ist und der die Quellensymbole verwirft und den begonnenen Zielunterbaum, der bei VB mit einer Wurzel versehen ist, enthält.
4 stellt dar, wie dieser Austauschprozess durch eine Regel erfasst werden kann. 401 zeigt den Ableitungsschritt links, wo die Elemente gegen andere Elemente ausgetauscht werden. 402 zeigt die induzierte Regel, die gebildet wird. Die Eingabe in die Regel 402 umfasst die Wurzeln der Elemente in der Ableitungszeichenkette, die ausgetauscht werden. Hier ist die Wurzel des Symbols als Symbol selbst definiert. Die Ausgabe der Regel ist ein Symbolbaum. Einige der Blätter des Baums können vielmehr mit Variablen als Symbolen vom Zielalphabet bezeichnet sein. Die Variablen im Symbolbaum entsprechen den Elementen der Eingabe in die Regel. Das mit x2 bezeichnete Blatt im induzierten Baum bedeutet beispielsweise, dass, wenn diese Regel angewendet wird, x2 durch den bei VB mit Wurzel versehenen Zielunterbaum ausgetauscht wird, da VB das zweite Element der Eingabe ist. Die zwei induzierten Regeln 403 und 404 werden aus den jeweiligen Ableitungen erhalten. Folglich kann dieses Regelformat eine Verallgemeinerung von CFG-Regeln sein. Jeder Ableitungsschritt kann dieses System verwenden, um eine Regel auf diese Weise abzubilden.
In Anbetracht einer Quellenzeichenkette S, einer Zielzeichenkette T und einer Ausrichtung A kann der Satz δA(S, T) folglich als Satz von Regeln in einer beliebigen Ableitung D ∊ δA(S, T) definiert werden. Dieser Satz von Regeln ist der Satz von Regeln, die aus dem Tripel (S, T, A) gefolgert werden können.
Bei einem Ausführungsbeispiel kann der Satz von Regeln δA(S, T) aus dem Tripel (S, T, A) unter Verwendung eines speziellen Ausrichtungsgraphen der in 5 gezeigten Art gelernt werden. Der Ausrichtungsgraph ist ein Graph, der das Tripel (S, T, A) als mit Wurzel versehenen, gerichteten, azyklischen Graphen darstellt. 5 ist mit der Richtung als Oben-Unten gezeigt, es sollte jedoch selbstverständlich sein, dass dies alternativ sehr leicht auf den Kopf gestellt werden kann. Bei einem Ausführungsbeispiel werden bestimmte Fragmente des Ausrichtungsgraphen in Regeln von δA(S, T) umgewandelt. Ein Fragment ist hierin als gerichteter azyklischer Graph und G als nicht-trivialer Untergraph G' definiert, wenn sich ein Knoten A in G' befindet. Hier bedeutet nicht-trivial, dass der Graph mehr als nur einen einzigen Modus aufweist. Der Untergraph G' ist derart, dass, wenn sich der Knoten n in G' befindet, dann entweder n ein Senkenknoten von G' (ein Knoten ohne Kinder) ist oder alle der Kinder von n in G' liegen und mit allen von dessen Knoten verbunden sind. 6 stellt Graphfragmente dar, die aus dem Ausrichtungsgraphen von 5 gebildet sind.
Die Spanne des Knotens N des Ausrichtungsgraphen bildet die Teilmenge von Knoten von S, die von n aus erreichbar sind. Eine Spanne ist als zusammenhängend definiert, wenn sie alle Elemente in einer zusammenhängenden Unterzeichenkette von S enthält. Der Abschluss der Spanne (n) ist die kürzeste zusammenhängende Spanne, die eine übergeordnete Menge der Spanne (n) ist, beispielsweise wäre der Abschluss von (s2, s3, s5, s7) (s2, s3, s4, s5, s6, s7). Der Ausrichtungsgraph von 5 ist mit der Spanne jedes Knotens angegeben. Jeder Knoten wie z. B. 500 besitzt beispielsweise eine Angabe 502, die die Spanne dieses Knotens darstellt.
Ein Aspekt besteht darin, den kleinsten Satz von Informationen aus diesen Graphen zu ermitteln, der den Satz von Regeln bilden kann. Gemäß diesem Aspekt werden erste kleinere Teile der Regeln gefunden und dann werden die Regeln zusammengesetzt, um größere Teile zu bilden. Das Stück kann auf verschiedene Weisen definiert werden – bei einem Ausführungsbeispiel werden bestimmte Fragmente innerhalb des Ausrichtungsgraphen als spezielle Fragmente definiert, die Grenzgraphenfragmente genannt werden. Grenzsätze des Ausrichtungsgraphen umfassen den Satz von Knoten n, in dem jeder Knoten n' des Ausrichtungsgraphen, der mit n verbunden ist, aber weder ein Vorgänger noch ein Nachfolger von n ist, Spanne(n') ∩ Abschluss(Spanne(n)) = 0. Der Grenzsatz in 5 ist halbfett und kursiv gezeigt.
Das Grenzgraphenfragment eines Ausrichtungsgraphen ist das Graphenfragment, bei dem die Wurzel und alle Senken innerhalb des Grenzsatzes liegen. Grenzgraphenfragmente haben die Eigenschaft, dass die Spannen der Senken des Fragments jeweils zusammenhängend sind. Diese Spannen bilden eine Trennung der Spanne der Wurzel, die auch zusammenhängend ist. Ein Transformationsprozess zwischen Spannen und Wurzeln kann gemäß dem Folgenden ausgeführt werden:

1) Zuerst werden die Senken in der durch die Trennung definierten Reihenfolge angeordnet. Die Senke, deren Spanne der erste Teil der Spanne der Wurzel ist, geht zuerst. Diesem folgt Se, dessen Spanne der zweite Teil der Spanne der Wurzel ist. Dies bildet die Eingabe der Regel.
2) Als nächstes werden die Senkenknoten des Fragments gegen eine Variable ausgetauscht, die ihrer Position in der Eingabe entspricht. Dann wird der Baumteil des Fragments genommen, beispielsweise indem das Fragment auf T projiziert wird. Dies bildet die Ausgabe der Regel.

6 stellt bestimmte Graphenfragmente und die Regeln dar: sowohl Eingabe als auch Ausgabe, die aus diesen Graphenfragmenten erzeugt werden. Regeln, die gemäß der Umwandlung zwischen dem Ausrichtungsgraphen und den Regeln konstruiert werden, befinden sich innerhalb einer Teilmenge, die ρ_A(S, T) genannt wird.
Eine Anzahl von Regelgewinnungsverfahren werden auch hierin beschrieben.
Bei einem ersten Ausführungsbeispiel werden Regeln von ρ_A(S, T) aus dem Ausrichtungsgraphen durch Durchsuchen des Raums der Graphenfragmente nach Grenzgraphenfragmenten gewonnen. Ein denkbares Problem bei diesem Verfahren besteht jedoch darin, dass der Suchraum aller Fragmente eines Graphen zur Größe des Graphen exponentiell wird. Folglich kann die Ausführung dieser Prozedur eine relativ lange Zeit dauern. Das Verfahren kann verbessert werden, indem die folgenden Vereinfachungen durchgeführt werden.
Der Grenzsatz eines Ausrichtungsgraphen kann in einer Zeit identifiziert werden, die zur Größe des Graphen linear ist. Die zweite Vereinfachung besteht darin, dass für jeden Knoten N des Grenzsatzes ein bei n mit Wurzel versehenes eindeutiges minimale Grenzgraphenfragment besteht. Aufgrund der Definition des Grenzsatzes kann irgendein Knoten n', der sich nicht im Grenzsatz befindet, kein bei n' mit Wurzel versehenes Grenzgraphenfragment aufweisen. Die Definition eines minimalen Fragments erfordert, dass das Grenzgraphenfragment ein Untergraph jedes anderen Grenzgraphenfragments, das den Se-Weg aufweist, ist.
Für einen Ausrichtungsgraphen, der k Knoten aufweist, bestehen höchstens k minimale Grenzgraphenfragmente.
7 zeigt die sieben minimalen Grenzgraphenfragmente vom Ausrichtungsgraphen von 5. Alle der anderen Grenzgraphenfragmente können durch Zusammensetzen von zwei oder mehr minimalen Graphenfragmenten erzeugt werden. 8 stellt dar, wie die anderen Grenzgraphenfragmente auf diese Weise erzeugt werden können.
Folglich können der gesamte Satz von Grenzgraphenfragmenten sowie alle von diesen Fragmenten ableitbaren Regeln systematisch gemäß dem Ablaufplan von 9 berechnet werden. Der Ablaufplan von 9 kann beispielsweise auf dem Computersystem von 10 abgearbeitet werden. Bei 900 wird der Satz von minimalen Grenzgraphenfragmenten für jedes Trainingspaar berechnet. Allgemeiner kann ein beliebiger minimaler Satz von Informationen, der als Trainingssatz verwendet werden kann, bei dieser Operation erhalten werden.
Bei 910 wird der Satz von Graphenfragmenten, die sich aus dem Zusammensetzen der minimalen Graphenfragmente ergeben, berechnet. Dies ermöglicht, dass die von den minimalen Hauptgrenzgraphenfragmenten abgeleiteten Regeln als Basis für alle Regeln betrachtet werden, die von den Grenzgraphenfragmenten ableitbar sind.
Die Regeln werden tatsächlich bei 920 abgeleitet. Diese Regeln wurden von den minimalen Fragmenten abgeleitet. Die Regeln umfassen Bäume oder von diesen Bäumen abgeleitete Informationen.
Bei 930 werden die Regeln von den minimalen Fragmenten kombiniert, um ”zusammengesetzte” Regeln zu bilden.
Folglich wird das Gewinnen von Regeln zu einer Aufgabe zum Auffinden des Satzes von minimalen Grenzgraphenfragmenten irgendeines gegebenen Ausrichtungsgraphen.
Dies wird durch Berechnen des Grenzsatzes des Ausrichtungsgraphen ausgeführt. Für jeden Knoten des Grenzsatzes wird das an dem Knoten mit Wurzel versehene minimale Grenzgraphenfragment bestimmt. Die Berechnung des Grenzsatzes kann in einem einzelnen Durchgang durch den Ausrichtungsgraphen berechnet werden. Er wird als Vereinigung jedes Knoten mit seiner Spanne und auch mit seiner Komplementspanne berechnet, was die Vereinigung der Komplementspanne seiner Eltern und der Spanne aller seiner Geschwister ist. Hier sind Geschwister Knoten, die sich denselben Elternteil teilen.
Ein Knoten n befindet sich im Grenzsatz, wenn und nur wenn seine Komplementspanne (n) ∩ Abschluss(Spanne(n)) gleich 0 ist. Folglich fasst die Komplementspanne fast die Spannen aller Knoten zusammen, die weder Vorgänger noch Nachfolger von n sind. Dieser Schritt erfordert nur einen einzelnen Durchlauf durch den Graphen und verläuft folglich in linearer Zeit.
Der zweite Schritt der Berechnung des am Knoten mit Wurzel versehenen minimalen Grenzgraphenfragments ist auch relativ unkompliziert. Für jeden Knoten n des Grenzsatzes wird n erweitert. Solange ein gewisser Senkenknoten n' des resultierenden Graphenfragments vorliegt, der sich nicht im Grenzsatz befindet, muss n' auch erweitert werden. Nach der Berechnung des am Knoten des Grenzsatzes mit Wurzel versehenen minimalen Graphenfragments wurde jeder Knoten des Ausrichtungsgraphen folglich höchstens einmal erweitert. Daher kann diese Operation auch in linearer Zeit ablaufen.
Das Obige hat bestimmte Aspekte vereinfacht, nicht ausgerichtete Elemente werden beispielsweise ignoriert. Prozesse zum Aufnehmen dieser nicht ausgerichteten Elemente können jedoch bestimmt werden. Dieses System berechnet alle Ableitungen entsprechend allen Weisen zum Berücksichtigen von nicht ausgerichteten Worten und sammelt Regeln von allen Ableitungen. Überdies können diese Verfahren Ableitungen umfassen, bei denen Unterzeichenketten vielmehr gegen Sätze von Bäumen als gegen einen einzelnen Baum ausgetauscht werden.
Dies entspricht dem Zulassen von Regeln, die nicht erfordern, dass die Ausgabe ein einzelner Wegebaum ist. Diese Verallgemeinerung kann die Erläuterung von linguistischen Phänomenen wie z. B. das unmittelbare Übersetzen von ”va” in ”does go” ermöglichen, anstatt die Erzeugung des Hilfsworts ”does” bis später in der Ableitung zu verzögern.
Das Obige wurde mit einer Anzahl von Beobachtungen getestet. Die Qualität der Ausrichtung spielt eine wichtige Rolle in dieser Ableitung. Überdies wird das Verfahren, das auf das Ablaufen in linearer Zeit vereinfacht wird, kaum durch die Größe der Regeln von Auszügen beeinflusst und erzeugt gute Effekte.
11 identifiziert eine Ursache für die Kreuzung zwischen englisch und französisch, die auf andere Sprachpaare erweitert werden kann. Adverben in Französisch erscheinen häufig nach dem Verb, dies ist jedoch in Englisch weniger üblich. Ein Maschinen-Parser erzeugt einen verschachtelten Verbausdruck, wenn die Adverben vorhanden sind. Dies verhindert, dass eine Kindumordnung ermöglicht, dass das Verb und die Adverben durchdrungen werden sollten. Eine Umordnung auf mehreren Ebenen, wie in 11 gezeigt, kann diese Arten von Kreuzungen verhindern oder verringern.
Eine Lösung, die anfänglich von Fox vorgeschlagen wurde, kann darin bestehen, die Verbausdrücke abzuflachen. Dies bildet eine Lösung für dieses Satzpaar. Sie kann auch Adverb-Verb-Umordnungen berücksichtigen. Die Abflachung der Baumstruktur ist nicht notwendigerweise eine allgemeine Lösung, da sie nur für eine sehr begrenzte Anzahl von syntaktischen Kategorien gelten kann. Manchmal löst jedoch die Abflachung der Baumstruktur nicht die Kreuzung in den Knotenumordnungswegen. In diesen Modellen bleibt eine Kreuzung zwischen MD und AUX, egal wie VPs abgeflacht werden.
Das Transformationsregelmodell erzeugt eine lexikalische Regel, wie in 12 als 1200 gezeigt. Diese lexikalische Regel ermöglicht die Transformation von ”will be” in -sera- als einzige Weise zum Lösen der Kreuzung.
Diese Verfahren können auch für die Decodierung verwendet werden, wie hierin beschrieben. Dieses Ausführungsbeispiel beschreibt eine automatische Übersetzung von natürlichen Quellensprachsätzen in natürliche Zielsprachsätze unter Verwendung von komplexen Wahrscheinlichkeitsmodellen von syntaktischer und semantischer Regelübersetzung von Wort zu Wort, Ausdruck zu Ausdruck. Dies beschreibt auch Wort-, Syntax- und semantische Wahrscheinlichkeitssprachmodelle.
Dieses zweite Ausführungsbeispiel bildet Bäume direkt aus den Informationen auf Zeichenkettenbasis, wobei hier die Eingangsinformation die zu übersetzende Information ist. Die Übersetzung wird durch automatisches Ableiten einer Anzahl von Zielsprachanalysebäumen vom Quellensprachsatz konstruiert, der als Eingabe gegeben wird. Jeder Baum wird durch eine gewichtete Kombination zwischen den Wahrscheinlichkeitsmodellen sowie einen zusätzlichen Satz von Sprachmerkmalen bewertet. Der Baum mit maximaler Wahrscheinlichkeit stellt die Übersetzung in die Zielsprache bereit.
Dieses Ausführungsbeispiel definiert ein kreuzsprachliches Analyserahmenwerk, das die Entwicklung von statistischen Übersetzungssystemen ermöglicht, die eine beliebige Art von Wahrscheinlichkeitskanal oder Zielsprachmodell verwenden: irgendeines auf Wortbasis, Ausdruckbasis, Syntaxbasis oder semantischer Basis.
Der Kanal und die Zielsprachmodelle können direkt aus einem parallelen Korpus unter Verwendung von herkömmlichen Parameterabschätzungsverfahren wie z. B. dem Erwartungsmaximierungsalgorithmus trainiert werden. Die Modelle können alternativ aus hinsichtlich Worten oder Ausdrücken ausgerichteten Korpora abgeschätzt werden, die unter Verwendung von Modellen, die keine Kenntnis der Syntax haben, ausgerichtet wurden. Außerdem ermöglicht dies die Untersuchung eines viel größeren Satzes von Übersetzungsmöglichkeiten.
Bei diesem Ausführungsbeispiel wird ein Zielsprachanalysebaum direkt aus der Quellensprachzeichenkette erzeugt. Alle Kanaloperationen werden als eine der verschiedenen Arten von Übersetzungsregeln verkörpert. Einige von diesen Operationen sind von lexikalischer Art, wie z. B. die Wort-Wort- oder Ausdruck-Ausdruck-Übersetzungsregeln. Andere Regeln sind syntaktisch.
Tabelle 1 stellt Regeln dar, die aus den Daten automatisch gelernt werden.
Tabelle 1
Diese Übersetzungsregeln fallen in eine Anzahl von verschiedenen Kategorien.
Lexikalische einfache Regeln sind Regeln wie die Nummern 1–7, die syntaktische Bestandteile einer Ebene haben, die den Zielsprachteil dominieren. Diese Regeln umfassen eine Art des Worts, das Wort selbst und die Übersetzung.
Lexikalische komplexe Regeln sind Regeln wie Nummer 8, wo mehrere Ebenen von syntaktischen Bestandteilen vorliegen, die den Zielsprachteil dominieren.
Die Regeln 10, 11, 16 und 17 sind lexikalisch verankerte komplexe Regeln. Diese Regeln erläutern, wie komplex syntaktische Zielstrukturen auf gemischten Eingaben konstruiert werden sollten. Die gemischten Eingaben können lexikalische Quellensprachelemente und syntaktische Bestandteile der Elementarzielsprache sein. Die Regel 16 sagt beispielsweise, dass, wenn das chinesische Zeichen
zwischen zwei syntaktischen Bestandteilen x1 x0 vorkommt, dann der resultierende Zielanalysebaum ein NP mit NP:x0 und X1:VP ist. Mit anderen Worten, diese Regel speichert Ordnungsinformationen für die syntaktischen Bestandteile zwischen den Sprachen.
Die syntaktischen einfachen Regeln sind Regeln wie die Regel 13, die ermöglichen, dass syntaktische Zielstrukturen abgeleitet werden. Schließlich ermöglichen syntaktische komplexe Regeln, dass syntaktische Zielstrukturen mehrerer Ebenen abgeleitet werden. Dieses Verfahren kann kreuzsprachliche Übersetzungsregeln wie z. B. 11 und 16 verwenden, die auf lexikalische Quellensprachelemente und syntaktische Zielsprachkomponenten oder -bestandteile Bezug nehmen. Man beachte, dass viele von diesen Regeln Merkmale umfassen, die tatsächlich Informationen auf Baumbasis sind, die in Zeichenkettenform geschrieben sind. NP(DT (”the”), x0: ... stellt beispielsweise Informationen auf Baumbasis dar.
13 stellt eine Ableitung in syntaktischer Baumform für den Eingangssatz dar. Eine Durchquerung dieser Ableitung von oben nach unten ermöglicht die Erzeugung des Zielsatzes, da jeder Knoten in der Ableitung explizit die Reihenfolge codiert, in der die Kinder die Durchquerung in der Zielsprache benötigen.
Die Decodierung wird unter Verwendung von Anhäufungen einer Decodierung gemäß verschiedenen Ebenen ausgeführt. In einem ersten Schritt wird jede der Regeln zuerst auf die individuellen Worte innerhalb des Ausdrucks 1300 angewendet. Man beachte, dass eine existierende Software den chinesischen Ausdruck 160 bereits in seine individuellen Worte unterteilt hat. Jedes Wort wie z. B. 1302 wird gegen die festgelegten Regeln ausgewertet, um festzustellen, ob irgendeine Regel für dieses Wort allein gilt. Das Wort 1302 besitzt beispielsweise eine explizite Regel 1304 (Regel 1), die für dieses einzelne Wort gilt. Dies bildet eine erste Ebene von Regeln, die als Regelebene 1 gezeigt ist; 1310.
In der Ebene 2 wird jedes Paar von Worten analysiert. Das Paar 1302, 1312 wird beispielsweise durch die Regel 1314 analysiert. Ebenso wird das Paar 1312, 1316 analysiert, um festzustellen, ob irgendwelche Regeln für dieses Paar gelten. Die Regel 1314 gilt beispielsweise für irgendein Wort, dem das Wort 1312 folgt. Folglich gilt die Regel 1314 für das Wortpaar 1302, 1312. Diese doppelten Verbundregeln bilden die Ebene 2; 1320, analog werden in der Ebene 3 Tripletts analysiert und diesem folgen Quadrupletts und dergleichen, bis die Regel der oberen Ebene, die als Ebene x gezeigt ist, ausgeführt wird.
Jede von diesen Regeln umfasst Zeichenketten für Zeichenkettenteile innerhalb der Regel. Die Regel 13 zeigt beispielsweise die Informationen eines speziellen Baums, die im Textformat geschrieben sind. Der Baumteil kann Variablen innerhalb des Baums umfassen.
Wenn dies alles beendet ist, wird der englische Baum als Übersetzung auf der Basis des Baums ausgegeben, der unter allen Bäumen, die gefunden werden, den höchsten Punktwert besitzt.

Claims

System mit: einem Trainingsteil, der einen Korpus von Trainingsinformationen auf Zeichenkettenbasis empfängt, um eine Vielzahl von Regeln zu erzeugen, die auf den Trainingsinformationen basieren, und wobei die Regeln Teile von Bäumen als Komponenten der Regeln umfassen; einem Text-Text-Anwendungsteil, der ein n-Gram-Sprachmodell, ein Sprachmodell auf Syntaxbasis und die Regeln für eine Text-Text-Anwendung verwendet; und einem Decodierteil, der eine Zeichenkette in einer in eine Zielsprache zu übersetzenden Quellensprache erhält, die Regeln empfängt und mindestens einen Regelsatz, das n-Gram-Sprachmodell und das Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die Zielsprache zu übersetzen.
System nach Anspruch 1, welches ferner einen Speicher umfasst, der die Regeln, einschließlich Teilen von Bäumen, als Übersetzungsregeln in einer Unterbaum-Unterzeichenketten-Regelform für eine Maschinenübersetzung speichert und auch Wahrscheinlichkeiten für die Regeln speichert.
System nach Anspruch 2, wobei der Anwendungsteil arbeitet, um eine zu übersetzende Zeichenkette zu erhalten, Sätze von verschiedenen möglichen Übersetzungsbäumen unter Verwendung der Regeln zu kompilieren und zu bestimmen, welcher dieser Übersetzungsbäume wahrscheinliche Übersetzungen darstellt.
System nach Anspruch 1, wobei der Trainingsteil einen Ausrichtungsgraphen bildet, der eine Umwandlung zwischen der Quelle, dem Ziel und der Ausrichtung darstellt, und Fragmente des Ausrichtungsgraphen in Regeln umwandelt.
System nach Anspruch 4, wobei die Regeln durch Bestimmen von Operationen, bei denen Quellensymbole gegen Zielunterbäume ausgetauscht werden, und Bilden von Regeln aus dem Austauschprozess gebildet werden.
System nach Anspruch 4, wobei der Ausrichtungsgraph analysiert wird, um einen kleinsten Satz von Informationen zu bestimmen, der den Satz von Regeln bilden kann.
System nach Anspruch 3, wobei der Anwendungsteil sowohl ein n-Gram-Sprachmodell als auch ein Sprachmodell auf Syntaxbasis umfasst und verwendet.
System mit: einem Trainingsteil, der Informationselemente in einer ersten und einer zweiten unterschiedlichen Sprache ausrichtet, um ausgerichtete Informationen zu bilden, und Regeln aus den ausgerichteten Informationen gewinnt; wobei zumindest die Informationen in der ersten Sprache in einer Baumform vorliegen und die Regeln in Verbindung mit einem n-Gram-Sprachmodell und einem Sprachmodell auf Syntaxbasis verwendbar sind; und einem Decodierteil, der eine Zeichenkette in einer in eine zweite Sprache zu übersetzenden ersten Sprache erhält, die Regeln empfängt und mindestens einen Regelsatz, das n-Gram-Sprachmodell und das Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die zweite Sprache zu übersetzen.
System nach Anspruch 8, wobei die Informationen sowohl in der ersten als auch der zweiten Sprache in der Baumform vorliegen.
System nach Anspruch 8, wobei der Trainingsteil Informationen auf Baumbasis zu einem Ausrichtungsgraphen bildet, der zwischen der ersten Sprache und der zweiten Sprache ausrichtet, und Regeln aus dem Ausrichtungsgraphen gewinnt.
System nach Anspruch 8, welches ferner vor dem Gewinnen von Regeln das Bilden eines verringerten Satzes von Fragmenten des Ausrichtungsgraphen umfasst.
System mit einem Speicher, der zumindest einen Regelsatz speichert, der sowohl Regeln, die zumindest Teile von Unterbäumen umfassen, als auch Wahrscheinlichkeiten umfasst, und einem Decodierteil, der eine Zeichenkette in einer in eine Zielsprache zu übersetzenden Quellensprache erhält und den mindestens einen Regelsatz empfängt und den mindestens einen Regelsatz, ein n-Gram-Sprachmodell und ein Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die Zielsprache zu übersetzen.
System nach Anspruch 12, wobei der Decodierteil zuerst Regeln auf individuelle Worte anwendet und dann Regeln auf Kombinationen von Worten anwendet.
System nach Anspruch 12, wobei der Decodierteil Bäume als Übersetzung ausgibt.
System nach Anspruch 14, wobei der Decodierteil eine Vielzahl von verschiedenen Bäumen als mögliche Übersetzungen erzeugt und den besten Baum gemäß einer höchsten Wahrscheinlichkeit auswählt.