DE202005022113U1 - Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet - Google Patents
Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet Download PDFInfo
- Publication number
- DE202005022113U1 DE202005022113U1 DE202005022113.9U DE202005022113U DE202005022113U1 DE 202005022113 U1 DE202005022113 U1 DE 202005022113U1 DE 202005022113 U DE202005022113 U DE 202005022113U DE 202005022113 U1 DE202005022113 U1 DE 202005022113U1
- Authority
- DE
- Germany
- Prior art keywords
- rules
- language
- language model
- tree
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
System mit: einem Trainingsteil, der einen Korpus von Trainingsinformationen auf Zeichenkettenbasis empfängt, um eine Vielzahl von Regeln zu erzeugen, die auf den Trainingsinformationen basieren, und wobei die Regeln Teile von Bäumen als Komponenten der Regeln umfassen; einem Text-Text-Anwendungsteil, der ein n-Gram-Sprachmodell, ein Sprachmodell auf Syntaxbasis und die Regeln für eine Text-Text-Anwendung verwendet; und einem Decodierteil, der eine Zeichenkette in einer in eine Zielsprache zu übersetzenden Quellensprache erhält, die Regeln empfängt und mindestens einen Regelsatz, das n-Gram-Sprachmodell und das Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die Zielsprache zu übersetzen.
Description
- PRIORITÄTSANSPRUCH
- Diese Anmeldung beansprucht die Priorität unter 35 USC §119(e) zur US-Patentanmeldung Seriennrn. 60/618 244 und 60/618 366, beide eingereicht am 12. Oktober 2004, deren gesamter Inhalt durch Bezugnahme hiermit aufgenommen wird.
- Hintergrund
- Moderne Maschinenübersetzungssysteme verwenden Wort-Wort- und Ausdruck-Ausdruck-Wahrscheinlichkeitskanalmodelle sowie Wahrscheinlichkeits-n-Gram-Sprachmodelle.
- Eine herkömmliche Weise zum Übersetzen unter Verwendung von Maschinenübersetzung ist in
1 dargestellt.1 stellt das Konzept von Chinesisch und Englisch als Sprachpaar dar, es sollte jedoch selbstverständlich sein, dass ein beliebiges anderes Sprachpaar alternativ verwendet werden kann. - Das Training ist als
150 gezeigt, wobei ein Trainingskorpus153 verwendet wird. Der Korpus weist eine englische Zeichenkette151 und eine chinesische Zeichenkette152 auf. - Ein existierendes Verfahren kann verwendet werden, um die Worte im Trainingskorpus auf einer Wortebene auszurichten. Die ausgerichteten Worte werden in ein Trainingsmodul
155 eingegeben, das verwendet wird, um auf der Basis des Trainingskorpus Wahrscheinlichkeiten160 zu bilden. Ein Decodiermodul167 wird verwendet, das das Argument argmax/e P(e)·P(f|e) maximiert und die Wahrscheinlichkeit von e in Anbetracht von bestimmten Sprachen im Korpus maximiert, wobei e und f Worte oder Ausdrücke im Trainingskorpus sind. Das Decodiermodul167 kann einfach ein Modul innerhalb derselben Einheit wie das Trainingsmodul sein. Der Decodierer nimmt folglich eine neue chinesische Zeichenkette wie z. B.160 und verwendet die Wahrscheinlichkeiten160 zusammen mit einem Sprachmodell161 , das ein n-Gram-Sprachmodell sein kann. Der Decodierer gibt englische Zeichenketten, die den höchsten Punktwerten entsprechen, auf der Basis der Wahrscheinlichkeiten und des Sprachmodells aus. - Systeme auf Ausdruckbasis können manchmal die genauesten Übersetzungen ergeben. Diese Systeme sind jedoch häufig zu schwach, um eine Bestandteilsumordnung auf langer Strecke zu fördern, wenn die Quellensätze in eine Zielsprache übersetzt werden, und steuern nicht die global grammatikalische Ausgabe.
- Andere Systeme können versuchen, diese Probleme unter Verwendung von Syntax zu lösen. Eine gewisse Umordnung in bestimmten Sprachpaaren kann beispielsweise ausgeführt werden. Eine Studie hat gezeigt, dass viele übliche Übersetzungsmuster selbst für ähnliche Sprachpaare wie z. B. Englisch/Französisch außerhalb den Umfang des Kind-Umordnungsmodells von Yamada & Knight fallen. Dies führte zu verschiedenen möglichen Alternativen. Ein Vorschlag bestand darin, die Syntax mit der Begründung aufzugeben, dass die Syntax eine schlechte Anpassung für die Daten war. Eine weitere Möglichkeit besteht darin, die gültige englische Syntax beizubehalten, während alternative Transformationsmodelle untersucht werden.
- Zusammenfassung
- Die vorliegende Anmeldung beschreibt die Ausführung einer statistischen Analyse unter Verwendung von Bäumen, die aus den Zeichenketten erzeugt werden. Beim Training werden Bäume erzeugt und verwendet, um zusätzlich zu den Wahrscheinlichkeiten Regeln zu bilden. Bei der Anwendung werden Bäume als Ausgabe verwendet und entweder die Bäume oder von den Bäumen abgeleitete Informationen können ausgegeben werden. Das System kann Zeichenketten von Quellensymbolen eingeben und gibt Zielbäume aus.
- Bei einem Ausführungsbeispiel werden Transformationsregeln, die von größeren Fragmenten einer Baumstruktur abhängen, erzeugt. Diese Regeln können manuell oder automatisch durch eine Korpusanalyse erzeugt werden, um einen großen Satz solcher Regeln zu bilden. Spezialfälle von Kreuzung und Divergenz können verwendet werden, um die Algorithmen zu motivieren, eine bessere Erklärung der Daten und bessere Regeln zu erzeugen.
- Die vorliegende Beschreibung beschreibt eine Zeichenketten-Baum-Übersetzung. Verschiedene Aspekte werden beschrieben, die eine direkte Übersetzung zwischen der Zeichenkette und dem Syntaxbaum ermöglichen.
- Kurzbeschreibung der Zeichnungen
- Diese und weitere Aspekte werden nun im Einzelnen mit Bezug auf die zugehörigen Zeichnungen beschrieben, in denen gilt:
-
1 zeigt ein Blockdiagramm eines Übersetzungssystems; -
2 zeigt ein Ausführungsbeispiel unter Verwendung von Baumteilen als Teile der Regeln; -
3A –3C zeigen die Bildung von Bäumen und die Ausrichtung der Schritte; -
4 zeigt Ableitungsschritte und die daraus induzierten Regeln; -
5 zeigt einen Ausrichtungsgraphen und6 und7 zeigen minimale Fragmente, die von dem Ausrichtungsgraphen von5 abgeleitet sind; -
8 zeigt, wie die minimalen Fragmente kombiniert werden; -
9 zeigt einen Ablaufplan, der auf dem Computer von10 läuft; -
11 und12 zeigen eine Kreuzung und Umordnung; und -
13 zeigt eine Decodierregel. - Ausführliche Beschreibung
- Die allgemeine Struktur und die allgemeinen Verfahren und speziellere Ausführungsbeispiele, die verwendet werden können, um verschiedene Arten der Ausführung der allgemeineren Ziele zu bewirken, werden hierin beschrieben.
-
2 stellt ein Gesamtblockdiagramm eines Ausführungsbeispiels dar. Bei einem Ausführungsbeispiel wird das Regellernen zum Lernen von Regeln für eine Text-Text-Anwendung verwendet. Das Regellernen und die Text-Text-Anwendung können jeweils auf einem Computer1000 , wie z. B. in10 gezeigt, ausgeführt werden, welcher einen zugehörigen Speicher1001 umfasst, der die Übersetzungsregeln, Wahrscheinlichkeiten und/oder Modelle speichert. Die hierin beschriebenen Computer können eine beliebige Art von Computer, entweder ein Universal- oder irgendein Spezialcomputer wie z. B. ein Arbeitsplatzrechner sein. Der Computer kann ein Computer der Pentium-Klasse, der auf Windows XP oder Linux läuft, sein oder kann ein McIntosh-Computer sein. Die Programme können in C oder Java oder irgendeiner anderen Programmiersprache geschrieben sein. Die Programme können sich auf einem Speichermedium, z. B. einem magnetischen oder optischen, z. B. dem Computer-Festplattenlaufwerk, einer entnehmbaren Platte oder einem anderen entnehmbaren Medium, befinden. Die Programme können auch über ein Netz betrieben werden. - Bei diesem Ausführungsbeispiel werden die englische Zeichenkette
151 und die chinesische Zeichenkette152 zuerst hinsichtlich der Worte durch eine Ausrichtungsvorrichtung251 ausgerichtet. Die englische Zeichenkette wird durch einen Parser250 , wie hierin beschrieben, in einen englischen Baum255 analysiert, der den Inhalt der englischen Zeichenkette darstellt. Der englische Baum wird zusammen mit der chinesischen Zeichenkette152 von einem Trainingsmodul260 auf Zeichenkettenbasis verwendet. Das Übersetzungsmodul260 erzeugt Wahrscheinlichkeiten, die als265 gezeigt sind, und erzeugt auch Unterbaum/Unterzeichenketten-Regeln, die das Training anzeigen und als270 gezeigt sind. Folglich erzeugt die Trainingsvorrichtung Regeln mit Wahrscheinlichkeiten, wobei zumindest ein Teil von zumindest einigen dieser Regeln in Form von Bäumen vorliegen. - Die Regeln und Wahrscheinlichkeiten werden vom Decodiermodul
267 für die anschließende Decodierung einer neuen chinesischen Zeichenkette160 verwendet. Das Decodiermodul267 verwendet auch mehrere Sprachmodelle, hier ein n-Gram-Sprachmodell161 , und auch ein Sprachmodell262 auf Syntaxbasis. Die Ausgabe280 des Decodierers267 entspricht allen möglichen englischen Bäumen, die Übersetzungen der chinesischen Zeichenkette gemäß den Regeln sind. Die englischen Bäume mit höchster Bewertung werden dem Benutzer angezeigt. Alternativ kann eine Information, die auf diesen Bäumen basiert, angezeigt werden, beispielsweise eine Zeichenketteninformation, die diesen Bäumen entspricht. - Einige Vorteile des Ausführungsbeispiels umfassen das Folgende. Die Verwendung einer Information von Bäumen innerhalb der Regeln kann ermöglichen, dass das Modell lernt, was die verschiedenen Teile darstellen. Das Maschinenübersetzungssystem von
1 hat beispielsweise keine Vorstellung davon, was ein Substantiv ist, aber das Ausführungsbeispiel kann dies als Teil der Übersetzung lernen. Außerdem stellt das vorliegende Ausführungsbeispiel Baum/Zeichenketten-Regeln im Vergleich zu den Ausdrucksubstitutionsregeln bereit, die vom System von1 erzeugt werden. Die Verwendung von Bäumen ermöglicht die Verwendung des Sprachmodells262 auf Syntaxbasis, das im Stand der Technik nicht üblich ist. - Gemäß einem weiteren Ausführungsbeispiel kann die Trainingsinformation in beiden Sprachen vor dem Training in Bäume analysiert werden.
- Die Baumausgaben erzeugen Ausgaben, die gut gebildet sind, wobei sie beispielsweise ein Verb an der richtigen Stelle und andere Teile auch an den richtigen Stellen haben. Außerdem erfassen die Baum/Zeichenketten-Regeln eine Information darüber, wann eine Umordnung nützlich sein kann. Die Baum/Zeichenketten-Regeln steuern, wann Funktionsworte zu verwenden sind und wann nicht. Viele der Baum-Zeichenketten-Regeln können jedoch einfache Wort-Ausdruck-Substitutionen sein.
- Das Training wird hierin mit Bezug auf die
3 –9 beschrieben. -
3a zeigt einen französischen Satz (il ne va pas) und einen Analysebaum300 seiner Übersetzung in Englisch. Der Analysebaum umfasst die herkömmlichen Analyseteile, den Satz S, den Substantivausdruck (NP), den Verbausdruck (VP) und andere übliche Satzteile. - Ein Ausführungsbeispiel definiert Bestimmungsregeln unter Verwendung einer Zeichenkette von einem Quellenalphabet, die auf einen Zielwegebaum abgebildet wird. Knoten dieses Zielwegebaums werden von einem Zielalphabet bezeichnet. Um diese Nomenklatur beizubehalten, werden Symbole vom Quellenalphabet als ”Quellensymbole” bezeichnet. Symbole vom Zielalphabet werden als ”Zielsymbole” bezeichnet. Ein Symbolbaum wird über ein Alphabet Δ als gerichteter Wegebaum definiert. Die Knoten dieses Alphabets sind jeweils mit einem Symbol Δ bezeichnet. Bei einem Ausführungsbeispiel wird ein Prozess, durch den der Symbolbaum von der Zeichenkette von Quellensignalen abgeleitet wird, über die Zielsprache erfasst. Der abzuleitende Symbolbaum wird Zielbaum genannt, da er sich in der Zielsprache befindet. Irgendein Unterbaum dieses Baums wird Zielunterbaum genannt.
- Eine Ableitungszeichenkette S wird als geordnete Folge von Elementen abgeleitet, wobei jedes der Elemente entweder ein Quellensymbol oder ein Zielunterbaum ist.
- Das Folgende ist eine formale Definition des Ableitungsprozesses. In Anbetracht einer Ableitungszeichenkette S tauscht ein Ableitungsschritt die Unterzeichenkette S' von S gegen einen Zielunterbaum T aus, der die folgenden Eigenschaften aufweist:
- 1. Irgendein Zielunterbaum in S' ist auch ein Unterbaum von T,
- 2. Irgendein Zielunterbaum in S, der sich nicht in S' befindet, teilt sich keine Knoten mit T, und
- 3. Eine Ableitung von einer Zeichenkette S von Quellensymbolen zum Zielbaum T ist eine Folge von Ableitungsschritten, die T aus S erzeugen.
- Man betrachte das spezielle Beispiel der Ausrichtung in
3a .3B stellt verschiedene Ableitungen des Zielbaums300 aus der französischen Quellenzeichenkette dar. Die drei Ableitungen sind als201 ,202 und203 bezeichnet. Jede von diesen Ableitungen ist mit den obigen Definitionen 1 bis 3 konsistent. - Die Analyse dieser Ableitungen zeigt jedoch, dass mindestens eine der Ableitungen ”falscher” ist als die anderen. In der zweiten Ableitung
202 wurde beispielsweise das Wort ”pas” gegen das englische Wort ”he” ausgetauscht, was falsch ist. - Die Ausrichtung ermöglicht, dass das Trainingssystem zwischen einer guten Ableitung und einer schlechten Ableitung unterscheidet. Die Ausrichtung zwischen S und T kann ausgeführt werden, um die möglichen Ableitungen zu verbessern. Wenn S eine Zeichenkette von Quellensymbolen ist und T ein Zielbaum ist, dann würden die Definitionen zu der Schlussfolgerung führen, dass jedes Element von S in exakt einem Schritt in der Ableitung ausgetauscht wird und jeder Knoten von T in exakt einem Schritt in der Ableitung erzeugt wird. Für jedes Element s von s1 wird folglich ein Satz, der ausgetauscht (s, D) genannt wird, im Schritt der Ableitung D erzeugt, während dessen s ausgetauscht wird. Dieser Satz verfolgt, wo in der Ableitung verschiedene Teile ausgetauscht werden.
- Bei
201 wird das Wort ”va” im zweiten Schritt der Ableitung ausgetauscht. - Jede der verschiedenen Ableitungen umfasst eine Anzahl von ”Schritten”, wobei jeder Schritt daher verschiedene Dinge tut. Die Ableitung
201 umfasst beispielsweise die Schritte210 ,211 ,212 ,213 . In201 wird beispielsweise das französische Wort ”va” während des zweiten Schritts211 der Ableitung ausgetauscht. In Schreibweisenform können folglich Dateien erzeugt werden, die den Schritt angeben, in dem die Worte ausgetauscht werden. Hier gilt beispielsweise
Ausgetauscht (s, D) = 2 - Analog kann jeder Knoten t von T eine definierte Datei aufweisen, die erzeugt (T, D) genannt wird, so dass es der Schritt der Ableitung D ist, während dessen t erzeugt wird. In
201 werden die mit Hilfe und VP (Verbausdruck) bezeichneten Knoten während des dritten Schritts212 der Ableitung erzeugt. Folglich gilt erzeugt (AUX, D) = 3 und erzeugt (VP, D) = 3. - In Anbetracht einer Zeichenkette S von Quellensymbolen und eines Zielbaums T bildet eine Ausrichtung A in Bezug auf S und T eine Relation zwischen den Blättern von T und den Elementen von S. Wenn die Ableitung D zwischen S und T ausgewählt wird, dann wird die durch D induzierte Ausrichtung durch Ausrichten eines Elements s von S auf einen Blattknoten t von T erzeugt, aber wenn und nur wenn das ausgetauscht (s, D) gleich dem erzeugt (T, D) ist. Mit anderen Worten, ein Quellenwort wird auf ein Zielwort ”ausgerichtet”, wenn das Zielwort während desselben Schritts wie desjenigen, bei dem das Quellenwort ausgetauscht wird, erzeugt wird.
-
3C stellt Ausrichtungen dar. Der Baum301 in1 entspricht der Ableitung201 in3B . In analoger Weise:302 entspricht202 und303 entspricht203 . Eine Regel zum Analysieren der Ableitungen wird beschrieben. Der Satz von ”guten” Ableitungen gemäß einer Ausrichtung A ist präzise jener Satz von Ableitungen, die Ausrichtungen A' induzieren, so dass A eine Unterausrichtung von A' ist. Der Begriff Unterausrichtung, wie hierin verwendet, erfordert, dass A ⊆ A' gilt. Da Ausrichtungen einfache mathematische Beziehungen sind, ist dies relativ leicht festzustellen. Mit anderen Worten, A ist eine Unterausrichtung von A', wenn A 2 Elemente nur dann ausrichtet, wenn A' auch diese zwei Elemente ausrichtet. Dies ist aus3B und3C intuitiv verständlich. Die zwei Ableitungen, die auf den ersten Blick korrekt zu sein scheinen, umfassen die Ableitungen201 und203 . Diese sind Superausrichtungen der in3A gegebenen Ausrichtung. Die Ableitung202 , die klar falsch ist, ist keine solche Superausrichtung. - In Notation ausgedrückt wird die Ableitung durch eine Ausrichtung A zugelassen, wenn sie eine Superausrichtung von A induziert. Der Satz von Ableitungen zwischen der Quellenzeichenkette S und der Zielzeichenkette T, die durch die Ausrichtung A zugelassen werden, kann mit
δA(S, T)
bezeichnet werden. - Im Wesentlichen kann jeder Ableitungsschritt erneut als Regel betrachtet werden. Durch Kompilieren des Satzes von Ableitungsschritten, die in irgendeiner Ableitung von δA(S, T) verwendet werden, kann das System folglich alle relevanten Regeln ermitteln, die aus (S, T, A) gewonnen werden können. Jeder Ableitungsschritt wird gemäß diesem Ausführungsbeispiel in eine brauchbare Regel umgewandelt.
- Diese Regel kann für die Bildung von automatischen Trainingsinformationen verwendet werden.
- Der Ableitungsschritt
212 in der Ableitung201 beginnt mit einem Quellensymbol ”ne”, dem ein Zielunterbaum folgt, der bei VB mit einer Wurzel versehen ist und dem ein weiteres Quellensymbol ”pas” folgt. Diese drei Elemente der Ableitung werden durch die Ableitung gegen einen Zielunterbaum ausgetauscht, der bei VP mit einer Wurzel versehen ist und der die Quellensymbole verwirft und den begonnenen Zielunterbaum, der bei VB mit einer Wurzel versehen ist, enthält. -
4 stellt dar, wie dieser Austauschprozess durch eine Regel erfasst werden kann.401 zeigt den Ableitungsschritt links, wo die Elemente gegen andere Elemente ausgetauscht werden.402 zeigt die induzierte Regel, die gebildet wird. Die Eingabe in die Regel402 umfasst die Wurzeln der Elemente in der Ableitungszeichenkette, die ausgetauscht werden. Hier ist die Wurzel des Symbols als Symbol selbst definiert. Die Ausgabe der Regel ist ein Symbolbaum. Einige der Blätter des Baums können vielmehr mit Variablen als Symbolen vom Zielalphabet bezeichnet sein. Die Variablen im Symbolbaum entsprechen den Elementen der Eingabe in die Regel. Das mit x2 bezeichnete Blatt im induzierten Baum bedeutet beispielsweise, dass, wenn diese Regel angewendet wird, x2 durch den bei VB mit Wurzel versehenen Zielunterbaum ausgetauscht wird, da VB das zweite Element der Eingabe ist. Die zwei induzierten Regeln403 und404 werden aus den jeweiligen Ableitungen erhalten. Folglich kann dieses Regelformat eine Verallgemeinerung von CFG-Regeln sein. Jeder Ableitungsschritt kann dieses System verwenden, um eine Regel auf diese Weise abzubilden. - In Anbetracht einer Quellenzeichenkette S, einer Zielzeichenkette T und einer Ausrichtung A kann der Satz δA(S, T) folglich als Satz von Regeln in einer beliebigen Ableitung D ∊ δA(S, T) definiert werden. Dieser Satz von Regeln ist der Satz von Regeln, die aus dem Tripel (S, T, A) gefolgert werden können.
- Bei einem Ausführungsbeispiel kann der Satz von Regeln δA(S, T) aus dem Tripel (S, T, A) unter Verwendung eines speziellen Ausrichtungsgraphen der in
5 gezeigten Art gelernt werden. Der Ausrichtungsgraph ist ein Graph, der das Tripel (S, T, A) als mit Wurzel versehenen, gerichteten, azyklischen Graphen darstellt.5 ist mit der Richtung als Oben-Unten gezeigt, es sollte jedoch selbstverständlich sein, dass dies alternativ sehr leicht auf den Kopf gestellt werden kann. Bei einem Ausführungsbeispiel werden bestimmte Fragmente des Ausrichtungsgraphen in Regeln von δA(S, T) umgewandelt. Ein Fragment ist hierin als gerichteter azyklischer Graph und G als nicht-trivialer Untergraph G' definiert, wenn sich ein Knoten A in G' befindet. Hier bedeutet nicht-trivial, dass der Graph mehr als nur einen einzigen Modus aufweist. Der Untergraph G' ist derart, dass, wenn sich der Knoten n in G' befindet, dann entweder n ein Senkenknoten von G' (ein Knoten ohne Kinder) ist oder alle der Kinder von n in G' liegen und mit allen von dessen Knoten verbunden sind.6 stellt Graphfragmente dar, die aus dem Ausrichtungsgraphen von5 gebildet sind. - Die Spanne des Knotens N des Ausrichtungsgraphen bildet die Teilmenge von Knoten von S, die von n aus erreichbar sind. Eine Spanne ist als zusammenhängend definiert, wenn sie alle Elemente in einer zusammenhängenden Unterzeichenkette von S enthält. Der Abschluss der Spanne (n) ist die kürzeste zusammenhängende Spanne, die eine übergeordnete Menge der Spanne (n) ist, beispielsweise wäre der Abschluss von (s2, s3, s5, s7) (s2, s3, s4, s5, s6, s7). Der Ausrichtungsgraph von
5 ist mit der Spanne jedes Knotens angegeben. Jeder Knoten wie z. B.500 besitzt beispielsweise eine Angabe502 , die die Spanne dieses Knotens darstellt. - Ein Aspekt besteht darin, den kleinsten Satz von Informationen aus diesen Graphen zu ermitteln, der den Satz von Regeln bilden kann. Gemäß diesem Aspekt werden erste kleinere Teile der Regeln gefunden und dann werden die Regeln zusammengesetzt, um größere Teile zu bilden. Das Stück kann auf verschiedene Weisen definiert werden – bei einem Ausführungsbeispiel werden bestimmte Fragmente innerhalb des Ausrichtungsgraphen als spezielle Fragmente definiert, die Grenzgraphenfragmente genannt werden. Grenzsätze des Ausrichtungsgraphen umfassen den Satz von Knoten n, in dem jeder Knoten n' des Ausrichtungsgraphen, der mit n verbunden ist, aber weder ein Vorgänger noch ein Nachfolger von n ist, Spanne(n') ∩ Abschluss(Spanne(n)) = 0. Der Grenzsatz in
5 ist halbfett und kursiv gezeigt. - Das Grenzgraphenfragment eines Ausrichtungsgraphen ist das Graphenfragment, bei dem die Wurzel und alle Senken innerhalb des Grenzsatzes liegen. Grenzgraphenfragmente haben die Eigenschaft, dass die Spannen der Senken des Fragments jeweils zusammenhängend sind. Diese Spannen bilden eine Trennung der Spanne der Wurzel, die auch zusammenhängend ist. Ein Transformationsprozess zwischen Spannen und Wurzeln kann gemäß dem Folgenden ausgeführt werden:
- 1) Zuerst werden die Senken in der durch die Trennung definierten Reihenfolge angeordnet. Die Senke, deren Spanne der erste Teil der Spanne der Wurzel ist, geht zuerst. Diesem folgt Se, dessen Spanne der zweite Teil der Spanne der Wurzel ist. Dies bildet die Eingabe der Regel.
- 2) Als nächstes werden die Senkenknoten des Fragments gegen eine Variable ausgetauscht, die ihrer Position in der Eingabe entspricht. Dann wird der Baumteil des Fragments genommen, beispielsweise indem das Fragment auf T projiziert wird. Dies bildet die Ausgabe der Regel.
-
6 stellt bestimmte Graphenfragmente und die Regeln dar: sowohl Eingabe als auch Ausgabe, die aus diesen Graphenfragmenten erzeugt werden. Regeln, die gemäß der Umwandlung zwischen dem Ausrichtungsgraphen und den Regeln konstruiert werden, befinden sich innerhalb einer Teilmenge, die ρA(S, T) genannt wird. - Eine Anzahl von Regelgewinnungsverfahren werden auch hierin beschrieben.
- Bei einem ersten Ausführungsbeispiel werden Regeln von ρA(S, T) aus dem Ausrichtungsgraphen durch Durchsuchen des Raums der Graphenfragmente nach Grenzgraphenfragmenten gewonnen. Ein denkbares Problem bei diesem Verfahren besteht jedoch darin, dass der Suchraum aller Fragmente eines Graphen zur Größe des Graphen exponentiell wird. Folglich kann die Ausführung dieser Prozedur eine relativ lange Zeit dauern. Das Verfahren kann verbessert werden, indem die folgenden Vereinfachungen durchgeführt werden.
- Der Grenzsatz eines Ausrichtungsgraphen kann in einer Zeit identifiziert werden, die zur Größe des Graphen linear ist. Die zweite Vereinfachung besteht darin, dass für jeden Knoten N des Grenzsatzes ein bei n mit Wurzel versehenes eindeutiges minimale Grenzgraphenfragment besteht. Aufgrund der Definition des Grenzsatzes kann irgendein Knoten n', der sich nicht im Grenzsatz befindet, kein bei n' mit Wurzel versehenes Grenzgraphenfragment aufweisen. Die Definition eines minimalen Fragments erfordert, dass das Grenzgraphenfragment ein Untergraph jedes anderen Grenzgraphenfragments, das den Se-Weg aufweist, ist.
- Für einen Ausrichtungsgraphen, der k Knoten aufweist, bestehen höchstens k minimale Grenzgraphenfragmente.
-
7 zeigt die sieben minimalen Grenzgraphenfragmente vom Ausrichtungsgraphen von5 . Alle der anderen Grenzgraphenfragmente können durch Zusammensetzen von zwei oder mehr minimalen Graphenfragmenten erzeugt werden.8 stellt dar, wie die anderen Grenzgraphenfragmente auf diese Weise erzeugt werden können. - Folglich können der gesamte Satz von Grenzgraphenfragmenten sowie alle von diesen Fragmenten ableitbaren Regeln systematisch gemäß dem Ablaufplan von
9 berechnet werden. Der Ablaufplan von9 kann beispielsweise auf dem Computersystem von10 abgearbeitet werden. Bei900 wird der Satz von minimalen Grenzgraphenfragmenten für jedes Trainingspaar berechnet. Allgemeiner kann ein beliebiger minimaler Satz von Informationen, der als Trainingssatz verwendet werden kann, bei dieser Operation erhalten werden. - Bei
910 wird der Satz von Graphenfragmenten, die sich aus dem Zusammensetzen der minimalen Graphenfragmente ergeben, berechnet. Dies ermöglicht, dass die von den minimalen Hauptgrenzgraphenfragmenten abgeleiteten Regeln als Basis für alle Regeln betrachtet werden, die von den Grenzgraphenfragmenten ableitbar sind. - Die Regeln werden tatsächlich bei
920 abgeleitet. Diese Regeln wurden von den minimalen Fragmenten abgeleitet. Die Regeln umfassen Bäume oder von diesen Bäumen abgeleitete Informationen. - Bei
930 werden die Regeln von den minimalen Fragmenten kombiniert, um ”zusammengesetzte” Regeln zu bilden. - Folglich wird das Gewinnen von Regeln zu einer Aufgabe zum Auffinden des Satzes von minimalen Grenzgraphenfragmenten irgendeines gegebenen Ausrichtungsgraphen.
- Dies wird durch Berechnen des Grenzsatzes des Ausrichtungsgraphen ausgeführt. Für jeden Knoten des Grenzsatzes wird das an dem Knoten mit Wurzel versehene minimale Grenzgraphenfragment bestimmt. Die Berechnung des Grenzsatzes kann in einem einzelnen Durchgang durch den Ausrichtungsgraphen berechnet werden. Er wird als Vereinigung jedes Knoten mit seiner Spanne und auch mit seiner Komplementspanne berechnet, was die Vereinigung der Komplementspanne seiner Eltern und der Spanne aller seiner Geschwister ist. Hier sind Geschwister Knoten, die sich denselben Elternteil teilen.
- Ein Knoten n befindet sich im Grenzsatz, wenn und nur wenn seine Komplementspanne (n) ∩ Abschluss(Spanne(n)) gleich 0 ist. Folglich fasst die Komplementspanne fast die Spannen aller Knoten zusammen, die weder Vorgänger noch Nachfolger von n sind. Dieser Schritt erfordert nur einen einzelnen Durchlauf durch den Graphen und verläuft folglich in linearer Zeit.
- Der zweite Schritt der Berechnung des am Knoten mit Wurzel versehenen minimalen Grenzgraphenfragments ist auch relativ unkompliziert. Für jeden Knoten n des Grenzsatzes wird n erweitert. Solange ein gewisser Senkenknoten n' des resultierenden Graphenfragments vorliegt, der sich nicht im Grenzsatz befindet, muss n' auch erweitert werden. Nach der Berechnung des am Knoten des Grenzsatzes mit Wurzel versehenen minimalen Graphenfragments wurde jeder Knoten des Ausrichtungsgraphen folglich höchstens einmal erweitert. Daher kann diese Operation auch in linearer Zeit ablaufen.
- Das Obige hat bestimmte Aspekte vereinfacht, nicht ausgerichtete Elemente werden beispielsweise ignoriert. Prozesse zum Aufnehmen dieser nicht ausgerichteten Elemente können jedoch bestimmt werden. Dieses System berechnet alle Ableitungen entsprechend allen Weisen zum Berücksichtigen von nicht ausgerichteten Worten und sammelt Regeln von allen Ableitungen. Überdies können diese Verfahren Ableitungen umfassen, bei denen Unterzeichenketten vielmehr gegen Sätze von Bäumen als gegen einen einzelnen Baum ausgetauscht werden.
- Dies entspricht dem Zulassen von Regeln, die nicht erfordern, dass die Ausgabe ein einzelner Wegebaum ist. Diese Verallgemeinerung kann die Erläuterung von linguistischen Phänomenen wie z. B. das unmittelbare Übersetzen von ”va” in ”does go” ermöglichen, anstatt die Erzeugung des Hilfsworts ”does” bis später in der Ableitung zu verzögern.
- Das Obige wurde mit einer Anzahl von Beobachtungen getestet. Die Qualität der Ausrichtung spielt eine wichtige Rolle in dieser Ableitung. Überdies wird das Verfahren, das auf das Ablaufen in linearer Zeit vereinfacht wird, kaum durch die Größe der Regeln von Auszügen beeinflusst und erzeugt gute Effekte.
-
11 identifiziert eine Ursache für die Kreuzung zwischen englisch und französisch, die auf andere Sprachpaare erweitert werden kann. Adverben in Französisch erscheinen häufig nach dem Verb, dies ist jedoch in Englisch weniger üblich. Ein Maschinen-Parser erzeugt einen verschachtelten Verbausdruck, wenn die Adverben vorhanden sind. Dies verhindert, dass eine Kindumordnung ermöglicht, dass das Verb und die Adverben durchdrungen werden sollten. Eine Umordnung auf mehreren Ebenen, wie in11 gezeigt, kann diese Arten von Kreuzungen verhindern oder verringern. - Eine Lösung, die anfänglich von Fox vorgeschlagen wurde, kann darin bestehen, die Verbausdrücke abzuflachen. Dies bildet eine Lösung für dieses Satzpaar. Sie kann auch Adverb-Verb-Umordnungen berücksichtigen. Die Abflachung der Baumstruktur ist nicht notwendigerweise eine allgemeine Lösung, da sie nur für eine sehr begrenzte Anzahl von syntaktischen Kategorien gelten kann. Manchmal löst jedoch die Abflachung der Baumstruktur nicht die Kreuzung in den Knotenumordnungswegen. In diesen Modellen bleibt eine Kreuzung zwischen MD und AUX, egal wie VPs abgeflacht werden.
- Das Transformationsregelmodell erzeugt eine lexikalische Regel, wie in
12 als1200 gezeigt. Diese lexikalische Regel ermöglicht die Transformation von ”will be” in -sera- als einzige Weise zum Lösen der Kreuzung. - Diese Verfahren können auch für die Decodierung verwendet werden, wie hierin beschrieben. Dieses Ausführungsbeispiel beschreibt eine automatische Übersetzung von natürlichen Quellensprachsätzen in natürliche Zielsprachsätze unter Verwendung von komplexen Wahrscheinlichkeitsmodellen von syntaktischer und semantischer Regelübersetzung von Wort zu Wort, Ausdruck zu Ausdruck. Dies beschreibt auch Wort-, Syntax- und semantische Wahrscheinlichkeitssprachmodelle.
- Dieses zweite Ausführungsbeispiel bildet Bäume direkt aus den Informationen auf Zeichenkettenbasis, wobei hier die Eingangsinformation die zu übersetzende Information ist. Die Übersetzung wird durch automatisches Ableiten einer Anzahl von Zielsprachanalysebäumen vom Quellensprachsatz konstruiert, der als Eingabe gegeben wird. Jeder Baum wird durch eine gewichtete Kombination zwischen den Wahrscheinlichkeitsmodellen sowie einen zusätzlichen Satz von Sprachmerkmalen bewertet. Der Baum mit maximaler Wahrscheinlichkeit stellt die Übersetzung in die Zielsprache bereit.
- Dieses Ausführungsbeispiel definiert ein kreuzsprachliches Analyserahmenwerk, das die Entwicklung von statistischen Übersetzungssystemen ermöglicht, die eine beliebige Art von Wahrscheinlichkeitskanal oder Zielsprachmodell verwenden: irgendeines auf Wortbasis, Ausdruckbasis, Syntaxbasis oder semantischer Basis.
- Der Kanal und die Zielsprachmodelle können direkt aus einem parallelen Korpus unter Verwendung von herkömmlichen Parameterabschätzungsverfahren wie z. B. dem Erwartungsmaximierungsalgorithmus trainiert werden. Die Modelle können alternativ aus hinsichtlich Worten oder Ausdrücken ausgerichteten Korpora abgeschätzt werden, die unter Verwendung von Modellen, die keine Kenntnis der Syntax haben, ausgerichtet wurden. Außerdem ermöglicht dies die Untersuchung eines viel größeren Satzes von Übersetzungsmöglichkeiten.
- Bei diesem Ausführungsbeispiel wird ein Zielsprachanalysebaum direkt aus der Quellensprachzeichenkette erzeugt. Alle Kanaloperationen werden als eine der verschiedenen Arten von Übersetzungsregeln verkörpert. Einige von diesen Operationen sind von lexikalischer Art, wie z. B. die Wort-Wort- oder Ausdruck-Ausdruck-Übersetzungsregeln. Andere Regeln sind syntaktisch.
-
- Diese Übersetzungsregeln fallen in eine Anzahl von verschiedenen Kategorien.
- Lexikalische einfache Regeln sind Regeln wie die Nummern 1–7, die syntaktische Bestandteile einer Ebene haben, die den Zielsprachteil dominieren. Diese Regeln umfassen eine Art des Worts, das Wort selbst und die Übersetzung.
- Lexikalische komplexe Regeln sind Regeln wie Nummer 8, wo mehrere Ebenen von syntaktischen Bestandteilen vorliegen, die den Zielsprachteil dominieren.
- Die Regeln 10, 11, 16 und 17 sind lexikalisch verankerte komplexe Regeln. Diese Regeln erläutern, wie komplex syntaktische Zielstrukturen auf gemischten Eingaben konstruiert werden sollten. Die gemischten Eingaben können lexikalische Quellensprachelemente und syntaktische Bestandteile der Elementarzielsprache sein. Die Regel 16 sagt beispielsweise, dass, wenn das chinesische Zeichen zwischen zwei syntaktischen Bestandteilen x1 x0 vorkommt, dann der resultierende Zielanalysebaum ein NP mit NP:x0 und X1:VP ist. Mit anderen Worten, diese Regel speichert Ordnungsinformationen für die syntaktischen Bestandteile zwischen den Sprachen.
- Die syntaktischen einfachen Regeln sind Regeln wie die Regel 13, die ermöglichen, dass syntaktische Zielstrukturen abgeleitet werden. Schließlich ermöglichen syntaktische komplexe Regeln, dass syntaktische Zielstrukturen mehrerer Ebenen abgeleitet werden. Dieses Verfahren kann kreuzsprachliche Übersetzungsregeln wie z. B. 11 und 16 verwenden, die auf lexikalische Quellensprachelemente und syntaktische Zielsprachkomponenten oder -bestandteile Bezug nehmen. Man beachte, dass viele von diesen Regeln Merkmale umfassen, die tatsächlich Informationen auf Baumbasis sind, die in Zeichenkettenform geschrieben sind. NP(DT (”the”), x0: ... stellt beispielsweise Informationen auf Baumbasis dar.
-
13 stellt eine Ableitung in syntaktischer Baumform für den Eingangssatz dar. Eine Durchquerung dieser Ableitung von oben nach unten ermöglicht die Erzeugung des Zielsatzes, da jeder Knoten in der Ableitung explizit die Reihenfolge codiert, in der die Kinder die Durchquerung in der Zielsprache benötigen. - Die Decodierung wird unter Verwendung von Anhäufungen einer Decodierung gemäß verschiedenen Ebenen ausgeführt. In einem ersten Schritt wird jede der Regeln zuerst auf die individuellen Worte innerhalb des Ausdrucks
1300 angewendet. Man beachte, dass eine existierende Software den chinesischen Ausdruck160 bereits in seine individuellen Worte unterteilt hat. Jedes Wort wie z. B.1302 wird gegen die festgelegten Regeln ausgewertet, um festzustellen, ob irgendeine Regel für dieses Wort allein gilt. Das Wort1302 besitzt beispielsweise eine explizite Regel1304 (Regel 1), die für dieses einzelne Wort gilt. Dies bildet eine erste Ebene von Regeln, die als Regelebene 1 gezeigt ist;1310 . - In der Ebene 2 wird jedes Paar von Worten analysiert. Das Paar
1302 ,1312 wird beispielsweise durch die Regel1314 analysiert. Ebenso wird das Paar1312 ,1316 analysiert, um festzustellen, ob irgendwelche Regeln für dieses Paar gelten. Die Regel1314 gilt beispielsweise für irgendein Wort, dem das Wort1312 folgt. Folglich gilt die Regel1314 für das Wortpaar1302 ,1312 . Diese doppelten Verbundregeln bilden die Ebene 2;1320 , analog werden in der Ebene 3 Tripletts analysiert und diesem folgen Quadrupletts und dergleichen, bis die Regel der oberen Ebene, die als Ebene x gezeigt ist, ausgeführt wird. - Jede von diesen Regeln umfasst Zeichenketten für Zeichenkettenteile innerhalb der Regel. Die Regel 13 zeigt beispielsweise die Informationen eines speziellen Baums, die im Textformat geschrieben sind. Der Baumteil kann Variablen innerhalb des Baums umfassen.
- Wenn dies alles beendet ist, wird der englische Baum als Übersetzung auf der Basis des Baums ausgegeben, der unter allen Bäumen, die gefunden werden, den höchsten Punktwert besitzt.
Claims (15)
- System mit: einem Trainingsteil, der einen Korpus von Trainingsinformationen auf Zeichenkettenbasis empfängt, um eine Vielzahl von Regeln zu erzeugen, die auf den Trainingsinformationen basieren, und wobei die Regeln Teile von Bäumen als Komponenten der Regeln umfassen; einem Text-Text-Anwendungsteil, der ein n-Gram-Sprachmodell, ein Sprachmodell auf Syntaxbasis und die Regeln für eine Text-Text-Anwendung verwendet; und einem Decodierteil, der eine Zeichenkette in einer in eine Zielsprache zu übersetzenden Quellensprache erhält, die Regeln empfängt und mindestens einen Regelsatz, das n-Gram-Sprachmodell und das Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die Zielsprache zu übersetzen.
- System nach Anspruch 1, welches ferner einen Speicher umfasst, der die Regeln, einschließlich Teilen von Bäumen, als Übersetzungsregeln in einer Unterbaum-Unterzeichenketten-Regelform für eine Maschinenübersetzung speichert und auch Wahrscheinlichkeiten für die Regeln speichert.
- System nach Anspruch 2, wobei der Anwendungsteil arbeitet, um eine zu übersetzende Zeichenkette zu erhalten, Sätze von verschiedenen möglichen Übersetzungsbäumen unter Verwendung der Regeln zu kompilieren und zu bestimmen, welcher dieser Übersetzungsbäume wahrscheinliche Übersetzungen darstellt.
- System nach Anspruch 1, wobei der Trainingsteil einen Ausrichtungsgraphen bildet, der eine Umwandlung zwischen der Quelle, dem Ziel und der Ausrichtung darstellt, und Fragmente des Ausrichtungsgraphen in Regeln umwandelt.
- System nach Anspruch 4, wobei die Regeln durch Bestimmen von Operationen, bei denen Quellensymbole gegen Zielunterbäume ausgetauscht werden, und Bilden von Regeln aus dem Austauschprozess gebildet werden.
- System nach Anspruch 4, wobei der Ausrichtungsgraph analysiert wird, um einen kleinsten Satz von Informationen zu bestimmen, der den Satz von Regeln bilden kann.
- System nach Anspruch 3, wobei der Anwendungsteil sowohl ein n-Gram-Sprachmodell als auch ein Sprachmodell auf Syntaxbasis umfasst und verwendet.
- System mit: einem Trainingsteil, der Informationselemente in einer ersten und einer zweiten unterschiedlichen Sprache ausrichtet, um ausgerichtete Informationen zu bilden, und Regeln aus den ausgerichteten Informationen gewinnt; wobei zumindest die Informationen in der ersten Sprache in einer Baumform vorliegen und die Regeln in Verbindung mit einem n-Gram-Sprachmodell und einem Sprachmodell auf Syntaxbasis verwendbar sind; und einem Decodierteil, der eine Zeichenkette in einer in eine zweite Sprache zu übersetzenden ersten Sprache erhält, die Regeln empfängt und mindestens einen Regelsatz, das n-Gram-Sprachmodell und das Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die zweite Sprache zu übersetzen.
- System nach Anspruch 8, wobei die Informationen sowohl in der ersten als auch der zweiten Sprache in der Baumform vorliegen.
- System nach Anspruch 8, wobei der Trainingsteil Informationen auf Baumbasis zu einem Ausrichtungsgraphen bildet, der zwischen der ersten Sprache und der zweiten Sprache ausrichtet, und Regeln aus dem Ausrichtungsgraphen gewinnt.
- System nach Anspruch 8, welches ferner vor dem Gewinnen von Regeln das Bilden eines verringerten Satzes von Fragmenten des Ausrichtungsgraphen umfasst.
- System mit einem Speicher, der zumindest einen Regelsatz speichert, der sowohl Regeln, die zumindest Teile von Unterbäumen umfassen, als auch Wahrscheinlichkeiten umfasst, und einem Decodierteil, der eine Zeichenkette in einer in eine Zielsprache zu übersetzenden Quellensprache erhält und den mindestens einen Regelsatz empfängt und den mindestens einen Regelsatz, ein n-Gram-Sprachmodell und ein Sprachmodell auf Syntaxbasis verwendet, um die Zeichenkette in die Zielsprache zu übersetzen.
- System nach Anspruch 12, wobei der Decodierteil zuerst Regeln auf individuelle Worte anwendet und dann Regeln auf Kombinationen von Worten anwendet.
- System nach Anspruch 12, wobei der Decodierteil Bäume als Übersetzung ausgibt.
- System nach Anspruch 14, wobei der Decodierteil eine Vielzahl von verschiedenen Bäumen als mögliche Übersetzungen erzeugt und den besten Baum gemäß einer höchsten Wahrscheinlichkeit auswählt.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US61836604P | 2004-10-12 | 2004-10-12 | |
US61824404P | 2004-10-12 | 2004-10-12 | |
US60/618,366 | 2004-10-12 | ||
US60/618,244 | 2004-10-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE202005022113U1 true DE202005022113U1 (de) | 2014-02-05 |
Family
ID=36149039
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE202005022113.9U Expired - Lifetime DE202005022113U1 (de) | 2004-10-12 | 2005-10-12 | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
DE112005002534T Pending DE112005002534T5 (de) | 2004-10-12 | 2005-10-12 | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112005002534T Pending DE112005002534T5 (de) | 2004-10-12 | 2005-10-12 | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
Country Status (4)
Country | Link |
---|---|
US (1) | US8600728B2 (de) |
JP (1) | JP5452868B2 (de) |
DE (2) | DE202005022113U1 (de) |
WO (1) | WO2006042321A2 (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US10984429B2 (en) | 2010-03-09 | 2021-04-20 | Sdl Inc. | Systems and methods for translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
WO2003005166A2 (en) | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
WO2004001623A2 (en) | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) * | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8452585B2 (en) * | 2007-06-21 | 2013-05-28 | Microsoft Corporation | Discriminative syntactic word order model for machine translation |
US8086441B1 (en) | 2007-07-27 | 2011-12-27 | Sonicwall, Inc. | Efficient string search |
US8046211B2 (en) | 2007-10-23 | 2011-10-25 | Microsoft Corporation | Technologies for statistical machine translation based on generated reordering knowledge |
US8229728B2 (en) * | 2008-01-04 | 2012-07-24 | Fluential, Llc | Methods for using manual phrase alignment data to generate translation models for statistical machine translation |
US9798720B2 (en) | 2008-10-24 | 2017-10-24 | Ebay Inc. | Hybrid machine translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US9298427B2 (en) | 2010-01-06 | 2016-03-29 | Microsoft Technology Licensing, Llc. | Creating inferred symbols from code usage |
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
CN101853248B (zh) * | 2010-05-27 | 2012-02-15 | 河南大学 | 航空天气报告的解码方法 |
KR101762866B1 (ko) * | 2010-11-05 | 2017-08-16 | 에스케이플래닛 주식회사 | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 |
KR101356417B1 (ko) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법 |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US20130325436A1 (en) * | 2012-05-29 | 2013-12-05 | Wright State University | Large Scale Distributed Syntactic, Semantic and Lexical Language Models |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9152623B2 (en) | 2012-11-02 | 2015-10-06 | Fido Labs, Inc. | Natural language processing system and method |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
JP5843117B2 (ja) * | 2013-12-04 | 2016-01-13 | 国立研究開発法人情報通信研究機構 | 学習装置、翻訳装置、学習方法、翻訳方法、およびプログラム |
US9569526B2 (en) | 2014-02-28 | 2017-02-14 | Ebay Inc. | Automatic machine translation using user feedback |
US9940658B2 (en) | 2014-02-28 | 2018-04-10 | Paypal, Inc. | Cross border transaction machine translation |
US9881006B2 (en) | 2014-02-28 | 2018-01-30 | Paypal, Inc. | Methods for automatic generation of parallel corpora |
US9530161B2 (en) | 2014-02-28 | 2016-12-27 | Ebay Inc. | Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data |
JP6607482B2 (ja) * | 2015-02-02 | 2019-11-20 | 国立研究開発法人情報通信研究機構 | 構文解析装置、学習装置、機械翻訳装置、およびプログラム |
US9940321B2 (en) | 2015-03-15 | 2018-04-10 | Graham MOREHEAD | System for machine translation |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
JP6404511B2 (ja) * | 2017-03-09 | 2018-10-10 | 楽天株式会社 | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
JP6973157B2 (ja) * | 2018-02-16 | 2021-11-24 | 日本電信電話株式会社 | 議論構造拡張装置、議論構造拡張方法、及びプログラム |
US10956670B2 (en) | 2018-03-03 | 2021-03-23 | Samurai Labs Sp. Z O.O. | System and method for detecting undesirable and potentially harmful online behavior |
WO2019241021A1 (en) * | 2018-06-15 | 2019-12-19 | Futurewei Technologies, Inc. | System for handling concurrent property graph queries |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11341340B2 (en) * | 2019-10-01 | 2022-05-24 | Google Llc | Neural machine translation adaptation |
JPWO2022123637A1 (de) * | 2020-12-07 | 2022-06-16 |
Family Cites Families (290)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
JPS58201175A (ja) | 1982-05-20 | 1983-11-22 | Kokusai Denshin Denwa Co Ltd <Kdd> | 機械翻訳方式 |
US4615002A (en) | 1983-03-30 | 1986-09-30 | International Business Machines Corp. | Concurrent multi-lingual use in data processing system |
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
DE3587009T2 (de) | 1984-09-18 | 1993-05-06 | Sharp Kk | Uebersetzungssystem. |
JPH0664585B2 (ja) | 1984-12-25 | 1994-08-22 | 株式会社東芝 | 翻訳編集装置 |
JPS61217871A (ja) | 1985-03-25 | 1986-09-27 | Toshiba Corp | 翻訳処理装置 |
GB2177525B (en) * | 1985-05-14 | 1989-08-16 | Sharp Kk | Translation system |
DE3616751A1 (de) * | 1985-05-20 | 1986-11-20 | Sharp K.K., Osaka | Uebersetzungssystem |
JPS6244877A (ja) * | 1985-08-22 | 1987-02-26 | Toshiba Corp | 機械翻訳装置 |
JPH083815B2 (ja) | 1985-10-25 | 1996-01-17 | 株式会社日立製作所 | 自然言語の共起関係辞書保守方法 |
JPS63223962A (ja) | 1987-03-13 | 1988-09-19 | Hitachi Ltd | 翻訳装置 |
US5146405A (en) | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
JPH0242572A (ja) * | 1988-08-03 | 1990-02-13 | Hitachi Ltd | 共起関係辞書生成保守方法 |
JPH02301869A (ja) | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
JPH02308370A (ja) * | 1989-05-24 | 1990-12-21 | Toshiba Corp | 機械翻訳システム |
US5020112A (en) | 1989-10-31 | 1991-05-28 | At&T Bell Laboratories | Image recognition method using two-dimensional stochastic grammars |
US5218537A (en) | 1989-12-21 | 1993-06-08 | Texas Instruments Incorporated | System and method for using a computer to generate and teach grammar lessons |
JPH03268062A (ja) * | 1990-03-19 | 1991-11-28 | Fujitsu Ltd | 機械翻訳電子メール装置における私用単語の登録装置 |
JP3114181B2 (ja) | 1990-03-27 | 2000-12-04 | 株式会社日立製作所 | 異言語交信用翻訳方法およびシステム |
US5369574A (en) | 1990-08-01 | 1994-11-29 | Canon Kabushiki Kaisha | Sentence generating system |
JP3176059B2 (ja) | 1990-11-15 | 2001-06-11 | キヤノン株式会社 | 翻訳装置 |
US5497319A (en) | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
US5212730A (en) | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5477451A (en) | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5167504A (en) | 1991-09-20 | 1992-12-01 | Mann Harold J | Bilingual dictionary |
JPH05151260A (ja) | 1991-11-29 | 1993-06-18 | Hitachi Ltd | 翻訳テンプレート学習方法および翻訳テンプレート学習システム |
US5267156A (en) | 1991-12-05 | 1993-11-30 | International Business Machines Corporation | Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor |
US5541836A (en) | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
ATE203119T1 (de) | 1992-03-06 | 2001-07-15 | Dragon Systems Inc | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern |
US5302132A (en) * | 1992-04-01 | 1994-04-12 | Corder Paul R | Instructional system and method for improving communication skills |
JPH05298360A (ja) * | 1992-04-17 | 1993-11-12 | Hitachi Ltd | 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置 |
GB9209346D0 (en) | 1992-04-30 | 1992-06-17 | Sharp Kk | Machine translation system |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
US5528491A (en) | 1992-08-31 | 1996-06-18 | Language Engineering Corporation | Apparatus and method for automated natural language translation |
JPH06195373A (ja) * | 1992-12-24 | 1994-07-15 | Sharp Corp | 機械翻訳装置 |
US5495413A (en) * | 1992-09-25 | 1996-02-27 | Sharp Kabushiki Kaisha | Translation machine having a function of deriving two or more syntaxes from one original sentence and giving precedence to a selected one of the syntaxes |
GB2272091B (en) * | 1992-10-30 | 1996-10-23 | Canon Europa Nv | Apparatus for use in aligning bilingual corpora |
US5675815A (en) | 1992-11-09 | 1997-10-07 | Ricoh Company, Ltd. | Language conversion system and text creating system using such |
JP2745370B2 (ja) | 1993-02-23 | 1998-04-28 | 日本アイ・ビー・エム株式会社 | 機械翻訳方法及び機械翻訳装置 |
US6186794B1 (en) * | 1993-04-02 | 2001-02-13 | Breakthrough To Literacy, Inc. | Apparatus for interactive adaptive learning by an individual through at least one of a stimuli presentation device and a user perceivable display |
US5432948A (en) | 1993-04-26 | 1995-07-11 | Taligent, Inc. | Object-oriented rule-based text input transliteration system |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
US5619709A (en) | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US6304841B1 (en) | 1993-10-28 | 2001-10-16 | International Business Machines Corporation | Automatic construction of conditional exponential models from elementary features |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US6064819A (en) | 1993-12-08 | 2000-05-16 | Imec | Control flow and memory management optimization |
JPH07210558A (ja) | 1994-01-20 | 1995-08-11 | Fujitsu Ltd | 機械翻訳装置 |
JP3377290B2 (ja) | 1994-04-27 | 2003-02-17 | シャープ株式会社 | イディオム処理機能を持つ機械翻訳装置 |
US5752052A (en) | 1994-06-24 | 1998-05-12 | Microsoft Corporation | Method and system for bootstrapping statistical processing into a rule-based natural language parser |
US5761689A (en) | 1994-09-01 | 1998-06-02 | Microsoft Corporation | Autocorrecting text typed into a word processing document |
JPH08101837A (ja) | 1994-09-30 | 1996-04-16 | Toshiba Corp | 機械翻訳装置における翻訳規則学習方法 |
JP3960562B2 (ja) | 1994-09-30 | 2007-08-15 | 株式会社東芝 | 機械翻訳の学習方法 |
JP2855409B2 (ja) | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
GB2295470A (en) | 1994-11-28 | 1996-05-29 | Sharp Kk | Machine translation system |
JP3066274B2 (ja) | 1995-01-12 | 2000-07-17 | シャープ株式会社 | 機械翻訳装置 |
US5987402A (en) | 1995-01-31 | 1999-11-16 | Oki Electric Industry Co., Ltd. | System and method for efficiently retrieving and translating source documents in different languages, and other displaying the translated documents at a client device |
US5715466A (en) | 1995-02-14 | 1998-02-03 | Compuserve Incorporated | System for parallel foreign language communication over a computer network |
US5855015A (en) | 1995-03-20 | 1998-12-29 | Interval Research Corporation | System and method for retrieval of hyperlinked information resources |
CA2170669A1 (en) | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
AU5969896A (en) * | 1995-06-07 | 1996-12-30 | International Language Engineering Corporation | Machine assisted translation tools |
US5903858A (en) | 1995-06-23 | 1999-05-11 | Saraki; Masashi | Translation machine for editing a original text by rewriting the same and translating the rewrote one |
US6073143A (en) | 1995-10-20 | 2000-06-06 | Sanyo Electric Co., Ltd. | Document conversion system including data monitoring means that adds tag information to hyperlink information and translates a document when such tag information is included in a document retrieval request |
JPH09128396A (ja) | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
US6993471B1 (en) | 1995-11-13 | 2006-01-31 | America Online, Inc. | Integrated multilingual browser |
US5983169A (en) | 1995-11-13 | 1999-11-09 | Japan Science And Technology Corporation | Method for automated translation of conjunctive phrases in natural languages |
US5987404A (en) | 1996-01-29 | 1999-11-16 | International Business Machines Corporation | Statistical natural language understanding using hidden clumpings |
US5779486A (en) | 1996-03-19 | 1998-07-14 | Ho; Chi Fai | Methods and apparatus to assess and enhance a student's understanding in a subject |
SG49804A1 (en) | 1996-03-20 | 1998-06-15 | Government Of Singapore Repres | Parsing and translating natural language sentences automatically |
JPH09259127A (ja) | 1996-03-21 | 1997-10-03 | Sharp Corp | 翻訳装置 |
US5909681A (en) | 1996-03-25 | 1999-06-01 | Torrent Systems, Inc. | Computer system and computerized method for partitioning data for parallel processing |
US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
US6470306B1 (en) | 1996-04-23 | 2002-10-22 | Logovista Corporation | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens |
US5995922A (en) | 1996-05-02 | 1999-11-30 | Microsoft Corporation | Identifying information related to an input word in an electronic dictionary |
US6161083A (en) | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
US5848386A (en) | 1996-05-28 | 1998-12-08 | Ricoh Company, Ltd. | Method and system for translating documents using different translation resources for different portions of the documents |
US6233544B1 (en) | 1996-06-14 | 2001-05-15 | At&T Corp | Method and apparatus for language translation |
US5806032A (en) | 1996-06-14 | 1998-09-08 | Lucent Technologies Inc. | Compilation of weighted finite-state transducers from decision trees |
JPH1074204A (ja) * | 1996-06-28 | 1998-03-17 | Toshiba Corp | 機械翻訳方法及び原文・訳文表示方法 |
US5966686A (en) * | 1996-06-28 | 1999-10-12 | Microsoft Corporation | Method and system for computing semantic logical forms from syntax trees |
US5819265A (en) | 1996-07-12 | 1998-10-06 | International Business Machines Corporation | Processing names in a text |
US5836771A (en) | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6498921B1 (en) | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
US6691279B2 (en) * | 1997-03-31 | 2004-02-10 | Sanyo Electric Co., Ltd | Document preparation method and machine translation device |
US6233546B1 (en) | 1998-11-19 | 2001-05-15 | William E. Datig | Method and system for machine translation using epistemic moments and stored dictionary entries |
US6233545B1 (en) | 1997-05-01 | 2001-05-15 | William E. Datig | Universal machine translator of arbitrary languages utilizing epistemic moments |
US5991710A (en) | 1997-05-20 | 1999-11-23 | International Business Machines Corporation | Statistical translation system with features based on phrases or groups of words |
US6415250B1 (en) | 1997-06-18 | 2002-07-02 | Novell, Inc. | System and method for identifying language using morphologically-based techniques |
US6032111A (en) * | 1997-06-23 | 2000-02-29 | At&T Corp. | Method and apparatus for compiling context-dependent rewrite rules and input strings |
DE69837979T2 (de) | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
US6356864B1 (en) * | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
US6018617A (en) * | 1997-07-31 | 2000-01-25 | Advantage Learning Systems, Inc. | Test generating and formatting system |
JPH11143877A (ja) | 1997-10-22 | 1999-05-28 | Internatl Business Mach Corp <Ibm> | 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム |
WO1999026233A2 (en) | 1997-11-14 | 1999-05-27 | Koninklijke Philips Electronics N.V. | Hardware sharing in a speech-based intercommunication system |
US6161082A (en) | 1997-11-18 | 2000-12-12 | At&T Corp | Network based language translation system |
KR980004126A (ko) | 1997-12-16 | 1998-03-30 | 양승택 | 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법 |
JPH11175527A (ja) * | 1997-12-15 | 1999-07-02 | Fujitsu Ltd | 出力制御装置及び出力制御方法 |
JP3272288B2 (ja) * | 1997-12-24 | 2002-04-08 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置および機械翻訳方法 |
US6533822B2 (en) | 1998-01-30 | 2003-03-18 | Xerox Corporation | Creating summaries along with indicators, and automatically positioned tabs |
US6031984A (en) * | 1998-03-09 | 2000-02-29 | I2 Technologies, Inc. | Method and apparatus for optimizing constraint models |
US6077085A (en) | 1998-05-19 | 2000-06-20 | Intellectual Reserve, Inc. | Technology assisted learning |
GB2337611A (en) * | 1998-05-20 | 1999-11-24 | Sharp Kk | Multilingual document retrieval system |
GB2338089A (en) | 1998-06-02 | 1999-12-08 | Sharp Kk | Indexing method |
US7197451B1 (en) * | 1998-07-02 | 2007-03-27 | Novell, Inc. | Method and mechanism for the creation, maintenance, and comparison of semantic abstracts |
US6092034A (en) | 1998-07-27 | 2000-07-18 | International Business Machines Corporation | Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models |
US6269351B1 (en) | 1999-03-31 | 2001-07-31 | Dryken Technologies, Inc. | Method and system for training an artificial neural network |
JP3959180B2 (ja) | 1998-08-24 | 2007-08-15 | 東芝ソリューション株式会社 | 通信翻訳装置 |
US6549918B1 (en) | 1998-09-21 | 2003-04-15 | Microsoft Corporation | Dynamic information format conversion |
US6285978B1 (en) | 1998-09-24 | 2001-09-04 | International Business Machines Corporation | System and method for estimating accuracy of an automatic natural language translation |
JP2000132550A (ja) | 1998-10-26 | 2000-05-12 | Matsushita Electric Ind Co Ltd | 機械翻訳のための中国語生成装置 |
US6182014B1 (en) * | 1998-11-20 | 2001-01-30 | Schlumberger Technology Corporation | Method and system for optimizing logistical operations in land seismic surveys |
US6535842B1 (en) * | 1998-12-10 | 2003-03-18 | Global Information Research And Technologies, Llc | Automatic bilingual translation memory system |
US6460015B1 (en) | 1998-12-15 | 2002-10-01 | International Business Machines Corporation | Method, system and computer program product for automatic character transliteration in a text string object |
US6275789B1 (en) | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US6317708B1 (en) | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
US6223150B1 (en) * | 1999-01-29 | 2001-04-24 | Sony Corporation | Method and apparatus for parsing in a spoken language translation system |
US6311152B1 (en) | 1999-04-08 | 2001-10-30 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
US6609087B1 (en) | 1999-04-28 | 2003-08-19 | Genuity Inc. | Fact recognition system |
US6901361B1 (en) | 1999-07-09 | 2005-05-31 | Digital Esperanto, Inc. | Computerized translator of languages utilizing indexed databases of corresponding information elements |
US6278969B1 (en) | 1999-08-18 | 2001-08-21 | International Business Machines Corp. | Method and system for improving machine translation accuracy using translation memory |
US7016827B1 (en) * | 1999-09-03 | 2006-03-21 | International Business Machines Corporation | Method and system for ensuring robustness in natural language understanding |
US7171348B2 (en) * | 1999-09-10 | 2007-01-30 | Worldlingo.Com Pty Ltd | Communication processing system |
US6601026B2 (en) | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US6393389B1 (en) | 1999-09-23 | 2002-05-21 | Xerox Corporation | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions |
JP2001101187A (ja) | 1999-09-30 | 2001-04-13 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
US6529865B1 (en) * | 1999-10-18 | 2003-03-04 | Sony Corporation | System and method to compile instructions to manipulate linguistic structures into separate functions |
US6778949B2 (en) | 1999-10-18 | 2004-08-17 | Sony Corporation | Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures |
US6330530B1 (en) | 1999-10-18 | 2001-12-11 | Sony Corporation | Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures |
US6904402B1 (en) | 1999-11-05 | 2005-06-07 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7016977B1 (en) * | 1999-11-05 | 2006-03-21 | International Business Machines Corporation | Method and system for multilingual web server |
US6473729B1 (en) | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
JP2001249922A (ja) | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
US6587844B1 (en) | 2000-02-01 | 2003-07-01 | At&T Corp. | System and methods for optimizing networks of weighted unweighted directed graphs |
AUPQ539700A0 (en) * | 2000-02-02 | 2000-02-24 | Worldlingo.Com Pty Ltd | Translation ordering system |
US6757646B2 (en) | 2000-03-22 | 2004-06-29 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
US7366714B2 (en) * | 2000-03-23 | 2008-04-29 | Albert Krachman | Method and system for providing electronic discovery on computer databases and archives using statement analysis to detect false statements and recover relevant data |
US6490549B1 (en) | 2000-03-30 | 2002-12-03 | Scansoft, Inc. | Automatic orthographic transformation of a text stream |
WO2001075662A2 (en) | 2000-03-31 | 2001-10-11 | Amikai, Inc. | Method and apparatus for providing multilingual translation over a network |
US7107204B1 (en) | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
CA2408819C (en) * | 2000-05-11 | 2006-11-07 | University Of Southern California | Machine translation techniques |
US7516154B2 (en) | 2000-06-28 | 2009-04-07 | Qnaturally Systems Inc. | Cross language advertising |
JP3982736B2 (ja) * | 2000-06-30 | 2007-09-26 | 沖電気工業株式会社 | 翻訳システム |
JP4011268B2 (ja) | 2000-07-05 | 2007-11-21 | 株式会社アイアイエス | 多言語翻訳システム |
US7389234B2 (en) | 2000-07-20 | 2008-06-17 | Microsoft Corporation | Method and apparatus utilizing speech grammar rules written in a markup language |
US6952666B1 (en) | 2000-07-20 | 2005-10-04 | Microsoft Corporation | Ranking parser for a natural language processing system |
US20020078091A1 (en) | 2000-07-25 | 2002-06-20 | Sonny Vu | Automatic summarization of a document |
US20020046262A1 (en) * | 2000-08-18 | 2002-04-18 | Joerg Heilig | Data access system and method with proxy and remote processing |
US20030217052A1 (en) | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US20020059566A1 (en) | 2000-08-29 | 2002-05-16 | Delcambre Lois M. | Uni-level description of computer information and transformation of computer information between representation schemes |
US7085708B2 (en) | 2000-09-23 | 2006-08-01 | Ravenflow, Inc. | Computer system with natural language to machine language translator |
US6782356B1 (en) | 2000-10-03 | 2004-08-24 | Hewlett-Packard Development Company, L.P. | Hierarchical language chunking translation table |
US6983239B1 (en) * | 2000-10-25 | 2006-01-03 | International Business Machines Corporation | Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser |
ATE297588T1 (de) * | 2000-11-14 | 2005-06-15 | Ibm | Anpassung des phonetischen kontextes zur verbesserung der spracherkennung |
US6885985B2 (en) * | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
US20020087313A1 (en) | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented intelligent speech model partitioning method and system |
US6996518B2 (en) * | 2001-01-03 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for automated measurement of quality for machine translation |
US6990439B2 (en) | 2001-01-10 | 2006-01-24 | Microsoft Corporation | Method and apparatus for performing machine translation using a unified language model and translation model |
JP2002215621A (ja) | 2001-01-19 | 2002-08-02 | Nec Corp | 翻訳サーバ及び翻訳方法並びにプログラム |
US6922809B2 (en) | 2001-01-25 | 2005-07-26 | International Business Machines Corporation | Method and apparatus providing capitalization recovery for text |
US7113903B1 (en) | 2001-01-30 | 2006-09-26 | At&T Corp. | Method and apparatus for providing stochastic finite-state machine translation |
JP2003141018A (ja) | 2001-11-02 | 2003-05-16 | Fujitsu Ltd | サーバ、中継装置、情報提供方法、およびプログラム |
AUPR329501A0 (en) * | 2001-02-22 | 2001-03-22 | Worldlingo, Inc | Translation information segment |
AU2002237495A1 (en) * | 2001-03-13 | 2002-09-24 | Intelligate Ltd. | Dynamic natural language understanding |
US7860706B2 (en) | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
JP3969628B2 (ja) * | 2001-03-19 | 2007-09-05 | 富士通株式会社 | 翻訳支援装置、方法及び翻訳支援プログラム |
JP4574047B2 (ja) | 2001-03-30 | 2010-11-04 | 富士通株式会社 | 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム |
US7107215B2 (en) | 2001-04-16 | 2006-09-12 | Sakhr Software Company | Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study |
US7295962B2 (en) | 2001-05-11 | 2007-11-13 | University Of Southern California | Statistical memory-based translation system |
US20020169592A1 (en) | 2001-05-11 | 2002-11-14 | Aityan Sergey Khachatur | Open environment for real-time multilingual communication |
US7689405B2 (en) * | 2001-05-17 | 2010-03-30 | Language Weaver, Inc. | Statistical method for building a translation memory |
US7177792B2 (en) * | 2001-05-31 | 2007-02-13 | University Of Southern California | Integer programming decoder for machine translation |
US7050964B2 (en) | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
US20020198699A1 (en) | 2001-06-21 | 2002-12-26 | International Business Machines Corporation | Apparatus, system and method for providing open source language translation |
WO2003005166A2 (en) * | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
US6810374B2 (en) | 2001-07-23 | 2004-10-26 | Pilwon Kang | Korean romanization system |
US7024351B2 (en) | 2001-08-21 | 2006-04-04 | Microsoft Corporation | Method and apparatus for robust efficient parsing |
US7146358B1 (en) | 2001-08-28 | 2006-12-05 | Google Inc. | Systems and methods for using anchor text as parallel corpora for cross-language information retrieval |
JP3452558B2 (ja) | 2001-09-25 | 2003-09-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム |
WO2003034281A1 (en) * | 2001-10-19 | 2003-04-24 | Intel Zao | Method and apparatus to provide a hierarchical index for a language model data structure |
JP2005507524A (ja) * | 2001-10-29 | 2005-03-17 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 機械翻訳 |
EP1306775A1 (de) * | 2001-10-29 | 2003-05-02 | BRITISH TELECOMMUNICATIONS public limited company | Maschinelle Übersetzung |
US20030144832A1 (en) | 2002-01-16 | 2003-07-31 | Harris Henry M. | Machine translation system |
US20030154071A1 (en) | 2002-02-11 | 2003-08-14 | Shreve Gregory M. | Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents |
US7013262B2 (en) * | 2002-02-12 | 2006-03-14 | Sunflare Co., Ltd | System and method for accurate grammar analysis using a learners' model and part-of-speech tagged (POST) parser |
AU2003216329A1 (en) * | 2002-02-15 | 2003-09-09 | Mathsoft Engineering And Education, Inc. | Linguistic support for a regognizer of mathematical expressions |
JP2003242136A (ja) | 2002-02-20 | 2003-08-29 | Fuji Xerox Co Ltd | 構文情報タグ付与支援システムおよび方法 |
EP1483687A4 (de) | 2002-03-11 | 2008-08-06 | Univ Southern California | Übersetzung genannter entitäten |
JP3959453B2 (ja) | 2002-03-14 | 2007-08-15 | 沖電気工業株式会社 | 翻訳仲介システム及び翻訳仲介サーバ |
US7526424B2 (en) * | 2002-03-20 | 2009-04-28 | Microsoft Corporation | Sentence realization model for a natural language generation system |
WO2004001623A2 (en) | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
AU2003267953A1 (en) * | 2002-03-26 | 2003-12-22 | University Of Southern California | Statistical machine translation using a large monlingual corpus |
ES2343786T3 (es) * | 2002-03-27 | 2010-08-10 | University Of Southern California | Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. |
DE10392450T5 (de) * | 2002-03-28 | 2005-04-21 | University Of Southern California, Los Angeles | Statistische Maschinenübersetzung |
EP1351158A1 (de) * | 2002-03-28 | 2003-10-08 | BRITISH TELECOMMUNICATIONS public limited company | Maschinelle Übersetzung |
US7716161B2 (en) * | 2002-09-24 | 2010-05-11 | Google, Inc, | Methods and apparatus for serving relevant advertisements |
US7403890B2 (en) | 2002-05-13 | 2008-07-22 | Roushar Joseph C | Multi-dimensional method and apparatus for automated language interpretation |
US7805302B2 (en) | 2002-05-20 | 2010-09-28 | Microsoft Corporation | Applying a structured language model to information extraction |
US7031911B2 (en) | 2002-06-28 | 2006-04-18 | Microsoft Corporation | System and method for automatic detection of collocation mistakes in documents |
US20040035055A1 (en) * | 2002-08-21 | 2004-02-26 | Tianli Zhu | Sulfur control for fuel processing system for fuel cell power plant |
US7349839B2 (en) * | 2002-08-27 | 2008-03-25 | Microsoft Corporation | Method and apparatus for aligning bilingual corpora |
US7149688B2 (en) | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
GB2395029A (en) | 2002-11-06 | 2004-05-12 | Alan Wilkinson | Translation of electronically transmitted messages |
US7249012B2 (en) | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
AU2003290955A1 (en) | 2002-11-22 | 2004-06-18 | Transclick, Inc. | Language translation system and method |
US7209875B2 (en) | 2002-12-04 | 2007-04-24 | Microsoft Corporation | System and method for machine learning a confidence metric for machine translation |
US20040111253A1 (en) | 2002-12-10 | 2004-06-10 | International Business Machines Corporation | System and method for rapid development of natural language understanding using active learning |
US20040115597A1 (en) | 2002-12-11 | 2004-06-17 | Butt Thomas Giles | System and method of interactive learning using adaptive notes |
JP3973549B2 (ja) | 2002-12-19 | 2007-09-12 | 沖電気工業株式会社 | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 |
US7584216B2 (en) | 2003-02-21 | 2009-09-01 | Motionpoint Corporation | Dynamic language translation of web site content |
US7356457B2 (en) | 2003-02-28 | 2008-04-08 | Microsoft Corporation | Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words |
US7346493B2 (en) * | 2003-03-25 | 2008-03-18 | Microsoft Corporation | Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system |
US7319949B2 (en) * | 2003-05-27 | 2008-01-15 | Microsoft Corporation | Unilingual translator |
US7383542B2 (en) | 2003-06-20 | 2008-06-03 | Microsoft Corporation | Adaptive machine translation service |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7346487B2 (en) * | 2003-07-23 | 2008-03-18 | Microsoft Corporation | Method and apparatus for identifying translations |
US8182270B2 (en) * | 2003-07-31 | 2012-05-22 | Intellectual Reserve, Inc. | Systems and methods for providing a dynamic continual improvement educational environment |
US7369998B2 (en) | 2003-08-14 | 2008-05-06 | Voxtec International, Inc. | Context based language translation devices and methods |
US7349845B2 (en) * | 2003-09-03 | 2008-03-25 | International Business Machines Corporation | Method and apparatus for dynamic modification of command weights in a natural language understanding system |
KR100542755B1 (ko) * | 2003-09-15 | 2006-01-20 | 한국전자통신연구원 | 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 |
US7283950B2 (en) * | 2003-10-06 | 2007-10-16 | Microsoft Corporation | System and method for translating from a source language to at least one target language utilizing a community of contributors |
US7302392B1 (en) | 2003-10-07 | 2007-11-27 | Sprint Spectrum L.P. | Voice browser with weighting of browser-level grammar to enhance usability |
US20050125218A1 (en) | 2003-12-04 | 2005-06-09 | Nitendra Rajput | Language modelling for mixed language expressions |
CA2549769A1 (en) | 2003-12-15 | 2005-06-30 | Laboratory For Language Technology Incorporated | System, method, and program for identifying the corresponding translation |
US7496497B2 (en) * | 2003-12-18 | 2009-02-24 | Taiwan Semiconductor Manufacturing Co., Ltd. | Method and system for selecting web site home page by extracting site language cookie stored in an access device to identify directional information item |
WO2005089340A2 (en) | 2004-03-15 | 2005-09-29 | University Of Southern California | Training tree transducers |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US7716037B2 (en) | 2004-05-24 | 2010-05-11 | Sri International | Method and apparatus for natural language translation in a finite domain |
GB2415518A (en) * | 2004-06-24 | 2005-12-28 | Sharp Kk | Method and apparatus for translation based on a repository of existing translations |
US7620632B2 (en) * | 2004-06-30 | 2009-11-17 | Skyler Technology, Inc. | Method and/or system for performing tree matching |
US7596485B2 (en) * | 2004-06-30 | 2009-09-29 | Microsoft Corporation | Module for creating a language neutral syntax representation using a language particular syntax tree |
US20060015323A1 (en) * | 2004-07-13 | 2006-01-19 | Udupa Raghavendra U | Method, apparatus, and computer program for statistical translation decoding |
US7409332B2 (en) | 2004-07-14 | 2008-08-05 | Microsoft Corporation | Method and apparatus for initializing iterative training of translation probabilities |
US20060020448A1 (en) * | 2004-07-21 | 2006-01-26 | Microsoft Corporation | Method and apparatus for capitalizing text using maximum entropy |
US7860314B2 (en) * | 2004-07-21 | 2010-12-28 | Microsoft Corporation | Adaptation of exponential models |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US20070269775A1 (en) | 2004-09-14 | 2007-11-22 | Dreams Of Babylon, Inc. | Personalized system and method for teaching a foreign language |
US7698124B2 (en) * | 2004-11-04 | 2010-04-13 | Microsoft Corporaiton | Machine translation system incorporating syntactic dependency treelets into a statistical framework |
US7546235B2 (en) | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7680646B2 (en) * | 2004-12-21 | 2010-03-16 | Xerox Corporation | Retrieval method for translation memories containing highly structured documents |
US7774192B2 (en) | 2005-01-03 | 2010-08-10 | Industrial Technology Research Institute | Method for extracting translations from translated texts using punctuation-based sub-sentential alignment |
US7571120B2 (en) | 2005-01-12 | 2009-08-04 | International Business Machines Corporation | Computer implemented method for estimating future grid job costs by classifying grid jobs and storing results of processing grid job microcosms |
US7672830B2 (en) | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
EP1894125A4 (de) * | 2005-06-17 | 2015-12-02 | Nat Res Council Canada | Mittel und verfahren zur angepassten sprachenübersetzung |
US7974833B2 (en) * | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US7552053B2 (en) | 2005-08-22 | 2009-06-23 | International Business Machines Corporation | Techniques for aiding speech-to-speech translation |
US7653531B2 (en) * | 2005-08-25 | 2010-01-26 | Multiling Corporation | Translation quality quantifying apparatus and method |
US7624020B2 (en) | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US7558769B2 (en) | 2005-09-30 | 2009-07-07 | Google Inc. | Identifying clusters of similar reviews and displaying representative reviews from multiple clusters |
US7957953B2 (en) | 2005-10-03 | 2011-06-07 | Microsoft Corporation | Weighted linear bilingual word alignment model |
US20070083357A1 (en) | 2005-10-03 | 2007-04-12 | Moore Robert C | Weighted linear model |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US7822596B2 (en) | 2005-12-05 | 2010-10-26 | Microsoft Corporation | Flexible display translation |
US8145472B2 (en) * | 2005-12-12 | 2012-03-27 | John Shore | Language translation using a hybrid network of human and machine translators |
GB2433403B (en) * | 2005-12-16 | 2009-06-24 | Emil Ltd | A text editing apparatus and method |
US7536295B2 (en) | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US20070168202A1 (en) | 2006-01-10 | 2007-07-19 | Xpient Solutions, Llc | Restaurant drive-through monitoring system |
US7849144B2 (en) | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
US20070180373A1 (en) | 2006-01-30 | 2007-08-02 | Bauman Brian D | Method and system for renderring application text in one or more alternative languages |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7542893B2 (en) | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US20070265826A1 (en) | 2006-05-10 | 2007-11-15 | Stanley Chen | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice |
WO2007133625A2 (en) | 2006-05-12 | 2007-11-22 | Eij Group Llc | Multi-lingual information retrieval |
US8886514B2 (en) | 2006-08-18 | 2014-11-11 | National Research Council Of Canada | Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list |
KR100837358B1 (ko) * | 2006-08-25 | 2008-06-12 | 한국전자통신연구원 | 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법 |
US20080065478A1 (en) * | 2006-09-12 | 2008-03-13 | Microsoft Corporation | Electronic coupon based service for enhancing content |
US20080183555A1 (en) | 2007-01-29 | 2008-07-31 | Hunter Walk | Determining and communicating excess advertiser demand information to users, such as publishers participating in, or expected to participate in, an advertising network |
US20080215418A1 (en) | 2007-03-02 | 2008-09-04 | Adready, Inc. | Modification of advertisement campaign elements based on heuristics and real time feedback |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
JP2008276517A (ja) | 2007-04-27 | 2008-11-13 | Oki Electric Ind Co Ltd | 訳文評価装置、訳文評価方法およびプログラム |
US7877251B2 (en) | 2007-05-07 | 2011-01-25 | Microsoft Corporation | Document translation system |
US20080307481A1 (en) | 2007-06-08 | 2008-12-11 | General Instrument Corporation | Method and System for Managing Content in a Network |
KR100938491B1 (ko) | 2007-10-24 | 2010-01-25 | 한국생명공학연구원 | 생체분자 표지용 수용성 광변색 화합물 및 이를 이용한생체분자의 검출방법 |
US8060360B2 (en) | 2007-10-30 | 2011-11-15 | Microsoft Corporation | Word-dependent transition models in HMM based word alignment for statistical machine translation |
US20090119091A1 (en) | 2007-11-01 | 2009-05-07 | Eitan Chaim Sarig | Automated pattern based human assisted computerized translation network systems |
TWI457868B (zh) | 2008-03-12 | 2014-10-21 | Univ Nat Kaohsiung 1St Univ Sc | 機器翻譯譯文之自動修飾方法 |
US8910110B2 (en) | 2008-03-19 | 2014-12-09 | Oracle International Corporation | Application translation cost estimator |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US8244519B2 (en) | 2008-12-03 | 2012-08-14 | Xerox Corporation | Dynamic translation memory using statistical machine translation |
US8990064B2 (en) * | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
-
2005
- 2005-10-12 US US11/250,151 patent/US8600728B2/en active Active
- 2005-10-12 WO PCT/US2005/036930 patent/WO2006042321A2/en active Application Filing
- 2005-10-12 DE DE202005022113.9U patent/DE202005022113U1/de not_active Expired - Lifetime
- 2005-10-12 JP JP2007536911A patent/JP5452868B2/ja active Active
- 2005-10-12 DE DE112005002534T patent/DE112005002534T5/de active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US10984429B2 (en) | 2010-03-09 | 2021-04-20 | Sdl Inc. | Systems and methods for translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US10402498B2 (en) | 2012-05-25 | 2019-09-03 | Sdl Inc. | Method and system for automatic management of reputation of translators |
Also Published As
Publication number | Publication date |
---|---|
US8600728B2 (en) | 2013-12-03 |
DE112005002534T5 (de) | 2007-11-08 |
JP2008516357A (ja) | 2008-05-15 |
WO2006042321A3 (en) | 2006-08-03 |
US20060142995A1 (en) | 2006-06-29 |
JP5452868B2 (ja) | 2014-03-26 |
WO2006042321A2 (en) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE202005022113U1 (de) | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet | |
DE602004003513T2 (de) | Vorrichtung zum Ordnen bei der Satzgenerierung für ein System zur Generierung natürlicher Sprache, basierend auf linguistisch informierten statistischen Modellen der Bestandteil-Struktur | |
DE69725883T2 (de) | Parser für natürliche sprache mit wörterbuch-basierten teilwahrscheinlichkeiten | |
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
DE69818796T2 (de) | Maschinenorganisiertes verfahren und vorrichtung zum übersetzen einer wortorganisierten textquelle in einen wortorganisierten zieltext | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69820343T2 (de) | Linguistisches Suchsystem | |
DE102008040739A1 (de) | Verfahren und System zum Berechnen oder Bestimmen von Vertrauens- bzw. Konfidenzauswertungen für Syntaxbäume auf allen Ebenen | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE112014007123T5 (de) | Dialogsteuersystem und Dialogsteuerverfahren | |
DE102014113870A1 (de) | Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten | |
DE112019001533T5 (de) | Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache | |
DE112018006345T5 (de) | Abrufen von unterstützenden belegen für komplexe antworten | |
DE112017006151T5 (de) | Anpassbare Verarbeitungskomponenten | |
DE60109999T2 (de) | Spracherkennung mittels lexikalischer Bäumen | |
DE102019001267A1 (de) | Dialogartiges System zur Beantwortung von Anfragen | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
DE112018005272T5 (de) | Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur | |
DE112020003506T5 (de) | Natürlichsprachliche antworten in maschinenunterstützten agenten | |
DE69733294T2 (de) | Einrichtung und Verfahren zum Zugriff auf eine Datenbank | |
DE112017007361T5 (de) | Unterstützen von interaktivem textmining-prozess mit dialog in natürlicher sprache | |
DE112018004140T5 (de) | Abstraktion und übertragbarkeit auf eine absichtserkennung | |
DE69933123T2 (de) | Zugriff auf eine semi-strukturierte datenbank | |
DE102021004562A1 (de) | Abwandlung von Szenengraphen auf Grundlage von Befehlen in natürlicher Sprache | |
CN105573994B (zh) | 基于句法骨架的统计机器翻译系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification |
Effective date: 20140313 |
|
R152 | Utility model maintained after payment of third maintenance fee after eight years |
Effective date: 20140403 |
|
R071 | Expiry of right |