ES2343786T3 - Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. - Google Patents

Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. Download PDF

Info

Publication number
ES2343786T3
ES2343786T3 ES03716920T ES03716920T ES2343786T3 ES 2343786 T3 ES2343786 T3 ES 2343786T3 ES 03716920 T ES03716920 T ES 03716920T ES 03716920 T ES03716920 T ES 03716920T ES 2343786 T3 ES2343786 T3 ES 2343786T3
Authority
ES
Spain
Prior art keywords
phrase
word
translation
vec
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03716920T
Other languages
English (en)
Inventor
Daniel Marcu
Kevin Knight
William Wong
Philipp Koehn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Southern California USC
Original Assignee
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Southern California USC filed Critical University of Southern California USC
Application granted granted Critical
Publication of ES2343786T3 publication Critical patent/ES2343786T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

Procedimiento implementado por ordenador para generar un modelo de probabilidad conjunta basado en frases a partir de un cuerpo paralelo que comprende una pluralidad de frases en el idioma fuente y una pluralidad de frases correspondiente en el idioma de destino; comprendiendo el procedimiento: a) definir a partir del cuerpo paralelo n-gramas de alta frecuencia (\vec(ei) en E, y (\vec(fi) en F, donde E y F comprenden frases en el idioma fuente y de destino, respectivamente; b) obtener una distribución de probabilidad conjunta t inicial basada en la frase, mediante: i) tomar, para cada par de frases (E, F) en el cuerpo, tres productos cartesianos de n-gramas (\vec(ei) en E, y (\vec(fi) en F; ii) determinar, para cada par de n-gramas (ei, fi) en el producto cartesiano, un recuento t dado por la expresión: **(Ver fórmula)** donde l y m son las longitudes de las frases E y F, respectivamente, a y b son las longitudes de los n-gramas (\vec(ei) y (\vec(fi), y S es el número de Stirling de segunda clase; iii) sumar las cuentas t y normalizar, y c) realizar el entrenamiento de Expectativa Máxima para una pluralidad de iteraciones para generar una distribución de probabilidad conjunta t.

Description

Modelo de probabilidad de unión basado en frases para traducción automática estadística.
Origen de la invención
La investigación y el desarrollo descritos en esta solicitud fueron apoyados por DARPA-ITO con el número de subvención N66001-00-1-9814 y por las subvenciones del NSF-STTR 0128379. El Gobierno de los EE.UU. puede tener ciertos derechos en las invenciones reivindicadas.
Antecedentes
La mayoría de los modelos basados en canales de ruido utilizados en la traducción automática estadística (MT) son modelos de probabilidad condicional. En el marco del canal de ruido, cada oración fuente "e" en un cuerpo paralelo se supone que "genera" una frase destino "f" por medio de un proceso estocástico, cuyos parámetros se estiman mediante técnicas tradicionales de Máxima Expectación (EM). El modelo generativo explica cómo las palabras fuente se asignan a las palabras destino y cómo las palabras destino son reordenadas para producir oraciones destino bien formadas. Una variedad de procedimientos se utilizan para explicar el reordenamiento de las palabras destino, incluyendo los procedimientos que utilizan modelos basados en palabras, basados en plantillas, y basados en sintaxis (por nombrar sólo algunos). Aunque estos modelos utilizan diferentes procesos generativos para explicar cómo las palabras traducidas vuelven a ordenarse en un idioma de destino, a nivel de léxico estos modelos asumen que las palabras fuente son traducidas individualmente en palabras destino.
En el documento "Towards a Unified Approach to Memory - and Statistical-Based Machine Translation" de Daniel Marcu, Procedimiento de ACL-2001, se describe un procedimiento estadístico conocido de traducción automática que incluye un modelo de probabilidad conjunta basado en palabras, que es posteriormente formado para desarrollar una memoria de traducción para la correspondencia frase a frase. Otras referencias de interés como antecedentes incluyen "The Mathematics of Statistical Machine Translation: Parameter Estimation" de P Brown et al, Computacional Linguistics, Cambridge, MA; "Empirical Methods for Exploiting Parallel Texts" de Dan Melamed, The MIT Press. "Improved Alignment Models for Statistical Machine Translation", de Franz Josef Och et al, Procedures of the Joint Conference of Empirical Methods in Natural Language Processing and Very Large Corpora fue más allá de los modelos de traducción automática estadísticos originales permitiendo traducir unidades de múltiples palabras o frases.
Descripción
La invención se define en las reivindicaciones independientes a las que se ahora debe hacerse referencia. Características ventajosas se indican en las reivindicaciones dependientes.
Un sistema de traducción automática (MT) puede desarrollar diccionarios de traducción frase a frase probabilísticos utilizando una o más recopilaciones bilingües. Por ejemplo, pueden desarrollarse diccionarios de traducción utilizando un procedimiento de probabilidad conjunta, un procedimiento condicional de palabra a palabra, u otro procedimiento.
El sistema de MT puede traducir una o varias frases (o fragmentos de frase) utilizando diccionarios de traducción. Por ejemplo, el sistema de MT puede utilizar un procedimiento voraz, un procedimiento que utiliza un decodificador haz de pila u otro procedimiento para descifrar frases.
En las implementaciones en las que los diccionarios de traducción se desarrollan mediante un modelo de probabilidad conjunta basada en la frase, las frases fuente y destino del idioma se puede generar de forma simultánea. El sistema podrá utilizar el modelo de probabilidad conjunta tanto para aplicaciones de traducción fuente-a-destino y destino-a-fuente.
En realizaciones que usan un procedimiento condicional palabra-a-palabra, el modelo puede aprender alineaciones frase-a-frase a partir de alineaciones palabra-a-palabra generada por un sistema MT estadístico palabra-a-palabra.
Breve descripción de los dibujos
La figura 1 es un diagrama de bloques de un sistema de traducción automática (MT) que incluye un modelo de traducción de probabilidad conjunta basado en la frase.
La figura 2 muestra las alineaciones y distribuciones de probabilidad generadas por el modelo de probabilidad conjunta basado en la frase.
La Figura 3 es un diagrama de flujo que describe un algoritmo de entrenamiento para el modelo de probabilidad conjunta basado en la frase.
La Figura 4 se muestra un ejemplo de decodificación voraz basado en la frase.
La figura 5 es un diagrama de flujo que describe un algoritmo de decodificación basado en la frase según un ejemplo.
La Figura 6 muestra un pseudocódigo que describe el algoritmo de decodificación basado en la frase.
La figura 7 es un diagrama que muestra la generación de un arco entre las hipótesis.
La figura 8 es un gráfico que muestra el efecto de la longitud de la frase en el rendimiento.
La figura 9 muestra un ejemplo de estimación de un peso léxico.
La Figura 10 es un gráfico que muestra el efecto de la ponderación léxica en el rendimiento.
La figura 11 es un gráfico de comparación de la eficiencia de heurísticas diferentes.
Descripción detallada
Se pueden utilizar sistemas y técnicas de la presente divulgación para proporcionar una traducción automática (MT) más eficaz y exacta. En algunas implementaciones, el sistema de MT puede desarrollar diccionarios probabilísticos de traducción frase-a-frase. Los diccionarios de traducción probabilística pueden ser aprendidos de forma automática a partir de cuerpo bilingüe utilizando, por ejemplo, modelos de probabilidad conjunta o modelos condicionales palabra-a-palabra.
Estos diccionarios de traducción a continuación, se pueden utilizar para traducir frases nuevas. Es decir, los diccionarios de traducción se pueden utilizar para traducir frases no incluidas en los cuerpos utilizados para entrenar el sistema de MT. Sistemas y técnicas de traducción incluyen un procedimiento voraz, un procedimiento que utiliza un decodificador de haz de pila, u otros procedimientos.
La figura 1 muestra un sistema de traducción automática (MT) 100 incluyendo un modelo de traducción 105 y un decodificador 110. El modelo de traducción 105 puede incluir diccionarios de traducción que se pueden aprender a partir de cuerpo bilingües. El modelo de traducción 105 puede suponer que las correspondencias léxicas se pueden establecer al nivel de palabra y también al nivel de expresión. El decodificador 110 puede usar los diccionarios de traducción para proporcionar una frase traducida, sobre la base de una oración de entrada.
Desarrollo del diccionario de traducción de frase-a-frases
De acuerdo con algunas realizaciones, el modelo 105 puede ser entrenado de acuerdo a un modelo de probabilidad conjunta. Es decir, el modelo 105 puede desarrollar automáticamente un diccionario de traducción mediante un cuerpo paralelo 115 que incluye secuencias paralelas de idioma fuente y destino. El modelo 105 no trata de captar cómo las oraciones fuente pueden ser asignadas a frases destino, sino que genera frases fuente y destino de forma simultánea. En otras palabras, el modelo de traducción es un modelo de probabilidad conjunta que puede ser fácilmente marginado a fin de producir modelos de probabilidad condicional para ambas aplicaciones de traducción automática de fuente-a-destino y destino-a-fuente.
En una realización, el modelo 105 puede generar pares de oraciones usando el siguiente proceso estocástico:
1. Generar una bolsa de conceptos C.
2. Para cada concepto c_{i} \in C, genera un par de frases 100, de acuerdo con la distribución t 100, donde \vec{e}_{i} y \vec{f}_{i} contiene cada uno al menos una palabra.
3. Ordenar las frases generadas en cada idioma con el fin de crear dos secuencias lineales de frases; las secuencias corresponden a los pares de oraciones en un cuerpo bilingüe.
Por simplicidad, se supone que la bolsa de conceptos y el orden de las frases generadas se modelan mediante distribuciones uniformes. También se supone que c_{i} = 100. Bajo estos supuestos, se deduce que la probabilidad de generar un par de frases (E, F) usando los conceptos c_{i} \in C está dada por el producto de todas las probabilidades de traducción frase-a-frase, \Pi_{c_{i}{}^{\in c}} 100 que produce bolsas de rendimiento de frases que se pueden ordenar linealmente a fin de obtener las frases E y F.
\newpage
La figura 2 muestra un ejemplo. El par de frases "a b c"- -"x y" se puede generar mediante dos conceptos, ("a b": "y") y ("c": "x"), o un concepto, ("a b c": "x y"), porque en ambos casos las frases en cada idioma se pueden organizar en una secuencia que daría el par de la sentencia original. Sin embargo, el mismo par de frases no se puede generar utilizando los conceptos ("a b": "y") y ("c": "y") porque la secuencia de "x y" no puede ser recreada a partir de las dos frases "y" e "y". Del mismo modo, el par no se puede generar utilizando conceptos ("a c": "x") y ("b": "y") porque la secuencia "a b c" no se puede crear mediante la concatenación de las frases de "a c" y "b".
El conjunto de conceptos C puede ser linealizado en un par de oraciones (E, F) si E y F se puede obtener la permutación de las frases \vec{e}_{i} y \vec{f}_{i} que caracterizan a todos los conceptos c_{i} \in C. Denotamos esta propiedad utilizando el predicado L (E, F, C). Bajo este modelo, la probabilidad de un par de oraciones dadas (E, F), se puede obtener entonces sumando de todas las formas posibles de generar bolsas de conceptos c_{i} \in C que se puede linealizar a (E, F).
1
\vskip1.000000\baselineskip
El modelo descrito anteriormente ("Modelo 1") se ha encontrado que produce alineamientos bastante buenos. Sin embargo, este modelo puede ser inadecuado para traducir frases no vistas, ya que impone restricciones a la ordenación de las frases asociadas a un concepto dado. Con el fin de dar cuenta de esto, un modelo modificado ("Modelo 2") fue desarrollado para dar cuenta de las distorsiones. La historia generativa del modelo es la siguiente:
1. Generar una bolsa de conceptos C.
2. Inicializar E y F para secuencias vacías e.
3. Tomar aleatoriamente un concepto c_{i} \in C y generar un par de frases 100, según la distribución t 100, donde \vec{e}_{i} y \vec{f}_{i} contienen cada uno al menos una palabra. Extraer entonces c_{i} de C.
4. Anexar la frase \vec{f}_{i} al final de F. Dejar k en la posición inicial de \vec{f}_{i} en F.
5. Insertar la frase \vec{e}_{i} en la posición 1 en E a condición de que ninguna otra frase ocupe ninguna de las posiciones 1 y 1+|\vec{e}_{i}|, donde |\vec{e}_{i}| da la longitud de la frase \vec{e}_{i}. El sistema, por lo tanto, crea la alineación entre las dos frases \vec{e}_{i} y \vec{f}_{i} con una probabilidad
2
\vskip1.000000\baselineskip
donde d (i, j) es una distribución de la distorsión basada en la posición.
6. Repetir las etapas 3 a 5 hasta que C esté vacío.
En este modelo, la probabilidad de generar un par de frases (E, F) viene dada por la siguiente fórmula:
3
\vskip1.000000\baselineskip
donde 101 denota la posición de la palabra k de la frase \vec{f}_{i} en la frase F y 102 denota la posición en la frase E del centro de masa de la frase e_{i}.
Entrenar los modelos descritos puede ser informáticamente difícil. Como no hay un número exponencial de las alineaciones que pueden generar un par de frases (E, F), el algoritmo de entrenamiento de Máxima Expectación (EM) no se puede aplicar de forma exhaustiva. La Figura 3 es un diagrama de flujo que describe un algoritmo de entrenamiento 300 para el modelo de probabilidad conjunta basado en la frase que tiene en cuenta este problema.
El sistema determina n-gramas de alta frecuencia en E y F (bloque 305). Si se asume desde el principio que cualquier frase \vec{e}_{i} \in E * y \vec{f}_{i} * \in F puede generarse a partir de un concepto c_{i}, se necesitaría un superordenador para almacenar en la memoria una tabla que modela la distribución t100. Dado que el sistema no tiene acceso a ordenadores con memoria ilimitada, el sistema aprende inicialmente entradas de distribución t únicamente para las frases que se producen con frecuencia en el cuerpo y para unigramas. Luego, a través del suavizado, el sistema aprende entradas de distribución t también para las frases que son muy poco frecuentes. Para ser considerada en la próxima etapa del algoritmo, una frase tiene que producirse al menos cinco veces en el cuerpo.
El siguiente paso es inicializar la tabla de distribución t (bloque 310). Antes de que el procedimiento de entrenamiento EM se inicie, no se tiene idea de qué pares de palabra/frase es probable que compartan el mismo significado. En otras palabras, todas las alineaciones que pueden generar un par de frases (E, F) se puede suponer que tienen la misma probabilidad. Bajo estas condiciones, la evidencia de que un par de frases (E, F) contribuye al hecho de que 100 son generados por el mismo concepto c_{i} viene dada por el número de alineaciones que se puede construir entre (E, F) que tienen un concepto c_{i} que está vinculado a la frase \vec{e}_{i} en la frase E y la frase \vec{f}_{i} en la frase F dividida por el número total de alineaciones que se pueden construir entre las dos oraciones. Ambos números pueden ser aproximados fácilmente.
Dada una frase de E de 1 palabra, hay S(l, k) formas en que las palabras l se puede dividir en k conjuntos/conceptos no vacíos, donde S(l, k) es el número de Stirling de segunda clase.
4
También hay S(m, k) formas en que las m palabras de una frase F se puede dividir en k conjuntos no vacíos. Teniendo en cuenta que cualquier palabra en E se puede asignar a cualquier palabra en F, se deduce que hay
5
alineaciones que se pueden construir entre dos oraciones (E, F) de longitud 1 y m, respectivamente. Cuando un concepto ci genera dos frases 100 de longitud a y b, respectivamente, sólo hay 1-a y m-b palabras dejadas de enlazar. Por lo tanto, en ausencia de cualquier otra información, la probabilidad de que las frases \vec{e}_{i} y \vec{f}_{i} sean generadas por el mismo concepto c_{i} viene dada por la siguiente fórmula:
6
Obsérvese que las cuentas fraccionadas devueltas por la fórmula son solamente una aproximación de la distribución t, el sistema está interesado porque los números de Stirling de segunda clase no imponen ninguna en las palabras que se asocian con un concepto dado que sean consecutivas. Sin embargo, puesto que la fórmula sobreestima igualmente al numerador y el denominador, la aproximación funciona bien en la práctica.
En la segunda etapa del algoritmo, el sistema aplica la fórmula para recoger cuentas fraccionadas para todos los unigramas y los pares de n-gramas de alta frecuencia en el producto cartesiano definido sobre las frases de cada par de oraciones (E, F) en un cuerpo. El sistema suma a lo largo de todas estas cuentas t y se normaliza para obtener una distribución conjunta inicial t. Esta etapa equivale a ejecutar el algoritmo EM para una etapa sobre todas las alineaciones posibles en el cuerpo.
En la tercera etapa del algoritmo, el sistema realiza el entrenamiento EM en los alineamientos de Viterbi (bloque 315). Dada una distribución t no uniforme, alineaciones frase-a-frase tienen pesos diferentes y no hay otros trucos que se puedan utilizar para recopilar cuentas fraccionadas sobre todas las alineaciones posibles en tiempo polinómico. Comenzando con el bloque 315 del algoritmo de la figura 3, para cada par de frases en un cuerpo, el sistema produce una alineación inicial voraz enlazando frases a fin de crear conceptos que tienen probabilidades t altas. El sistema entonces escala hacia la alineación de Viterbi de mayor probabilidad mediante la rotura y combinación de conceptos, intercambiando palabras entre conceptos y moviendo palabras a través de conceptos. El sistema calcula las probabilidades asociadas con todas las alineaciones generadas por el sistema durante el proceso de escalado y recoge recuentos de t de todos los conceptos en estas alineaciones.
El sistema aplica este procedimiento de entrenamiento de EM basado en Viterbi para unas pocas iteraciones. Las primeras iteraciones estiman las probabilidades de alineación utilizando el modelo 1. El resto de las iteraciones estiman las probabilidades de alineación usando el Modelo 2.
Durante el entrenamiento, el sistema aplica el suavizado para que el sistema pueda asociar valores no nulos a los pares de frases que no ocurren con frecuencia en el cuerpo.
Al final del procedimiento de entrenamiento, el sistema toma los marginales en el conjunto de distribuciones de probabilidad t y d (bloque 320). Esto da las distribuciones de probabilidad condicional t 100 y d (posF|posE), que el sistema utiliza para la decodificación.
Cuando el sistema ejecuta el procedimiento de entrenamiento en la Figura 3 en el cuerpo en la Figura 2, después de cuatro iteraciones del modelo 1 el sistema obtiene las 205 alineaciones y las distribuciones de probabilidad conjunta y condicional 210. A primera vista, la alineación de Viterbi para el primer par de frases puede parecer incorrecta porque los seres humanos tienen una tendencia natural para construir alineaciones entre las frases más pequeñas posibles. Sin embargo, se tiene en cuenta que la opción elegida por nuestro modelo es bastante razonable. Después de todo, en ausencia de información adicional, el modelo puede suponer que la "a" y "y" significa la misma cosa o que las frases "a b c" y "x y" significan lo mismo. El modelo elige dar más peso a la segunda hipótesis, preservando al mismo tiempo parte de la masa de probabilidad para la primera.
También se tiene en cuenta que, aunque la distribución conjunta pone a la segunda hipótesis en una situación ventajosa, la distribución condicional no lo hace. La distribución condicional 210 es compatible con nuestras intuiciones que nos dicen que es razonable tanto para traducir "a b c" en "x y", así como "a" en "y". La distribución condicional refleja nuestras intuiciones.
En un sistema alternativo, un sistema como el sistema 100 de la FIG. 01 de mayo aprender traducciones frase-a-frase a partir de alineaciones palabra-a-palabra. Es decir, un modelo como el modelo 105 puede desarrollar un diccionario de traducción de frases mediante la expansión de diccionarios de traducción palabra-por- palabra aprendidos por los modelos palabra-a-palabra. El modelo de traducción de frases está basado en el modelo de canal ruidoso. El sistema utiliza la regla de Bayes para la reformulación de la probabilidad de traducción para la traducción de una sentencia extranjera f al Inglés e como
7
Esto permite un modelo de idioma p(e) y un modelo de traducción separado F(f|le).
Durante la decodificación (es decir, la traducción), la frase de entrada extranjera f se segmenta en una secuencia de I frases que \overline{f}_{1}{}^{I}. El sistema supone una distribución de probabilidad uniforme sobre todas las posibles segmentaciones.
Cada frase extranjera \overline{f}_{1} en \overline{f}_{1}{}^{I} se traduce en una frase de Inglés \overline{e}_{i}. Las frases de Inglés pueden ser reordenadas. La traducción de frases es modelada por una distribución de probabilidad \varphi 103 Debido a la regla de Bayes, la dirección de traducción se invierte a partir de un punto de vista de la modelización.
El reordenamiento de las frases de salida en Inglés es modelada por una distribución de probabilidad de distorsión relativa d (a_{i} - b_{i-1}), donde a_{i} denota la posición de comienzo de la frase extranjera que se tradujo en la frase en Inglés, y b_{i-1} denota la posición final de la frase traducida en la (i - 1)º frase en Inglés.
La distribución de probabilidad de distorsión d(\cdot) puede ser entrenada a través de un modelo de probabilidad conjunta, como la descrita en relación con la disposición descrita anteriormente. Como alternativa, el sistema también podría usar un modelo más simple de distorsión d (a_{i} - b_{i-1}) = \alpha^{|a}_{i}^{-b}_{i-1}^{-I|} con un valor adecuado para el parámetro \alpha.
\newpage
Con el fin de calibrar la longitud de salida, el sistema introduce un factor \omega para cada palabra en Inglés generada además del modelo de idioma trigrama p_{LM}. Este es un medio simple para optimizar el rendimiento. Por lo general, este factor es mayor que 1, orientando una salida más larga.
En resumen, la mejor frase de salida en Inglés e_{mejor} dada una frase de entrada extranjera f según el modelo es
8
\vskip1.000000\baselineskip
donde p(f|e) se descompone en
9
\vskip1.000000\baselineskip
El equipo de herramientas Giza++ fue desarrollado para entrenar modelos de traducción basados en palabras a partir de cuerpos paralelos. Como un subproducto, genera alineamientos de palabra para estos datos. El sistema puede mejorar esta alineación con una serie de heurísticas. El sistema recoge todos los pares de frase alineadas que sean compatibles con la alineación de palabras. Las palabras en un par de frases legal sólo se alinean entre sí, y no a las palabras del exterior. Dados los pares de palabras recogidos, el sistema calcula la distribución de probabilidad de la traducción de la frase mediante frecuencia relativa:
10
\vskip1.000000\baselineskip
En algunos acuerdos, se puede realizar el alisado.
Si el sistema recoge todos los pares de frases que son consistentes con los alineamientos de palabras, esto incluye muchas frases no intuitivas. Por ejemplo, las traducciones de frases tales como "house the" pueden ser aprendidas. Intuitivamente el sistema se inclina a creer que tales frases no ayudan. La restricción de frases posibles a frases sintácticamente motivadas puede filtrar dichos pares no intuitivos.
Otra motivación para evaluar el desempeño de un modelo de traducción de frase que contiene sólo frases sintácticas viene de los recientes esfuerzos para construir modelos de traducción sintácticos. En estos modelos, la reordenación de las palabras se limita a reordenación de los constituyentes en árboles de análisis sintácticos bien formados. Cuando se aumentan esos modelos con traducciones de frases, por lo general sólo es posible la traducción de las frases que abarcan todos los subárboles sintácticos. Es importante saber si se trata de una restricción útil o perjudi-
cial.
El sistema puede definir una frase sintáctica como una secuencia palabras que está cubierta por un único sub-árbol en un árbol de análisis sintáctico. Recogemos pares de frases sintácticas de la siguiente manera: el sistema alinea palabras de un cuerpo paralelo, como se describió anteriormente. El sistema analiza entonces ambos lados del cuerpo con analizadores sintácticos. Para todos los pares de frases que son consistentes con la alineación de palabras, el sistema comprueba además si ambas frases son subárboles en los árboles de análisis. Sólo estas frases se incluyen en el modelo. Por lo tanto, los pares de frases sintácticamente motivadas aprendidas son un subconjunto de los pares de frases aprendidas sin el conocimiento de la sintaxis. La distribución de probabilidad de traducción de la frase puede ser estimada mediante la frecuencia relativa.
La figura 8 muestra los resultados de los experimentos con diferentes longitudes de frase máximas. Fueron utilizadas todas las frases consistentes con la alineación de palabras (AP). Como se muestra en la Figura 8, limitar la longitud a un máximo de sólo tres palabras por frase ya alcanza el máximo rendimiento. Aprender frases más largas no produce ninguna mejora. Reducir el límite a sólo dos, sin embargo, es perjudicial. Permitir frases más largas aumenta el tamaño de la tabla de traducción de frases. El aumento es casi lineal con el límite de longitud máxima. Sin embargo, ninguno de estos tamaños de modelos causó problemas de memoria.
\newpage
El sistema podrá validar la calidad de un par de traducción de frases por revisar qué tan bien sus palabras se traducen entre sí. Para ello, se puede utilizar una distribución de probabilidad de traducción léxica w(f|e). La distribución puede ser estimada mediante la frecuencia relativa de las mismas alineaciones de palabras que el modelo de la frase
11
Una señal NULL en Inglés especial se puede añadir a cada frase en Inglés y alinearse a cada palabra extranjera no alineada.
Dado un par de frases (\overline{f}, \overline{e}) y una alineación de palabras a entre las posiciones palabra extranjera I - 1,..., n y las posiciones de palabra en Inglés j = 0, 1,..., m, el sistema calcula el peso léxico p_{w} por
12
La Figura 9 muestra un ejemplo.
Si hay alineaciones múltiples para un par de frases (\overline{f}, \overline{e}), el sistema puede utilizar la alineación con el mayor peso léxico:
13
El sistema podrá utilizar el peso léxica p_{w} durante la traducción como un factor adicional. Esto significa que el modelo p(f|e) se extiende a
14
El parámetro \lambda define la fuerza del peso léxico p_{w}. Buenos valores para este parámetro están alrededor de 0,25.
La figura 10 muestra el impacto de la ponderación de diccionario en el rendimiento de traducción automática. En nuestros experimentos, el sistema logró mejoras de hasta 0,01 en la escala de puntuación de BLEU.
La traducción de frases con un peso diccionario es un caso especial del modelo de plantilla de alineación con una clase de palabras para cada palabra. La simplificación realizada por el sistema tiene la ventaja de que los pesos léxicos puede descomponerse en factores en la tabla de traducción de frases de antemano, acelerando la decodificación. En contraste con el descodificador de búsqueda del haz para el modelo de plantilla de alineación, el procedimiento de decodificación descrito en relación con las figuras 5 y 6, son capaces de buscar toda la segmentación de palabras posibles de la frase de entrada, en lugar de elegir una segmentación antes de descodificarlo.
En el experimento, el sistema aprendió pares de frases a partir de alineaciones de palabras generadas por Giza++. Los modelos de IBM que implementa este conjunto de herramientas sólo permiten a lo sumo a una palabra en Inglés estar alineada con una palabra extranjera. El sistema soluciona este problema con un enfoque heurístico.
En primer lugar, el sistema alinea un cuerpo paralelo bidireccionalmente, es decir, extranjera a Inglés e Inglés a extranjera. Esto da dos alineaciones de palabra que el sistema intenta conciliar. Si el sistema intercepta las dos alineaciones, el sistema consigue una alineación de alta precisión de puntos de alineación de alta confianza. Si el sistema toma la unión de las dos alineaciones, el sistema consigue una alineación de alto recuerdo con puntos de alineación adicionales.
El espacio comprendido entre la intersección y la unión puede ser heurística de expansión que comienza con la intersección y añade puntos de alineación adicionales. La decisión de qué puntos agregar puede depender de una serie de criterios, por ejemplo, cuya alineación hace que el punto de alineación potencial exista (Extranjero-Inglés o Inglés-Extranjero), si el punto potencial se avecina a puntos ya establecidos, si la "vecindad" significa directamente adyacente (bloque-distancia), o también diagonalmente adyacente si la palabra en Inglés o la palabra extranjera que conecta el punto potencial no están alineadas hasta el momento, y si ambas están no alineadas y la probabilidad léxica para el punto de potencial.
El sistema comienza con la intersección de las dos alineaciones de palabras. El sistema sólo añade nuevos puntos de alineación que existen en la unión de dos alineaciones de palabra. El sistema también requiere siempre que un nuevo punto de alineación conecte al menos una palabra previamente no alineada.
En primer lugar, el sistema se expande sólo a puntos de alineación directamente adyacentes. El sistema verifica los puntos potenciales partiendo desde la esquina superior derecha de la matriz de alineación, controlando los puntos de alineación para la primera palabra en Inglés, y luego continúa con los puntos de alineación para la segunda palabra en Inglés, y así sucesivamente. Esto se realiza iterativamente hasta que no se pueden añadir más punto de alineación. En una última etapa, el sistema añade puntos de alineación no adyacentes, con los mismos requisitos, de otra manera.
La figura 11 muestra el desempeño de esta heurística (base) en comparación con las dos alineaciones de mono-direccionales (e2f, f2e) y su unión (unión). La cifra también contiene dos modificaciones de la base heurística: En la primera (diag), el sistema también permite la vecindad diagonal en la fase de expansión iterativa. En una variante de esta (diag-and), el sistema requiere en la etapa final que ambos términos no estén alineados.
La clasificación de estos diferentes procedimientos varía para los diferentes tamaños de cuerpo de entrenamiento. Por ejemplo, la alineación f2e comienza de la segunda a peor para el cuerpo de 10.000 pares de oraciones, pero en última instancia es competitivo con el mejor procedimiento de 320.000 pares de frases. La base heurística es inicialmente la mejor, pero luego cae. La discrepancia entre el mejor y el peor procedimiento es bastante grande, alrededor de 0,2 BLEU (un sistema de puntuación de IBM), para casi todos los tamaños de cuerpo de entrenamiento, aunque no siempre de manera significativa.
Descodificación
El decodificador basado en frases en algunas realizaciones puede emplear un algoritmo de búsqueda en haz. La salida en Inglés se genera de izquierda a derecha en forma de traducciones parciales (o hipótesis).
El sistema puede comenzar la búsqueda de posibles traducciones en un estado inicial en que ninguna palabra de entrada extranjera se traduce y no se han generado palabras de salida en Inglés. Se pueden crear nuevos estados mediante la ampliación de la salida de Inglés con una traducción de frases que comprende algunas de las palabras de entrada extranjeras aún no traducidas. El costo actual del nuevo estado es el costo de su estado original multiplicados por la traducción, la distorsión y los costes de modelo de idioma de la traducción de frases agregada.
Cada espacio de búsqueda (hipótesis) se representa por (a) un enlace de retorno al mejor estado anterior, (b) las palabras extranjeras cubiertas hasta ahora, (c) las dos últimas palabras en Inglés generadas (necesarias para calcular los costes de modelo de idioma futuros), (d) el final de la última frase extranjera cubierta (necesario para calcular los costes futuros de distorsión), (e) la última frase en Inglés añadida (necesaria para leer la traducción de una ruta de hipótesis), (f) el coste hasta ahora, y (g) la estimación del coste futuro.
Estados finales en la búsqueda son hipótesis que cubren todas las palabras extranjeras. Entre ellos la hipótesis con el menor costo es seleccionada como la mejor traducción.
Dos hipótesis se pueden combinar, si están de acuerdo en (a) las palabras extranjeras cubiertas hasta ahora, (b) las dos últimas palabras generadas en Inglés, y (c) el final de la última frase extranjera cubierta.
Si hay dos caminos que llevan a dos hipótesis que están de acuerdo en estas propiedades, el sistema mantiene la hipótesis más barata, por ejemplo, la que tenga un costo menor hasta ahora. La otra hipótesis no puede ser parte de la ruta de acceso a la mejor traducción, y el sistema puede descartarla de forma segura. Tenga en cuenta que la hipótesis inferior puede ser parte de la ruta de acceso a la segunda mejor traducción.
La figura 5 es un diagrama de flujo que describe una operación de decodificación basado en palabras 500 según un ejemplo. Un algoritmo que describe la operación se muestra en la Figura 6. El sistema se puede iniciar con una hipótesis inicial vacía. Una nueva hipótesis se expande entonces a partir de una hipótesis existente mediante la traducción de una frase. Se selecciona una secuencia de palabras extranjeras no traducidas y una posible traducción de la frase de Inglés para ellas (bloque 505). La frase en Inglés se une a la secuencia de salida existente en Inglés (bloque 510). A continuación, las palabras extranjeras se marcan como traducidas y el coste de probabilidad de la hipótesis se actualiza (bloque 515). La hipótesis final más barata (probabilidad más alta) sin palabras extranjeras sin traducir es el resultado de la búsqueda (bloque 520).
Las hipótesis se almacenan en pilas. La pila s_{m} contiene todas las hipótesis en las que m palabras extranjeras han sido traducidas. El sistema puede recombinar hipótesis de búsqueda. Si bien esto reduce un poco el número de hipótesis almacenadas en cada pila, el tamaño de la pila es exponencial con respecto a la longitud de frase de entrada. Esto hace inviable una búsqueda exhaustiva.
Así, el sistema reduce las hipótesis débiles basadas en el costo en que incurrieron hasta el momento y una estimación de los costes futuros. Para cada pila, el sistema sólo mantiene un haz de las n mejores hipótesis. Dado que la estimación de costes futuros no es perfecta, esto conduce a la búsqueda de errores. Nuestra estimación de los costes futuros tiene en cuenta el coste de traducción de la frase estimado, pero no el coste de distorsión esperado.
Para cada traducción de la frase posible en cualquier lugar de la oración (referido como una "opción de traducción"), el sistema multiplica su probabilidad de traducción de la frase con la probabilidad de modelo de idioma para la frase en Inglés generada. Como probabilidad modelo de idioma, el sistema podrá utilizar la probabilidad de unigrama para la primera palabra, la probabilidad bigrama para la segunda, y la probabilidad trigrama para todas las palabras siguientes.
Teniendo en cuenta los costes de las opciones de traducción, el sistema puede calcular el coste futuro estimado para cualquier secuencia de palabras extranjeras consecutivas mediante programación dinámica. Tenga en cuenta que esto sólo es posible, ya que el sistema hace caso omiso de los costes distorsión. Dado que sólo hay n (n+1)/2 de tales secuencias para una frase de entrada extranjera de longitud n, el sistema puede pre-calcular estas estimaciones de costes de antemano y almacenarlas en una tabla.
Durante la traducción, los costes futuros para las palabras extranjeras no descubiertas puede ser rápidamente calculado mediante la consulta de esta tabla. Si una hipótesis tiene secuencias rotas de palabras extranjeras sin traducir, el sistema busca el coste para cada secuencia y tomar el producto de sus costes.
El espacio de hipótesis generadas durante la búsqueda de haz forma un entramado de caminos, cada uno representando una traducción, por lo que se puede calcular fácilmente una puntuación de traducción. La extracción de los n mejores caminos a partir del entramado es un problema bien estudiado.
Los caminos se ramifican, cuando hay múltiples opciones de traducción para una hipótesis a partir de la cual pueden ser derivadas múltiples nuevas hipótesis. Las rutas se unen, cuando las hipótesis se fusionan. Como se describió anteriormente, el sistema puede descartar una hipótesis si está de acuerdo con una hipótesis de bajo coste con algunas de las mismas propiedades. Con el fin de mantener la información acerca de cómo combinar caminos, el sistema mantiene un registro de dichas fusiones que contiene el identificador de la hipótesis anterior, el identificador de la hipótesis de menor coste, y el coste desde los previos a hipótesis de mayor coste.
La Figura 7 da un ejemplo para la generación de este tipo de arco. En este caso, las hipótesis 2 y 4 son equivalentes en cuanto a la búsqueda heurística, tal como se detalla más arriba. Por lo tanto, la hipótesis 4 queda eliminada. Sin embargo, para conservar la información sobre el camino que conduce desde la hipótesis 3 a la 2, el sistema almacena un registro de este arco 705. El arco también contiene el coste adicional de la hipótesis 3 a 4. Tenga en cuenta que el coste de la hipótesis 1 a la hipótesis 2 no tiene que ser almacenado, ya que puede ser recalculado a partir de las estructuras de datos de hipótesis.
El tamaño del haz, por ejemplo, el número máximo de hipótesis en cada pila, puede ser fijado a un determinado número. El número de opciones de traducción es lineal con la longitud de la oración. Por lo tanto, la complejidad de tiempo del haz de búsqueda es de segundo grado con la longitud de la oración, y lineal con el tamaño del
haz.
Dado que el tamaño del haz limita el espacio de búsqueda y por lo tanto la calidad de búsqueda, el sistema tiene que encontrar el adecuado equilibrio entre la velocidad (el tamaño de haz bajo) y rendimiento (tamaño del haz de alto). En los experimentos, un tamaño del haz de sólo 100 resultó ser suficiente. Con tamaños de haces mayores, sólo unas pocas frases fueron traducidas de manera diferente. El decodificador traduce 1755 frases de longitud de 5 a 15 palabras en unos 10 minutos en un sistema Linux® de 2 GHz. El sistema alcanzó una rápida decodificación, garantizando al mismo tiempo una alta calidad.
En algunas realizaciones, un decodificador como el decodificador 110 de la figura 1 puede implementar un procedimiento voraz. Dada una frase extranjera F, el decodificador primero produce glosa la misma mediante la selección de frases en E* que la probabilidad p(E, F). A continuación, el decodificador de escalado, iterativamente modificando E y la alineación entre E y F a fin de maximizar la fórmula p(E) p(F|E). El decodificador escala mediante la modificación de una alineación/traducción existente a través de un conjunto de operaciones que modifican la construcción alineación/traducción a nivel local hasta un momento dado. Estas operaciones reemplazan el lado Inglés de una alineación con frases de probabilidades diferentes, se fusionan y se rompen los conceptos existentes, y se intercambian las palabras a través de los conceptos. La probabilidad p(E) se calcula utilizando un modelo de idioma trigrama sencillo. El modelo de idioma se estima en el nivel de palabra (no de frase). La Figura 3 muestra las etapas adoptadas por el decodificador con el fin de encontrar la traducción de la frase "je vais me arrêter là". Cada traducción intermedia 405 en la Figura 4 es precedida por su probabilidad 410 y sucedida por la operación que la cambia para dar una traducción de mayor probabilidad.
Se ha descrito una serie de realizaciones. No obstante, se entenderá que varias modificaciones pueden ser hechas. Por ejemplo, bloques en los diagramas de flujo pueden ser omitidos o realizados fuera de orden y aún producir los resultados deseados. Pueden ser utilizados diferentes procedimientos de traducción. En consecuencia, otras formas de realización se encuentran dentro del ámbito de aplicación de las siguientes reivindicaciones.
\newpage
Referencias citadas en la descripción
Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad al respecto.
Documentos no procedentes de patentes citados en la descripción
\bullet P Brown et al. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics [0003]
\bullet Dan Melamed. Empirical Methods for Exploiting Parallel Texts. The MIT Press [0003]
\bullet Franz Josef Och et al. Improved Alignment Models for Statistical Machine Translation. Procedures of the Joint Conference of Empirical Methods in Natural Language Processing and Very Large Corpora [0003].

Claims (23)

1. Procedimiento implementado por ordenador para generar un modelo de probabilidad conjunta basado en frases a partir de un cuerpo paralelo que comprende una pluralidad de frases en el idioma fuente y una pluralidad de frases correspondiente en el idioma de destino;
comprendiendo el procedimiento:
a) definir a partir del cuerpo paralelo n-gramas de alta frecuencia (\vec{e}_{i}) en E, y (\vec{f}_{i}) en F, donde E y F comprenden frases en el idioma fuente y de destino, respectivamente;
b) obtener una distribución de probabilidad conjunta t inicial basada en la frase, mediante:
i)
tomar, para cada par de frases (E, F) en el cuerpo, tres productos cartesianos de n-gramas (\vec{e}_{i}) en E, y (\vec{f}_{i}) en F;
ii)
determinar, para cada par de n-gramas (e_{i}, f_{i}) en el producto cartesiano, un recuento t dado por la expresión:
15
donde l y m son las longitudes de las frases E y F, respectivamente, a y b son las longitudes de los n-gramas (\vec{e}_{i}) y (\vec{f}_{i}), y S es el número de Stirling de segunda clase;
iii)
sumar las cuentas t y normalizar, y
c) realizar el entrenamiento de Expectativa Máxima para una pluralidad de iteraciones para generar una distribución de probabilidad conjunta t.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1, que comprende repetir las etapas a) a c) con unigramas en lugar de n-gramas.
3. Procedimiento según la reivindicación 1 ó 2, que comprende generar un modelo de probabilidad condicional a partir del modelo de probabilidad conjunta, donde el modelo de probabilidad condicional puede ser utilizado posteriormente para la decodificación.
4. Procedimiento según la reivindicación 1 ó 2, que comprende además:
generar un diccionario de traducción frase-a-frase del modelo de probabilidad conjunta y el cuerpo paralelo.
5. Procedimiento según la reivindicación 4, en el que se genera el diccionario de la traducción frase-a-frase, mediante:
i) generar estocásticamente una bolsa de conceptos C;
ii) generar y descubrir un único conjunto de conceptos ocultos c_{i} \in C, en el que cada concepto genera un par de frases 100 de acuerdo con la distribución t100, donde cada \vec{e}_{i} y \vec{f}_{i} contiene al menos una palabra, y
iii) ordenar las frases generadas en cada idioma con el fin de crear dos secuencias lineales de frases.
\vskip1.000000\baselineskip
6. Procedimiento según la reivindicación 4, en el que el diccionario de traducción frase-a-frase se genera mediante:
(1) generar estocásticamente una bolsa de conceptos C;
(2) inicializar E y F para vaciar las frases \varepsilon;
(3) eliminar al azar un concepto c_{i} \in C y la generación de un par de frases 100 de acuerdo con la distribución t 100, donde cada \vec{e}_{i} y \vec{f}_{i} contienen al menos una palabra;
(4) añadir la frase \vec{f}_{i} al final de F;
(5) insertar de la frase \vec{e}_{i} en la posición l en E a condición de que ninguna otra frase ocupa ninguna de las posiciones entre l y l + |\vec{e}_{i}|,
donde |\vec{e}_{i}| da la longitud de la frase \vec{e}_{i}, y
repetir las etapas (3) a (5) hasta que C esté vacío.
\vskip1.000000\baselineskip
7. Procedimiento según la reivindicación 1, que comprende la generación de un diccionario de traducción frase-a-frase a partir de un cuerpo paralelo usando alineaciones palabra-por-palabra en el cuerpo paralelo y un modelo basado en la frase.
8. Procedimiento según la reivindicación 7, en el que dicha generación comprende:
realizar una alineación palabra-a-palabra en ambos lados del cuerpo paralelo para producir una pluralidad de alineaciones de palabra, y
recoger una pluralidad de pares de palabras alineadas que están en consonancia con las alineaciones de palabras en dicha pluralidad de alineaciones de palabras.
\vskip1.000000\baselineskip
9. Procedimiento según la reivindicación 8, que comprende además:
estimar una distribución de probabilidad de traducción de frases a partir de los pares de palabras recogidas mediante frecuencias relativas.
\vskip1.000000\baselineskip
10. Procedimiento según la reivindicación 9, que comprende además:
analizar ambos lados del cuerpo paralelo de palabras-alineadas con un analizador sintáctico para generar árboles sintácticos y
para cada par de palabras alineadas, comprobar si las dos frases son subárboles en los árboles sintácticos analizados.
\vskip1.000000\baselineskip
11. Procedimiento según la reivindicación 9, que comprende además:
identificar un par de frases recogidas alineadas que tiene una pluralidad de alineaciones; y
calcular un peso léxico para cada una de dichas pluralidades de alineaciones.
\vskip1.000000\baselineskip
12. Procedimiento según la reivindicación 7, en el que dicha generación comprende:
realizar operaciones de alineación bidireccional palabra-a-palabra en el cuerpo paralelo para generar dos juegos de alineaciones de palabras.
\vskip1.000000\baselineskip
13. Procedimiento según la reivindicación 12, que comprende además:
identificar los puntos de la alineación en las intersecciones entre los dos juegos de alineaciones de palabras.
\vskip1.000000\baselineskip
14. Procedimiento según la reivindicación 12, que comprende además:
identificar los puntos de alineación en la unión entre los dos juegos de alineaciones de palabras.
\vskip1.000000\baselineskip
15. Procedimiento según cualquiera de las reivindicaciones 1 a 6, que comprende además: determinar una traducción para una frase de entrada en el primer idioma mediante una operación de decodificación voraz.
16. Procedimiento según la reivindicación 15, que comprende además la determinación de la mejor frase de salida en un segundo idioma para una frase de entrada en un primer idioma mediante
segmentar la oración de entrada en una secuencia de la frase;
traducir cada una de dichas frases en una frase en el segundo idioma, y
reordenar las frases de salida.
\vskip1.000000\baselineskip
17. Procedimiento según la reivindicación 16, en el que dicha reordenación comprende reordenar las frases de salida utilizando una distribución de probabilidad de distorsión relativa.
18. Procedimiento según cualquiera de las reivindicaciones 1 a 6, que comprende además:
determinar una traducción para una frase de entrada en el primer idioma utilizando un algoritmo de búsqueda en haz.
\vskip1.000000\baselineskip
19. Procedimiento según la reivindicación 2 ó 3, que comprende:
(1) recibir una cadena de entrada que incluye una pluralidad de palabras en un primer idioma;
(2) crear una hipótesis inicial es un segundo idioma, en la que la hipótesis inicial representa una traducción parcial de la cadena de entrada en el segundo idioma que contiene cero o más palabras;
(3) seleccionar una secuencia de dicha pluralidad de palabras en la cadena de entrada:
(4) seleccionar una posible traducción de frase en el segundo idioma mediante el modelo de probabilidad conjunta o condicional para dicha secuencia seleccionada;
(5) adjuntar la posible traducción de la frase a las actuales hipótesis para obtener una hipótesis actualizada;
(6) marcar las palabras en dicha secuencia seleccionada según la traducción;
(7) guardar la secuencia de hipótesis en una pila;
(8) actualizar un costo de probabilidad de la hipótesis de actualización;
(9) repetir las etapas (3) a (8) sobre la base de un tamaño de la pila para producir una o varias traducciones posibles de la cadena de entrada, y
(10) seleccionar una de dichas traducciones posibles de la pila con la más alta probabilidad.
\vskip1.000000\baselineskip
20. Procedimiento según la reivindicación 19, en el que cada una de las posibles traducciones comprende una hipótesis que deja palabras sin traducir no correspondientes en la cadena de entrada.
21. Procedimiento según la reivindicación 19, en el que dicha actualización del coste de probabilidad consiste en realizar un coste actual para la hipótesis de actualización y estimar un coste futuro para la hipótesis actualizada.
22. Procedimiento según la reivindicación 21, que comprende además:
descartar una secuencia de salida actualizada si dicha hipótesis actualizada tiene un costo mayor que las n hipótesis mejores en la pila, donde n corresponde a un tamaño de haz predeterminado.
\vskip1.000000\baselineskip
23. Procedimiento según cualquier reivindicación anterior, en el que el entrenamiento EM es un entrenamiento EM basado en Viterbi.
ES03716920T 2002-03-27 2003-03-27 Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. Expired - Lifetime ES2343786T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36845002P 2002-03-27 2002-03-27
US368450P 2002-03-27

Publications (1)

Publication Number Publication Date
ES2343786T3 true ES2343786T3 (es) 2010-08-10

Family

ID=28675493

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03716920T Expired - Lifetime ES2343786T3 (es) 2002-03-27 2003-03-27 Modelo de probabilidad de union basado en frases para traduccion automatica estadistica.

Country Status (11)

Country Link
US (1) US7454326B2 (es)
EP (1) EP1488338B1 (es)
JP (1) JP2005521952A (es)
CN (1) CN1643512A (es)
AT (1) ATE465457T1 (es)
AU (1) AU2003220606A1 (es)
CA (1) CA2480398C (es)
DE (1) DE60332220D1 (es)
ES (1) ES2343786T3 (es)
HK (1) HK1072987A1 (es)
WO (1) WO2003083710A2 (es)

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
WO2002097663A1 (en) * 2001-05-31 2002-12-05 University Of Southern California Integer programming decoder for machine translation
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
WO2005089340A2 (en) * 2004-03-15 2005-09-29 University Of Southern California Training tree transducers
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
DE202005022113U1 (de) * 2004-10-12 2014-02-05 University Of Southern California Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
CA2612404C (en) * 2005-06-17 2014-05-27 National Research Council Of Canada Means and method for adapted language translation
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8788258B1 (en) 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
TWI386822B (zh) * 2007-09-05 2013-02-21 Shing Lung Chen 建置多語翻譯資料庫內容之方法
CN100527125C (zh) * 2007-05-29 2009-08-12 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法和系统
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities
US8825466B1 (en) * 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8180624B2 (en) * 2007-09-05 2012-05-15 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8150677B2 (en) * 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8407042B2 (en) 2008-12-09 2013-03-26 Xerox Corporation Cross language tool for question answering
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US8706644B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US8423349B1 (en) 2009-01-13 2013-04-16 Amazon Technologies, Inc. Filtering phrases for an identifier
US8706643B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US8768852B2 (en) 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8280718B2 (en) * 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US9298700B1 (en) 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
JP5407737B2 (ja) * 2009-10-16 2014-02-05 富士通セミコンダクター株式会社 モデル生成プログラム、モデル生成装置、およびモデル生成方法
CN102803511A (zh) 2009-11-23 2012-11-28 俄亥俄州立大学 用于影响肿瘤细胞生长、迁移和侵袭的材料和方法
US8229929B2 (en) 2010-01-06 2012-07-24 International Business Machines Corporation Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains
US8589396B2 (en) * 2010-01-06 2013-11-19 International Business Machines Corporation Cross-guided data clustering based on alignment between data domains
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US10417646B2 (en) * 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9552355B2 (en) 2010-05-20 2017-01-24 Xerox Corporation Dynamic bi-phrases for statistical machine translation
US8612205B2 (en) 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US20120035905A1 (en) 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US8775155B2 (en) 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US8612204B1 (en) * 2011-03-30 2013-12-17 Google Inc. Techniques for reordering words of sentences for improved translation between languages
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8798984B2 (en) 2011-04-27 2014-08-05 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8781810B2 (en) 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8903707B2 (en) 2012-01-12 2014-12-02 International Business Machines Corporation Predicting pronouns of dropped pronoun style languages for natural language translation
AU2013209477B2 (en) 2012-01-20 2016-12-08 The Ohio State University Breast cancer biomarker signatures for invasiveness and prognosis
US9465797B2 (en) 2012-02-23 2016-10-11 Google Inc. Translating text using a bridge language
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20130325436A1 (en) * 2012-05-29 2013-12-05 Wright State University Large Scale Distributed Syntactic, Semantic and Lexical Language Models
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9026425B2 (en) 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9786269B2 (en) 2013-03-14 2017-10-10 Google Inc. Language modeling of complete language sequences
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10025778B2 (en) 2013-06-09 2018-07-17 Microsoft Technology Licensing, Llc Training markov random field-based translation models using gradient ascent
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9652453B2 (en) 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9606988B2 (en) 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
US9367541B1 (en) 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10025779B2 (en) 2015-08-13 2018-07-17 Xerox Corporation System and method for predicting an optimal machine translation system for a user based on an updated user profile
CN106484682B (zh) 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106484681B (zh) 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
US9836453B2 (en) 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
KR20190047685A (ko) * 2016-09-09 2019-05-08 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 방법
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11308965B2 (en) * 2017-10-09 2022-04-19 Huawei Technologies Co., Ltd. Voice information processing method and apparatus, and terminal
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10747962B1 (en) 2018-03-12 2020-08-18 Amazon Technologies, Inc. Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111626064B (zh) * 2019-02-26 2024-04-30 株式会社理光 神经机器翻译模型的训练方法、装置及存储介质
CN116933802A (zh) * 2023-09-15 2023-10-24 山东信息职业技术学院 基于人工智能的自动翻译管理方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
JPH11143877A (ja) * 1997-10-22 1999-05-28 Internatl Business Mach Corp <Ibm> 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム

Also Published As

Publication number Publication date
AU2003220606A1 (en) 2003-10-13
AU2003220606A8 (en) 2003-10-13
CA2480398A1 (en) 2003-10-09
US7454326B2 (en) 2008-11-18
US20040030551A1 (en) 2004-02-12
HK1072987A1 (en) 2005-09-16
WO2003083710A3 (en) 2004-08-12
EP1488338B1 (en) 2010-04-21
CN1643512A (zh) 2005-07-20
CA2480398C (en) 2011-06-14
DE60332220D1 (de) 2010-06-02
ATE465457T1 (de) 2010-05-15
JP2005521952A (ja) 2005-07-21
WO2003083710A2 (en) 2003-10-09
EP1488338A2 (en) 2004-12-22

Similar Documents

Publication Publication Date Title
ES2343786T3 (es) Modelo de probabilidad de union basado en frases para traduccion automatica estadistica.
US7533013B2 (en) Machine translation techniques
JP5774751B2 (ja) ツリーレット翻訳対の抽出
Xiong et al. Maximum entropy based phrase reordering model for statistical machine translation
Wong et al. Learning for semantic parsing with statistical machine translation
Ding et al. Machine translation using probabilistic synchronous dependency insertion grammars
EP1657651A2 (en) Extracting treelet translation pairs
Huang et al. Binarization of synchronous context-free grammars
Huang et al. Soft syntactic constraints for hierarchical phrase-based translation using latent syntactic distributions
Birch et al. Constraining the phrase-based, joint probability statistical translation model
Quirk et al. Do we need phrases? Challenging the conventional wisdom in statistical machine translation
Ding et al. An algorithm for word-level alignment of parallel dependency trees
Nakazawa et al. Bayesian subtree alignment model based on dependency trees
Wong Learning for semantic parsing and natural language generation using statistical machine translation techniques
Huang Forest-based algorithms in natural language processing
Sima'an et al. Hierarchical translation equivalence over word alignments
Razmara Application of tree transducers in statistical machine translation
Hassan Lexical syntax for statistical machine translation
Kumar Minimum bayes-risk techniques in automatic speech recognition and statistical machine translation
Li Dependency graph-based statistical machine translation
Siahbani Left-to-Right Hierarchical Phrase-based Machine Translation
Zhou Statistical Machine Translation and Speech-to-Speech Translation
JP2004102946A (ja) 統計的機械翻訳におけるデコーディング方法
Watanabe Foundations of Statistical Machine Translation: Past, Present and Future
Tiedemann Word Alignment