ES2343786T3

ES2343786T3 - Modelo de probabilidad de union basado en frases para traduccion automatica estadistica.

Info

Publication number: ES2343786T3
Application number: ES03716920T
Authority: ES
Inventors: Daniel Marcu; Kevin Knight; William Wong; Philipp Koehn
Original assignee: University of Southern California USC
Current assignee: University of Southern California USC
Priority date: 2002-03-27
Filing date: 2003-03-27
Publication date: 2010-08-10
Anticipated expiration: 2023-03-27
Also published as: AU2003220606A1; AU2003220606A8; CA2480398A1; US7454326B2; US20040030551A1; HK1072987A1; WO2003083710A3; EP1488338B1; CN1643512A; CA2480398C; DE60332220D1; ATE465457T1; JP2005521952A; WO2003083710A2; EP1488338A2

Abstract

Procedimiento implementado por ordenador para generar un modelo de probabilidad conjunta basado en frases a partir de un cuerpo paralelo que comprende una pluralidad de frases en el idioma fuente y una pluralidad de frases correspondiente en el idioma de destino; comprendiendo el procedimiento: a) definir a partir del cuerpo paralelo n-gramas de alta frecuencia (\vec(ei) en E, y (\vec(fi) en F, donde E y F comprenden frases en el idioma fuente y de destino, respectivamente; b) obtener una distribución de probabilidad conjunta t inicial basada en la frase, mediante: i) tomar, para cada par de frases (E, F) en el cuerpo, tres productos cartesianos de n-gramas (\vec(ei) en E, y (\vec(fi) en F; ii) determinar, para cada par de n-gramas (ei, fi) en el producto cartesiano, un recuento t dado por la expresión: **(Ver fórmula)** donde l y m son las longitudes de las frases E y F, respectivamente, a y b son las longitudes de los n-gramas (\vec(ei) y (\vec(fi), y S es el número de Stirling de segunda clase; iii) sumar las cuentas t y normalizar, y c) realizar el entrenamiento de Expectativa Máxima para una pluralidad de iteraciones para generar una distribución de probabilidad conjunta t.

Description

Modelo de probabilidad de unión basado en frases para traducción automática estadística.

Origen de la invención

La investigación y el desarrollo descritos en esta solicitud fueron apoyados por DARPA-ITO con el número de subvención N66001-00-1-9814 y por las subvenciones del NSF-STTR 0128379. El Gobierno de los EE.UU. puede tener ciertos derechos en las invenciones reivindicadas.

Antecedentes

La mayoría de los modelos basados en canales de ruido utilizados en la traducción automática estadística (MT) son modelos de probabilidad condicional. En el marco del canal de ruido, cada oración fuente "e" en un cuerpo paralelo se supone que "genera" una frase destino "f" por medio de un proceso estocástico, cuyos parámetros se estiman mediante técnicas tradicionales de Máxima Expectación (EM). El modelo generativo explica cómo las palabras fuente se asignan a las palabras destino y cómo las palabras destino son reordenadas para producir oraciones destino bien formadas. Una variedad de procedimientos se utilizan para explicar el reordenamiento de las palabras destino, incluyendo los procedimientos que utilizan modelos basados en palabras, basados en plantillas, y basados en sintaxis (por nombrar sólo algunos). Aunque estos modelos utilizan diferentes procesos generativos para explicar cómo las palabras traducidas vuelven a ordenarse en un idioma de destino, a nivel de léxico estos modelos asumen que las palabras fuente son traducidas individualmente en palabras destino.

En el documento "Towards a Unified Approach to Memory - and Statistical-Based Machine Translation" de Daniel Marcu, Procedimiento de ACL-2001, se describe un procedimiento estadístico conocido de traducción automática que incluye un modelo de probabilidad conjunta basado en palabras, que es posteriormente formado para desarrollar una memoria de traducción para la correspondencia frase a frase. Otras referencias de interés como antecedentes incluyen "The Mathematics of Statistical Machine Translation: Parameter Estimation" de P Brown et al, Computacional Linguistics, Cambridge, MA; "Empirical Methods for Exploiting Parallel Texts" de Dan Melamed, The MIT Press. "Improved Alignment Models for Statistical Machine Translation", de Franz Josef Och et al, Procedures of the Joint Conference of Empirical Methods in Natural Language Processing and Very Large Corpora fue más allá de los modelos de traducción automática estadísticos originales permitiendo traducir unidades de múltiples palabras o frases.

Descripción

La invención se define en las reivindicaciones independientes a las que se ahora debe hacerse referencia. Características ventajosas se indican en las reivindicaciones dependientes.

Un sistema de traducción automática (MT) puede desarrollar diccionarios de traducción frase a frase probabilísticos utilizando una o más recopilaciones bilingües. Por ejemplo, pueden desarrollarse diccionarios de traducción utilizando un procedimiento de probabilidad conjunta, un procedimiento condicional de palabra a palabra, u otro procedimiento.

El sistema de MT puede traducir una o varias frases (o fragmentos de frase) utilizando diccionarios de traducción. Por ejemplo, el sistema de MT puede utilizar un procedimiento voraz, un procedimiento que utiliza un decodificador haz de pila u otro procedimiento para descifrar frases.

En las implementaciones en las que los diccionarios de traducción se desarrollan mediante un modelo de probabilidad conjunta basada en la frase, las frases fuente y destino del idioma se puede generar de forma simultánea. El sistema podrá utilizar el modelo de probabilidad conjunta tanto para aplicaciones de traducción fuente-a-destino y destino-a-fuente.

En realizaciones que usan un procedimiento condicional palabra-a-palabra, el modelo puede aprender alineaciones frase-a-frase a partir de alineaciones palabra-a-palabra generada por un sistema MT estadístico palabra-a-palabra.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques de un sistema de traducción automática (MT) que incluye un modelo de traducción de probabilidad conjunta basado en la frase.

La figura 2 muestra las alineaciones y distribuciones de probabilidad generadas por el modelo de probabilidad conjunta basado en la frase.

La Figura 3 es un diagrama de flujo que describe un algoritmo de entrenamiento para el modelo de probabilidad conjunta basado en la frase.

La Figura 4 se muestra un ejemplo de decodificación voraz basado en la frase.

La figura 5 es un diagrama de flujo que describe un algoritmo de decodificación basado en la frase según un ejemplo.

La Figura 6 muestra un pseudocódigo que describe el algoritmo de decodificación basado en la frase.

La figura 7 es un diagrama que muestra la generación de un arco entre las hipótesis.

La figura 8 es un gráfico que muestra el efecto de la longitud de la frase en el rendimiento.

La figura 9 muestra un ejemplo de estimación de un peso léxico.

La Figura 10 es un gráfico que muestra el efecto de la ponderación léxica en el rendimiento.

La figura 11 es un gráfico de comparación de la eficiencia de heurísticas diferentes.

Descripción detallada

Se pueden utilizar sistemas y técnicas de la presente divulgación para proporcionar una traducción automática (MT) más eficaz y exacta. En algunas implementaciones, el sistema de MT puede desarrollar diccionarios probabilísticos de traducción frase-a-frase. Los diccionarios de traducción probabilística pueden ser aprendidos de forma automática a partir de cuerpo bilingüe utilizando, por ejemplo, modelos de probabilidad conjunta o modelos condicionales palabra-a-palabra.

Estos diccionarios de traducción a continuación, se pueden utilizar para traducir frases nuevas. Es decir, los diccionarios de traducción se pueden utilizar para traducir frases no incluidas en los cuerpos utilizados para entrenar el sistema de MT. Sistemas y técnicas de traducción incluyen un procedimiento voraz, un procedimiento que utiliza un decodificador de haz de pila, u otros procedimientos.

La figura 1 muestra un sistema de traducción automática (MT) 100 incluyendo un modelo de traducción 105 y un decodificador 110. El modelo de traducción 105 puede incluir diccionarios de traducción que se pueden aprender a partir de cuerpo bilingües. El modelo de traducción 105 puede suponer que las correspondencias léxicas se pueden establecer al nivel de palabra y también al nivel de expresión. El decodificador 110 puede usar los diccionarios de traducción para proporcionar una frase traducida, sobre la base de una oración de entrada.

Desarrollo del diccionario de traducción de frase-a-frases

De acuerdo con algunas realizaciones, el modelo 105 puede ser entrenado de acuerdo a un modelo de probabilidad conjunta. Es decir, el modelo 105 puede desarrollar automáticamente un diccionario de traducción mediante un cuerpo paralelo 115 que incluye secuencias paralelas de idioma fuente y destino. El modelo 105 no trata de captar cómo las oraciones fuente pueden ser asignadas a frases destino, sino que genera frases fuente y destino de forma simultánea. En otras palabras, el modelo de traducción es un modelo de probabilidad conjunta que puede ser fácilmente marginado a fin de producir modelos de probabilidad condicional para ambas aplicaciones de traducción automática de fuente-a-destino y destino-a-fuente.

En una realización, el modelo 105 puede generar pares de oraciones usando el siguiente proceso estocástico:

1. Generar una bolsa de conceptos C.

2. Para cada concepto c_{i} \in C, genera un par de frases 100, de acuerdo con la distribución t 100, donde \vec{e}_{i} y \vec{f}_{i} contiene cada uno al menos una palabra.

3. Ordenar las frases generadas en cada idioma con el fin de crear dos secuencias lineales de frases; las secuencias corresponden a los pares de oraciones en un cuerpo bilingüe.

Por simplicidad, se supone que la bolsa de conceptos y el orden de las frases generadas se modelan mediante distribuciones uniformes. También se supone que c_{i} = 100. Bajo estos supuestos, se deduce que la probabilidad de generar un par de frases (E, F) usando los conceptos c_{i} \in C está dada por el producto de todas las probabilidades de traducción frase-a-frase, \Pi_{c_{i}{}^{\in c}} 100 que produce bolsas de rendimiento de frases que se pueden ordenar linealmente a fin de obtener las frases E y F.

\newpage

La figura 2 muestra un ejemplo. El par de frases "a b c"- -"x y" se puede generar mediante dos conceptos, ("a b": "y") y ("c": "x"), o un concepto, ("a b c": "x y"), porque en ambos casos las frases en cada idioma se pueden organizar en una secuencia que daría el par de la sentencia original. Sin embargo, el mismo par de frases no se puede generar utilizando los conceptos ("a b": "y") y ("c": "y") porque la secuencia de "x y" no puede ser recreada a partir de las dos frases "y" e "y". Del mismo modo, el par no se puede generar utilizando conceptos ("a c": "x") y ("b": "y") porque la secuencia "a b c" no se puede crear mediante la concatenación de las frases de "a c" y "b".

El conjunto de conceptos C puede ser linealizado en un par de oraciones (E, F) si E y F se puede obtener la permutación de las frases \vec{e}_{i} y \vec{f}_{i} que caracterizan a todos los conceptos c_{i} \in C. Denotamos esta propiedad utilizando el predicado L (E, F, C). Bajo este modelo, la probabilidad de un par de oraciones dadas (E, F), se puede obtener entonces sumando de todas las formas posibles de generar bolsas de conceptos c_{i} \in C que se puede linealizar a (E, F).

1

\vskip1.000000\baselineskip

El modelo descrito anteriormente ("Modelo 1") se ha encontrado que produce alineamientos bastante buenos. Sin embargo, este modelo puede ser inadecuado para traducir frases no vistas, ya que impone restricciones a la ordenación de las frases asociadas a un concepto dado. Con el fin de dar cuenta de esto, un modelo modificado ("Modelo 2") fue desarrollado para dar cuenta de las distorsiones. La historia generativa del modelo es la siguiente:

1. Generar una bolsa de conceptos C.

2. Inicializar E y F para secuencias vacías e.

3. Tomar aleatoriamente un concepto c_{i} \in C y generar un par de frases 100, según la distribución t 100, donde \vec{e}_{i} y \vec{f}_{i} contienen cada uno al menos una palabra. Extraer entonces c_{i} de C.

4. Anexar la frase \vec{f}_{i} al final de F. Dejar k en la posición inicial de \vec{f}_{i} en F.

5. Insertar la frase \vec{e}_{i} en la posición 1 en E a condición de que ninguna otra frase ocupe ninguna de las posiciones 1 y 1+|\vec{e}_{i}|, donde |\vec{e}_{i}| da la longitud de la frase \vec{e}_{i}. El sistema, por lo tanto, crea la alineación entre las dos frases \vec{e}_{i} y \vec{f}_{i} con una probabilidad

2

\vskip1.000000\baselineskip

donde d (i, j) es una distribución de la distorsión basada en la posición.

6. Repetir las etapas 3 a 5 hasta que C esté vacío.

En este modelo, la probabilidad de generar un par de frases (E, F) viene dada por la siguiente fórmula:

3

\vskip1.000000\baselineskip

donde 101 denota la posición de la palabra k de la frase \vec{f}_{i} en la frase F y 102 denota la posición en la frase E del centro de masa de la frase e_{i}.

Entrenar los modelos descritos puede ser informáticamente difícil. Como no hay un número exponencial de las alineaciones que pueden generar un par de frases (E, F), el algoritmo de entrenamiento de Máxima Expectación (EM) no se puede aplicar de forma exhaustiva. La Figura 3 es un diagrama de flujo que describe un algoritmo de entrenamiento 300 para el modelo de probabilidad conjunta basado en la frase que tiene en cuenta este problema.

El sistema determina n-gramas de alta frecuencia en E y F (bloque 305). Si se asume desde el principio que cualquier frase \vec{e}_{i} \in E * y \vec{f}_{i} * \in F puede generarse a partir de un concepto c_{i}, se necesitaría un superordenador para almacenar en la memoria una tabla que modela la distribución t100. Dado que el sistema no tiene acceso a ordenadores con memoria ilimitada, el sistema aprende inicialmente entradas de distribución t únicamente para las frases que se producen con frecuencia en el cuerpo y para unigramas. Luego, a través del suavizado, el sistema aprende entradas de distribución t también para las frases que son muy poco frecuentes. Para ser considerada en la próxima etapa del algoritmo, una frase tiene que producirse al menos cinco veces en el cuerpo.

El siguiente paso es inicializar la tabla de distribución t (bloque 310). Antes de que el procedimiento de entrenamiento EM se inicie, no se tiene idea de qué pares de palabra/frase es probable que compartan el mismo significado. En otras palabras, todas las alineaciones que pueden generar un par de frases (E, F) se puede suponer que tienen la misma probabilidad. Bajo estas condiciones, la evidencia de que un par de frases (E, F) contribuye al hecho de que 100 son generados por el mismo concepto c_{i} viene dada por el número de alineaciones que se puede construir entre (E, F) que tienen un concepto c_{i} que está vinculado a la frase \vec{e}_{i} en la frase E y la frase \vec{f}_{i} en la frase F dividida por el número total de alineaciones que se pueden construir entre las dos oraciones. Ambos números pueden ser aproximados fácilmente.

Dada una frase de E de 1 palabra, hay S(l, k) formas en que las palabras l se puede dividir en k conjuntos/conceptos no vacíos, donde S(l, k) es el número de Stirling de segunda clase.

4

También hay S(m, k) formas en que las m palabras de una frase F se puede dividir en k conjuntos no vacíos. Teniendo en cuenta que cualquier palabra en E se puede asignar a cualquier palabra en F, se deduce que hay

5

alineaciones que se pueden construir entre dos oraciones (E, F) de longitud 1 y m, respectivamente. Cuando un concepto ci genera dos frases 100 de longitud a y b, respectivamente, sólo hay 1-a y m-b palabras dejadas de enlazar. Por lo tanto, en ausencia de cualquier otra información, la probabilidad de que las frases \vec{e}_{i} y \vec{f}_{i} sean generadas por el mismo concepto c_{i} viene dada por la siguiente fórmula:

6

Obsérvese que las cuentas fraccionadas devueltas por la fórmula son solamente una aproximación de la distribución t, el sistema está interesado porque los números de Stirling de segunda clase no imponen ninguna en las palabras que se asocian con un concepto dado que sean consecutivas. Sin embargo, puesto que la fórmula sobreestima igualmente al numerador y el denominador, la aproximación funciona bien en la práctica.

En la segunda etapa del algoritmo, el sistema aplica la fórmula para recoger cuentas fraccionadas para todos los unigramas y los pares de n-gramas de alta frecuencia en el producto cartesiano definido sobre las frases de cada par de oraciones (E, F) en un cuerpo. El sistema suma a lo largo de todas estas cuentas t y se normaliza para obtener una distribución conjunta inicial t. Esta etapa equivale a ejecutar el algoritmo EM para una etapa sobre todas las alineaciones posibles en el cuerpo.

En la tercera etapa del algoritmo, el sistema realiza el entrenamiento EM en los alineamientos de Viterbi (bloque 315). Dada una distribución t no uniforme, alineaciones frase-a-frase tienen pesos diferentes y no hay otros trucos que se puedan utilizar para recopilar cuentas fraccionadas sobre todas las alineaciones posibles en tiempo polinómico. Comenzando con el bloque 315 del algoritmo de la figura 3, para cada par de frases en un cuerpo, el sistema produce una alineación inicial voraz enlazando frases a fin de crear conceptos que tienen probabilidades t altas. El sistema entonces escala hacia la alineación de Viterbi de mayor probabilidad mediante la rotura y combinación de conceptos, intercambiando palabras entre conceptos y moviendo palabras a través de conceptos. El sistema calcula las probabilidades asociadas con todas las alineaciones generadas por el sistema durante el proceso de escalado y recoge recuentos de t de todos los conceptos en estas alineaciones.

El sistema aplica este procedimiento de entrenamiento de EM basado en Viterbi para unas pocas iteraciones. Las primeras iteraciones estiman las probabilidades de alineación utilizando el modelo 1. El resto de las iteraciones estiman las probabilidades de alineación usando el Modelo 2.

Durante el entrenamiento, el sistema aplica el suavizado para que el sistema pueda asociar valores no nulos a los pares de frases que no ocurren con frecuencia en el cuerpo.

Al final del procedimiento de entrenamiento, el sistema toma los marginales en el conjunto de distribuciones de probabilidad t y d (bloque 320). Esto da las distribuciones de probabilidad condicional t 100 y d (posF|posE), que el sistema utiliza para la decodificación.

Cuando el sistema ejecuta el procedimiento de entrenamiento en la Figura 3 en el cuerpo en la Figura 2, después de cuatro iteraciones del modelo 1 el sistema obtiene las 205 alineaciones y las distribuciones de probabilidad conjunta y condicional 210. A primera vista, la alineación de Viterbi para el primer par de frases puede parecer incorrecta porque los seres humanos tienen una tendencia natural para construir alineaciones entre las frases más pequeñas posibles. Sin embargo, se tiene en cuenta que la opción elegida por nuestro modelo es bastante razonable. Después de todo, en ausencia de información adicional, el modelo puede suponer que la "a" y "y" significa la misma cosa o que las frases "a b c" y "x y" significan lo mismo. El modelo elige dar más peso a la segunda hipótesis, preservando al mismo tiempo parte de la masa de probabilidad para la primera.

También se tiene en cuenta que, aunque la distribución conjunta pone a la segunda hipótesis en una situación ventajosa, la distribución condicional no lo hace. La distribución condicional 210 es compatible con nuestras intuiciones que nos dicen que es razonable tanto para traducir "a b c" en "x y", así como "a" en "y". La distribución condicional refleja nuestras intuiciones.

En un sistema alternativo, un sistema como el sistema 100 de la FIG. 01 de mayo aprender traducciones frase-a-frase a partir de alineaciones palabra-a-palabra. Es decir, un modelo como el modelo 105 puede desarrollar un diccionario de traducción de frases mediante la expansión de diccionarios de traducción palabra-por- palabra aprendidos por los modelos palabra-a-palabra. El modelo de traducción de frases está basado en el modelo de canal ruidoso. El sistema utiliza la regla de Bayes para la reformulación de la probabilidad de traducción para la traducción de una sentencia extranjera f al Inglés e como

7

Esto permite un modelo de idioma p(e) y un modelo de traducción separado F(f|le).

Durante la decodificación (es decir, la traducción), la frase de entrada extranjera f se segmenta en una secuencia de I frases que \overline{f}_{1}{}^{I}. El sistema supone una distribución de probabilidad uniforme sobre todas las posibles segmentaciones.

Cada frase extranjera \overline{f}_{1} en \overline{f}_{1}{}^{I} se traduce en una frase de Inglés \overline{e}_{i}. Las frases de Inglés pueden ser reordenadas. La traducción de frases es modelada por una distribución de probabilidad \varphi 103 Debido a la regla de Bayes, la dirección de traducción se invierte a partir de un punto de vista de la modelización.

El reordenamiento de las frases de salida en Inglés es modelada por una distribución de probabilidad de distorsión relativa d (a_{i} - b_{i-1}), donde a_{i} denota la posición de comienzo de la frase extranjera que se tradujo en la frase en Inglés, y b_{i-1} denota la posición final de la frase traducida en la (i - 1)º frase en Inglés.

La distribución de probabilidad de distorsión d(\cdot) puede ser entrenada a través de un modelo de probabilidad conjunta, como la descrita en relación con la disposición descrita anteriormente. Como alternativa, el sistema también podría usar un modelo más simple de distorsión d (a_{i} - b_{i-1}) = \alpha^{|a}_{i}^{-b}_{i-1}^{-I|} con un valor adecuado para el parámetro \alpha.

\newpage

Con el fin de calibrar la longitud de salida, el sistema introduce un factor \omega para cada palabra en Inglés generada además del modelo de idioma trigrama p_{LM}. Este es un medio simple para optimizar el rendimiento. Por lo general, este factor es mayor que 1, orientando una salida más larga.

En resumen, la mejor frase de salida en Inglés e_{mejor} dada una frase de entrada extranjera f según el modelo es

8

\vskip1.000000\baselineskip

donde p(f|e) se descompone en

9

\vskip1.000000\baselineskip

El equipo de herramientas Giza++ fue desarrollado para entrenar modelos de traducción basados en palabras a partir de cuerpos paralelos. Como un subproducto, genera alineamientos de palabra para estos datos. El sistema puede mejorar esta alineación con una serie de heurísticas. El sistema recoge todos los pares de frase alineadas que sean compatibles con la alineación de palabras. Las palabras en un par de frases legal sólo se alinean entre sí, y no a las palabras del exterior. Dados los pares de palabras recogidos, el sistema calcula la distribución de probabilidad de la traducción de la frase mediante frecuencia relativa:

10

\vskip1.000000\baselineskip

En algunos acuerdos, se puede realizar el alisado.

Si el sistema recoge todos los pares de frases que son consistentes con los alineamientos de palabras, esto incluye muchas frases no intuitivas. Por ejemplo, las traducciones de frases tales como "house the" pueden ser aprendidas. Intuitivamente el sistema se inclina a creer que tales frases no ayudan. La restricción de frases posibles a frases sintácticamente motivadas puede filtrar dichos pares no intuitivos.

Otra motivación para evaluar el desempeño de un modelo de traducción de frase que contiene sólo frases sintácticas viene de los recientes esfuerzos para construir modelos de traducción sintácticos. En estos modelos, la reordenación de las palabras se limita a reordenación de los constituyentes en árboles de análisis sintácticos bien formados. Cuando se aumentan esos modelos con traducciones de frases, por lo general sólo es posible la traducción de las frases que abarcan todos los subárboles sintácticos. Es importante saber si se trata de una restricción útil o perjudi-
cial.

El sistema puede definir una frase sintáctica como una secuencia palabras que está cubierta por un único sub-árbol en un árbol de análisis sintáctico. Recogemos pares de frases sintácticas de la siguiente manera: el sistema alinea palabras de un cuerpo paralelo, como se describió anteriormente. El sistema analiza entonces ambos lados del cuerpo con analizadores sintácticos. Para todos los pares de frases que son consistentes con la alineación de palabras, el sistema comprueba además si ambas frases son subárboles en los árboles de análisis. Sólo estas frases se incluyen en el modelo. Por lo tanto, los pares de frases sintácticamente motivadas aprendidas son un subconjunto de los pares de frases aprendidas sin el conocimiento de la sintaxis. La distribución de probabilidad de traducción de la frase puede ser estimada mediante la frecuencia relativa.

La figura 8 muestra los resultados de los experimentos con diferentes longitudes de frase máximas. Fueron utilizadas todas las frases consistentes con la alineación de palabras (AP). Como se muestra en la Figura 8, limitar la longitud a un máximo de sólo tres palabras por frase ya alcanza el máximo rendimiento. Aprender frases más largas no produce ninguna mejora. Reducir el límite a sólo dos, sin embargo, es perjudicial. Permitir frases más largas aumenta el tamaño de la tabla de traducción de frases. El aumento es casi lineal con el límite de longitud máxima. Sin embargo, ninguno de estos tamaños de modelos causó problemas de memoria.

\newpage

El sistema podrá validar la calidad de un par de traducción de frases por revisar qué tan bien sus palabras se traducen entre sí. Para ello, se puede utilizar una distribución de probabilidad de traducción léxica w(f|e). La distribución puede ser estimada mediante la frecuencia relativa de las mismas alineaciones de palabras que el modelo de la frase

11

Una señal NULL en Inglés especial se puede añadir a cada frase en Inglés y alinearse a cada palabra extranjera no alineada.

Dado un par de frases (\overline{f}, \overline{e}) y una alineación de palabras a entre las posiciones palabra extranjera I - 1,..., n y las posiciones de palabra en Inglés j = 0, 1,..., m, el sistema calcula el peso léxico p_{w} por

12

La Figura 9 muestra un ejemplo.

Si hay alineaciones múltiples para un par de frases (\overline{f}, \overline{e}), el sistema puede utilizar la alineación con el mayor peso léxico:

13

El sistema podrá utilizar el peso léxica p_{w} durante la traducción como un factor adicional. Esto significa que el modelo p(f|e) se extiende a

14

El parámetro \lambda define la fuerza del peso léxico p_{w}. Buenos valores para este parámetro están alrededor de 0,25.

La figura 10 muestra el impacto de la ponderación de diccionario en el rendimiento de traducción automática. En nuestros experimentos, el sistema logró mejoras de hasta 0,01 en la escala de puntuación de BLEU.

La traducción de frases con un peso diccionario es un caso especial del modelo de plantilla de alineación con una clase de palabras para cada palabra. La simplificación realizada por el sistema tiene la ventaja de que los pesos léxicos puede descomponerse en factores en la tabla de traducción de frases de antemano, acelerando la decodificación. En contraste con el descodificador de búsqueda del haz para el modelo de plantilla de alineación, el procedimiento de decodificación descrito en relación con las figuras 5 y 6, son capaces de buscar toda la segmentación de palabras posibles de la frase de entrada, en lugar de elegir una segmentación antes de descodificarlo.

En el experimento, el sistema aprendió pares de frases a partir de alineaciones de palabras generadas por Giza++. Los modelos de IBM que implementa este conjunto de herramientas sólo permiten a lo sumo a una palabra en Inglés estar alineada con una palabra extranjera. El sistema soluciona este problema con un enfoque heurístico.

En primer lugar, el sistema alinea un cuerpo paralelo bidireccionalmente, es decir, extranjera a Inglés e Inglés a extranjera. Esto da dos alineaciones de palabra que el sistema intenta conciliar. Si el sistema intercepta las dos alineaciones, el sistema consigue una alineación de alta precisión de puntos de alineación de alta confianza. Si el sistema toma la unión de las dos alineaciones, el sistema consigue una alineación de alto recuerdo con puntos de alineación adicionales.

El espacio comprendido entre la intersección y la unión puede ser heurística de expansión que comienza con la intersección y añade puntos de alineación adicionales. La decisión de qué puntos agregar puede depender de una serie de criterios, por ejemplo, cuya alineación hace que el punto de alineación potencial exista (Extranjero-Inglés o Inglés-Extranjero), si el punto potencial se avecina a puntos ya establecidos, si la "vecindad" significa directamente adyacente (bloque-distancia), o también diagonalmente adyacente si la palabra en Inglés o la palabra extranjera que conecta el punto potencial no están alineadas hasta el momento, y si ambas están no alineadas y la probabilidad léxica para el punto de potencial.

El sistema comienza con la intersección de las dos alineaciones de palabras. El sistema sólo añade nuevos puntos de alineación que existen en la unión de dos alineaciones de palabra. El sistema también requiere siempre que un nuevo punto de alineación conecte al menos una palabra previamente no alineada.

En primer lugar, el sistema se expande sólo a puntos de alineación directamente adyacentes. El sistema verifica los puntos potenciales partiendo desde la esquina superior derecha de la matriz de alineación, controlando los puntos de alineación para la primera palabra en Inglés, y luego continúa con los puntos de alineación para la segunda palabra en Inglés, y así sucesivamente. Esto se realiza iterativamente hasta que no se pueden añadir más punto de alineación. En una última etapa, el sistema añade puntos de alineación no adyacentes, con los mismos requisitos, de otra manera.

La figura 11 muestra el desempeño de esta heurística (base) en comparación con las dos alineaciones de mono-direccionales (e2f, f2e) y su unión (unión). La cifra también contiene dos modificaciones de la base heurística: En la primera (diag), el sistema también permite la vecindad diagonal en la fase de expansión iterativa. En una variante de esta (diag-and), el sistema requiere en la etapa final que ambos términos no estén alineados.

La clasificación de estos diferentes procedimientos varía para los diferentes tamaños de cuerpo de entrenamiento. Por ejemplo, la alineación f2e comienza de la segunda a peor para el cuerpo de 10.000 pares de oraciones, pero en última instancia es competitivo con el mejor procedimiento de 320.000 pares de frases. La base heurística es inicialmente la mejor, pero luego cae. La discrepancia entre el mejor y el peor procedimiento es bastante grande, alrededor de 0,2 BLEU (un sistema de puntuación de IBM), para casi todos los tamaños de cuerpo de entrenamiento, aunque no siempre de manera significativa.

Descodificación

El decodificador basado en frases en algunas realizaciones puede emplear un algoritmo de búsqueda en haz. La salida en Inglés se genera de izquierda a derecha en forma de traducciones parciales (o hipótesis).

El sistema puede comenzar la búsqueda de posibles traducciones en un estado inicial en que ninguna palabra de entrada extranjera se traduce y no se han generado palabras de salida en Inglés. Se pueden crear nuevos estados mediante la ampliación de la salida de Inglés con una traducción de frases que comprende algunas de las palabras de entrada extranjeras aún no traducidas. El costo actual del nuevo estado es el costo de su estado original multiplicados por la traducción, la distorsión y los costes de modelo de idioma de la traducción de frases agregada.

Cada espacio de búsqueda (hipótesis) se representa por (a) un enlace de retorno al mejor estado anterior, (b) las palabras extranjeras cubiertas hasta ahora, (c) las dos últimas palabras en Inglés generadas (necesarias para calcular los costes de modelo de idioma futuros), (d) el final de la última frase extranjera cubierta (necesario para calcular los costes futuros de distorsión), (e) la última frase en Inglés añadida (necesaria para leer la traducción de una ruta de hipótesis), (f) el coste hasta ahora, y (g) la estimación del coste futuro.

Estados finales en la búsqueda son hipótesis que cubren todas las palabras extranjeras. Entre ellos la hipótesis con el menor costo es seleccionada como la mejor traducción.

Dos hipótesis se pueden combinar, si están de acuerdo en (a) las palabras extranjeras cubiertas hasta ahora, (b) las dos últimas palabras generadas en Inglés, y (c) el final de la última frase extranjera cubierta.

Si hay dos caminos que llevan a dos hipótesis que están de acuerdo en estas propiedades, el sistema mantiene la hipótesis más barata, por ejemplo, la que tenga un costo menor hasta ahora. La otra hipótesis no puede ser parte de la ruta de acceso a la mejor traducción, y el sistema puede descartarla de forma segura. Tenga en cuenta que la hipótesis inferior puede ser parte de la ruta de acceso a la segunda mejor traducción.

La figura 5 es un diagrama de flujo que describe una operación de decodificación basado en palabras 500 según un ejemplo. Un algoritmo que describe la operación se muestra en la Figura 6. El sistema se puede iniciar con una hipótesis inicial vacía. Una nueva hipótesis se expande entonces a partir de una hipótesis existente mediante la traducción de una frase. Se selecciona una secuencia de palabras extranjeras no traducidas y una posible traducción de la frase de Inglés para ellas (bloque 505). La frase en Inglés se une a la secuencia de salida existente en Inglés (bloque 510). A continuación, las palabras extranjeras se marcan como traducidas y el coste de probabilidad de la hipótesis se actualiza (bloque 515). La hipótesis final más barata (probabilidad más alta) sin palabras extranjeras sin traducir es el resultado de la búsqueda (bloque 520).

Las hipótesis se almacenan en pilas. La pila s_{m} contiene todas las hipótesis en las que m palabras extranjeras han sido traducidas. El sistema puede recombinar hipótesis de búsqueda. Si bien esto reduce un poco el número de hipótesis almacenadas en cada pila, el tamaño de la pila es exponencial con respecto a la longitud de frase de entrada. Esto hace inviable una búsqueda exhaustiva.

Así, el sistema reduce las hipótesis débiles basadas en el costo en que incurrieron hasta el momento y una estimación de los costes futuros. Para cada pila, el sistema sólo mantiene un haz de las n mejores hipótesis. Dado que la estimación de costes futuros no es perfecta, esto conduce a la búsqueda de errores. Nuestra estimación de los costes futuros tiene en cuenta el coste de traducción de la frase estimado, pero no el coste de distorsión esperado.

Para cada traducción de la frase posible en cualquier lugar de la oración (referido como una "opción de traducción"), el sistema multiplica su probabilidad de traducción de la frase con la probabilidad de modelo de idioma para la frase en Inglés generada. Como probabilidad modelo de idioma, el sistema podrá utilizar la probabilidad de unigrama para la primera palabra, la probabilidad bigrama para la segunda, y la probabilidad trigrama para todas las palabras siguientes.

Teniendo en cuenta los costes de las opciones de traducción, el sistema puede calcular el coste futuro estimado para cualquier secuencia de palabras extranjeras consecutivas mediante programación dinámica. Tenga en cuenta que esto sólo es posible, ya que el sistema hace caso omiso de los costes distorsión. Dado que sólo hay n (n+1)/2 de tales secuencias para una frase de entrada extranjera de longitud n, el sistema puede pre-calcular estas estimaciones de costes de antemano y almacenarlas en una tabla.

Durante la traducción, los costes futuros para las palabras extranjeras no descubiertas puede ser rápidamente calculado mediante la consulta de esta tabla. Si una hipótesis tiene secuencias rotas de palabras extranjeras sin traducir, el sistema busca el coste para cada secuencia y tomar el producto de sus costes.

El espacio de hipótesis generadas durante la búsqueda de haz forma un entramado de caminos, cada uno representando una traducción, por lo que se puede calcular fácilmente una puntuación de traducción. La extracción de los n mejores caminos a partir del entramado es un problema bien estudiado.

Los caminos se ramifican, cuando hay múltiples opciones de traducción para una hipótesis a partir de la cual pueden ser derivadas múltiples nuevas hipótesis. Las rutas se unen, cuando las hipótesis se fusionan. Como se describió anteriormente, el sistema puede descartar una hipótesis si está de acuerdo con una hipótesis de bajo coste con algunas de las mismas propiedades. Con el fin de mantener la información acerca de cómo combinar caminos, el sistema mantiene un registro de dichas fusiones que contiene el identificador de la hipótesis anterior, el identificador de la hipótesis de menor coste, y el coste desde los previos a hipótesis de mayor coste.

La Figura 7 da un ejemplo para la generación de este tipo de arco. En este caso, las hipótesis 2 y 4 son equivalentes en cuanto a la búsqueda heurística, tal como se detalla más arriba. Por lo tanto, la hipótesis 4 queda eliminada. Sin embargo, para conservar la información sobre el camino que conduce desde la hipótesis 3 a la 2, el sistema almacena un registro de este arco 705. El arco también contiene el coste adicional de la hipótesis 3 a 4. Tenga en cuenta que el coste de la hipótesis 1 a la hipótesis 2 no tiene que ser almacenado, ya que puede ser recalculado a partir de las estructuras de datos de hipótesis.

El tamaño del haz, por ejemplo, el número máximo de hipótesis en cada pila, puede ser fijado a un determinado número. El número de opciones de traducción es lineal con la longitud de la oración. Por lo tanto, la complejidad de tiempo del haz de búsqueda es de segundo grado con la longitud de la oración, y lineal con el tamaño del
haz.

Dado que el tamaño del haz limita el espacio de búsqueda y por lo tanto la calidad de búsqueda, el sistema tiene que encontrar el adecuado equilibrio entre la velocidad (el tamaño de haz bajo) y rendimiento (tamaño del haz de alto). En los experimentos, un tamaño del haz de sólo 100 resultó ser suficiente. Con tamaños de haces mayores, sólo unas pocas frases fueron traducidas de manera diferente. El decodificador traduce 1755 frases de longitud de 5 a 15 palabras en unos 10 minutos en un sistema Linux® de 2 GHz. El sistema alcanzó una rápida decodificación, garantizando al mismo tiempo una alta calidad.

En algunas realizaciones, un decodificador como el decodificador 110 de la figura 1 puede implementar un procedimiento voraz. Dada una frase extranjera F, el decodificador primero produce glosa la misma mediante la selección de frases en E* que la probabilidad p(E, F). A continuación, el decodificador de escalado, iterativamente modificando E y la alineación entre E y F a fin de maximizar la fórmula p(E) p(F|E). El decodificador escala mediante la modificación de una alineación/traducción existente a través de un conjunto de operaciones que modifican la construcción alineación/traducción a nivel local hasta un momento dado. Estas operaciones reemplazan el lado Inglés de una alineación con frases de probabilidades diferentes, se fusionan y se rompen los conceptos existentes, y se intercambian las palabras a través de los conceptos. La probabilidad p(E) se calcula utilizando un modelo de idioma trigrama sencillo. El modelo de idioma se estima en el nivel de palabra (no de frase). La Figura 3 muestra las etapas adoptadas por el decodificador con el fin de encontrar la traducción de la frase "je vais me arrêter là". Cada traducción intermedia 405 en la Figura 4 es precedida por su probabilidad 410 y sucedida por la operación que la cambia para dar una traducción de mayor probabilidad.

Se ha descrito una serie de realizaciones. No obstante, se entenderá que varias modificaciones pueden ser hechas. Por ejemplo, bloques en los diagramas de flujo pueden ser omitidos o realizados fuera de orden y aún producir los resultados deseados. Pueden ser utilizados diferentes procedimientos de traducción. En consecuencia, otras formas de realización se encuentran dentro del ámbito de aplicación de las siguientes reivindicaciones.

\newpage

Referencias citadas en la descripción

Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad al respecto.

Documentos no procedentes de patentes citados en la descripción

\bullet P Brown et al. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics [0003]

\bullet Dan Melamed. Empirical Methods for Exploiting Parallel Texts. The MIT Press [0003]

\bullet Franz Josef Och et al. Improved Alignment Models for Statistical Machine Translation. Procedures of the Joint Conference of Empirical Methods in Natural Language Processing and Very Large Corpora [0003].

Claims

1. Procedimiento implementado por ordenador para generar un modelo de probabilidad conjunta basado en frases a partir de un cuerpo paralelo que comprende una pluralidad de frases en el idioma fuente y una pluralidad de frases correspondiente en el idioma de destino;

comprendiendo el procedimiento:

a) definir a partir del cuerpo paralelo n-gramas de alta frecuencia (\vec{e}_{i}) en E, y (\vec{f}_{i}) en F, donde E y F comprenden frases en el idioma fuente y de destino, respectivamente;

b) obtener una distribución de probabilidad conjunta t inicial basada en la frase, mediante:

i): tomar, para cada par de frases (E, F) en el cuerpo, tres productos cartesianos de n-gramas (\vec{e}_{i}) en E, y (\vec{f}_{i}) en F;

ii): determinar, para cada par de n-gramas (e_{i}, f_{i}) en el producto cartesiano, un recuento t dado por la expresión:

15

: donde l y m son las longitudes de las frases E y F, respectivamente, a y b son las longitudes de los n-gramas (\vec{e}_{i}) y (\vec{f}_{i}), y S es el número de Stirling de segunda clase;

iii): sumar las cuentas t y normalizar, y

c) realizar el entrenamiento de Expectativa Máxima para una pluralidad de iteraciones para generar una distribución de probabilidad conjunta t.

\vskip1.000000\baselineskip

2. Procedimiento según la reivindicación 1, que comprende repetir las etapas a) a c) con unigramas en lugar de n-gramas.

3. Procedimiento según la reivindicación 1 ó 2, que comprende generar un modelo de probabilidad condicional a partir del modelo de probabilidad conjunta, donde el modelo de probabilidad condicional puede ser utilizado posteriormente para la decodificación.

4. Procedimiento según la reivindicación 1 ó 2, que comprende además:

generar un diccionario de traducción frase-a-frase del modelo de probabilidad conjunta y el cuerpo paralelo.

5. Procedimiento según la reivindicación 4, en el que se genera el diccionario de la traducción frase-a-frase, mediante:

i) generar estocásticamente una bolsa de conceptos C;

ii) generar y descubrir un único conjunto de conceptos ocultos c_{i} \in C, en el que cada concepto genera un par de frases 100 de acuerdo con la distribución t100, donde cada \vec{e}_{i} y \vec{f}_{i} contiene al menos una palabra, y

iii) ordenar las frases generadas en cada idioma con el fin de crear dos secuencias lineales de frases.

\vskip1.000000\baselineskip

6. Procedimiento según la reivindicación 4, en el que el diccionario de traducción frase-a-frase se genera mediante:

(1) generar estocásticamente una bolsa de conceptos C;

(2) inicializar E y F para vaciar las frases \varepsilon;

(3) eliminar al azar un concepto c_{i} \in C y la generación de un par de frases 100 de acuerdo con la distribución t 100, donde cada \vec{e}_{i} y \vec{f}_{i} contienen al menos una palabra;

(4) añadir la frase \vec{f}_{i} al final de F;

(5) insertar de la frase \vec{e}_{i} en la posición l en E a condición de que ninguna otra frase ocupa ninguna de las posiciones entre l y l + |\vec{e}_{i}|,

donde |\vec{e}_{i}| da la longitud de la frase \vec{e}_{i}, y

repetir las etapas (3) a (5) hasta que C esté vacío.

\vskip1.000000\baselineskip

7. Procedimiento según la reivindicación 1, que comprende la generación de un diccionario de traducción frase-a-frase a partir de un cuerpo paralelo usando alineaciones palabra-por-palabra en el cuerpo paralelo y un modelo basado en la frase.

8. Procedimiento según la reivindicación 7, en el que dicha generación comprende:

realizar una alineación palabra-a-palabra en ambos lados del cuerpo paralelo para producir una pluralidad de alineaciones de palabra, y

recoger una pluralidad de pares de palabras alineadas que están en consonancia con las alineaciones de palabras en dicha pluralidad de alineaciones de palabras.

\vskip1.000000\baselineskip

9. Procedimiento según la reivindicación 8, que comprende además:

estimar una distribución de probabilidad de traducción de frases a partir de los pares de palabras recogidas mediante frecuencias relativas.

\vskip1.000000\baselineskip

10. Procedimiento según la reivindicación 9, que comprende además:

analizar ambos lados del cuerpo paralelo de palabras-alineadas con un analizador sintáctico para generar árboles sintácticos y

para cada par de palabras alineadas, comprobar si las dos frases son subárboles en los árboles sintácticos analizados.

\vskip1.000000\baselineskip

11. Procedimiento según la reivindicación 9, que comprende además:

identificar un par de frases recogidas alineadas que tiene una pluralidad de alineaciones; y

calcular un peso léxico para cada una de dichas pluralidades de alineaciones.

\vskip1.000000\baselineskip

12. Procedimiento según la reivindicación 7, en el que dicha generación comprende:

realizar operaciones de alineación bidireccional palabra-a-palabra en el cuerpo paralelo para generar dos juegos de alineaciones de palabras.

\vskip1.000000\baselineskip

13. Procedimiento según la reivindicación 12, que comprende además:

identificar los puntos de la alineación en las intersecciones entre los dos juegos de alineaciones de palabras.

\vskip1.000000\baselineskip

14. Procedimiento según la reivindicación 12, que comprende además:

identificar los puntos de alineación en la unión entre los dos juegos de alineaciones de palabras.

\vskip1.000000\baselineskip

15. Procedimiento según cualquiera de las reivindicaciones 1 a 6, que comprende además: determinar una traducción para una frase de entrada en el primer idioma mediante una operación de decodificación voraz.

16. Procedimiento según la reivindicación 15, que comprende además la determinación de la mejor frase de salida en un segundo idioma para una frase de entrada en un primer idioma mediante

segmentar la oración de entrada en una secuencia de la frase;

traducir cada una de dichas frases en una frase en el segundo idioma, y

reordenar las frases de salida.

\vskip1.000000\baselineskip

17. Procedimiento según la reivindicación 16, en el que dicha reordenación comprende reordenar las frases de salida utilizando una distribución de probabilidad de distorsión relativa.

18. Procedimiento según cualquiera de las reivindicaciones 1 a 6, que comprende además:

determinar una traducción para una frase de entrada en el primer idioma utilizando un algoritmo de búsqueda en haz.

\vskip1.000000\baselineskip

19. Procedimiento según la reivindicación 2 ó 3, que comprende:

(1) recibir una cadena de entrada que incluye una pluralidad de palabras en un primer idioma;

(2) crear una hipótesis inicial es un segundo idioma, en la que la hipótesis inicial representa una traducción parcial de la cadena de entrada en el segundo idioma que contiene cero o más palabras;

(3) seleccionar una secuencia de dicha pluralidad de palabras en la cadena de entrada:

(4) seleccionar una posible traducción de frase en el segundo idioma mediante el modelo de probabilidad conjunta o condicional para dicha secuencia seleccionada;

(5) adjuntar la posible traducción de la frase a las actuales hipótesis para obtener una hipótesis actualizada;

(6) marcar las palabras en dicha secuencia seleccionada según la traducción;

(7) guardar la secuencia de hipótesis en una pila;

(8) actualizar un costo de probabilidad de la hipótesis de actualización;

(9) repetir las etapas (3) a (8) sobre la base de un tamaño de la pila para producir una o varias traducciones posibles de la cadena de entrada, y

(10) seleccionar una de dichas traducciones posibles de la pila con la más alta probabilidad.

\vskip1.000000\baselineskip

20. Procedimiento según la reivindicación 19, en el que cada una de las posibles traducciones comprende una hipótesis que deja palabras sin traducir no correspondientes en la cadena de entrada.

21. Procedimiento según la reivindicación 19, en el que dicha actualización del coste de probabilidad consiste en realizar un coste actual para la hipótesis de actualización y estimar un coste futuro para la hipótesis actualizada.

22. Procedimiento según la reivindicación 21, que comprende además:

descartar una secuencia de salida actualizada si dicha hipótesis actualizada tiene un costo mayor que las n hipótesis mejores en la pila, donde n corresponde a un tamaño de haz predeterminado.

\vskip1.000000\baselineskip

23. Procedimiento según cualquier reivindicación anterior, en el que el entrenamiento EM es un entrenamiento EM basado en Viterbi.