ES2343786T3 - Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. - Google Patents
Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. Download PDFInfo
- Publication number
- ES2343786T3 ES2343786T3 ES03716920T ES03716920T ES2343786T3 ES 2343786 T3 ES2343786 T3 ES 2343786T3 ES 03716920 T ES03716920 T ES 03716920T ES 03716920 T ES03716920 T ES 03716920T ES 2343786 T3 ES2343786 T3 ES 2343786T3
- Authority
- ES
- Spain
- Prior art keywords
- phrase
- word
- translation
- vec
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Procedimiento implementado por ordenador para generar un modelo de probabilidad conjunta basado en frases a partir de un cuerpo paralelo que comprende una pluralidad de frases en el idioma fuente y una pluralidad de frases correspondiente en el idioma de destino; comprendiendo el procedimiento: a) definir a partir del cuerpo paralelo n-gramas de alta frecuencia (\vec(ei) en E, y (\vec(fi) en F, donde E y F comprenden frases en el idioma fuente y de destino, respectivamente; b) obtener una distribución de probabilidad conjunta t inicial basada en la frase, mediante: i) tomar, para cada par de frases (E, F) en el cuerpo, tres productos cartesianos de n-gramas (\vec(ei) en E, y (\vec(fi) en F; ii) determinar, para cada par de n-gramas (ei, fi) en el producto cartesiano, un recuento t dado por la expresión: **(Ver fórmula)** donde l y m son las longitudes de las frases E y F, respectivamente, a y b son las longitudes de los n-gramas (\vec(ei) y (\vec(fi), y S es el número de Stirling de segunda clase; iii) sumar las cuentas t y normalizar, y c) realizar el entrenamiento de Expectativa Máxima para una pluralidad de iteraciones para generar una distribución de probabilidad conjunta t.
Description
Modelo de probabilidad de unión basado en frases
para traducción automática estadística.
La investigación y el desarrollo descritos en
esta solicitud fueron apoyados por DARPA-ITO con el
número de subvención
N66001-00-1-9814 y
por las subvenciones del NSF-STTR 0128379. El
Gobierno de los EE.UU. puede tener ciertos derechos en las
invenciones reivindicadas.
La mayoría de los modelos basados en canales de
ruido utilizados en la traducción automática estadística (MT) son
modelos de probabilidad condicional. En el marco del canal de ruido,
cada oración fuente "e" en un cuerpo paralelo se supone que
"genera" una frase destino "f" por medio de un proceso
estocástico, cuyos parámetros se estiman mediante técnicas
tradicionales de Máxima Expectación (EM). El modelo generativo
explica cómo las palabras fuente se asignan a las palabras destino
y cómo las palabras destino son reordenadas para producir oraciones
destino bien formadas. Una variedad de procedimientos se utilizan
para explicar el reordenamiento de las palabras destino, incluyendo
los procedimientos que utilizan modelos basados en palabras, basados
en plantillas, y basados en sintaxis (por nombrar sólo algunos).
Aunque estos modelos utilizan diferentes procesos generativos para
explicar cómo las palabras traducidas vuelven a ordenarse en un
idioma de destino, a nivel de léxico estos modelos asumen que las
palabras fuente son traducidas individualmente en palabras
destino.
En el documento "Towards a Unified Approach to
Memory - and Statistical-Based Machine
Translation" de Daniel Marcu, Procedimiento de
ACL-2001, se describe un procedimiento estadístico
conocido de traducción automática que incluye un modelo de
probabilidad conjunta basado en palabras, que es posteriormente
formado para desarrollar una memoria de traducción para la
correspondencia frase a frase. Otras referencias de interés como
antecedentes incluyen "The Mathematics of Statistical Machine
Translation: Parameter Estimation" de P Brown et al,
Computacional Linguistics, Cambridge, MA; "Empirical Methods for
Exploiting Parallel Texts" de Dan Melamed, The MIT Press.
"Improved Alignment Models for Statistical Machine
Translation", de Franz Josef Och et al, Procedures of the
Joint Conference of Empirical Methods in Natural Language Processing
and Very Large Corpora fue más allá de los modelos de traducción
automática estadísticos originales permitiendo traducir unidades de
múltiples palabras o frases.
La invención se define en las reivindicaciones
independientes a las que se ahora debe hacerse referencia.
Características ventajosas se indican en las reivindicaciones
dependientes.
Un sistema de traducción automática (MT) puede
desarrollar diccionarios de traducción frase a frase
probabilísticos utilizando una o más recopilaciones bilingües. Por
ejemplo, pueden desarrollarse diccionarios de traducción utilizando
un procedimiento de probabilidad conjunta, un procedimiento
condicional de palabra a palabra, u otro procedimiento.
El sistema de MT puede traducir una o varias
frases (o fragmentos de frase) utilizando diccionarios de
traducción. Por ejemplo, el sistema de MT puede utilizar un
procedimiento voraz, un procedimiento que utiliza un decodificador
haz de pila u otro procedimiento para descifrar frases.
En las implementaciones en las que los
diccionarios de traducción se desarrollan mediante un modelo de
probabilidad conjunta basada en la frase, las frases fuente y
destino del idioma se puede generar de forma simultánea. El sistema
podrá utilizar el modelo de probabilidad conjunta tanto para
aplicaciones de traducción
fuente-a-destino y
destino-a-fuente.
En realizaciones que usan un procedimiento
condicional palabra-a-palabra, el
modelo puede aprender alineaciones
frase-a-frase a partir de
alineaciones palabra-a-palabra
generada por un sistema MT estadístico
palabra-a-palabra.
La figura 1 es un diagrama de bloques de un
sistema de traducción automática (MT) que incluye un modelo de
traducción de probabilidad conjunta basado en la frase.
La figura 2 muestra las alineaciones y
distribuciones de probabilidad generadas por el modelo de
probabilidad conjunta basado en la frase.
La Figura 3 es un diagrama de flujo que describe
un algoritmo de entrenamiento para el modelo de probabilidad
conjunta basado en la frase.
La Figura 4 se muestra un ejemplo de
decodificación voraz basado en la frase.
La figura 5 es un diagrama de flujo que describe
un algoritmo de decodificación basado en la frase según un
ejemplo.
La Figura 6 muestra un pseudocódigo que describe
el algoritmo de decodificación basado en la frase.
La figura 7 es un diagrama que muestra la
generación de un arco entre las hipótesis.
La figura 8 es un gráfico que muestra el efecto
de la longitud de la frase en el rendimiento.
La figura 9 muestra un ejemplo de estimación de
un peso léxico.
La Figura 10 es un gráfico que muestra el efecto
de la ponderación léxica en el rendimiento.
La figura 11 es un gráfico de comparación de la
eficiencia de heurísticas diferentes.
Se pueden utilizar sistemas y técnicas de la
presente divulgación para proporcionar una traducción automática
(MT) más eficaz y exacta. En algunas implementaciones, el sistema de
MT puede desarrollar diccionarios probabilísticos de traducción
frase-a-frase. Los diccionarios de
traducción probabilística pueden ser aprendidos de forma automática
a partir de cuerpo bilingüe utilizando, por ejemplo, modelos de
probabilidad conjunta o modelos condicionales
palabra-a-palabra.
Estos diccionarios de traducción a continuación,
se pueden utilizar para traducir frases nuevas. Es decir, los
diccionarios de traducción se pueden utilizar para traducir frases
no incluidas en los cuerpos utilizados para entrenar el sistema de
MT. Sistemas y técnicas de traducción incluyen un procedimiento
voraz, un procedimiento que utiliza un decodificador de haz de
pila, u otros procedimientos.
La figura 1 muestra un sistema de traducción
automática (MT) 100 incluyendo un modelo de traducción 105 y un
decodificador 110. El modelo de traducción 105 puede incluir
diccionarios de traducción que se pueden aprender a partir de
cuerpo bilingües. El modelo de traducción 105 puede suponer que las
correspondencias léxicas se pueden establecer al nivel de palabra y
también al nivel de expresión. El decodificador 110 puede usar los
diccionarios de traducción para proporcionar una frase traducida,
sobre la base de una oración de entrada.
De acuerdo con algunas realizaciones, el modelo
105 puede ser entrenado de acuerdo a un modelo de probabilidad
conjunta. Es decir, el modelo 105 puede desarrollar automáticamente
un diccionario de traducción mediante un cuerpo paralelo 115 que
incluye secuencias paralelas de idioma fuente y destino. El modelo
105 no trata de captar cómo las oraciones fuente pueden ser
asignadas a frases destino, sino que genera frases fuente y destino
de forma simultánea. En otras palabras, el modelo de traducción es
un modelo de probabilidad conjunta que puede ser fácilmente
marginado a fin de producir modelos de probabilidad condicional para
ambas aplicaciones de traducción automática de
fuente-a-destino y
destino-a-fuente.
En una realización, el modelo 105 puede generar
pares de oraciones usando el siguiente proceso estocástico:
1. Generar una bolsa de conceptos C.
2. Para cada concepto c_{i} \in C, genera un
par de frases 100 , de acuerdo con la distribución t
100 , donde \vec{e}_{i} y \vec{f}_{i} contiene
cada uno al menos una palabra.
3. Ordenar las frases generadas en cada idioma
con el fin de crear dos secuencias lineales de frases; las
secuencias corresponden a los pares de oraciones en un cuerpo
bilingüe.
Por simplicidad, se supone que la bolsa de
conceptos y el orden de las frases generadas se modelan mediante
distribuciones uniformes. También se supone que c_{i} =
100 . Bajo estos supuestos, se deduce que la
probabilidad de generar un par de frases (E, F) usando los conceptos
c_{i} \in C está dada por el producto de todas las
probabilidades de traducción
frase-a-frase, \Pi_{c_{i}{}^{\in
c}} 100 que produce bolsas de rendimiento de frases
que se pueden ordenar linealmente a fin de obtener las frases E y
F.
\newpage
La figura 2 muestra un ejemplo. El par de frases
"a b c"- -"x y" se puede generar mediante dos
conceptos, ("a b": "y") y ("c": "x"), o un
concepto, ("a b c": "x y"), porque en ambos casos las
frases en cada idioma se pueden organizar en una secuencia que
daría el par de la sentencia original. Sin embargo, el mismo par de
frases no se puede generar utilizando los conceptos ("a b":
"y") y ("c": "y") porque la secuencia de "x y"
no puede ser recreada a partir de las dos frases "y" e
"y". Del mismo modo, el par no se puede generar utilizando
conceptos ("a c": "x") y ("b": "y") porque la
secuencia "a b c" no se puede crear mediante la concatenación
de las frases de "a c" y "b".
El conjunto de conceptos C puede ser linealizado
en un par de oraciones (E, F) si E y F se puede obtener la
permutación de las frases \vec{e}_{i} y \vec{f}_{i} que
caracterizan a todos los conceptos c_{i} \in C. Denotamos esta
propiedad utilizando el predicado L (E, F, C). Bajo este modelo, la
probabilidad de un par de oraciones dadas (E, F), se puede obtener
entonces sumando de todas las formas posibles de generar bolsas de
conceptos c_{i} \in C que se puede linealizar a (E, F).
\vskip1.000000\baselineskip
El modelo descrito anteriormente ("Modelo
1") se ha encontrado que produce alineamientos bastante buenos.
Sin embargo, este modelo puede ser inadecuado para traducir frases
no vistas, ya que impone restricciones a la ordenación de las
frases asociadas a un concepto dado. Con el fin de dar cuenta de
esto, un modelo modificado ("Modelo 2") fue desarrollado para
dar cuenta de las distorsiones. La historia generativa del modelo es
la siguiente:
1. Generar una bolsa de conceptos C.
2. Inicializar E y F para secuencias vacías
e.
3. Tomar aleatoriamente un concepto c_{i}
\in C y generar un par de frases 100 , según la
distribución t 100 , donde \vec{e}_{i} y
\vec{f}_{i} contienen cada uno al menos una palabra. Extraer
entonces c_{i} de C.
4. Anexar la frase \vec{f}_{i} al final de F.
Dejar k en la posición inicial de \vec{f}_{i} en F.
5. Insertar la frase \vec{e}_{i} en la
posición 1 en E a condición de que ninguna otra frase ocupe ninguna
de las posiciones 1 y 1+|\vec{e}_{i}|, donde
|\vec{e}_{i}| da la longitud de la frase \vec{e}_{i}. El
sistema, por lo tanto, crea la alineación entre las dos frases
\vec{e}_{i} y \vec{f}_{i} con una probabilidad
\vskip1.000000\baselineskip
donde d (i, j) es una distribución
de la distorsión basada en la
posición.
6. Repetir las etapas 3 a 5 hasta que C esté
vacío.
En este modelo, la probabilidad de generar un
par de frases (E, F) viene dada por la siguiente fórmula:
\vskip1.000000\baselineskip
donde 101 denota la
posición de la palabra k de la frase \vec{f}_{i} en la frase F y
102 denota la posición en la frase E del centro de
masa de la frase
e_{i}.
Entrenar los modelos descritos puede ser
informáticamente difícil. Como no hay un número exponencial de las
alineaciones que pueden generar un par de frases (E, F), el
algoritmo de entrenamiento de Máxima Expectación (EM) no se puede
aplicar de forma exhaustiva. La Figura 3 es un diagrama de flujo que
describe un algoritmo de entrenamiento 300 para el modelo de
probabilidad conjunta basado en la frase que tiene en cuenta este
problema.
El sistema determina n-gramas de
alta frecuencia en E y F (bloque 305). Si se asume desde el
principio que cualquier frase \vec{e}_{i} \in E * y
\vec{f}_{i} * \in F puede generarse a partir de un concepto
c_{i}, se necesitaría un superordenador para almacenar en la
memoria una tabla que modela la distribución t100 .
Dado que el sistema no tiene acceso a ordenadores con memoria
ilimitada, el sistema aprende inicialmente entradas de distribución
t únicamente para las frases que se producen con frecuencia en el
cuerpo y para unigramas. Luego, a través del suavizado, el sistema
aprende entradas de distribución t también para las frases que son
muy poco frecuentes. Para ser considerada en la próxima etapa del
algoritmo, una frase tiene que producirse al menos cinco veces en
el cuerpo.
El siguiente paso es inicializar la tabla de
distribución t (bloque 310). Antes de que el procedimiento de
entrenamiento EM se inicie, no se tiene idea de qué pares de
palabra/frase es probable que compartan el mismo significado. En
otras palabras, todas las alineaciones que pueden generar un par de
frases (E, F) se puede suponer que tienen la misma probabilidad.
Bajo estas condiciones, la evidencia de que un par de frases (E, F)
contribuye al hecho de que 100 son generados por el
mismo concepto c_{i} viene dada por el número de alineaciones que
se puede construir entre (E, F) que tienen un concepto c_{i} que
está vinculado a la frase \vec{e}_{i} en la frase E y la frase
\vec{f}_{i} en la frase F dividida por el número total de
alineaciones que se pueden construir entre las dos oraciones. Ambos
números pueden ser aproximados fácilmente.
Dada una frase de E de 1 palabra, hay
S(l, k) formas en que las palabras l se puede dividir en k
conjuntos/conceptos no vacíos, donde S(l, k) es el número de
Stirling de segunda clase.
También hay S(m, k) formas en que las m
palabras de una frase F se puede dividir en k conjuntos no vacíos.
Teniendo en cuenta que cualquier palabra en E se puede asignar a
cualquier palabra en F, se deduce que hay
alineaciones que se pueden
construir entre dos oraciones (E, F) de longitud 1 y m,
respectivamente. Cuando un concepto ci genera dos frases
100 de longitud a y b, respectivamente, sólo hay
1-a y m-b palabras dejadas de
enlazar. Por lo tanto, en ausencia de cualquier otra información, la
probabilidad de que las frases \vec{e}_{i} y \vec{f}_{i} sean
generadas por el mismo concepto c_{i} viene dada por la siguiente
fórmula:
Obsérvese que las cuentas fraccionadas devueltas
por la fórmula son solamente una aproximación de la distribución t,
el sistema está interesado porque los números de Stirling de segunda
clase no imponen ninguna en las palabras que se asocian con un
concepto dado que sean consecutivas. Sin embargo, puesto que la
fórmula sobreestima igualmente al numerador y el denominador, la
aproximación funciona bien en la práctica.
En la segunda etapa del algoritmo, el sistema
aplica la fórmula para recoger cuentas fraccionadas para todos los
unigramas y los pares de n-gramas de alta frecuencia
en el producto cartesiano definido sobre las frases de cada par de
oraciones (E, F) en un cuerpo. El sistema suma a lo largo de todas
estas cuentas t y se normaliza para obtener una distribución
conjunta inicial t. Esta etapa equivale a ejecutar el algoritmo EM
para una etapa sobre todas las alineaciones posibles en el
cuerpo.
En la tercera etapa del algoritmo, el sistema
realiza el entrenamiento EM en los alineamientos de Viterbi (bloque
315). Dada una distribución t no uniforme, alineaciones
frase-a-frase tienen pesos
diferentes y no hay otros trucos que se puedan utilizar para
recopilar cuentas fraccionadas sobre todas las alineaciones
posibles en tiempo polinómico. Comenzando con el bloque 315 del
algoritmo de la figura 3, para cada par de frases en un cuerpo, el
sistema produce una alineación inicial voraz enlazando frases a fin
de crear conceptos que tienen probabilidades t altas. El sistema
entonces escala hacia la alineación de Viterbi de mayor probabilidad
mediante la rotura y combinación de conceptos, intercambiando
palabras entre conceptos y moviendo palabras a través de conceptos.
El sistema calcula las probabilidades asociadas con todas las
alineaciones generadas por el sistema durante el proceso de
escalado y recoge recuentos de t de todos los conceptos en estas
alineaciones.
El sistema aplica este procedimiento de
entrenamiento de EM basado en Viterbi para unas pocas iteraciones.
Las primeras iteraciones estiman las probabilidades de alineación
utilizando el modelo 1. El resto de las iteraciones estiman las
probabilidades de alineación usando el Modelo 2.
Durante el entrenamiento, el sistema aplica el
suavizado para que el sistema pueda asociar valores no nulos a los
pares de frases que no ocurren con frecuencia en el cuerpo.
Al final del procedimiento de entrenamiento, el
sistema toma los marginales en el conjunto de distribuciones de
probabilidad t y d (bloque 320). Esto da las distribuciones de
probabilidad condicional t 100 y d (posF|posE), que
el sistema utiliza para la decodificación.
Cuando el sistema ejecuta el procedimiento de
entrenamiento en la Figura 3 en el cuerpo en la Figura 2, después
de cuatro iteraciones del modelo 1 el sistema obtiene las 205
alineaciones y las distribuciones de probabilidad conjunta y
condicional 210. A primera vista, la alineación de Viterbi para el
primer par de frases puede parecer incorrecta porque los seres
humanos tienen una tendencia natural para construir alineaciones
entre las frases más pequeñas posibles. Sin embargo, se tiene en
cuenta que la opción elegida por nuestro modelo es bastante
razonable. Después de todo, en ausencia de información adicional, el
modelo puede suponer que la "a" y "y" significa la misma
cosa o que las frases "a b c" y "x y" significan lo mismo.
El modelo elige dar más peso a la segunda hipótesis, preservando al
mismo tiempo parte de la masa de probabilidad para la primera.
También se tiene en cuenta que, aunque la
distribución conjunta pone a la segunda hipótesis en una situación
ventajosa, la distribución condicional no lo hace. La distribución
condicional 210 es compatible con nuestras intuiciones que nos
dicen que es razonable tanto para traducir "a b c" en "x
y", así como "a" en "y". La distribución condicional
refleja nuestras intuiciones.
En un sistema alternativo, un sistema como el
sistema 100 de la FIG. 01 de mayo aprender traducciones
frase-a-frase a partir de
alineaciones palabra-a-palabra. Es
decir, un modelo como el modelo 105 puede desarrollar un
diccionario de traducción de frases mediante la expansión de
diccionarios de traducción palabra-por- palabra
aprendidos por los modelos
palabra-a-palabra. El modelo de
traducción de frases está basado en el modelo de canal ruidoso. El
sistema utiliza la regla de Bayes para la reformulación de la
probabilidad de traducción para la traducción de una sentencia
extranjera f al Inglés e como
Esto permite un modelo de idioma p(e) y
un modelo de traducción separado F(f|le).
Durante la decodificación (es decir, la
traducción), la frase de entrada extranjera f se segmenta en una
secuencia de I frases que \overline{f}_{1}{}^{I}. El sistema
supone una distribución de probabilidad uniforme sobre todas las
posibles segmentaciones.
Cada frase extranjera \overline{f}_{1} en
\overline{f}_{1}{}^{I} se traduce en una frase de Inglés
\overline{e}_{i}. Las frases de Inglés pueden ser reordenadas. La
traducción de frases es modelada por una distribución de
probabilidad \varphi 103 Debido a la regla de
Bayes, la dirección de traducción se invierte a partir de un punto
de vista de la modelización.
El reordenamiento de las frases de salida en
Inglés es modelada por una distribución de probabilidad de
distorsión relativa d (a_{i} - b_{i-1}), donde
a_{i} denota la posición de comienzo de la frase extranjera que
se tradujo en la frase en Inglés, y b_{i-1} denota
la posición final de la frase traducida en la (i - 1)º frase en
Inglés.
La distribución de probabilidad de distorsión
d(\cdot) puede ser entrenada a través de un modelo de
probabilidad conjunta, como la descrita en relación con la
disposición descrita anteriormente. Como alternativa, el sistema
también podría usar un modelo más simple de distorsión d (a_{i} -
b_{i-1}) =
\alpha^{|a}_{i}^{-b}_{i-1}^{-I|} con un
valor adecuado para el parámetro \alpha.
\newpage
Con el fin de calibrar la longitud de salida, el
sistema introduce un factor \omega para cada palabra en Inglés
generada además del modelo de idioma trigrama p_{LM}. Este es un
medio simple para optimizar el rendimiento. Por lo general, este
factor es mayor que 1, orientando una salida más larga.
En resumen, la mejor frase de salida en Inglés
e_{mejor} dada una frase de entrada extranjera f según el modelo
es
\vskip1.000000\baselineskip
donde p(f|e) se descompone
en
\vskip1.000000\baselineskip
El equipo de herramientas Giza++ fue
desarrollado para entrenar modelos de traducción basados en palabras
a partir de cuerpos paralelos. Como un subproducto, genera
alineamientos de palabra para estos datos. El sistema puede mejorar
esta alineación con una serie de heurísticas. El sistema recoge
todos los pares de frase alineadas que sean compatibles con la
alineación de palabras. Las palabras en un par de frases legal sólo
se alinean entre sí, y no a las palabras del exterior. Dados los
pares de palabras recogidos, el sistema calcula la distribución de
probabilidad de la traducción de la frase mediante frecuencia
relativa:
\vskip1.000000\baselineskip
En algunos acuerdos, se puede realizar el
alisado.
Si el sistema recoge todos los pares de frases
que son consistentes con los alineamientos de palabras, esto
incluye muchas frases no intuitivas. Por ejemplo, las traducciones
de frases tales como "house the" pueden ser aprendidas.
Intuitivamente el sistema se inclina a creer que tales frases no
ayudan. La restricción de frases posibles a frases sintácticamente
motivadas puede filtrar dichos pares no intuitivos.
Otra motivación para evaluar el desempeño de un
modelo de traducción de frase que contiene sólo frases sintácticas
viene de los recientes esfuerzos para construir modelos de
traducción sintácticos. En estos modelos, la reordenación de las
palabras se limita a reordenación de los constituyentes en árboles
de análisis sintácticos bien formados. Cuando se aumentan esos
modelos con traducciones de frases, por lo general sólo es posible
la traducción de las frases que abarcan todos los subárboles
sintácticos. Es importante saber si se trata de una restricción
útil o perjudi-
cial.
cial.
El sistema puede definir una frase sintáctica
como una secuencia palabras que está cubierta por un único
sub-árbol en un árbol de análisis sintáctico. Recogemos pares de
frases sintácticas de la siguiente manera: el sistema alinea
palabras de un cuerpo paralelo, como se describió anteriormente. El
sistema analiza entonces ambos lados del cuerpo con analizadores
sintácticos. Para todos los pares de frases que son consistentes
con la alineación de palabras, el sistema comprueba además si ambas
frases son subárboles en los árboles de análisis. Sólo estas frases
se incluyen en el modelo. Por lo tanto, los pares de frases
sintácticamente motivadas aprendidas son un subconjunto de los
pares de frases aprendidas sin el conocimiento de la sintaxis. La
distribución de probabilidad de traducción de la frase puede ser
estimada mediante la frecuencia relativa.
La figura 8 muestra los resultados de los
experimentos con diferentes longitudes de frase máximas. Fueron
utilizadas todas las frases consistentes con la alineación de
palabras (AP). Como se muestra en la Figura 8, limitar la longitud
a un máximo de sólo tres palabras por frase ya alcanza el máximo
rendimiento. Aprender frases más largas no produce ninguna mejora.
Reducir el límite a sólo dos, sin embargo, es perjudicial. Permitir
frases más largas aumenta el tamaño de la tabla de traducción de
frases. El aumento es casi lineal con el límite de longitud máxima.
Sin embargo, ninguno de estos tamaños de modelos causó problemas de
memoria.
\newpage
El sistema podrá validar la calidad de un par de
traducción de frases por revisar qué tan bien sus palabras se
traducen entre sí. Para ello, se puede utilizar una distribución de
probabilidad de traducción léxica w(f|e). La distribución
puede ser estimada mediante la frecuencia relativa de las mismas
alineaciones de palabras que el modelo de la frase
Una señal NULL en Inglés especial se puede
añadir a cada frase en Inglés y alinearse a cada palabra extranjera
no alineada.
Dado un par de frases (\overline{f},
\overline{e}) y una alineación de palabras a entre las posiciones
palabra extranjera I - 1,..., n y las posiciones de palabra en
Inglés j = 0, 1,..., m, el sistema calcula el peso léxico p_{w}
por
La Figura 9 muestra un ejemplo.
Si hay alineaciones múltiples para un par de
frases (\overline{f}, \overline{e}), el sistema puede utilizar
la alineación con el mayor peso léxico:
El sistema podrá utilizar el peso léxica p_{w}
durante la traducción como un factor adicional. Esto significa que
el modelo p(f|e) se extiende a
El parámetro \lambda define la fuerza del peso
léxico p_{w}. Buenos valores para este parámetro están alrededor
de 0,25.
La figura 10 muestra el impacto de la
ponderación de diccionario en el rendimiento de traducción
automática. En nuestros experimentos, el sistema logró mejoras de
hasta 0,01 en la escala de puntuación de BLEU.
La traducción de frases con un peso diccionario
es un caso especial del modelo de plantilla de alineación con una
clase de palabras para cada palabra. La simplificación realizada por
el sistema tiene la ventaja de que los pesos léxicos puede
descomponerse en factores en la tabla de traducción de frases de
antemano, acelerando la decodificación. En contraste con el
descodificador de búsqueda del haz para el modelo de plantilla de
alineación, el procedimiento de decodificación descrito en relación
con las figuras 5 y 6, son capaces de buscar toda la segmentación
de palabras posibles de la frase de entrada, en lugar de elegir una
segmentación antes de descodificarlo.
En el experimento, el sistema aprendió pares de
frases a partir de alineaciones de palabras generadas por Giza++.
Los modelos de IBM que implementa este conjunto de herramientas sólo
permiten a lo sumo a una palabra en Inglés estar alineada con una
palabra extranjera. El sistema soluciona este problema con un
enfoque heurístico.
En primer lugar, el sistema alinea un cuerpo
paralelo bidireccionalmente, es decir, extranjera a Inglés e Inglés
a extranjera. Esto da dos alineaciones de palabra que el sistema
intenta conciliar. Si el sistema intercepta las dos alineaciones,
el sistema consigue una alineación de alta precisión de puntos de
alineación de alta confianza. Si el sistema toma la unión de las
dos alineaciones, el sistema consigue una alineación de alto
recuerdo con puntos de alineación adicionales.
El espacio comprendido entre la intersección y
la unión puede ser heurística de expansión que comienza con la
intersección y añade puntos de alineación adicionales. La decisión
de qué puntos agregar puede depender de una serie de criterios, por
ejemplo, cuya alineación hace que el punto de alineación potencial
exista (Extranjero-Inglés o
Inglés-Extranjero), si el punto potencial se avecina
a puntos ya establecidos, si la "vecindad" significa
directamente adyacente (bloque-distancia), o también
diagonalmente adyacente si la palabra en Inglés o la palabra
extranjera que conecta el punto potencial no están alineadas hasta
el momento, y si ambas están no alineadas y la probabilidad léxica
para el punto de potencial.
El sistema comienza con la intersección de las
dos alineaciones de palabras. El sistema sólo añade nuevos puntos
de alineación que existen en la unión de dos alineaciones de
palabra. El sistema también requiere siempre que un nuevo punto de
alineación conecte al menos una palabra previamente no alineada.
En primer lugar, el sistema se expande sólo a
puntos de alineación directamente adyacentes. El sistema verifica
los puntos potenciales partiendo desde la esquina superior derecha
de la matriz de alineación, controlando los puntos de alineación
para la primera palabra en Inglés, y luego continúa con los puntos
de alineación para la segunda palabra en Inglés, y así
sucesivamente. Esto se realiza iterativamente hasta que no se pueden
añadir más punto de alineación. En una última etapa, el sistema
añade puntos de alineación no adyacentes, con los mismos
requisitos, de otra manera.
La figura 11 muestra el desempeño de esta
heurística (base) en comparación con las dos alineaciones de
mono-direccionales (e2f, f2e) y su unión (unión). La
cifra también contiene dos modificaciones de la base heurística: En
la primera (diag), el sistema también permite la vecindad diagonal
en la fase de expansión iterativa. En una variante de esta
(diag-and), el sistema requiere en la etapa final
que ambos términos no estén alineados.
La clasificación de estos diferentes
procedimientos varía para los diferentes tamaños de cuerpo de
entrenamiento. Por ejemplo, la alineación f2e comienza de la segunda
a peor para el cuerpo de 10.000 pares de oraciones, pero en última
instancia es competitivo con el mejor procedimiento de 320.000 pares
de frases. La base heurística es inicialmente la mejor, pero luego
cae. La discrepancia entre el mejor y el peor procedimiento es
bastante grande, alrededor de 0,2 BLEU (un sistema de puntuación de
IBM), para casi todos los tamaños de cuerpo de entrenamiento,
aunque no siempre de manera significativa.
El decodificador basado en frases en algunas
realizaciones puede emplear un algoritmo de búsqueda en haz. La
salida en Inglés se genera de izquierda a derecha en forma de
traducciones parciales (o hipótesis).
El sistema puede comenzar la búsqueda de
posibles traducciones en un estado inicial en que ninguna palabra
de entrada extranjera se traduce y no se han generado palabras de
salida en Inglés. Se pueden crear nuevos estados mediante la
ampliación de la salida de Inglés con una traducción de frases que
comprende algunas de las palabras de entrada extranjeras aún no
traducidas. El costo actual del nuevo estado es el costo de su
estado original multiplicados por la traducción, la distorsión y los
costes de modelo de idioma de la traducción de frases agregada.
Cada espacio de búsqueda (hipótesis) se
representa por (a) un enlace de retorno al mejor estado anterior,
(b) las palabras extranjeras cubiertas hasta ahora, (c) las dos
últimas palabras en Inglés generadas (necesarias para calcular los
costes de modelo de idioma futuros), (d) el final de la última frase
extranjera cubierta (necesario para calcular los costes futuros de
distorsión), (e) la última frase en Inglés añadida (necesaria para
leer la traducción de una ruta de hipótesis), (f) el coste hasta
ahora, y (g) la estimación del coste futuro.
Estados finales en la búsqueda son hipótesis que
cubren todas las palabras extranjeras. Entre ellos la hipótesis con
el menor costo es seleccionada como la mejor traducción.
Dos hipótesis se pueden combinar, si están de
acuerdo en (a) las palabras extranjeras cubiertas hasta ahora, (b)
las dos últimas palabras generadas en Inglés, y (c) el final de la
última frase extranjera cubierta.
Si hay dos caminos que llevan a dos hipótesis
que están de acuerdo en estas propiedades, el sistema mantiene la
hipótesis más barata, por ejemplo, la que tenga un costo menor hasta
ahora. La otra hipótesis no puede ser parte de la ruta de acceso a
la mejor traducción, y el sistema puede descartarla de forma segura.
Tenga en cuenta que la hipótesis inferior puede ser parte de la
ruta de acceso a la segunda mejor traducción.
La figura 5 es un diagrama de flujo que describe
una operación de decodificación basado en palabras 500 según un
ejemplo. Un algoritmo que describe la operación se muestra en la
Figura 6. El sistema se puede iniciar con una hipótesis inicial
vacía. Una nueva hipótesis se expande entonces a partir de una
hipótesis existente mediante la traducción de una frase. Se
selecciona una secuencia de palabras extranjeras no traducidas y
una posible traducción de la frase de Inglés para ellas (bloque
505). La frase en Inglés se une a la secuencia de salida existente
en Inglés (bloque 510). A continuación, las palabras extranjeras se
marcan como traducidas y el coste de probabilidad de la hipótesis
se actualiza (bloque 515). La hipótesis final más barata
(probabilidad más alta) sin palabras extranjeras sin traducir es el
resultado de la búsqueda (bloque 520).
Las hipótesis se almacenan en pilas. La pila
s_{m} contiene todas las hipótesis en las que m palabras
extranjeras han sido traducidas. El sistema puede recombinar
hipótesis de búsqueda. Si bien esto reduce un poco el número de
hipótesis almacenadas en cada pila, el tamaño de la pila es
exponencial con respecto a la longitud de frase de entrada. Esto
hace inviable una búsqueda exhaustiva.
Así, el sistema reduce las hipótesis débiles
basadas en el costo en que incurrieron hasta el momento y una
estimación de los costes futuros. Para cada pila, el sistema sólo
mantiene un haz de las n mejores hipótesis. Dado que la estimación
de costes futuros no es perfecta, esto conduce a la búsqueda de
errores. Nuestra estimación de los costes futuros tiene en cuenta
el coste de traducción de la frase estimado, pero no el coste de
distorsión esperado.
Para cada traducción de la frase posible en
cualquier lugar de la oración (referido como una "opción de
traducción"), el sistema multiplica su probabilidad de traducción
de la frase con la probabilidad de modelo de idioma para la frase
en Inglés generada. Como probabilidad modelo de idioma, el sistema
podrá utilizar la probabilidad de unigrama para la primera palabra,
la probabilidad bigrama para la segunda, y la probabilidad trigrama
para todas las palabras siguientes.
Teniendo en cuenta los costes de las opciones de
traducción, el sistema puede calcular el coste futuro estimado para
cualquier secuencia de palabras extranjeras consecutivas mediante
programación dinámica. Tenga en cuenta que esto sólo es posible, ya
que el sistema hace caso omiso de los costes distorsión. Dado que
sólo hay n (n+1)/2 de tales secuencias para una frase de entrada
extranjera de longitud n, el sistema puede
pre-calcular estas estimaciones de costes de
antemano y almacenarlas en una tabla.
Durante la traducción, los costes futuros para
las palabras extranjeras no descubiertas puede ser rápidamente
calculado mediante la consulta de esta tabla. Si una hipótesis tiene
secuencias rotas de palabras extranjeras sin traducir, el sistema
busca el coste para cada secuencia y tomar el producto de sus
costes.
El espacio de hipótesis generadas durante la
búsqueda de haz forma un entramado de caminos, cada uno
representando una traducción, por lo que se puede calcular
fácilmente una puntuación de traducción. La extracción de los n
mejores caminos a partir del entramado es un problema bien
estudiado.
Los caminos se ramifican, cuando hay múltiples
opciones de traducción para una hipótesis a partir de la cual
pueden ser derivadas múltiples nuevas hipótesis. Las rutas se unen,
cuando las hipótesis se fusionan. Como se describió anteriormente,
el sistema puede descartar una hipótesis si está de acuerdo con una
hipótesis de bajo coste con algunas de las mismas propiedades. Con
el fin de mantener la información acerca de cómo combinar caminos,
el sistema mantiene un registro de dichas fusiones que contiene el
identificador de la hipótesis anterior, el identificador de la
hipótesis de menor coste, y el coste desde los previos a hipótesis
de mayor coste.
La Figura 7 da un ejemplo para la generación de
este tipo de arco. En este caso, las hipótesis 2 y 4 son
equivalentes en cuanto a la búsqueda heurística, tal como se detalla
más arriba. Por lo tanto, la hipótesis 4 queda eliminada. Sin
embargo, para conservar la información sobre el camino que conduce
desde la hipótesis 3 a la 2, el sistema almacena un registro de
este arco 705. El arco también contiene el coste adicional de la
hipótesis 3 a 4. Tenga en cuenta que el coste de la hipótesis 1 a la
hipótesis 2 no tiene que ser almacenado, ya que puede ser
recalculado a partir de las estructuras de datos de hipótesis.
El tamaño del haz, por ejemplo, el número máximo
de hipótesis en cada pila, puede ser fijado a un determinado
número. El número de opciones de traducción es lineal con la
longitud de la oración. Por lo tanto, la complejidad de tiempo del
haz de búsqueda es de segundo grado con la longitud de la oración, y
lineal con el tamaño del
haz.
haz.
Dado que el tamaño del haz limita el espacio de
búsqueda y por lo tanto la calidad de búsqueda, el sistema tiene
que encontrar el adecuado equilibrio entre la velocidad (el tamaño
de haz bajo) y rendimiento (tamaño del haz de alto). En los
experimentos, un tamaño del haz de sólo 100 resultó ser suficiente.
Con tamaños de haces mayores, sólo unas pocas frases fueron
traducidas de manera diferente. El decodificador traduce 1755
frases de longitud de 5 a 15 palabras en unos 10 minutos en un
sistema Linux® de 2 GHz. El sistema alcanzó una rápida
decodificación, garantizando al mismo tiempo una alta calidad.
En algunas realizaciones, un decodificador como
el decodificador 110 de la figura 1 puede implementar un
procedimiento voraz. Dada una frase extranjera F, el decodificador
primero produce glosa la misma mediante la selección de frases en
E* que la probabilidad p(E, F). A continuación, el
decodificador de escalado, iterativamente modificando E y la
alineación entre E y F a fin de maximizar la fórmula p(E)
p(F|E). El decodificador escala mediante la modificación de
una alineación/traducción existente a través de un conjunto de
operaciones que modifican la construcción alineación/traducción a
nivel local hasta un momento dado. Estas operaciones reemplazan el
lado Inglés de una alineación con frases de probabilidades
diferentes, se fusionan y se rompen los conceptos existentes, y se
intercambian las palabras a través de los conceptos. La probabilidad
p(E) se calcula utilizando un modelo de idioma trigrama
sencillo. El modelo de idioma se estima en el nivel de palabra (no
de frase). La Figura 3 muestra las etapas adoptadas por el
decodificador con el fin de encontrar la traducción de la frase
"je vais me arrêter là". Cada traducción intermedia 405 en la
Figura 4 es precedida por su probabilidad 410 y sucedida por la
operación que la cambia para dar una traducción de mayor
probabilidad.
Se ha descrito una serie de realizaciones. No
obstante, se entenderá que varias modificaciones pueden ser hechas.
Por ejemplo, bloques en los diagramas de flujo pueden ser omitidos o
realizados fuera de orden y aún producir los resultados deseados.
Pueden ser utilizados diferentes procedimientos de traducción. En
consecuencia, otras formas de realización se encuentran dentro del
ámbito de aplicación de las siguientes reivindicaciones.
\newpage
Esta lista de referencias citadas por el
solicitante está prevista únicamente para ayudar al lector y no
forma parte del documento de patente europea. Aunque se ha puesto
el máximo cuidado en su realización, no se pueden excluir errores u
omisiones y la OEP declina cualquier responsabilidad al
respecto.
\bullet P Brown et al. The
Mathematics of Statistical Machine Translation: Parameter
Estimation. Computational Linguistics [0003]
\bullet Dan Melamed. Empirical Methods
for Exploiting Parallel Texts. The MIT Press [0003]
\bullet Franz Josef Och et al.
Improved Alignment Models for Statistical Machine Translation.
Procedures of the Joint Conference of Empirical Methods in Natural
Language Processing and Very Large Corpora [0003].
Claims (23)
1. Procedimiento implementado por ordenador para
generar un modelo de probabilidad conjunta basado en frases a
partir de un cuerpo paralelo que comprende una pluralidad de frases
en el idioma fuente y una pluralidad de frases correspondiente en
el idioma de destino;
comprendiendo el procedimiento:
a) definir a partir del cuerpo paralelo
n-gramas de alta frecuencia (\vec{e}_{i}) en E, y
(\vec{f}_{i}) en F, donde E y F comprenden frases en el idioma
fuente y de destino, respectivamente;
b) obtener una distribución de probabilidad
conjunta t inicial basada en la frase, mediante:
- i)
- tomar, para cada par de frases (E, F) en el cuerpo, tres productos cartesianos de n-gramas (\vec{e}_{i}) en E, y (\vec{f}_{i}) en F;
- ii)
- determinar, para cada par de n-gramas (e_{i}, f_{i}) en el producto cartesiano, un recuento t dado por la expresión:
- donde l y m son las longitudes de las frases E y F, respectivamente, a y b son las longitudes de los n-gramas (\vec{e}_{i}) y (\vec{f}_{i}), y S es el número de Stirling de segunda clase;
- iii)
- sumar las cuentas t y normalizar, y
c) realizar el entrenamiento de Expectativa
Máxima para una pluralidad de iteraciones para generar una
distribución de probabilidad conjunta t.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1, que
comprende repetir las etapas a) a c) con unigramas en lugar de
n-gramas.
3. Procedimiento según la reivindicación 1 ó 2,
que comprende generar un modelo de probabilidad condicional a
partir del modelo de probabilidad conjunta, donde el modelo de
probabilidad condicional puede ser utilizado posteriormente para la
decodificación.
4. Procedimiento según la reivindicación 1 ó 2,
que comprende además:
generar un diccionario de traducción
frase-a-frase del modelo de
probabilidad conjunta y el cuerpo paralelo.
5. Procedimiento según la reivindicación 4, en
el que se genera el diccionario de la traducción
frase-a-frase, mediante:
i) generar estocásticamente una bolsa de
conceptos C;
ii) generar y descubrir un único conjunto de
conceptos ocultos c_{i} \in C, en el que cada concepto
genera un par de frases 100 de acuerdo con la
distribución t100 , donde cada \vec{e}_{i} y
\vec{f}_{i} contiene al menos una palabra, y
iii) ordenar las frases generadas en cada idioma
con el fin de crear dos secuencias lineales de frases.
\vskip1.000000\baselineskip
6. Procedimiento según la reivindicación 4, en
el que el diccionario de traducción
frase-a-frase se genera
mediante:
(1) generar estocásticamente una bolsa de
conceptos C;
(2) inicializar E y F para vaciar las frases
\varepsilon;
(3) eliminar al azar un concepto c_{i}
\in C y la generación de un par de frases
100 de acuerdo con la distribución t
100 , donde cada \vec{e}_{i} y \vec{f}_{i}
contienen al menos una palabra;
(4) añadir la frase \vec{f}_{i} al final de
F;
(5) insertar de la frase \vec{e}_{i} en la
posición l en E a condición de que ninguna otra frase ocupa
ninguna de las posiciones entre l y l +
|\vec{e}_{i}|,
donde |\vec{e}_{i}| da la longitud de la
frase \vec{e}_{i}, y
repetir las etapas (3) a (5) hasta que C esté
vacío.
\vskip1.000000\baselineskip
7. Procedimiento según la reivindicación 1, que
comprende la generación de un diccionario de traducción
frase-a-frase a partir de un cuerpo
paralelo usando alineaciones
palabra-por-palabra en el cuerpo
paralelo y un modelo basado en la frase.
8. Procedimiento según la reivindicación 7, en
el que dicha generación comprende:
realizar una alineación
palabra-a-palabra en ambos lados del
cuerpo paralelo para producir una pluralidad de alineaciones de
palabra, y
recoger una pluralidad de pares de palabras
alineadas que están en consonancia con las alineaciones de palabras
en dicha pluralidad de alineaciones de palabras.
\vskip1.000000\baselineskip
9. Procedimiento según la reivindicación 8, que
comprende además:
estimar una distribución de probabilidad de
traducción de frases a partir de los pares de palabras recogidas
mediante frecuencias relativas.
\vskip1.000000\baselineskip
10. Procedimiento según la reivindicación 9, que
comprende además:
analizar ambos lados del cuerpo paralelo de
palabras-alineadas con un analizador sintáctico para
generar árboles sintácticos y
para cada par de palabras alineadas, comprobar
si las dos frases son subárboles en los árboles sintácticos
analizados.
\vskip1.000000\baselineskip
11. Procedimiento según la reivindicación 9, que
comprende además:
identificar un par de frases recogidas alineadas
que tiene una pluralidad de alineaciones; y
calcular un peso léxico para cada una de dichas
pluralidades de alineaciones.
\vskip1.000000\baselineskip
12. Procedimiento según la reivindicación 7, en
el que dicha generación comprende:
realizar operaciones de alineación bidireccional
palabra-a-palabra en el cuerpo
paralelo para generar dos juegos de alineaciones de palabras.
\vskip1.000000\baselineskip
13. Procedimiento según la reivindicación 12,
que comprende además:
identificar los puntos de la alineación en las
intersecciones entre los dos juegos de alineaciones de palabras.
\vskip1.000000\baselineskip
14. Procedimiento según la reivindicación 12,
que comprende además:
identificar los puntos de alineación en la unión
entre los dos juegos de alineaciones de palabras.
\vskip1.000000\baselineskip
15. Procedimiento según cualquiera de las
reivindicaciones 1 a 6, que comprende además: determinar una
traducción para una frase de entrada en el primer idioma mediante
una operación de decodificación voraz.
16. Procedimiento según la reivindicación 15,
que comprende además la determinación de la mejor frase de salida
en un segundo idioma para una frase de entrada en un primer idioma
mediante
segmentar la oración de entrada en una secuencia
de la frase;
traducir cada una de dichas frases en una frase
en el segundo idioma, y
reordenar las frases de salida.
\vskip1.000000\baselineskip
17. Procedimiento según la reivindicación 16, en
el que dicha reordenación comprende reordenar las frases de salida
utilizando una distribución de probabilidad de distorsión
relativa.
18. Procedimiento según cualquiera de las
reivindicaciones 1 a 6, que comprende además:
determinar una traducción para una frase de
entrada en el primer idioma utilizando un algoritmo de búsqueda en
haz.
\vskip1.000000\baselineskip
19. Procedimiento según la reivindicación 2 ó 3,
que comprende:
(1) recibir una cadena de entrada que incluye
una pluralidad de palabras en un primer idioma;
(2) crear una hipótesis inicial es un segundo
idioma, en la que la hipótesis inicial representa una traducción
parcial de la cadena de entrada en el segundo idioma que contiene
cero o más palabras;
(3) seleccionar una secuencia de dicha
pluralidad de palabras en la cadena de entrada:
(4) seleccionar una posible traducción de frase
en el segundo idioma mediante el modelo de probabilidad conjunta o
condicional para dicha secuencia seleccionada;
(5) adjuntar la posible traducción de la frase a
las actuales hipótesis para obtener una hipótesis actualizada;
(6) marcar las palabras en dicha secuencia
seleccionada según la traducción;
(7) guardar la secuencia de hipótesis en una
pila;
(8) actualizar un costo de probabilidad de la
hipótesis de actualización;
(9) repetir las etapas (3) a (8) sobre la base
de un tamaño de la pila para producir una o varias traducciones
posibles de la cadena de entrada, y
(10) seleccionar una de dichas traducciones
posibles de la pila con la más alta probabilidad.
\vskip1.000000\baselineskip
20. Procedimiento según la reivindicación 19, en
el que cada una de las posibles traducciones comprende una
hipótesis que deja palabras sin traducir no correspondientes en la
cadena de entrada.
21. Procedimiento según la reivindicación 19, en
el que dicha actualización del coste de probabilidad consiste en
realizar un coste actual para la hipótesis de actualización y
estimar un coste futuro para la hipótesis actualizada.
22. Procedimiento según la reivindicación 21,
que comprende además:
descartar una secuencia de salida actualizada si
dicha hipótesis actualizada tiene un costo mayor que las n
hipótesis mejores en la pila, donde n corresponde a un tamaño de haz
predeterminado.
\vskip1.000000\baselineskip
23. Procedimiento según cualquier reivindicación
anterior, en el que el entrenamiento EM es un entrenamiento EM
basado en Viterbi.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US36845002P | 2002-03-27 | 2002-03-27 | |
US368450P | 2002-03-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2343786T3 true ES2343786T3 (es) | 2010-08-10 |
Family
ID=28675493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03716920T Expired - Lifetime ES2343786T3 (es) | 2002-03-27 | 2003-03-27 | Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. |
Country Status (11)
Country | Link |
---|---|
US (1) | US7454326B2 (es) |
EP (1) | EP1488338B1 (es) |
JP (1) | JP2005521952A (es) |
CN (1) | CN1643512A (es) |
AT (1) | ATE465457T1 (es) |
AU (1) | AU2003220606A1 (es) |
CA (1) | CA2480398C (es) |
DE (1) | DE60332220D1 (es) |
ES (1) | ES2343786T3 (es) |
HK (1) | HK1072987A1 (es) |
WO (1) | WO2003083710A2 (es) |
Families Citing this family (176)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
WO2002097663A1 (en) * | 2001-05-31 | 2002-12-05 | University Of Southern California | Integer programming decoder for machine translation |
WO2003005166A2 (en) | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
US7620538B2 (en) * | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
WO2005089340A2 (en) * | 2004-03-15 | 2005-09-29 | University Of Southern California | Training tree transducers |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US7409332B2 (en) * | 2004-07-14 | 2008-08-05 | Microsoft Corporation | Method and apparatus for initializing iterative training of translation probabilities |
DE202005022113U1 (de) * | 2004-10-12 | 2014-02-05 | University Of Southern California | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
CA2612404C (en) * | 2005-06-17 | 2014-05-27 | National Research Council Of Canada | Means and method for adapted language translation |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US20070010989A1 (en) * | 2005-07-07 | 2007-01-11 | International Business Machines Corporation | Decoding procedure for statistical machine translation |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US9020804B2 (en) | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US7725306B2 (en) * | 2006-06-28 | 2010-05-25 | Microsoft Corporation | Efficient phrase pair extraction from bilingual word alignments |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
CA2661535A1 (en) * | 2006-08-18 | 2008-02-21 | National Research Council Of Canada | Means and method for training a statistical machine translation system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US20080120092A1 (en) * | 2006-11-20 | 2008-05-22 | Microsoft Corporation | Phrase pair extraction for statistical machine translation |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8788258B1 (en) | 2007-03-15 | 2014-07-22 | At&T Intellectual Property Ii, L.P. | Machine translation using global lexical selection and sentence reconstruction |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8185375B1 (en) * | 2007-03-26 | 2012-05-22 | Google Inc. | Word alignment with bridge languages |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
TWI386822B (zh) * | 2007-09-05 | 2013-02-21 | Shing Lung Chen | 建置多語翻譯資料庫內容之方法 |
CN100527125C (zh) * | 2007-05-29 | 2009-08-12 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法和系统 |
US9779079B2 (en) * | 2007-06-01 | 2017-10-03 | Xerox Corporation | Authoring system |
US7983898B2 (en) * | 2007-06-08 | 2011-07-19 | Microsoft Corporation | Generating a phrase translation model by iteratively estimating phrase translation probabilities |
US8825466B1 (en) * | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8180624B2 (en) * | 2007-09-05 | 2012-05-15 | Microsoft Corporation | Fast beam-search decoding for phrasal statistical machine translation |
US8046211B2 (en) | 2007-10-23 | 2011-10-25 | Microsoft Corporation | Technologies for statistical machine translation based on generated reordering knowledge |
US8060360B2 (en) * | 2007-10-30 | 2011-11-15 | Microsoft Corporation | Word-dependent transition models in HMM based word alignment for statistical machine translation |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8504354B2 (en) * | 2008-06-02 | 2013-08-06 | Microsoft Corporation | Parallel fragment extraction from noisy parallel corpora |
US8150677B2 (en) * | 2008-06-26 | 2012-04-03 | Microsoft Corporation | Machine translation using language order templates |
US20090326916A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US8407042B2 (en) | 2008-12-09 | 2013-03-26 | Xerox Corporation | Cross language tool for question answering |
US9569770B1 (en) | 2009-01-13 | 2017-02-14 | Amazon Technologies, Inc. | Generating constructed phrases |
US8706644B1 (en) | 2009-01-13 | 2014-04-22 | Amazon Technologies, Inc. | Mining phrases for association with a user |
US8423349B1 (en) | 2009-01-13 | 2013-04-16 | Amazon Technologies, Inc. | Filtering phrases for an identifier |
US8706643B1 (en) | 2009-01-13 | 2014-04-22 | Amazon Technologies, Inc. | Generating and suggesting phrases |
US8768852B2 (en) | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
US8280718B2 (en) * | 2009-03-16 | 2012-10-02 | Xerox Corporation | Method to preserve the place of parentheses and tags in statistical machine translation systems |
US8326599B2 (en) * | 2009-04-21 | 2012-12-04 | Xerox Corporation | Bi-phrase filtering for statistical machine translation |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US9298700B1 (en) | 2009-07-28 | 2016-03-29 | Amazon Technologies, Inc. | Determining similar phrases |
US10007712B1 (en) | 2009-08-20 | 2018-06-26 | Amazon Technologies, Inc. | Enforcing user-specified rules |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
JP5407737B2 (ja) * | 2009-10-16 | 2014-02-05 | 富士通セミコンダクター株式会社 | モデル生成プログラム、モデル生成装置、およびモデル生成方法 |
CN102803511A (zh) | 2009-11-23 | 2012-11-28 | 俄亥俄州立大学 | 用于影响肿瘤细胞生长、迁移和侵袭的材料和方法 |
US8229929B2 (en) | 2010-01-06 | 2012-07-24 | International Business Machines Corporation | Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains |
US8589396B2 (en) * | 2010-01-06 | 2013-11-19 | International Business Machines Corporation | Cross-guided data clustering based on alignment between data domains |
US8548796B2 (en) * | 2010-01-20 | 2013-10-01 | Xerox Corporation | Statistical machine translation system and method for translation of text into languages which produce closed compound words |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8799658B1 (en) | 2010-03-02 | 2014-08-05 | Amazon Technologies, Inc. | Sharing media items with pass phrases |
US10417646B2 (en) * | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9552355B2 (en) | 2010-05-20 | 2017-01-24 | Xerox Corporation | Dynamic bi-phrases for statistical machine translation |
US8612205B2 (en) | 2010-06-14 | 2013-12-17 | Xerox Corporation | Word alignment method and system for improved vocabulary coverage in statistical machine translation |
US20120035905A1 (en) | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
US8775155B2 (en) | 2010-10-25 | 2014-07-08 | Xerox Corporation | Machine translation using overlapping biphrase alignments and sampling |
KR101762866B1 (ko) * | 2010-11-05 | 2017-08-16 | 에스케이플래닛 주식회사 | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 |
US20120158398A1 (en) * | 2010-12-17 | 2012-06-21 | John Denero | Combining Model-Based Aligner Using Dual Decomposition |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US8612204B1 (en) * | 2011-03-30 | 2013-12-17 | Google Inc. | Techniques for reordering words of sentences for improved translation between languages |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8798984B2 (en) | 2011-04-27 | 2014-08-05 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
US20120303352A1 (en) * | 2011-05-24 | 2012-11-29 | The Boeing Company | Method and apparatus for assessing a translation |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8713037B2 (en) * | 2011-06-30 | 2014-04-29 | Xerox Corporation | Translation system adapted for query translation via a reranking framework |
US8781810B2 (en) | 2011-07-25 | 2014-07-15 | Xerox Corporation | System and method for productive generation of compound words in statistical machine translation |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8903707B2 (en) | 2012-01-12 | 2014-12-02 | International Business Machines Corporation | Predicting pronouns of dropped pronoun style languages for natural language translation |
AU2013209477B2 (en) | 2012-01-20 | 2016-12-08 | The Ohio State University | Breast cancer biomarker signatures for invasiveness and prognosis |
US9465797B2 (en) | 2012-02-23 | 2016-10-11 | Google Inc. | Translating text using a bridge language |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8543563B1 (en) | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US20130325436A1 (en) * | 2012-05-29 | 2013-12-05 | Wright State University | Large Scale Distributed Syntactic, Semantic and Lexical Language Models |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9026425B2 (en) | 2012-08-28 | 2015-05-05 | Xerox Corporation | Lexical and phrasal feature domain adaptation in statistical machine translation |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9235567B2 (en) | 2013-01-14 | 2016-01-12 | Xerox Corporation | Multi-domain machine translation model adaptation |
US9047274B2 (en) | 2013-01-21 | 2015-06-02 | Xerox Corporation | Machine translation-driven authoring system and method |
US9786269B2 (en) | 2013-03-14 | 2017-10-10 | Google Inc. | Language modeling of complete language sequences |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US10025778B2 (en) | 2013-06-09 | 2018-07-17 | Microsoft Technology Licensing, Llc | Training markov random field-based translation models using gradient ascent |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US9652453B2 (en) | 2014-04-14 | 2017-05-16 | Xerox Corporation | Estimation of parameters for machine translation without in-domain parallel data |
US9785630B2 (en) * | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9606988B2 (en) | 2014-11-04 | 2017-03-28 | Xerox Corporation | Predicting the quality of automatic translation of an entire document |
US9367541B1 (en) | 2015-01-20 | 2016-06-14 | Xerox Corporation | Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10025779B2 (en) | 2015-08-13 | 2018-07-17 | Xerox Corporation | System and method for predicting an optimal machine translation system for a user based on an updated user profile |
CN106484682B (zh) | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN106484681B (zh) | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
US9836453B2 (en) | 2015-08-27 | 2017-12-05 | Conduent Business Services, Llc | Document-specific gazetteers for named entity recognition |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
KR20190047685A (ko) * | 2016-09-09 | 2019-05-08 | 파나소닉 아이피 매니지먼트 가부시키가이샤 | 번역 장치 및 번역 방법 |
CN107818086B (zh) * | 2016-09-13 | 2021-08-10 | 株式会社东芝 | 机器翻译方法和装置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11308965B2 (en) * | 2017-10-09 | 2022-04-19 | Huawei Technologies Co., Ltd. | Voice information processing method and apparatus, and terminal |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10747962B1 (en) | 2018-03-12 | 2020-08-18 | Amazon Technologies, Inc. | Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation |
JP7247460B2 (ja) * | 2018-03-13 | 2023-03-29 | 富士通株式会社 | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
CN111626064B (zh) * | 2019-02-26 | 2024-04-30 | 株式会社理光 | 神经机器翻译模型的训练方法、装置及存储介质 |
CN116933802A (zh) * | 2023-09-15 | 2023-10-24 | 山东信息职业技术学院 | 基于人工智能的自动翻译管理方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
JPH11143877A (ja) * | 1997-10-22 | 1999-05-28 | Internatl Business Mach Corp <Ibm> | 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム |
-
2003
- 2003-03-27 CN CNA038070189A patent/CN1643512A/zh active Pending
- 2003-03-27 CA CA2480398A patent/CA2480398C/en not_active Expired - Lifetime
- 2003-03-27 WO PCT/US2003/009771 patent/WO2003083710A2/en active Application Filing
- 2003-03-27 US US10/402,350 patent/US7454326B2/en active Active
- 2003-03-27 AU AU2003220606A patent/AU2003220606A1/en not_active Abandoned
- 2003-03-27 DE DE60332220T patent/DE60332220D1/de not_active Expired - Lifetime
- 2003-03-27 AT AT03716920T patent/ATE465457T1/de not_active IP Right Cessation
- 2003-03-27 EP EP03716920A patent/EP1488338B1/en not_active Expired - Lifetime
- 2003-03-27 ES ES03716920T patent/ES2343786T3/es not_active Expired - Lifetime
- 2003-03-27 JP JP2003581064A patent/JP2005521952A/ja active Pending
-
2005
- 2005-05-24 HK HK05104337.9A patent/HK1072987A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
AU2003220606A1 (en) | 2003-10-13 |
AU2003220606A8 (en) | 2003-10-13 |
CA2480398A1 (en) | 2003-10-09 |
US7454326B2 (en) | 2008-11-18 |
US20040030551A1 (en) | 2004-02-12 |
HK1072987A1 (en) | 2005-09-16 |
WO2003083710A3 (en) | 2004-08-12 |
EP1488338B1 (en) | 2010-04-21 |
CN1643512A (zh) | 2005-07-20 |
CA2480398C (en) | 2011-06-14 |
DE60332220D1 (de) | 2010-06-02 |
ATE465457T1 (de) | 2010-05-15 |
JP2005521952A (ja) | 2005-07-21 |
WO2003083710A2 (en) | 2003-10-09 |
EP1488338A2 (en) | 2004-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2343786T3 (es) | Modelo de probabilidad de union basado en frases para traduccion automatica estadistica. | |
US7533013B2 (en) | Machine translation techniques | |
JP5774751B2 (ja) | ツリーレット翻訳対の抽出 | |
Xiong et al. | Maximum entropy based phrase reordering model for statistical machine translation | |
Wong et al. | Learning for semantic parsing with statistical machine translation | |
Ding et al. | Machine translation using probabilistic synchronous dependency insertion grammars | |
EP1657651A2 (en) | Extracting treelet translation pairs | |
Huang et al. | Binarization of synchronous context-free grammars | |
Huang et al. | Soft syntactic constraints for hierarchical phrase-based translation using latent syntactic distributions | |
Birch et al. | Constraining the phrase-based, joint probability statistical translation model | |
Quirk et al. | Do we need phrases? Challenging the conventional wisdom in statistical machine translation | |
Ding et al. | An algorithm for word-level alignment of parallel dependency trees | |
Nakazawa et al. | Bayesian subtree alignment model based on dependency trees | |
Wong | Learning for semantic parsing and natural language generation using statistical machine translation techniques | |
Huang | Forest-based algorithms in natural language processing | |
Sima'an et al. | Hierarchical translation equivalence over word alignments | |
Razmara | Application of tree transducers in statistical machine translation | |
Hassan | Lexical syntax for statistical machine translation | |
Kumar | Minimum bayes-risk techniques in automatic speech recognition and statistical machine translation | |
Li | Dependency graph-based statistical machine translation | |
Siahbani | Left-to-Right Hierarchical Phrase-based Machine Translation | |
Zhou | Statistical Machine Translation and Speech-to-Speech Translation | |
JP2004102946A (ja) | 統計的機械翻訳におけるデコーディング方法 | |
Watanabe | Foundations of Statistical Machine Translation: Past, Present and Future | |
Tiedemann | Word Alignment |