ES2604752T3 - Procedimiento de cálculo de correspondencias de traducción entre palabras de diferentes idiomas - Google Patents

Procedimiento de cálculo de correspondencias de traducción entre palabras de diferentes idiomas Download PDF

Info

Publication number
ES2604752T3
ES2604752T3 ES02013732.9T ES02013732T ES2604752T3 ES 2604752 T3 ES2604752 T3 ES 2604752T3 ES 02013732 T ES02013732 T ES 02013732T ES 2604752 T3 ES2604752 T3 ES 2604752T3
Authority
ES
Spain
Prior art keywords
words
word
association scores
conjectured
compounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02013732.9T
Other languages
English (en)
Inventor
Robert C. Moore
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Application granted granted Critical
Publication of ES2604752T3 publication Critical patent/ES2604752T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Un procedimiento implementado por ordenador para calcular correspondencias de traducción entre palabras, que comprende: calcular puntuaciones de asociación de palabras para cada pareja de palabras basándose en apariciones conjuntas de palabras en cada uno de una pluralidad de conjuntos de unidades bilingües alineadas en un corpus; identificar compuestos conjeturados en las unidades basándose en las puntuaciones de asociación de palabras; y obtener correspondencias de traducción basadas en las puntuaciones de asociación de palabras recalculadas.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Procedimiento de calculo de correspondencias de traduccion entre palabras de diferentes idiomas Antecedentes de la invencion
La presente invencion se refiere a aprender relaciones entre palabras. Mas espedficamente, la presente invencion se refiere a un enfoque estadfstico para aprender correspondencias de traduccion entre palabras en diferentes idiomas.
Los sistemas de traduccion a maquina son sistemas que reciben una entrada textual en un idioma, la traducen a un segundo idioma y proporcionan una salida textual en un segundo idioma. Al hacer esto, tales sistemas usan normalmente un lexicon de traduccion para obtener correspondencias o correspondencias de traduccion, entre palabras de contenido que se obtienen durante la preparacion.
Un enfoque comun para derivar lexicones de traduccion a partir de datos empmcos implica elegir una medida de un grado de asociacion entre palabras en un primer idioma, L1, y palabras en un segundo idioma, L2, en oraciones alineadas en un corpus bilingue paralelo. Las parejas de palabras (que consisten en una palabra de L1 y una palabra de L2) se ordenan entonces por rango de acuerdo con la medida de asociacion elegida. Se elige un umbral y el lexicon de traduccion se forma en todas las parejas de palabras cuyo grado de asociacion esta por encima del umbral.
Por ejemplo, en un enfoque de la tecnica anterior, la metrica de similitud (la medida del grado de asociacion entre palabras) se basa en la frecuencia en que aparecen las palabras a la vez en regiones correspondientes (por ejemplo, oraciones) de un corpus de texto paralelo alineado. Las puntuaciones de seleccion para las diferentes parejas de palabras se computan y esas parejas de palabras se clasifican en orden descendente de su puntuacion de asociacion. De nuevo, se elige un umbral y las parejas de palabras cuya puntuacion de asociacion sobrepasa el umbral se convierten en entradas en el lexicon de la traduccion.
Este tipo de procedimiento, sin embargo, tiene desventajas. El problema es que las puntuaciones de asociacion se computa normalmente independientemente entre sf. Por ejemplo, se asumen que las palabras en el idioma L1 se representan por el sfmbolo Vk, donde k es un numero entero que representa diferentes palabras en L1; y las palabras en el idioma L2 se representan por Wk, donde k es un numero entero que representa diferentes palabras en L2. De esta manera, las secuencias de las V y W representan dos segmentos de texto alineados. Si Wk y Vk ocurren en contextos bilingues similares (por ejemplo, en las oraciones alineadas), entonces cualquier metrica de similitud razonable producira una alta puntuacion de asociacion entre ellas, reflejando la interdependencia de sus distribuciones.
Sin embargo, se asume que Vk y Vk+ 1 tambien aparecen en contextos similares (por ejemplo, en la misma oracion). En este caso, tambien existe una fuerte interdependencia entre las distribuciones de Vk y Vk + 1. De esta manera, surge el problema de que si Wk y Vk aparecen en contextos similares, y Vk y Vk + 1 aparecen en contextos similares, entonces Wk y Vk + 1 tambien aparecen en contextos similares. Esto se conoce como una asociacion indirecta porque surge solo gracias a las asociaciones entre Wk y Vk y entre Vk + 1 y Vk. Los procedimientos anteriores que computan puntuaciones de asociacion independientemente entre sf no pueden distinguir entre una asociacion directa (por ejemplo, entre Vk y Wk) y una asociacion indirecta (por ejemplo, entre Wk y Vk + 1). De manera no sorprendente, esto produce lexicones de traduccion repletos de asociaciones indirectas, que probablemente tambien son incorrectas.
Como un ejemplo concreto de una asociacion indirecta, se considera el corpus paralelo de frances-ingles, que consiste principalmente en manuales de software informatico traducidos. En este corpus, los terminos ingleses "file system" y "system files" ocurren muy a menudo. De manera similar, los terminos franceses correspondientes "systeme de fichiers" y "fichiers systeme" tambien aparecen juntos muy a menudo. Ya que estas colocaciones monolingues son comunes, los pares de traduccion espurios fichier/system y systeme/file tambien reciben altas puntuaciones de asociacion. Estas puntuaciones pueden ser mayores, de hecho, que las puntuaciones para muchos autenticos pares de traduccion.
Esta deficiencia se ha abordado mediante algunas tecnicas anteriores. Por ejemplo, Melamed, Automatic Construction of Clean Broad-Coverage Translation Lexicons, Segunda Conferencia de la Asociacion para Traduccion a Maquina en America (AMTA 1996), Montreal, Canada, se dirige a este problema.
Melamed aborda este problema ignorando las parejas de palabras altamente asociadas como traducciones si se derivan de oraciones alineadas en las que existen parejas asociadas incluso mas altamente que implican una o mas de las mismas palabras. En otras palabras, se asume que las asociaciones mas fuertes tambien son mas fiables y de esta manera las asociaciones directas son mas fuertes que las asociaciones indirectas. Por tanto, si un segmento (u oracion) que contiene V se alinea con un segmento (u oracion) que contiene tanto W como W', las entradas (V, W) y (V, W') no debenan aparecer en el lexicon de traduccion. Si lo hacen, entonces al menos una es probablemente incorrecta. Ya que se asume que existe la tendencia de que las asociaciones directas son mas fuertes que las asociaciones indirectas, entonces la entrada con la puntuacion de relacion mas alta es la que se elige como la asociacion correcta.
5
10
15
20
25
30
35
40
45
50
55
En el anterior ejemplo analizado, en las oraciones en ingles y frances paralelas que contienen "fichief y "systeme" en el lado frances y "file" y "system" en el lado ingles, las asociaciones de fichier/system y systeme/file se descontaran, porque el grado de asociacion para "fichier/file" y "systeme/system" sera probablemente mucho mayor en las mismas oraciones alineadas.
Aunque este enfoque parece extender una alta precision de salida a niveles de cobertura mucho mayores de lo que se informo anteriormente, tambien tiene desventajas. Por ejemplo, es muy complejo y diffcil de implementar, y se cree que lleva bastante tiempo de ejecutar.
Otra dificultad encontrada en el aprendizaje de correspondencias de traduccion entre las palabras implica compuestos (o secuencias de multiples palabras que se unen para formar compuestos). Tales compuestos pueden traducirse en una unica palabra en otro idioma, o multiples palabras en el otro idioma. Las tecnicas anteriores asumfan que las correspondencias de traduccion lexicas implicaban una unica palabra. Por supuesto, tal como se muestra en la siguiente lista de compuestos, esto es manifiestamente incierto:
Base_de_donnees/database
Mot_de_passe/password
Sauvegarder/back_up
Annuler/roll_back
Ouvrir_session/log_on
En los primeros cuatro pares antes mencionados, un compuesto en un idioma se traduce como una unica palabra en otro idioma. Sin embargo, en el ultimo ejemplo, un compuesto en un idioma se traduce como un compuesto en el otro idioma, y cada uno de los componentes individuales del compuesto no puede traducirse de manera significativa en uno de los componentes individuales en el otro compuesto. Por ejemplo, "ouvrit', que se traduce tfpicamente como "open", no puede traducirse razonablemente ni como "log" ni como “on". De manera similar, "session" que se traduce normalmente como "session" tampoco puede traducirse razonablemente ni como "log" ni como "on".
Un intento anterior para abordar este problema tambien se analizo por Melamed, Automatic Discovery of NonCompositional Compounds in Parallel Data, Conferencia de Procedimientos Empmcos en el Procesamiento de Idioma Natural (EMNLP 97) Providence, Rhode Island (1997). Melamed induce dos modelos de traduccion, un modelo de traduccion de prueba que implica un compuesto candidato y un modelo de traduccion de base que no lo hace. Si el valor de la funcion objetiva de Melamed es mayor en el modelo de prueba que en el modelo de base, entonces el compuesto se considera valido. De lo contrario, el compuesto candidato se considera invalido. Sin embargo, el procedimiento que usa Melamed para seleccionar compuestos potenciales es bastante complejo y computacionalmente caro, ya que es su procedimiento de verificacion por construccion de un modelo de traduccion de prueba.
Sumario de la invencion
Un corpus de preparacion bilingue paralelo se analiza sintacticamente en sus palabras de contenido. Las puntuaciones de asociacion de palabras para cada pareja de palabras de contenido consisten en una palabra de un idioma L1 que ocurre en una oracion alineada en el corpus bilingue con una oracion en el idioma L2 en el que ocurre la otra palabra. Una pareja de palabras se considera "vinculada" en una pareja de oraciones alineadas si una de las palabras es la que tiene la asociacion mas alta, de todas las palabras en esa oracion, con la otra palabra. La aparicion de compuestos se conjetura en los datos de preparacion mediante identificacion maxima, con conjuntos conectados de palabras vinculadas a cada pareja de oraciones alineadas en los datos de preparacion puntuados y procesados. Siempre que uno de estos conjuntos conectados maximos contenga mas de una palabra en uno o ambas idiomas, el subconjunto de las palabras en ese idioma se conjetura como un compuesto. El texto de entrada original se reescribe, sustituyendo los compuestos conjeturados por sfmbolos unicos fusionados. Las puntuaciones de asociacion vuelven a computarse para los compuestos (que se han sustituido por sfmbolos fusionados) y cualquier palabra individual restante en el texto de entrada. Las puntuaciones de asociacion vuelven a computarse de nuevo, excepto que esta vez, las apariciones simultaneas se tienen en cuenta al computar las puntuaciones de asociacion solo donde no existe otra asociacion igualmente fuerte o mas fuerte en una pareja particular de oraciones alineadas en el corpus de preparacion.
Las parejas de traduccion pueden identificarse como aquellas parejas de palabras o parejas de sfmbolos que tienen puntuaciones de asociacion por encima de un umbral, despues de la computacion final de puntuaciones de asociacion.
Por supuesto, la presente invencion tambien puede incorporarse simplemente como un procedimiento o sistema para conjeturar apariciones de compuestos en datos de preparacion que comprende un corpus bilingue alineado.
De manera similar, la descripcion incluye un procedimiento de identificacion de traducciones de "captoides", mediante lo que se hace referencia a tttulos, u otras oraciones especiales, cuyas palabras estan en mayusculas. (Encontrar traducciones de captoides presenta un problema especial en idiomas como el frances o espanol, en los que la convencion dicta que solo la primera palabra de tal artfculo se pone en mayusculas, por lo que la extension de la traduccion captoide es diffcil de determinar). En ese ejemplo, los compuestos se identifican primero en un idioma
5
10
15
20
25
30
35
40
45
50
55
60
fuente (tal como ingles). Esto puede realizarse encontrando series de texto donde la primera palabra comienza con una mayuscula, y los ultimos s^bolos en la serie contigua no comienzan con una letra minuscula. A continuacion, se conjeturan los compuestos en el texto meta encontrando palabras que comienzan con una mayuscula y marcando esto como el posible inicio en el compuesto correspondiente. El texto meta se escanea entonces de izquierda a derecha marcando palabras posteriores que son las que estan mas fuertemente relacionadas con palabras en el compuesto identificado en el texto fuente, permitiendo a la vez hasta un numero predeterminado (por ejemplo, 2) de palabras contiguas no altamente relacionadas, siempre que vayan seguidas de una palabra mas altamente relacionada.
El escaneo de izquierda a derecha puede continuar hasta que se encuentren mas del numero predeterminado (por ejemplo, mas de 2) de palabras contiguas que no estan mas altamente relacionadas con palabras en el compuesto identificado en el texto fuente, o hasta que no haya mas palabras mas altamente relacionadas presentes en el texto meta, o hasta que la puntuacion se alcance.
Breve descripcion de los dibujos
La Figura 1 es un diagrama de bloques de un contexto general en el que la presente invencion puede usarse.
La Figura 2 es un diagrama de bloques mas detallado de una arquitectura de traduccion a maquina general en la que la presente invencion puede usarse.
La Figura 3 es un diagrama de flujo que ilustra una realizacion de derivar correspondencias de traduccion entre palabras en un corpus bilingue alineado.
Las Figuras. 4A-5 ilustran diferentes relaciones de asociacion de palabras estadfsticas entre palabras en dos idiomas diferentes.
La Figura 6 es un diagrama de flujo que ilustra una realizacion de identificacion de compuestos conjeturados.
La Figura 7 ilustra la identificacion de conjuntos conectados y maximos de palabras en parejas de oraciones alineadas en los datos de preparacion.
La Figura 8 ilustra compuestos de conjetura a partir de los conjuntos conectados maximos identificados en la Figura 7.
La Figura 9 ilustra una serie de entrada reescrita usando unicos sfmbolos para representar compuestos conjeturados.
La Figura 10 es un diagrama de flujo que ilustra la identificacion de traducciones de captoides.
La Figura 11 es un diagrama de flujo que ilustra como se conjeturan los compuestos correspondientes a captoides identificados.
Descripcion detallada de realizaciones ilustrativas
El analisis de la Figura 1 a continuacion es simplemente para exponer solo un entorno ilustrativo en el que la presente invencion puede usarse, aunque puede usarse tambien en otros entornos.
La Figura 1 es un diagrama de bloques de un ordenador 20 de acuerdo con una realizacion ilustrativa de la presente invencion. La Figura 1 y el analisis relacionado van destinados a proporcionar una breve descripcion general de un entorno de computacion adecuado en el que la invencion puede implementarse. Aunque no es necesario, la invencion se describira, al menos en parte, en el contexto general de instrucciones ejecutables por ordenador, tal como modulos informaticos, que se ejecutan mediante un ordenador personal. Generalmente, los modulos de programa incluyen programas de rutina, objetos, componentes, estructuras de datos, etc., que realizan tareas particulares o implementan tipos de datos abstractos particulares. Ademas, los expertos en la materia apreciaran que la invencion puede practicarse con otras configuraciones de sistema informatico, incluyendo dispositivos manuales, sistemas de multiprocesador, sistemas electronicos de consumidor programables o basados en microprocesador, redes PC, miniordenadores, ordenadores centrales y similares. La invencion tambien puede practicarse en entornos de computacion distribuidos donde las tareas se realizan mediante dispositivos de procesamiento remoto que se vinculan a traves de una red de comunicaciones. En un entorno de computacion distribuido, los modulos de programa pueden ubicarse en dispositivos de almacenamiento de memoria tanto locales como remotos.
En la Figura 1, un sistema ejemplar para implementar la invencion incluye un dispositivo de computacion de fin general en la forma de un ordenador 20 personal convencional, que incluye una unidad 21 de procesamiento, una memoria 22 de sistema y un bus 23 de sistema que acopla diversos componentes de sistema incluyendo la memoria del sistema con la unidad 21 de procesamiento. El bus 23 de sistema puede ser cualquiera de diversos tipos de estructura de bus que incluye un bus de memoria o un controlador de memoria, un bus periferico y un bus local usando cualquiera de una variedad de arquitecturas de bus. La memoria del sistema incluye memoria 24 de solo lectura (ROM) y memoria 25 de acceso aleatorio (RAM). Una entrada/salida 26 basica (BIOS), que contiene la rutina basica que ayuda a transferir informacion entre elementos dentro del ordenador 20 personal, tal como durante el inicio, se almacena en la ROM 24. El ordenador 20 personal incluye ademas una unidad 27 de disco duro desde la que leer y escribir en un disco duro (no se muestra), una unidad 28 de disco magnetico desde la que leer o escribir en el disco 29 magnetico desmontable y una unidad 30 de disco optico desde la que leer o escribir en un disco 31 optico desmontable tal como un CD ROM u otros medios opticos. La unidad 27 de disco duro, la unidad 28 de disco magnetico y la unidad 30 de disco optico se conectan al bus 23 de sistema mediante una interfaz 32 de unidad de
5
10
15
20
25
30
35
40
45
50
55
disco duro, una interfaz 33 de unidad de disco magnetico y una interfaz 34 de unidad optica, respectivamente. Las unidades y los medios legibles por ordenador asociados proporcionan un almacenamiento no volatil de instrucciones legibles por ordenador, estructuras de datos, modulos de programa y otros datos para el ordenador 20 personal.
Aunque el entorno ejemplar descrito en el presente documento emplea un disco duro, un disco 29 magnetico desmontable y un disco 31 optico desmontable, debena apreciarse por parte de los expertos en la materia que otros tipos de medios legibles por ordenador que pueden almacenar datos que son accesibles mediante un ordenador, tal como casetes magneticos, tarjetas de memoria flash, discos de video digital, cartuchos Bernoulli, memorias de acceso aleatorio (RAM), memorias de solo lectura (ROM), y similares, tambien pueden usarse en el entorno operativo ejemplar.
Un numero de modulos de programa pueden almacenarse en el disco duro, disco 29 magnetico, disco 31 optico, ROM 24 o RAM 25, incluyendo un sistema 35 operativo, uno o mas programas 36 de aplicacion, otros modulos 37 de programa y datos 38 de programa. Un usuario puede introducir ordenes e informacion en el ordenador 20 personal a traves de dispositivos de entrada, tal como un teclado 40 y un dispositivo 42 de apuntado. Otros dispositivos de entrada (no se muestran) pueden incluir un microfono, palanca de control, mando de juegos, antena parabolica, escaner, o similar. Estos y otros dispositivos de entrada se conectan a menudo a la unidad 21 de procesamiento a traves de una interfaz 45 de puerto en serie que se acopla al bus 23 de sistema, pero que puede conectarse mediante otras interfaces, tal como una tarjeta de sonido, un puerto paralelo, un puerto de juegos o un bus en serie universal (USB). Un monitor 47 u otro tipo de dispositivo de visualizacion tambien se conecta al bus 23 de sistema mediante una interfaz, tal como un adaptador 48 de video. Ademas del monitor 47, los ordenadores personales pueden incluir normalmente otros dispositivos de salida perifericos tales como un altavoz e impresoras (no se muestra).
El ordenador 20 personal puede funcionar en un entorno de red usando conexiones de logica a uno o mas ordenadores remotos, tales como un ordenador 49 remoto. El ordenador 49 remoto puede ser otro ordenador personal, un servidor, un router, una red PC, un dispositivo por pares u otro nodulo de red, que incluye normalmente cualquiera o todos los elementos descritos en relacion con el ordenador 20 personal , aunque solo un dispositivo 50 de almacenamiento de memoria se ha ilustrado en la Figura 1. Las conexiones logicas representadas en la Figura 1 incluyen una red 51 de area local (LAN) y una red 52 de area amplia (WAN). Tales entornos de red son lugares comunes en oficinas, intranets de red informatica en todas las empresas y en Internet.
Cuando se utiliza en un entorno de red LAN, el ordenador 20 personal se conecta a la red 51 de area local a traves de una interfaz o adaptador 53 de red. Cuando se usa un entorno de red WAN, el ordenador 20 personal incluye normalmente un modem 54 u otro medio para establecer comunicaciones sobre una red 52 de area amplia, tal como Internet. El modem 54, que puede ser interno o externo, se conecta al bus 23 de sistema por medio de una interfaz 46 de puerto en serie. En un entorno de red, los modulos de programa representados en relacion con el ordenador 20 personal, o porciones del mismo, pueden almacenarse en los dispositivos de almacenamiento de memoria remotos. Se apreciara que las conexiones de red mostradas son ejemplares y pueden usarse otros medios de establecer un enlace de comunicaciones entre los ordenadores.
La presente invencion puede utilizarse para derivar correspondencias de traduccion entre palabras sustancialmente en cualquier entorno o contexto. La arquitectura de traduccion a maquina que se va a describir solo es un entorno o contexto.
Aunque las formas logicas no se necesitan para la presente invencion, se analizan en relacion con la arquitectura de traduccion a maquina mostrada en la Figura 2. Por tanto, antes de realizar esa arquitectura en mas detalle, un breve analisis de una forma logica sera util. Un analisis completo y detallado de formas logicas y sistemas y procedimientos para generarlas puede hallarse en la Patente de EE.UU. N.° 5.966.686 de Heidorn y col., presentada el 12 de octubre de 1999 y titulada METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES. En resumen, sin embargo, las formas logicas se generan realizando un analisis morfologico de una entrada de texto para producir analisis estructurales de frase convencional aumentados con relaciones gramaticales. Los analisis sintacticos sufren un procesamiento adicional para derivar formas logicas que son estructuras de grafico que describen dependencias etiquetadas entre palabras de contenido en la entrada textual. Las formas logicas normalizan ciertas alternancias sintacticas, (por ejemplo, activa/pasiva) y resuelven tanto anaforas dentro de la oracion como dependencias de larga distancia.
Espedficamente, una relacion logica consiste en dos palabras unidas mediante un tipo de relacion direccional (por ejemplo, Parte, Tiempo, Hiperonimo, Sujeto Logico, Causa, Dominio, Ubicacion, Manera, Material, Medio, Modificador, Poseedor, Fin, Cuasihiperonimo, Sinonimo, Objeto Logico y Usuario). Una forma logica es un grafico de relaciones logicas conectadas que representan una unica entrada textual, tal como una oracion. Esto consiste mmimamente en una relacion logica. La forma logica representa relaciones estructurales (por ejemplo, relaciones sintacticas y semanticas), particularmente relaciones adjuntas y/o de argumentos entre palabras importantes en una serie de entrada.
En una realizacion ilustrativa de la arquitectura de traduccion a maquina, el codigo particular que construye las formas logicas a partir de analisis sintacticos se comparte por los diversos idiomas fuente y meta en los que opera el
5
10
15
20
25
30
35
40
45
50
55
sistema de traduccion a maquina. La arquitectura compartida simplifica en gran medida la tarea de alinear los segmentos de forma logica a partir de diferentes idiomas ya que unas construcciones superficialmente distintas en dos idiomas se colapsan frecuentemente en representaciones de forma logica identicas o similares.
La Figura 2 es un diagrama de bloques de una arquitectura de un sistema 200 de traduccion a maquina que define una realizacion de un entorno para la presente invencion. El sistema 200 incluye componentes 204 y 206 de analisis sintactico, un componente 208 de aprendizaje de asociacion de palabras estadfstico (donde reside el volumen de la presente invencion, en este entorno), un componente 210 de alineacion de forma logica, un componente 212 de construccion de base de conocimiento lexico, un diccionario 214 bilingue, un componente 216 de fusion de diccionarios, una base 218 de datos de mapeo de transferencia y un diccionario 220 bilingue actualizado. Durante el tiempo de ejecucion, el sistema utiliza un componente 222 de analisis, un componente 224 de coincidencia, un componente 226 de transferencia y un componente 228 de generacion.
En una realizacion ilustrativa, un corpus bilingue se usa para preparar el sistema. El corpus bilingue incluye oraciones traducidas alineadas (por ejemplo, oraciones en un idioma fuente o meta, tal como ingles, alineadas con sus traducciones en el otro idioma fuente o meta, tal como espanol o frances, etc.). Durante la preparacion, las oraciones se suministran desde el corpus bilingue alineado al sistema 200 como oraciones 230 fuente (las oraciones a traducir) y como oraciones 232 meta (la traduccion de las oraciones fuente). Los componentes 204 y 206 de analisis sintactico analizan las oraciones sintacticamente desde el corpus bilingue alineado para producir formas 234 logicas fuente y formas 236 logicas meta. Durante el analisis sintactico, las palabras en las oraciones se convierten a formas de palabras normalizadas (lemas). El termino "lema" tal como se usa en el presente documento se refiere a una palabra troncal o rafz para una palabra de contenido. Por ejemplo, "dormir" es el lema para las formas superficiales "dormir", "durmiendo" y "dormido". Tambien debena apreciarse, sin embargo, que aunque una realizacion de la presente invencion se aplica a lemas de palabra de contenido, en otra realizacion, la invencion puede aplicarse a formas de superficie en su lugar, pero los resultados pueden sufrir de alguna manera. En cualquier caso, los lemas se suministran despues a un componente 208 de aprendizaje de asociacion de palabras estadfstico. Tanto las asociaciones de palabras unicas como las de multiples palabras se conjeturan de manera iterativa y puntuan mediante el componente 208 de aprendizaje hasta que se obtiene un conjunto fiable de cada una. El componente 208 de aprendizaje de asociacion de palabras estadfstico envfa las parejas 238 de traduccion de palabras unicas aprendidas asf como las parejas 240 de multiples palabras.
Las parejas 240 de multiples palabras se proporcionan a un componente 216 de fusion de diccionarios que se usa para anadir entradas adicionales al diccionario 214 bilingue para formar el diccionario 220 bilingue actualizado. Las nuevas entradas son representativas de las parejas 240 de multiples palabras.
Las parejas 238 de palabras unicas, junto con la formas 234 logicas fuente y las formas 236 logicas meta, se proporcionan al componente 210 de alineacion de forma logica. El componente 210 primero establece correspondencias lexicas provisionales entre nodulos en las formas 230 y 236 logicas fuente y meta respectivamente. Esto se realiza usando parejas de traduccion a partir de un lexicon 214 bilingue (o diccionario bilingue) que se aumentan con las parejas 238 de traduccion de palabras unicas a partir del componente 208 de aprendizaje de asociacion de palabras estadfstico. Despues de establecer posibles correspondencias, el componente 210 de alineacion alinea los nodulos de forma logica de acuerdo tanto con caractensticas lexicas como estructurales y crea los mapeos 242 de transferencia de forma logica.
Basicamente, el componente 210 de alineacion extrae enlaces entre formas logicas usando la informacion 214 de diccionario bilingue y las parejas 238 de palabras unicas. Los mapeos de transferencia se filtran basandose en la frecuencia con la que se encuentran en las formas 234 y 236 logicas fuente y meta y se proporcionan a un componente 212 de construccion de base de conocimiento lexico.
En un ejemplo, si el mapeo de transferencia no se ve al menos dos veces en los datos de preparacion, no se usa para construir la base 218 de datos de mapeo de transferencia, aunque cualquier otra frecuencia deseada puede usarse como un filtro tambien. Debena apreciarse que otras tecnicas de filtrado pueden usarse tambien, diferentes de la frecuencia de aparicion. Por ejemplo, los mapeos de transferencia pueden filtrarse basandose en si se forman a partir de analisis sintacticos completos de las oraciones de entrada y basandose en si las formas logicas usadas para crear los mapeos de transferencia se alinean completamente.
El componente 212 construye la base 218 de datos de mapeo de transferencia que contiene mapeos de transferencia que enlazan basicamente formas logicas, o partes de las mismas, en un idioma, con formas logicas, o partes de las mismas, en el segundo idioma. Con la base 218 de datos de mapeo de transferencia creada de esta manera, el sistema 200 se configura ahora para traducciones de tiempo de ejecucion.
Durante el tiempo de ejecucion, una oracion 250 fuente, a traducir, se proporciona al componente 222 de analisis. El componente 222 de analisis recibe la oracion 250 fuente y crea una forma 252 logica fuente basandose en la entrada de oracion fuente.
Un ejemplo puede ser util. En el presente ejemplo, la oracion 250 fuente es una oracion en espanol "Haga clic en el boton de opcion" que se traduce a ingles como "Click the option button" o, literalmente, "Make click in the button of
5
10
15
20
25
30
35
40
45
50
55
option".
La forma 252 logica fuente se proporciona a un componente 224 de coincidencia. El componente 224 de coincidencia intenta hacer coincidir la forma 252 logica fuente con las formas logicas en la base 218 de datos de mapeo de transferencia para obtener una forma 254 logica enlazada. Los multiples mapeos de transferencia pueden hacer coincidir porciones de la forma 252 logica fuente. El componente 224 de coincidencia busca el mejor conjunto de mapeos de transferencia de coincidencia en la base 218 de datos que tiene lemas de coincidencia, partes de dialogo y otra informacion caractenstica. Los mapeos de transferencia mas grandes (mas espedficos) pueden preferirse ilustrativamente a los mapeos de transferencia mas pequenos (mas generales). Entre los mapeos de igual tamano, el componente 224 de coincidencia puede preferir ilustrativamente los mapeos de mayor frecuencia. Los mapeos tambien pueden hacer coincidir porciones de superposicion de la forma 252 logica fuente siempre que no esten en conflicto de ninguna manera.
Despues de que se encuentre un conjunto optimo de mapeo de transferencia de coincidencia, el componente 224 de coincidencia crea enlaces o nodulos en la forma 252 logica fuente para copias de los segmentos de forma logica meta correspondientes recibidos por los mapeos de transferencia, para generar la forma 254 logica enlazada.
El componente 226 de transferencia recibe la forma 254 logica enlazada desde el componente 224 de coincidencia y crea una forma 256 logica meta que formara la base de la traduccion meta. Esto se hace realizando un recorrido de arriba a abajo de la forma 254 logica enlazada en la que se combinan los segmentos de forma logica meta a los que apuntan los enlaces en los nodulos de la forma 252 logica fuente. Al combinar entre sf los segmentos de forma logica para mapeos de multiples palabras posiblemente complejos, los subenlaces establecidos por el componente 224 de coincidencia entre nodulos individuales se usan para determinar puntos de union correctos para modificadores, etc. Los puntos de union por defecto se usan en caso necesario.
En casos donde no se encuentran mapeos de transferencia aplicables, los nodulos en la forma 252 logica fuente y sus relaciones se copian simplemente en la forma 256 logica meta. Las traducciones por defecto de palabras unicas todavfa pueden encontrarse en la base 218 de datos de mapeo de transferencia para estos nodulos e insertarlas en la forma 256 logica meta. Sin embargo, si no se encuentra ninguna, las traducciones pueden obtenerse ilustrativamente desde el diccionario 220 bilingue actualizado que se uso durante la alineacion.
El componente 228 de generacion es ilustrativamente un componente de generacion basado en reglas e independiente de la aplicacion que mapea a partir de la forma 256 logica meta a la serie 258 meta (u oracion meta de salida). El componente 228 de generacion puede no tener ilustrativamente ninguna informacion referente al idioma fuente de las formas logicas de entrada, y trabaja exclusivamente con informacion recibida desde el componente 226 de transferencia. El componente 228 de generacion tambien usa ilustrativamente esta informacion junto con un diccionario monolingue (por ejemplo, para el idioma meta) para producir la oracion 258 meta. Un componente 228 de generacion generico es de esta manera suficiente para cada idioma.
Con el anterior contexto en mente, el presente analisis continua ahora mas espedficamente con respecto al componente 208 de aprendizaje de asociacion de palabras estadfstico. Debena apreciarse de nuevo que, aunque el presente contexto ilustra el componente 208 que funciona en formas logicas y en una arquitectura de traduccion a maquina, ese no tiene que ser necesariamente el caso. En su lugar, el componente 208 puede operar simplemente en corpus alineados que se han dividido en sfmbolos (o dividido en palabras individuales). El componente 208 tambien puede usarse para realizar otras tareas, diferentes de hacer funcionar un traductor a maquina. Por ejemplo, el componente 208 tambien puede usarse al formar un diccionario, o puede simplemente usarse para generar puntuaciones de asociacion de palabras o relaciones entre palabras en diferentes idiomas, y no necesita funcionar en el contexto de un traductor a maquina. El anterior analisis se proporciona a modo de ejemplo unicamente.
La Figura 3 es un diagrama de flujo que ilustra un procedimiento por el que el componente 208 deriva parejas de traduccion (o correspondencias de traduccion entre parejas de palabras en diferentes idiomas). En primer lugar, el componente 208 obtiene acceso a un corpus bilingue alineado. Esto se indica mediante el bloque 300. El corpus sufre un analisis sintactico en sus palabras componentes (por ejemplo, lemas antes analizados, pero tambien podna mantenerse en forma de superficie). Esto se indica mediante el bloque 302. Por supuesto, en el contexto antes ilustrado, el corpus alineado sufre un analisis sintactico mediante los componentes 204 y 206 de analisis sintactico en formas 234 y 236 logicas fuente y meta. Sin embargo, la presente invencion no se confina a operar en entradas textuales que sufren analisis sintacticos en formas logicas, sino que en su lugar simplemente necesita que los corpus alineados sufran un analisis sintactico en sus palabras de contenido. Ademas, el analizador sintactico tambien puede identificar determinados compuestos lexicos si son unidades unicas. Si tales expresiones de multiples palabras se colocan en el lexicon, porque tienen un significado o uso espedfico, o porque estan en uno de un numero categonas generales tales como nombres propios, nombres de lugares, expresiones de tiempo, fechas, expresiones de medicion, etc., se identifican como multiples palabras.
El componente 208 a continuacion computa las puntuaciones de asociacion de palabras para parejas de palabras individuales en el corpus bilingue alineado y analizado sintacticamente. Esto se indica mediante el bloque 304. Aunque puede usarse cualquier metrica de asociacion de palabras que proporcione una puntuacion indicativa de una asociacion de palabras estadfstica entre parejas de palabras en el corpus de preparacion, la presente invencion
5
10
15
20
25
30
35
40
45
50
55
60
usa la estadfstica de relacion de probabilidad de registro analizada por Dunning en Dunning, Accurate Methods for the Statistics of Surprise and Coincidence, Computational Linguistics, 19(1):61-74(1993). Esta estadfstica se usa para comparar la frecuencia general de una palabra o lema en el idioma 1 (WL1) en los datos de preparacion con la frecuencia de una palabra o lema en el idioma 1 (WLi) dada una palabra o lema en el idioma 2 (WL2) (es decir, la frecuencia con la que WLi ocurre en oraciones de Li que se alinean con oraciones de L2 en las que ocurre WL2). Al aplicar la estadfstica de relacion de probabilidad de registro se proporciona por tanto una medicion de la probabilidad de que una asociacion positiva observada entre WLi y WL2 no sea accidental.
La lista de parejas de palabras para las que se computan puntuaciones de asociacion tambien puede recortarse. En otras palabras, el procedimiento de computacion de las puntuaciones de asociacion de palabras genera puntuaciones de asociacion para un gran numero de parejas de palabras (o lemas) para un corpus de preparacion grande. Por tanto, en una realizacion ilustrativa, el conjunto de parejas de palabras se recorta para limitar adicionalmente el procesamiento a esas parejas que tienen al menos alguna posibilidad de considerarse como parejas de traduccion. Una heunstica ilustrativa establece este umbral como el nivel de asociacion de parejas de palabras o lemas que tienen una aparicion conjunta, mas otra aparicion cada una.
A continuacion, el componente 208 conjetura la aparicion de componentes en los datos de preparacion y sustituye los componentes conjeturados por un unico sfmbolo. Esto se indica mediante el bloque 306. Un ejemplo generalizado puede ser util.
La Figura 4A muestra una secuencia de palabras en oraciones alineadas en ingles y frances. Las palabras en la secuencia en ingles se representan mediante Ex y las palabras en la secuencia en frances se representan mediante Fx. Las flechas que apuntan desde la secuencia en ingles a la secuencia en frances ilustran con que palabras en frances estan mas fuertemente asociadas las palabras inglesas correspondientes. Por tanto, puede verse que Ei, por ejemplo, esta mas fuertemente asociada con Fi. Las flechas que apuntan desde la secuencia en frances a la secuencia en ingles ilustran cuales de las palabras inglesas tiene una asociacion mas fuerte con las palabras en frances correspondientes, basandose en las puntuaciones de asociacion de palabras. Por tanto, en el ejemplo, tambien puede verse que Fi esta mas fuertemente asociada con Ei. Ya que cada una de las palabras inglesas esta mas fuertemente asociada con una palabra en frances correspondiente, y esa palabra en frances esta mas fuertemente asociada con la palabra inglesa correspondiente, se dice que existe una correspondencia simple de i a i entre la secuencia de palabras en ingles y la secuencia de palabras en frances.
De manera similar, la Figura 4B tambien muestra una correspondencia de i a i entre las secuencias de palabras. La Figura 4B es algo diferente a la Figura 4A porque la palabra en ingles Ei esta mas fuertemente asociada con la palabra en frances F2, y la palabra en ingles e2 esta mas fuertemente asociada con la palabra en frances Fi. Sin embargo, la palabra en frances Fi tambien esta mas fuertemente asociada con la palabra en ingles E2 y la palabra en frances F2 esta mas fuertemente asociada con la palabra en ingles Ei. Por tanto, todavfa existe una correspondencia de i a i entre las secuencias de palabras, pero el orden de las palabras en frances es ligeramente diferente al orden de las palabras en ingles.
La Figura 5, sin embargo, ilustra un caso ligeramente diferente. En la Figura 5, las palabras en ingles Ei y E4 tienen una asociacion de i a i con las palabras en frances Fi y F4, respectivamente. Sin embargo, aunque la palabra en ingles E2 esta mas fuertemente asociada con la palabra en frances F2 y la palabra en frances F2 esta mas fuertemente asociada con la palabra en ingles E2, la palabra en frances F3 tambien esta mas fuertemente asociada con la palabra en ingles E2. Por tanto, las palabras en ingles E2 y E3 y las palabras en frances F2 y F3 no tienen una correspondencia de i a i. Esta falta de correspondencia de i a i indica en gran medida la necesidad de conjeturar compuestos para obtener traducciones correctas. Tal como se describe en mas detalle con respecto a la Figura 6, las palabras en ingles E2 y E3 y las palabras en frances F2 y F3 se conjeturan como compuestos y se sustituyen por sfmbolos fusionados (por ejemplo, E2_E3 y F2_F3) en el texto de entrada original.
El componente 208 vuelve a computar a continuacion las puntuaciones de asociacion para el texto de entrada reescrito (es decir, los compuestos y cualquier palabra individual restante). Esto se indica mediante el bloque 308 en la Figura 3. Esto repite basicamente la etapa indicada en el bloque 304, con el texto reescrito en terminos de los compuestos conjeturados.
A continuacion, las puntuaciones de asociacion se vuelven a computar de nuevo. Sin embargo, esta vez solo las apariciones conjuntas se tienen en cuenta, donde no existe otra asociacion igualmente fuerte o mas fuerte en las oraciones alineadas. Esto se indica en el bloque 3i0. En otras palabras, asumiendo que todos los compuestos necesarios para la traduccion se han identificado correctamente y reformulado en los datos de preparacion como un unico artfculo, los datos de preparacion pueden tratarse como si todas las traducciones fueran de i a i. Por tanto, el conjunto final de parejas de traduccion clasificadas se elige asumiendo que las parejas de traduccion autenticas siempre estaran mutuamente mas fuertemente asociadas en una determinada pareja de oraciones alineadas. De esta manera, la recomputacion de las puntuaciones de asociacion indicada mediante el bloque 3i0 se realiza de la misma manera que la indicada en el bloque 308, excepto que las palabras en diferentes idiomas (WLi y WL2) se consideran como una aparicion conjunta solo si WLi esta unicamente mas fuertemente asociada con WL2 y WL2 esta unicamente mas fuertemente asociada con WLi, entre las palabras (o lemas o lemas compuestos) presentes en una determinada pareja de oraciones alineadas. Las asociaciones computadas en la etapa 308 se usan para tomar
5
10
15
20
25
30
35
40
45
50
55
esta decision. El conjunto final de asociaciones se clasifica entonces en orden decreciente de acuerdo con la fuerza de asociacion.
Finalmente, aquellas parejas de palabras y/o compuestos que tienen puntuaciones de asociacion por encima de un umbral en la lista final se identifican como traducciones entre sr Esto se indica en el bloque 312. El umbral puede elegirse empmcamente, puede elegirse basandose en un analisis lingufstico de los resultados proporcionados en la lista de parejas final o puede elegirse usando otra tecnica deseada.
La Figura 6 es un diagrama de flujo que ilustra, en mayor detalle, como los componentes se conjeturan tal como se expone en el bloque 306 en la Figura 3. Esto se analizara con respecto al ejemplo mostrado en la Figura 5 donde no existe una correspondencia directa de 1 a 1 entre las secuencias de palabras originales en las oraciones alineadas.
En primer lugar, para cada palabra en una pareja alineada de oraciones, el componente 208 identifica la palabra mas fuertemente asociada en la otra oracion de la pareja. En otras palabras, el componente 208 construye basicamente el grafico o una representacion del grafico ilustrado en la Figura 5. Esto se indica mediante el bloque 320 en la Figura 6.
El componente 208 encuentra a continuacion los conjuntos conectados maximos de palabras dentro de los graficos. Esto se indica mediante el bloque 322. Basicamente, el componente 208 examina el grafico creado para identificar areas donde los artfculos en el grafico pueden agruparse (o rodearse) y ninguna flecha se extiende fuera de esa area. Esto se representa mediante los drculos discontinuos mostrados en la Figura 7. Cada uno de los grupos de palabras abarcado en uno de los drculos discontinuos se identifica como un conjunto conectado maximo. Todos los artfculos en los conjuntos conectados maximos estan de esta manera mas fuertemente asociados con otro artfculo en el conjunto conectado maximo, y ninguno esta mas fuertemente asociado con artfculos fuera del conjunto conectado maximo.
El componente 208 divide entonces los conjuntos conectados maximos en los dos idiomas diferentes y conjetura que tres componentes de multiples palabras de los conjuntos conectados maximos en cada idioma son compuestos. Esto se indica mediante el bloque 324. Por ejemplo, la Figura 8 muestra que los conjuntos conectados maximos de la Figura 7 se han dividido mediante una lmea horizontal que divide la secuencia de palabras en ingles de la secuencia de palabras en frances. El componente 208 conjetura de esta manera que los componentes de multiples palabras de los conjuntos conectados maximos en cada idioma (componentes E2 y E3 en el idioma ingles y componentes F2 y F3 en el idioma frances) son compuestos. Esto identifica compuestos, por ejemplo, tal como "ouvir_session" y "log_on".
El componente 208 reescribe entonces el archivo de entrada original sustituyendo los componentes conjeturados (E2 y E3 y F2 y F3) por sfmbolos fusionados. Esto se indica mediante el bloque 326. La Figura 9 ilustra esta etapa en mayor detalle. En la Figura 9, el termino E2_E3 representa el sfmbolo en ingles correspondiente a los artfculos E2 y E3 en el texto original y el artfculo F2_F3 se corresponde con un sfmbolo que representa las palabras F2 y F3 en el texto de entrada frances original. Habiendo conjeturado y reescrito los sfmbolos de esta manera, el procedimiento continua con respecto al bloque 308 en la Figura 3 donde se computan las puntuaciones de asociacion de palabras para los compuestos y las palabras individuales restantes.
Tambien puede abordarse otro problema que surge al realizar el analisis sintactico de un texto de entrada sin procesar. En muchos tipos de texto, particularmente determinados tipos de textos tecnicos, las frases no se usan de manera normal, sino que en su lugar se usan como el nombre de algo en ese dominio en particular. Por ejemplo, la oracion "Click to remove the View ^s Web Page check mark' incluye el termino "View ^s Web Page" que tiene la forma sintactica de una frase en verbo no conjugado. Sin embargo, en la oracion, se usa como si fuera un nombre propio. Si el analizador sintactico no reconoce este uso especial de la frase, es virtualmente imposible analizar sintacticamente la oracion correctamente.
En el idioma ingles, las expresiones de este tipo pueden manejarse de manera directa, principalmente porque las convenciones de uso de mayusculas en ingles hacen que este tipo de frases sean faciles de reconocer. El conversor de sfmbolos usado para convertir en sfmbolos el texto de entrada antes de analizar sintacticamente, conjetura que esas secuencias de palabras en mayusculas, tales como "View ^s Web Page" debenan tratarse como expresiones de multiples palabras lexicalizadas. Esta subclase de multiples palabras se denomina en este documento "captoides”.
Identificar traducciones de estos captoides, sin embargo, es muy diffcil. Esto es asf principalmente porque las convenciones de uso de mayusculas en otros idiomas (tales como frances o espanol, por ejemplo), solo usan mayuscula en la primera palabra de tal expresion. Por tanto, aunque es relativamente directo en el idioma ingles determinar donde comienza y termina un captoide, es muy diffcil en otros idiomas.
Se proporciona un procedimiento que puede usarse para identificar traducciones de captoides y anadirlos al lexicon de traduccion usado mediante el analizador sintactico o usado en otros diversos lugares en el sistema de traduccion a maquina de manera que los captoides puedan traducirse con precision. El procedimiento se aprovecha del hecho de que, en ingles, tales captoides pueden identificarse de manera directa y tambien se aprovecha de las caractensticas de la presente invencion que pueden usarse para identificar compuestos. La Figura 10 es un
5
10
15
20
25
30
35
40
45
50
55
diagrama de flujo que ilustra mejor el procedimiento de identificacion de la traduccion de captoides.
En primer lugar, se reciben los datos de preparacion del corpus bilingue alineado. Esto se indica mediante el bloque 350. A continuacion, los datos de preparacion se convierten en s^bolos para obtener las diversas palabras diferentes en los datos de preparacion. Cualquier conversor de sfmbolos disponible comercialmente puede usarse, siempre que divida los datos de preparacion en palabras. Esto se indica mediante el bloque 352. A continuacion, se identifican los compuestos de multiples palabras, incluyendo captoides. Esto se indica mediante el bloque 354. En una realizacion, en ingles, los captoides se identifican buscando secuencias de palabras donde la primera palabra en la secuencia comienza con una mayuscula y las palabras posteriores en la secuencia no comienzan con letra minuscula. Esto permite la aparicion en captoides de cosas, diferentes de letras, tales como "3,0". Una vez que los captoides se identifican, las palabras en la secuencia de palabras que conforman cada captoide se agrupan como un unico sfmbolo por captoide. Esto se realiza colocando guiones bajos entre las palabras en cada secuencia de palabras que forma una captoide.
El componente 208 computa entonces puntuaciones de asociacion de palabras o estadfsticas para los sfmbolos enviados por el conversor 352 de sfmbolos, y para las palabras individuales en los captoides identificados. Las palabras individuales en cada captoide pueden identificarse de manera directa, separando simplemente los elementos del captoide en las marcas de guion bajo. La computacion de las asociaciones de palabras se indica mediante el bloque 356 en la Figura 10.
El componente 208 conjetura entonces los compuestos correspondientes en el idioma meta que se corresponden con los captoides identificados en el idioma fuente mediante el conversor de sfmbolos. Esto se indica mediante el bloque 357. Conjeturar los compuestos que se corresponden con los captoides identificados se analizara con mas detalle con respecto a la Figura 11.
El componente 208 reescribe entonces los datos de preparacion sustituyendo los compuestos conjeturados por sfmbolos unicos. Esto se indica mediante el bloque 358 en la Figura 10.
Las puntuaciones de asociacion de palabra se vuelven a computar entonces para las parejas de artfculos en los datos de preparacion donde cada artfculo en el idioma fuente (por ejemplo, ingles) o el artfculo en el idioma meta (por ejemplo, frances) es una multiple palabra que comienza con mayuscula. Esto se indica mediante el bloque 360. Esto se debe a que el procedimiento ilustrado en la Figura 10 es para identificar traducciones de captoides. Por tanto, en la etapa 360, las puntuaciones de asociacion de palabras solo deben volver a computarse para artfculos donde al menos uno de los artfculos en la pareja traduccion es un captoide (es decir, una multiple palabra que comienza con mayuscula). Las parejas resultantes se ordenan de acuerdo con la fuerza de su puntuacion de asociacion.
El componente 208 filtra entonces la lista para que incluya solo parejas de traduccion donde no existe una asociacion igualmente fuerte o mas fuerte para cada artfculo en la pareja de traduccion, en todos los datos de preparacion. Esto se indica mediante el bloque 362. Puede verse que las restricciones aplicadas en esta etapa son mas estrictas que aquellas aplicadas, por ejemplo, en el bloque 310 de la Figura 3. Esto se debe a que, mientras que una unica palabra puede tener mas de una traduccion en diferentes contextos, puede esperarse que la clasificacion de multiples palabras complejas representadas por un captoide reciba normalmente la misma traduccion sustancialmente en todos los contextos. Por tanto, solo se aceptan las traducciones que implican captoides que estan mas fuertemente asociados mutuamente y unicamente por todo el corpus.
Tambien debena apreciarse que, para centrarse en casos de mayor interes, y para incrementar la precision, otros filtros pueden colocarse en la generacion de parejas de traduccion. Por ejemplo, las parejas de traduccion pueden limitarse a aquellas que incluyen solo un artfculo meta (tal como un artfculo frances donde frances es el idioma meta) que es una de las multiples palabras construidas en este procedimiento. De manera similar, las parejas de traduccion pueden limitarse para incluir solo aquellas donde el artfculo ingles es una multiple palabra, donde todas sus palabras constituyentes estan en mayuscula. Ademas, ya que el frances se considera generalmente como un idioma mas verboso que el ingles, las parejas de traduccion pueden limitarse para incluir solo aquellas donde el artfculo frances contiene al menos tantas palabras como el artfculo ingles. Por supuesto, estas restricciones pueden adaptarse ligeramente a otros idiomas.
De nuevo, por supuesto, al igual que con la anterior realizacion, puede determinarse un umbral y solamente aquellas parejas de traduccion que tengan una puntuacion de asociacion de palabras que cumpla el umbral se consideran traducciones entre sf, y el resto pueden descartarse.
Una vez que las traducciones de los captoides se han identificado, esas traducciones se suministran ilustrativamente de vuelta a los lexicones de traduccion usados por los componentes 204 y 206 de analisis sintactico. Estas tambien pueden suministrarse como parejas 240 de multiples palabras para anadirse al diccionario 204 bilingue mediante el componente 216 de fusion de diccionarios, para obtener el diccionario 220 bilingue actualizado.
La Figura 11 es un diagrama de flujo mas detallado que ilustra como los componentes correspondientes a captoides identificados se conjeturan tal como se expone en el bloque 357 de la Figura 10. El procedimiento ilustrado en la Figura 11 asume que los captoides en el idioma fuente (por ejemplo, ingles) ya se han identificado. Por tanto, puede
5
10
15
20
25
30
35
40
45
50
verse que el procedimiento ilustrado en la Figura 11 es unidireccional, ya que solo intenta identificar traducciones de captoides en el idioma meta, donde los captoides ya se han identificado en el idioma fuente.
Tambien debena apreciarse que este procedimiento de conjeturar compuestos ocurre despues de que las puntuaciones de asociacion de palabras se hayan computado para los sfmbolos que representan el texto de entrada (las palabras individuales en los captoides identificados, asf como los captoides tomados como una unica unidad). En una realizacion ilustrativa, si cualquiera de las puntuaciones de asociacion entre una palabra meta (por ejemplo, una palabra en frances) y la palabra constituyente de una multiple palabra fuente (por ejemplo, las palabras constituyentes en la multiple palabra en ingles) son mayores que las puntuaciones de asociacion entre la palabra en el idioma meta y la multiple palabra completa en el idioma fuente, entonces la mas alta de tales puntuaciones se usa para representar el grado de asociacion entre la palabra en el idioma meta (por ejemplo, la palabra francesa) y la multiple palabra en el idioma fuente (por ejemplo, la multiple palabra en ingles).
Ademas, solo los conjuntos de palabras meta (por ejemplo, palabras en frances), que estan mas fuertemente asociados en una particular pareja de oracion alineada con una multiple palabra fuente que comienza con una palabra en mayusculas, se reservan para su consideracion como la base de los compuestos.
En este punto, el componente 208 comienza a escanear la oracion en el idioma meta de la pareja alineada en consideracion, de izquierda a derecha. Esto se indica en el bloque 370. El escaneo se realiza para encontrar una palabra que comience con mayusculas. Esto se indica en el bloque 372. Si se ubica tal palabra, y es la palabra inicial en una oracion, entonces se determina si es la mas estrechamente relacionada con una palabra en el compuesto identificado (por ejemplo en la multiple palabra en ingles). En ese caso, se marca como el inicio posible de un compuesto correspondiente, que es una traduccion del captoide identificado. Esto se indica mediante el bloque 374 en la Figura 11.
Si la palabra ubicada en el bloque 372 es una palabra no inicial (es decir, no es la primera palabra de la oracion), entonces se marca como el posible inicio de la traduccion del captoide (por ejemplo, la multiple palabra en ingles). Esto se indica en el bloque 376.
Una vez que se ubica esta primera palabra, el componente 208 continua escaneando el texto meta de izquierda a derecha, marcando palabras posteriores que estan mas fuertemente relacionadas con palabras en el captoide identificado. Al hacer esto, el componente 208 permite hasta dos palabras contiguas que no estan mas altamente relacionadas con palabras en el captoide identificado, siempre y cuando vayan seguidas de una palabra que este mas altamente relacionada con una palabra en el captoide identificado. Esto se indica mediante el bloque 378. Esto permite que el sistema represente palabras de funcion (tales como palabras de funcion en frances) que no pueden tener altas asociaciones con nada en la multiple palabra fuente. Siempre y cuando se cumplan estas condiciones, cada palabra posterior en la oracion meta se anade a la multiple palabra meta (la traduccion del captoide identificado en el texto fuente).
El componente 208 continua este escaneo hasta que encuentra mas de dos palabras contiguas en el texto meta que no estan mas altamente relacionadas con palabras en el captoide identificado, o hasta que no hay mas palabras en el texto meta que estan mas altamente relacionadas con una palabra en el captoide identificado, o hasta que se encuentra un sfmbolo de puntuacion. Esto se indica mediante el bloque 380.
Habiendo conjeturado de esta manera los compuestos como posibles traducciones de captoides, el procedimiento continua de nuevo en la Figura 10 en el bloque 358 donde los datos de preparacion se reescriben sustituyendo los compuestos conjeturados por sfmbolos unicos, donde las puntuaciones de asociacion se vuelven a computar y las parejas de traduccion se filtran. Esto se indica en los bloques 358, 360 y 362, y se ha analizado en mas detalle anteriormente.
De esta manera, puede verse que la presente invencion proporciona un enfoque estadfstico simplificado para derivar correspondencias de traduccion entre parejas de palabras y compuestos. La presente invencion ofrece ventajas sobre los sistemas anteriores ya que las realizaciones de la presente tecnica son mucho menos complejas de implementar y requieren menos tiempo y recursos computacionales para ejecutarse. La presente invencion tambien mejora la derivacion de correspondencias de traduccion para compuestos.
Aunque la presente invencion se ha descrito en referencia a realizaciones particulares, los expertos en la materia reconoceran que pueden realizarse cambios en la forma y detalle sin apartarse del alcance de la invencion.

Claims (30)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    REIVINDICACIONES
    1. Un procedimiento implementado por ordenador para calcular correspondencias de traduccion entre palabras, que comprende:
    calcular puntuaciones de asociacion de palabras para cada pareja de palabras basandose en apariciones conjuntas de palabras en cada uno de una pluralidad de conjuntos de unidades bilingues alineadas en un corpus; identificar compuestos conjeturados en las unidades basandose en las puntuaciones de asociacion de palabras; y obtener correspondencias de traduccion basadas en las puntuaciones de asociacion de palabras recalculadas.
  2. 2. El procedimiento de la reivindicacion 1 en el que las unidades bilingues y alineadas comprenden oraciones (230, 232).
  3. 3. El procedimiento de la reivindicacion 1 en el que las unidades bilingues y alineadas comprenden formas (234, 236) logicas.
  4. 4. El procedimiento de la reivindicacion 1 en el que obtener correspondencias de traduccion comprende:
    repetir la etapa de recalcular puntuaciones de asociacion de palabras considerando apariciones conjuntas de parejas, incluyendo parejas (238) de palabras, parejas (240) de compuestos y parejas de compuestos/palabras, en una pareja de unidades alineadas solo si las parejas estan unicamente mas fuertemente asociadas entre sf entre todas las palabras en la pareja de unidades alineadas, para obtener ultimas puntuaciones de asociacion de palabras.
  5. 5. El procedimiento de la reivindicacion 4 en el que obtener correspondencias de traduccion comprende ademas: clasificar parejas basandose en las ultimas puntuaciones de asociacion de palabras.
  6. 6. El procedimiento de la reivindicacion 5 en el que obtener correspondencias de traduccion comprende ademas: seleccionar parejas como traducciones entre sf, si las ultimas puntuaciones de asociacion de palabras correspondientes estan por encima de un nivel de umbral.
  7. 7. El procedimiento de la reivindicacion 1 en el que recalcular las puntuaciones de asociacion de palabras, dados los compuestos conjeturados, comprende:
    sustituir cada compuesto conjeturado por un sfmbolo para obtener un corpus reescrito; y
    recalcular las puntuaciones de asociacion de palabras en las unidades alineadas en el corpus reescrito.
  8. 8. El procedimiento de la reivindicacion 1 en el que identificar compuestos conjeturados comprende:
    seleccionar una pareja de unidades alineada que tiene una primera unidad en un primer idioma y una segunda unidad en un segundo idioma; e
    identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno entre palabras en la primera unidad y palabras en la segunda unidad.
  9. 9. El procedimiento de la reivindicacion 8 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno comprende:
    para cada palabra en la primera unidad, identificar una palabra mas fuertemente asociada en la segunda unidad; y para cada palabra en la segunda unidad, identificar una palabra mas fuertemente asociada en la primera unidad.
  10. 10. El procedimiento de la reivindicacion 9 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno comprende ademas:
    identificar conjuntos conectados maximos de palabras en las primeras y segundas unidades basandose en las palabras identificadas mas fuertemente asociadas en las primeras y segundas unidades.
  11. 11. El procedimiento de la reivindicacion 10 en el que identificar compuestos conjeturados comprende ademas:
    para cada una de las primeras y segundas unidades, identificar las palabras en cada conjunto conectado maximo de multiples palabras como un compuesto conjeturado.
  12. 12. El procedimiento de la reivindicacion 1 que comprende ademas:
    acceder al corpus antes de calcular puntuaciones de asociacion de palabras.
  13. 13. El procedimiento de la reivindicacion 12 que comprende ademas: realizar un analisis sintactico del corpus para obtener palabras individuales.
    5
    10
    15
    20
    25
    30
    35
    40
    45
  14. 14. El procedimiento de la reivindicacion 1 que comprende ademas:
    despues de calcular las puntuaciones de asociacion de palabras, recortar parejas de palabras y que no se someten a un procesamiento adicional basandose en puntuaciones de asociacion de palabras.
  15. 15. El procedimiento de la reivindicacion 14 en el que recortar comprende:
    retirar parejas de palabras de un procesamiento adicional si tienen una puntuacion de asociacion de palabras por debajo de una puntuacion de umbral predeterminada.
  16. 16. El procedimiento de la reivindicacion 1 en el que calcular puntuaciones de asociacion de palabras comprende:
    calcular las puntuaciones de asociacion de palabras basandose en una forma de superficie de las palabras en cada una de las unidades bilingues alineadas.
  17. 17. El procedimiento de la reivindicacion 1 en el que las palabras en cada una de las unidades bilingues alineadas se convierten en lemas antes de la etapa de calcular puntuaciones de asociacion de palabras.
  18. 18. Un procedimiento implementado por ordenador de preparacion de un sistema de traduccion a maquina, que comprende:
    obtener un corpus de unidades de multiples palabras bilingues y alineadas;
    calcular puntuaciones de asociacion de palabras para parejas de palabras en el corpus basandose en la aparicion conjunta de palabras en las unidades alineadas;
    identificar compuestos conjeturados basandose en la ausencia de una correspondencia de uno a uno entre palabras en las unidades alineadas; y
    preparar el sistema de traduccion a maquina basandose en las puntuaciones de asociacion de palabras y los compuestos conjeturados.
  19. 19. El procedimiento de la reivindicacion 18 en el que identificar compuestos conjeturados comprende:
    seleccionar una pareja de unidades alineada que tiene una primera unidad en un primer idioma y una segunda unidad en un segundo idioma; e
    identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno entre palabras en la primera unidad y palabras en la segunda unidad.
  20. 20. El procedimiento de la reivindicacion 19 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno comprende:
    para cada palabra en la primera unidad, identificar una palabra mas fuertemente asociada en la segunda unidad; y para cada palabra en la segunda unidad, identificar una palabra mas fuertemente asociada en la primera unidad.
  21. 21. El procedimiento de la reivindicacion 20 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia uno a uno comprende ademas:
    identificar los conjuntos conectados maximos de palabras en las primeras y segundas unidades basandose en las palabras identificadas mas fuertemente asociadas en las primeras y segundas unidades.
  22. 22. El procedimiento de la reivindicacion 21 en el que identificar compuestos conjeturados comprende ademas:
    para cada una de las primeras y segundas unidades, identificar las palabras en cada conjunto conectado maximo de multiples palabras como un compuesto conjeturado.
  23. 23. El procedimiento de la reivindicacion 18 que comprende ademas, despues de identificar compuestos conjeturados:
    recalcular las puntuaciones de asociacion de palabras, dados los compuestos conjeturados.
  24. 24. El procedimiento de la reivindicacion 23 que comprende ademas:
    repetir la etapa de recalcular las puntuaciones de asociacion de palabras considerando las apariciones conjuntas de parejas, incluyendo parejas de palabras, parejas de compuestos y parejas de palabras/compuestos, en una pareja de unidades alineadas solo si las parejas estan unicamente mas fuertemente asociadas entre sf entre todas las palabras en la pareja de unidades alineadas, para obtener ultimas puntuaciones de asociacion de palabras.
    10
    15
  25. 25. El procedimiento de la reivindicacion 24 y que comprende ademas:
    clasificar parejas basandose en ultimas puntuaciones de asociacion de palabras.
  26. 26. El procedimiento de la reivindicacion 25 que comprende ademas:
    seleccionar parejas como traducciones entre sf, si las ultimas puntuaciones de asociacion de palabras correspondientes estan por encima de un nivel de umbral.
  27. 27. El procedimiento de la reivindicacion 23 en el que recalcular las puntuaciones de asociacion de palabras, dados los compuestos conjeturados, comprende:
    sustituir cada compuesto conjeturado por un sfmbolo para obtener un corpus reescrito; y
    recalcular las puntuaciones de asociacion de palabras en las unidades alineadas en el corpus reescrito.
  28. 28. El procedimiento de la reivindicacion 26 en el que la preparacion del sistema de traduccion a maquina, basado en las puntuaciones de asociacion de palabras y los compuestos conjeturados, comprende:
    generar mapeos de transferencia que mapean una unidad en uno de los idiomas a una unidad en el otro de los idiomas basandose en las traducciones seleccionadas.
  29. 29. El procedimiento de la reivindicacion 18 que comprende ademas:
    convertir las palabras a lemas antes de calcular las puntuaciones de asociacion de palabras.
  30. 30. El procedimiento de la reivindicacion 18 en el que las palabras son formas de superficie de las palabras.
ES02013732.9T 2001-06-20 2002-06-20 Procedimiento de cálculo de correspondencias de traducción entre palabras de diferentes idiomas Expired - Lifetime ES2604752T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US29951001P 2001-06-20 2001-06-20
US299510P 2001-06-20

Publications (1)

Publication Number Publication Date
ES2604752T3 true ES2604752T3 (es) 2017-03-09

Family

ID=23155117

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02013732.9T Expired - Lifetime ES2604752T3 (es) 2001-06-20 2002-06-20 Procedimiento de cálculo de correspondencias de traducción entre palabras de diferentes idiomas

Country Status (4)

Country Link
US (2) US7191115B2 (es)
EP (1) EP1308851B1 (es)
JP (1) JP4491187B2 (es)
ES (1) ES2604752T3 (es)

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2336899A3 (en) 1999-03-19 2014-11-26 Trados GmbH Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
WO2002097663A1 (en) * 2001-05-31 2002-12-05 University Of Southern California Integer programming decoder for machine translation
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
EP1306775A1 (en) * 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
EP1349079A1 (en) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US7319949B2 (en) * 2003-05-27 2008-01-15 Microsoft Corporation Unilingual translator
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005036303A2 (en) * 2003-09-11 2005-04-21 Eli Abir Knowledge system method and apparatus
CN1894688A (zh) * 2003-12-15 2007-01-10 有限会社言语技术研究所 对译判断装置、方法及程序
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP4424057B2 (ja) * 2004-05-10 2010-03-03 富士ゼロックス株式会社 学習装置およびプログラム
US8477331B2 (en) * 2004-05-27 2013-07-02 Property Publications Pte Ltd. Apparatus and method for creating an electronic version of printed matter
WO2006042321A2 (en) * 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
CN100454303C (zh) * 2005-01-07 2009-01-21 松下电器产业株式会社 联想辞典制作装置
US7478090B2 (en) * 2005-01-14 2009-01-13 Saffron Technology, Inc. Methods, systems and computer program products for analogy detection among entities using reciprocal similarity measures
US20060282256A1 (en) * 2005-06-13 2006-12-14 Werner Anna F Translation method utilizing core ancient roots
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US7680647B2 (en) * 2005-06-21 2010-03-16 Microsoft Corporation Association-based bilingual word alignment
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
KR100739726B1 (ko) * 2005-08-30 2007-07-13 삼성전자주식회사 문자열 매칭 방법 및 시스템과 그 방법을 기록한 컴퓨터판독 가능한 기록매체
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US7957953B2 (en) * 2005-10-03 2011-06-07 Microsoft Corporation Weighted linear bilingual word alignment model
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
US7536295B2 (en) 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
BRPI0706404B1 (pt) 2006-02-17 2019-08-27 Google Inc acesso escalável, de codificação e adaptável de modelos distribuídos
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
JP5342760B2 (ja) * 2007-09-03 2013-11-13 株式会社東芝 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP5008144B2 (ja) * 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 対訳情報生成装置、対訳情報生成方法、及びプログラム
US8589541B2 (en) 2009-01-28 2013-11-19 Headwater Partners I Llc Device-assisted services for protecting network capacity
US8548428B2 (en) 2009-01-28 2013-10-01 Headwater Partners I Llc Device group partitions and settlement platform
US8839387B2 (en) 2009-01-28 2014-09-16 Headwater Partners I Llc Roaming services network and overlay networks
US8626115B2 (en) 2009-01-28 2014-01-07 Headwater Partners I Llc Wireless network service interfaces
US8275830B2 (en) 2009-01-28 2012-09-25 Headwater Partners I Llc Device assisted CDR creation, aggregation, mediation and billing
US8402111B2 (en) 2009-01-28 2013-03-19 Headwater Partners I, Llc Device assisted services install
US8391834B2 (en) 2009-01-28 2013-03-05 Headwater Partners I Llc Security techniques for device assisted services
US8406748B2 (en) 2009-01-28 2013-03-26 Headwater Partners I Llc Adaptive ambient services
US8832777B2 (en) 2009-03-02 2014-09-09 Headwater Partners I Llc Adapting network policies based on device service processor configuration
US8635335B2 (en) 2009-01-28 2014-01-21 Headwater Partners I Llc System and method for wireless network offloading
US8346225B2 (en) 2009-01-28 2013-01-01 Headwater Partners I, Llc Quality of service for device assisted services
US8340634B2 (en) 2009-01-28 2012-12-25 Headwater Partners I, Llc Enhanced roaming services and converged carrier networks with device assisted services and a proxy
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US8706644B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US8706643B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US9980146B2 (en) 2009-01-28 2018-05-22 Headwater Research Llc Communications device with secure data path processing agents
US9572019B2 (en) 2009-01-28 2017-02-14 Headwater Partners LLC Service selection set published to device agent with on-device service selection
US9755842B2 (en) 2009-01-28 2017-09-05 Headwater Research Llc Managing service user discovery and service launch object placement on a device
US11218854B2 (en) 2009-01-28 2022-01-04 Headwater Research Llc Service plan design, user interfaces, application programming interfaces, and device management
US9609510B2 (en) 2009-01-28 2017-03-28 Headwater Research Llc Automated credential porting for mobile devices
US9647918B2 (en) 2009-01-28 2017-05-09 Headwater Research Llc Mobile device and method attributing media services network usage to requesting application
US10248996B2 (en) 2009-01-28 2019-04-02 Headwater Research Llc Method for operating a wireless end-user device mobile payment agent
US8793758B2 (en) 2009-01-28 2014-07-29 Headwater Partners I Llc Security, fraud detection, and fraud mitigation in device-assisted services systems
US10798252B2 (en) 2009-01-28 2020-10-06 Headwater Research Llc System and method for providing user notifications
US9954975B2 (en) 2009-01-28 2018-04-24 Headwater Research Llc Enhanced curfew and protection associated with a device group
US10779177B2 (en) 2009-01-28 2020-09-15 Headwater Research Llc Device group partitions and settlement platform
US10484858B2 (en) 2009-01-28 2019-11-19 Headwater Research Llc Enhanced roaming services and converged carrier networks with device assisted services and a proxy
US9571559B2 (en) 2009-01-28 2017-02-14 Headwater Partners I Llc Enhanced curfew and protection associated with a device group
US10237757B2 (en) 2009-01-28 2019-03-19 Headwater Research Llc System and method for wireless network offloading
US10200541B2 (en) 2009-01-28 2019-02-05 Headwater Research Llc Wireless end-user device with divided user space/kernel space traffic policy system
US9955332B2 (en) 2009-01-28 2018-04-24 Headwater Research Llc Method for child wireless device activation to subscriber account of a master wireless device
US10057775B2 (en) 2009-01-28 2018-08-21 Headwater Research Llc Virtualized policy and charging system
US9557889B2 (en) 2009-01-28 2017-01-31 Headwater Partners I Llc Service plan design, user interfaces, application programming interfaces, and device management
US10064055B2 (en) 2009-01-28 2018-08-28 Headwater Research Llc Security, fraud detection, and fraud mitigation in device-assisted services systems
US9578182B2 (en) 2009-01-28 2017-02-21 Headwater Partners I Llc Mobile device and service management
US10783581B2 (en) 2009-01-28 2020-09-22 Headwater Research Llc Wireless end-user device providing ambient or sponsored services
US9351193B2 (en) 2009-01-28 2016-05-24 Headwater Partners I Llc Intermediate networking devices
US10492102B2 (en) 2009-01-28 2019-11-26 Headwater Research Llc Intermediate networking devices
US9858559B2 (en) 2009-01-28 2018-01-02 Headwater Research Llc Network service plan design
US10715342B2 (en) 2009-01-28 2020-07-14 Headwater Research Llc Managing service user discovery and service launch object placement on a device
US11973804B2 (en) 2009-01-28 2024-04-30 Headwater Research Llc Network service plan design
US9253663B2 (en) 2009-01-28 2016-02-02 Headwater Partners I Llc Controlling mobile device communications on a roaming network based on device state
US10264138B2 (en) 2009-01-28 2019-04-16 Headwater Research Llc Mobile device and service management
US10841839B2 (en) 2009-01-28 2020-11-17 Headwater Research Llc Security, fraud detection, and fraud mitigation in device-assisted services systems
US9392462B2 (en) 2009-01-28 2016-07-12 Headwater Partners I Llc Mobile end-user device with agent limiting wireless data communication for specified background applications based on a stored policy
US9565707B2 (en) 2009-01-28 2017-02-07 Headwater Partners I Llc Wireless end-user device with wireless data attribution to multiple personas
US8745191B2 (en) 2009-01-28 2014-06-03 Headwater Partners I Llc System and method for providing user notifications
US9270559B2 (en) 2009-01-28 2016-02-23 Headwater Partners I Llc Service policy implementation for an end-user device having a control application or a proxy agent for routing an application traffic flow
US9706061B2 (en) 2009-01-28 2017-07-11 Headwater Partners I Llc Service design center for device assisted services
US10326800B2 (en) 2009-01-28 2019-06-18 Headwater Research Llc Wireless network service interfaces
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US8108391B1 (en) * 2009-03-12 2012-01-31 Google Inc. Identifying non-compositional compounds
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US9298700B1 (en) * 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
CN101996166B (zh) * 2009-08-14 2015-08-05 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
TWI434187B (zh) * 2010-11-03 2014-04-11 Inst Information Industry 文字轉換方法與系統
CN102486770B (zh) * 2010-12-02 2014-09-17 财团法人资讯工业策进会 文字转换方法与系统
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US8655640B2 (en) * 2011-03-02 2014-02-18 Raytheon Bbn Technologies Corp. Automatic word alignment
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
EP2535822A3 (en) * 2011-06-13 2013-12-25 The Provost, Fellows, Foundation Scholars, & the other members of Board, of the College of the Holy & Undiv. Trinity of Queen Elizabeth near Dublin Data processing system and method for assessing quality of a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
JP2014078132A (ja) * 2012-10-10 2014-05-01 Toshiba Corp 機械翻訳装置、方法およびプログラム
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
EP3113034A4 (en) * 2014-02-28 2017-07-12 Rakuten, Inc. Information processing system, information processing method and information processing program
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
CN104239292B (zh) * 2014-08-18 2017-07-28 武汉传神信息技术有限公司 一种获取专业词汇译文的方法
CN104239291B (zh) * 2014-08-18 2017-06-06 网来云商环球信息技术(武汉)有限公司 一种准确翻译国际贸易合同的方法
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
CN104408078B (zh) * 2014-11-07 2019-02-12 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
CN107193807B (zh) * 2017-05-12 2021-05-28 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
JP2019082860A (ja) * 2017-10-30 2019-05-30 富士通株式会社 生成プログラム、生成方法及び生成装置
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
WO2020056199A1 (en) * 2018-09-14 2020-03-19 Jpmorgan Chase Bank, N.A. Systems and methods for automated document graphing
US11449676B2 (en) * 2018-09-14 2022-09-20 Jpmorgan Chase Bank, N.A. Systems and methods for automated document graphing
JP7147439B2 (ja) * 2018-09-28 2022-10-05 株式会社リコー 言語処理方法、言語処理プログラム及び言語処理装置
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN110781689B (zh) * 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质
CN112735392B (zh) * 2020-12-31 2024-04-16 中国科学技术大学 语音处理方法、装置、设备及存储介质
US11966711B2 (en) * 2021-05-18 2024-04-23 International Business Machines Corporation Translation verification and correction

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2177525B (en) * 1985-05-14 1989-08-16 Sharp Kk Translation system
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
NL8900587A (nl) * 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5267156A (en) * 1991-12-05 1993-11-30 International Business Machines Corporation Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5366556A (en) * 1992-01-10 1994-11-22 Robert Prince Process and apparatus for production of diamond-like films
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
US7020601B1 (en) * 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US6990439B2 (en) * 2001-01-10 2006-01-24 Microsoft Corporation Method and apparatus for performing machine translation using a unified language model and translation model
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
WO2003005166A2 (en) * 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US6721967B2 (en) * 2002-07-22 2004-04-20 Earl J. Braxton Modular portable comfort station
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words

Also Published As

Publication number Publication date
US7366654B2 (en) 2008-04-29
EP1308851A2 (en) 2003-05-07
EP1308851A3 (en) 2007-12-12
JP4491187B2 (ja) 2010-06-30
US20020198701A1 (en) 2002-12-26
EP1308851B1 (en) 2016-09-07
US20060116867A1 (en) 2006-06-01
US7191115B2 (en) 2007-03-13
JP2003141115A (ja) 2003-05-16

Similar Documents

Publication Publication Date Title
ES2604752T3 (es) Procedimiento de cálculo de correspondencias de traducción entre palabras de diferentes idiomas
Embick The morpheme: A theoretical introduction
Cotterell et al. CoNLL-SIGMORPHON 2017 shared task: Universal morphological reinflection in 52 languages
Stockwell et al. The grammatical structures of English and Spanish
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
Plag Creoles as interlanguages: Inflectional morphology
US8600728B2 (en) Training for a text-to-text application which uses string to tree conversion for training and decoding
MacSwan Code‐switching and grammatical theory
Taji et al. An Arabic morphological analyzer and generator with copious features
US8249856B2 (en) Machine translation
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
Tesfaye A rule-based Afan Oromo Grammar Checker
Asahiah et al. Restoring tone-marks in standard Yorùbá electronic text: improved model
Amtrup et al. Persian-English machine translation: An overview of the Shiraz project
Humbley Is terminology specialized lexicography? The experience of French-speaking countries
Xu et al. Modeling morphological typology for unsupervised learning of language morphology
Ashrafi et al. English to Bangla machine translation system using context-free grammars
Esteche et al. Automatic definition extraction and crossword generation from spanish news text
Ezeani et al. Lexical disambiguation of Igbo using diacritic restoration
Mathieu et al. Micro-change and macro-change in diachronic syntax
Melero et al. The Spanish language in the digital age
Faisal et al. A rule-based bengali grammar checker
Menezes et al. Syntactic models for structural word insertion and deletion during translation
Maia Corpora for terminology extraction: the differing perspectives and objectives of researchers, teachers and language services providers
Hurskainen et al. Mapping between disjoining and conjoining writing systems in Bantu languages: Implementation on Kwanyama