ES2604752T3

ES2604752T3 - Procedimiento de cálculo de correspondencias de traducción entre palabras de diferentes idiomas

Info

Publication number: ES2604752T3
Application number: ES02013732.9T
Authority: ES
Inventors: Robert C. Moore
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2001-06-20
Filing date: 2002-06-20
Publication date: 2017-03-09
Anticipated expiration: 2022-06-20
Also published as: US7366654B2; EP1308851A2; EP1308851A3; JP4491187B2; US20020198701A1; EP1308851B1; US20060116867A1; US7191115B2; JP2003141115A

Abstract

Un procedimiento implementado por ordenador para calcular correspondencias de traducción entre palabras, que comprende: calcular puntuaciones de asociación de palabras para cada pareja de palabras basándose en apariciones conjuntas de palabras en cada uno de una pluralidad de conjuntos de unidades bilingües alineadas en un corpus; identificar compuestos conjeturados en las unidades basándose en las puntuaciones de asociación de palabras; y obtener correspondencias de traducción basadas en las puntuaciones de asociación de palabras recalculadas.

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Procedimiento de calculo de correspondencias de traduccion entre palabras de diferentes idiomas Antecedentes de la invencion

La presente invencion se refiere a aprender relaciones entre palabras. Mas espedficamente, la presente invencion se refiere a un enfoque estadfstico para aprender correspondencias de traduccion entre palabras en diferentes idiomas.

Los sistemas de traduccion a maquina son sistemas que reciben una entrada textual en un idioma, la traducen a un segundo idioma y proporcionan una salida textual en un segundo idioma. Al hacer esto, tales sistemas usan normalmente un lexicon de traduccion para obtener correspondencias o correspondencias de traduccion, entre palabras de contenido que se obtienen durante la preparacion.

Un enfoque comun para derivar lexicones de traduccion a partir de datos empmcos implica elegir una medida de un grado de asociacion entre palabras en un primer idioma, L1, y palabras en un segundo idioma, L2, en oraciones alineadas en un corpus bilingue paralelo. Las parejas de palabras (que consisten en una palabra de L1 y una palabra de L2) se ordenan entonces por rango de acuerdo con la medida de asociacion elegida. Se elige un umbral y el lexicon de traduccion se forma en todas las parejas de palabras cuyo grado de asociacion esta por encima del umbral.

Por ejemplo, en un enfoque de la tecnica anterior, la metrica de similitud (la medida del grado de asociacion entre palabras) se basa en la frecuencia en que aparecen las palabras a la vez en regiones correspondientes (por ejemplo, oraciones) de un corpus de texto paralelo alineado. Las puntuaciones de seleccion para las diferentes parejas de palabras se computan y esas parejas de palabras se clasifican en orden descendente de su puntuacion de asociacion. De nuevo, se elige un umbral y las parejas de palabras cuya puntuacion de asociacion sobrepasa el umbral se convierten en entradas en el lexicon de la traduccion.

Este tipo de procedimiento, sin embargo, tiene desventajas. El problema es que las puntuaciones de asociacion se computa normalmente independientemente entre sf. Por ejemplo, se asumen que las palabras en el idioma L1 se representan por el sfmbolo Vk, donde k es un numero entero que representa diferentes palabras en L1; y las palabras en el idioma L2 se representan por Wk, donde k es un numero entero que representa diferentes palabras en L2. De esta manera, las secuencias de las V y W representan dos segmentos de texto alineados. Si Wk y Vk ocurren en contextos bilingues similares (por ejemplo, en las oraciones alineadas), entonces cualquier metrica de similitud razonable producira una alta puntuacion de asociacion entre ellas, reflejando la interdependencia de sus distribuciones.

Sin embargo, se asume que Vk y Vk+ 1 tambien aparecen en contextos similares (por ejemplo, en la misma oracion). En este caso, tambien existe una fuerte interdependencia entre las distribuciones de Vk y Vk + 1. De esta manera, surge el problema de que si Wk y Vk aparecen en contextos similares, y Vk y Vk + 1 aparecen en contextos similares, entonces Wk y Vk + 1 tambien aparecen en contextos similares. Esto se conoce como una asociacion indirecta porque surge solo gracias a las asociaciones entre Wk y Vk y entre Vk + 1 y Vk. Los procedimientos anteriores que computan puntuaciones de asociacion independientemente entre sf no pueden distinguir entre una asociacion directa (por ejemplo, entre Vk y Wk) y una asociacion indirecta (por ejemplo, entre Wk y Vk + 1). De manera no sorprendente, esto produce lexicones de traduccion repletos de asociaciones indirectas, que probablemente tambien son incorrectas.

Como un ejemplo concreto de una asociacion indirecta, se considera el corpus paralelo de frances-ingles, que consiste principalmente en manuales de software informatico traducidos. En este corpus, los terminos ingleses "file system" y "system files" ocurren muy a menudo. De manera similar, los terminos franceses correspondientes "systeme de fichiers" y "fichiers systeme" tambien aparecen juntos muy a menudo. Ya que estas colocaciones monolingues son comunes, los pares de traduccion espurios fichier/system y systeme/file tambien reciben altas puntuaciones de asociacion. Estas puntuaciones pueden ser mayores, de hecho, que las puntuaciones para muchos autenticos pares de traduccion.

Esta deficiencia se ha abordado mediante algunas tecnicas anteriores. Por ejemplo, Melamed, Automatic Construction of Clean Broad-Coverage Translation Lexicons, Segunda Conferencia de la Asociacion para Traduccion a Maquina en America (AMTA 1996), Montreal, Canada, se dirige a este problema.

Melamed aborda este problema ignorando las parejas de palabras altamente asociadas como traducciones si se derivan de oraciones alineadas en las que existen parejas asociadas incluso mas altamente que implican una o mas de las mismas palabras. En otras palabras, se asume que las asociaciones mas fuertes tambien son mas fiables y de esta manera las asociaciones directas son mas fuertes que las asociaciones indirectas. Por tanto, si un segmento (u oracion) que contiene V se alinea con un segmento (u oracion) que contiene tanto W como W', las entradas (V, W) y (V, W') no debenan aparecer en el lexicon de traduccion. Si lo hacen, entonces al menos una es probablemente incorrecta. Ya que se asume que existe la tendencia de que las asociaciones directas son mas fuertes que las asociaciones indirectas, entonces la entrada con la puntuacion de relacion mas alta es la que se elige como la asociacion correcta.

5

10

15

20

25

30

35

40

45

50

55

En el anterior ejemplo analizado, en las oraciones en ingles y frances paralelas que contienen "fichief y "systeme" en el lado frances y "file" y "system" en el lado ingles, las asociaciones de fichier/system y systeme/file se descontaran, porque el grado de asociacion para "fichier/file" y "systeme/system" sera probablemente mucho mayor en las mismas oraciones alineadas.

Aunque este enfoque parece extender una alta precision de salida a niveles de cobertura mucho mayores de lo que se informo anteriormente, tambien tiene desventajas. Por ejemplo, es muy complejo y diffcil de implementar, y se cree que lleva bastante tiempo de ejecutar.

Otra dificultad encontrada en el aprendizaje de correspondencias de traduccion entre las palabras implica compuestos (o secuencias de multiples palabras que se unen para formar compuestos). Tales compuestos pueden traducirse en una unica palabra en otro idioma, o multiples palabras en el otro idioma. Las tecnicas anteriores asumfan que las correspondencias de traduccion lexicas implicaban una unica palabra. Por supuesto, tal como se muestra en la siguiente lista de compuestos, esto es manifiestamente incierto:

Base_de_donnees/database

Mot_de_passe/password

Sauvegarder/back_up

Annuler/roll_back

Ouvrir_session/log_on

En los primeros cuatro pares antes mencionados, un compuesto en un idioma se traduce como una unica palabra en otro idioma. Sin embargo, en el ultimo ejemplo, un compuesto en un idioma se traduce como un compuesto en el otro idioma, y cada uno de los componentes individuales del compuesto no puede traducirse de manera significativa en uno de los componentes individuales en el otro compuesto. Por ejemplo, "ouvrit', que se traduce tfpicamente como "open", no puede traducirse razonablemente ni como "log" ni como “on". De manera similar, "session" que se traduce normalmente como "session" tampoco puede traducirse razonablemente ni como "log" ni como "on".

Un intento anterior para abordar este problema tambien se analizo por Melamed, Automatic Discovery of NonCompositional Compounds in Parallel Data, Conferencia de Procedimientos Empmcos en el Procesamiento de Idioma Natural (EMNLP 97) Providence, Rhode Island (1997). Melamed induce dos modelos de traduccion, un modelo de traduccion de prueba que implica un compuesto candidato y un modelo de traduccion de base que no lo hace. Si el valor de la funcion objetiva de Melamed es mayor en el modelo de prueba que en el modelo de base, entonces el compuesto se considera valido. De lo contrario, el compuesto candidato se considera invalido. Sin embargo, el procedimiento que usa Melamed para seleccionar compuestos potenciales es bastante complejo y computacionalmente caro, ya que es su procedimiento de verificacion por construccion de un modelo de traduccion de prueba.

Sumario de la invencion

Un corpus de preparacion bilingue paralelo se analiza sintacticamente en sus palabras de contenido. Las puntuaciones de asociacion de palabras para cada pareja de palabras de contenido consisten en una palabra de un idioma L1 que ocurre en una oracion alineada en el corpus bilingue con una oracion en el idioma L2 en el que ocurre la otra palabra. Una pareja de palabras se considera "vinculada" en una pareja de oraciones alineadas si una de las palabras es la que tiene la asociacion mas alta, de todas las palabras en esa oracion, con la otra palabra. La aparicion de compuestos se conjetura en los datos de preparacion mediante identificacion maxima, con conjuntos conectados de palabras vinculadas a cada pareja de oraciones alineadas en los datos de preparacion puntuados y procesados. Siempre que uno de estos conjuntos conectados maximos contenga mas de una palabra en uno o ambas idiomas, el subconjunto de las palabras en ese idioma se conjetura como un compuesto. El texto de entrada original se reescribe, sustituyendo los compuestos conjeturados por sfmbolos unicos fusionados. Las puntuaciones de asociacion vuelven a computarse para los compuestos (que se han sustituido por sfmbolos fusionados) y cualquier palabra individual restante en el texto de entrada. Las puntuaciones de asociacion vuelven a computarse de nuevo, excepto que esta vez, las apariciones simultaneas se tienen en cuenta al computar las puntuaciones de asociacion solo donde no existe otra asociacion igualmente fuerte o mas fuerte en una pareja particular de oraciones alineadas en el corpus de preparacion.

Las parejas de traduccion pueden identificarse como aquellas parejas de palabras o parejas de sfmbolos que tienen puntuaciones de asociacion por encima de un umbral, despues de la computacion final de puntuaciones de asociacion.

Por supuesto, la presente invencion tambien puede incorporarse simplemente como un procedimiento o sistema para conjeturar apariciones de compuestos en datos de preparacion que comprende un corpus bilingue alineado.

De manera similar, la descripcion incluye un procedimiento de identificacion de traducciones de "captoides", mediante lo que se hace referencia a tttulos, u otras oraciones especiales, cuyas palabras estan en mayusculas. (Encontrar traducciones de captoides presenta un problema especial en idiomas como el frances o espanol, en los que la convencion dicta que solo la primera palabra de tal artfculo se pone en mayusculas, por lo que la extension de la traduccion captoide es diffcil de determinar). En ese ejemplo, los compuestos se identifican primero en un idioma

5

10

15

20

25

30

35

40

45

50

55

60

fuente (tal como ingles). Esto puede realizarse encontrando series de texto donde la primera palabra comienza con una mayuscula, y los ultimos s^bolos en la serie contigua no comienzan con una letra minuscula. A continuacion, se conjeturan los compuestos en el texto meta encontrando palabras que comienzan con una mayuscula y marcando esto como el posible inicio en el compuesto correspondiente. El texto meta se escanea entonces de izquierda a derecha marcando palabras posteriores que son las que estan mas fuertemente relacionadas con palabras en el compuesto identificado en el texto fuente, permitiendo a la vez hasta un numero predeterminado (por ejemplo, 2) de palabras contiguas no altamente relacionadas, siempre que vayan seguidas de una palabra mas altamente relacionada.

El escaneo de izquierda a derecha puede continuar hasta que se encuentren mas del numero predeterminado (por ejemplo, mas de 2) de palabras contiguas que no estan mas altamente relacionadas con palabras en el compuesto identificado en el texto fuente, o hasta que no haya mas palabras mas altamente relacionadas presentes en el texto meta, o hasta que la puntuacion se alcance.

Breve descripcion de los dibujos

La Figura 1 es un diagrama de bloques de un contexto general en el que la presente invencion puede usarse.

La Figura 2 es un diagrama de bloques mas detallado de una arquitectura de traduccion a maquina general en la que la presente invencion puede usarse.

La Figura 3 es un diagrama de flujo que ilustra una realizacion de derivar correspondencias de traduccion entre palabras en un corpus bilingue alineado.

Las Figuras. 4A-5 ilustran diferentes relaciones de asociacion de palabras estadfsticas entre palabras en dos idiomas diferentes.

La Figura 6 es un diagrama de flujo que ilustra una realizacion de identificacion de compuestos conjeturados.

La Figura 7 ilustra la identificacion de conjuntos conectados y maximos de palabras en parejas de oraciones alineadas en los datos de preparacion.

La Figura 8 ilustra compuestos de conjetura a partir de los conjuntos conectados maximos identificados en la Figura 7.

La Figura 9 ilustra una serie de entrada reescrita usando unicos sfmbolos para representar compuestos conjeturados.

La Figura 10 es un diagrama de flujo que ilustra la identificacion de traducciones de captoides.

La Figura 11 es un diagrama de flujo que ilustra como se conjeturan los compuestos correspondientes a captoides identificados.

Descripcion detallada de realizaciones ilustrativas

El analisis de la Figura 1 a continuacion es simplemente para exponer solo un entorno ilustrativo en el que la presente invencion puede usarse, aunque puede usarse tambien en otros entornos.

La Figura 1 es un diagrama de bloques de un ordenador 20 de acuerdo con una realizacion ilustrativa de la presente invencion. La Figura 1 y el analisis relacionado van destinados a proporcionar una breve descripcion general de un entorno de computacion adecuado en el que la invencion puede implementarse. Aunque no es necesario, la invencion se describira, al menos en parte, en el contexto general de instrucciones ejecutables por ordenador, tal como modulos informaticos, que se ejecutan mediante un ordenador personal. Generalmente, los modulos de programa incluyen programas de rutina, objetos, componentes, estructuras de datos, etc., que realizan tareas particulares o implementan tipos de datos abstractos particulares. Ademas, los expertos en la materia apreciaran que la invencion puede practicarse con otras configuraciones de sistema informatico, incluyendo dispositivos manuales, sistemas de multiprocesador, sistemas electronicos de consumidor programables o basados en microprocesador, redes PC, miniordenadores, ordenadores centrales y similares. La invencion tambien puede practicarse en entornos de computacion distribuidos donde las tareas se realizan mediante dispositivos de procesamiento remoto que se vinculan a traves de una red de comunicaciones. En un entorno de computacion distribuido, los modulos de programa pueden ubicarse en dispositivos de almacenamiento de memoria tanto locales como remotos.

En la Figura 1, un sistema ejemplar para implementar la invencion incluye un dispositivo de computacion de fin general en la forma de un ordenador 20 personal convencional, que incluye una unidad 21 de procesamiento, una memoria 22 de sistema y un bus 23 de sistema que acopla diversos componentes de sistema incluyendo la memoria del sistema con la unidad 21 de procesamiento. El bus 23 de sistema puede ser cualquiera de diversos tipos de estructura de bus que incluye un bus de memoria o un controlador de memoria, un bus periferico y un bus local usando cualquiera de una variedad de arquitecturas de bus. La memoria del sistema incluye memoria 24 de solo lectura (ROM) y memoria 25 de acceso aleatorio (RAM). Una entrada/salida 26 basica (BIOS), que contiene la rutina basica que ayuda a transferir informacion entre elementos dentro del ordenador 20 personal, tal como durante el inicio, se almacena en la ROM 24. El ordenador 20 personal incluye ademas una unidad 27 de disco duro desde la que leer y escribir en un disco duro (no se muestra), una unidad 28 de disco magnetico desde la que leer o escribir en el disco 29 magnetico desmontable y una unidad 30 de disco optico desde la que leer o escribir en un disco 31 optico desmontable tal como un CD ROM u otros medios opticos. La unidad 27 de disco duro, la unidad 28 de disco magnetico y la unidad 30 de disco optico se conectan al bus 23 de sistema mediante una interfaz 32 de unidad de

5

10

15

20

25

30

35

40

45

50

55

disco duro, una interfaz 33 de unidad de disco magnetico y una interfaz 34 de unidad optica, respectivamente. Las unidades y los medios legibles por ordenador asociados proporcionan un almacenamiento no volatil de instrucciones legibles por ordenador, estructuras de datos, modulos de programa y otros datos para el ordenador 20 personal.

Aunque el entorno ejemplar descrito en el presente documento emplea un disco duro, un disco 29 magnetico desmontable y un disco 31 optico desmontable, debena apreciarse por parte de los expertos en la materia que otros tipos de medios legibles por ordenador que pueden almacenar datos que son accesibles mediante un ordenador, tal como casetes magneticos, tarjetas de memoria flash, discos de video digital, cartuchos Bernoulli, memorias de acceso aleatorio (RAM), memorias de solo lectura (ROM), y similares, tambien pueden usarse en el entorno operativo ejemplar.

Un numero de modulos de programa pueden almacenarse en el disco duro, disco 29 magnetico, disco 31 optico, ROM 24 o RAM 25, incluyendo un sistema 35 operativo, uno o mas programas 36 de aplicacion, otros modulos 37 de programa y datos 38 de programa. Un usuario puede introducir ordenes e informacion en el ordenador 20 personal a traves de dispositivos de entrada, tal como un teclado 40 y un dispositivo 42 de apuntado. Otros dispositivos de entrada (no se muestran) pueden incluir un microfono, palanca de control, mando de juegos, antena parabolica, escaner, o similar. Estos y otros dispositivos de entrada se conectan a menudo a la unidad 21 de procesamiento a traves de una interfaz 45 de puerto en serie que se acopla al bus 23 de sistema, pero que puede conectarse mediante otras interfaces, tal como una tarjeta de sonido, un puerto paralelo, un puerto de juegos o un bus en serie universal (USB). Un monitor 47 u otro tipo de dispositivo de visualizacion tambien se conecta al bus 23 de sistema mediante una interfaz, tal como un adaptador 48 de video. Ademas del monitor 47, los ordenadores personales pueden incluir normalmente otros dispositivos de salida perifericos tales como un altavoz e impresoras (no se muestra).

El ordenador 20 personal puede funcionar en un entorno de red usando conexiones de logica a uno o mas ordenadores remotos, tales como un ordenador 49 remoto. El ordenador 49 remoto puede ser otro ordenador personal, un servidor, un router, una red PC, un dispositivo por pares u otro nodulo de red, que incluye normalmente cualquiera o todos los elementos descritos en relacion con el ordenador 20 personal , aunque solo un dispositivo 50 de almacenamiento de memoria se ha ilustrado en la Figura 1. Las conexiones logicas representadas en la Figura 1 incluyen una red 51 de area local (LAN) y una red 52 de area amplia (WAN). Tales entornos de red son lugares comunes en oficinas, intranets de red informatica en todas las empresas y en Internet.

Cuando se utiliza en un entorno de red LAN, el ordenador 20 personal se conecta a la red 51 de area local a traves de una interfaz o adaptador 53 de red. Cuando se usa un entorno de red WAN, el ordenador 20 personal incluye normalmente un modem 54 u otro medio para establecer comunicaciones sobre una red 52 de area amplia, tal como Internet. El modem 54, que puede ser interno o externo, se conecta al bus 23 de sistema por medio de una interfaz 46 de puerto en serie. En un entorno de red, los modulos de programa representados en relacion con el ordenador 20 personal, o porciones del mismo, pueden almacenarse en los dispositivos de almacenamiento de memoria remotos. Se apreciara que las conexiones de red mostradas son ejemplares y pueden usarse otros medios de establecer un enlace de comunicaciones entre los ordenadores.

La presente invencion puede utilizarse para derivar correspondencias de traduccion entre palabras sustancialmente en cualquier entorno o contexto. La arquitectura de traduccion a maquina que se va a describir solo es un entorno o contexto.

Aunque las formas logicas no se necesitan para la presente invencion, se analizan en relacion con la arquitectura de traduccion a maquina mostrada en la Figura 2. Por tanto, antes de realizar esa arquitectura en mas detalle, un breve analisis de una forma logica sera util. Un analisis completo y detallado de formas logicas y sistemas y procedimientos para generarlas puede hallarse en la Patente de EE.UU. N.° 5.966.686 de Heidorn y col., presentada el 12 de octubre de 1999 y titulada METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES. En resumen, sin embargo, las formas logicas se generan realizando un analisis morfologico de una entrada de texto para producir analisis estructurales de frase convencional aumentados con relaciones gramaticales. Los analisis sintacticos sufren un procesamiento adicional para derivar formas logicas que son estructuras de grafico que describen dependencias etiquetadas entre palabras de contenido en la entrada textual. Las formas logicas normalizan ciertas alternancias sintacticas, (por ejemplo, activa/pasiva) y resuelven tanto anaforas dentro de la oracion como dependencias de larga distancia.

Espedficamente, una relacion logica consiste en dos palabras unidas mediante un tipo de relacion direccional (por ejemplo, Parte, Tiempo, Hiperonimo, Sujeto Logico, Causa, Dominio, Ubicacion, Manera, Material, Medio, Modificador, Poseedor, Fin, Cuasihiperonimo, Sinonimo, Objeto Logico y Usuario). Una forma logica es un grafico de relaciones logicas conectadas que representan una unica entrada textual, tal como una oracion. Esto consiste mmimamente en una relacion logica. La forma logica representa relaciones estructurales (por ejemplo, relaciones sintacticas y semanticas), particularmente relaciones adjuntas y/o de argumentos entre palabras importantes en una serie de entrada.

En una realizacion ilustrativa de la arquitectura de traduccion a maquina, el codigo particular que construye las formas logicas a partir de analisis sintacticos se comparte por los diversos idiomas fuente y meta en los que opera el

5

10

15

20

25

30

35

40

45

50

55

sistema de traduccion a maquina. La arquitectura compartida simplifica en gran medida la tarea de alinear los segmentos de forma logica a partir de diferentes idiomas ya que unas construcciones superficialmente distintas en dos idiomas se colapsan frecuentemente en representaciones de forma logica identicas o similares.

La Figura 2 es un diagrama de bloques de una arquitectura de un sistema 200 de traduccion a maquina que define una realizacion de un entorno para la presente invencion. El sistema 200 incluye componentes 204 y 206 de analisis sintactico, un componente 208 de aprendizaje de asociacion de palabras estadfstico (donde reside el volumen de la presente invencion, en este entorno), un componente 210 de alineacion de forma logica, un componente 212 de construccion de base de conocimiento lexico, un diccionario 214 bilingue, un componente 216 de fusion de diccionarios, una base 218 de datos de mapeo de transferencia y un diccionario 220 bilingue actualizado. Durante el tiempo de ejecucion, el sistema utiliza un componente 222 de analisis, un componente 224 de coincidencia, un componente 226 de transferencia y un componente 228 de generacion.

En una realizacion ilustrativa, un corpus bilingue se usa para preparar el sistema. El corpus bilingue incluye oraciones traducidas alineadas (por ejemplo, oraciones en un idioma fuente o meta, tal como ingles, alineadas con sus traducciones en el otro idioma fuente o meta, tal como espanol o frances, etc.). Durante la preparacion, las oraciones se suministran desde el corpus bilingue alineado al sistema 200 como oraciones 230 fuente (las oraciones a traducir) y como oraciones 232 meta (la traduccion de las oraciones fuente). Los componentes 204 y 206 de analisis sintactico analizan las oraciones sintacticamente desde el corpus bilingue alineado para producir formas 234 logicas fuente y formas 236 logicas meta. Durante el analisis sintactico, las palabras en las oraciones se convierten a formas de palabras normalizadas (lemas). El termino "lema" tal como se usa en el presente documento se refiere a una palabra troncal o rafz para una palabra de contenido. Por ejemplo, "dormir" es el lema para las formas superficiales "dormir", "durmiendo" y "dormido". Tambien debena apreciarse, sin embargo, que aunque una realizacion de la presente invencion se aplica a lemas de palabra de contenido, en otra realizacion, la invencion puede aplicarse a formas de superficie en su lugar, pero los resultados pueden sufrir de alguna manera. En cualquier caso, los lemas se suministran despues a un componente 208 de aprendizaje de asociacion de palabras estadfstico. Tanto las asociaciones de palabras unicas como las de multiples palabras se conjeturan de manera iterativa y puntuan mediante el componente 208 de aprendizaje hasta que se obtiene un conjunto fiable de cada una. El componente 208 de aprendizaje de asociacion de palabras estadfstico envfa las parejas 238 de traduccion de palabras unicas aprendidas asf como las parejas 240 de multiples palabras.

Las parejas 240 de multiples palabras se proporcionan a un componente 216 de fusion de diccionarios que se usa para anadir entradas adicionales al diccionario 214 bilingue para formar el diccionario 220 bilingue actualizado. Las nuevas entradas son representativas de las parejas 240 de multiples palabras.

Las parejas 238 de palabras unicas, junto con la formas 234 logicas fuente y las formas 236 logicas meta, se proporcionan al componente 210 de alineacion de forma logica. El componente 210 primero establece correspondencias lexicas provisionales entre nodulos en las formas 230 y 236 logicas fuente y meta respectivamente. Esto se realiza usando parejas de traduccion a partir de un lexicon 214 bilingue (o diccionario bilingue) que se aumentan con las parejas 238 de traduccion de palabras unicas a partir del componente 208 de aprendizaje de asociacion de palabras estadfstico. Despues de establecer posibles correspondencias, el componente 210 de alineacion alinea los nodulos de forma logica de acuerdo tanto con caractensticas lexicas como estructurales y crea los mapeos 242 de transferencia de forma logica.

Basicamente, el componente 210 de alineacion extrae enlaces entre formas logicas usando la informacion 214 de diccionario bilingue y las parejas 238 de palabras unicas. Los mapeos de transferencia se filtran basandose en la frecuencia con la que se encuentran en las formas 234 y 236 logicas fuente y meta y se proporcionan a un componente 212 de construccion de base de conocimiento lexico.

En un ejemplo, si el mapeo de transferencia no se ve al menos dos veces en los datos de preparacion, no se usa para construir la base 218 de datos de mapeo de transferencia, aunque cualquier otra frecuencia deseada puede usarse como un filtro tambien. Debena apreciarse que otras tecnicas de filtrado pueden usarse tambien, diferentes de la frecuencia de aparicion. Por ejemplo, los mapeos de transferencia pueden filtrarse basandose en si se forman a partir de analisis sintacticos completos de las oraciones de entrada y basandose en si las formas logicas usadas para crear los mapeos de transferencia se alinean completamente.

El componente 212 construye la base 218 de datos de mapeo de transferencia que contiene mapeos de transferencia que enlazan basicamente formas logicas, o partes de las mismas, en un idioma, con formas logicas, o partes de las mismas, en el segundo idioma. Con la base 218 de datos de mapeo de transferencia creada de esta manera, el sistema 200 se configura ahora para traducciones de tiempo de ejecucion.

Durante el tiempo de ejecucion, una oracion 250 fuente, a traducir, se proporciona al componente 222 de analisis. El componente 222 de analisis recibe la oracion 250 fuente y crea una forma 252 logica fuente basandose en la entrada de oracion fuente.

Un ejemplo puede ser util. En el presente ejemplo, la oracion 250 fuente es una oracion en espanol "Haga clic en el boton de opcion" que se traduce a ingles como "Click the option button" o, literalmente, "Make click in the button of

5

10

15

20

25

30

35

40

45

50

55

option".

La forma 252 logica fuente se proporciona a un componente 224 de coincidencia. El componente 224 de coincidencia intenta hacer coincidir la forma 252 logica fuente con las formas logicas en la base 218 de datos de mapeo de transferencia para obtener una forma 254 logica enlazada. Los multiples mapeos de transferencia pueden hacer coincidir porciones de la forma 252 logica fuente. El componente 224 de coincidencia busca el mejor conjunto de mapeos de transferencia de coincidencia en la base 218 de datos que tiene lemas de coincidencia, partes de dialogo y otra informacion caractenstica. Los mapeos de transferencia mas grandes (mas espedficos) pueden preferirse ilustrativamente a los mapeos de transferencia mas pequenos (mas generales). Entre los mapeos de igual tamano, el componente 224 de coincidencia puede preferir ilustrativamente los mapeos de mayor frecuencia. Los mapeos tambien pueden hacer coincidir porciones de superposicion de la forma 252 logica fuente siempre que no esten en conflicto de ninguna manera.

Despues de que se encuentre un conjunto optimo de mapeo de transferencia de coincidencia, el componente 224 de coincidencia crea enlaces o nodulos en la forma 252 logica fuente para copias de los segmentos de forma logica meta correspondientes recibidos por los mapeos de transferencia, para generar la forma 254 logica enlazada.

El componente 226 de transferencia recibe la forma 254 logica enlazada desde el componente 224 de coincidencia y crea una forma 256 logica meta que formara la base de la traduccion meta. Esto se hace realizando un recorrido de arriba a abajo de la forma 254 logica enlazada en la que se combinan los segmentos de forma logica meta a los que apuntan los enlaces en los nodulos de la forma 252 logica fuente. Al combinar entre sf los segmentos de forma logica para mapeos de multiples palabras posiblemente complejos, los subenlaces establecidos por el componente 224 de coincidencia entre nodulos individuales se usan para determinar puntos de union correctos para modificadores, etc. Los puntos de union por defecto se usan en caso necesario.

En casos donde no se encuentran mapeos de transferencia aplicables, los nodulos en la forma 252 logica fuente y sus relaciones se copian simplemente en la forma 256 logica meta. Las traducciones por defecto de palabras unicas todavfa pueden encontrarse en la base 218 de datos de mapeo de transferencia para estos nodulos e insertarlas en la forma 256 logica meta. Sin embargo, si no se encuentra ninguna, las traducciones pueden obtenerse ilustrativamente desde el diccionario 220 bilingue actualizado que se uso durante la alineacion.

El componente 228 de generacion es ilustrativamente un componente de generacion basado en reglas e independiente de la aplicacion que mapea a partir de la forma 256 logica meta a la serie 258 meta (u oracion meta de salida). El componente 228 de generacion puede no tener ilustrativamente ninguna informacion referente al idioma fuente de las formas logicas de entrada, y trabaja exclusivamente con informacion recibida desde el componente 226 de transferencia. El componente 228 de generacion tambien usa ilustrativamente esta informacion junto con un diccionario monolingue (por ejemplo, para el idioma meta) para producir la oracion 258 meta. Un componente 228 de generacion generico es de esta manera suficiente para cada idioma.

Con el anterior contexto en mente, el presente analisis continua ahora mas espedficamente con respecto al componente 208 de aprendizaje de asociacion de palabras estadfstico. Debena apreciarse de nuevo que, aunque el presente contexto ilustra el componente 208 que funciona en formas logicas y en una arquitectura de traduccion a maquina, ese no tiene que ser necesariamente el caso. En su lugar, el componente 208 puede operar simplemente en corpus alineados que se han dividido en sfmbolos (o dividido en palabras individuales). El componente 208 tambien puede usarse para realizar otras tareas, diferentes de hacer funcionar un traductor a maquina. Por ejemplo, el componente 208 tambien puede usarse al formar un diccionario, o puede simplemente usarse para generar puntuaciones de asociacion de palabras o relaciones entre palabras en diferentes idiomas, y no necesita funcionar en el contexto de un traductor a maquina. El anterior analisis se proporciona a modo de ejemplo unicamente.

La Figura 3 es un diagrama de flujo que ilustra un procedimiento por el que el componente 208 deriva parejas de traduccion (o correspondencias de traduccion entre parejas de palabras en diferentes idiomas). En primer lugar, el componente 208 obtiene acceso a un corpus bilingue alineado. Esto se indica mediante el bloque 300. El corpus sufre un analisis sintactico en sus palabras componentes (por ejemplo, lemas antes analizados, pero tambien podna mantenerse en forma de superficie). Esto se indica mediante el bloque 302. Por supuesto, en el contexto antes ilustrado, el corpus alineado sufre un analisis sintactico mediante los componentes 204 y 206 de analisis sintactico en formas 234 y 236 logicas fuente y meta. Sin embargo, la presente invencion no se confina a operar en entradas textuales que sufren analisis sintacticos en formas logicas, sino que en su lugar simplemente necesita que los corpus alineados sufran un analisis sintactico en sus palabras de contenido. Ademas, el analizador sintactico tambien puede identificar determinados compuestos lexicos si son unidades unicas. Si tales expresiones de multiples palabras se colocan en el lexicon, porque tienen un significado o uso espedfico, o porque estan en uno de un numero categonas generales tales como nombres propios, nombres de lugares, expresiones de tiempo, fechas, expresiones de medicion, etc., se identifican como multiples palabras.

El componente 208 a continuacion computa las puntuaciones de asociacion de palabras para parejas de palabras individuales en el corpus bilingue alineado y analizado sintacticamente. Esto se indica mediante el bloque 304. Aunque puede usarse cualquier metrica de asociacion de palabras que proporcione una puntuacion indicativa de una asociacion de palabras estadfstica entre parejas de palabras en el corpus de preparacion, la presente invencion

5

10

15

20

25

30

35

40

45

50

55

60

usa la estadfstica de relacion de probabilidad de registro analizada por Dunning en Dunning, Accurate Methods for the Statistics of Surprise and Coincidence, Computational Linguistics, 19(1):61-74(1993). Esta estadfstica se usa para comparar la frecuencia general de una palabra o lema en el idioma 1 (WL1) en los datos de preparacion con la frecuencia de una palabra o lema en el idioma 1 (WLi) dada una palabra o lema en el idioma 2 (WL2) (es decir, la frecuencia con la que WLi ocurre en oraciones de Li que se alinean con oraciones de L2 en las que ocurre WL2). Al aplicar la estadfstica de relacion de probabilidad de registro se proporciona por tanto una medicion de la probabilidad de que una asociacion positiva observada entre WLi y WL2 no sea accidental.

La lista de parejas de palabras para las que se computan puntuaciones de asociacion tambien puede recortarse. En otras palabras, el procedimiento de computacion de las puntuaciones de asociacion de palabras genera puntuaciones de asociacion para un gran numero de parejas de palabras (o lemas) para un corpus de preparacion grande. Por tanto, en una realizacion ilustrativa, el conjunto de parejas de palabras se recorta para limitar adicionalmente el procesamiento a esas parejas que tienen al menos alguna posibilidad de considerarse como parejas de traduccion. Una heunstica ilustrativa establece este umbral como el nivel de asociacion de parejas de palabras o lemas que tienen una aparicion conjunta, mas otra aparicion cada una.

A continuacion, el componente 208 conjetura la aparicion de componentes en los datos de preparacion y sustituye los componentes conjeturados por un unico sfmbolo. Esto se indica mediante el bloque 306. Un ejemplo generalizado puede ser util.

La Figura 4A muestra una secuencia de palabras en oraciones alineadas en ingles y frances. Las palabras en la secuencia en ingles se representan mediante Ex y las palabras en la secuencia en frances se representan mediante Fx. Las flechas que apuntan desde la secuencia en ingles a la secuencia en frances ilustran con que palabras en frances estan mas fuertemente asociadas las palabras inglesas correspondientes. Por tanto, puede verse que Ei, por ejemplo, esta mas fuertemente asociada con Fi. Las flechas que apuntan desde la secuencia en frances a la secuencia en ingles ilustran cuales de las palabras inglesas tiene una asociacion mas fuerte con las palabras en frances correspondientes, basandose en las puntuaciones de asociacion de palabras. Por tanto, en el ejemplo, tambien puede verse que Fi esta mas fuertemente asociada con Ei. Ya que cada una de las palabras inglesas esta mas fuertemente asociada con una palabra en frances correspondiente, y esa palabra en frances esta mas fuertemente asociada con la palabra inglesa correspondiente, se dice que existe una correspondencia simple de i a i entre la secuencia de palabras en ingles y la secuencia de palabras en frances.

De manera similar, la Figura 4B tambien muestra una correspondencia de i a i entre las secuencias de palabras. La Figura 4B es algo diferente a la Figura 4A porque la palabra en ingles Ei esta mas fuertemente asociada con la palabra en frances F2, y la palabra en ingles e2 esta mas fuertemente asociada con la palabra en frances Fi. Sin embargo, la palabra en frances Fi tambien esta mas fuertemente asociada con la palabra en ingles E2 y la palabra en frances F2 esta mas fuertemente asociada con la palabra en ingles Ei. Por tanto, todavfa existe una correspondencia de i a i entre las secuencias de palabras, pero el orden de las palabras en frances es ligeramente diferente al orden de las palabras en ingles.

La Figura 5, sin embargo, ilustra un caso ligeramente diferente. En la Figura 5, las palabras en ingles Ei y E4 tienen una asociacion de i a i con las palabras en frances Fi y F4, respectivamente. Sin embargo, aunque la palabra en ingles E2 esta mas fuertemente asociada con la palabra en frances F2 y la palabra en frances F2 esta mas fuertemente asociada con la palabra en ingles E2, la palabra en frances F3 tambien esta mas fuertemente asociada con la palabra en ingles E2. Por tanto, las palabras en ingles E2 y E3 y las palabras en frances F2 y F3 no tienen una correspondencia de i a i. Esta falta de correspondencia de i a i indica en gran medida la necesidad de conjeturar compuestos para obtener traducciones correctas. Tal como se describe en mas detalle con respecto a la Figura 6, las palabras en ingles E2 y E3 y las palabras en frances F2 y F3 se conjeturan como compuestos y se sustituyen por sfmbolos fusionados (por ejemplo, E2_E3 y F2_F3) en el texto de entrada original.

El componente 208 vuelve a computar a continuacion las puntuaciones de asociacion para el texto de entrada reescrito (es decir, los compuestos y cualquier palabra individual restante). Esto se indica mediante el bloque 308 en la Figura 3. Esto repite basicamente la etapa indicada en el bloque 304, con el texto reescrito en terminos de los compuestos conjeturados.

A continuacion, las puntuaciones de asociacion se vuelven a computar de nuevo. Sin embargo, esta vez solo las apariciones conjuntas se tienen en cuenta, donde no existe otra asociacion igualmente fuerte o mas fuerte en las oraciones alineadas. Esto se indica en el bloque 3i0. En otras palabras, asumiendo que todos los compuestos necesarios para la traduccion se han identificado correctamente y reformulado en los datos de preparacion como un unico artfculo, los datos de preparacion pueden tratarse como si todas las traducciones fueran de i a i. Por tanto, el conjunto final de parejas de traduccion clasificadas se elige asumiendo que las parejas de traduccion autenticas siempre estaran mutuamente mas fuertemente asociadas en una determinada pareja de oraciones alineadas. De esta manera, la recomputacion de las puntuaciones de asociacion indicada mediante el bloque 3i0 se realiza de la misma manera que la indicada en el bloque 308, excepto que las palabras en diferentes idiomas (WLi y WL2) se consideran como una aparicion conjunta solo si WLi esta unicamente mas fuertemente asociada con WL2 y WL2 esta unicamente mas fuertemente asociada con WLi, entre las palabras (o lemas o lemas compuestos) presentes en una determinada pareja de oraciones alineadas. Las asociaciones computadas en la etapa 308 se usan para tomar

5

10

15

20

25

30

35

40

45

50

55

esta decision. El conjunto final de asociaciones se clasifica entonces en orden decreciente de acuerdo con la fuerza de asociacion.

Finalmente, aquellas parejas de palabras y/o compuestos que tienen puntuaciones de asociacion por encima de un umbral en la lista final se identifican como traducciones entre sr Esto se indica en el bloque 312. El umbral puede elegirse empmcamente, puede elegirse basandose en un analisis lingufstico de los resultados proporcionados en la lista de parejas final o puede elegirse usando otra tecnica deseada.

La Figura 6 es un diagrama de flujo que ilustra, en mayor detalle, como los componentes se conjeturan tal como se expone en el bloque 306 en la Figura 3. Esto se analizara con respecto al ejemplo mostrado en la Figura 5 donde no existe una correspondencia directa de 1 a 1 entre las secuencias de palabras originales en las oraciones alineadas.

En primer lugar, para cada palabra en una pareja alineada de oraciones, el componente 208 identifica la palabra mas fuertemente asociada en la otra oracion de la pareja. En otras palabras, el componente 208 construye basicamente el grafico o una representacion del grafico ilustrado en la Figura 5. Esto se indica mediante el bloque 320 en la Figura 6.

El componente 208 encuentra a continuacion los conjuntos conectados maximos de palabras dentro de los graficos. Esto se indica mediante el bloque 322. Basicamente, el componente 208 examina el grafico creado para identificar areas donde los artfculos en el grafico pueden agruparse (o rodearse) y ninguna flecha se extiende fuera de esa area. Esto se representa mediante los drculos discontinuos mostrados en la Figura 7. Cada uno de los grupos de palabras abarcado en uno de los drculos discontinuos se identifica como un conjunto conectado maximo. Todos los artfculos en los conjuntos conectados maximos estan de esta manera mas fuertemente asociados con otro artfculo en el conjunto conectado maximo, y ninguno esta mas fuertemente asociado con artfculos fuera del conjunto conectado maximo.

El componente 208 divide entonces los conjuntos conectados maximos en los dos idiomas diferentes y conjetura que tres componentes de multiples palabras de los conjuntos conectados maximos en cada idioma son compuestos. Esto se indica mediante el bloque 324. Por ejemplo, la Figura 8 muestra que los conjuntos conectados maximos de la Figura 7 se han dividido mediante una lmea horizontal que divide la secuencia de palabras en ingles de la secuencia de palabras en frances. El componente 208 conjetura de esta manera que los componentes de multiples palabras de los conjuntos conectados maximos en cada idioma (componentes E2 y E3 en el idioma ingles y componentes F2 y F3 en el idioma frances) son compuestos. Esto identifica compuestos, por ejemplo, tal como "ouvir_session" y "log_on".

El componente 208 reescribe entonces el archivo de entrada original sustituyendo los componentes conjeturados (E2 y E3 y F2 y F3) por sfmbolos fusionados. Esto se indica mediante el bloque 326. La Figura 9 ilustra esta etapa en mayor detalle. En la Figura 9, el termino E2_E3 representa el sfmbolo en ingles correspondiente a los artfculos E2 y E3 en el texto original y el artfculo F2_F3 se corresponde con un sfmbolo que representa las palabras F2 y F3 en el texto de entrada frances original. Habiendo conjeturado y reescrito los sfmbolos de esta manera, el procedimiento continua con respecto al bloque 308 en la Figura 3 donde se computan las puntuaciones de asociacion de palabras para los compuestos y las palabras individuales restantes.

Tambien puede abordarse otro problema que surge al realizar el analisis sintactico de un texto de entrada sin procesar. En muchos tipos de texto, particularmente determinados tipos de textos tecnicos, las frases no se usan de manera normal, sino que en su lugar se usan como el nombre de algo en ese dominio en particular. Por ejemplo, la oracion "Click to remove the View ^s Web Page check mark' incluye el termino "View ^s Web Page" que tiene la forma sintactica de una frase en verbo no conjugado. Sin embargo, en la oracion, se usa como si fuera un nombre propio. Si el analizador sintactico no reconoce este uso especial de la frase, es virtualmente imposible analizar sintacticamente la oracion correctamente.

En el idioma ingles, las expresiones de este tipo pueden manejarse de manera directa, principalmente porque las convenciones de uso de mayusculas en ingles hacen que este tipo de frases sean faciles de reconocer. El conversor de sfmbolos usado para convertir en sfmbolos el texto de entrada antes de analizar sintacticamente, conjetura que esas secuencias de palabras en mayusculas, tales como "View ^s Web Page" debenan tratarse como expresiones de multiples palabras lexicalizadas. Esta subclase de multiples palabras se denomina en este documento "captoides”.

Identificar traducciones de estos captoides, sin embargo, es muy diffcil. Esto es asf principalmente porque las convenciones de uso de mayusculas en otros idiomas (tales como frances o espanol, por ejemplo), solo usan mayuscula en la primera palabra de tal expresion. Por tanto, aunque es relativamente directo en el idioma ingles determinar donde comienza y termina un captoide, es muy diffcil en otros idiomas.

Se proporciona un procedimiento que puede usarse para identificar traducciones de captoides y anadirlos al lexicon de traduccion usado mediante el analizador sintactico o usado en otros diversos lugares en el sistema de traduccion a maquina de manera que los captoides puedan traducirse con precision. El procedimiento se aprovecha del hecho de que, en ingles, tales captoides pueden identificarse de manera directa y tambien se aprovecha de las caractensticas de la presente invencion que pueden usarse para identificar compuestos. La Figura 10 es un

5

10

15

20

25

30

35

40

45

50

55

diagrama de flujo que ilustra mejor el procedimiento de identificacion de la traduccion de captoides.

En primer lugar, se reciben los datos de preparacion del corpus bilingue alineado. Esto se indica mediante el bloque 350. A continuacion, los datos de preparacion se convierten en s^bolos para obtener las diversas palabras diferentes en los datos de preparacion. Cualquier conversor de sfmbolos disponible comercialmente puede usarse, siempre que divida los datos de preparacion en palabras. Esto se indica mediante el bloque 352. A continuacion, se identifican los compuestos de multiples palabras, incluyendo captoides. Esto se indica mediante el bloque 354. En una realizacion, en ingles, los captoides se identifican buscando secuencias de palabras donde la primera palabra en la secuencia comienza con una mayuscula y las palabras posteriores en la secuencia no comienzan con letra minuscula. Esto permite la aparicion en captoides de cosas, diferentes de letras, tales como "3,0". Una vez que los captoides se identifican, las palabras en la secuencia de palabras que conforman cada captoide se agrupan como un unico sfmbolo por captoide. Esto se realiza colocando guiones bajos entre las palabras en cada secuencia de palabras que forma una captoide.

El componente 208 computa entonces puntuaciones de asociacion de palabras o estadfsticas para los sfmbolos enviados por el conversor 352 de sfmbolos, y para las palabras individuales en los captoides identificados. Las palabras individuales en cada captoide pueden identificarse de manera directa, separando simplemente los elementos del captoide en las marcas de guion bajo. La computacion de las asociaciones de palabras se indica mediante el bloque 356 en la Figura 10.

El componente 208 conjetura entonces los compuestos correspondientes en el idioma meta que se corresponden con los captoides identificados en el idioma fuente mediante el conversor de sfmbolos. Esto se indica mediante el bloque 357. Conjeturar los compuestos que se corresponden con los captoides identificados se analizara con mas detalle con respecto a la Figura 11.

El componente 208 reescribe entonces los datos de preparacion sustituyendo los compuestos conjeturados por sfmbolos unicos. Esto se indica mediante el bloque 358 en la Figura 10.

Las puntuaciones de asociacion de palabra se vuelven a computar entonces para las parejas de artfculos en los datos de preparacion donde cada artfculo en el idioma fuente (por ejemplo, ingles) o el artfculo en el idioma meta (por ejemplo, frances) es una multiple palabra que comienza con mayuscula. Esto se indica mediante el bloque 360. Esto se debe a que el procedimiento ilustrado en la Figura 10 es para identificar traducciones de captoides. Por tanto, en la etapa 360, las puntuaciones de asociacion de palabras solo deben volver a computarse para artfculos donde al menos uno de los artfculos en la pareja traduccion es un captoide (es decir, una multiple palabra que comienza con mayuscula). Las parejas resultantes se ordenan de acuerdo con la fuerza de su puntuacion de asociacion.

El componente 208 filtra entonces la lista para que incluya solo parejas de traduccion donde no existe una asociacion igualmente fuerte o mas fuerte para cada artfculo en la pareja de traduccion, en todos los datos de preparacion. Esto se indica mediante el bloque 362. Puede verse que las restricciones aplicadas en esta etapa son mas estrictas que aquellas aplicadas, por ejemplo, en el bloque 310 de la Figura 3. Esto se debe a que, mientras que una unica palabra puede tener mas de una traduccion en diferentes contextos, puede esperarse que la clasificacion de multiples palabras complejas representadas por un captoide reciba normalmente la misma traduccion sustancialmente en todos los contextos. Por tanto, solo se aceptan las traducciones que implican captoides que estan mas fuertemente asociados mutuamente y unicamente por todo el corpus.

Tambien debena apreciarse que, para centrarse en casos de mayor interes, y para incrementar la precision, otros filtros pueden colocarse en la generacion de parejas de traduccion. Por ejemplo, las parejas de traduccion pueden limitarse a aquellas que incluyen solo un artfculo meta (tal como un artfculo frances donde frances es el idioma meta) que es una de las multiples palabras construidas en este procedimiento. De manera similar, las parejas de traduccion pueden limitarse para incluir solo aquellas donde el artfculo ingles es una multiple palabra, donde todas sus palabras constituyentes estan en mayuscula. Ademas, ya que el frances se considera generalmente como un idioma mas verboso que el ingles, las parejas de traduccion pueden limitarse para incluir solo aquellas donde el artfculo frances contiene al menos tantas palabras como el artfculo ingles. Por supuesto, estas restricciones pueden adaptarse ligeramente a otros idiomas.

De nuevo, por supuesto, al igual que con la anterior realizacion, puede determinarse un umbral y solamente aquellas parejas de traduccion que tengan una puntuacion de asociacion de palabras que cumpla el umbral se consideran traducciones entre sf, y el resto pueden descartarse.

Una vez que las traducciones de los captoides se han identificado, esas traducciones se suministran ilustrativamente de vuelta a los lexicones de traduccion usados por los componentes 204 y 206 de analisis sintactico. Estas tambien pueden suministrarse como parejas 240 de multiples palabras para anadirse al diccionario 204 bilingue mediante el componente 216 de fusion de diccionarios, para obtener el diccionario 220 bilingue actualizado.

La Figura 11 es un diagrama de flujo mas detallado que ilustra como los componentes correspondientes a captoides identificados se conjeturan tal como se expone en el bloque 357 de la Figura 10. El procedimiento ilustrado en la Figura 11 asume que los captoides en el idioma fuente (por ejemplo, ingles) ya se han identificado. Por tanto, puede

5

10

15

20

25

30

35

40

45

50

verse que el procedimiento ilustrado en la Figura 11 es unidireccional, ya que solo intenta identificar traducciones de captoides en el idioma meta, donde los captoides ya se han identificado en el idioma fuente.

Tambien debena apreciarse que este procedimiento de conjeturar compuestos ocurre despues de que las puntuaciones de asociacion de palabras se hayan computado para los sfmbolos que representan el texto de entrada (las palabras individuales en los captoides identificados, asf como los captoides tomados como una unica unidad). En una realizacion ilustrativa, si cualquiera de las puntuaciones de asociacion entre una palabra meta (por ejemplo, una palabra en frances) y la palabra constituyente de una multiple palabra fuente (por ejemplo, las palabras constituyentes en la multiple palabra en ingles) son mayores que las puntuaciones de asociacion entre la palabra en el idioma meta y la multiple palabra completa en el idioma fuente, entonces la mas alta de tales puntuaciones se usa para representar el grado de asociacion entre la palabra en el idioma meta (por ejemplo, la palabra francesa) y la multiple palabra en el idioma fuente (por ejemplo, la multiple palabra en ingles).

Ademas, solo los conjuntos de palabras meta (por ejemplo, palabras en frances), que estan mas fuertemente asociados en una particular pareja de oracion alineada con una multiple palabra fuente que comienza con una palabra en mayusculas, se reservan para su consideracion como la base de los compuestos.

En este punto, el componente 208 comienza a escanear la oracion en el idioma meta de la pareja alineada en consideracion, de izquierda a derecha. Esto se indica en el bloque 370. El escaneo se realiza para encontrar una palabra que comience con mayusculas. Esto se indica en el bloque 372. Si se ubica tal palabra, y es la palabra inicial en una oracion, entonces se determina si es la mas estrechamente relacionada con una palabra en el compuesto identificado (por ejemplo en la multiple palabra en ingles). En ese caso, se marca como el inicio posible de un compuesto correspondiente, que es una traduccion del captoide identificado. Esto se indica mediante el bloque 374 en la Figura 11.

Si la palabra ubicada en el bloque 372 es una palabra no inicial (es decir, no es la primera palabra de la oracion), entonces se marca como el posible inicio de la traduccion del captoide (por ejemplo, la multiple palabra en ingles). Esto se indica en el bloque 376.

Una vez que se ubica esta primera palabra, el componente 208 continua escaneando el texto meta de izquierda a derecha, marcando palabras posteriores que estan mas fuertemente relacionadas con palabras en el captoide identificado. Al hacer esto, el componente 208 permite hasta dos palabras contiguas que no estan mas altamente relacionadas con palabras en el captoide identificado, siempre y cuando vayan seguidas de una palabra que este mas altamente relacionada con una palabra en el captoide identificado. Esto se indica mediante el bloque 378. Esto permite que el sistema represente palabras de funcion (tales como palabras de funcion en frances) que no pueden tener altas asociaciones con nada en la multiple palabra fuente. Siempre y cuando se cumplan estas condiciones, cada palabra posterior en la oracion meta se anade a la multiple palabra meta (la traduccion del captoide identificado en el texto fuente).

El componente 208 continua este escaneo hasta que encuentra mas de dos palabras contiguas en el texto meta que no estan mas altamente relacionadas con palabras en el captoide identificado, o hasta que no hay mas palabras en el texto meta que estan mas altamente relacionadas con una palabra en el captoide identificado, o hasta que se encuentra un sfmbolo de puntuacion. Esto se indica mediante el bloque 380.

Habiendo conjeturado de esta manera los compuestos como posibles traducciones de captoides, el procedimiento continua de nuevo en la Figura 10 en el bloque 358 donde los datos de preparacion se reescriben sustituyendo los compuestos conjeturados por sfmbolos unicos, donde las puntuaciones de asociacion se vuelven a computar y las parejas de traduccion se filtran. Esto se indica en los bloques 358, 360 y 362, y se ha analizado en mas detalle anteriormente.

De esta manera, puede verse que la presente invencion proporciona un enfoque estadfstico simplificado para derivar correspondencias de traduccion entre parejas de palabras y compuestos. La presente invencion ofrece ventajas sobre los sistemas anteriores ya que las realizaciones de la presente tecnica son mucho menos complejas de implementar y requieren menos tiempo y recursos computacionales para ejecutarse. La presente invencion tambien mejora la derivacion de correspondencias de traduccion para compuestos.

Aunque la presente invencion se ha descrito en referencia a realizaciones particulares, los expertos en la materia reconoceran que pueden realizarse cambios en la forma y detalle sin apartarse del alcance de la invencion.

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

1. Un procedimiento implementado por ordenador para calcular correspondencias de traduccion entre palabras, que comprende:

calcular puntuaciones de asociacion de palabras para cada pareja de palabras basandose en apariciones conjuntas de palabras en cada uno de una pluralidad de conjuntos de unidades bilingues alineadas en un corpus; identificar compuestos conjeturados en las unidades basandose en las puntuaciones de asociacion de palabras; y obtener correspondencias de traduccion basadas en las puntuaciones de asociacion de palabras recalculadas.
2. El procedimiento de la reivindicacion 1 en el que las unidades bilingues y alineadas comprenden oraciones (230, 232).
3. El procedimiento de la reivindicacion 1 en el que las unidades bilingues y alineadas comprenden formas (234, 236) logicas.
4. El procedimiento de la reivindicacion 1 en el que obtener correspondencias de traduccion comprende:

repetir la etapa de recalcular puntuaciones de asociacion de palabras considerando apariciones conjuntas de parejas, incluyendo parejas (238) de palabras, parejas (240) de compuestos y parejas de compuestos/palabras, en una pareja de unidades alineadas solo si las parejas estan unicamente mas fuertemente asociadas entre sf entre todas las palabras en la pareja de unidades alineadas, para obtener ultimas puntuaciones de asociacion de palabras.
5. El procedimiento de la reivindicacion 4 en el que obtener correspondencias de traduccion comprende ademas: clasificar parejas basandose en las ultimas puntuaciones de asociacion de palabras.
6. El procedimiento de la reivindicacion 5 en el que obtener correspondencias de traduccion comprende ademas: seleccionar parejas como traducciones entre sf, si las ultimas puntuaciones de asociacion de palabras correspondientes estan por encima de un nivel de umbral.
7. El procedimiento de la reivindicacion 1 en el que recalcular las puntuaciones de asociacion de palabras, dados los compuestos conjeturados, comprende:

sustituir cada compuesto conjeturado por un sfmbolo para obtener un corpus reescrito; y

recalcular las puntuaciones de asociacion de palabras en las unidades alineadas en el corpus reescrito.
8. El procedimiento de la reivindicacion 1 en el que identificar compuestos conjeturados comprende:

seleccionar una pareja de unidades alineada que tiene una primera unidad en un primer idioma y una segunda unidad en un segundo idioma; e

identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno entre palabras en la primera unidad y palabras en la segunda unidad.
9. El procedimiento de la reivindicacion 8 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno comprende:

para cada palabra en la primera unidad, identificar una palabra mas fuertemente asociada en la segunda unidad; y para cada palabra en la segunda unidad, identificar una palabra mas fuertemente asociada en la primera unidad.
10. El procedimiento de la reivindicacion 9 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno comprende ademas:

identificar conjuntos conectados maximos de palabras en las primeras y segundas unidades basandose en las palabras identificadas mas fuertemente asociadas en las primeras y segundas unidades.
11. El procedimiento de la reivindicacion 10 en el que identificar compuestos conjeturados comprende ademas:

para cada una de las primeras y segundas unidades, identificar las palabras en cada conjunto conectado maximo de multiples palabras como un compuesto conjeturado.
12. El procedimiento de la reivindicacion 1 que comprende ademas:

acceder al corpus antes de calcular puntuaciones de asociacion de palabras.
13. El procedimiento de la reivindicacion 12 que comprende ademas: realizar un analisis sintactico del corpus para obtener palabras individuales.

5

10

15

20

25

30

35

40

45
14. El procedimiento de la reivindicacion 1 que comprende ademas:

despues de calcular las puntuaciones de asociacion de palabras, recortar parejas de palabras y que no se someten a un procesamiento adicional basandose en puntuaciones de asociacion de palabras.
15. El procedimiento de la reivindicacion 14 en el que recortar comprende:

retirar parejas de palabras de un procesamiento adicional si tienen una puntuacion de asociacion de palabras por debajo de una puntuacion de umbral predeterminada.
16. El procedimiento de la reivindicacion 1 en el que calcular puntuaciones de asociacion de palabras comprende:

calcular las puntuaciones de asociacion de palabras basandose en una forma de superficie de las palabras en cada una de las unidades bilingues alineadas.
17. El procedimiento de la reivindicacion 1 en el que las palabras en cada una de las unidades bilingues alineadas se convierten en lemas antes de la etapa de calcular puntuaciones de asociacion de palabras.
18. Un procedimiento implementado por ordenador de preparacion de un sistema de traduccion a maquina, que comprende:

obtener un corpus de unidades de multiples palabras bilingues y alineadas;

calcular puntuaciones de asociacion de palabras para parejas de palabras en el corpus basandose en la aparicion conjunta de palabras en las unidades alineadas;

identificar compuestos conjeturados basandose en la ausencia de una correspondencia de uno a uno entre palabras en las unidades alineadas; y

preparar el sistema de traduccion a maquina basandose en las puntuaciones de asociacion de palabras y los compuestos conjeturados.
19. El procedimiento de la reivindicacion 18 en el que identificar compuestos conjeturados comprende:

seleccionar una pareja de unidades alineada que tiene una primera unidad en un primer idioma y una segunda unidad en un segundo idioma; e

identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno entre palabras en la primera unidad y palabras en la segunda unidad.
20. El procedimiento de la reivindicacion 19 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia de uno a uno comprende:

para cada palabra en la primera unidad, identificar una palabra mas fuertemente asociada en la segunda unidad; y para cada palabra en la segunda unidad, identificar una palabra mas fuertemente asociada en la primera unidad.
21. El procedimiento de la reivindicacion 20 en el que identificar compuestos conjeturados basandose en las puntuaciones de asociacion de palabras que no pueden mostrar una correspondencia uno a uno comprende ademas:

identificar los conjuntos conectados maximos de palabras en las primeras y segundas unidades basandose en las palabras identificadas mas fuertemente asociadas en las primeras y segundas unidades.
22. El procedimiento de la reivindicacion 21 en el que identificar compuestos conjeturados comprende ademas:

para cada una de las primeras y segundas unidades, identificar las palabras en cada conjunto conectado maximo de multiples palabras como un compuesto conjeturado.
23. El procedimiento de la reivindicacion 18 que comprende ademas, despues de identificar compuestos conjeturados:

recalcular las puntuaciones de asociacion de palabras, dados los compuestos conjeturados.
24. El procedimiento de la reivindicacion 23 que comprende ademas:

repetir la etapa de recalcular las puntuaciones de asociacion de palabras considerando las apariciones conjuntas de parejas, incluyendo parejas de palabras, parejas de compuestos y parejas de palabras/compuestos, en una pareja de unidades alineadas solo si las parejas estan unicamente mas fuertemente asociadas entre sf entre todas las palabras en la pareja de unidades alineadas, para obtener ultimas puntuaciones de asociacion de palabras.

10

15
25. El procedimiento de la reivindicacion 24 y que comprende ademas:

clasificar parejas basandose en ultimas puntuaciones de asociacion de palabras.
26. El procedimiento de la reivindicacion 25 que comprende ademas:

seleccionar parejas como traducciones entre sf, si las ultimas puntuaciones de asociacion de palabras correspondientes estan por encima de un nivel de umbral.
27. El procedimiento de la reivindicacion 23 en el que recalcular las puntuaciones de asociacion de palabras, dados los compuestos conjeturados, comprende:

sustituir cada compuesto conjeturado por un sfmbolo para obtener un corpus reescrito; y

recalcular las puntuaciones de asociacion de palabras en las unidades alineadas en el corpus reescrito.
28. El procedimiento de la reivindicacion 26 en el que la preparacion del sistema de traduccion a maquina, basado en las puntuaciones de asociacion de palabras y los compuestos conjeturados, comprende:

generar mapeos de transferencia que mapean una unidad en uno de los idiomas a una unidad en el otro de los idiomas basandose en las traducciones seleccionadas.
29. El procedimiento de la reivindicacion 18 que comprende ademas:

convertir las palabras a lemas antes de calcular las puntuaciones de asociacion de palabras.
30. El procedimiento de la reivindicacion 18 en el que las palabras son formas de superficie de las palabras.