ES2277693B1 - Procedimiento y sistema de traduccion de idiomas por frases homologas . - Google Patents

Procedimiento y sistema de traduccion de idiomas por frases homologas . Download PDF

Info

Publication number
ES2277693B1
ES2277693B1 ES200300796A ES200300796A ES2277693B1 ES 2277693 B1 ES2277693 B1 ES 2277693B1 ES 200300796 A ES200300796 A ES 200300796A ES 200300796 A ES200300796 A ES 200300796A ES 2277693 B1 ES2277693 B1 ES 2277693B1
Authority
ES
Spain
Prior art keywords
phrase
origin
destination
language
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES200300796A
Other languages
English (en)
Other versions
ES2277693A1 (es
Inventor
Gines Sanchez Gomez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to ES200300796A priority Critical patent/ES2277693B1/es
Publication of ES2277693A1 publication Critical patent/ES2277693A1/es
Application granted granted Critical
Publication of ES2277693B1 publication Critical patent/ES2277693B1/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • G06F17/2827
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

Procedimiento y sistema de traducción de idiomas por frases homólogas. Dos colecciones homólogas de frases en dos idiomas Origen y Destino. Una frase en idioma Origen a traducir se busca en la colección de frases Origen, seleccionando las que tienen las mismas palabras en el mismo orden. Se toman las frases homólogas en idioma Destino. Se eliminan las palabras no comunes de las frases Destino. Se selecciona la frase que más se parezca a las demás.

Description

Procedimiento y sistema de traducción de idiomas, por frases homólogas.
Campo técnico
La invención pertenece al campo de la traducción de idiomas.
Antecedentes de la invención
Los sistemas de traducción de idiomas pueden clasificarse en tres:
-
gramática y diccionario. Estos sistemas fueron los primeros que se utilizaron y actualmente solo se usan como complemento.
-
uso de una lengua artificial intermedia entre dos idiomas. A este conjunto pertenece la patente ES2101613.
-
traducción por frases. Una patente representativa es la US6301554. Usa frases homólogas predefinidas en dos lenguajes. Se identifica la frase en idioma origen, y se sustituyen luego las palabras homólogas de ambos lenguajes de acuerdo con las frases.
La presente invención abunda en la traducción por frases, pero a diferencia de la patente US6301554 que requiere profundos conocimientos idiomáticos de ambos idiomas Origen y Destino, se propone un sistema que solo considera elementos lingüísticos muy generales y comúnmente admitidos en todas las lenguas.
Breve sumario de la invención
Nos referiremos en este apartado a documentos escritos.
Sean dos idiomas, Origen y Destino. Se parte de sendos ficheros de frases reales homólogas en ambos idiomas. Estas colecciones se obtienen a partir de obras literarias, históricas, científicas, técnicas, periodísticas, legales, ...
Entre las obras literarias deben incluirse todos los géneros, haciendo especialmente mención a La Biblia, que está traducida a todos los idiomas y dividida en frases numeradas, con la particularidad de que tal numeración es común a todos los idiomas, tratados internacionales ampliamente traducidos, tales como los tratados de la CEE, los tratados de la OMC, los tratados de seguridad en el mar, ...
Poniendo una obra en idioma Origen al lado de su homóloga en idioma Destino, si ambas están en un idioma occidental, es fácil relacionar las frases de ambas colecciones, ya que en todas los lenguajes occidentales los signos de puntuación realizan idénticas tareas. Se consideran signos de puntuación el punto y aparte, el punto y seguido, paréntesis, comillas, interrogaciones, exclamaciones, punto y coma, coma, ...
En el fichero de frases homólogas en idiomas Origen y Destino una frase en idioma Origen se representará por FOi, y su correspondiente en idioma Destino se representará por FDi.
Se trata de traducir una frase FX1n compuesta por palabras en lenguaje origen {PO1, PO2, ..., POn}.
Esta frase se descompone en subfrases de la forma FXij: {POi, ..., POj}, i<=j; siendo todas las palabras intermedias consecutivas, y en número de j+1-i. El número total de subfrases de este tipo que pueden formarse es de n.(n+1)/2.
Para cada subfrase FXij{POi, ..., POj}, se buscan todas las frases en la colección de frases Origen FOrij, tal que contengan a todas las palabras de FXij y en el mismo orden, teniendo pues cada FOrij la forma {..., POi, ...,
POi+1, ..., POj, ...}. Si no se encuentran frases con esas características se desecha esa subfrase como posibilidad.
Si las frases encontradas en idioma Origen FOrij tienen la misma longitud que FXij (j+1-i), las frases homólogas en idioma Destino FDrij son traducciones de esa subfrase.
Si las frases encontradas FOrij tienen longitud superior a FXij se pueden dar los siguientes casos:
-
solo hay una frase FOrij en idioma Origen. Se desecha la subfrase FXij como posiblidad,
-
hay dos o más frases en idioma Origen FOrij. Sea este número de frases m.
En este último caso si sumamos todas las palabra de todas las frases destino FDrij (pero si una palabra se repite en una frase se cuenta solo una vez), el conteo de las palabras comunes a todas las FDrij, y por tanto "homólogas" a las palabras de FOrij (obviando el orden) tiende al número de frases m. Por contra, el conteo de las palabras no comunes, que por lo tanto han de calificarse de "relleno", tienden a 1. En el caso ideal, si suprimimos en todas las frases las palabras de "relleno", tenemos m traducciones a la frase FOr.
En un caso más real, algunas de las palabras consideradas inicialmente como de "relleno", pueden ser sinónimos de palabras "homólogas", y asimismo palabras de uso frecuente pueden aparecer como "homólogas", sobre todo si m es bajo.
Estas excepciones podrían resolverse o bien por Argumentos lingüísticos, o bien con una selección de seguridad que nos ayude a desechar la subfrase FXij como posibilidad cuando no se cumplan los requisitos de la selección. Una selección de este tipo podría ser aquella que fijara un valor mínimo para m, superior a 2, y un porcentaje por encima de las cuales las palabras se consideran "homólogas" o de "relleno".
Argumentos lingüísticos serian como lo que sigue: si disponemos de un diccionario bilingüe Origen-Destino, cualquier palabra inicialmente "homóloga" de las frases FDrij pasaría a ser de "relleno" si ninguna de sus traducciones coincidiera con alguna de las palabras de FXij {POi, ..., POj} . Por contra si alguna palabra inicialmente de "relleno" fuera un sinónimo de alguna "homóloga", pasaría a ser homóloga.
Sea cual sea el método elegido para declarar las palabras como "homólogas" o de "relleno", si de las frases FDrij suprimimos las palabras de "relleno", nos quedan m frases FD2rij, que son traducciones de la subfrase FXij.
Para obtener traducciones totales de la frase FX1n se sigue el siguiente procedimiento de ensamblaje de las frases FD2rij:
-
solo se consideran las subfrases de partida FXij para las que se han obtenido traducciones FD2rij,
-
se parte de frases con i=1, FX1j,
-
se prueban subfrases FXkp, tal que 1<k<=j+l y p>j,
-
si los elementos PDk, ..., PDj de la frase FDr1j coinciden con los elementos PDk, ..., PDj de la frase FDrkp, ambas frases son enlazables,
-
si las frases FX1j es enlazable con FXkp, el resultado son hasta m frases FDr1p de mayor longitud que la inicial,
-
siempre son enlazables si k=j+1,
-
se vuelve a comenzar el proceso hasta que todos los resultados enlazables alcancen el valor FDr1n.
Finalmente tenemos t frases FDr1n, cualquiera de las cuales puede ser la traducción correcta de FX1n.
Para elegir entre las t frases otra vez podemos utilizar argumentos lingüísticos, o bien por un procedimiento de verisimilitud. Este procedimiento de verisimilitud consiste en comparar dos a dos todas las t frases FDr1n, por comparación de patrones de palabras, asignando a cada frase r el número resultante de su primera comparación y modificando éste al alza cada vez que otra comparación dé un número mayor. De todas las frases con igual número, se eligen las de menor longitud.
La comparación de dos patrones consiste en ver las coincidencias entre los dos patrones comparados, teniendo en cuenta el orden de los elementos dentro de cada patrón.
Un ejemplo de argumentos lingüísticos es: si disponemos de un diccionario, si para toda palabra POi de FX1n, existe alguna traducción de la palabra que coincida con PDj de un FDr1n, la traducción FDr1n es correcta.
Detallada realización de la invención
Se considera un método para la traducción de una frase de un idioma a otro idioma.
Solo se consideran dos elementos lingüístico, que son los separadores de párrafos y de frases. La función de separadores de párrafo la cumplen los puntos y aparte. Los separadores de frases la cumplen los siguientes elementos: punto y seguido, comillas, guiones, signos de interrogación y signos de admiración.
Este método de traducción se compone de las siguientes operaciones y elementos:
1. Operación de comparación de patrones. Sean dos patrones P1{P11, P12,...., P1N} y P2{P21, P22, ..., P2N}, siendo los Pij entre paréntesis símbolos a comparar tales como letras, palabras, números... Se trata de obtener un número C, que informe de las coincidencias máximas de símbolos entre P1 y P2, teniendo en cuenta el orden de los símbolos de cada patrón.
-
se obtienen los símbolos Aij, tales que existen si P1i=P2j,
\newpage
-
se ordenan primero por el índice i y dentro de cada i por el j, resultado los símbolos Aij(r), donde r indica el orden,
-
se forma un patrón solución PS1 compuesto por el símbolo Aij(1), dando C(PS1)=1,
-
al patrón PS1 se le añade el símbolo siguiente Akp(2) si se cumple k>i y p>j, dando C(PS1)=2,
-
si no se cumple k>i y p>j, se forma el patrón PS2 con el símbolo Akp(2). En este caso se tendría C(PS1)=l y C(PS2)=1,
-
los sucesivos elementos Amt(r), se añaden a todos los patrones existentes de igual manera, siendo el símbolo de comparación el último símbolo de cada patrón existente. Como en el ejemplo antedicho, si no se puede añadir a ningún patrón existente, se crea un nuevo patrón con dicho símbolo.
-
el máximo C(PSr) es el número C que se busca y los símbolos que componen el PSr relacionan P1 con P2.
2. Ficheros de frases Origen y Destino. Ambos tienen la misma constitución. Se forman a partir de obras obras literarias, históricas, científicas, técnicas, periodísticas, legales, ..., muy traducidas, especialmente La Biblia y tratados internacionales.
Cada ficha (en cada fichero, por ahora todavía sin relación) contiene los siguientes campos:
-
nombre de la obra en idioma Origen o Destino. De haber varias obras con el mismo nombre se añadirán otros elementos identificativos tales como el nombre del autor para que no haya ningún nombre igual
-
clasificación bibliográfica internacional
-
número de párrafo (dentro de cada obra)
-
número de frase (dentro de cada párrafo)
-
frase en idioma Origen o Destino
Una materialización informática de estos ficheros puede obtenerse escaneando los textos, mientras un programa los va dividiendo en párrafos y frases conforme vaya encontrando separadores de párrafos o de frases, asignando números de párrafo y frase conforme los va grabando en el elemento informático de almacenamiento.
3. Tabla de obras Origen/Destino. Consiste en dos columnas conteniendo en cada fila el nombre de cada obra Origen y Destino, tal y como se ha escrito en los ficheros de frases Origen y Destino.
4. Procedimiento para relacionar los ficheros de frases Origen y Destino y tabla de relaciones Origen/Destino. Se va recorriendo la tabla de obras Origen/Destino. Para cada obra en cada idioma se forma una tabla cuyo índice es le numero de párrafo y cuyo contenido es el número de frases de cada párrafo.
Para la tabla de párrafos Origen se forma un patrón POrigen formado por el contenido de la tabla de párrafos Origen.
Para la tabla de párrafos Destino se forma un patrón PDestino formado por el contenido de la tabla de párrafos Destino.
Por aplicación de la operación del párrafo 1, se obtiene una relación entre párrafos Origen y Destino, dada por los símbolos Aij. Si para todo i, i=j, y la tabla de relaciones Origen/Destino se configura con los datos
-
nombre de la obra en idioma Origen
-
número de párrafo Origen
-
número de frase Origen
-
nombre de la obra en idioma Destino
-
número de párrafo Destino
-
número de frase Destino
-
número consecutivo del 1 al total de frases relacionadas o índice de la tabla.
Si no se verifica que para todo i, i=j, es que hay algún salto en la división de párrafos y frases.
Para depurar estas relaciones iniciales un profesional traductor de ambos idiomas Origen y Destino modifica los textos, añadiendo los separadores de párrafo y de frase necesarios. Puede ayudarse con una vista de los citados textos puestos uno al lado del otro, con dos columnas adicionales con el número de párrafo y frase de cada uno, de forma que dos párrafos inicialmente dados como homólogos comiencen en la misma línea.
5. Fichero palabras Origen y Destino. Para cada idioma, de forma separada, se forma un fichero que contiene todas las palabras de las frases que se pueden encontrar recorriendo la tabla de relaciones Origen/Destino. Para cada palabra, se define una ficha, cada ficha tiene la siguiente información:
-
palabra
-
lista con la numeración consecutiva de la tabla de relaciones Origen/Destino de las frases que la contienen.
6a. Procedimiento para la obtención de subfrases FXij a partir de la frase a traducir FX1n en idioma Origen, compuesta por las palabras {OP1, ..., OPn}. Las palabras de las subfrases son siempre consecutivas:
-
se parte de la primera palabra OP1. Se añade sobre el conjunto vacío produciendo la frase FX11{OP1},
-
se duplica el anterior conjunto de subfrases. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP2, teniendo las subfrases FX11, FX11+OP2=FX12, {}+OP2 =FX22
-
se duplica el anterior conjunto de subfrases que termina en la palabra OP2. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP3, teniendo las subfrases FX11, FX12, FX22, FX12+OP3=FX13, FX22+OP3=FX23, {}+OP3=FX33
-
se aplican sucesivamente las palabras OP4, ... OPn.
-
se tiene pues la suma de una progresión aritmética de razón 1 y n elementos, es decir n . (n+l)/2 subfrases.
6b. Procedimiento para la obtención de subfrases FXr a partir de la frase a traducir FX1n en idioma Origen, compuesta por las palabras {OP1, ..., OPn}. Las palabras de las subfrases son de orden creciente, aunque no necesariamente consecutivas:
-
se parte de la primera palabra OP1. Se añade sobre el conjunto vacío produciendo la frase FX11{OP1},
-
se duplica el anterior conjunto de subfrases. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP2, teniendo las subfrases FX11, FX11+OP2=FX12, {}+OP2=FX22
-
se duplica el anterior conjunto de subfrases. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP3, teniendo las subfrases FX11, FX12, FX22, FX11+OP3, FX12+OP3=FX13, FX22+OP3=FX23, {}+OP3=FX33
-
se aplican sucesivamente las palabras OP4, ... OPn.
-
se tiene pues la suma de una progresión geométrica de razón 2 y n elementos, es decir:
2 \sum\limits^{n} -1
6c. El procedimiento 6b para obtener subfrases es más general que el 6a, pero tiene inconvenientes muy graves:
-
las progresiones geométricas crecen muy deprisa,
-
son más difíciles de representar, pues deben figurarse todos sus índices en vez de los de los extremos,
-
se puede obtienen subfrases poco realistas.
Una solución no lingüística es en establecer unos porcentajes que eliminen subfrases con un número de palabras por debajo de la aplicación del citado porcentaje sobre el total de palabras de la frase.
Una solución lingüística sencilla consiste en permitir las citadas discontinuidades solo cuando delante o detrás de una palabra vaya un signo de puntuación (distinto del separador de párrafo y frases), o bien ciertas palabras tales como conjunciones y palabras poco usuales. Se considera palabra poco usual si su abundancia está por debajo de un determinado porcentaje, pudiendo determinarse esta abundancia contando las palabras de las colecciones de frases que usemos.
\newpage
7. Procedimiento de traducción de una subfrase FXr (el signo r es un conjunto de índices y engloba asimismo subfrases con los subíndices ij). Se ordenan las subfrases por longitud, comenzando por las más largas. Así, la primera frase a traducir sería precisamente la frase entera FX1n.
De palabra de cada subfrase FXr se derivan conjuntos de frases OPk{las frases que figuran en la ficha del Fichero palabras Origen de la palabra OPk}(ver punto 5), tal que k pertenece al conjunto de índices r. La intersección de todos los conjuntos OPk{} y FXr nos dá un conjunto de frases origen FO0t, siendo t un conjunto de índices, cada uno de los índices representa una la relación entre frases en idioma Origen e idioma Destino.
De esa lista de frases origen FO0t se seleccionan solo aquellas que tienen las palabras OPk en el mismo orden que en la subfrase FXr, es decir las que cumplen que, aplicando la operación de comparación de patrones (ver apartado 1) a los patrones definidos por cada frase de FO0t y la subfrase FXr, se obtiene un C=(tamaño del conjunto r). A este nuevo conjunto de frases lo denominamos FOt.
Así t es un conjunto de índices cuyos números representan índices de la tabla de relaciones Origen/Destino.
Se tienen los siguientes casos:
a)
el conjunto t es vacío: la subfrase FXr se desecha.
b)
alguna frase de este conjunto FOt tiene de longitud C, su frase homóloga en idioma Destino es la traducción de la subfrase FXr,
c)
previamente se han fijado un m y un porcentaje de seguridad,
d)
si (tamaño de t)<m se desecha la frase.
e)
se forma el conjunto FDt de frases, compuesto por las frases homólogas en idioma Destino de todas las frases de FOt, para cada palabra distinta se cuenta el número de apariciones en el conjunto FDt, obteniéndose la contabilidad de cada palabra, (una palabra repetida en una frase se cuenta solo una vez),
f)
en todas las frases FDt, se desechan todas las palabras cuya contabilidad sea inferior a la aplicación del porcentaje de seguridad sobre el número de subfrases del fichero FOt, dando lugar al conjunto de frases FD2t, que es un conjunto de traducciones de la subfrase FXr,
g)
todas las frases de FD2t se comparan dos a dos por la operación de comparación de patrones (ver punto 1), asignando a cada frase el número C resultante de tal comparación. Si con la comparación con otra frase se obtuviera un C mayor, se sustituiría el anterior por el mayor,
h)
se eligen las frases con mayor C, y dentro de éstas las que tengan menor número de palabras.
En resumen para cada subfrase FXr se ha obtenido una traducción en idioma Destino FD2t, siendo inicialmente tanto r como t conjuntos de índices que ya se han definido.
A partir de aquí, puesto que se han eliminado los FXr sin traducción, combiene cambiar la notación de acuerdo a lo siguiente:
-
ordenamos el conjunto de las subfrases FXr de acuerdo con el primer elemento del conjunto de índices r, y por mayor a menor número de palabras,
-
en el anterior conjunto ordenado de subfrases, una subfrase se representa como FXu, u=1, ..., p, p número total de subfrases a los que se ha encontrado una traducción,
-
FD2u es la frase en idioma Destino traducción de FXu.
8. Procedimiento de ensamblar subfrases.
Sobre cada subfrase FXu{POi, ..., POj, ..., POk}, empezando con u=1, aplicamos todas las demás frases FXv v>u que cumplen una cualquiera de las siguientes condiciones:
-
sus palabras extremas están comprendidas en FXu, cubren una discontinuidad, y FD2v tiene palabras concordantes con FD2u en el mismo orden y sin palabras intercaladas en FD2u (pueden tenerlas en FD2v). Se sustituyen las palabras concordantes de FD2u por el conjunto de palabras FD2v;
-
la palabra extrema izquierda de FXv está comprendida en FXu y FD2u termina en las mismas palabras que FD2v comienza. De FD2v se suprimen estas palabras comunes, y las palabras restantes se añaden a FD2u por la derecha;
-
las subfrases Fxu y FXv no tienen ninguna palabra en común. Las frases resultado Origen y Destino son respectivamente: FXu+FXv y FD2u+FD2v.
El anterior proceso aumenta el número de palabras de una Fxu inicial, repitiéndose el proceso, hasta que se alcance el total de palabras n o v=p.
Se continúa con u sucesivos hasta el final.
Se obtienen dos conjuntos de frases homólogas en idiomas Origen y destino FXb y FD2b, cada frase de FXb tiene n palabras, y tiene una traducción contenida en FD2b. Las frases de FD2b se comparan dos a dos por la operación de comparación de patrones (ver punto 1), asignando a cada frase el número C resultante de tal comparación. Si con la comparación con otra frase se obtuviera un C mayor, se sustituiría el anterior por el mayor. Se escogen las frases con mayor C, y dentro de ellas la frase FD2b de menor número de palabras.
9. Simplificación de los archivos de frases. La tabla de relaciones Origen/Destino puede tener frases repetidas o consecuencia de otras existentes. Para eliminarlas, se traduce una a una todas las frases referenciadas en esa tabla aplicando los procedimientos de traducción referidos en este apartado (obviamente no considerando esta frase ni su traducción como frase posibilidad Origen/Destino). Si la traducción de cada frase coincide con la definida por la relación Origen/Destino, se elimina esta frase de la tabla de relaciones Origen/Destino.
Otras realizaciones de la invención Traducción de textos
En el apartado Detallada descripción de la invención se ha considerado solo la traducción de una frase. Fácilmente se pasa a la traducción de un texto dividiendo éste en frases. Traducidas las frases, éstas vuelven a agruparse en frases y párrafos para obtener un texto traducción.
Uso de ficheros informatizados y ordenadores
Los ficheros y tablas definidos en Detallada descripción de la invención y en este apartado, se integran en ficheros susceptibles de ser almacenados en dispositivos informáticos, tales como discos duros, CDROM, etc. Asimismo los procedimientos relatados se trasladan a funciones o procedimientos informáticos.
Introducción de elementos lingüísticos complementarios
Un diccionario entre idiomas Origen y Destino, que tiene los siguientes campos:
-
palabra en idioma Origen
-
palabra en idioma Destino
-
tipo (sustantivo, adjetivo, verbo, ...)
-
genero
-
número
-
tiempo verbal
-
tema, cuando una palabra tenga varias acepciones según el campo. El tema se hace coincidente la clasificación bibliográfica internacional del punto 2 del apartado Detallada descripción de la invención
-
comodín en lenguaje Origen
-
comodín en lenguaje Destino
-
regla de sustitución en frase destino
Los campos comodín solo se rellenan cuando la palabra Origen/Destino tiene un significado específico y único como subtantivo, adverbio, etc.... Precisamente el comodín puede ser la palabra "subtantivo", "adjetivo", ...
En cuanto a la regla de sustitución se refiere al hecho de que entre algunos lenguajes Origen/Destino, pe. Español/Alemán, no existe una correspondencia directa entre palabras españolas y alemanas, dado que en alemán se forman palabras compuestas.
Se tienen los siguientes procedimientos para aplicación de las reglas lingüísticas:
1. Mejora del procedimiento de relacionar los ficheros de frases Origen y destino del punto 4º del apartado Detallada descripción de la invención.
Para evitar el uso del profesional traductor de ambos idiomas Origen y Destino en verificar la concordancia de frases Origen y Destino homólogas fijando un porcentaje de aciertos. Dadas dos frases homólogas según el punto 4º citado, se confirman como homólogas si el número de palabras de la frase Origen que tienen una palabra equivalente en la frase Destino de acuerdo con el diccionario (tomando en consideración cualquiera de todas sus acepciones) es superior al porcentaje de aciertos fijado.
2. Para reducir el número de frases de las colecciones de frases homólogas Origen/Destino.
En todas las frases se sustituyen las palabras con comodín por éste. Después de estas sustituciones habrá una gran cantidad de frases iguales, suprimiéndose aquellas que sean iguales.
En este punto, esta invención se acerca a la correspondiente a la patente US6301554 reseñada en Antecedentes de la invención, salvo que aquí las frases no son predefinidas.
Aplicación industrial
Además del campo general de la traducción de idiomas, una aplicación particular de la invención es la traducción simultánea de idiomas en una conferencia.
Supongamos N conferenciantes, cada uno de un idioma distinto. Cada conferenciante dispone de un ordenador con las siguientes características:
-
tarjeta de sonido que permita al conferenciante hablar
-
programa de transformación de voz a texto
-
programa de transformación de texto a voz
-
editor de textos con corrector ortográfico en la lengua del conferenciante
-
teclado con solo los símbolos alfabéticos de su idioma dispuestos en la forma habitual y un símbolo de fin de frase.
Todos los ordenadores están conectados a una red local. En la red local existen ficheros como los relatados en el apartado Descripción detallada de la invención, solo que en vez de ser Origen/Destino son de la forma Idioma1/Idioma2/.../IdiomaN.
Cuando el conferenciante en Idioma habla (naturalmente son intercambiables todos los idiomas), le va apareciendo en la pantalla de su ordenador el texto que dice. Corrige los errores ortográficos. Cuando ha terminado una frase pulsa el símbolo fin de frase.
Cuando se pulsa el símbolo fin de frase, el procesador de texto está preparado para transferir el texto escrito al programa de traducción de frases.
Si el programa traductor encuentra una traducción válida en algunos idiomas, la transfiere a archivos numerados de acuerdo al idioma y la frase. Los ordenadores de los demás conferenciantes van leyendo los archivos de su idioma y al orden de frase, transformándolos a través del programa de textos a voz en señales audibles para cada conferenciante que escucha en ese momento.
Si el programa traductor no encuentra una traducción válida en algún idioma, expone en la pantalla del conferenciante que habla la frase más completa de las obtenidas en el punto 8 del apartado Descripción detallada de la invención en su propio idioma, reseñando las palabras no traducidas, y sugiriendo cambie la oración o las palabras no traducidas.

Claims (13)

1. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas, caracterizado por
-
confeccionar un fichero de frases homólogas en idiomas Origen y Destino,
-
obtener subfrases de una frase Origen Inicial mediante combinaciones de cualquier número de palabras de la frase Origen Inicial en el mismo orden que en dicha frase Origen Inicial,
-
traducir cada subfrase comprendiendo seleccionar frases en lenguaje Origen del fichero de frases homólogas que contienen las palabras de la subfrase en el mismo orden, si se encuentra una frase en lenguaje Origen con igual numero de palabras que la subfrase su frase homóloga en idioma Destino es la subfrase traducida, en otro caso
-
si el número de frases en lenguaje Origen es inferior a un m prefijado se desecha la subfrase,
-
contar el número de frases homólogas en idioma Destino en que aparezca cada palabra en idioma Destino, desechando las palabras en idioma Destino cuyo conteo es inferior al total de palabras distintas en idioma Destino por un porcentaje de seguridad prefijado,
-
comparar dos a dos las frases homólogas en idioma Destino por comparación de patrones, asignando a cada frase un número de coincidencias,
-
seleccionar las frases homólogas en idioma Destino con mayor número de coincidencias y menor longitud,
-
ensamblar subfrases por unión de las mismas, comprendiendo obtener frases homólogas en idioma Destino por unión asimismo de frases homólogas en idioma Destino de las subfrases cuando
-
las palabras inicial y final de una segunda subfrase están contenidas y recubren una discontinuidad en una primera subfrase, y cuando la frase homóloga en idioma Destino de la primera subfrase tiene palabras concordantes con la frase homóloga en idioma Destino de la segunda subfrase, en el mismo orden y sin palabras intercaladas,
-
la segunda subfrase recubre a la primera subfrase por su extremo derecho, y cuando la frase homóloga en idioma Destino de la primera subfrase termina en las mismas palabras que empieza la frase homóloga en idioma Destino de la segunda subfrase,
-la segunda subfrase es disjunta de la primera subfrase,
-
cuando se obtiene una subfrase igual a la frase Origen Inicial, se obtiene una frase traducción,
-
comparar dos a dos las frases traducción por comparación de patrones, asignando a cada frase un número de coincidencias,
-
seleccionar las frases del conjunto de traducciones con mayor número de coincidencias y menor longitud,
-
simplificar el archivo de frases homólogas en idiomas Origen y Destino comprendiendo excluir provisionalmente y traducir cada frase del archivo de frases homólogas en idioma Origen, cuando alguna traducción de la frase homóloga en idioma Origen coincide con la frase homóloga en idioma Destino, la exclusión se hace definitiva.
2. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 1, caracterizado por comprender una operación de comparación de patrones de acuerdo con las siguientes etapas
-
se forma un primer patrón con una primera coincidencia entre dos patrones a comparar,
-
una segunda coincidencia entre los dos patrones a comparar se añade al primer patrón nuevo si su orden en los patrones a comparar es superior al de la primera coincidencia; en otro caso se forma un segundo patrón nuevo con esa segunda coincidencia
-
coincidencias sucesivas se aplican a patrones anteriores
-
la mayor longitud de los patrones obtenidos es el número de coincidencias máximas, y los patrones nuevos que tienen este número son las relaciones entre los patrones a comparar.
3. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 1, caracterizado en obtener el fichero de frases homólogas en idiomas Origen y Destino utilizando textos muy traducidos a diversos idiomas, tales como obras literarias, históricas, científicas, legales, ..., especialmente la Biblia y tratados internacionales.
4. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 1, caracterizado en obtener el fichero de frases homólogas en idiomas Origen y destino con la siguiente configuración
-
ficheros independientes de frases en lenguajes Origen y Destino conteniendo cada ficha nombre único de la fuente, clasificación bibliográfica internacional, número de párrafo, número de frase dentro de cada párrafo, frase
-
tabla de fuentes Origen/Destino, consistiendo en dos columnas conteniendo en cada fila el nombre de la fuente en cada idioma
-
tabla de relaciones Origen/Destino con los datos nombre de la fuente, número de párrafo y frase tanto en idiomas Origen y Destino, y un número consecutivo del 1 al total de frases relacionadas.
5. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 4, caracterizado en obtener los ficheros independientes de frases en lenguajes Origen o Destino a través de procedimientos informáticos tales como escaneo de textos o fichero informáticos de los textos, y un programa que graba y asigna números de párrafo y frase según recorre los textos y vaya encontrando separadores de párrafos o frases.
6. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 4, caracterizado en obtener la tabla de relaciones Origen/Destino asignando para cada fichero independiente de frases en lenguaje Origen y Destino un patrón en idioma Origen y en idioma Destino formado por el número de frases de cada párrafo, aplicando a los citados patrones una operación de comparación de patrones.
7. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 6 caracterizado por exponer la tabla de relaciones Origen/Destino a un traductor de los idiomas Origen y Destino en un procesador de textos con las siguientes columnas: número de párrafo, número de frase, frase en idiomas Origen y Destino (6 columnas), dicho traductor cuando no haya concordancia entre frases va insertando finales de párrafo y de frase.
8. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 6 caracterizado en validar frase a frase la tabla de relaciones Origen/Destino si traducida la frase Origen palabra a palabra con un diccionario, se acierta en la frase Destino con el conjunto de las palabras por encima de un porcentaje prefijado.
9. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 1, caracterizado porque al obtener subfrases se eliminan las subfrases con un número de palabras por debajo de la aplicación de un predeterminado porcentaje sobre el el total de palabras de la frase Origen Inicial.
10. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 1, caracterizado por usar elementos lingüísticos para simplificar de acuerdo a lo siguiente:
-
obtener subfrases a partir de la frase Origen Inicial:
-
todas las palabras de una subfrase son consecutivas,
-
se forman subfrases por la aplicación sucesiva de cada palabra de la frase Origen Inicial sobre una frase vacía y subfrases obtenidas anteriormente,
-
duplicar cada subfrase,
-
en la frase duplicada permitir palabras no consecutivas, eliminado las palabras que:
\bullet
vayan entre paréntesis,
\bullet
vayan delante o detrás de un signo de puntuación distinto de los separadores de frases y párrafos y paréntesis,
\newpage
\bullet
vayan delante o detrás de conjunciones
\bullet
las poco usuales de acuerdo por ejemplo con una tabla de abundancia,
-
traducir cada subfrase
-
m=2
-
el total de palabras distintas en idioma Destino por el porcentaje de seguridad se establece en 1, y dos palabras se consideran iguales si son sinónimos,
-
ensamblar subfrases.
-
el número de coincidencias es un porcentaje de aciertos en la frase homóloga en lenguaje Destino resultante de traducir las palabras de la subfrase una a una con un diccionario
-
en todas las frases se sustituyen las palabras susceptibles de ser representadas por un comodín por éste, suprimiendo las frases que sean iguales, siendo una palabra susceptible de ser representada por un comodín si tiene un significado preciso y único como sustantivo, adverbio, adjetivo, ..., y el comodín seria precisamente esta palabra "sustantivo", "adverbio", "adjetivo", ...
11. Procedimiento para traducir frases de un idioma Origen a otro Destino usando colecciones de frases homólogas entre ambos idiomas de acuerdo con la reivindicación nº 1, caracterizado dividirse un texto en frases y traducirse cada frase.
12. Sistema informático de almacenamiento de datos y procesamiento para realizar los procedimiento de la invención caracterizado por los elementos siguientes:
-
ficheros de frases Origen y Destino, tabla de obras Origen/Destino, tabla de relaciones Origen/Destino, fichero de palabras Origen/Destino, tabla de abundancia de palabras, fichero de frases Origen/Destino ordenado según índice derivados de la tabla de abundancia de palabras, fichero de palabras Origen y Destino
-
fichero/diccionario bilingüe, compuesto por los siguientes campos: palabra en idioma Origen, palabra en idioma Destino, tipo, género, número, tiempo verbal, tema cuando una palabra tenga varias acepciones coincidente con la clasificación bibliográfica internacional, comodín en lenguaje Origen, comodín en lenguaje Destino, regla de sustitución en frase destino,
-
programas informáticos que realicen los métodos reseñados.
13. Aplicación de la invención para la traducción simultánea de idiomas caracterizado por lo siguiente
-
N conferenciantes en idioma distinto,
-
cada conferenciante dispone de un ordenador,
-
los ordenadores están conectados a una red local,
-
los ficheros de frases homólogas en idiomas Origen y Destino tienen la forma Idioma1 /Idioma2/... /IdiomaN
-
cada ordenador dispone de tarjeta digitalizadora de sonido, programa de transformación de voz a texto, editor de textos con corrector ortográfico en lengua del conferenciante, teclado con solo signos alfabéticos en idioma del conferenciante y un símbolo de fin de frase,
-
el procesador de texto transfiere el texto escrito a un programa de traducción de frases,
\bullet
en los idiomas que el programa encuentre una traducción válida, transfiere la frase a archivos denominados de acuerdo al idioma y la frase,
-
el ordenador de cada conferenciante lee los archivos según su idioma y orden de la frase, transformando los ficheros de texto a voz.
ES200300796A 2003-03-31 2003-03-31 Procedimiento y sistema de traduccion de idiomas por frases homologas . Expired - Lifetime ES2277693B1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ES200300796A ES2277693B1 (es) 2003-03-31 2003-03-31 Procedimiento y sistema de traduccion de idiomas por frases homologas .

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES200300796A ES2277693B1 (es) 2003-03-31 2003-03-31 Procedimiento y sistema de traduccion de idiomas por frases homologas .

Publications (2)

Publication Number Publication Date
ES2277693A1 ES2277693A1 (es) 2007-07-16
ES2277693B1 true ES2277693B1 (es) 2008-06-16

Family

ID=38330808

Family Applications (1)

Application Number Title Priority Date Filing Date
ES200300796A Expired - Lifetime ES2277693B1 (es) 2003-03-31 2003-03-31 Procedimiento y sistema de traduccion de idiomas por frases homologas .

Country Status (1)

Country Link
ES (1) ES2277693B1 (es)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0672989A3 (en) * 1994-03-15 1998-10-28 Toppan Printing Co., Ltd. Machine translation system
US6292769B1 (en) * 1995-02-14 2001-09-18 America Online, Inc. System for automated translation of speech
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
US5903858A (en) * 1995-06-23 1999-05-11 Saraki; Masashi Translation machine for editing a original text by rewriting the same and translating the rewrote one
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6301554B1 (en) * 1999-09-23 2001-10-09 Wordstream, Inc. Language translation using a constrained grammar in the form of structured sentences formed according to pre-defined grammar templates

Also Published As

Publication number Publication date
ES2277693A1 (es) 2007-07-16

Similar Documents

Publication Publication Date Title
Gelderen A history of the English language
Silberztein Formalizing natural languages: The NooJ approach
Reznicek et al. Competing target hypotheses in the Falko corpus
Bick The parsing system Palavras
Reinöhl Grammaticalization and the rise of configurationality in Indo-Aryan
Faarlund A grammar of Chiapas Zoque
Campbell et al. Compendium of the World's Languages
Xia The segmentation guidelines for the Penn Chinese Treebank (3.0)
Bowers et al. A morphological parser for Odawa
Taghva et al. A stemming algorithm for the farsi language
James Tamil lexicography
Bernhard et al. Collecting and annotating corpora for three under-resourced languages of France: Methodological issues
ES2277693B1 (es) Procedimiento y sistema de traduccion de idiomas por frases homologas .
Li et al. Parallel Aligned Treebanks at LDC: New Challenges Interfacing Existing Infrastructures.
Miller Juba Arabic as a written language
Davis Comparative syntax of Old English and Old Icelandic: Linguistic, literary and historical implications
Kejonen Dual number in the North Saami dialect of Ofoten and Sør-Troms
Rogers et al. Terminology and Specialised Translation: A Historical Perspective
Gobbo Planning languages and language planning: The contribution of interlinguistics to cross-cultural communication
Sethi Design of lightweight stemmer for Odia derivational suffixes
Zeman The World of Tokens, Tags and Trees
Garley et al. Virtual meatspace: Word formation and deformation in cyberpunk discussions
Pastor Laughing One's Head Off in Spanish Subtitles: A Corpus-Based Study on Diatopic Variation and Its Consequences for Translation1
Fabb " Of" in Paradise Lost as evidence for the metrical line
Dash Multifunctionality of a hyphen in Bengali text corpus: Problems and challenges in text normalization and POS tagging

Legal Events

Date Code Title Description
EC2A Search report published

Date of ref document: 20070716

Kind code of ref document: A1

FG2A Definitive protection

Ref document number: 2277693B1

Country of ref document: ES

FA2A Application withdrawn

Effective date: 20090209