ES2277693B1 - Procedimiento y sistema de traduccion de idiomas por frases homologas . - Google Patents
Procedimiento y sistema de traduccion de idiomas por frases homologas . Download PDFInfo
- Publication number
- ES2277693B1 ES2277693B1 ES200300796A ES200300796A ES2277693B1 ES 2277693 B1 ES2277693 B1 ES 2277693B1 ES 200300796 A ES200300796 A ES 200300796A ES 200300796 A ES200300796 A ES 200300796A ES 2277693 B1 ES2277693 B1 ES 2277693B1
- Authority
- ES
- Spain
- Prior art keywords
- phrase
- origin
- destination
- language
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G06F17/2827—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Abstract
Procedimiento y sistema de traducción de idiomas por frases homólogas. Dos colecciones homólogas de frases en dos idiomas Origen y Destino. Una frase en idioma Origen a traducir se busca en la colección de frases Origen, seleccionando las que tienen las mismas palabras en el mismo orden. Se toman las frases homólogas en idioma Destino. Se eliminan las palabras no comunes de las frases Destino. Se selecciona la frase que más se parezca a las demás.
Description
Procedimiento y sistema de traducción de
idiomas, por frases homólogas.
La invención pertenece al campo de la traducción
de idiomas.
Los sistemas de traducción de idiomas pueden
clasificarse en tres:
- -
- gramática y diccionario. Estos sistemas fueron los primeros que se utilizaron y actualmente solo se usan como complemento.
- -
- uso de una lengua artificial intermedia entre dos idiomas. A este conjunto pertenece la patente ES2101613.
- -
- traducción por frases. Una patente representativa es la US6301554. Usa frases homólogas predefinidas en dos lenguajes. Se identifica la frase en idioma origen, y se sustituyen luego las palabras homólogas de ambos lenguajes de acuerdo con las frases.
La presente invención abunda en la traducción
por frases, pero a diferencia de la patente US6301554 que requiere
profundos conocimientos idiomáticos de ambos idiomas Origen y
Destino, se propone un sistema que solo considera elementos
lingüísticos muy generales y comúnmente admitidos en todas las
lenguas.
Nos referiremos en este apartado a documentos
escritos.
Sean dos idiomas, Origen y Destino. Se parte de
sendos ficheros de frases reales homólogas en ambos idiomas. Estas
colecciones se obtienen a partir de obras literarias, históricas,
científicas, técnicas, periodísticas, legales, ...
Entre las obras literarias deben incluirse todos
los géneros, haciendo especialmente mención a La Biblia, que está
traducida a todos los idiomas y dividida en frases numeradas, con
la particularidad de que tal numeración es común a todos los
idiomas, tratados internacionales ampliamente traducidos, tales
como los tratados de la CEE, los tratados de la OMC, los tratados de
seguridad en el mar, ...
Poniendo una obra en idioma Origen al lado de su
homóloga en idioma Destino, si ambas están en un idioma occidental,
es fácil relacionar las frases de ambas colecciones, ya que en
todas los lenguajes occidentales los signos de puntuación realizan
idénticas tareas. Se consideran signos de puntuación el punto y
aparte, el punto y seguido, paréntesis, comillas, interrogaciones,
exclamaciones, punto y coma, coma, ...
En el fichero de frases homólogas en idiomas
Origen y Destino una frase en idioma Origen se representará por
FOi, y su correspondiente en idioma Destino se representará por
FDi.
Se trata de traducir una frase FX1n compuesta
por palabras en lenguaje origen {PO1, PO2, ..., POn}.
Esta frase se descompone en subfrases de la
forma FXij: {POi, ..., POj}, i<=j; siendo todas las palabras
intermedias consecutivas, y en número de j+1-i. El
número total de subfrases de este tipo que pueden formarse es de
n.(n+1)/2.
Para cada subfrase FXij{POi, ..., POj}, se
buscan todas las frases en la colección de frases Origen FOrij, tal
que contengan a todas las palabras de FXij y en el mismo orden,
teniendo pues cada FOrij la forma {..., POi, ...,
POi+1, ..., POj, ...}. Si no se encuentran frases con esas características se desecha esa subfrase como posibilidad.
POi+1, ..., POj, ...}. Si no se encuentran frases con esas características se desecha esa subfrase como posibilidad.
Si las frases encontradas en idioma Origen FOrij
tienen la misma longitud que FXij (j+1-i), las
frases homólogas en idioma Destino FDrij son traducciones de esa
subfrase.
Si las frases encontradas FOrij tienen longitud
superior a FXij se pueden dar los siguientes casos:
- -
- solo hay una frase FOrij en idioma Origen. Se desecha la subfrase FXij como posiblidad,
- -
- hay dos o más frases en idioma Origen FOrij. Sea este número de frases m.
En este último caso si sumamos todas las palabra
de todas las frases destino FDrij (pero si una palabra se repite en
una frase se cuenta solo una vez), el conteo de las palabras
comunes a todas las FDrij, y por tanto "homólogas" a las
palabras de FOrij (obviando el orden) tiende al número de frases
m. Por contra, el conteo de las palabras no comunes, que por
lo tanto han de calificarse de "relleno", tienden a 1. En el
caso ideal, si suprimimos en todas las frases las palabras de
"relleno", tenemos m traducciones a la frase FOr.
En un caso más real, algunas de las palabras
consideradas inicialmente como de "relleno", pueden ser
sinónimos de palabras "homólogas", y asimismo palabras de uso
frecuente pueden aparecer como "homólogas", sobre todo si m es
bajo.
Estas excepciones podrían resolverse o bien por
Argumentos lingüísticos, o bien con una selección de seguridad que
nos ayude a desechar la subfrase FXij como posibilidad cuando no se
cumplan los requisitos de la selección. Una selección de este tipo
podría ser aquella que fijara un valor mínimo para m,
superior a 2, y un porcentaje por encima de las cuales las palabras
se consideran "homólogas" o de "relleno".
Argumentos lingüísticos serian como lo que
sigue: si disponemos de un diccionario bilingüe
Origen-Destino, cualquier palabra inicialmente
"homóloga" de las frases FDrij pasaría a ser de "relleno"
si ninguna de sus traducciones coincidiera con alguna de las
palabras de FXij {POi, ..., POj} . Por contra si alguna palabra
inicialmente de "relleno" fuera un sinónimo de alguna
"homóloga", pasaría a ser homóloga.
Sea cual sea el método elegido para declarar las
palabras como "homólogas" o de "relleno", si de las
frases FDrij suprimimos las palabras de "relleno", nos quedan
m frases FD2rij, que son traducciones de la subfrase
FXij.
Para obtener traducciones totales de la frase
FX1n se sigue el siguiente procedimiento de ensamblaje de las
frases FD2rij:
- -
- solo se consideran las subfrases de partida FXij para las que se han obtenido traducciones FD2rij,
- -
- se parte de frases con i=1, FX1j,
- -
- se prueban subfrases FXkp, tal que 1<k<=j+l y p>j,
- -
- si los elementos PDk, ..., PDj de la frase FDr1j coinciden con los elementos PDk, ..., PDj de la frase FDrkp, ambas frases son enlazables,
- -
- si las frases FX1j es enlazable con FXkp, el resultado son hasta m frases FDr1p de mayor longitud que la inicial,
- -
- siempre son enlazables si k=j+1,
- -
- se vuelve a comenzar el proceso hasta que todos los resultados enlazables alcancen el valor FDr1n.
Finalmente tenemos t frases FDr1n,
cualquiera de las cuales puede ser la traducción correcta de
FX1n.
Para elegir entre las t frases otra vez
podemos utilizar argumentos lingüísticos, o bien por un
procedimiento de verisimilitud. Este procedimiento de verisimilitud
consiste en comparar dos a dos todas las t frases FDr1n, por
comparación de patrones de palabras, asignando a cada frase r
el número resultante de su primera comparación y modificando éste
al alza cada vez que otra comparación dé un número mayor. De todas
las frases con igual número, se eligen las de menor longitud.
La comparación de dos patrones consiste en ver
las coincidencias entre los dos patrones comparados, teniendo en
cuenta el orden de los elementos dentro de cada patrón.
Un ejemplo de argumentos lingüísticos es: si
disponemos de un diccionario, si para toda palabra POi de FX1n,
existe alguna traducción de la palabra que coincida con PDj de un
FDr1n, la traducción FDr1n es correcta.
Se considera un método para la traducción de una
frase de un idioma a otro idioma.
Solo se consideran dos elementos lingüístico,
que son los separadores de párrafos y de frases. La función de
separadores de párrafo la cumplen los puntos y aparte. Los
separadores de frases la cumplen los siguientes elementos: punto y
seguido, comillas, guiones, signos de interrogación y signos de
admiración.
Este método de traducción se compone de las
siguientes operaciones y elementos:
1. Operación de comparación de patrones. Sean
dos patrones P1{P11, P12,...., P1N} y P2{P21, P22, ..., P2N},
siendo los Pij entre paréntesis símbolos a comparar tales como
letras, palabras, números... Se trata de obtener un número C, que
informe de las coincidencias máximas de símbolos entre P1 y P2,
teniendo en cuenta el orden de los símbolos de cada patrón.
- -
- se obtienen los símbolos Aij, tales que existen si P1i=P2j,
\newpage
- -
- se ordenan primero por el índice i y dentro de cada i por el j, resultado los símbolos Aij(r), donde r indica el orden,
- -
- se forma un patrón solución PS1 compuesto por el símbolo Aij(1), dando C(PS1)=1,
- -
- al patrón PS1 se le añade el símbolo siguiente Akp(2) si se cumple k>i y p>j, dando C(PS1)=2,
- -
- si no se cumple k>i y p>j, se forma el patrón PS2 con el símbolo Akp(2). En este caso se tendría C(PS1)=l y C(PS2)=1,
- -
- los sucesivos elementos Amt(r), se añaden a todos los patrones existentes de igual manera, siendo el símbolo de comparación el último símbolo de cada patrón existente. Como en el ejemplo antedicho, si no se puede añadir a ningún patrón existente, se crea un nuevo patrón con dicho símbolo.
- -
- el máximo C(PSr) es el número C que se busca y los símbolos que componen el PSr relacionan P1 con P2.
2. Ficheros de frases Origen y Destino. Ambos
tienen la misma constitución. Se forman a partir de obras obras
literarias, históricas, científicas, técnicas, periodísticas,
legales, ..., muy traducidas, especialmente La Biblia y tratados
internacionales.
Cada ficha (en cada fichero, por ahora todavía
sin relación) contiene los siguientes campos:
- -
- nombre de la obra en idioma Origen o Destino. De haber varias obras con el mismo nombre se añadirán otros elementos identificativos tales como el nombre del autor para que no haya ningún nombre igual
- -
- clasificación bibliográfica internacional
- -
- número de párrafo (dentro de cada obra)
- -
- número de frase (dentro de cada párrafo)
- -
- frase en idioma Origen o Destino
Una materialización informática de estos
ficheros puede obtenerse escaneando los textos, mientras un
programa los va dividiendo en párrafos y frases conforme vaya
encontrando separadores de párrafos o de frases, asignando números
de párrafo y frase conforme los va grabando en el elemento
informático de almacenamiento.
3. Tabla de obras Origen/Destino. Consiste en
dos columnas conteniendo en cada fila el nombre de cada obra Origen
y Destino, tal y como se ha escrito en los ficheros de frases
Origen y Destino.
4. Procedimiento para relacionar los ficheros de
frases Origen y Destino y tabla de relaciones Origen/Destino. Se va
recorriendo la tabla de obras Origen/Destino. Para cada obra en
cada idioma se forma una tabla cuyo índice es le numero de párrafo
y cuyo contenido es el número de frases de cada párrafo.
Para la tabla de párrafos Origen se forma un
patrón POrigen formado por el contenido de la tabla de párrafos
Origen.
Para la tabla de párrafos Destino se forma un
patrón PDestino formado por el contenido de la tabla de párrafos
Destino.
Por aplicación de la operación del párrafo 1, se
obtiene una relación entre párrafos Origen y Destino, dada por los
símbolos Aij. Si para todo i, i=j, y la tabla de relaciones
Origen/Destino se configura con los datos
- -
- nombre de la obra en idioma Origen
- -
- número de párrafo Origen
- -
- número de frase Origen
- -
- nombre de la obra en idioma Destino
- -
- número de párrafo Destino
- -
- número de frase Destino
- -
- número consecutivo del 1 al total de frases relacionadas o índice de la tabla.
Si no se verifica que para todo i, i=j,
es que hay algún salto en la división de párrafos y frases.
Para depurar estas relaciones iniciales un
profesional traductor de ambos idiomas Origen y Destino modifica
los textos, añadiendo los separadores de párrafo y de frase
necesarios. Puede ayudarse con una vista de los citados textos
puestos uno al lado del otro, con dos columnas adicionales con el
número de párrafo y frase de cada uno, de forma que dos párrafos
inicialmente dados como homólogos comiencen en la misma línea.
5. Fichero palabras Origen y Destino. Para cada
idioma, de forma separada, se forma un fichero que contiene todas
las palabras de las frases que se pueden encontrar recorriendo la
tabla de relaciones Origen/Destino. Para cada palabra, se define
una ficha, cada ficha tiene la siguiente información:
- -
- palabra
- -
- lista con la numeración consecutiva de la tabla de relaciones Origen/Destino de las frases que la contienen.
6a. Procedimiento para la obtención de subfrases
FXij a partir de la frase a traducir FX1n en idioma Origen,
compuesta por las palabras {OP1, ..., OPn}. Las palabras de las
subfrases son siempre consecutivas:
- -
- se parte de la primera palabra OP1. Se añade sobre el conjunto vacío produciendo la frase FX11{OP1},
- -
- se duplica el anterior conjunto de subfrases. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP2, teniendo las subfrases FX11, FX11+OP2=FX12, {}+OP2 =FX22
- -
- se duplica el anterior conjunto de subfrases que termina en la palabra OP2. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP3, teniendo las subfrases FX11, FX12, FX22, FX12+OP3=FX13, FX22+OP3=FX23, {}+OP3=FX33
- -
- se aplican sucesivamente las palabras OP4, ... OPn.
- -
- se tiene pues la suma de una progresión aritmética de razón 1 y n elementos, es decir n . (n+l)/2 subfrases.
6b. Procedimiento para la obtención de subfrases
FXr a partir de la frase a traducir FX1n en idioma Origen,
compuesta por las palabras {OP1, ..., OPn}. Las palabras de las
subfrases son de orden creciente, aunque no necesariamente
consecutivas:
- -
- se parte de la primera palabra OP1. Se añade sobre el conjunto vacío produciendo la frase FX11{OP1},
- -
- se duplica el anterior conjunto de subfrases. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP2, teniendo las subfrases FX11, FX11+OP2=FX12, {}+OP2=FX22
- -
- se duplica el anterior conjunto de subfrases. Sobre el duplicado (incluido el conjunto vacío), se añade la siguiente palabra OP3, teniendo las subfrases FX11, FX12, FX22, FX11+OP3, FX12+OP3=FX13, FX22+OP3=FX23, {}+OP3=FX33
- -
- se aplican sucesivamente las palabras OP4, ... OPn.
- -
- se tiene pues la suma de una progresión geométrica de razón 2 y n elementos, es decir:
2
\sum\limits^{n}
-1
6c. El procedimiento 6b para obtener subfrases
es más general que el 6a, pero tiene inconvenientes muy graves:
- -
- las progresiones geométricas crecen muy deprisa,
- -
- son más difíciles de representar, pues deben figurarse todos sus índices en vez de los de los extremos,
- -
- se puede obtienen subfrases poco realistas.
Una solución no lingüística es en establecer
unos porcentajes que eliminen subfrases con un número de palabras
por debajo de la aplicación del citado porcentaje sobre el total de
palabras de la frase.
Una solución lingüística sencilla consiste en
permitir las citadas discontinuidades solo cuando delante o detrás
de una palabra vaya un signo de puntuación (distinto del separador
de párrafo y frases), o bien ciertas palabras tales como
conjunciones y palabras poco usuales. Se considera palabra poco
usual si su abundancia está por debajo de un determinado porcentaje,
pudiendo determinarse esta abundancia contando las palabras de las
colecciones de frases que usemos.
\newpage
7. Procedimiento de traducción de una subfrase
FXr (el signo r es un conjunto de índices y engloba asimismo
subfrases con los subíndices ij). Se ordenan las subfrases
por longitud, comenzando por las más largas. Así, la primera frase
a traducir sería precisamente la frase entera FX1n.
De palabra de cada subfrase FXr se derivan
conjuntos de frases OPk{las frases que figuran en la ficha del
Fichero palabras Origen de la palabra OPk}(ver punto 5), tal que
k pertenece al conjunto de índices r. La intersección
de todos los conjuntos OPk{} y FXr nos dá un conjunto de frases
origen FO0t, siendo t un conjunto de índices, cada uno de los
índices representa una la relación entre frases en idioma Origen e
idioma Destino.
De esa lista de frases origen FO0t se
seleccionan solo aquellas que tienen las palabras OPk en el mismo
orden que en la subfrase FXr, es decir las que cumplen que,
aplicando la operación de comparación de patrones (ver apartado 1)
a los patrones definidos por cada frase de FO0t y la subfrase FXr,
se obtiene un C=(tamaño del conjunto r). A este nuevo
conjunto de frases lo denominamos FOt.
Así t es un conjunto de índices cuyos
números representan índices de la tabla de relaciones
Origen/Destino.
Se tienen los siguientes casos:
- a)
- el conjunto t es vacío: la subfrase FXr se desecha.
- b)
- alguna frase de este conjunto FOt tiene de longitud C, su frase homóloga en idioma Destino es la traducción de la subfrase FXr,
- c)
- previamente se han fijado un m y un porcentaje de seguridad,
- d)
- si (tamaño de t)<m se desecha la frase.
- e)
- se forma el conjunto FDt de frases, compuesto por las frases homólogas en idioma Destino de todas las frases de FOt, para cada palabra distinta se cuenta el número de apariciones en el conjunto FDt, obteniéndose la contabilidad de cada palabra, (una palabra repetida en una frase se cuenta solo una vez),
- f)
- en todas las frases FDt, se desechan todas las palabras cuya contabilidad sea inferior a la aplicación del porcentaje de seguridad sobre el número de subfrases del fichero FOt, dando lugar al conjunto de frases FD2t, que es un conjunto de traducciones de la subfrase FXr,
- g)
- todas las frases de FD2t se comparan dos a dos por la operación de comparación de patrones (ver punto 1), asignando a cada frase el número C resultante de tal comparación. Si con la comparación con otra frase se obtuviera un C mayor, se sustituiría el anterior por el mayor,
- h)
- se eligen las frases con mayor C, y dentro de éstas las que tengan menor número de palabras.
En resumen para cada subfrase FXr se ha obtenido
una traducción en idioma Destino FD2t, siendo inicialmente tanto r
como t conjuntos de índices que ya se han definido.
A partir de aquí, puesto que se han eliminado
los FXr sin traducción, combiene cambiar la notación de acuerdo a
lo siguiente:
- -
- ordenamos el conjunto de las subfrases FXr de acuerdo con el primer elemento del conjunto de índices r, y por mayor a menor número de palabras,
- -
- en el anterior conjunto ordenado de subfrases, una subfrase se representa como FXu, u=1, ..., p, p número total de subfrases a los que se ha encontrado una traducción,
- -
- FD2u es la frase en idioma Destino traducción de FXu.
8. Procedimiento de ensamblar subfrases.
Sobre cada subfrase FXu{POi, ..., POj, ...,
POk}, empezando con u=1, aplicamos todas las demás frases FXv
v>u que cumplen una cualquiera de las siguientes
condiciones:
- -
- sus palabras extremas están comprendidas en FXu, cubren una discontinuidad, y FD2v tiene palabras concordantes con FD2u en el mismo orden y sin palabras intercaladas en FD2u (pueden tenerlas en FD2v). Se sustituyen las palabras concordantes de FD2u por el conjunto de palabras FD2v;
- -
- la palabra extrema izquierda de FXv está comprendida en FXu y FD2u termina en las mismas palabras que FD2v comienza. De FD2v se suprimen estas palabras comunes, y las palabras restantes se añaden a FD2u por la derecha;
- -
- las subfrases Fxu y FXv no tienen ninguna palabra en común. Las frases resultado Origen y Destino son respectivamente: FXu+FXv y FD2u+FD2v.
El anterior proceso aumenta el número de
palabras de una Fxu inicial, repitiéndose el proceso, hasta que se
alcance el total de palabras n o v=p.
Se continúa con u sucesivos hasta el
final.
Se obtienen dos conjuntos de frases homólogas en
idiomas Origen y destino FXb y FD2b, cada frase de FXb tiene n
palabras, y tiene una traducción contenida en FD2b. Las frases de
FD2b se comparan dos a dos por la operación de comparación de
patrones (ver punto 1), asignando a cada frase el número C
resultante de tal comparación. Si con la comparación con otra frase
se obtuviera un C mayor, se sustituiría el anterior por el mayor.
Se escogen las frases con mayor C, y dentro de ellas la frase FD2b
de menor número de palabras.
9. Simplificación de los archivos de frases. La
tabla de relaciones Origen/Destino puede tener frases repetidas o
consecuencia de otras existentes. Para eliminarlas, se traduce una
a una todas las frases referenciadas en esa tabla aplicando los
procedimientos de traducción referidos en este apartado (obviamente
no considerando esta frase ni su traducción como frase posibilidad
Origen/Destino). Si la traducción de cada frase coincide con la
definida por la relación Origen/Destino, se elimina esta frase de
la tabla de relaciones Origen/Destino.
En el apartado Detallada descripción de la
invención se ha considerado solo la traducción de una frase.
Fácilmente se pasa a la traducción de un texto dividiendo éste en
frases. Traducidas las frases, éstas vuelven a agruparse en frases
y párrafos para obtener un texto traducción.
Los ficheros y tablas definidos en Detallada
descripción de la invención y en este apartado, se integran en
ficheros susceptibles de ser almacenados en dispositivos
informáticos, tales como discos duros, CDROM, etc. Asimismo los
procedimientos relatados se trasladan a funciones o procedimientos
informáticos.
Un diccionario entre idiomas Origen y Destino,
que tiene los siguientes campos:
- -
- palabra en idioma Origen
- -
- palabra en idioma Destino
- -
- tipo (sustantivo, adjetivo, verbo, ...)
- -
- genero
- -
- número
- -
- tiempo verbal
- -
- tema, cuando una palabra tenga varias acepciones según el campo. El tema se hace coincidente la clasificación bibliográfica internacional del punto 2 del apartado Detallada descripción de la invención
- -
- comodín en lenguaje Origen
- -
- comodín en lenguaje Destino
- -
- regla de sustitución en frase destino
Los campos comodín solo se rellenan cuando la
palabra Origen/Destino tiene un significado específico y único como
subtantivo, adverbio, etc.... Precisamente el comodín puede ser la
palabra "subtantivo", "adjetivo", ...
En cuanto a la regla de sustitución se refiere
al hecho de que entre algunos lenguajes Origen/Destino, pe.
Español/Alemán, no existe una correspondencia directa entre
palabras españolas y alemanas, dado que en alemán se forman
palabras compuestas.
Se tienen los siguientes procedimientos para
aplicación de las reglas lingüísticas:
1. Mejora del procedimiento de relacionar los
ficheros de frases Origen y destino del punto 4º del apartado
Detallada descripción de la invención.
Para evitar el uso del profesional traductor de
ambos idiomas Origen y Destino en verificar la concordancia de
frases Origen y Destino homólogas fijando un porcentaje de
aciertos. Dadas dos frases homólogas según el punto 4º citado, se
confirman como homólogas si el número de palabras de la frase Origen
que tienen una palabra equivalente en la frase Destino de acuerdo
con el diccionario (tomando en consideración cualquiera de todas
sus acepciones) es superior al porcentaje de aciertos fijado.
2. Para reducir el número de frases de las
colecciones de frases homólogas Origen/Destino.
En todas las frases se sustituyen las palabras
con comodín por éste. Después de estas sustituciones habrá una gran
cantidad de frases iguales, suprimiéndose aquellas que sean
iguales.
En este punto, esta invención se acerca a la
correspondiente a la patente US6301554 reseñada en Antecedentes de
la invención, salvo que aquí las frases no son predefinidas.
Además del campo general de la traducción de
idiomas, una aplicación particular de la invención es la traducción
simultánea de idiomas en una conferencia.
Supongamos N conferenciantes, cada uno de un
idioma distinto. Cada conferenciante dispone de un ordenador con
las siguientes características:
- -
- tarjeta de sonido que permita al conferenciante hablar
- -
- programa de transformación de voz a texto
- -
- programa de transformación de texto a voz
- -
- editor de textos con corrector ortográfico en la lengua del conferenciante
- -
- teclado con solo los símbolos alfabéticos de su idioma dispuestos en la forma habitual y un símbolo de fin de frase.
Todos los ordenadores están conectados a una red
local. En la red local existen ficheros como los relatados en el
apartado Descripción detallada de la invención, solo que en vez de
ser Origen/Destino son de la forma Idioma1/Idioma2/.../IdiomaN.
Cuando el conferenciante en Idioma habla
(naturalmente son intercambiables todos los idiomas), le va
apareciendo en la pantalla de su ordenador el texto que dice.
Corrige los errores ortográficos. Cuando ha terminado una frase
pulsa el símbolo fin de frase.
Cuando se pulsa el símbolo fin de frase, el
procesador de texto está preparado para transferir el texto escrito
al programa de traducción de frases.
Si el programa traductor encuentra una
traducción válida en algunos idiomas, la transfiere a archivos
numerados de acuerdo al idioma y la frase. Los ordenadores de los
demás conferenciantes van leyendo los archivos de su idioma y al
orden de frase, transformándolos a través del programa de textos a
voz en señales audibles para cada conferenciante que escucha en ese
momento.
Si el programa traductor no encuentra una
traducción válida en algún idioma, expone en la pantalla del
conferenciante que habla la frase más completa de las obtenidas en
el punto 8 del apartado Descripción detallada de la invención en su
propio idioma, reseñando las palabras no traducidas, y sugiriendo
cambie la oración o las palabras no traducidas.
Claims (13)
1. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas, caracterizado por
- -
- confeccionar un fichero de frases homólogas en idiomas Origen y Destino,
- -
- obtener subfrases de una frase Origen Inicial mediante combinaciones de cualquier número de palabras de la frase Origen Inicial en el mismo orden que en dicha frase Origen Inicial,
- -
- traducir cada subfrase comprendiendo seleccionar frases en lenguaje Origen del fichero de frases homólogas que contienen las palabras de la subfrase en el mismo orden, si se encuentra una frase en lenguaje Origen con igual numero de palabras que la subfrase su frase homóloga en idioma Destino es la subfrase traducida, en otro caso
- -
- si el número de frases en lenguaje Origen es inferior a un m prefijado se desecha la subfrase,
- -
- contar el número de frases homólogas en idioma Destino en que aparezca cada palabra en idioma Destino, desechando las palabras en idioma Destino cuyo conteo es inferior al total de palabras distintas en idioma Destino por un porcentaje de seguridad prefijado,
- -
- comparar dos a dos las frases homólogas en idioma Destino por comparación de patrones, asignando a cada frase un número de coincidencias,
- -
- seleccionar las frases homólogas en idioma Destino con mayor número de coincidencias y menor longitud,
- -
- ensamblar subfrases por unión de las mismas, comprendiendo obtener frases homólogas en idioma Destino por unión asimismo de frases homólogas en idioma Destino de las subfrases cuando
- -
- las palabras inicial y final de una segunda subfrase están contenidas y recubren una discontinuidad en una primera subfrase, y cuando la frase homóloga en idioma Destino de la primera subfrase tiene palabras concordantes con la frase homóloga en idioma Destino de la segunda subfrase, en el mismo orden y sin palabras intercaladas,
- -
- la segunda subfrase recubre a la primera subfrase por su extremo derecho, y cuando la frase homóloga en idioma Destino de la primera subfrase termina en las mismas palabras que empieza la frase homóloga en idioma Destino de la segunda subfrase,
- -la segunda subfrase es disjunta de la primera subfrase,
- -
- cuando se obtiene una subfrase igual a la frase Origen Inicial, se obtiene una frase traducción,
- -
- comparar dos a dos las frases traducción por comparación de patrones, asignando a cada frase un número de coincidencias,
- -
- seleccionar las frases del conjunto de traducciones con mayor número de coincidencias y menor longitud,
- -
- simplificar el archivo de frases homólogas en idiomas Origen y Destino comprendiendo excluir provisionalmente y traducir cada frase del archivo de frases homólogas en idioma Origen, cuando alguna traducción de la frase homóloga en idioma Origen coincide con la frase homóloga en idioma Destino, la exclusión se hace definitiva.
2. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 1,
caracterizado por comprender una operación de comparación de
patrones de acuerdo con las siguientes etapas
- -
- se forma un primer patrón con una primera coincidencia entre dos patrones a comparar,
- -
- una segunda coincidencia entre los dos patrones a comparar se añade al primer patrón nuevo si su orden en los patrones a comparar es superior al de la primera coincidencia; en otro caso se forma un segundo patrón nuevo con esa segunda coincidencia
- -
- coincidencias sucesivas se aplican a patrones anteriores
- -
- la mayor longitud de los patrones obtenidos es el número de coincidencias máximas, y los patrones nuevos que tienen este número son las relaciones entre los patrones a comparar.
3. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 1,
caracterizado en obtener el fichero de frases homólogas en
idiomas Origen y Destino utilizando textos muy traducidos a diversos
idiomas, tales como obras literarias, históricas, científicas,
legales, ..., especialmente la Biblia y tratados
internacionales.
4. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 1,
caracterizado en obtener el fichero de frases homólogas en
idiomas Origen y destino con la siguiente configuración
- -
- ficheros independientes de frases en lenguajes Origen y Destino conteniendo cada ficha nombre único de la fuente, clasificación bibliográfica internacional, número de párrafo, número de frase dentro de cada párrafo, frase
- -
- tabla de fuentes Origen/Destino, consistiendo en dos columnas conteniendo en cada fila el nombre de la fuente en cada idioma
- -
- tabla de relaciones Origen/Destino con los datos nombre de la fuente, número de párrafo y frase tanto en idiomas Origen y Destino, y un número consecutivo del 1 al total de frases relacionadas.
5. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 4,
caracterizado en obtener los ficheros independientes de
frases en lenguajes Origen o Destino a través de procedimientos
informáticos tales como escaneo de textos o fichero informáticos de
los textos, y un programa que graba y asigna números de párrafo y
frase según recorre los textos y vaya encontrando separadores de
párrafos o frases.
6. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 4,
caracterizado en obtener la tabla de relaciones
Origen/Destino asignando para cada fichero independiente de frases
en lenguaje Origen y Destino un patrón en idioma Origen y en idioma
Destino formado por el número de frases de cada párrafo, aplicando
a los citados patrones una operación de comparación de
patrones.
7. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 6
caracterizado por exponer la tabla de relaciones
Origen/Destino a un traductor de los idiomas Origen y Destino en un
procesador de textos con las siguientes columnas: número de párrafo,
número de frase, frase en idiomas Origen y Destino (6 columnas),
dicho traductor cuando no haya concordancia entre frases va
insertando finales de párrafo y de frase.
8. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 6
caracterizado en validar frase a frase la tabla de
relaciones Origen/Destino si traducida la frase Origen palabra a
palabra con un diccionario, se acierta en la frase Destino con el
conjunto de las palabras por encima de un porcentaje prefijado.
9. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 1,
caracterizado porque al obtener subfrases se eliminan las
subfrases con un número de palabras por debajo de la aplicación de
un predeterminado porcentaje sobre el el total de palabras de la
frase Origen Inicial.
10. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 1,
caracterizado por usar elementos lingüísticos para
simplificar de acuerdo a lo siguiente:
- -
- obtener subfrases a partir de la frase Origen Inicial:
- -
- todas las palabras de una subfrase son consecutivas,
- -
- se forman subfrases por la aplicación sucesiva de cada palabra de la frase Origen Inicial sobre una frase vacía y subfrases obtenidas anteriormente,
- -
- duplicar cada subfrase,
- -
- en la frase duplicada permitir palabras no consecutivas, eliminado las palabras que:
- \bullet
- vayan entre paréntesis,
- \bullet
- vayan delante o detrás de un signo de puntuación distinto de los separadores de frases y párrafos y paréntesis,
\newpage
- \bullet
- vayan delante o detrás de conjunciones
- \bullet
- las poco usuales de acuerdo por ejemplo con una tabla de abundancia,
- -
- traducir cada subfrase
- -
- m=2
- -
- el total de palabras distintas en idioma Destino por el porcentaje de seguridad se establece en 1, y dos palabras se consideran iguales si son sinónimos,
- -
- ensamblar subfrases.
- -
- el número de coincidencias es un porcentaje de aciertos en la frase homóloga en lenguaje Destino resultante de traducir las palabras de la subfrase una a una con un diccionario
- -
- en todas las frases se sustituyen las palabras susceptibles de ser representadas por un comodín por éste, suprimiendo las frases que sean iguales, siendo una palabra susceptible de ser representada por un comodín si tiene un significado preciso y único como sustantivo, adverbio, adjetivo, ..., y el comodín seria precisamente esta palabra "sustantivo", "adverbio", "adjetivo", ...
11. Procedimiento para traducir frases de un
idioma Origen a otro Destino usando colecciones de frases homólogas
entre ambos idiomas de acuerdo con la reivindicación nº 1,
caracterizado dividirse un texto en frases y traducirse cada
frase.
12. Sistema informático de almacenamiento de
datos y procesamiento para realizar los procedimiento de la
invención caracterizado por los elementos siguientes:
- -
- ficheros de frases Origen y Destino, tabla de obras Origen/Destino, tabla de relaciones Origen/Destino, fichero de palabras Origen/Destino, tabla de abundancia de palabras, fichero de frases Origen/Destino ordenado según índice derivados de la tabla de abundancia de palabras, fichero de palabras Origen y Destino
- -
- fichero/diccionario bilingüe, compuesto por los siguientes campos: palabra en idioma Origen, palabra en idioma Destino, tipo, género, número, tiempo verbal, tema cuando una palabra tenga varias acepciones coincidente con la clasificación bibliográfica internacional, comodín en lenguaje Origen, comodín en lenguaje Destino, regla de sustitución en frase destino,
- -
- programas informáticos que realicen los métodos reseñados.
13. Aplicación de la invención para la
traducción simultánea de idiomas caracterizado por lo
siguiente
- -
- N conferenciantes en idioma distinto,
- -
- cada conferenciante dispone de un ordenador,
- -
- los ordenadores están conectados a una red local,
- -
- los ficheros de frases homólogas en idiomas Origen y Destino tienen la forma Idioma1 /Idioma2/... /IdiomaN
- -
- cada ordenador dispone de tarjeta digitalizadora de sonido, programa de transformación de voz a texto, editor de textos con corrector ortográfico en lengua del conferenciante, teclado con solo signos alfabéticos en idioma del conferenciante y un símbolo de fin de frase,
- -
- el procesador de texto transfiere el texto escrito a un programa de traducción de frases,
- \bullet
- en los idiomas que el programa encuentre una traducción válida, transfiere la frase a archivos denominados de acuerdo al idioma y la frase,
- -
- el ordenador de cada conferenciante lee los archivos según su idioma y orden de la frase, transformando los ficheros de texto a voz.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200300796A ES2277693B1 (es) | 2003-03-31 | 2003-03-31 | Procedimiento y sistema de traduccion de idiomas por frases homologas . |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200300796A ES2277693B1 (es) | 2003-03-31 | 2003-03-31 | Procedimiento y sistema de traduccion de idiomas por frases homologas . |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2277693A1 ES2277693A1 (es) | 2007-07-16 |
ES2277693B1 true ES2277693B1 (es) | 2008-06-16 |
Family
ID=38330808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES200300796A Expired - Lifetime ES2277693B1 (es) | 2003-03-31 | 2003-03-31 | Procedimiento y sistema de traduccion de idiomas por frases homologas . |
Country Status (1)
Country | Link |
---|---|
ES (1) | ES2277693B1 (es) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0672989A3 (en) * | 1994-03-15 | 1998-10-28 | Toppan Printing Co., Ltd. | Machine translation system |
US6292769B1 (en) * | 1995-02-14 | 2001-09-18 | America Online, Inc. | System for automated translation of speech |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
US5903858A (en) * | 1995-06-23 | 1999-05-11 | Saraki; Masashi | Translation machine for editing a original text by rewriting the same and translating the rewrote one |
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
US6266642B1 (en) * | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6301554B1 (en) * | 1999-09-23 | 2001-10-09 | Wordstream, Inc. | Language translation using a constrained grammar in the form of structured sentences formed according to pre-defined grammar templates |
-
2003
- 2003-03-31 ES ES200300796A patent/ES2277693B1/es not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ES2277693A1 (es) | 2007-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gelderen | A history of the English language | |
Silberztein | Formalizing natural languages: The NooJ approach | |
Reznicek et al. | Competing target hypotheses in the Falko corpus | |
Bick | The parsing system Palavras | |
Reinöhl | Grammaticalization and the rise of configurationality in Indo-Aryan | |
Faarlund | A grammar of Chiapas Zoque | |
Campbell et al. | Compendium of the World's Languages | |
Xia | The segmentation guidelines for the Penn Chinese Treebank (3.0) | |
Bowers et al. | A morphological parser for Odawa | |
Taghva et al. | A stemming algorithm for the farsi language | |
James | Tamil lexicography | |
Bernhard et al. | Collecting and annotating corpora for three under-resourced languages of France: Methodological issues | |
ES2277693B1 (es) | Procedimiento y sistema de traduccion de idiomas por frases homologas . | |
Li et al. | Parallel Aligned Treebanks at LDC: New Challenges Interfacing Existing Infrastructures. | |
Miller | Juba Arabic as a written language | |
Davis | Comparative syntax of Old English and Old Icelandic: Linguistic, literary and historical implications | |
Kejonen | Dual number in the North Saami dialect of Ofoten and Sør-Troms | |
Rogers et al. | Terminology and Specialised Translation: A Historical Perspective | |
Gobbo | Planning languages and language planning: The contribution of interlinguistics to cross-cultural communication | |
Sethi | Design of lightweight stemmer for Odia derivational suffixes | |
Zeman | The World of Tokens, Tags and Trees | |
Garley et al. | Virtual meatspace: Word formation and deformation in cyberpunk discussions | |
Pastor | Laughing One's Head Off in Spanish Subtitles: A Corpus-Based Study on Diatopic Variation and Its Consequences for Translation1 | |
Fabb | " Of" in Paradise Lost as evidence for the metrical line | |
Dash | Multifunctionality of a hyphen in Bengali text corpus: Problems and challenges in text normalization and POS tagging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EC2A | Search report published |
Date of ref document: 20070716 Kind code of ref document: A1 |
|
FG2A | Definitive protection |
Ref document number: 2277693B1 Country of ref document: ES |
|
FA2A | Application withdrawn |
Effective date: 20090209 |