ES2611177T3

ES2611177T3 - Procedimientos, aparatos y productos para el procesamiento semántico de texto

Info

Publication number: ES2611177T3
Application number: ES12159672.0T
Authority: ES
Inventors: Francisco Eduardo De Sousa Webber
Original assignee: Cortical IO AG
Current assignee: Cortical IO AG
Priority date: 2012-03-15
Filing date: 2012-03-15
Publication date: 2017-05-05
Anticipated expiration: 2032-03-15
Also published as: US8886579B2; CA2864946A1; US20130246322A1; KR102055656B1; EP2639749B1; JP6265921B2; HUE030528T2; DK2639749T3; CN104169948A; EP2639749A1; PL2639749T3; CN104169948B; AU2013231564B2; PT2639749T; JP2015515674A; KR20140138648A; CA2864946C; AU2013231564A1; WO2013135474A1; HK1199319A1

Abstract

Procedimiento implementado por ordenador para generar un diccionario legible por ordenador para traducir texto en una forma legible por una red neuronal, que comprende: entrenar una primea red neuronal (4) de tipo de mapa de auto-organización con un primer grupo (2) de primeros documentos (3) cada uno conteniendo una o más palabras clave (7) en un contexto semántico, estando entrenada la primea red neuronal (4) con vectores de entrada (21) que representan cada uno un documento (3) del primer grupo (2) y su contenido de palabras clave, para asignar cada documento de texto (3) a un punto (Xi/Yj) en el mapa de auto-organización (5) por agrupación semántica, como resultado de cuyo entrenamiento, en el mapa (5), los documentos (3) han sido asignados a puntos individuales (Xi/Yj) del mapa (5); determinar, para cada palabra clave (7) que tiene lugar en el primer grupo (2), todos los puntos (Xi/Yj) en el mapa de auto-organización (5) al cual se asignan documentos de texto (3) que contienen dicha palabra clave (7), como un patrón de dos o más dimensiones (6) de puntos (Xi/Yj) asociados a dicha palabra clave (7); y guardar todas las palabras clave (7) y patrones asociados (6) como un diccionario de patrones legible por ordenador (9), estando asociado cada patrón (6) a una palabra clave (7) en el diccionario de patrones (9).

Description

5

10

15

20

25

30

35

40

45

50

55

60

DESCRIPCION

Procedimientos, aparatos y productos para el procesamiento semantico de texto Campo de la invencion

La presente invencion se refiere a un procedimiento de entrenamiento de una red neuronal, en particular para el procesamiento semantico, clasificacion y prediccion de texto. La invencion se refiere, ademas, a medios legibles por ordenador y maquinas de clasificacion, prediccion y traduccion basadas en redes neuronales.

Antecedentes de la invencion

En el contexto de la presente descripcion, el termino "red neuronar designa una red neuronal artificial implementada en ordenador. En Bishop C. M., "Neuronal Networks for Pattern Recognition', Oxford University Press, Nueva York, 1995/2010; o Rey, G. D., Wender K. F., "Neuronale Netze", 2a edicion, Hans Huber, Hofgrefe Ag, Berna, 2011, por ejemplo, se da una vision general de la teorfa, tipos y detalles de implementacion de redes neuronales.

La presente invencion se ocupa, en particular, del procesamiento semantico de texto a traves de redes neuronales, es decir, analizando el significado de un texto, centrandose en la relacion entre sus palabras y lo que representan en el mundo real y en su contexto. A continuacion, "palabras" (fichas) de un texto comprenden tanto palabras en la terminologfa habitual del idioma, asf como cualquier unidad de un idioma que pueda combinarse para formar un texto, tal como sfmbolos y signos. A partir de estas palabras, se prescinde de un grupo de palabras con demasiada ubicuidad como "el/la", "el", "a/en" etc. que tienen poca relevancia semantica que dejar lo que se denomina "palabras clave" de un texto.

Las aplicaciones de un procesamiento de texto semantico son generalizadas y abarcan, por ejemplo, la clasificacion de texto en determinadas palabras clave para clasificar la relevancia, archivar, minerfa de datos y fines de recuperacion de informacion. Comprender el significado de palabras clave en un texto y predecir otras palabras clave "con significado" que se produzcan en el texto es util, por ejemplo, para la expansion de consultas semanticas en motores de busqueda. Por ultimo, pero no menos importante, el procesamiento de texto semantico mejora la calidad de las traducciones automaticas mediante la resolucion de ambiguedades de un texto de origen al considerar sus palabras en un contexto semantico mas amplio.

Los procedimientos de procesamiento de texto semantico existentes hasta la fecha, en particular para la expansion de consultas en motores de busqueda, funcionan con grandes indices estadisticos para palabras clave, su lema (rafces lexicas) y relaciones estadisticas entre las palabras clave para construir grandes archivos de sinonimos, estadisticas y diccionarios para el analisis relacional. Los procedimientos estadisticos, sin embargo, estan limitados en profundidad de analisis semantico cuando se consideran secuencias de palabras mas largas y mas complejas.

Por otra parte, las redes neuronales se utilizan principalmente para el reconocimiento de patrones en datos complejos y diversos, tales como el reconocimiento de objetos en imagenes o el reconocimiento de senales en datos de voz, musica o de medicion. Las redes neuronales tienen que ser "entrenadas" correctamente con cantidades masivas de datos de entrenamiento con el fin de poder cumplir con su tarea de reconocimiento cuando se alimenta con muestras "vivas" a analizar. El entrenamiento de una red neuronal es equivalente a configurar sus conexiones internas y pesos entre sus nodos de red ("neuronas"). El resultado del entrenamiento es una configuracion especffica de conexiones ponderadas normalmente dentro de la red neuronal.

El entrenamiento de una red neuronal es una tarea compleja por si misma e implica el establecimiento de una multitud de parametros, por ejemplo, con algoritmos iterativos o de adaptacion. Por lo tanto, los algoritmos de entrenamiento para redes neuronales pueden ser considerados como un medio tecnico para construir una red neuronal para una aplicacion especffica.

Para reducir la dimensionalidad de los vectores para entrenar una red neuronal, es conocido, de Ampazis N. y otros, "A Latent Semantic Indexig Approach to Self-Organizing Maps of Document Collections", Neuronal Processing Letters, Kluwer Academix Publishers, 2004, pags. 1 - 17, procesar previamente vectores de entrada basados en palabras, truncandolos mediante una Descomposicion de Valores Singulares y reduciendo su numero, categorizandolos a traves de una primera red neuronal, y entrenando despues una segunda red neuronal con vectores basados en categorfas en lugar de vectores basados en palabras.

Mientras que las redes neuronales estan actualmente en un uso extendido para el reconocimiento de patrones en grandes cantidades de datos numericos, su aplicacion en el procesamiento de texto esta actualmente limitada por la forma en que puede presentarse un texto a una red neuronal en una forma legible por una maquina.

5

10

15

20

25

30

35

40

45

50

55

60

Descripcion de la invencion

Un objetivo de la invencion es mejorar la interfaz entre el texto, por una parte, y las redes neuronales por otra, con el fin de aprovechar mejor la potencia de analisis de redes neuronales para el procesamiento de texto semantico.

En un primer aspecto de la invencion, se dispone un procedimiento implementado por ordenador para el entrenamiento de una red neuronal, que comprende:

entrenar una primera red neuronal de tipo de mapa de auto-organizacion con un primer grupo de primeros documentos de texto que contienen cada uno una o mas palabras clave en un contexto semantico para asignar cada documento a un punto en el mapa de auto-organizacion mediante agrupacion semantica;

determinar, para cada palabra clave que tiene lugar en el primer grupo, todos los puntos en el mapa de auto-organizacion a los cuales se asignan primeros documentos que contienen dicha palabra clave como un patron y guardar dicho patron para dicha palabra clave en un diccionario de patrones; formar por lo menos una secuencia de palabras clave a partir de un segundo grupo de documentos de texto conteniendo cada uno una o mas palabras clave en un contexto semantico; traducir dicha por lo menos una secuencia de palabras clave en por lo menos una secuencia de patrones utilizando dicho diccionario de patrones; y

entrenar una segunda red neuronal con dicha por lo menos una secuencia de patrones.

La segunda red neuronal entrenada con el innovador procedimiento esta configurada y lista para ser utilizada en una variedad de aplicaciones, incluyendo las siguientes aplicaciones:

i) procesamiento de texto que contiene por lo menos una palabra clave, que comprende:

traducir dicha por lo menos una palabra clave en por lo menos un patron por medio del diccionario de patrones, enviar dicho por lo menos un patron como patron de entrada a dicha segunda red neuronal entrenada,

obtener por lo menos un patron de salida de dicha segunda red neuronal entrenada, y traducir dicho por lo menos un patron de salida en por lo menos una palabra clave por medio del diccionario de patrones;

ii) clasificacion semantica de texto, si se utiliza una segunda red neuronal de tipo jerarquico, en el que dicho por lo menos un patron de entrada se envfa a por lo menos una capa inferior de la jerarqufa y dicho por lo menos un patron de salida se obtiene a partir de por lo menos una capa superior de la jerarqufa; y

iii) prediccion semantica de texto, si se utiliza una segunda red neuronal de tipo jerarquico, en el que dicho por lo menos un patron de entrada se envfa a por lo menos una capa superior de la jerarqufa y dicho por lo menos un patron de salida se obtiene a partir a partir de por lo menos una capa inferior de la jerarqufa.

En otro aspecto, la invencion presenta un procedimiento para generar un diccionario legible por ordenador para traducir texto en una forma legible por una red neuronal, que comprende:

entrenar una red neuronal de tipo de mapa de auto-organizacion con documentos de texto, conteniendo cada uno una o mas palabras clave en un contexto semantico para asignar cada documento de texto a un punto en el mapa de auto-organizacion mediante agrupacion semantica; determinar, para cada palabra clave que tiene lugar en el primer grupo, todos los puntos en el mapa de auto-organizacion al cual se asignan documentos de texto que contienen dicha palabra clave, como un patron de puntos asociados a dicha palabra clave; y

guardar todas las palabras clave y patrones asociados como un diccionario legible por ordenador.

La invencion tambien presenta un diccionario legible por ordenador de este tipo que se realiza en un medio legible por ordenador.

Otros aspectos de la invencion son:

- una maquina de clasificacion, que comprende una red neuronal de tipo de memoria temporal jerarquica que ha sido entrenada como dicha segunda red neuronal con un segundo procedimiento de acuerdo con el primer aspecto de la invencion;

5

10

15

20

25

30

35

40

45

50

55

60

- una maquina de prediccion, que comprende una red neuronal de tipo de memoria temporal jerarquica que ha sido entrenada como dicha segunda red neuronal con un procedimiento de acuerdo con el primer aspecto de la invencion;

- una maquina de traduccion, que comprende dicha maquina de clasificacion, cuya red neuronal ha sido entrenada utilizando primeros y segundos documentos de texto en un primer idioma, y una maquina de prediccion, cuya red neuronal ha sido entrenada utilizando primeros y segundos documentos de texto en un segundo idioma, en el que los nodos de la red neuronal de la maquina de clasificacion estan conectados a los nodos de la red neuronal de la maquina de prediccion.

En todos los aspectos, la invencion combina tres tecnologfas diferentes de una manera completamente novedosa, es decir, mapas auto-organizados (SOMs), la indexacion inversa de palabras clave en un SOM, y una red neuronal objetivo expuesta al texto traducido en un flujo de patrones.

Uno de los principios de la invencion es la generacion de un nuevo tipo de un diccionario "palabra clave vs. patron" (abreviado: el "diccionario de patrones") que contiene una asociacion entre una palabra clave y un patron de dos (o mas) dimensiones. Este modelo representa la semantica de la palabra clave en el contexto del primer grupo de documentos. Seleccionando una coleccion de contextos semanticos como primer grupo de documentos, por ejemplo, artfculos de una enciclopedia, tal como se describira mas adelante, cada patron refleja el contexto semantico y, por lo tanto, el significado de una palabra clave.

Los patrones son generados por una red neuronal SOM, en particular un "mapa de auto-organizacion de Kohonen" ("mapa de caracterfsticas de Kohonen"). Para mas detalles de SOMs vease, por ejemplo de Kohonen, T. "The SelfOrganizing Map", Proceedings of the iEeE, 78 (9), 1464-1480, 1990; Kohonen, T., Somervuo, P., "Self-Organizing Maps of Symbol Strings", Neurocomputing, 21 (1-3), 19-30, 1998; Kaski, S., Honkela, T., Lagus, K., Kohonen, T., "Websom-Self-Organizing Maps of Document Collections', Neurocomputing, 21(1-3), 101-117, 1998; Merkl, D., "Text Classification with Self-Organizing Maps: Some Lessons Learned', Neurocomputing, 21 (1-3), 61-77, 1998; Vesanto, J., Alhoniemi, E., "Clustering of the Self-Organizing Map", IEEE Transactions on Neuronal Networks, 11 (3), 586-600, 2000; Polzlbauer G., M. Dittenbach, Rauber A., " Advanced Visualization of Self-Organizing Maps with Vector Fields", IEEE Transactions on Neuronal Networks 19, 911-922, 2006.

Los patrones generados por SOM se utilizan posteriormente para traducir secuencias de palabras clave de un segundo grupo (entrenamiento) de documentos de texto en secuencias de patrones para enviarse a la segunda de red neuronal (objetivo) para el reconocimiento de patrones. El reconocimiento de patrones es una de las principales competencias de las redes neuronales. Puesto que cada modelo representa un significado intrfnseco de una palabra clave, y una secuencia de patrones representa un significado contextual de palabras clave, la semantica de las palabras clave en el segundo grupo de documentos es analizada por la red neuronal objetivo en referencia y ante el origen del significado intrfnseco de las palabras clave en el contexto del primer grupo de documentos. Como resultado, la red neuronal objetivo puede analizar de manera eficiente y de manera significativa la semantica de un texto.

Los procedimientos y aparatos de la invencion son adecuados para el entrenamiento de todo tipo de redes neuronales objetivo. Una aplicacion preferida es la formacion de redes neuronales que son jerarquicas y - por lo menos parcialmente - recurrentes, en particular, redes neuronales de tipo de marco de prediccion de memoria (MPF) o memoria temporal jerarquica (HTM). Para detalles de teorfa e implementacion de MPFS y EMATs vease, por ejemplo, Hawkins, J., George, D., Niemasik, J., "Sequence Memory for Prediction, Inference and Behaviour', Philosophical Transactions of the Royal Society of London, Serie B, Biological Sciences, 364(1521), 1203-9, 2009; Starzyk, J. A., He, H., "Spatio-Temporal Memories for Machine Learning: A Long-Term Memory Organization', IEEE Transactions on Neural Networks, 20(5), 768-80, 2009; Numenta, Inc., "Hierarchical Temporal Memory Including HTM Cortical Learning Algorithms", Whitepaper of Numenta, Inc., Version 0.2.1, 12 de septiembre de 2011; Rodriguez A., Whitson J., Granger R., "Derivation and Analysis of Basic Computational Operations of Thalamocortical Circuits", Journal of Cognitive Neuroscience, 16:5, 856-877, 2004; Rodriguez, R. J., Cannady, J. A., "Towards a Hierarchical Temporal Memory Based Self-Managed Dyamic Trust Replication Mechanism in Cognitive Mobile Ad-hoc Networks", Actas de la 10a Conferencia Internacional WSEAS sobre inteligencia artificial, ingenierfa del conocimiento y bases de datos, 2011; asf como las patentes (solicitudes) Nos. US 2007/0276774 A1, US 2008/0059389 A1, US 7 739 208 B2, US 7 937 342 B2, US 2011/0225108 A1, US 8 037 010 B2 y US 8 103 603 B2.

Las redes neuronales MPF y HTM guardan representaciones jerarquicas y secuenciadas en el tiempo de flujos de patrones de entrada y son particularmente adecuadas para comprender semantica de texto en el tiempo y jerarquica. Sus nodos (neuronas) en diferentes capas jerarquicas representan per se abstracciones jerarquicas (clases) de palabras clave; la clasificacion (abstraccion) es un principio de funcionamiento intrfnseco de este tipo de redes cuando la entrada se envfa de abajo a arriba de la jerarqufa, y la prediccion (detalle) es un principio de funcionamiento intrfnseco cuando la entrada se envfa de arriba a abajo de la jerarqufa.

5

10

15

20

25

30

35

40

45

50

55

60

En otro aspecto de la invencion el concepto de nodos que representan clases enteras (abstracciones, categorfas) de palabras clave se utiliza para construir una maquina de traduccion como una maquina de prediccion asignada a salidas de nodos de una maquina de clasificacion.

De acuerdo con otro aspecto de la invencion, varios segundas documentos pueden utilizarse y traducirse en flujos de patrones de entrenamiento para entrenar la segunda red neuronal en un grupo especffico de segundos documentos.

En algunas realizaciones de la invencion, los segundos documentos estan ordenados por complejidad ascendente y, cuando se entrena la segunda red neuronal, las secuencias independientes de patrones se envfan a la segunda red neuronal en el orden de clasificacion de los segundos documentos a partir de los cuales se ha formado y traducido cada uno. Esto da lugar a un entrenamiento mas rapido de la segunda red neuronal.

En algunos otros aspectos de la invencion, la complejidad de un segundo documento se determina en base a uno o mas de: el numero de palabras clave diferentes en ese segundo documento, la longitud media de una frase en ese segundo documento, y la frecuencia de una o mas palabras clave del primer grupo en ese segundo documento.

Breve descripcion de los dibujos

La invencion se describe mas en detalle en referencia a los dibujos adjuntos, en los cuales:

La figura 1 es un diagrama de flujo de resumen general del procedimiento de la invencion, incluyendo diagramas de bloques de una primera y una segunda red neuronal, un diccionario de patrones, asf como maquinas de clasificacion, prediccion y traduccion de acuerdo con la invencion;

La figura 2 es un diagrama de flujo de la etapa de procesamiento de vectores para el primer documento establecido como vector de entrada a la primera red neuronal de la figura 1;

La figura 3 es un mapa de auto-organizacion (SOM) de ejemplo creado como salida de la primera red neuronal de la figura 1;

La figura 4 es un diagrama de flujo de la etapa de indexacion inversa, recibiendo entradas desde la etapa de procesamiento de vectores y el SOM, para crear el diccionario de patrones de la figura 1;

La figura 5 muestra representaciones de SOM inversamente indexados con patrones de ejemplo para dos palabras clave diferentes dentro del SOM;

La figura 6 muestra ejemplos de algunos patrones predeterminados para las palabras vacfas (no palabras clave);

La figura 7 es un diagrama de flujo de la etapa de extraccion de secuencias de palabras clave para el segundo grupo de segundos documentos en la figura 1;

La figura 8 muestra el resultado de una etapa de seleccion de documentos opcional para los segundos documentos del segundo grupo;

La figura 9 es un diagrama de flujo de las etapas de la traduccion de una secuencia de palabras clave en una secuencia de patrones de la figura 1; y

La figura 10 muestra una estructura de nodos jerarquica de ejemplo de un MPF utilizado como segunda red neuronal de la figura 1.

Descripcion detallada de la invencion

En una perspectiva general, la figura 1 muestra un procedimiento de procesamiento de texto semantico y un sistema 1 que utiliza un primer grupo 2 de primeros documentos de texto 3 para formar una primera red neuronal 4. La primera red neuronal 4 es un mapa de tipo auto-organizacion (SOM) y crea un mapa de auto-organizacion (SOM) 5. A partir del SOM 5 se crean uno patrones 6 representativos de palabras clave 7 que se producen en el primer grupo de documentos 2 a traves de una etapa de indexacion inversa 8 y ponen en un diccionario de patrones 9.

El diccionario de patrones 9 se utiliza en una etapa de traduccion 10 para traducir secuencias de palabras clave 11 extrafdas de un segundo grupo 12 de segundos documentos 13 en un patron de secuencias 14. Con el patron de secuencias 14 se entrena una segunda red neuronal 15. La segunda red neuronal 15 es preferiblemente (aunque no necesariamente) de tipo marco de prediccion de memoria (MPF) o memoria temporal jerarquica (HTM). La segunda red neuronal entrenada 15 puede utilizarse entonces para clasificar semanticamente texto traducido con un diccionario de patrones 9, vease camino 16, o bien para predecir semanticamente texto traducido con un diccionario de patrones 9, vease camino 17. Otra aplicacion opcional de la segunda red neuronal entrenada 15 es una asignacion jerarquica, vease caminos 18, a una tercera red neuronal opcional 19, que tiene una configuracion similar a la segunda red neuronal 15, pero ha sido entrenada en un idioma diferente al de la segunda red neuronal 15; unas asignaciones de nodos 18 representan entonces coincidencias semanticas entre nodos semanticos 15' de la primera red de idiomas 15 y nodos semanticos 19' de la segunda red de 19 idiomas.

5

10

15

20

25

30

35

40

45

50

55

60

Se describen ahora en detalle los procesos y funciones de los componentes mostrados en la figura 1 con referencia a las figuras 2-10.

La figura 2 muestra una etapa de preprocesamiento y vectorizacion 20 para indexar y vectorizar el primer grupo 2 de primeros documentos 3. En la etapa 20 a partir del primer grupo 2 se produce una secuencia de vectores de entrada 21, un vector 21 para cada primer documento 3, como grupo o matriz (tabla) de vectores de entrenamiento de entrada 22 aplicado a la capa de entrada 23 de la primera red neuronal (SOM) 4. Tal como es conocido para el experto en la materia, la red neuronal SOM 4 normalmente comprende solo dos capas, una capa de entrada 23 y una capa de salida 24 de las neuronas (nodos), interconectadas por unas conexiones 25 cuyos pesos pueden ser representados por una matriz de ponderacion. Las redes neuronales SOM pueden ser entrenadas con algoritmos de aprendizaje sin supervision en el que los pesos de la matriz de ponderacion se auto-adaptan a los vectores de entrada, para asignar especfficamente nodos de la capa de entrada 23 a nodos de la capa de salida 24, teniendo en cuenta la relacion espacial de los nodos de la capa de salida 24 en un mapa de dos dimensiones (o mas) 5. Esto produce mapas 5 que agrupan vectores de entrada 21 respecto a su similitud, produciendo regiones 26 en el mapa 5 con vectores de entrada muy similares 21. Para detalles de las redes neuronales SOM, vease las referencias bibliograficas citadas anteriormente.

El primer grupo 2 y los primeros documentos 3 en el mismo se seleccionan en tal numero y granularidad, por ejemplo, longitud de los documentos individuales 3, de manera que cada uno de los documentos 3 contiene un grupo de, por ejemplo, 1 a 10, 1 a 20, 1 a 100, 1 a 1000 o mas, preferiblemente aproximadamente 250 a 500, palabras clave 7 en un contexto semantico. Un primer documento 3 puede contener - ademas de las palabras clave 7 - palabras de poca relevancia semantica (tales como artfculos "un/una", "el/la" etc.) que normalmente se denominan palabras vacfas, aquf no palabras clave.

El numero de documentos 3 en el grupo 2 se selecciona para obtener un corpus representativo de contextos semanticos para las palabras clave 7, por ejemplo, miles o millones de documentos 3. En una realizacion de ejemplo, se utilizan aproximadamente 1.000.000 documentos 3, cada uno comprendiendo aproximadamente entre 250 y 500 palabras clave 7, como primer grupo de documentos 2.

La longitud (recuento de palabras clave) de los documentos 3 debe ser bastante constante en todo el grupo 2, las palabras clave 7 deben estar distribuidas de manera uniforme y escasamente en los documentos 3 en el grupo 2, y cada documento 3 debe contener una buena diversidad de palabras clave 7.

Las palabras clave 7 tambien pueden ser rafces (lema) de palabras, de modo que, por ejemplo, para formas de singular y plural (gato/gatos) o de diferentes formas verbales (ir/yendo) solo se tiene en cuenta una palabra clave 7. Las palabras clave 7, por lo tanto, pueden ser formas de palabras especfficas y/o rafces de las palabras. Despues de eliminar palabras incapaces de construir palabras clave importantes, tales como palabras vacfas, cada documento 3 puede considerarse una "bolsa de palabras" de palabras clave 7.

En una realizacion practica, puede generarse un primer grupo adecuado 2, por ejemplo, a partir de artfculos de una enciclopedia, tales como artfculos de Wikipedia® obtenidos bajo la "Creative Commons Atribution Licence" o la "GNU Free Documentation Licence" del proyecto Wikipedia®. Tales artfculos enciclopedicos, o entradas, respectivamente, pueden analizarse de acuerdo con capftulos, parrafos etc. en documentos 3 de longitud bastante uniforme, de modo que cada documento 3 contiene palabras clave 7 en un contexto semantico, es decir, con significado.

Para generar los vectores 21, se genera un fndice de todas las palabras clave 7 que existen en todo el grupo 2 y se extiende horizontalmente como encabezamiento de columna 27 de la matriz (tabla) 22. A la inversa, identificaciones de documentos ("id") de todos los documentos 3 en todo el grupo 2 se extienden verticalmente como encabezamiento de fila 28 de la matriz 22. Despues, para cada vez que tiene lugar una palabra clave especffica 7 en un documento especffico 3, se pone una marca o binario "1" en la respectiva celda de la matriz 22. Por lo tanto, en la matriz 22 una fila horizontal representa un vector "palabra clave-ocurrencia" normalizado 21 para un documento 3, en el que un binario "1" en una posicion de palabra clave especffica (posicion de la columna) indica que esta palabra clave 7 esta contenida en la "bolsa de palabras" de este documento 3; y un binario "0" indica la ausencia de esta palabra clave 7 en este documento 3. O, a la inversa, cada columna de la matriz 22 muestra para una palabra clave especffica 7 todos aquellos documentos 3 marcados con un binario "1" que contiene esa palabra clave 7.

Los vectores de entrada 21, es decir, filas de la matriz 22 que representan los documentos 3 y su contenido de palabras clave, se suministran entonces sucesivamente a la capa de entrada 23 de la red neuronal SOM 4 para entrenarla. Esto significa que, si se utiliza un primer grupo 2 de, por ejemplo, 1.000.000 primeros documentos 3, se envfa una sesion de entrenamiento de 1.000.000 entradas de vectores a la primera red neuronal 4.

5

10

15

20

25

30

35

40

45

50

55

60

Como resultado de esta sesion de entrenamiento, la capa de salida 24 de la red neuronal SOM 4 ha producido un mapa 5 en el cual se han asignados documentos 3 (vectores 21) a puntos individuales ("pfxeles") Xi/Yj del mapa 5, agrupados por semejanza. La figura 3 muestra un ejemplo de un mapa 5. A cada punto del mapa X1/Y1, X2/Y2, ..., Xi/Yj, ..., se le ha asignado cero, uno o mas documentos 3 con su bolsa de palabras clave 7. Los documentos 3 (vectores 21) se identifican en el mapa 5, por ejemplo, por su identificador de documento a partir del encabezado de fila 28. Mediante ese proceso de agrupacion de SOM, diferentes documentos 3, que contienen palabras clave 7 muy similares, por ejemplo, que coinciden en un 80% o un 90% de sus palabras clave, se asignan en estrecha relacion espacial entre sf, formando asf "regiones" semanticas 26a, 26b, 26c, 26d, etc. en el mapa 5.

A continuacion, en la etapa de indexacion inversa 8 de la figura 4, en la base de la matriz 22 para una determinada palabra clave 7 a partir de un mdice de palabras clave 27 se identifican todos aquellos documentos 3 que contienen la palabra clave 7. Esto puede realizarse facilmente, por ejemplo, recuperando todo binario "1" en la columna espedfica de la palabra clave determinada 7 en la matriz 22 y buscando el identificador del documento 3 listado en el encabezado de la fila 28.

Para aquellos documentos 3 que se ha comprobado que contienen esa palabra clave determinada 7, todos los puntos del mapa Xi/Yj que referencian esa identificacion del documento espedfica se determinan a partir del mapa 5. Este grupo {Xi/Yj} de puntos del mapa representa el patron 6. El patron 6 es representativo de los contextos semanticos en que existio esa palabra clave determinada 7 en el primer grupo 2: La distribucion espacial (es decir, de dos o mas dimensiones) de los puntos Xi/Yj en el patron 6 refleja aquellas regiones semanticas espedficas 26a, 26b, ... en cuyo contexto existio la palabra clave 7 en el primer grupo 2.

El patron 6 puede codificarse como un mapa binario 31, vease la figura 4, y tambien considerarse como una "huella dactilar" o "huella de pisada" binaria del significado semantico de una palabra clave 7 en una coleccion de documentos, tales como el primer grupo 2. Si el primer grupo 2 cubre una amplia variedad de textos con significado en un idioma espedfico, el patron 6 es de elevada relevancia semantica de la palabra clave 7.

La resolucion espacial del patron 6 puede ser igual o menor que la resolucion espacial de la red neuronal SOM 4 y/o el mapa 5. La resolucion espacial de este ultimo puede seleccionarse de acuerdo con el rendimiento de analisis requerido: Por ejemplo, un mapa 5 puede estar compuesto de millones de puntos de mapa Xi/Yj, por ejemplo 1000 x 1000 puntos, y el patron 6 pueden tener la misma resolucion para una elevada precision, o una resolucion menor para menores requerimientos de memoria.

La figura 5 muestra un ejemplo de dos patrones diferentes 6 (representados como puntos negros) cubriendo el mapa 5 para la facilidad de comprension. En este ejemplo, las regiones 26a, 26b, 26c, 26d han sido etiquetadas manualmente con clases semanticas tales como "depredador", "felinos", "mi mascota" y "canis". Esto es solo a modo de ejemplo; hay que senalar que no es necesario un etiquetado para el correcto funcionamiento de los presentes procedimientos, procesos y algoritmos que solo requieren la distribucion de SOM espacial de los puntos del mapa Xi/Yj.

En la representacion de la izquierda de la figura 5, todos los documentos 3 en que existfa la palabra clave "gato" han sido marcados con un punto. En la representacion de la derecha de la figura 5, todos los documentos que contienen la palabra clave 3 "perro" se han marcado con un punto. Puede apreciarse facilmente que los documentos "gato" caen principalmente, o se agrupan, en regiones 26b ("mi mascota") y 26d ("felinos"), mientras que los documentos "perro" 3 se agrupan principalmente en regiones 26b ("mi mascota") y 26c ("canis ").

Volviendo a la figura 1, para cada palabra clave 7 que existe en el primer grupo 2, el respectivo patron 6 se guarda en el diccionario de patrones 9 en forma de asignacion de dos vfas, es decir, la asociacion entre una palabra clave 7 y su patron 6. El diccionario de patrones 9 constituye un primer producto intermedio del procedimiento y el sistema 1 de la figura 1. El diccionario de patrones 9 puede guardarse ("realizarse") en un medio legible por ordenador, por ejemplo, un portador de datos, tal como un disco duro, CD-ROM, DVD, chip de memoria, servidor de Internet, un almacenamiento en la nube en Internet, etc.

Cabe senalar que la generacion del diccionario de patrones 9 puede implicar el uso de una masiva potencia de procesamiento para la formacion de la primera red neuronal 4 y el mapa de indexacion inversa 5. Por lo tanto, el diccionario de patrones 9 preferiblemente se calcula previamente una vez y despues puede utilizarse repetidamente en otras etapas y modulos de los procesos y las maquinas de la figura 1.

En base a diferentes primeros grupos 2 de primeros documentos 3 que, por ejemplo, pueden seleccionarse espedficos de la aplicacion y/o y espedficos del idioma, diferentes diccionarios de patrones 9 pueden calcularse previamente y distribuirse sobre medios legibles por un ordenador a aquellas entidades que realizan las etapas posteriores e implementan los modulos posteriores de los procesos y maquinas que se describiran ahora en detalle.

5

10

15

20

25

30

35

40

45

50

55

60

En estas etapas posteriores y modulos, la segunda red neuronal (objetivo) 15 es entrenada para un procesamiento de texto semantico en base al segundo grupo 12 de segundos documentos 13. Aunque el segundo grupo 12 podrfa ser identico al primer grupo 2, en la practica, el segundo grupo 12 puede comprender un subgrupo del primer grupo 2 o, de hecho, segundos documentos especfficos de la aplicacion bastante diferentes 13. Por ejemplo, aunque el primer grupo 2 comprenda un gran numero de documentos generales ("enciclopedicos") 3, el segundo grupo 12 puede ser un grupo de datos de usuario especfficos de la aplicacion de documentos de usuario 13 que, por ejemplo, requieran ser buscados por expansion (palabra clave) de consulta semantica, clasificados u ordenados por clasificacion semantica, o traducidos por traduccion semantica. El diccionario de patrones 9 refleja entonces el conocimiento semantico de fondo sobre los significados semanticos generales de las palabras clave 7, mientras que la segunda red neuronal 15 realiza un analisis en profundidad de un grupo de datos de usuario 12 de documentos de usuario 13.

Los documentos de usuario 13 pueden ser, por ejemplo, registros de bases de datos de productos, paginas web, documentos de patentes, registros medicos o todo tipo de colecciones de datos que seran analizados por la segunda red neuronal 15. Un requisito previo para el segundo grupo 12 es que haya sido escrito en el mismo idioma que el primer grupo 2, ya que, de lo contrario, el diccionario de patrones 9 podrfa no aplicarse de manera significativa al segundo grupo 12. Ademas, es preferible - aunque no es obligatorio - que palabras clave 7 que existen en los segundos documentos 13 del segundo grupo 12 esten comprendidas dentro de todo el grupo, es decir, el fndice 27, de palabras clave 7 en el primer grupo 2, de modo que las palabras clave 7 del segundo grupo 12 se listen y puedan buscarse en el diccionario de patrones 9.

En el diccionario de patrones 9, palabras vacfas o palabras clave pueden ignorarse o bien incorporarse como patrones simbolicos predeterminados o preconfigurados tales como los mostrados en la figura 6.

Para el entrenamiento de la segunda red neuronal 15, en una primera etapa 32 se extraen secuencias 11 de palabras clave 7 del segundo grupo 12. Las figuras 1, 7 y 8 muestran esta etapa de extraccion en detalle. Basicamente serfa suficiente si solo un segundo documento 13 o unos pocos es (son) lefdo(s) secuencialmente, palabra a palabra, lfnea a lfnea, parrafo a parrafo, capftulo a capftulo, documento a documento, en una secuencia de lectura normal 33. Las palabras vacfas o que no son palabras clave podrfan omitirse (tratarse por separado, tal como se describe en la figura 6), y el resultado es una secuencia 11 de palabras clave 7. Preferiblemente, sin embargo, el segundo grupo 12 esta dividido en una multitud de segundos documentos 13, y se genera una secuencia 11 de palabras clave 7 para un documento 13. Las secuencias 11 se utilizan entonces, - por ejemplo, en el orden de los documentos 13 a partir de los cuales se originan - como entrada de entrenamiento para la segunda red neuronal 15.

El entrenamiento de la segunda red neuronal 15 puede acelerarse si en la etapa de extraccion 32 se realiza una clasificacion opcional de los documentos 13 y/o secuencias 11. Para esta clasificacion opcional, se calcula un "factor de complejidad" CompF en un proceso 34 para cada documento 13 del segundo grupo 12. El factor de complejidad CompF puede calcularse en base a uno o mas de los siguientes parametros de un documento 13:

- el numero de palabras clave diferentes 7 en un documento 13;

- el recuento de palabras promedio de una frase o parrafo en un documento 13;

- la frecuencia, o diversidad, de una o mas de las palabras clave 7, por ejemplo, de todas las palabras

clave 7 del primer grupo 2, en un documento 13;

- la frecuencia de una o mas de las palabras clave 7, por ejemplo, todas las palabras clave 7, de un

documento 13 en el primer grupo entero 2 u otro corpus de texto representativo de lenguaje coloquial,

por ejemplo, una coleccion de periodicos.

En la etapa de extraccion 32 los documentos 13 pueden ordenarse (clasificarse) entonces de acuerdo con el factor de complejidad CompF ascendente, vease figura 8. De esta manera, la segunda red neuronal 15 recibe secuencias 11 de complejidad creciente, por ejemplo, primero se utilizan secuencias primitivas o simples 11 o secuencias 11 con una modesta diversidad de palabras clave 7, y despues se utilizan secuencias 11 con estructuras semanticas y lingufsticas complicadas para entrenar la segunda red neuronal 15.

Antes de enviarse a la segunda red neuronal 15, las secuencias 11 de palabras clave 7 se traducen en una etapa de traduccion 10 en base al diccionario de patrones 9. Cada palabra clave 7 en una secuencia 11 se busca en un diccionario de patrones 9, se recupera el patron asociado 6, y los resultados son secuencias 14 de patrones 6, una secuencia de patrones 14 para cada documento 13. Cada secuencia de patron 14 puede considerarse como una serie de tiempo o "clip de pelfcula" de patrones 6 que representan el contexto semantico de palabras clave 7 en un documento 13 en el contexto semantico global del primer grupo de documentos 2.

Cabe senalar que, en realizaciones simples, serfa suficiente utilizar solo una secuencia larga 14 de patrones 6 para entrenar la segunda red neuronal 15. Preferiblemente, se utiliza un gran numero de secuencias de patrones 14 (una "secuencia de secuencias"), representando cada secuencia de patrones 14 un vector de entrenamiento con lfnea de

5

10

15

20

25

30

35

40

45

50

55

60

tiempo (matriz) para la segunda red neuronal 15. La figura 9 muestra un ejemplo de la etapa de traduccion 10 que traduce una secuencia de palabras clave 11 en una secuencia de patrones 14.

En la etapa de entrenamiento (flecha 35 en la figura 1) la segunda red neuronal 15 recibe sucesivamente secuencias de patrones 14 para aprender los patrones 6 y sus secuencias en el tiempo. Tal como se ha descrito al principio, pueden utilizarse todo tipo de redes neuronales adaptadas para el procesamiento de grupos temporales de patrones, por ejemplo, redes neuronales que procesen patrones de alimentacion de avance con ventanas deslizantes. Alternativamente y preferiblemente, pueden utilizarse redes neuronales recurrentes o por lo menos parcialmente recurrentes, con o sin bucles de retardo, para aprender y recordar secuencias temporales, por ejemplo, redes neuronales asociativas por si mismas o auto-asociativas.

En realizaciones ventajosas, la segunda red neuronal 15 tambien es jerarquica ya que capas superiores de la jerarqufa comprenden un numero de nodos (neuronas) menor que las capas inferiores de la jerarqufa. La figura 10 muestra un ejemplo de dicha red jerarquica, en particular un marco de prediccion de memoria (MPF), que tambien contiene conexiones de retroalimentacion laterales (intra-capa, vease figura 1) y verticales (capa transversal) para el aprendizaje de secuencias temporales. Una forma preferida de tal arquitectura de MPF son redes neuronales de memoria de tipo temporal jerarquica (HTM). En los documentos anteriores se describe teorfa y detalles de implementacion de redes neuronales MPF y HTM.

Las redes HTM y MPF desarrollan - en la configuracion entrenada - neuronas (nodos) dentro de la jerarqufa, que representan abstracciones (clasificaciones) de patrones de activacion de las neuronas (nodos) en capas inferiores de la jerarqufa. Mediante el uso de conexiones intra-capa y capa transversal recurrentes entrenadas (retroalimentacion), en particular entre nodos de estructuras de sub-capa "columnares", estas pueden modelar el comportamiento temporal de flujos temporales enteros de patrones de activacion. De esta manera, las redes HTM y MPF pueden aprender, recordar y clasificar flujos de patrones y reconocer secuencias de patrones, asf como predecir posibles secuencias de patrones futuros de secuencias de patrones anteriores.

Una vez que la red neuronal 15 ha sido entrenada con el patron de secuencias 14, pueden aplicarse nuevos patrones 6 o nuevas secuencias de patrones 14 como nuevas entradas a una entrada de "clasificacion" en niveles de menor jerarqufa de la red 15, para obtener clasificaciones/abstracciones semanticas como patrones a partir de las salidas de los nodos en niveles jerarquicos superiores, vease ruta 16; o pueden introducirse nuevos patrones 6 o nuevas secuencias de patrones 14 en entradas de "prediccion" en niveles jerarquicos superiores y pueden obtenerse patrones previstos (predicciones semanticas) en niveles inferiores de la jerarqufa, vease ruta 17.

Tal como puede apreciarse en la figura 1, se utiliza un diccionario de patrones 9 en ambas rutas 16, 17 para traducir cualquier nueva secuencia de "consulta" de palabras clave 7 en una secuencia de "consulta" 14, y volver a traducir los patrones de salida de la red neuronal 15 en una clasificacion "resultante" o palabras clave de prediccion 7.

La ruta de clasificacion 16, por lo tanto, puede utilizarse para clasificar un texto de consulta por la red neuronal entrenada 15 utilizando el diccionario de patrones 9 en las interfaces de entrada y salida de la red 15; y puede utilizarse una ruta de prediccion 17 para predecir palabras clave a partir de un texto de consulta, por ejemplo, para "expandir" una frase de palabras clave de busqueda a otras palabras clave (previstas) 7 que coincidan semanticamente con la frase de consulta (valor de referencia), utilizando un diccionario de patrones 9 en interfaces tanto de entrada como de salida de la red neuronal 15.

En la figura 1 se muestra en lfneas discontinuas otra aplicacion de la red neuronal entrenada 15. Una tercera red neuronal 19 entrenada con grupos 2, 12 de documentos 3, 13 en un idioma distinto en el que habfa sido entrenada la red neuronal 15 se asigna por nodos - si pueden identificarse nodos de clasificacion correspondientes 15', 19' dentro de las redes 15 y 19 - a la segunda red 15. En las entradas y salidas 38, 39 de la tercera red neuronal 19 se utiliza otro diccionario de patrones 9, generado a partir de un grupo de documentos 2 en el idioma de la tercera red 19. De esta manera, pueden obtenerse traducciones semanticas entre dos idiomas por asignacion semantica de dos redes MPF o HTM entrenadas 15, 19.

Aunque la invencion se ha descrito con referencia a mapas 5 y patrones 6 bidimensionales, hay que senalar que la primera red neuronal 4 tambien podrfa generar mapas de tres o mas dimensiones 5, lo que da lugar a patrones de tres o mas dimensiones 6 en el diccionario de patrones 9, posteriormente a secuencias patrones de tres o mas dimensiones 14 y una segunda y una tercera red neuronal 15, 19 que funcionan en tres o mas dimensiones.

La invencion no esta limitada de ninguna manera a las realizaciones especfficas descritas como ejemplos en detalle, sino que comprende todas las variantes, modificaciones y combinaciones de las mismas que estan comprendidas en el alcance de las reivindicaciones adjuntas.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

1. Procedimiento implementado por ordenador para generar un diccionario legible por ordenador para traducir texto en una forma legible por una red neuronal, que comprende:

entrenar una primea red neuronal (4) de tipo de mapa de auto-organizacion con un primer grupo (2) de primeros documentos (3) cada uno conteniendo una o mas palabras clave (7) en un contexto semantico, estando entrenada la primea red neuronal (4) con vectores de entrada (21) que representan cada uno un documento (3) del primer grupo (2) y su contenido de palabras clave, para asignar cada documento de texto (3) a un punto (Xi/Yj) en el mapa de auto-organizacion (5) por agrupacion semantica, como resultado de cuyo entrenamiento, en el mapa (5), los documentos (3) han sido asignados a puntos individuales (Xi/Yj) del mapa (5);

determinar, para cada palabra clave (7) que tiene lugar en el primer grupo (2), todos los puntos (Xi/Yj) en el mapa de auto-organizacion (5) al cual se asignan documentos de texto (3) que contienen dicha palabra clave (7), como un patron de dos o mas dimensiones (6) de puntos (Xi/Yj) asociados a dicha palabra clave (7); y

guardar todas las palabras clave (7) y patrones asociados (6) como un diccionario de patrones legible por ordenador (9), estando asociado cada patron (6) a una palabra clave (7) en el diccionario de patrones (9).
2. Procedimiento de acuerdo con la reivindicacion 1 para entrenar una red neuronal, que comprende, ademas:

formar por lo menos una secuencia (11) de palabras clave (7) a partir de un segundo grupo (12) de segundos documentos de texto (13) cada uno conteniendo una o mas palabras clave (7) en un contexto semantico;

traducir dicha por lo menos una secuencia (11) de palabras clave (7) en por lo menos una secuencia (14) de patrones (6) utilizando dicho diccionario de patrones (9); y

entrenar una segunda red neuronal (15) con dicha por lo menos una secuencia (14) de patrones (6).
3. Procedimiento de acuerdo con la reivindicacion 2, caracterizado por el hecho de que la segunda red neuronal (15) es jerarquica y por lo menos parcialmente recurrente.
4. Procedimiento de acuerdo con la reivindicacion 2, caracterizado por el hecho de que la segunda red neuronal (15) es un marco de prediccion de memoria.
5. Procedimiento de acuerdo con la reivindicacion 2, caracterizado por el hecho de que la segunda red neuronal (15) es una memoria temporal jerarquica.
6. Procedimiento de acuerdo con cualquiera de las reivindicaciones 1 a 5, caracterizado por el hecho de que la primera red neuronal (4) es un mapa de auto-organizacion de Kohonen.
7. Procedimiento de acuerdo con cualquiera de las reivindicaciones 2 a 6, caracterizado por el hecho de que, para cada uno de los segundos documentos (13) del segundo grupo (12), se forma una secuencia independiente (11) de palabras clave (7) y se traduce en una secuencia independiente (14) de patrones (6) y la segunda red neuronal (15) es entrenada sucesivamente con cada una de dichas secuencias independientes (11) de patrones (6).
8. Procedimiento de acuerdo con la reivindicacion 7, caracterizado por el hecho de que los segundos documentos (13) estan ordenados y, cuando se entrena la segunda red neuronal (15), las secuencias independientes (14) de patrones (6) se envfan a la segunda red neuronal (15) en el orden en que estan clasificados los segundos documentos (13) a partir del cual han sido formados y traducidos cada uno.
9. Procedimiento de acuerdo con la reivindicacion 8, caracterizado por el hecho de que los segundos documentos estan ordenados por complejidad ascendente, en el que la complejidad de un segundo documento (13) se determina en base a uno o mas de: el numero de palabras clave diferentes (7) en ese segundo documento (13), la duracion media de una frase en ese segundo documento (13), la frecuencia de una o mas palabras clave (7) del primer grupo en ese segundo documento (13), la frecuencia de una o mas palabras clave (7) de ese segundo documento (13) en el primer grupo (2) u otro corpus de texto.
10. Procedimiento de acuerdo con cualquiera de las reivindicaciones 2 a 9, para el procesamiento de texto que contiene por lo menos una palabra clave, que comprende:

traducir dicha por lo menos una palabra clave (7) en por lo menos un patron (6) por medio del diccionario de patrones (9);

5

10

15

20

25

30

enviar dicho por lo menos un patron (6) como patron de entrada a dicha segunda red neuronal entrenada (15);

obtener por lo menos un patron de salida (6) a partir de dicha segunda red neuronal entrenada; y traducir dicho por lo menos un patron de salida (6) en por lo menos una palabra clave (7) por medio del diccionario de patrones (9).
11. Procedimiento de acuerdo con la reivindicacion 10, para la clasificacion semantica de texto, caracterizado por el hecho de que la segunda red neuronal (15) es jerarquica, dicho por lo menos un patron de entrada (6) se envfa a por lo menos una capa inferior de la jerarqufa y dicho por lo menos un patron de salida (6) se obtiene a partir de por lo menos una capa superior de la jerarqufa.
12. Procedimiento de acuerdo con la reivindicacion 10, para la prediccion semantica de texto, caracterizado por el hecho de que la segunda red neuronal (15) es jerarquica, dicho por lo menos un patron de entrada (6) se envfa a por lo menos una capa superior de la jerarqufa y dicho por lo menos un patron de salida (6) se obtiene a partir de por lo menos una capa inferior de la jerarqufa.
13. Diccionario legible por ordenador realizado en un medio legible por ordenador, generado con un procedimiento de acuerdo con la reivindicacion 1.
14. Maquina de clasificacion o prediccion, que comprende una red neuronal de tipo jerarquico que ha sido entrenada como dicha segunda red neuronal (15) con un procedimiento de acuerdo con una de las reivindicaciones 2 a 9.
15. Maquina de traduccion, que comprende

una maquina de clasificacion de acuerdo con la reivindicacion 14, cuya red neuronal (15) ha sido entrenada con un procedimiento de acuerdo con una de las reivindicaciones 2 a 9 utilizando primeros y segundos documentos de texto (3, 13) en un primer idioma; y

una maquina de prediccion de acuerdo con la reivindicacion 14, cuya red neuronal (19) ha sido entrenada con un procedimiento de acuerdo con una de las reivindicaciones 2 a 9 utilizando primeros y segundos documentos de texto (3, 13) en un segundo idioma;

en el que nodos (15 ') de la red neuronal (15) de la maquina de clasificacion estan conectados a nodos (19') de la red neuronal (19) de la maquina de prediccion.