ES2643448T3

ES2643448T3 - Sistema y método de aprendizaje adaptativo

Info

Publication number: ES2643448T3
Application number: ES01926261.7T
Authority: ES
Inventors: Nikola Kirilov Kasabov
Original assignee: Pacific Edge Ltd
Current assignee: Pacific Edge Ltd
Priority date: 2000-04-10
Filing date: 2001-04-10
Publication date: 2017-11-22
Anticipated expiration: 2021-04-10
Also published as: US7089217B2; EP1287488A1; WO2001078003A1; EP1287488B1; US20030149676A1; AU5279301A; DK1287488T3; EP1287488A4; AU2001252793B2; NZ503882A

Description

5

10

15

20

25

30

35

40

45

DESCRPCION

Sistema y metodo de aprendizaje adaptativo Sector de la invencion

La invencion se refiere a un sistema y metodo de aprendizaje adaptativo y, en particular, se refiere a un modulo de red neuronal que forma parte de un sistema de aprendizaje adaptativo.

Antecedentes de la invencion

Los problemas del mundo real, como el analisis masivo de datos biologicos y el descubrimiento de conocimiento, el reconocimiento adaptativo del habla y la adquisicion de lenguaje durante toda la vida, la prediccion inteligente y adaptativa y los sistemas de control, los sistemas basados en agentes inteligentes y agentes adaptativos en la web, robots moviles, sistemas de monitorizacion visual, procesamiento de informacion multimodal, sistemas de soporte de decision adaptativa inteligente, aparatos domesticos adaptativos y edificios inteligentes, sistemas que aprenden y controlan los estados del cerebro y el cuerpo a partir de biorretroalimentacion, sistemas que clasifican datos bioinformaticos y otros sistemas requieren soluciones sofisticadas para construir sistemas de base de conocimiento adaptativo en lfnea.

Estos sistemas deben ser capaces de aprender rapidamente a partir de una gran cantidad de datos, adaptarse incrementalmente en lfnea, tener una estructura abierta que permita la creacion dinamica de nuevos modulos, memorizar informacion que pueda utilizarse mas tarde, interactuar continuamente con el entorno con una forma de aprendizaje «de por vida», gestionar el conocimiento asf como los datos, y representar adecuadamente el espacio y el tiempo en su estructura.

Las tecnicas de inteligencia artificial (IA) y las redes neuronales establecidas presentan dificultades cuando se aplican para el aprendizaje basado en conocimiento en lfnea. Por ejemplo, los perceptrones de multiples capas (PMC) y los algoritmos de aprendizaje de retropropagacion presentan numerosos problemas, por ejemplo el olvido catastrofico, problemas de minima locales, dificultades en la extraccion de reglas, incapacidad para adaptarse a nuevos datos sin actualizacion de los datos antiguos, y los tiempos de capacitacion excesivos cuando se aplican a grandes cantidades de datos.

El mapa de autoorganizacion (MAO) puede no ser eficiente cuando se aplica en aprendizaje no supervisado de nuevos datos, ya que el MAO asume una estructura fija y una red fija de nodos conectados en un espacio de salida topologico que puede no ser apropiado para proyectar un determinado conjunto de datos. Las redes neuronales de base radial requieren primero agrupamiento y despues la aplicacion del algoritmo de retropropagacion. Los sistemas neuronales difusos no pueden actualizar las reglas aprendidas a traves de capacitacion continua sobre datos adicionales sin olvidos catastroficos.

Este tipo de redes no son eficientes para el aprendizaje en lfnea y adaptativo, aunque proporcionan una mejora sobre las tecnicas anteriores.

BERENJI H R Y COL.: «Agrupacion en el espacio de producto para la inferencia difusa» PROCEDIMIENTOS DE LA CONFERENCIA INTERNACIONAL SOBRE SISTEMAS DIFUSOS. SAN FRANCISCO, MAR. 28 - ABR. 1, 1993, NUEVA YORK, IEEE, EE. UU., vol. VOL. 2 CONF. 2, 28 marzo 1993 (1993-03-28), paginas 1402-1407, XP010103946 ISBN: 0-7803-0614-7 describe un metodo para generar un conjunto de reglas difusas con conclusiones lineales a partir de datos utilizando funciones de base radial y agrupaciones en espacio de producto. El metodo esta basado en un modulo de red neuronal que comprende nodos de entrada para recibir datos, nodos de regla teniendo cada uno un umbral de activacion mfnimo, nodos de salida y un componente de adaptacion para modificar los parametros del nodo de regla basado en los datos de salida y para fusionar nodos de regla.

En XP010350803 «Insercion de reglas y extraccion de reglas a partir de redes neuronales difusas en desarrollo: Algoritmos y aplicaciones para construir sistemas expertos en inteligencia y adaptativos» Kasabov N; Woodford B Procedimientos de conferencia de sistemas difusos, 1999. FUZZ-IEEE'99. 1999 IEEE International Seoul, Seoul, Korea, 22-25 Agosto 1999, Piscataway, NJ, EE. UU., IEEE, VOL - 3 (1999-08-02), proporciona algoritmos para la extraccion de reglas y la insercion de reglas para redes neuronales difusas en desarrollo. El modulo de red neuronal comprende nodos de entrada para recibir datos, nodos de regla teniendo cada uno un umbral de activacion mfnimo, nodos de salida y un componente de adaptacion para modificar los parametros y para agregar nodos de regla.

5

10

15

20

25

30

MOREIRA M Y COL.: «Redes neuronales con indices con tasa de aprendizaje adaptativo y condiciones de impulso», MENCION DE INTERNET, 1 octubre de 1995 (1995-10-01), paginas I-1, XP002635433, sugiere adaptar la tasa de aprendizaje individualmente para cada nodo de regla individual.

Explicacion resumida de la invencion

La presente invencion proporciona un modulo de red neuronal, un sistema de aprendizaje adaptativo y un metodo para implementar un modulo de red neuronal como el definido en las reivindicaciones independientes adjuntas. Las realizaciones preferidas segun la presente invencion se definen en las reivindicaciones dependientes adjuntas.

Breve descripcion de las figuras

A continuacion se describiran formas preferidas del sistema y metodo de aprendizaje adaptativo con referencia a las figuras adjuntas en donde:

la Figura 1 es una vista esquematica del hardware en el que puede implementarse una forma de la invencion; la Figura 2 es otra vista esquematica de un sistema de aprendizaje adaptativo de la invencion; la Figura 3 es una vista esquematica de un modulo de red neuronal de la Figura 2; la Figura 4 es un ejemplo de funciones de pertenencia para utilizar con la invencion; la Figura 5 es un ejemplo de un modo de regla de la invencion;

la Figura 6 ilustra el proceso de ajuste y aprendizaje en relacion con el nodo de regla de la Figura 5;

la Figura 7 muestra un sistema de aprendizaje adaptativo de la invencion que tiene tres nodos;

la Figura 8 muestra un metodo para agrupar los nodos de regla de la Figura 7;

la Figura 9 ilustra otro metodo para agrupar los tres nodos de regla de la Figura 7;

las Figuras 10 y 11 ilustran la agrupacion de nodos de regla asignados espacialmente;

las Figuras 12 y 13 ilustran la agrupacion de nodos de regla asignados linealmente;

las Figuras 14 a 17 ilustran diferentes estrategias de asignacion para nuevos nodos de regla;

las Figuras 18A y 18B ilustran el sistema aprendiendo una funcion caotica de series temporales complejas;

la Figura 19 es una tabla de reglas seleccionadas extraidas de un sistema basado en la funcion de la Figura 18;

las Figuras 20 y 21 ilustran el sistema aprendiendo de ejemplos de datos de series temporales;

las Figuras 22 y 23 ilustran aprendizaje continuo no supervisado por el sistema;

la Figura 24 ilustra nodos de regla desarrollados y la trayectoria de una palabra hablada «zoo» en el espacio bidimensional de los primeros dos componentes principales en un sistema entrenado con una mezcla de palabras habladas en ingles de Nueva Zelanda y maori;

la Figura 25 ilustra un analisis comparativo del modelo de aprendizaje del sistema con otros modelos;

la Figura 26 es una tabla que muestra la precision en una prueba global de un metodo conocido comparado con el sistema de la invencion;

la Figura 27 ilustra una regla a partir de un conjunto de reglas extraidas de un sistema desarrollado a partir de una secuencia de datos biologicos para la identificacion de una union de conexion entre intrones y exones en un gen; y

5

10

15

20

25

30

35

40

45

50

la Figura 28 ilustra una regla a partir de un conjunto de reglas extrafdas de un sistema desarrollado a partir de los datos de expresion genetica de una micromatriz tornados de dos tipos - ALL y AML de tejidos cancerosos leucemicos.

Descripcion detallada de las formas preferidas

La Figura 1 ilustra una forma preferida del hardware en el que puede implementarse una forma de la invencion. El sistema 2 preferido comprende un procesador de datos 4 conectado a una memoria principal 6, el procesador 4 y la memoria 6 funcionando bajo el control de un hardware o software operativo adecuado. El procesador 4 puede conectarse a uno o mas dispositivos de entrada 8 y uno o mas dispositivos de salida 10 con un controlador I/O 12. El sistema 2 tambien puede incluir dispositivos 14 adecuados de almacenamiento masivo, por ejemplo, discos flexibles, discos duros o unidades de CD Rom o aparatos de DVD, una pantalla 16, un puntero 17, un modem 18 y/o un controlador de red 19. Los diferentes componentes pueden estar conectados a traves del bus del sistema o mediante una red cableada o inalambrica.

En una realizacion, la invencion puede disponerse para usarse para el reconocimiento de voz y puede alimentarse con senales de voz modelo. En esta realizacion, el (los) dispositivo(s) de entrada 8 puede(n) comprender un microfono y/o un dispositivo de almacenamiento adicional en el que se almacenen senales de audio o representaciones de senales de audio. El (los) dispositivo(s) de salida 10 puede(n) comprender una impresora para mostrar el proceso del lenguaje o el habla por el sistema, y/o un altavoz adecuado para generar sonido. El habla o el lenguaje tambien pueden mostrarse en la pantalla 16.

Si la invencion se adapta para clasificar datos de estudio de casos de bioinformatica, estos datos podrfan almacenarse en un dispositivo de almacenamiento masivo 14, al que accede el procesador 4 y mostrar los resultados en una pantalla 16 y/o en otro dispositivo de salida 10.

Cuando el sistema 2 se adapta para utilizar un robot movil, el (los) dispositivo(s) de entrada 8 pueden) incluir sensores u otros aparatos dispuestos para formar representaciones de un entorno. Los dispositivos de entrada tambien pueden incluir un almacenamiento secundario en el que se almacene una representacion de un entorno. El (los) dispositivo(s) de salida 10 puede(n) incluir una unidad de monitorizacion o visualizacion para mostrar el entorno procesado por el sistema. El procesador 4 tambien puede estar interconectado con medios de control de motor para transportar el robot desde una ubicacion en el entorno procesado a otra ubicacion.

Se apreciara que el sistema de aprendizaje adaptativo 2 puede disponerse para operar en numerosos entornos diferentes y para resolver numerosos problemas diferentes. En cada caso, el sistema 2 desarrolla su estructura y funcionalidad en el tiempo a traves de la interaccion con el entorno a traves de los dispositivos de entrada 8 y los dispositivos de salida 10.

La Figura 2 ilustra los aspectos implementados por ordenador de la invencion almacenados en la memoria 6 y/o almacenamiento masivo 14 y dispuestos para funcionar con el procesador 4. El sistema preferido se dispone como un sistema conexionista en desarrollo 20. El sistema 20 se proporciona con uno o mas modulos de red neuronales o MRN 22. La disposicion y funcionamiento del (de los) modulo(s) de red neuronal 22 forma la base de la invencion y se describira mas detalladamente abajo.

El sistema incluye un componente de representacion o de memoria 26 que comprende uno o mas modulos de red neuronal 22. El componente de representacion 26 incluye, preferiblemente, un componente de adaptacion 28, como se describira con detalle mas adelante, que permite que los nodos de regla se inserten, extraigan y/o agrupen.

El sistema 20 puede incluir una cantidad de componentes conocidos adicionales, por ejemplos un componente de seleccion de caracterfsticas 24 dispuesto para realizar el filtrado de la informacion de entrada, la extraccion de caracterfsticas y la formacion de los vectores de entrada.

El sistema tambien puede incluir un componente de decision 30 de nivel mas alto que comprende uno o mas modulos que reciben retroalimentacion del entorno 34, un componente de accion 32 que comprende uno o mas modulos que toman valores de salida del componente de decision y pasan informacion de salida al entorno 34, y una base de conocimiento 36 que se dispone para extraer informacion abstracta comprimida a partir del componente de representacion 26 y del componente de decision 30 en forma de reglas, asociaciones abstractas y otra informacion. La base de conocimiento 36 puede utilizar tecnicas como algoritmos geneticos u otras tecnicas informaticas desarrolladas para evaluar y optimizar los parametros del sistema durante su funcionamiento.

La Figura 3 ilustra una forma preferida del modulo de red neuronal 22. La estructura preferida es una red neuronal difusa que es una estructura conexionista que implementa reglas difusas. El modulo de red neuronal 22 incluye una capa de entrada 40 que tiene uno o mas nodos de entrada 42 dispuestos para recibir datos de entrada.

4

5

10

15

20

25

30

35

40

45

50

El modulo de red neuronal 22 tambien puede comprender una capa de entrada difusa 44 con uno o mas nodos de entrada difusos 46. Los nodos de entrada difusos 46 transforman los datos desde los nodos de entrada 42 para el posterior uso del sistema. Cada uno de los nodos de entrada difusos 46 puede tener una funcion de pertenencia unida a el. Un ejemplo de una funcion de pertenencia es la funcion de pertenencia triangular mostrada en la Figura 4. La funcion de pertenencia tambien puede incluir funciones Gaussianas o cualquier otra funcion conocida adecuada para este proposito. El sistema se dispone preferiblemente de manera que el numero y tipo de la funcion de pertenencia pueda modificarse como se describira mas abajo. El proposito principal de los nodos de entrada difusos 46 es transformar los valores de entrada de los nodos de entrada 42 en grados de pertenencia a los que pertenezcan los valores de la funcion de pertenencia.

El modulo de red neuronal 22 tambien comprende una capa base de regla 48 con uno o mas nodos de regla 50. Cada nodo de regla 50 esta definido por dos vectores de ponderacion de conexion W1(r) y W2(r). La ponderacion de conexion W1(r) se ajusta preferiblemente por aprendizaje no supervisado basado en medidas de similitud dentro de un area local del espacio del problema. Por otro lado, W2(r) se ajusta preferiblemente por aprendizaje supervisado basado en un error de salida, o en aprendizaje de refuerzo basado en advertencias de salida. Las ponderaciones de conexion (W1(r) y W2(r) se describen con mas detalle mas abajo.

El modulo de red neuronal 22 tambien puede comprender una capa de salida difusa 52 con uno o mas nodos de salida difusos 54. Cada nodo difuso 54 representa una cuantificacion de las variables de salida, similares a los nodos de entrada difusos 46 de la capa de entrada difusa 54. Preferentemente, se utilizan una funcion de entrada de suma ponderada y una funcion de activacion lineal saturada para que los nodos calculen los grados de pertenencia a los que pertenece el vector de salida asociado al vector de entrada para cada una de las funciones de pertenencia de salida.

El modulo de red neuronal tambien incluye una capa de salida 56 con uno o mas nodos de salida 58. Los nodos de salida 58 representan los valores reales de las variables de salida. Preferiblemente, se utiliza una funcion de activacion lineal para calcular los valores no difusos para las variables de salida.

La capa base de regla 48 preferida comprende uno o mas nodos de regla 50 que representan prototipos de asociaciones de datos de entrada-salida que pueden representarse graficamente como asociaciones de hiperesferas desde los espacios de la capa de entrada difusa 44 y los espacios de la capa de salida difusa 52. Cada nodo de regla 50 tiene un umbral de activacion mfnimo que se determina preferiblemente mediante una funcion de activacion lineal.

Como muestra la Figura 3, el modulo de red neuronal 22 tambien puede incluir una capa de memoria a corto plazo 60 con uno o mas nodos de memoria 62. El objetivo de la capa de memoria a corto plazo 60 es memorizar de forma estructurada relaciones temporales de los datos de entrada. La capa de memoria a corto plazo se dispone, preferiblemente, para recibir informacion de y enviar informacion a la capa base de regla 48.

Como se ha descrito anteriormente, cada nodo de regla 50 representa una asociacion entre una hiperesfera del espacio de entrada difuso y una hiperesfera del espacio de salida difuso. Estas esferas se describen con referencia a la Figura 5, que ilustra el ejemplo del nodo de regla 70 mostrado como rj. El nodo de regla rj tiene una hiperesfera 72 inicial en el espacio de entrada difuso. El nodo de regla rj tiene un parametro de umbral de sensibilidad Sj que define el umbral de activacion mfnimo del nodo de regla rj a un vector x de entrada nuevo a partir de un ejemplo nuevo o una entrada (x,y) de manera que se considere la asociacion del ejemplo a este nodo de regla. Un nuevo vector x de entrada acciona un nodo de regla si x satisface el umbral de accionamiento mfnimo y, posteriormente, se considera su asociacion el nodo de regla. El radio de la hiperesfera de entrada 72 se define como Rj =1 -Sj, siendo Sj el parametro del umbral de sensibilidad.

El nodo de regla rj tiene una matriz de ponderacion de conexion W1 (rj) que representa las coordenadas del centro de la esfera 72 en el espacio de entrada difuso. El nodo de regla rj tambien tiene una hiperesfera de espacio de salida difuso 74, siendo las coordenadas del centro de la esfera 74 ponderaciones de conexion W2 (rj). El radio de la hiperesfera 74 de salida se define como E, que representa el umbral de error o tolerancia al error del nodo de regla 70. De esta forma es posible que algunos nodos de regla se accionen mucho mas que otros nodos de regla por los datos de entrada.

Un nuevo par de vectores de datos (x, y) se transforma en vectores de datos de entrada/salida difusos (xf, yf) que se asignaran al nodo de regla 70 si xf cae dentro de la hiperesfera de entrada 72 y yf cae dentro de hiperesfera de salida 74 cuando el vector de entrada x se propaga a traves del nodo de entrada. La distancia de xf desde el centro de la hiperesfera de entrada 72 y la distancia de yf desde el centro de la hiperesfera de salida 74 proporciona una base para calcular y asignar la magnitud o resistencia a la activacion. Esta resistencia al accionamiento proporciona una base para comparar las resistencias a la activacion de diferentes nodos de regla. Por tanto, otra base para la asignacion es que el nodo de regla 70 reciba la mayor activacion entre otros nodos de regla. Los vectores de datos (xf, yf) se asociaran

5

10

15

20

25

30

35

al nodo de regla 70 si la diferencia difusa y normalizada entre Xf y W1 (rj) es menor que el radio Rj, y el error de salida normalizado Err= ||y - y'|| / Nout es menor que un umbral de error E, siendo Nout el numero de las salidas y siendo y' producida por el sistema de salida. El parametro E establece la tolerancia al error del sistema.

En el metodo preferido, una diferencia (distancia) difusa y normalizada entre dos vectores dif y d2f de pertenencia difusos que representen los grados de pertenencia a los que dos datos vectoriales reales di y d2 pertenecen a frecuencias de Mel (MF) predefinidas, se calcula como:

DtdiM » ||dir- dstrll / ||dlf + d«)|

( 1)

donde: ||x - y|| indica la suma de todos los valores absolutos de un vector que se obtiene despues de la resta de un vector (o suma en caso de ||x + y||)de dos vectores x e y; “ / ” indica division. Por ejemplo, si dif =(0,0,1,0,0,0) y d2f=(0,1,0,0,0,0), entonces D(dif , d2f) = (1 + 1)/2=1, que es el valor maximo para la diferencia difusa normalizada local.

A medida que se introducen nuevas entradas en el nodo de regla 70, estas entradas de datos relevantes para rj pueden asociarse al nodo de regla 70 proporcionando una oportunidad de aprendizaje. A medida que se introduce un nuevo vector de datos de entrada/salida difusos (xf, yf) en el nodo de regla 70, el centro de la hiperesfera de entrada 72 se ajusta a la nueva esfera indicada en 72A ajustando W1 (rj (1)) a W1 (rj (2)). La hiperesfera de salida 74 tambien se ajusta a la nueva esfera mostrada en 74A ajustando W2 (rj (1)) a W2 (rj (2)).

Los centros de las hiperesferas de los nodos se ajustan en el espacio de entrada difuso dependiendo de la distancia entre el nuevo vector de entrada y el nodo de regla a traves de una tasa de aprendizaje lj, un parametro que se ajusta individualmente para cada nodo de regla. El ajuste de las hiperesferas en los espacios de salida difusos depende del error de salida y tambien en la tasa de aprendizaje lj, a traves del algoritmo Widrow-Hoff LMS, tambien llamado el algoritmo Delta.

Este ajuste en los espacios de entrada y de salida puede representarse matematicamente mediante el cambio en las ponderaciones de conexion del nodo de regla rj desde W1(rj (1)) y W2(rj(1)) hasta W1(rj (2)) y W2(rj (2)) respectivamente segun las siguientes operaciones vectoriales:

W1 (rjP))-W 1 (rj(>l)+lj.(W 1 (rjOlJ-Xf) (2)

W2 (rj<2>) - W2(rjH)) + lj. (A2 - yf). Al (rjOl) (3)

donde: A2=f2(W2.A1) es el vector de activacion de las neuronas de salida difusas cuando el vector de entrada x esta presente; A1(rj (1)) =f1 (D (W1 (rj (1)), xf)) es la activacion del nodo de regla rj (1); se puede utilizar una funcion lineal simple para f1 y f2, p. ej. A1 (rj (1))= 1-D (W1 (rj (1)), xf)), donde D es la medida de distancia normalizada y difusa; lj es la tasa de aprendizaje actual del nodo de regla rj calculado como lj =1/ Nex(rj), donde Nex(rj) es el numero de ejemplos asociados en ese momento con el nodo de regla rj. El razonamiento estadfstico que esta detras de esto es que cuantos mas ejemplos esten asociados en ese momento a un nodo de regla, menos se «movera» cuando un nuevo ejemplo tenga que ser ajustado por este nodo de regla, es decir, el cambio en la posicion del nodo de la regla es proporcional al numero de ejemplos ya asociados, lo cual es una caracterfstica estadfstica del metodo.

Cuando se asocia un ejemplo nuevo con el nodo de regla rj no solo cambia su ubicacion en el espacio de entrada, sino tambien su campo receptivo expresado como su radio Rj y su umbral de sensibilidad Sj:

Rj « = Rj 01 + D (Wl (rjtff) , Wl (rj<% Rmax

(4)

Respectivamente (3)

Sj - Sj m - D (Wl (r^J), Wl (fjOJ))

<5}

5

10

15

20

25

30

35

40

donde Rmax es un conjunto de parametros que restringen el radio maximo del campo receptivo de un nodo de regla.

El proceso de ajuste y aprendizaje en el espacio de entrada difuso ilustrado en la Figura 6 que ilustra esquematicamente como se ajusta el centro rj(1) 82 del nodo de regla rj 80, despues de aprender cada punto de datos nuevo, a su nueva posicion rj(4) 84 basada en un aprendizaje de una pasada en los cuatro puntos de datos di, d2, d3

y d4.

El componente de adaptacion del sistema preferido permite que los nodos de regla se inserten, extraigan y adapten o agrupen como se describira mas adelante. En cualquier momento o fase del proceso de desarrollo o aprendizaje, las reglas difusas o exactas pueden insertarse ajustando un nuevo nodo de regla rj para cada regla nueva, de manera que las ponderaciones de conexion W1 (rj) y W2 (rj) del nodo de regla representen esta regla.

Por ejemplo, la regla difusa (SI xi es Pequena y x2 es Pequena ENTONCES y es Pequena) puede insertarse dentro del modulo de red neuronal 22 ajustando las conexiones de un nodo de regla nuevo a los nodos difusos xi - Pequeno y x2 - Pequeno y al nodo de salida difuso y - Pequeno a un valor de 1 cada uno. El resto de las conexiones se ajustan a un valor de 0.

De forma similar, se puede introducir una regla exacta en el modulo 22, por ejemplo, SI xi es 3,4 y x2 es 6,7 ENTONCES y es 9,5. Aquf, los grados de pertenencia a los que los valores de entrada xi= 3,4 y x2= 6,7 y el valor de salida y = 9,5 pertenecen a los valores difusos correspondientes se calculan y unen a las ponderaciones de conexion correspondientes.

El componente de adaptacion preferido tambien permite la extraccion de reglas en las que el sistema identifique nuevas reglas y relaciones. Cada nodo de regla rj puede expresarse como una regla difusa, por ejemplo:

Regla r: SI xi es Pequeno 0,85 y xi es Mediano 0,15 y x2 es Pequeno 0,7 y x2 es Mediano 0,3 {el radio del campo respectivo de la regla r es 0,5}

ENTONCES y es Pequeno 0,2 e y es Grande 0,8 {ejemplos Nex(r) asociados a esta regla dentro de los ejemplos totales aprendidos por el sistema}.

Los numeros unidos a las etiquetas difusas indican el grado al que los centros de las hiperesferas de entrada y salida pertenecen a las funciones de pertenencia respectivas.

El componente de adaptacion tambien permite, preferiblemente, la agrupacion de nodos de regla. A traves de esta tecnica, se combinan varios nodos de regla en uno, como se muestra en las Figuras 7, 8 y 9 en un ejemplo de 3 nodos de regla ri, r2 y r3.

La Figura 7 ilustra un modulo de red neuronal similar al modulo de la Figura 3. El modulo puede comprender, por ejemplo, una capa de entrada 40, una capa de salida difusa 44, una capa base de regla 48, una capa de salida difusa 52 y una capa de salida 56. La capa base de regla 48 incluye, por ejemplo, los nodos de regla ri, r2 y r3 indicados como 90, 92 y 94 respectivamente.

Para la agrupacion de estos tres nodos de regla ri, r2, y r3 pueden utilizarse las dos estrategias siguientes para calcular las conexiones del nuevo nodo de regla agrupado ragg Wi (las mismas formas se utilizan para calcular las conexiones W2):

- como un centro geometrico de los tres nodos:

Wl(r«gg)=(Wl(n)+Wl(r2)+Wl(r3))/3 (6)

- como un centro estadfstico ponderado:

W1 (fa£E)=(W 1 (ri).Nex(r l)+W 1 (r2) .Nex(r2}+W l (r3}Nex(r3))/Nsum (7j

Nexfog*)- Nsum - Nex(ri)+Nex(r2)+Nex(rs)j (8}

- D{Wl(iW, Wife) ) + Rj <=Rmax; (9) * su

... . . . ,»ado

es menor que el radio Rmax maximo predefinido.

5

10

15

20

25

30

35

40

45

La Figura 8 muestra un ejemplo de agrupacion como un centro geometrico de los tres nodos mientras que la Figura 9 muestra la agrupacion como un centro estadfstico ponderado.

Para que un nodo rj dado «escoja» a los otros nodos con los que deberfa agruparse, se forman dos subconjuntos de nodos - el subconjunto de nodos rk que si se activa a un grado 1 producira un valor de salida y'(rk) que se diferencia de y'(rj) en menos que el umbral de error E, y el subconjunto de nodos que producen valores de salida que se diferencian de y'(rk) en mas que el umbral de error E. Las conexiones W2 definen estos subconjuntos. Todos los nodos de regla del primer subconjunto que estan mas cerca de rj en el espacio de entrada que el mas cercano al nodo rj del segundo subconjunto en cuanto a la distancia W1 se agrupan si el radio calculado del nuevo nodo ragg es menor que el lfmite Rmax predefinido para un campo receptivo como se ilustra en la Figura 9.

En lugar de agrupar todos los nodos de regla que estan mas cerca de un nodo de regla rj que el nodo mas cercano de la otra clase, es posible mantener el nodo mas cercano del conjunto de agrupacion de la otra clase fuera del procedimiento de agrupacion - como un nodo separado- una «proteccion», tal como se muestra en las Figuras 10, 11, 12 y 13, evitando asf una clasificacion erronea futura en el area limftrofe entre las dos clases.

La agrupacion de nodos de regla asignados espacialmente se describe con referencia a las Figuras 10 y 11. En referencia a la Figura 10, se han se han seleccionado y ordenado dos conjuntos distintos de nodos de regla para la agrupacion, mostrados generalmente como 100 y 102, respectivamente. En referencia a la Figura 11, el nodo de regla 104 se clasifica como una proteccion y no se agrupa. Los nodos de regla restantes que quedan en el conjunto 100 se agrupan en una nueva regla 106. De forma similar, el nodo de regla 108 no se agrupa con los nodos de regla restantes que quedan en el conjunto 102 mostrado en 110. Segun la invencion, el umbral de sensibilidad y el umbral de error de los nodos de regla 104 y 108 se reducen para aumentar el umbral de activacion de estos nodos, dando como resultado nodos agrupados 106 y 110 que son activados con preferencia a los nodos de proteccion 104 y 108.

Las Figuras 12 y 13 ilustran el mismo proceso de agrupacion que se describe en las Figuras 10 y 11 con la excepcion de que los nodos de regla se asignan linealmente en lugar de asignarse espacialmente, como se muestran en las Figuras 10 y 11.

La agrupacion segun la invencion se lleva a cabo preferiblemente despues de que se presente un cierto numero de ejemplos (parametro Nagg) sobre todo el conjunto del nodos de regla.

En otra forma preferida, los nodos del sistema r1 que no estan agrupados pueden reducir su umbral de sensibilidad S1 y aumentar su radio R1 con un coeficiente pequeno para que estos nodos tengan mas oportunidades de ganar la competicion de activacion para los proximos ejemplos de datos de entrada y competir con el resto de nodos.

Mediante la creacion y agrupacion consecutiva de nodos, el modulo de red neuronal 22 preferido puede ajustarse a lo largo del tiempo para cambiar en el flujo de datos y al mismo tiempo preservar sus capacidades de generalizacion.

Despues de un tiempo determinado (cuando una cantidad determinada de ejemplos de datos se han presentado en el sistema) algunas neuronas y conexiones pueden ser podadas. Pueden aplicarse diferentes reglas de podado para un podado exitoso de nodos y conexiones innecesarias. Uno de ellos se da a continuacion:

SI (Edad(rj)>MAYOR)Y(la activacion total TA(rj) es menor que un parametro de podado Pr veces Edad (rj) ) EnToNCeS nodo de regla de podado rj,

donde Edad(rj) se calcula como el numero de ejemplos que se han presentado al sistema despues de que rj se haya creado primero; MAYOR es un lfmite de «edad» predefinido; Pr es un parametro de podado en el intervalo de [0,1], y la activacion total TA(rj) se calcula como el numero de ejemplos para los que rj ha sido el nodo ganador correcto (o entre los nodos ganadores m en el modo de funcionamiento m de n).

La regla de podado mencionada anteriormente requiere que los conceptos difusos de MAYOR, ALTO, etc. esten definidos de antemano. Como caso parcial, puede utilizarse un valor nftido, p. ej. un nodo es MAYOR si ha existido durante el desarrollo de un sistema de mas de p ejemplos. La regla de podado y la forma en la que los valores para los parametros de podado estan definidos, depende de la tarea de la aplicacion.

Los parametros de cada nodo de regla pueden mantenerse fijos durante todo el funcionamiento del sistema, o pueden adaptarse u optimizarse segun los datos de entrada. La adaptacion puede conseguirse a traves del analisis del comportamiento del sistema a traves de una conexion de retroalimentacion desde los modulos con un nivel mas alto. Tambien pueden aplicarse algoritmos geneticos y tecnicas de programacion evolutiva para optimizar los parametros estructurales y funcionales del modulo de red neuronal 22.

5

10

15

20

25

30

35

40

45

50

En una forma adicional preferida de la invencion, se desarrolla una poblacion de s sistemas simultaneamente, teniendo cada sistema diferentes valores de parametros. Una "ventana" determinada de datos entrantes se mantiene y actualiza para probar la capacidad del sistema desarrollado individualmente basado en la funcion de la capacidad del error cuadratico medio. Se selecciona y «multiplica» el mejor sistema a traves de pequenas derivaciones de los valores del parametro creando asf la siguiente generacion poblacion. El proceso es continuo de forma ilimitada en el tiempo.

En cuanto a la implementacion, el metodo y el sistema en una memoria informatica, cuando se crean, los nuevos nodos de regla se asignan espacial o linealmente en la memoria del ordenador y la distribucion real de nodos podrfa seguir una de varias estrategias diferentes como se describe a continuacion.

Una de estas estrategias, como se muestra en la Figura 14, podrfa ser una estrategia de asignacion consecutiva simple. Cada nodo de regla recien creado se asigna en la memoria del ordenador junto al nodo de regla anterior y al nodo de regla siguiente, de forma lineal, representando un orden de tiempo.

Otra estrategia posible podrfa ser una ubicacion preagrupada como se muestra en la Figura 15. Para cada nodo difuso de salida, hay una ubicacion predefinida en la memoria del ordenador donde se encuentran los nodos de regla que soportan este concepto predefinido. En el centro de esta zona se situan los nodos que soportan por completo este concepto. La ubicacion de cada nodo de regla nuevo se define en funcion del error de salida difuso y de la similitud con otros nodos. En una estrategia de insercion de nodo activado mas proximo, se coloca un nuevo nodo de regla mas proximo al nodo altamente activado, cuya activacion es todavfa menor que su umbral de sensibilidad. El lado (izquierdo o derecho) donde se inserta el nuevo nodo se define por la activacion mas alta de los dos nodos vecinos.

Otra estrategia podrfa incluir la ubicacion preagrupada descrita anteriormente incluyendo ademas conexiones de retroalimentacion temporal entre las diferentes partes de los lugares de la memoria informatica, como se muestra en la Figura 16. Se establecen nuevas conexiones que enlazan nodos de reglas activados consecutivamente mediante el uso de la memoria a corto plazo y los enlaces establecidos a traves de la matriz de ponderacion W3. Esto permitira al modulo de red neuronal 22 repetir una secuencia de puntos de datos que empieza desde un punto determinado y no necesariamente desde el principio.

Otra estrategia podrfa incluir el rasgo adicional de que se establezcan nuevas conexiones entre los nodos de regla de diferentes modulos de red neuronales que se activan simultaneamente, como se muestra en la Figura 17. Este rasgo permitirfa al sistema aprender una correlacion entre variables conceptualmente diferentes, por ejemplo la correlacion entre el sonido de la voz y el movimiento de los labios.

Un importante rasgo del sistema de aprendizaje adaptativo y el metodo descrito anteriormente es que el aprendizaje implica la adaptacion de elementos locales. Solo un nodo de regla (o un pequeno numero, si el sistema funciona en modo m de n) se actualizara para cada ejemplo de datos o, de forma alternativa, solo se creara un nodo de regla. Esto acelera el procedimiento de aprendizaje, en concreto si se utilizan las funciones de activacion lineal en los modulos de red neuronal. Otra ventaja es que el aprendizaje de un nuevo ejemplo de datos no provoca que se olviden ejemplos antiguos. Ademas, pueden anadirse nuevas variables de entrada y de salida durante el proceso de aprendizaje, haciendo asf que el sistema de aprendizaje adaptativo sea mas flexible para alojar informacion nueva sin despreciar la informacion ya aprendida.

La utilizacion de las funciones de pertenencia, los grados de pertenencia y la distancia difusa, local y normalizada permiten que el sistema gestione los valores de atributo ausentes. En estos casos, los grados de pertenencia de todas las funciones de pertenencia sera de 0,5 indicando que el valor, si existio, puede pertenecer igualmente a ellos. La preferencia, en terminos de a que funciones de pertenencia difusas puede pertenecer el valor ausente, tambien puede representarse a traves de la asignacion de grados de pertenencia apropiados.

Los algoritmos de aprendizaje supervisados y preferidos de la invencion permiten que el sistema evolucione y aprenda continuamente cuando un nuevo par de datos de entrada-salida queda disponible. Esto se conoce como modo activo de aprendizaje. En otro modo, el aprendizaje pasivo, el aprendizaje se lleva a cabo cuando no se presenta ningun diseno de entrada. El aprendizaje pasivo puede llevarse a cabo despues de un aprendizaje inicial. Durante el aprendizaje pasivo, se utilizan las conexiones existentes que almacenan patrones de entrada alimentados previamente como «eco» para reiterar el proceso de aprendizaje. Este tipo de aprendizaje podrfa aplicarse en caso de un breve tiempo de presentacion de los datos, cuando solo una pequena parte de los datos se aprende en un modo en lfnea de una sola pasada y, a continuacion, la formacion se perfecciona a traves del metodo de aprendizaje por eco. Los patrones almacenados en las ponderaciones de conexion W1 pueden utilizarse como vectores para la mejora del sistema con los patrones W2 que indican cuales van a ser los resultados.

Los algoritmos de aprendizaje supervisado preferidos se describen a continuacion. Cada algoritmo de aprendizaje difiere en las formulas de ajuste de ponderacion.

El primer algoritmo de aprendizaje se muestra a continuacion:

Establecer valores iniciales para los parametros del sistema: numero de funciones de pertenencia; umbrales de sensibilidad iniciales (fallo Sj=0,9); umbral de error E; parametro de agrupacion Nagg - se lleva a cabo un numero de ejemplos consecutivos despues de cada agrupacion; parametros de podado MAYOR y Pr; un valor para m (en modo 5 m-de-n); lfmite de radio maximo Rmax; umbrales Ti y T2 para la extraccion de reglas.

Establecer el primer nodo de regla ro para memorizar el primer ejemplo (x,y):

W1(ro)=Xf, y W2(ro)=yf; (10)

Bucle sobre presentaciones de nuevos pares de entrada-salida (x,y)

{

10 Evaluar la distancia difusa normalizada D entre xi y las conexiones W1 de nodo de regla existentes (formulas (1))

Calcular la activacion A1 de la capa de nodos de regla. Encontrar el nodo de regla rk mas cercano (o el nodo de regla m mas cercano en caso de modo m-de-n) al vector xf de entrada difuso para el que A1 (rk)>= Sk (umbral de sensibilidad para el nodo rk),

si no hay tal nodo, crear un nodo de regla nuevo para (xf.yf)

15 si no

Encontrar la activacion de la capa de salida difusa A2=W2.A1(1-D(W1,xf))) y el error de salida normalizado Err= | | y- y'| | / Nout. si Err > E

crear un nuevo nodo de regla para alojar el ejemplo actual (xf,yf)

20 si no

Actualizar W1 (rk) y W2(rk) segun (2) y (3) (en caso de sistema m-de-n actualizar todos los m con la activacion A1 mas alta).

Aplicar el procedimiento de agrupacion de nodos de regla despues de que se presente cada grupo de Actualizar los valores para los parametros Sk, Rk, Age(rk), TA (rk) del nodo de regla rk.

25 Nodos de regla de podado si es necesario, como estan definidos por los parametros de podado.

Extraer reglas de los nodos de regla (

}

Una version modificada del algoritmo anterior es cuando el numero de los nodos de regla ganadores se selecciona de modo que no sean 1, sino m>1 (por defecto m=3). Este modo se llama «m-de-n».

30 El segundo algoritmo de aprendizaje se diferencia del primer algoritmo de aprendizaje en la formula de ajuste de la ponderacion para W2 como se muestra a continuacion:

W2(rj(2))=W2(rj(2)) + lj. (A2 - yr). AlfoW) (11)

Esto significa que despues de la primera propagacion del vector de entrada y el calculo del error Err, si las 35 ponderaciones se van a ajustar, las ponderaciones W1 se ajustan primero usando la ecuacion (2) anterior y despues el vector de entrada x se propaga nuevamente a traves del nodo de regla rj ya ajustado hasta su posicion rj(2) en el espacio de entrada, se calcula un nuevo error Err = (A2-yf) y despues se ajustan las ponderaciones W2 del nodo de regla rj. Este ajuste de ponderacion es mas preciso que el ajuste del primer algoritmo que puede marcar la diferencia en el aprendizaje de secuencias cortas, pero para secuencias mas largas puede que no manifieste ninguna diferencia 40 en los resultados obtenidos a traves del primer algoritmo que es mas rapido y mas simple.

Ademas del aprendizaje supervisado, el sistema tambien se dispone, preferiblemente, para llevar a cabo un aprendizaje no supervisado en el que se asume que no hay valores de salida no deseados disponibles y el sistema desarrolla sus nodos de regla a partir del espacio de entrada. Una asignacion de nodo se basa solo en los umbrales de sensibilidad Sj y en las tasas de aprendizaje lj. Si una nueva unidad de datos d activa un nodo (o nodos) de regla 45 determinado por encima del nivel de su parametro Sj, entonces este nodo de regla (o el que tenga la activacion mas alta) se ajusta para alojar la nueva unidad de datos segun la ecuacion (2) anterior o, de forma alternativa, se crea un nuevo nodo de regla. El metodo de aprendizaje no supervisado de la invencion se basa en las etapas descritas anteriormente como parte del metodo de aprendizaje supervisado cuando solo el vector de entrada x esta disponible para el dato d de entrada actual.

50 Tanto el metodo supervisado de aprendizaje del sistema como el no supervisado se basan en los mismos principios de construccion de la capa W1 de conexiones. Podrfa aplicarse cualquier tipo de metodo en un sistema en desarrollo, de manera que si existen valores de salida conocidos, el sistema utilizara un metodo de aprendizaje conocido, de lo contrario aplicara el metodo de aprendizaje no supervisado en la misma estructura. Por ejemplo, despues de haberse desarrollado de una manera no supervisada, un modulo de red neuronal de una palabra hablada de datos de entrada,

nodos de regla

ejemplos Nagg

5

10

15

20

25

30

35

40

el sistema puede entonces utilizar datos etiquetados con las etiquetas de fonema apropiadas para continuar con el proceso de aprendizaje de este sistema, ahora de forma supervisada.

El sistema preferido tambien puede llevar a cabo su aprendizaje a partir de advertencias de salida o a traves de aprendizaje de refuerzo, ademas del aprendizaje supervisado o no supervisado. Este es el caso cuando los valores de salida deseados y exactos no llegan a ser conocidos con el proposito de ajustar las ponderaciones de conexion W2. En lugar de ello, las advertencias difusas F proporcionadas en etiquetas lingufsticas difusas que se utilizan en el espacio de salida difuso pueden ser proporcionadas como retroalimentacion, p. ej. «un valor de salida bajo es el deseado» mientras que el valor de salida producido por el sistema es «muy bajo». El sistema calcula entonces el error de salida difuso Errf= A2- F y despues ajusta las conexiones W2 mediante la formula (3).

El sistema preferido tambien puede producir inferencia y tener la capacidad de generalizar sobre nuevos datos de entrada. El metodo de inferencia es parte del metodo de aprendizaje cuando solo el vector x de entrada se propaga a traves del sistema. El sistema calcula el ganador, o m ganadores, como se muestra a continuacion: un nodo de regla r ganador para un vector x de entrada es el nodo con: (i) la activacion mas alta A1(r) entre otros nodos de regla para los que, (ii):

D(x, Wl(rj) < = Rr,

(12)

donde: D(x, W1(r)) es la distancia normalizada difusa ente x y W1(r); Rr es el radio del nodo de regla r. Si no existe ningun nodo de regla que satisfaga la condicion (ii) para el vector x de entrada actual, solo se utilizara la condicion (i) para seleccionar al ganador.

En una forma preferida de la invencion con referencia a la Figura 3 anterior, una capa temporal 60 de nodos temporales 62 captura dependencias temporales entre ejemplos de datos consecutivos. Si el nodo de regla ganador del momento (t-1), al que se asocia el vector de datos de entrada del momento (t-1), es rmax(t-1) y el nodo ganador del momento t es rmax(t), entonces se establece un enlace entre los dos nodos como se muestra a continuacion:

W3(rmaxi,-1>>rrt^«'))=W3(rmBX(‘-‘),rrnax('t) + 13 Al(rmaxtl ll) Al(rmax">)

(13)

Donde A1(r(t)) indica la activacion de un nodo de regla r en un momento de tiempo (t) y l3 define el grado al que el modulo de red neuronal 22 asocia los enlaces entre los nodos de regla que incluyen ejemplos de datos consecutivos. Si l3 = 0, no se aprenden asociaciones temporales en la estructura y la capa temporal 60 se retira de forma efectiva del modulo de red neuronal 22.

Las asociaciones temporales aprendidas podrfan utilizarse para soportar la activacion de nodos de regla basados en similitudes de patrones temporales. En la presente memoria, las dependencias temporales se aprenden estableciendo enlaces estructurales. Estas dependencias pueden investigarse y potenciarse mas a traves del analisis sinaptico, en el nivel de la memoria sinaptica, en lugar de a traves del analisis de activacion neuronal en el nivel de comportamiento. La relacion similitud espacial/correlacion temporal puede equilibrarse para aplicaciones diferentes mediante dos parametros Ss y Tc, de manera que la activacion de un nodo de regla r para un nuevo ejemplo de datos d=(x,y) se define mediante las siguientes operaciones vectoriales:

Al (r) = | 1 - Ss. D(Wl(r), xj) + Tc.W3(rn,ax(tl>,r) | |o.i]

(14)

donde|.|[0,1] es una operacion limitada en el intervalo [0,1, y rmax(t-1) es la neurona ganadora en el momento de tiempo anterior. Aquf, puede darse una importancia mayor a las conexiones temporales para tolerar un distancia mayor en el tiempo para los vectores de entrada dependientes del tiempo. Si Tc=0, entonces los enlaces temporales son excluidos del funcionamiento del sistema.

El sistema se adapta para aprender una funcion caotica compleja mediante un desarrollo en lfnea a partir de la propagacion de datos de una sola pasada. El sistema tambien se adapta para aprender series de tiempo que cambien sus dinamicas a lo largo del tiempo y que nunca repitan los mismos patrones. Los procesos de series de tiempo con dinamicas cambiantes pueden ser de orfgenes diferentes, por ejemplo biologico, medioambiental, control de procesos

5

10

15

20

25

30

35

40

45

industriales, financieros. El sistema tambien podrfa utilizarse para formacion y pruebas fuera de linea similares a otras tecnicas de redes neuronales estandares.

Un ejemplo de aprendizaje de una funcion caotica compleja se describe con referencia a las Figuras 18A y 18B. Aquf, el sistema se utiliza con los datos de series de tiempo caoticas Mackey-Glass generados mediante la ecuacion diferencial de tiempo retardado Mackey-Glass:

d{x)

d(t)

ax( t - t)

] + x1(t{i-r)

-b X (t)

[15)

Esta serie se comporta como una serie temporal caotica para algunos valores de los parametros x (0) y t. Aquf, x (0) = 1,2, t = 17, a = 0,2, b = 0,1 y x (t) = 0 para t < 0. Los datos de entrada-salida para desarrollar el sistema de datos de series temporales Mackey-Glass tiene un vector de entrada [x(t), x(t-6), (t-12), x(t-18)] y el vector de salida es [x(t+6)]. La tarea es predecir los valores futuros x(t+6) de cuatro puntos espaciados en seis intervalos de tiempo en el pasado.

Por ejemplo, los valores para los parametros del sistema inicialmente se establecen como aparece a continuacion:

S=0,92, E=0,08, 1=0,005, el umbral de agrupacion es Rmax=0,15 y el umbral de extraccion de reglas Ti=T2=0,1. La agrupacion se lleva a cabo despues de que se presente cada grupo de ejemplos Nagg=50 consecutivo.

Los resultados experimentales del desarrollo en linea del sistema se muestran en las Figuras 18A y 18B. En concreto se muestran los valores deseados frente a los predichos seis pasos por delante a traves del aprendizaje en linea de una sola pasada, el error absoluto, el RMSE en linea local (LRMSE) y el local en linea NDEI (LNDEI) a lo largo del tiempo como se describe mas abajo, el numero de nodos de regla creados y agrupados en el tiempo y un grafico de los vectores de datos de entrada mostrados como cfrculos y los nodos de regla desarrollados, las ponderaciones de conexion W1 mostradas como cruces, proyectados en el espacio de entrada bidimensional de las dos primeras variables de entrada x(t) y x(t-6). Se puede observar a partir de las Figuras 18A y 18B que el numero de nodos de regla se optimiza despues de cada 50 ejemplos presentados. Los nodos de regla se situan en los espacios del problema de entrada y salida para que representen centros de agrupacion de los datos de entrada que tienen valores de salida similares sujetos a una diferencia de error E.

El error de generalizacion de un modulo de red neuronal en un nuevo vector (o vectores) de entrada siguiente a partir del flujo de entrada calculado mediante el proceso de desarrollo se llama error de generalizacion en linea local. El error de generalizacion en linea local en el momento t por ejemplo, cuando el vector de entrada es x(t) y el calculado por el vector de salida del modulo desarrollado es y(t)', se expresa como Err(t)=y(t) - y(t)'. El error cuadratico medio en linea local y el fndice de error no dimensional en linea local LNDEI(t) pueden calcularse en cada momento de tiempo t como:

LRMSE(tH(L i-i.2 rl{Err(i}2)/t); LNDEI(t)=LRMSE(t)/std(y[l):y[t)) (16)

donde std(y(l):y(t)) es la desviacion estandar de los puntos de datos de salida desde 1 hasta t.

Para los valores escogidos de los parametros, habfa 16 nodos de regla desarrollados, cada uno de los cuales representados como una regla. Tres de estas reglas se muestran en la Figura 19, a saber: Regla 1, Regla 2 y Regla 16. Estas reglas y el mecanismo de inferencia del sistema definen un sistema que es equivalente a la ecuacion (16) anterior en cuanto a las variables de entrada y de salida elegidas sujetas al error calculado.

A medida que se introducen mas datos de entrada despues de cierto momento de tiempo, las LRMSE y LNDEI convergen a valores constantes sujetos a un pequeno error, en el ejemplo de la Figura 19 - LRMSE = 0,043, LNDEI = 0,191. En terminos generales, en el caso de un espacio del problema compacto y limitado, el error puede hacerse suficientemente pequeno sujeto a una seleccion apropiada de los valores de parametros para el sistema y el flujo de datos inicial. En el experimento anterior, la tolerancia al error seleccionada era comparativamente alta, pero el sistema resultante era compacto. Si el umbral de error E seleccionado fuera mas pequeno (p. ej. 0,05 o 0,02), se habrfan desarrollado mas nodos de regla y se podrfa haber alcanzado una precision de prediccion mejor. Los modulos de red neuronal diferentes tienen valores de parametros optimos diferentes que dependen de la tarea (p. ej. prediccion, clasificacion de series temporales).

5

10

15

20

25

30

35

40

45

50

Se ha llevado a cabo otro ejemplo en el que el sistema se ha utilizado para la ensenanza y la evaluacion fuera de linea. Los siguientes valores de parametro se establecen inicialmente antes de que el sistema este desarrollado, a saber: MF=5, S=0,92, E=0,02, m=3, l=0,005. El sistema se desarrolla en los primeros 500 ejemplos de datos de la misma serie temporal Mackey-Glass del ejemplo anterior para una sola pasada de aprendizaje. La Figura 20 muestra los valores en linea predichos frente a los deseados de la serie temporal. Despues de que el sistema este desarrollado, se prueba para una generalizacion global de los segundos 500 ejemplos. La Figura 21 muestra los valores deseados frente a los valores predichos por el sistema en un modo fuera de linea.

En un caso general, el error cuadratico medio (RMSE) de generalizacion global y el indice de error no dimensional se evaluan sobre un conjunto de p nuevos ejemplos del espacio del problema como se muestra a continuacion:

RMSE=V (I,-i.2....p[(y1-yi’)2]/p; NDEI=RMSE/std(l:p),

(17)

donde std (1:p) es la desviacion estandar de los datos de 1 a p en el conjunto de pruebas. Los datos evaluados en este ejemplo RMSE es 0,01 y el NDEI es 0,046. Despues de haber desarrollado el sistema en una parte pequena pero representativa del total del espacio del problema, su error de generalizacion global esta suficientemente minimizado.

El sistema tambien se evalua para una prueba de error en linea sobre los datos de prueba mientras se lleva a cabo una formacion adicional sobre el. El error de evaluacion local en linea es ligeramente menor.

En una aplicacion experimental, el sistema preferido puede utilizarse para aprendizaje no supervisado permanente a partir de un flujo continuo de datos nuevos. Este es el caso del aprendizaje de sonidos nuevos en idiomas nuevos o nuevos acentos nunca antes escuchados. Se describe un experimento con referencia a las Figuras 22 y 23. El sistema se presenta con los rasgos acusticos de una palabra hablada inglesa «eight» con una representacion fonemica de /silencio//ei//t//silencio/. En los resultados experimentales mostrados en la Figura 22, se utilizan tres retardos de tiempo de coeficiente 26 en la escala de Mel tomados de una ventana de 12 ms de la senal de voz, con una superposicion del 50%, para formar vectores de entrada de 78 elementos. Los vectores de entrada se indican en funcion del tiempo como se muestra en la Figura 23.

Cada nuevo vector de entrada de la palabra hablada se asocia a un nodo de regla existente que se modifica para alojar este dato, o se crea un nuevo nodo de regla. Los nodos de regla se agrupan en intervalos regulares que reducen el numero de nodos situados en los centros de agrupacion de datos. Despues de que se haya presentado la palabra completa, los nodos de regla agrupados representan los centros de agrupacion del fonema anticipado sin que el concepto de fonema se introduzca en el sistema.

Las Figuras 22 y 23 muestran claramente que tres nodos de regla se desarrollaron despues de la agrupacion que representa los datos de entrada. Por ejemplo, las unidades 0 a 53 indicadas como 120 y las unidades 96 a 170 indicadas como 122 se asignan a un nodo de regla 1 que representa el fonema /silencio/. Las unidades 56 a 78 indicadas como 124 se asignan a un nodo de regla 2 que representa el fonema /ei/. Las unidades 85 a 91 indicadas como 126 se asignan a un nodo de regla 3 que representa el fonema /t/. Las unidades restantes representan estados transitorios. Por ejemplo, las unidades 54 a 55 representan la transicion entre /silencio/ y /ei/. Las unidades 79 a 84 representan la transicion entre /ei/ y /t/. Las unidades 92 a 96 representan la transicion entre /t/ y /silencio/. Estas unidades se asignan a alguno de los nodos de regla mas cercanos en el espacio de entrada. Si se utiliza un umbral de sensibilidad mayor, esto habrfa tenido como resultado nodos de regla adicionales desarrollados para representar estos sonidos transitorios cortos.

Cuando se presentan otras pronunciaciones de la palabra «eight» u otras palabras al sistema no supervisado, el sistema perfecciona las regiones del fonema y los nodos regla del fonema o crea nuevos nodos de regla. El metodo de aprendizaje no supervisado descrito anteriormente permite experimentar con diferentes estrategias de aprendizaje, a saber: sensibilidad aumentada especialmente a lo largo del tiempo, sensibilidad disminuida a lo largo del tiempo y utilizando el olvido en el proceso de aprendizaje. Tambien permite la experimentacion con varios idiomas en un sistema plurilingue.

En un ajuste experimental, un sistema se desarrolla tanto en palabras habladas en ingles de Nueva Zelanda como en palabras habladas en Maori. Algunos de los nodos de regla de fonema desarrollados son compartidos por la representacion acustica de los idiomas como se ilustra en la Figura 24, donde se representan los nodos de regla desarrollados asf como una trayectoria de la palabra hablada «zoo» en el espacio bidimensional de los primeros dos componentes del espacio acustico de entrada. Los nodos de regla del sistema desarrollado representan una representacion compacta del espacio acustico de los dos idiomas presentados al sistema. Se puede ensenar al

5

10

15

20

25

30

35

40

45

50

sistema de forma continua con mas palabras de los dos o mas idiomas, perfeccionando asf la representacion del espacio acustico con el uso del principio de sonidos (fonemas) compartidos.

El sistema ha sido sometido a un experimento que implica la tarea de prediccion de series temporales en lfnea de los datos Mackey Glass. En la presente memoria se utiliza el formato de referencia estandar CMU de la serie temporal. Los datos se generan con t = 17 utilizando un metodo Runge-Kutta de segunda orden con un tamano de paso de 0,1, de cuatro entradas, a saber: x(t), x(t-6), x(t-12) y x(t-18) y una salida, concretamente x(t+85). El dato de ensenanza es de t-200 a t=3200 mientras que el dato de prueba son de t=5000 a t=5500. Se utilizaran los 3000 conjuntos de datos de ensenanza para desarrollar dos tipos de modulos de red neuronal.

Para el primer y segundo algoritmo de aprendizaje descritos anteriormente, se escogieron los siguientes valores iniciales de parametros: MF=3, S=0,7, E=0,02, m=3, l=0,02, Rmax=0,2, Nagg=100. El numero de los centros y de los LNDEI en lfnea locales se calcula y compara con los resultados para el modelo RAN como se describe en Platt, J «Un recurso que asigna redes para la interpolacion de funciones», Neural Computation 3.213-225 (1991) y modificaciones.

Los resultados se muestran en la Figura 25. Las dos modificaciones del sistema dan como resultado un error en lfnea mas pequeno que los otros metodos y numero razonable de nodos de regla. Los dos algoritmos de aprendizaje se muestran como System-su and System-dp.

Como el sistema utiliza preferiblemente ecuaciones lineales para calcular la activacion de los nodos de regla, en lugar de las funciones de funciones Gaussianas y funciones exponenciales como en el modelo RAN, el presente procedimiento de aprendizaje del sistema es mas rapido que el procedimiento de aprendizaje del modelo rAn y sus modificaciones. El sistema tambien produce una mejor generalizacion en lfnea, lo cual es resultado de una asignacion de nodo mas precisa durante el proceso de aprendizaje. Esto se suma a las caracterfsticas de representacion de conocimiento ventajosas del sistema preferido que incluye el agrupamiento del espacio de entrada y la extraccion de reglas y la insercion de reglas.

El sistema tambien se ha sometido a otros experimentos relacionados con una tarea de clasificacion en un caso de estudio de datos de dfgitos hablados. La tarea es el reconocimiento de las pronunciaciones independientes de hablantes de dfgitos en ingles de la base de datos del corpus Otago (
http://kel.otago.ac.nz/hyspeech/corpus/). Se utilizaron diecisiete hablantes (12 hombres y 5 mujeres) para la ensenanza y se utilizaron otros 17 hablantes (12 hombres y 5 mujeres) para la prueba fuera de lfnea. Cada hablante pronuncia 30 instancias de dfgitos en ingles durante una sesion de grabacion en una habitacion silenciosa, lo que produce datos limpios, con un total de 510 unidades de habla de ensenanza y 510 unidades de habla de prueba. Se utilizan ocho coeficientes ceptstrales en la escala de frecuencia de Mel (MFSCC) y logaritmo de energfa como rasgos acusticos. Para evaluar el rendimiento del sistema en esta aplicacion, se realiza una comparacion con la Cuantificacion Vectorial Lineal (LVQ). Se utiliza el discurso de ensenanza limpio para ensenar tanto a la LVQ como al presente sistema. Se introduce ruido de oficina en los datos del habla de prueba para evaluar el comportamiento de los sistemas de reconocimiento en un entorno ruidoso, con una relacion senal-ruido de 10dB.

La precision de la prueba fuera de lfnea para la clasificacion del modelo LVQ y el sistema actual, asf como la precision de la prueba en lfnea local para el sistema, se evaluan y se muestran en la Figura 26.

El modelo LVQ tiene los siguientes valores de parametro, concretamente vectores de codigo de libro 396, variaciones de formacion 15840. El presente sistema tiene los siguientes valores de parametro de una repeticion de formacion, 3 MF, 157 nodos de regla, valores iniciales para S=0,9, E=0,1, l=0,01. El radio maximo es Rmax=0,2 y el numero de ejemplos para la agrupacion Nagg=100.

Los resultados muestran que el presente sistema con aprendizaje fuera de lfnea y prueba sobre nuevos datos actua mucho mejor que el metodo LVQ como se muestra en la Figura 26. Como el sistema actual permite la ensenanza continua sobre nuevos datos, pruebas adicionales asf como la ensenanza del sistema sobre los datos de prueba en un modo en lfnea, ofrece una mejora significativa de la precision.

El sistema tambien se ha sometido a otro experimento relacionado con la tarea de clasificacion de datos de un caso de estudio de bioinformatica obtenidos del repositorio de bases de datos de aprendizaje automatico de la Universidad de California en Irvine. Este contiene secuencias de genes de union de empalme de primates para la identificacion de los lfmites del sitio de empalme dentro de estas secuencias. En los eucariotas, los genes que codifican las protefnas se dividen en regiones codificantes (exones) y regiones no codificantes (intrones) de la secuencia de ADN en los lfmites definidos, los llamados sitios de empalme. El conjunto de datos consiste en 3190 secuencias de ADN con una longitud de 60 nucleotidos y se clasifican ya sea como un lfmite exon-intron (EI), un lfmite intron-exon (IE) y un sitio de no empalme (N). El sistema utiliza 2 MF y un esquema de codificacion de cuatro bits para las bases.

5

10

15

20

25

30

35

40

Despues de formar el sistema con datos existentes, el sistema es capaz de identificar posibles sitios de empalme dentro de nuevas secuencias. Usando una ventana deslizante de 60 bases para cubrir toda la secuencia en examen, los lfmites se identifican como EI, IE o N. Se da una puntuacion a cada lfmite identificado que representa la probabilidad de que el lfmite identificado se haya identificado correctamente. Se puede ensenar al sistema continuamente con nuevas secuencias de datos conocidos, mejorando asf su rendimiento con secuencias de datos desconocidos. En cualquier momento del funcionamiento del sistema, puede extraerse conocimiento de el en forma de reglas semanticamente significativas que describen relaciones biologicas importantes. Algunas de las reglas extrafdas con un umbral de extraccion de regla T1 = T2 = 0,7 se simplifican mas, se formatean y se presentan de una manera que puede ser interpretada por el usuario, como se muestra en la Figura 27. El uso de diferentes umbrales de extraccion de reglas permitirfa la extraccion de diferentes conjuntos de reglas que tengan diferentes niveles de abstraccion, permitiendo asf una mejor comprension de las secuencias de genes.

El sistema tambien se ha sometido a otro experimento relacionado con la tarea de clasificacion de datos de un caso de estudio de bioinformatica que consiste en un conjunto de datos de 72 ejemplos de clasificacion para la enfermedad del cancer de leucemia. El conjunto de datos consiste en dos clases y un espacio de entrada mas grande, valores de expresion de 7.129 genes monitorizados por chips de ADN Affymatrix (Golub y col). Los dos tipos de leucemia son la leucemia mieloide aguda (LMA) y la leucemia linfoblastica aguda (LLA).

La tarea es doble: 1) Encontrar un conjunto de genes que distingan LMA y LLA, y 2) Construir un clasificador basado en la expresion de estos genes permitiendo la entrada de nuevos datos en el sistema una vez que esten disponibles. El sistema aloja o adapta estos datos mejorando los resultados de clasificacion. El sistema se desarrolla mediante la formacion de una pasada en cada ejemplo consecutivo y probandolo en el siguiente.

Durante el proceso de desarrollo en lfnea el sistema aprende cada ejemplo y despues intenta predecir la clase del siguiente. En la presente invencion, el sistema se desarrolla continuamente con nuevos ejemplos alojados, a medida que estan disponibles. En cualquier momento del funcionamiento del sistema pueden extraerse reglas que explican que genes estan mas estrechamente relacionados con cada una de las clases. La Figura 28 muestra dos de las reglas extrafdas despues de que los 72 ejemplos iniciales fueran aprendidos por el sistema. Las reglas son «locales» y cada una de ellas tiene el significado de la regla de dominacion en una agrupacion concreta del espacio de entrada.

El sistema en un modo de aprendizaje en lfnea podrfa utilizarse como bloques de construccion para crear sistemas de reconocimiento de voz adaptativos basados en un marco conexionista en evolucion. Estos sistemas podrfan adaptarse a nuevos hablantes y nuevos acentos y anadir nuevas palabras a sus diccionarios en cualquier momento de su funcionamiento.

Las aplicaciones posibles de la invencion incluyen el reconocimiento de voz adaptativo en un entorno ruidoso, sistemas evolutivos de lenguaje oral adaptativo, control de proceso adaptativo, control de robots adaptativo, sistemas adaptativos basados en conocimiento para aprender informacion genetica, agentes adaptativos en Internet, sistemas adaptativos para la toma de decisiones en lfnea sobre datos economicos y financieros, sistemas automaticos de conduccion adaptativos que aprenden a navegar en un nuevo entorno (automoviles, helicopteros, etc.) y la clasificacion de datos bioinformaticos.

Cuanto sigue describe la invencion incluidas sus formas preferidas. Las alteraciones y modificaciones, que deduciran los expertos en la tecnica, se entienden incluidas dentro del alcance de la misma, tal y como se define en las reivindicaciones adjuntas.

Claims

5

10

15

20

25

30

35

40

45

50

REIVINDICACIONES

1. Modulo de red neuronal implementado en un ordenador que comprende:

una capa de entrada (40) que comprende uno o mas nodos de entrada (42) dispuestos para recibir datos de entrada;

una capa base de regla (48) que comprende uno o mas nodos de regla (50), teniendo cada nodo de regla un umbral de activacion mfnimo, estando configurado cada nodo de regla para ser activado donde los datos de entrada satisfagan el umbral mfnimo de activacion del nodo de regla, en donde cada nodo de regla esta definido por dos vectores de ponderaciones de conexion W1(r) y W2(r);

una capa de salida (56) que comprende uno o mas nodos de salida (58); y

un componente de adaptacion dispuesto para agrupar dos o mas nodos de regla seleccionados (90, 92, 94) en la capa base de regla basado en los datos de entrada, y para aumentar el umbral de activacion mfnimo de uno o mas nodos de regla no seleccionados para la agrupacion,

en donde el componente de adaptacion se adapta para ajustar W1(r) mediante aprendizaje no supervisado basado en una medida de similitud dentro de un area local de espacio de entrada y mediante una tasa de aprendizaje que se ajusta individualmente para cada nodo de regla individual, donde cuando un dato de entrada se asocia a un nodo de regla rj, un campo receptivo y un umbral de sensibilidad Sj del nodo de regla se ajustan segun las formulas:

imagen1

R/2' <= Rmax,^

Sj<2) = Sj(,) - D(Wl(rj<2)), Wl(i)<M)), |onde

Rj es el radio del campo receptivo, D es la distancia normalizada difusa, y

Rmax es un conjunto de parametros que restringen el radio maximo del campo receptivo de un nodo de regla, y donde el componente de adaptacion se adapta para ajustar W2(r) basado en la tasa de aprendizaje ajustada individualmente y mediante aprendizaje supervisado basado en un error de salida o en aprendizaje de refuerzo basado en una advertencia de salida.
2. Modulo de red neuronal segun la reivindicacion 1, en donde los parametros del umbral de activacion de cada nodo de regla activado por datos de entrada se ajustan en funcion de los datos de entrada o de los datos de salida deseados.
3. Modulo de red neuronal segun la reivindicacion 1 o la reivindicacion 2, en donde cada nodo de regla se asigna a una magnitud de activacion cuando se activan mediante un dato de entrada.
4. Modulo de red neuronal segun la reivindicacion 3, en donde el componente de adaptacion se configura para agrupar dos o mas nodos de regla en funcion de la magnitud de activacion cuando se activan mediante datos de entrada, se configura para insertar nuevos nodos de regla dentro de la capa base de regla o se configura para extraer reglas de la capa base de regla.
5. Modulo de red neuronal segun cualquiera de las reivindicaciones anteriores, comprendiendo ademas una memoria en la que se almacenan los datos de entrada, en donde los parametros del umbral de activacion de cada nodo de regla se ajustan en funcion de los datos de entrada almacenados o de los datos de entrada nuevos.
6. Modulo de red neuronal segun cualquiera de las reivindicaciones anteriores, comprendiendo ademas una capa de entrada difusa (44) que comprende uno o mas nodos de regla difusos (46) dispuestos para transformar valores de nodo de entrada para usar por la capa base de regla (48) o una capa de salida difusa (52) que comprende uno o mas nodos de salida (54) dispuestos para transformar los datos salientes de la capa base de regla.
7. Modulo de red neuronal segun la reivindicacion 6, comprendiendo ademas una capa temporal (60) que comprende nodos temporales (62) adaptados para capturar dependencias entre ejemplos de datos consecutivos.
8. Sistema de aprendizaje adaptativo que comprende uno o mas modulos de red neuronal segun se reivindica en cualquiera de las reivindicaciones anteriores.
9. Metodo de implementacion de un modulo de red neuronal que comprende los pasos de:

mantener en la memoria informatica una capa de entrada (40) que comprende uno o mas nodos de entrada (42) dispuestos para recibir datos de entrada;

5

10

15

20

25

30

35

40

45

50

mantener en la memoria informatica una capa base de regla (48) que comprende uno o mas nodos de regla (50), en

donde cada nodo de regla esta definido por dos vectores de ponderaciones de conexion W1(r) y W2(r);

asignar un umbral de activacion mfnimo a cada nodo de regla en la capa base de regla, siendo activado cada nodo de

regla si los datos de entrada satisfacen el umbral de activacion mfnimo del nodo de regla;

mantener en la memoria informatica una capa de salida (56) que comprende uno o mas nodos de salida (58);

ajustar W1(r) mediante aprendizaje no supervisado basado en una medida de similitud en un area local de espacio de

entrada y mediante una tasa de aprendizaje que se ajusta individualmente para cada nodo de regla individual, en

donde cuando un dato de entrada se asocia a un nodo de regla rj, un campo receptivo y un umbral de sensibilidad Sj

del nodo de regla se ajustan segun las formulas:

Rj(2> = Rj(') + D(Wl(r/2»), WHr/11)),

R/21 <= Rmax,

J

Sf> = Sj">- D(Wl(rJ<2>), WHr/1')), nde

Rj es el radio del campo receptivo, D es la distancia normalizada difusa, y

Rmax es un conjunto de parametros que restringen el radio maximo del campo receptivo de un nodo de regla; ajustar W2(r) basado en la tasa de aprendizaje ajustada individualmente y mediante aprendizaje supervisado basado en un error de salida o en aprendizaje de refuerzo basado en una advertencia de salida; agrupar dos o mas nodos de regla seleccionados en la capa base de regla basada en los datos de entrada; y aumentar el umbral de activacion mfnimo de uno o mas nodos de regla no seleccionados para la agrupacion.
10. Metodo de implementacion de un modulo de red neuronal segun la reivindicacion 9, comprendiendo ademas el paso de ajustar los parametros del umbral de activacion de cada nodo de regla activado por datos de entrada basados en los datos de entrada o en los datos de salida deseados.
11. Metodo de implementacion de un modulo de red neuronal segun la reivindicacion 9 o la reivindicacion 10, comprendiendo ademas el paso de asignar a cada nodo de regla una magnitud de activacion cuando son activados por datos de entrada.
12. Metodo de implementacion de un modulo de red neuronal segun la reivindicacion 11, comprendiendo ademas el paso de agrupar dos o mas nodos de regla en funcion de la magnitud de la activacion cuando son activados por los datos de entrada, insertando nuevos nodos de regla en la capa base de regla, o extrayendo reglas de la capa base de regla.
13. Metodo de implementacion de un modulo de red neuronal segun cualquiera de las reivindicaciones 9 a 12, comprendiendo ademas los pasos de mantener datos de entrada en la memoria informatica; y ajustar los parametros del umbral de activacion de cada nodo de regla en funcion de los datos de entrada almacenados o los datos de entrada nuevos.
14. Metodo de implementacion de un modulo de red neuronal segun cualquiera de las reivindicaciones 9 a 13, comprendiendo ademas el paso de mantener en la memoria informatica una capa de entrada difusa (44) que comprende uno o mas nodos de entrada difusos (46) para transformar valores de nodos de entrada para ser utilizados por la capa base de regla (48) o mantener en la memoria informatica una capa de salida difusa (52) que comprende uno o mas nodos de salida difusos (54) para transformar datos salientes de la capa base de regla.
15. Metodo segun la reivindicacion 14, en donde un cambio en las ponderaciones de conexion del nodo de regla rj(1) de W1 (rj(1)) y W2(rj(1)) a W1(rj(2)) y W2(rj( 2)) se lleva a cabo respectivamente segun las siguiente operaciones vectoriales:

= Wl(r<") +/, • <m(rj■') - xf)

y

imagen2

donde A2 = f2(W2-A1) es un vector de activacion de los nodos de salida difusos cuando un vector de activacion x se presenta y

imagen3

es una activacion del nodo de regla rj(1) donde D es una medida de distancia normalizada difusa.
16. Metodo segun cualquiera de las reivindicaciones 9 a 15, en donde la tasa de aprendizaje del nodo de regla rj se calcula como lj=1/ Nex(rj) donde Nex(rj) es el numero de ejemplos actualmente asociados con el nodo de regla rj.
17. Metodo segun la reivindicacion 14, comprendiendo ademas el mantenimiento en una memoria informatica de una 5 capa temporal (60) que comprende nodos temporales (62) adaptados para capturar dependencias entre ejemplos de

datos consecutivos.