ES2560109T3

ES2560109T3 - Procedimiento y sistema de clasificación de tráfico

Info

Publication number: ES2560109T3
Application number: ES11748600.1T
Authority: ES
Inventors: Antonio Manuel Amaya Calvo; Santiago Pérez Iglesias
Original assignee: Telefonica SA
Current assignee: Telefonica SA
Priority date: 2010-09-03
Filing date: 2011-07-18
Publication date: 2016-02-17
Anticipated expiration: 2031-07-18
Also published as: WO2012028375A2; BR112013005228A2; ES2393501B1; CL2013000602A1; EP2612481A2; WO2012028375A3; US20130269033A1; ES2393501A1; EP2612481B1

Abstract

Un procedimiento de clasificación de tráfico en una red de comunicaciones, en el que dicho procedimiento comprende los siguientes pasos: - capturar paquetes IP (35) de dicha red de comunicaciones; - perfilar dichos paquetes capturados (36) asignando un vector a cada uno de dichos paquetes capturados (36) de acuerdo con un conjunto de determinadas características; - calcular un conjunto de valores de clasificación para cada uno de dichos paquetes perfilados (37) de acuerdo a la información contenida en su cabecera de IP y la información contenida en la cabecera de un protocolo encapsulado en los paquetes IP (36) capturados; caracterizado porque el procedimiento comprende además el siguiente paso: - reescribir las cabeceras de dichos paquetes capturados (35), incluyendo dichos valores de clasificación calculados en una cabecera IP; y porque el vector asignado es un vector tri-dimensional (C1, C2, C3), donde: - C1 es el protocolo encapsulado de dicho paquete capturado (35), tal y como se lee de la cabecera IP; - C2 es un vector que comprende información de la cabecera de IP de dicho paquete capturado (35); - C3 es un vector que comprende información de los datos de cabecera del protocolo encapsulado de dicho paquete capturado (35), cuya dimensión depende del contenido de la coordenada C1.

Description

5

10

15

20

25

30

35

40

45

50

DESCRIPCION

Procedimiento y sistema de clasificacion de trafico Campo de la invencion

La presente invencion se refiere al campo de la seguridad en las Tecnologfas de la Informacion, mas concretamente, se refiere a un nuevo procedimiento y sistema para la deteccion automatica y la clasificacion de los patrones generados por software malicioso en una red de comunicaciones.

Estado de la Tecnica

El panorama actual de la seguridad en las Tecnologfas de la Informacion es sombno. Hoy en dfa, las amenazas contra la seguridad se incrementan rapidamente. Nuevas variantes de software malicioso (tambien llamado malware) se desarrollan y distribuyen continuamente. Se estima que solo en los ultimos seis meses se ha desarrollado mas malware que en el resto de la historia de la informatica.

En la actualidad todos los aspectos de la experiencia de una red de comunicaciones son afectados por amenazas contra la seguridad, desde la calidad de la experiencia hasta la infraestructura de la red. De acuerdo con el ultimo “Estudio sobre la seguridad de la informacion y la e-confianza de los hogares espanoles”,8a oleada, primer trimestre 2009. INTECO, octubre 2009 (version espanola), aproximadamente el 44 % de los usuarios considera la seguridad una limitacion principal a la hora de utilizar nuevos servicios.

A pesar de las fuertes inversiones efectuadas en antivirus, el malware es aun el numero uno en lo que se refiere a problemas de seguridad:

• Mientras que mas del 99 % de las organizaciones utilizan antivirus y el 98 % usan cortafuegos, el dano causado por el malware sobrepasa los 55 millones de dolares al ano [Computer Security Institute (CSI)/Federal Bureau of Investigation (FBI) 2004 Computer Crime and Security Survey
http://www.gocsi.com/forms/csi_survey.jhtml].

• Los incidentes relacionados con seguridad informatica que ocupan el segundo lugar entre los mas caros son aquellos relacionados con “bots” (programas o aplicaciones utilizadas para hacerse pasar por una persona en la red), donde la perdida total media anual fue poco menos de 300.000 dolares [Computer Security Institute (CSI)/Federal Bureau of Investigation (FBI) 2008 Computer Crime and Security Survey
http://www.gocsi.com/forms/csi_survey.jhtml]. Intentar controlar el problema directamente desde los sistemas afectados es una causa perdida:

• Mas del 10 % de incremento en malware en el primer trimestre de 2009 (Fuente: PandaLabs)

• Mientras mas del 91,2 % de los usuarios, encuestados en el estudio mencionado anteriormente ”Estudio sobre la seguridad de la informacion y la e-confianza de los hogares espanoles”, utilizan antivirus, el 63,8 % de ellos tienen al menos un programa malicioso en sus ordenadores. Esto significa que al menos el 84,32 % de los mismos tienen un antivirus completamente actualizado ejecutandose en su ordenador.

Casi todas las amenazas actuales tienen un punto en comun: utilizan la red para coordinarse, distribuirse, infiltrarse, controlar y en ultima instancia beneficiarse.

La figura 1 muestra un esquema de alto nivel de la proteccion y los factores de mitigacion que pueden ser utilizados para proteger a los usuarios, donde 15 representa el Origen o Controlador del Malware. Comprende:

• Proteccion en el Extremo 11, que define todas las protecciones que se pueden desplegar y ejecutar directamente en el ordenador del usuario.

• La Informacion de Seguridad y Gestion de Eventos (SIEM) 12, Deteccion de Intrusos (ID) 13 y Servicios de Cortafuegos/Filtrado 14 son protecciones que deben ser desplegadas a nivel de red.

Algunas de las soluciones y factores de mitigacion utilizados generalmente se describen a continuacion:

• Proteccion basada en el extremo

“Tras unos pocos meses de la aparicion de los primeros virus informaticos en el mundo en 1987, las empresas tuvieron que empezar a vender software antivirus. Esto condujo a una carrera de armas en la que cada cual intentaba superar al adversario. El primer software aparecio basicamente en dos modalidades: “Escaneres y comprobadores de errores” [Security Engineering, 2a edicion. Ross Anderson, Wiley Publishinc Inc. ISBN: 978-0470-06852-6].

'La proteccion basada en el extremo' se refiere al conjunto de soluciones que deben ser desplegadas y ejecutadas directamente en el ordenador del usuario. Estas soluciones funcionan controlando lo que otros procesos estan ejecutando en la maquina y que acciones realizan.

5

10

15

20

25

30

35

40

45

50

La figura 2 muestra la interaccion tfpica entre un proceso que se esta ejecutando 24 (en el ordenador del usuario) y la Suite de Proteccion en el Extremo 21.

Generalmente, las protecciones originales en el extremo 21 se pueden dividir en dos grandes grupos:

o Los escaneres 22 son programas que buscan 'firmas' en los ficheros del sistema en el cual se encuentran instalados. Una 'firma' en este contexto es una pequena parte de dfgitos binarios (una cadena) que se encuentra dentro del codigo malicioso que el escaner quiere detectar.

o Los sumadores de verificacion 22 por otro lado funcionan elaborando 'listas blancas'. El proceso consiste en generar una lista de programas cuya ejecucion debena estar permitida (lista blanca). Asf, para cada uno de los programas de dicha lista se calcula una suma de verificacion. Cuando cualquier programa va a ejecutarse en el sistema es calculada su suma de verificacion y comparada con las sumas de verificaciones de la lista para asf comprobar si esta autorizado o no.

Tras la aparicion del primer virus, la carrera de armas empezo. Para cada nueva tecnica que se incluye en el antivirus, el malware incluye una contra-medida, y asf sucesivamente. Algunas de las tecnicas que los virus utilizan para eludir los antivirus son:

o Polimorfismo: El virus se modifica a sf mismo cada vez que es replicado, para evitar ser detectado por los escaneres.

o Encriptacion: El codigo del virus esta encriptado, para dificultar su analisis y deteccion. Normalmente la encriptacion forma parte del polimorfismo (simplemente cambiando la clave de encriptacion se genera una nueva firma).

o Sigilo: Para evitar ser detectado por los comprobadores de errores, los virus tratan de evitar las llamadas de monitorizacion que realiza el sistema y ellos mismos son capaces de monitorizar dichas llamadas para ocultarse de los comprobadores de errores cuando se producen.

Desde esos principios, sin embargo, la proteccion en el extremo se ha complicado mucho.

En la actualidad, cualquier suite de seguridad incluye dos o mas de los siguientes elementos, como puede verse en la figura 2:

o Cortafuegos Personal 23: se encarga de bloquear las conexiones de red indeseables, en ambos sentidos: entrante y saliente. Puede bloquear conexiones por proceso base, o simplemente por las caractensticas de la red (origen/destino)

o Antivirus/antimalware: examina los ficheros locales y los procesos en ejecucion, utilizando una variedad de tecnicas de las descritas anteriormente, con gran cantidad de variaciones (soporte para ficheros encriptados y polimorficos, por ejemplo). Este software no solo busca virus sino otro tipo de infecciones (como troyanos, gusanos y etcetera).

o Anti-Spam 25: Filtro que trata de bloquear correos no deseados (spam).

o Sistema de Deteccion de Intrusos (IDS) 26: Algunas soluciones tambien incluyen un tipo rudimentario de IDS 26. Los IDSs 26 se describiran mas adelante.

• Proteccion basada en la red

Las defensas desplegadas sobre la red se encuentran en herramientas que se pueden clasificar, en general, en tres grupos:

1. Filtrado

2. Deteccion de Intrusion

3. Informacion de Seguridad y Gestion de Eventos

Las herramientas de filtrado comprenden elementos como cortafuegos, filtros de spam y software de control de contenidos. Los cortafuegos son cuellos de botella que examinan los flujos de paquetes que los atraviesan y deciden permitir su paso o rechazarlos de acuerdo a un conjunto de reglas determinado. Los filtros de spam son herramientas que examinan tanto el correo entrante como el saliente e intentan determinar si se trata de correo legal o indeseable (spam), antes de que el usuario final se vea involucrado. Un filtro de spam puede ejecutarse en cualquier parte del circuito del correo (desde su punto de origen, pasando por cualquiera de los servidores que reenvfan el correo recibido a su destino hasta la aplicacion de gestion de correo instalada en el dispositivo del usuario final). El software de control de contenidos es una serie de herramientas que controlan que contenidos son los que los usuarios estan autorizados a ver. Funciona de modo similar a un cortafuegos (permite el paso de flujo de

5

10

15

20

25

30

35

40

45

50

trafico o lo bloquea), pero lo hace a nivel de aplicacion. Basicamente cualquier herramienta de seguridad que decida si debena atravesar o bloquear cualquier parte del flujo de trafico de red puede ser encuadrada en este grupo. El filtrado se puede realizar a cualquier nivel, Ip, TCP, nivel de aplicacion, etc.

Los Sistemas de Deteccion de Intrusion (IDS) 26 son sistemas utilizados para analizar flujo de trafico e intentan detectar determinados patrones que son categorizados como daninos. A continuacion se citan algunos ejemplos de trafico que un IDS puede detectar:

o Spam procedente de una maquina integrada en una red controlada. o Paquetes con direcciones de origen falsas.

o Maquinas que intentan contactar con servicios maliciosos conocidos, tales como canales IRC utilizados para controlar programas espfas.

o 'Firmas de red' conocidas de virus u otro malware. Una 'firma de red' es un paquete o conjunto de paquetes que genera un malware conocido.

Normalmente los IDS 26 no detienen el flujo de trafico, sino que solo lo reportan de modo que se pueda llevar a cabo una accion correctora. El procedimiento mas simple de deteccion de intrusion es generar una alarma cuando cierto umbral es superado. Por ejemplo, tres o mas intentos fallidos de logon, o una llamada de telefono movil que dure mas de seis horas podnan dar lugar a un aviso de atencion en la cuenta en cuestion. Sistemas mas sofisticados se pueden clasificar en dos categonas:

o Los sistemas de deteccion de mal uso, que operan utilizando un modelo del comportamiento probable de un intruso.

o Los sistemas de deteccion de anomalfas que se encargan de una tarea bastante mas compleja como la busqueda de patrones anomalos de comportamiento, en ausencia de un modelo claro del modus operandi del atacante, con la esperanza de detectar ataques que no hayan sido reconocidos ni catalogados previamente.

Las herramientas de Informacion de Seguridad y Gestion de Eventos (SIEM) 12 son herramientas que recogen informacion tanto de los sistemas de defensa de la red (tales como los cortafuegos 14 23 y los IDS 26) como de los sistemas monitorizados (logs de servidores, logs de LDAP, etcetera) en un punto central. La informacion recogida puede ser automaticamente correlacionada mediante un conjunto de reglas determinadas para detectar problemas que no podnan ser detectados en un punto individual. La informacion tambien puede ser utilizada para realizar auditonas forenses una vez que el problema ha tenido lugar.

“Recientemente, los antivirus parecen ser cada vez menos efectivos. La comercializacion de “botnets” ha dado lugar a que los autores de malware dispongan de herramientas decentes e incluso formacion. Casi todos los troyanos y otros virus son indetectables en su lanzamiento - ya que sus autores los han testado convenientemente- y muchos de ellos consiguen ejecutarse (reclutando su numero de maquinas objetivo) sin llamar la atencion de la industria del antivirus. El efecto neto de esto es que mientras que el software de antivirus podna haber detectado casi todas las amenazas en circulacion a principios de los 2000, en 2007 un producto tfpico puede detectar solo una tercera parte de ellos” [Security Engineering, 2nd edition. Ross Anderson, Wiley Publisinc Inc. ISBN: 978-0-470-06852-6].

A continuacion, se mencionan varios de los problemas actuales existentes en relacion con la proteccion en el extremo:

La proteccion en el extremo 21 depende del analisis previo del malware para poder luchar contra el. Asf, la industria de antivirus/antimalware va siempre a la zaga de las amenazas, debido, entre otras cosas, a la propia naturaleza de ambas actividades (defensa y ataque). Los atacantes (la industria de malware) pueden elegir la direccion del ataque mientras que los defensores solo pueden adaptarse y reaccionar frente a los nuevos ataques una vez que estos aparecen.

A pesar de que el nuevo malware es catalogado rapidamente e inmediatamente despues se crea una solucion para corregirlo, existe siempre una ventana de tiempo durante la cual el nuevo malware puede instalarse sin ser detectado en una maquina. Y una vez que se ha instalado, es bastante probable que no sea detectado ni eliminado sin un arranque de la maquina formateada. Despues de todo, el programa antimalware depende del sistema operativo para ejecutarse, y el sistema operativo puede ser afectado por un malware que se este ejecutando con privilegios suficientes (por ejemplo reescribir o interceptar llamadas del sistema).

Otro problema es que la comprobacion remota (verificacion del estado de salud de un ordenador desde una localizacion remota) basada en software ejecutable en el ordenador que debe ser diagnosticado no es fiable. Cualquier cosa que un programa de diagnostico pueda enviar para comprobar su propia integridad puede ser duplicada por un virus que se ejecuta en el mismo ordenador. Existen algunos trabajos (TPM - Trusted Platform Module) que son capaces de comprobar remotamente el estado de seguridad de un dispositivo, pero por el momento los dispositivos finales, simplemente, no son fiables ni controlables con efectividad.

5

10

15

20

25

30

35

40

45

50

Por todas esas razones, la proteccion en el extremo por s^ sola no es suficiente y debe ser complementada con algun tipo de analisis de red.

Algunos de los problemas de la proteccion en la red existente en la actualidad para detectar o controlar ataques en la red son:

* Internet es un entorno muy ruidoso, incluso a nivel de paquetes. Existe una gran cantidad de paquetes aleatoriamente mal construidos que puede generar una tasa bastante significativa de falsas alarmas. Una falsa alarma repercute en un incremento en los costes de operacion.

* Existen pocos ataques. Si hubiera diez ataques reales por cada millon de sesiones, entonces, incluso si el sistema tuviera una tasa de falsas alarmas del orden del 0,1%, la relacion de falsas alarmas frente a alarmas reales sena de 100. Ademas del incremento en costes de operacion que esto supondna, probablemente las alarmas reales se perdenan en todo el ruido existente.

* Muchos ataques a redes son espedficos a versiones particulares de software, por lo que una herramienta general de deteccion de mal uso debena tener una biblioteca enorme y constantemente actualizada de firmas de amenazas.

* Las amenazas contra la seguridad se distribuyen por naturaleza; tienen diferentes ongenes, diversos objetivos, y diversas taxonomfas. Por otro lado las herramientas actuales de analisis se encuentran centralizadas en algunos cuellos de botella y la mayona de las veces aisladas.

* El tiempo de respuesta es cntico; los ataques deben ser detenidos mientras que estan sucediendo. Pero las herramientas de seguridad, la mayona de las veces, funcionan de acuerdo a un conjunto de reglas predeterminadas, no muy efectivas cuando se trata de nuevas amenazas.

* Las herramientas de seguridad son mas adecuadas para una red de tamano pequeno a mediano que para una red ISP, ya que los sistemas centralizados simplemente no soportan estas grandes cargas.

* Los sistemas actuales tienen necesidad de supervision constante, pero tanto por razones economicas como operativas (respuesta en tiempo real), la intervencion humana debe ser minima.

Un ejemplo de posible solucion de deteccion de la presencia de intrusiones de red mediante la clasificacion del trafico en la red se ensena en el documento WO 2004/012603, que describe un sistema de deteccion de ataque que extrae el flujo de trafico de red mediante un rastreador de paquetes. El rastreador de paquetes analiza sintacticamente los paquetes extrafdos en componentes constituyentes (por ejemplo, tipo de paquete, direcciones de IP de fuente y de destino, carga util,...) y los usa para construir vectores multidimensionales, con el fin de clasificar comportamientos anomalos basandose en un analisis de correlacion y en metricas aplicadas a una seleccion de los vectores construidos.

Sumario de la invencion

La presente invencion trata de resolver los inconvenientes mencionados anteriormente por medio de un procedimiento y un sistema configurado para clasificar el trafico basandose en una red neuronal en la que se implementa un algoritmo de agrupamiento. La base de la invencion es la deteccion automatica y la clasificacion de los patrones generados por malware en la red.

Para ello a todos los paquetes de la red se les asigna automaticamente una 'clase'. Dicha clase, tambien llamada conjunto de valores de clasificacion, representa el tipo de paquete y se utiliza para filtrar o marcar paquetes o flujos para un analisis posterior.

En particular, en un aspecto de la presente invencion se proporciona un procedimiento para clasificar trafico de una red de comunicaciones, segun la reivindicacion 1.

El conjunto de valores de clasificacion calculados preferentemente comprende dos bytes Vi y V2, donde: Vi es el resultado de proyectar C2 en un espacio uni-dimensional utilizando una transformacion dentro de una red neuronal que preserva el orden topologico (distancia relativa entre nodos) y V2 es el resultado de proyectar C3 en un espacio uni-dimensional utilizando una transformacion dentro de una red neuronal que preserva el orden topologico (distancia relativa entre nodos).

La distancia entre nodos se calcula preferentemente como:

imagen1

donde: C(X)pj se utiliza para referirse a un elemento concreto de la caracterizacion del paquete X, p es el protocolo, i es la coordenada de dicho vector (Ci, C2, C3) asignado por el segundo modulo (32) del sistema para la que se aplica

5

10

15

20

25

30

35

40

la funcion distancia, j indica las coordenadas del vector C, A y B son los paquetes entre los cuales se mide la distancia, y Wpij es un vector, adaptado para cada protocolo p, y coordenadas j, i, utilizado para dar mas peso a algunas componentes del paquete que a otras.

Preferentemente, el vector C2 comprende al menos una de las siguientes coordenadas, tal y como se leen de la cabecera IP de dicho paquete capturado:

i. Longitud de Cabecera de Internet,

ii. Tipo de Servicio,

iii. Longitud Total,

iv. Indicadores IP,

v. Tiempo de Vida,

vi. Desplazamiento del Fragmento,

vii. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado por el sistema en el ultimo nodo de red que el paquete ha atravesado.

El vector C3, en el caso de un paquete del protocolo Transmission Control Protocol (TCP) comprende, preferentemente, al menos, una de las siguientes coordenadas, tal y como se leen de los segmentos de TCP del paquete capturado:

i. Puerto Origen,

ii. Puerto Destino,

iii. Indicadores,

iv. Ventana,

v. Urgente,

vi. Opciones,

vii. Suma de Verificacion,

viii. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado por el sistema en el ultimo nodo de red que el paquete ha atravesado, tal y como se lee de la cabecera IP.

En el caso de un paquete del protocolo User Datagram Protocol (UDP) el vector C3 comprende, preferentemente, al menos, una de las siguientes coordenadas, tal y como se leen de los segmentos de UDP del paquete capturado:

i. Puerto Origen,

ii. Puerto Destino,

iii. Longitud,

iv. Suma de Verificacion,

v. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado por el sistema (30 51 68) en el ultimo nodo de red que el paquete ha atravesado, tal y como se lee de la cabecera IP.

El vector C3, en el caso del protocolo Internet Control Message Protocol (ICMP) comprende preferentemente, al menos, una de las siguientes coordenadas, tal y como se leen de los segmentos de ICMP del paquete capturado:

i. Tipo,

ii. Codigo,

iii. Suma de Verificacion,

iv. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado por el sistema en el ultimo nodo de red que el paquete ha atravesado, tal y como se lee de la cabecera IP.

En una realizacion particular, el procedimiento utiliza ademas el campo de opciones de la cabecera de IP del paquete capturado para almacenar dicho conjunto de valores de clasificacion.

6

5

10

15

20

25

30

35

40

45

En otro aspecto de la invencion, se presenta un sistema de clasificacion de trafico en una red de comunicaciones. El sistema comprende medios para llevar a cabo el procedimiento descrito anteriormente.

En particular, este sistema comprende: un primer modulo, configurado para capturar paquetes IP de dicha red de comunicaciones; un segundo modulo, configurado para perfilar dichos paquetes capturados asignando un vector a cada paquete capturado de acuerdo a un conjunto de determinadas caractensticas; un tercer modulo, configurado para calcular un conjunto de valores de clasificacion para cada uno de dichos paquetes perfilados de acuerdo a la informacion contenida en su cabecera de IP y la informacion contenida en la cabecera de su protocolo espedfico; y un cuarto modulo, configurado para reescribir las cabeceras de dichos paquetes capturados, incluyendo dichos valores de clasificacion en una cabecera IP.

El sistema se conecta a, al menos, un nodo de dicha red de comunicaciones.

Opcionalmente, el sistema tiene dos modos de operacion: un modo de entrenamiento, en el que dichos nodos pertenecientes a dicha red neuronal se generan automaticamente, utilizando las coordenadas (Ci, C2, C3) de los paquetes capturados a partir de trafico real conocido; y un modo de representacion, en el que los paquetes capturados se clasifican utilizando nodos ya generados de una red neuronal.

Finalmente se proporciona un programa informatico que comprende medios de codigo de programa informatico adaptados para realizar el procedimiento descrito anteriormente.

Breve descripcion de los dibujos

Para completar esta descripcion y con objeto de ayudar a una mejor comprension de la invencion, se proporciona un dibujo. Dicho dibujo forma parte integrante de la descripcion e ilustra una realizacion preferente de arquitectura para implementar el procedimiento de la invencion, que no debena ser interpretado como restringiendo el ambito de la invencion, sino solo como un ejemplo de como se puede realizar la invencion.

La figura 1 es un esquema de alto nivel de los factores de proteccion y mitigacion que se pueden desplegar para proteger a los usuarios.

La figura 2 muestra la interaccion tfpica entre un proceso que se ejecuta (en el ordenador del usuario) y la Suite de Proteccion en el extremo.

La figura 3 muestra un esquema de un Elemento del Sistema (SE)

La figura 4 muestra un Mapa de Auto-Organizacion (SOM), basado en una red neuronal para clasificacion del protocolo UDP.

La figura 5 es un esquema simplificado de la integracion del sistema de la invencion en una red de Provision del Servicio de Internet (ISP).

La figura 6 muestra el modo en que un paquete es reclasificado en cada elemento de la red.

Descripcion de la realizacion preferente

La presente divulgacion se refiere a un procedimiento y un sistema, que comprende hardware y software espedficos residentes en o cerca de (conectados) los nodos de una red de comunicaciones, que clasifica el trafico basandose en un algoritmo de agrupamiento en una red neuronal que sera descrito mas adelante en detalle. La base de la invencion es la deteccion y clasificacion automaticas de los patrones de trafico generados por malware en la red.

A todos los paquetes de la red se les asigna automaticamente una 'clase', que representa el tipo de paquete, y que es utilizada para filtrar o marcar paquetes o flujos de paquetes en un analisis posterior.

Los paquetes de datos de la red son clasificados mediante el uso de dos Mapas de Auto-Organizacion (SOM) que hacen corresponder dos conjuntos de valores n-dimensionales que representan el paquete, perfilado por el sistema, en dos valores uni-dimensionales. Los dos valores uni-dimensionales, junto con un byte que representa el tipo de protocolo, son agrupados en un valor tri-dimensional que representa la 'clase' del paquete. Un Mapa de Auto- Organizacion es un tipo de red neuronal artificial que es entrenada, mediante un aprendizaje no supervisado, para producir un valor representativo de una dimension inferior (en este caso uni-dimensional) a partir de un valor de entrada de una dimension superior (el paquete de red perfilado).

El sistema tiene dos modos de operacion:

• Un modo de entrenamiento, en el que los grupos se generan automaticamente, y la red es “entrenada”, basandose en trafico de red real.

• Un modo de representacion, en el que los paquetes se clasifican utilizando una red ya “entrenada”.

5

10

15

20

25

30

35

40

45

50

Debido a que cada nodo de red tiene una visibilidad parcial del trafico de la red, la informacion de grupos se comparte entre todos los nodos utilizando los propios paquetes de la red como vectores de transmision. La informacion de grupos, es, de este modo, una parte de la funcion distancia (descrita mas adelante) utilizada por el algoritmo SOM.

El procedimiento y sistema se integra en o cerca (conectado) de al menos uno de los nodos de la red. Como dicho sistema contiene algunas caractensticas de Inspeccion Detallada de Paquetes (DPI), puede tambien integrarse en cualquier parte de la red que exista un sistema DPI.

Se incorpora un Elemento del Sistema (SE) en cada nodo de la red. En la figura 3 se muestra un esquema de un Elemento del Sistema SE 30. Los componentes de un SE son:

• A. Modulo de Captura de Paquetes 31: Este modulo captura paquetes IP 35 de la red. Si existiera un DPI, este podna, opcionalmente, realizar esta funcion.

• B. Modulo de Perfilado de Paquetes 32: Este componente perfila un paquete capturado 36 de acuerdo a un conjunto de coordenadas predeterminadas (por ejemplo, longitud del paquete, origen y destino, protocolo,...). Los paquetes perfilados 37 constituyen la capa de entrada de la red neuronal 40, como se puede ver en la figura 4. Tambien este modulo podna implementarse en un DPI, en caso de estar presente. Mas adelante se describen en profundidad los detalles de este modulo, en esta seccion.

• C. Modulo de Red Neuronal de Agrupamiento 33: Este componente toma como entrada un paquete perfilado 37, tal y como se proporcionan a la salida del modulo de perfilado de paquetes 32, y, utilizando una red neuronal, calcula un 'valor de grupo' 38. Un 'valor de grupo' 38 es una representacion numerica tri-dimensional del conjunto o 'grupo' al que la Red Neuronal cree que el paquete pertenece. La primera de estas dimensiones representa el protocolo (y puede opcionalmente omitirse en el siguiente paso - en el modulo D- ya que de hecho el protocolo se encuentra ya de forma explfcita en el paquete). La segunda dimension representa el grupo de paquetes al que cada paquete procesado pertenece, clasificandolo unicamente de acuerdo a su cabecera IP. La tercera dimension representa la clasificacion atendiendo a la cabecera espedfica de su protocolo. El algoritmo de agrupamiento en una red neuronal que utiliza el sistema es un Mapa de Auto-Organizacion (SOM). Mas adelante se incluyen detalles concretos relativos a la implementacion de este componente.

• D. Modulo de Reescritura de Paquetes 34: Este modulo reescribe la cabecera de cada paquete, incluyendo el 'valor de grupo', en la cabecera IP. La salida del modulo de reescritura de paquetes 34 es un paquete clasificado 39. Tambien mas adelante se incluyen detalles concretos de la implementacion de el modulo de reescritura de paquetes 34, en esta seccion.

Notese que la Red Neuronal 40 mostrada en la figura 4 representa el Mapa de Auto-Organizacion (SOM) utilizado para el agrupamiento en el caso del protocolo UDP. La capa de salida 4l en dicha figura esta simplificada para mayor claridad. La capa real de salida 41 tiene 266 nodos (desde el Grupo 0 42 hasta el Grupo 255 43). La Red Neuronal 40, por lo tanto, tal y como se define en el SOM, tiene dos capas, una capa de entrada 44 con un nodo 45 46 47 48 49 por cada una de las coordenadas, y una capa de salida 41 que contiene tantos nodos 42 43 como grupos contenga la informacion clasificada (utilizando un unico byte para su representacion se obtienen hasta 256 grupos).

Asf pues, a cualquier paquete que atraviese un nodo de red que tenga un Elemento del Sistema SE 30 asociado, se le aplica el siguiente procedimiento:

• El paquete es perfilado de acuerdo a un conjunto dado de coordenadas.

• Las coordenadas del paquete (su perfilado) son la entrada de una red neuronal, que calcula un valor de grupo 38, que indica la categorizacion del paquete de acuerdo a un conocimiento previo de la red.

• El paquete es, entonces, modificado de modo que se incluye dicha categorizacion en una cabecera, y, transferido al siguiente nodo de la red del modo habitual.

Debido a que el paquete atraviesa mas de uno nodo de red, este procedimiento puede repetirse mas de una vez para cada paquete (tantas veces como nodos de red atraviese). Ademas, como una de las coordenadas de perfilado del paquete es el valor de clasificacion asignado en el nodo anterior (45 en la figura 4), esto significa que aunque cada SE 30 solo vea parte de la informacion, la Red Neuronal 40 incluye informacion de toda la red.

En este sentido, la red de Provision del Servicio de Internet ISP crea una red meta-neuronal, en la que cada SE 30

actua como una neurona (la cual constituye tambien por sf misma una red neuronal 40).

La figura 5 presenta un esquema simplificado de la integracion en la red ISP, donde se muestran una red de

comunicaciones que comprende varios usuarios residenciales 54 y sus enlaces hacia otras redes 53. En cada Elemento de la Red 52 se dispone de un SE 30 51, y las propias conexiones de red existentes 55 se utilizan para comunicar los SEs 30 51 entre sf

5

10

15

20

25

30

35

40

La figura 6 muestra el modo en que un paquete es reclasificado en cada elemento de red 52 62 64 66 que atraviesa, por medio de los SEs 30 51 68. Cuando el paquete aparece por primera vez, no tiene aun ninguna informacion de clasificacion 61. El primer elemento de la red 62 clasifica el paquete, generando un paquete clasificado 63, que es posteriormente transferido hacia su destino, al siguiente elemento de la red 64. El segundo elemento 64 clasifica el paquete de nuevo. Debido a que el Mapa de Auto-Organizacion SOM utilizado para clasificar incluye en su capa de entrada la clasificacion del paquete, dicha clasificacion es refinada. De este modo se genera un paquete reclasificado 65. El paquete 65 puede pertenecer al mismo grupo que el paquete sin reclasificar 63, o puede ser movido a un grupo diferente (ya que la red neuronal en 64 puede tener un entrenamiento diferente).

Antes de que el paquete pase a una red externa 67, la informacion de clasificacion debe ser eliminada. El ultimo elemento de la red 66 implementa esta funcion.

Hasta el momento no se han descrito acciones adicionales a llevar a cabo sobre los paquetes, pero, una vez que el paquete ha sido clasificado, es facil utilizar el valor de grupo del mismo para filtrar los paquetes, bien en el penmetro de la red (justo antes de transferirlos a un usuario residencial u otras redes 67), o incluso dentro de las propias redes residenciales. Esta nueva informacion de seguridad es facilmente integrable con otras medidas de seguridad existentes, como IDSs, cortafuegos, etc.

A continuacion se describen en detalles los modulos del sistema B, C y D, y sus respectivas funciones:

• Modulo B. Perfilacion de Paquetes 32

Este modulo lee el contenido de los paquetes tal y como son entregados por el modulo A, y extrae informacion de los mismos.

Un paquete de red es perfilado inicialmente por un vector tri-dimensional (C1, C2, C3) donde: o C1 es el protocolo espedfico del paquete, tal y como se lee del paquete IP.

o C2 es un vector que representa las caractensticas IP del paquete. El contenido del vector es (en el orden

descrito):

1.: Longitud de Cabecera de Internet

2.: Tipo de Servicio

3.: Longitud Total

4.: Indicadores IP

5.: Tiempo de Vida

6.: Desplazamiento del Fragmento

7.: Clasificacion Previa

o C3 es un vector que representa las caractensticas espedficas del protocolo del paquete. La dimension de este vector y su contenido dependen del protocolo concreto del paquete. Como ejemplo se muestra el contenido de dicho vector para los protocolos mas habituales:

- Protocolo: TCP

1. Puerto Origen

2. Puerto Destino

3. Indicadores

4. Ventana

5. Urgente

6. Opciones

7. Suma de Verificacion

8. Clasificacion Previa

- Protocolo: UDP

5

10

15

20

25

30

35

40

45

1.: Puerto Origen

2.: Puerto Destino

3.: Longitud del Mensaje

4.: Suma de Verificacion

5.: Clasificacion Previa

Protocolo: ICMP

1.: Tipo

2.: Codigo

3.: Suma de Verificacion

4.: Clasificacion Previa

Se utiliza la nomenclature C(X)pj para referirse a un elemento concreto de la caracterizacion del paquete X, p es el protocolo, como se muestra a continuacion:

o t se refiere al protocolo TCP

o u se refiere al protocolo UDP

o i se refiere al protocolo ICMP

Asf, por ejemplo:

C(X)t33 se refiere al campo de indicadores de un paquete TCP,

C(X)u33 se refiere a la longitud de un paquete UDP,

C(X)t27 se refiere a la clasificacion previa (de cualquier paquete IP independientemente de su protocolo), asf C(X)t27, C(X)u27 y C(X)i27 son sinonimos.

• Modulo C. Algoritmo de Agrupamiento 33

El modulo C realiza la clasificacion de los paquetes ya perfilados, proporcionados por el modulo B. El modulo C genera dos bytes de informacion, que representan en grupo (o conjunto) al que el paquete pertenece de acuerdo a su cabecera IP, y el grupo (o conjunto) al que el paquete pertenece de acuerdo a la cabecera de su protocolo espedfico (TCP, UdP, ICMP o cualquier otro).

El modulo C implementa un Mapa de Auto-Organizacion (SOM) multi-capa que constituye la pieza clave de su sistema de clasificacion. Un mapa de Auto-Organizacion (SOM) es un tipo de red neuronal artificial entrenada mediante aprendizaje no supervisado para producir una representacion discretizada de baja dimension (tfpicamente bidimensional) del espacio de entrada de las muestras de entrenamiento. Esta representacion es lo que se denomina mapa. Los Mapas de Auto-Organizacion son diferentes de otras redes neuronales artificiales porque utilizan una funcion de proximidad para preservar las propiedades topologicas del espacio de entrada.

Como la mayona de las redes neuronales artificiales, los SOMs operan en dos modos distintos: entrenamiento y clasificacion. En el modo de entrenamiento se construye el mapa utilizando ejemplos de entrada. Se trata de un procedimiento competitivo tambien llamado vector de cuantificacion. En el modo de representacion se clasifica automaticamente un nuevo vector de entrada.

Un mapa de Auto-Organizacion (SOM) comprende un numero determinado de componentes llamados nodos o neuronas. En cada nodo existe un vector asociado, llamado vector de ponderacion de la misma dimension que los vectores que contienen los datos de entrada. Estos nodos ocupan una posicion en el espacio del mapa. La disposicion normal de los nodos es una distribucion hexagonal o rectangular con un espaciado regular entre ellos. El Mapa de Auto-Organizacion representa una clasificacion de un espacio de entrada de dimension superior a un espacio de dimension inferior. El procedimiento para situar un vector de entrada en el mapa es encontrar el nodo con el vector de ponderacion mas proximo al vector de entrada y asignar las coordenadas de este nodo, en el mapa, a dicho vector de entrada.

El modulo B realiza una clasificacion de dos capas utilizando dos Mapas de Auto-Organizacion (SOMs). La primera capa clasifica el paquete de acuerdo a sus caractensticas de IP. La segunda capa clasifica el paquete de acuerdo a las caractensticas espedficas de su protocolo (C3).

5

10

15

20

25

30

35

40

Cada SOM es mapa uni-dimensional, como se muestra en la figura 4. La capa de entrada tiene uno nodo por cada coordenada definida (seis nodos para IP, nueve nodos para TCP y as^ con el resto de protocolos) y 256 en la capa de salida.

El procedimiento para clasificar cualquier paquete es:

1. - Clasificar el paquete de acuerdo al Mapa de Auto-Organizacion

2. - Clasificar el paquete de acuerdo al Mapa de Auto-Organizacion

3. - Devolver Vi, V2 como valor de clasificacion,

donde, Vi es el resultado de proyectar C2 en un espacio uni-dimensional utilizando una transformacion en una red neuronal que preserva el orden topologico (la distancia relativa entre nodos) y V2 es el resultado de proyectar C3 en un espacio uni-dimensional utilizando un transformacion en una red neuronal que preserva el orden topologico (la distancia relativa entre nodos). De este modo, si C y C son dos vectores n-dimensionales, V y V son sus respectivas proyecciones y, Dn(A,B) y Dm(A,B) son las distancias entre 2 puntos A y B en un espacio n-dimensional y m-dimensional, respectivamente, entonces Dn(0n,C)<Dn(0n,C’) implica que Dm(0m,V)<Dm(0m,V), donde On y 0m son los vectores cero n-dimensional y cero m-dimensional, respectivamente.

Asf pues, la red neuronal clasifica (agrupa) datos n-dimensionales en un espacio m-dimensional manteniendo la posicion relativa entre nodos, de acuerdo a una funcion distancia. Por eso para el procedimiento de clasificacion es necesario definir una funcion distancia entre vectores.

Vi y V2 son valores independientes, ya que proceden de proyectar vectores diferentes (C2 y C3) en un espacio unidimensional.

Por lo tanto, como se ha podido comprobar una parte importante del algoritmo SOM es la funcion distancia (funcion que proporciona la distancia entre dos puntos). Para ello se utiliza la funcion distancia euclfdea ponderada.

La distancia D entre dos puntos (paquetes) A y B, para el protocolo p, y la capa i, se define como:

de IP. Generar Vi. de protocolo. Generar V2.

imagen2

D(A.

Donde:

o p es el protocolo,

o i es la capa de entrada del SOM para la que se aplica la funcion distancia, o A y B son los paquetes cuya distancia se mide,

o Wpj es un vector de ponderacion, adaptado a cada protocolo y capa de entrada.

El proposito del vector de ponderacion W es permitir la adaptacion del algoritmo de agrupamiento a diferentes escenarios de la red, dando mas peso a unas componentes del paquete que a otras. Es posible, incluso, ignorar alguna componente, tan solo ajustando la coordenada apropiada de Wa 0.

• Modulo D. Reescritura de Paquetes 34

Este modulo incluye la informacion de clasificacion del paquete (Vi, V2) dentro del paquete, afecta a su curso a traves de otros elementos de red.

Para ello, el sistema utiliza el campo opciones de la cabecera IP para almacenar los valores dicho campo contiene:

o Tipo (26)

o Indicador de Copia (1 bit) o Clase de Opcion (2)

El valor hexadecimal D6 se utiliza como cabecera opcional. Este campo tiene una longitud de 4 bytes. El contenido de estos bytes es (hexadecimal):

o Cabecera de Opciones: 0xD6

o Longitud Opciones: 0x04

de manera tal que no V1, V2. El formato de

o Contenido byte 1: V1 o Contenido byte 2: V2

El procedimiento y sistema de la invencion reducen significativamente el coste computacional y operacional de la clasificacion del trafico de red para incrementar la seguridad, ya que incluye protocolos de auto aprendizaje (en la 5 red neuronal).

No afecta a otras medidas ya existentes, y puede ser integrado facilmente con estas proporcionando un nuevo parametro (la categorizacion del trafico) con el que trabajar.

Este nuevo parametro describe una clasificacion de seguridad del trafico, a nivel de paquete. Permite un facil filtrado del trafico malicioso. Puede ser utilizado para desviar trafico a un 'area de limpieza de la red' donde los flujos de red 10 seleccionados pueden ser analizados mas profundamente. Mientras que no es practico analizar todo el trafico que atraviesa una ISP, este sistema permite una facil pre-clasificacion del trafico, que permite la posibilidad de analizar solamente el trafico sospechoso.

Claims

5

10

15

20

25

30

35

40

REIVINDICACIONES

1. Un procedimiento de clasificacion de trafico en una red de comunicaciones, en el que dicho procedimiento comprende los siguientes pasos:

• capturar paquetes IP (35) de dicha red de comunicaciones;

• perfilar dichos paquetes capturados (36) asignando un vector a cada uno de dichos paquetes capturados (36) de acuerdo con un conjunto de determinadas caractensticas;

• calcular un conjunto de valores de clasificacion para cada uno de dichos paquetes perfilados (37) de acuerdo a la informacion contenida en su cabecera de IP y la informacion contenida en la cabecera de un protocolo encapsulado en los paquetes IP (36) capturados;

caracterizado porque el procedimiento comprende ademas el siguiente paso:

• reescribir las cabeceras de dichos paquetes capturados (35), incluyendo dichos valores de clasificacion calculados en una cabecera IP;

y porque el vector asignado es un vector tri-dimensional (Ci, C2, C3), donde:

• Ci es el protocolo encapsulado de dicho paquete capturado (35), tal y como se lee de la cabecera IP;

• C2 es un vector que comprende informacion de la cabecera de IP de dicho paquete capturado (35);

• C3 es un vector que comprende informacion de los datos de cabecera del protocolo encapsulado de dicho paquete capturado (35), cuya dimension depende del contenido de la coordenada Ci.
2. El procedimiento segun la reivindicacion 1, en el que dicho conjunto de valores de clasificacion calculados comprende dos bytes Vi y V2, donde:

• Vi es el resultado de proyectar C2 en un espacio uni-dimensional utilizando una transformacion dentro de una red neuronal que preserva el orden topologico, basado en la distancia relativa entre nodos y

• V2 es el resultado de proyectar C3 en un espacio uni-dimensional utilizando una transformacion dentro de una red neuronal que preserva el orden topologico, basado en la distancia relativa entre nodos.
3. El procedimiento segun la reivindicacion 2, en el que dicha distancia relativa entre nodos se calcula como:

imagen1

1

donde:

• C(X)Pij se utiliza para indicar un elemento concreto de la caracterizacion del paquete X,

• p es el protocolo,

• i es la coordenada de dicho vector (Ci, C2 C3) asignada por un segundo modulo (32) del sistema, para la cual se aplica la funcion distancia,

• j indica las coordenadas del vector C,

• A y B son los paquetes entre los cuales se mide la distancia,

• Wpj es un vector, adaptado para cada protocolo p, y coordenadas j, i, utilizado para dar mas peso a algunas componentes del paquete que a otras.
4. El procedimiento segun cualquiera de las reivindicaciones 1 a 3, en el que el vector C2comprende al menos una de las siguientes coordenadas, tal y como se leen de la cabecera IP del paquete capturado:

i. Longitud de Cabecera de Internet,

ii. Tipo de Servicio,

iii. Longitud Total,

iv. Indicadores IP,

5

10

15

20

25

30

35

40

v. TTL (Tiempo de Vida),

vi. Desplazamiento del Fragmento,

vii. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado en el ultimo nodo de red que el paquete ha atravesado.
5. El procedimiento segun cualquiera de las reivindicaciones, 1 a 4, en el que el vector C3, en el caso del Protocolo de Control de Transmision (TCP) comprende, al menos, una de las siguientes coordenadas, tal y como se leen de los segmentos de TCP del paquete capturado:

i. Puerto Origen,

ii. Puerto Destino,

iii. Indicadores,

iv. Ventana,

v. Urgente,

vi. Opciones,

vii. Suma de Verificacion,

viii. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado en el ultimo nodo de red que el paquete ha atravesado, tal y como se lee de la cabecera IP.
6. El procedimiento segun cualquiera de las reivindicaciones 1 a 4, en el que el vector C3, en el caso del Protocolo de Datagramas de Usuario (UDP) comprende, al menos, una de las siguientes coordenadas, tal y como se leen de los segmentos de UDP del paquete capturado:

i. Puerto Origen,

ii. Puerto Destino,

iii. Longitud,

iv. Suma de Verificacion,

v. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado en el ultimo nodo de red que el paquete ha atravesado, tal y como se lee de la cabecera IP.
7. El procedimiento segun cualquiera de las reivindicaciones 1 a 4, en el que el vector C3, en el caso del Protocolo de Mensajes de Control de Internet (ICMP) comprende, al menos, una de las siguientes coordenadas, tal y como se leen de los segmentos de ICMP del paquete capturado:

i. Tipo,

ii. Codigo,

iii. Suma de Verificacion,

iv. Clasificacion Previa, correspondiente al ultimo valor de clasificacion calculado en el ultimo nodo de red que el paquete ha atravesado, tal y como se lee de la cabecera IP.
8. El procedimiento segun cualquiera de las reivindicaciones anteriores, que comprende ademas la utilizacion del campo de opciones de la cabecera de IP del paquete capturado para almacenar dicho conjunto de valores de clasificacion calculados.
9. Un sistema (30 51 68) de clasificacion de trafico en una red de comunicaciones, en el que dicho sistema (30 51 68) comprende medios para llevar a cabo el procedimiento segun cualquiera de las reivindicaciones anteriores.
10. El sistema (30 51 68) segun la reivindicacion 9, comprendiendo dicho sistema:

• un primer modulo (31), configurado para capturar paquetes IP (35) de dicha red de comunicaciones;

• un segundo modulo (32), configurado para perfilar dichos paquetes capturados (36) asignando un vector a cada uno de dichos paquetes capturados (36) de acuerdo a un conjunto de determinadas caractensticas;

• un tercer modulo (33), configurado para calcular un conjunto de valores de clasificacion para cada uno de dichos paquetes perfilados (37) de acuerdo a la informacion contenida en su cabecera de IP y la informacion contenida en la cabecera de su protocolo espedfico;

• un cuarto modulo (34), configurado para reescribir las cabeceras de dichos paquetes capturados (35),

5 incluyendo dichos valores de clasificacion calculados en una cabecera IP.
11. El sistema (30 51 68) segun la reivindicacion 10, en el que dicho sistema (30 51 68) puede ser conectado a, al menos, un nodo de red (52 62 64 66) de dicha red de comunicaciones.
12. El sistema (30 51 68) segun la reivindicacion 11, en el que dicho sistema (30 51 68) esta configurado para operar en uno de dos modos de operacion:

10 a. un modo de entrenamiento, en el que nodos de una red neuronal (40) se generan automaticamente,

utilizando las coordenadas (Ci, C2, C3) de los paquetes capturados (35) a partir de trafico de red real conocido;

b. un modo de representacion, en el que los paquetes capturados (35) se clasifican utilizando nodos ya generados de una red neuronal (40).

15 13. Un programa informatico que comprende medios de codigo de programa informatico adaptados para realizar el

procedimiento segun cualquiera de las reivindicaciones 1 a 8, cuando dicho programa se ejecuta en un ordenador, un procesador de senal digital, una disposicion de puertas de campo programable, un circuito integrado de aplicacion espedfica, un microprocesador, un microcontrolador o cualquier otra forma de hardware programable.

20