ES2496982T3 - Entity characterization procedure at the beginning of variations in a network traffic - Google Patents

Entity characterization procedure at the beginning of variations in a network traffic Download PDF

Info

Publication number
ES2496982T3
ES2496982T3 ES09753148.7T ES09753148T ES2496982T3 ES 2496982 T3 ES2496982 T3 ES 2496982T3 ES 09753148 T ES09753148 T ES 09753148T ES 2496982 T3 ES2496982 T3 ES 2496982T3
Authority
ES
Spain
Prior art keywords
traffic
entities
entity
network traffic
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09753148.7T
Other languages
Spanish (es)
Inventor
Franck Veysset
Pierre Ansel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Application granted granted Critical
Publication of ES2496982T3 publication Critical patent/ES2496982T3/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/144Detection or countermeasures against botnets

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Procedimiento de caracterización de entidades al principio de al menos una variación detectada en un tráfico de red, comprendiendo el procedimiento: - una etapa (E11) de determinación de un periodo de análisis adecuado que comprende al menos un tramo horario sospechoso, conteniendo el tramo horario sospechoso la variación detectada en el tráfico, - una etapa (E14-1) de evaluación, para una entidad (ck) que contribuye al tráfico de red, de un valor representativo de una similitud de tráfico entre una parte del tráfico atribuible a dicha entidad y el tráfico de red durante el periodo de análisis adecuado, siendo realizada dicha etapa de evaluación para una pluralidad de entidades que contribuyen al tráfico de red, y - una etapa (E14-2) de identificación, entre la pluralidad de entidades que contribuyen al tráfico de red, de un grupo de entidades responsables de la variación de tráfico, a partir de los valores de similitud de tráfico evaluados; estando caracterizado dicho procedimiento porque dicha etapa de identificación comprende: - una operación de supresión del tráfico atribuible a la entidad cuya similitud de tráfico con el tráfico de red es más fuerte, repitiéndose la operación de supresión hasta que la similitud de tráfico entre el tráfico filtrado y el tráfico global sea inferior a un umbral predefinido, comprendiendo el grupo de entidades las entidades cuyo tráfico ha sido filtrado.Entity characterization procedure at the beginning of at least one variation detected in a network traffic, the procedure comprising: - a step (E11) for determining a suitable analysis period comprising at least one suspicious time segment, containing the time segment the variation detected in traffic is suspicious, - an evaluation stage (E14-1), for an entity (ck) contributing to the network traffic, of a representative value of a traffic similarity between a part of the traffic attributable to that entity and network traffic during the appropriate analysis period, said evaluation stage being performed for a plurality of entities contributing to the network traffic, and - an identification step (E14-2), between the plurality of entities contributing to the network traffic, from a group of entities responsible for traffic variation, based on the traffic similarity values evaluated; said procedure being characterized in that said identification step comprises: - a traffic suppression operation attributable to the entity whose traffic similarity with the network traffic is stronger, the deletion operation being repeated until the traffic similarity between the filtered traffic and the overall traffic is less than a predefined threshold, the group of entities comprising the entities whose traffic has been filtered.

Description

10 10

15 fifteen

20 twenty

25 25

30 30

35 35

40 40

45 Four. Five

50 fifty

55 55

60 60

65 65

E09753148 E09753148

28-08-2014 08-28-2014

DESCRIPCIÓN DESCRIPTION

Procedimiento de caracterización de entidades al principio de variaciones en un tráfico de red Entity characterization procedure at the beginning of variations in a network traffic

La presente invención se refiere a un procedimiento de caracterización de entidades al principio de al menos una variación en un tráfico de red. The present invention relates to a method of characterization of entities at the beginning of at least one variation in a network traffic.

La invención se sitúa en el campo de las redes de telecomunicaciones. Encuentra una aplicación particularmente interesante en la seguridad de una red informática, y particularmente en la identificación de un conjunto de máquinas comprometidas, controladas por un mismo usuario malintencionado (el término corrientemente utilizado para designar este conjunto de máquinas es “botnet”). Un botnet puede reagrupar varios miles de máquinas, llamadas máquinas zombis, que son infectadas por un programa nefasto instalado en la máquina a espaldas de un usuario legítimo. El programa nefasto permite al usuario malintencionado accionar las máquinas del botnet desde una máquina de control. Un botnet se utiliza por ejemplo para perpetrar acciones malintencionadas contra otras máquinas, para hacer comercio ilícito, o para ganar dinero deshonestamente. The invention is in the field of telecommunications networks. Find a particularly interesting application in the security of a computer network, and particularly in the identification of a set of compromised machines, controlled by the same malicious user (the term commonly used to designate this set of machines is "botnet"). A botnet can regroup several thousand machines, called zombie machines, that are infected by a nefarious program installed on the machine behind the back of a legitimate user. The nefarious program allows the malicious user to operate the botnet machines from a control machine. A botnet is used for example to perpetrate malicious actions against other machines, to do illegal trade, or to earn money dishonestly.

Las redes de tipo botnet han evolucionado a lo largo del tiempo. Se conocen varios procedimientos de identificación de máquinas de un botnet. Por ejemplo, el artículo Identifying Botnets Using Anomaly Detection Techniques Applied to DNS Traffic, R. Villamarin y JC. Brustoloni, publicado en los Proceedings IEEE CCNC 2008, propone un procedimiento para identificar servidores de mando y de control de una red de tipo botnet. Este procedimiento se basa en un análisis de peticiones DNS (de Domaine Name Service). Un primer modo de realización del procedimiento consiste en buscar las tasas de peticiones con nombres de dominio particulares anormalmente elevadas. Un segundo modo de realización del procedimiento consiste en buscar peticiones recurrentes con nombres de dominios que no existen. Estos métodos se adaptan a casos en los que todos los clientes intentan acceder a un mismo servidor y hacen peticiones DNS relativas a un mismo nombre de dominio. Botnet-type networks have evolved over time. Several procedures for identifying botnet machines are known. For example, the article Identifying Botnets Using Anomaly Detection Techniques Applied to DNS Traffic, R. Villamarin and JC. Brustoloni, published in the Proceedings IEEE CCNC 2008, proposes a procedure to identify command and control servers of a botnet type network. This procedure is based on an analysis of DNS requests (from Domaine Name Service). A first way of carrying out the procedure is to look for the rates of requests with abnormally high particular domain names. A second way of carrying out the procedure is to search for recurring requests with domain names that do not exist. These methods are adapted to cases in which all clients try to access the same server and make DNS requests related to the same domain name.

La solicitud de patente publicada con el nº EP 1906620 divulga un método para detectar clientes comprometidos que constituyen un botnet. En un primer tiempo, el procedimiento identifica clientes sospechosos, por ejemplo clientes que efectúan escáneres de vulnerabilidades, y después analiza precisamente el tráfico de estos clientes con el fin de identificar otras actividades sospechosas, como por ejemplo una conexión con un servidor específico tal como un servidor de mensajería instantánea. En este caso el cliente es marcado como que forma parte potencialmente de un grupo de máquinas. Un análisis y un cotejo de todos los datos cosechados en los clientes sospechosos permite identificar grupos de máquinas conectados a un mismo servidor, cada uno de los miembros del grupo siendo identificado como que forma parte de un botnet. No obstante el procedimiento se apoya en la hipótesis según la cual todos los clientes sospechosos de un grupo acceden a un mismo servidor y utilizan por lo tanto un mismo canal. The patent application published under EP 1906620 discloses a method to detect compromised clients that constitute a botnet. At first, the procedure identifies suspicious clients, for example clients that perform vulnerability scanners, and then precisely analyzes the traffic of these clients in order to identify other suspicious activities, such as a connection to a specific server such as a instant messaging server. In this case, the customer is marked as potentially part of a group of machines. An analysis and a comparison of all the data harvested in the suspicious clients allows to identify groups of machines connected to the same server, each of the members of the group being identified as part of a botnet. However, the procedure is based on the hypothesis that all suspicious clients in a group access the same server and therefore use the same channel.

Ahora bien, las redes de tipo botnet evolucionan. Así, actualmente se ven aparecer redes de máquinas zombis, que constituyen un botnet, que se organizan en redes “P2P” (de peer-to-peer). Se vuelve difícil entonces identificar un canal utilizado para las máquinas zombis del botnet. Resulta que los métodos precitados son totalmente inadaptados para identificar las máquinas zombis del botnet. Now, botnet networks evolve. Thus, zombie machine networks are currently appearing, which constitute a botnet, which are organized into “P2P” (peer-to-peer) networks. It becomes difficult then to identify a channel used for botnet zombie machines. It turns out that the aforementioned methods are totally misfit to identify the botnet zombie machines.

Uno de los objetos de la invención es remediar insuficiencias del estado de la técnica. La invención responde a esta necesidad proponiendo un procedimiento de caracterización de entidades al principio de al menos una variación detectada en un tráfico de red, dicho procedimiento siendo definido según la reivindicación 1. One of the objects of the invention is to remedy inadequacies of the state of the art. The invention responds to this need by proposing a feature characterization procedure at the beginning of at least one variation detected in a network traffic, said method being defined according to claim 1.

La invención ofrece una técnica que permite identificar el origen de comportamientos en la red que provocan fuertes variaciones en el tráfico de red con respecto a un tráfico, llamado normal, habitualmente observado. The invention offers a technique that identifies the origin of behaviors in the network that cause strong variations in network traffic with respect to a traffic, called normal, usually observed.

El procedimiento según la invención permite analizar los comportamientos de red analizando las entidades IP de los paquetes que constituyen el tráfico. El procedimiento identifica a través de un comportamiento macroscópico visiblemente anormal, una lista de clientes que tienen el mismo comportamiento anormal. Así, los clientes de la lista parece que tienen todos un comportamiento similar, por ejemplo, una fase de despertar en el transcurso de la cual todo se pone aproximadamente al mismo tiempo de emitir el tráfico, y una fase de adormecimiento en el transcurso de la cual todo para aproximadamente simultáneamente de emitir tráfico. The method according to the invention allows analyzing network behaviors by analyzing the IP entities of the packets that constitute the traffic. The procedure identifies through a visibly abnormal macroscopic behavior, a list of clients that have the same abnormal behavior. Thus, the clients on the list seem to all have similar behavior, for example, an awakening phase in the course of which everything is set at approximately the same time as the traffic is emitted, and a numbing phase in the course of the which all stops approximately simultaneously to emit traffic.

Por tanto, cuando se dispone del tráfico global con destino a un servidor particular, es fácil observar un comportamiento macroscópico que se desvía del comportamiento normal, por tanto es difícil identificar el origen de tal comportamiento que se desvía provocado por una pluralidad de máquinas. El procedimiento según la invención remedia este problema caracterizando todas las máquinas correlacionadas a este comportamiento que se desvía, es decir, que tienen un comportamiento similar al comportamiento que se desvía. Therefore, when global traffic to a particular server is available, it is easy to observe macroscopic behavior that deviates from normal behavior, therefore it is difficult to identify the origin of such behavior that is diverted by a plurality of machines. The method according to the invention remedies this problem by characterizing all the machines correlated to this deviant behavior, that is, they have a behavior similar to the deviating behavior.

En una realización de la invención, la etapa de identificación del grupo de entidades comprende: In an embodiment of the invention, the step of identifying the group of entities comprises:

-una etapa de clasificación de la pluralidad de entidades (ck) que contribuye al tráfico de red en un conjunto ordenado, según un orden predefinido de similitud de tráfico (sk), -a stage of classification of the plurality of entities (ck) that contributes to network traffic in an ordered set, according to a predefined order of traffic similarity (sk),

10 10

15 fifteen

20 twenty

25 25

30 30

35 35

40 40

45 Four. Five

50 fifty

55 55

60 60

65 65

E09753148 E09753148

28-08-2014 08-28-2014

-una etapa de selección de x entidades consecutivas en el conjunto ordenado con el fin de formar dicho grupo, el valor de similitud de tráfico (cov(C x→P)) entre el tráfico acumulado atribuible a las entidades restantes (sx+1,…, sp) del conjunto ordenado y el tráfico de red siendo inferior a un umbral predefinido. -a stage of selection of x consecutive entities in the ordered set in order to form said group, the traffic similarity value (cov (C x → P)) between the accumulated traffic attributable to the remaining entities (sx + 1, …, Sp) of the ordered set and the network traffic being less than a predefined threshold.

Observando el tráfico de manera macroscópica, una dificultad es identificar mejor las entidades responsables de las variaciones macroscópicas en el tráfico. Con el fin de identificar un grupo de x clientes sospechosos, se procede a un filtrado del tráfico global observado repitiendo para una pluralidad de clientes una operación de supresión de un tráfico atribuible a un cliente. Con cada iteración, es el tráfico del cliente cuya covarianza con el tráfico global es la más fuerte que se suprime. La operación de supresión de un tráfico de cliente se repite hasta obtener una covarianza entre el tráfico filtrado y el tráfico global inferior a un umbral predefinido. Así, para cada una de las entidades P que contribuyen al tráfico global, se calcula la covarianza del tráfico de la entidad con el tráfico global, las entidades s1,…, sp siendo entonces clasificadas por covarianzas decrecientes. Se define igualmente una covarianza acumulada, cov(Cu→v), con u<v, como siendo la covarianza entre el tráfico generado por los clientes s de índices comprendidos entre u y v, y el tráfico global. El procedimiento identifica después el número x de clientes más implicados en la variación macroscópica del tráfico global identificando el índice x de la entidad a partir de la cual la covarianza acumulada cov(Cx→p)≤0. El tráfico de las entidades de índice x a P no presentando ya correlación con el tráfico global, mientras que las entidades x de índices 1 a x son las que presentan la correlación más fuerte con el tráfico global. Observing the traffic in a macroscopic manner, one difficulty is to better identify the entities responsible for macroscopic variations in traffic. In order to identify a group of x suspicious clients, a filtering of the observed global traffic is carried out by repeating for a plurality of clients a suppression operation of a traffic attributable to a client. With each iteration, it is the customer traffic whose covariance with global traffic is the strongest that is suppressed. The suppression operation of a client traffic is repeated until a covariance is obtained between the filtered traffic and the global traffic below a predefined threshold. Thus, for each of the entities P that contribute to the global traffic, the covariance of the entity's traffic with the global traffic is calculated, the entities s1, ..., sp being then classified by decreasing covariances. It also defines an accumulated covariance, cov (Cu → v), with u <v, as the covariance between the traffic generated by customers s indexes between u and v, and global traffic. The procedure then identifies the number x of customers most involved in the macroscopic variation of the global traffic by identifying the index x of the entity from which the covariance accumulated cov (Cx → p) ≤0. The traffic of the entities of index x to P no longer presenting correlation with the global traffic, while the entities x of indexes 1 to x are those that present the strongest correlation with the global traffic.

En una realización de la invención, la etapa de determinación de un periodo de análisis adecuado comprende: In an embodiment of the invention, the step of determining a suitable analysis period comprises:

-una etapa de selección de una zona de (m) tramos horarios pasados consecutivos, -a stage of selecting an area of (m) consecutive past hourly sections,

-si el número de tramos sospechosos en dicha zona es inferior a una tasa (p) predefinida, mientras que una selección de una nueva zona comprende los tramos horarios pasados (m-1) más recientes, y -if the number of suspicious sections in that zone is lower than a predefined (p) rate, while a selection of a new zone comprises the most recent past (m-1) time sections, and

-si el número de tramos sospechosos en dicha zona es superior o igual a dicha tasa, mientras que el periodo de análisis adecuado es igual a dicha zona. -if the number of suspicious tranches in said zone is greater than or equal to said rate, while the appropriate analysis period is equal to said zone.

De forma ventajosa, el procedimiento permite determinar un periodo de análisis adecuado óptimo. Advantageously, the procedure makes it possible to determine an optimal suitable analysis period.

Con el procedimiento según la invención, la entidad (ck) que contribuye al tráfico global se identifica por medio de un criterio (c), dicho criterio siendo un campo de un paquete IP emitido por dicha entidad que pertenece al grupo que comprende: dirección IP fuente, puerto fuente, petición DNS. With the method according to the invention, the entity (ck) contributing to the global traffic is identified by means of a criterion (c), said criterion being a field of an IP packet issued by said entity belonging to the group comprising: IP address source, source port, DNS request.

Se utilizan varios criterios con el fin de caracterizar variaciones macroscópicas en un tráfico de red. Típicamente, cualquier campo de un paquete IP puede ser utilizado. El procedimiento según la invención retiene no obstante varios campos pertinentes. Así, la dirección IP fuente, utilizada como criterio por el procedimiento según la invención, permite identificar cualquiera de las máquinas al principio de variaciones macroscópicas en el tráfico. En caso de ataque masivo de un servidor cuyo tráfico se observa por una pluralidad de máquinas organizadas en botnet, entonces el procedimiento según la invención permite identificar las máquinas que constituyen esta red de máquinas zombis. Several criteria are used in order to characterize macroscopic variations in a network traffic. Typically, any field of an IP packet can be used. The process according to the invention nonetheless retains several relevant fields. Thus, the source IP address, used as a criterion by the method according to the invention, allows identifying any of the machines at the beginning of macroscopic variations in traffic. In case of a massive attack of a server whose traffic is observed by a plurality of machines organized in botnet, then the procedure according to the invention allows identifying the machines that constitute this network of zombie machines.

Además de la identificación de máquinas al principio de variaciones macroscópicas en la red, el procedimiento se adapta para explicar el origen de las variaciones macroscópicas. Así, un criterio posible corresponde a una cuestión contenida en una petición DNS. Utilizando este criterio, es entonces posible identificar una avería de un servidor asociado a un nombre de dominio específico. En efecto, si las máquinas son registradas junto a este servidor, una avería del servidor va a conllevar un registro de estas máquinas junto al servidor. Para hacerlo, las máquinas precedentemente registradas, van a emitir peticiones DNS junto a los servidores DNS para recuperar la dirección IP del servidor junto al que desean registrase. Estas emisiones simultáneas de peticiones DNS provocan una variación macroscópica visible del tráfico de peticiones DNS. In addition to the identification of machines at the beginning of macroscopic variations in the network, the procedure is adapted to explain the origin of macroscopic variations. Thus, a possible criterion corresponds to an issue contained in a DNS request. Using this criterion, it is then possible to identify a failure of a server associated with a specific domain name. In fact, if the machines are registered with this server, a failure of the server will lead to a registration of these machines with the server. To do so, the previously registered machines will issue DNS requests with the DNS servers to retrieve the IP address of the server next to which they wish to register. These simultaneous emissions of DNS requests cause a visible macroscopic variation of the DNS request traffic.

Otro criterio interesante retenido por el procedimiento según la invención es el puerto fuente. En caso de ataque por denegación de servicio, este campo puede permitir identificar una firma de ataque. En efecto, durante el ataque masivo automatizado, que consiste en enviar un gran número de peticiones hacia un mismo servidor, es raro que todos los campos de los paquetes IP enviados de manera automática sean aleatorios. El puerto fuente forma parte de estos campos a menudo no vueltos aleatorios. Another interesting criterion retained by the method according to the invention is the source port. In the case of a denial of service attack, this field can identify an attack signature. Indeed, during the automated mass attack, which involves sending a large number of requests to the same server, it is rare that all fields of the IP packets sent automatically are random. The source port is part of these often non-random fields.

La invención se refiere también a un dispositivo de caracterización de tráfico adaptado para caracterizar entidades al principio de al menos una variación detectada en un tráfico de red, al menos una variación superior a un valor predeterminado siendo detectada en dicho tráfico, dicho dispositivo estando definido según la reivindicación 5. The invention also relates to a traffic characterization device adapted to characterize entities at the beginning of at least one variation detected in a network traffic, at least one variation greater than a predetermined value being detected in said traffic, said device being defined according to claim 5.

La invención trata igualmente de un programa de ordenador en un soporte de datos y cargable en la memoria interna de un ordenador, comprendiendo el programa porciones de código para la ejecución de las etapas del procedimiento según la invención, cuando el programa es ejecutado en dicho ordenador. The invention also concerns a computer program on a data carrier and loadable in the internal memory of a computer, the program comprising portions of code for the execution of the steps of the process according to the invention, when the program is executed on said computer .

15 fifteen

25 25

35 35

45 Four. Five

55 55

65 65

E09753148 E09753148

28-08-2014 08-28-2014

La invención se refiere también a un soporte de datos en el que se registra el programa de ordenador según la invención. The invention also relates to a data carrier in which the computer program according to the invention is registered.

Otras características y ventajas de la presente invención se comprenderán mejor a partir de la descripción y los dibujos adjuntos entre los que: Other features and advantages of the present invention will be better understood from the description and the accompanying drawings among which:

-la figura 1 representa las etapas del procedimiento de caracterización de entidades al principio de variaciones en un tráfico de red, según un modo particular de realización de la invención; FIG. 1 represents the steps of the entity characterization procedure at the beginning of variations in a network traffic, according to a particular embodiment of the invention;

-la figura 2 representa un ejemplo de realización detallada de las etapas de observación continua del tráfico y de determinación de un periodo de análisis adecuado del procedimiento de caracterización de entidades según la figura 1; - Figure 2 represents an example of a detailed embodiment of the stages of continuous traffic observation and determination of a suitable analysis period of the entity characterization procedure according to Figure 1;

-la figura 3 es un gráfico de tráfico de red observado que presenta variaciones importante, y que puede hacer el objeto de un análisis según el procedimiento de la invención; -Figure 3 is a graph of observed network traffic that shows significant variations, and which can make the object of an analysis according to the method of the invention;

-las figuras 4a, 4b y 4c son gráficos que presentan tráficos de cliente cuya covarianza con el tráfico total es representativa; - Figures 4a, 4b and 4c are graphs that show customer traffic whose covariance with total traffic is representative;

-la figura 5 es un ejemplo de arquitectura que pone en marcha el procedimiento según la invención. -Figure 5 is an example of architecture that starts the process according to the invention.

Las etapas del procedimiento de caracterización de entidades al principio de variaciones significativas con respecto a un tráfico habitualmente observado en un tráfico de red según un ejemplo de realización de la invención van ahora a ser descritas en relación con la figura 1. The steps of the feature characterization procedure at the beginning of significant variations with respect to a traffic usually observed in a network traffic according to an embodiment of the invention will now be described in relation to Figure 1.

En una etapa inicial E10 de observación continua de un tráfico de red global hacia un servidor no representado, se identifica entre N_max tramos horarios de duración T correspondientes a una periodo de observación inicial del tráfico, n_susp tramos horarios de duración T sospechosos durante los que se observan variaciones comportamentales macroscópicas del tráfico global. Un ejemplo de tales variaciones se ilustra por la curva según la figura 3. El tráfico global corresponde al tráfico que entra para este servidor, es decir, el tráfico recibido por este servidor que proviene de una pluralidad de fuentes. In an initial stage E10 of continuous observation of a global network traffic to a server not represented, N_max time sections of duration T corresponding to an initial period of traffic observation are identified, n_susp time sections of suspicious duration T during which they observe macroscopic behavioral variations of global traffic. An example of such variations is illustrated by the curve according to Figure 3. The overall traffic corresponds to the traffic entering for this server, that is, the traffic received by this server that comes from a plurality of sources.

En este ejemplo de realización descrito aquí, la identificación de n_susp tramos horarios sospechosos consiste en identificar una fuerte variación de tráfico entre dos tramos horarios sucesivos Ti-1 y Ti de duración T, que pasa un valor predefinido. La variación corresponde tanto a un aumento de tráfico como a una disminución. En este caso, los tramos horarios Ti-1 y Ti se etiquetan como sospechosos. In this example of embodiment described here, the identification of n_susp suspicious time segments consists in identifying a strong variation of traffic between two successive time sections Ti-1 and Ti of duration T, which passes a predefined value. The variation corresponds to both an increase in traffic and a decrease. In this case, the Ti-1 and Ti time segments are labeled as suspects.

Al final de la etapa 10, y seguido de la identificación de n_susp tramos horarios sospechosos entre N_max tramos horarios de observación inicial del tráfico global con destino al servidor, conviene efectuar un análisis preciso del tráfico para analizar los orígenes de las variaciones macroscópicas observadas en el tráfico global. At the end of stage 10, and followed by the identification of n_susp suspicious time sections between N_max initial observation time frames of the global traffic to the server, it is convenient to carry out an accurate traffic analysis to analyze the origins of the macroscopic variations observed in the global traffic

En una etapa E11 de determinación de un periodo de análisis adecuado, se determina un periodo de análisis adecuado y el tráfico correspondiente a este periodo. El periodo de análisis adecuado es en general más pequeño que el periodo de observación inicial y más rico en informaciones relativamente a las variaciones de tráfico, para permitir un análisis preciso de la variación macroscópica de tráfico. Con este fin, el periodo de análisis adecuado es evaluado como que es un número m de tramos horarios sucesivos de duración T entre los N_max de observación inicial que comprende al menos una tasa p de tramos sospechosos. La tasa p utilizada permite especificar un peso más importante en los tramos sospechosos. Habitualmente, la tasa p de tramos sospechosos está comprendida entre 30% y 70%. Por ejemplo, una tasa de 50% permite obtener un periodo de análisis adecuado que comprende al menos el 50% de tramos horarios sospechosos. In an E11 step of determining an appropriate analysis period, an appropriate analysis period and the traffic corresponding to this period are determined. The appropriate analysis period is generally smaller than the initial observation period and richer in information relative to traffic variations, to allow an accurate analysis of macroscopic traffic variation. To this end, the appropriate analysis period is evaluated as being a number m of successive time sections of duration T between the initial observation N_max comprising at least one p rate of suspicious sections. The p-rate used allows to specify a more important weight in the suspicious sections. Usually, the p rate of suspicious tranches is between 30% and 70%. For example, a 50% rate allows obtaining an adequate analysis period that comprises at least 50% of suspicious time zones.

Una variante de realización de las etapas E10 de observación continúa, y E11 de determinación de un periodo de análisis adecuado será descrita más tarde en relación con la figura 2. A variant embodiment of the observation steps E10 continues, and E11 for determining a suitable analysis period will be described later in relation to Figure 2.

Una vez determinado el periodo de análisis adecuado, se procede, en una etapa E12 de recorte, a un recorte del tráfico global observado durante el periodo de análisis adecuando en n tramos horarios de análisis de duración t. La duración t es diferente de la duración T de los tramos horarios de observación inicial y en general más pequeña que T con el fin de disponer de un gran número de informaciones. Más el número n de tramos horarios de análisis t es importante, además habrá informaciones por tramo t de tiempo, no obstante más pesado será el análisis. Por ejemplo, se puede recortar el periodo de análisis adecuado en 100 tramos horarios de análisis. Once the appropriate analysis period has been determined, a cut of the global traffic observed during the analysis period is carried out in an E12 cut-off stage, adapting in n hours of analysis of duration t. The duration t is different from the duration T of the initial observation time zones and generally smaller than T in order to have a large number of information. The more the number n of time sections of analysis t is important, in addition there will be information per section t of time, however heavier the analysis will be. For example, the appropriate analysis period can be cut by 100 time periods of analysis.

En una etapa E13 de elección de criterio, se selecciona un criterio c para efectuar el análisis con el fin de explicar la variación detectada en el tráfico de red. El criterio c es un campo entre los campos de un paquete IP del tráfico de red. En el ejemplo de realización descrito aquí, el criterio c de análisis es la dirección IP fuente de los paquetes observados en el tráfico global. El valor ck del criterio representa la dirección IP del cliente k, utilizado como dirección IP fuente en los paquetes emitidos por el cliente k. El cliente k puede así ser identificado por el valor ck del criterio c. In a step E13 of criterion choice, a criterion c is selected to perform the analysis in order to explain the variation detected in the network traffic. Criterion c is a field between the fields of an IP packet of network traffic. In the embodiment described here, the analysis criterion c is the source IP address of the packets observed in the global traffic. The ck value of the criterion represents the IP address of the client k, used as the source IP address in the packets issued by the client k. The customer k can thus be identified by the value ck of the criterion c.

15 fifteen

25 25

35 35

45 Four. Five

E09753148 E09753148

28-08-2014 08-28-2014

Otros ejemplos de criterios se presentan más tarde. Other examples of criteria are presented later.

Se señala que la etapa E13 de selección de un criterio es independiente de las etapas precedentes E11 y E12 y puede ser realizada previamente a la etapa E12, o a la etapa E11. It is noted that step E13 of selection of a criterion is independent of the preceding stages E11 and E12 and can be performed prior to stage E12, or to stage E11.

En una etapa E14 de identificación de clientes sospechosos, se identifica un conjunto de x clientes sospechosos implicados en la variación detectada en el tráfico entre P clientes que participan en el tráfico global cuyo comportamiento está fuertemente correlacionado con el comportamiento macroscópico observado. In a step E14 of identification of suspicious clients, a set of x suspicious clients involved in the variation detected in traffic between P clients participating in the global traffic whose behavior is strongly correlated with the macroscopic behavior observed is identified.

Con este fin, en una subetapa E14-1 de evaluación de una similitud de tráfico entre un tráfico atribuible a una entidad y el tráfico de red, se calcula para cada cliente k que participa en el tráfico global, 1≤k≤P, e identificado por un valor ck del criterio c, una covarianza cov(ck) según la fórmula siguiente: To this end, in a sub-stage E14-1 of evaluation of a traffic similarity between a traffic attributable to an entity and the network traffic, it is calculated for each client k that participates in the global traffic, 1≤k≤P, and identified by a ck value of criterion c, a covariance cov (ck) according to the following formula:

imagen1image 1

donde rck.i representa el número de paquetes que responde al criterio ck y observados en el tráfico global durante el tramo horario i de duración t.rck.i es por lo tanto el número de paquetes de dirección IP fuente ck observados en el tráfico global durante el tramo horario de análisis i. where rck.i represents the number of packets that meet the ck criteria and observed in the global traffic during the time zone i of duration t.rck.i is therefore the number of source IP address packets ck observed in the global traffic during the analysis schedule section i.

imagen2representa la media del número de paquetes que responden al criterio ck durante el periodo de análisis adecuado constituido por n tramos horarios de análisis, y se calcula como sigue: image2 It represents the average of the number of packages that respond to the ck criterion during the appropriate analysis period constituted by n hours of analysis, and is calculated as follows:

imagen3image3

Ri representa el volumen de tráfico, en términos de número de paquetes, todos los clientes confundidos durante el tramo horario de análisis i de duración t, y se calcula como sigue: Ri represents the volume of traffic, in terms of the number of packets, all the clients confused during the hourly analysis section and of duration t, and it is calculated as follows:

imagen4image4

R0 representa la media del tráfico global durante el periodo de análisis adecuado y se calcula como sigue: R0 represents the average global traffic during the appropriate analysis period and is calculated as follows:

imagen5image5

Por definición, la covarianza permite evaluar el sentido de variación de dos variables y, de ese modo, calificar la independencia de estas variables. En este caso particular, la covarianza cov(ck) calculada para el cliente k permite evaluar la dependencia entre el tráfico resultante del cliente k y el tráfico global. Representa por lo tanto una similitud de tráfico entre una parte del tráfico, atribuible al cliente k, y el tráfico de red. Cuanto más positiva y elevada es la covarianza calculada para el cliente k, más similares son las variaciones observadas en el tráfico resultante del cliente k a las observadas en el tráfico global. By definition, covariance allows the evaluation of the sense of variation of two variables and, thus, qualifies the independence of these variables. In this particular case, the covariance cov (ck) calculated for the client k allows to evaluate the dependence between the resulting traffic of the client k and the global traffic. It therefore represents a traffic similarity between a portion of the traffic, attributable to the client k, and the network traffic. The more positive and high the covariance calculated for the client k, the more similar are the variations observed in the traffic resulting from the client k to those observed in the global traffic.

Más precisamente, la covarianza cov(ck) asociada a un cliente k es tan grande como los intervalos entre los comportamientos instantáneos del cliente k con respecto a su medio comportamental, y el volumen total de tráfico con respecto a su media en el periodo de análisis son frecuentemente en el mismo sentido. More precisely, the covariance cov (ck) associated with a client k is as large as the intervals between the instantaneous behaviors of the client k with respect to its behavioral environment, and the total volume of traffic with respect to its average in the analysis period They are frequently in the same direction.

Se suministran ejemplos de tráficos de cliente cuya covarianza con el tráfico total es representativa en relación con las figuras 4a, 4b y 4c. Examples of customer traffic are provided whose covariance with total traffic is representative in relation to Figures 4a, 4b and 4c.

En una subetapa E14-2 de identificación de un grupo de x clientes sospechosos, se procede a un filtrado del tráfico global observado repitiendo para una pluralidad de clientes una operación de supresión de un tráfico atribuible a un cliente. Con cada iteración, es el tráfico del cliente cuya covarianza con el tráfico global es la más fuerte que se suprime. La operación de supresión de un tráfico de cliente se repite hasta obtener una covarianza entre el tráfico In a sub-stage E14-2 of identification of a group of x suspicious clients, a filtering of the global traffic observed is carried out by repeating for a plurality of clients a suppression operation of a traffic attributable to a client. With each iteration, it is the customer traffic whose covariance with global traffic is the strongest that is suppressed. The suppression operation of a client traffic is repeated until a covariance is obtained between the traffic

E09753148 E09753148

28-08-2014 08-28-2014

filtrado y el tráfico global inferior a un umbral predefinido. En este ejemplo de realización de la invención, el umbral predefinido se fija en 0. La operación de supresión por lo tanto se repite hasta anular la covarianza. Se identifican así x clientes implicados en estas supresiones sucesivas. Estos clientes se identifican como los x clientes sospechosos entre los P clientes que participan en el tráfico global observado. El principio de la subetapa E14-2 es por lo tanto Filtering and global traffic below a predefined threshold. In this exemplary embodiment of the invention, the predefined threshold is set to 0. The suppression operation is therefore repeated until the covariance is canceled. Thus, x clients involved in these successive deletions are identified. These clients are identified as the x suspicious clients among the P clients that participate in the observed global traffic. The principle of the E14-2 sub-stage is therefore

5 suprimir en el tráfico global el tráfico de los x clientes más sospechosos hasta obtener un tráfico filtrado exento de variaciones visibles, siendo un problema distinguir los x clientes sospechosos de estos que no lo son en un tráfico global. 5 suppress the traffic of the x most suspicious clients in the global traffic until obtaining a filtered traffic free of visible variations, being a problem to distinguish the x suspicious clients from these that are not in a global traffic.

Con este fin, se define un conjunto ordenado, señalado C1→P de clientes de índices respectivos que van de 1 a P. En To this end, an ordered set is defined, designated C1 → P of customers of respective indices ranging from 1 to P.

10 este ejemplo de realización, el conjunto de clientes se ordena según un orden decreciente de covarianza, cada cliente siendo identificado por su valor de criterio c, es decir, en este caso particular por su dirección IP. Se señala este conjunto C1→P={s1, s2,…, sp), s1 representando el cliente que genera un tráfico de cliente que tiene la covarianza más fuerte con el tráfico global, y s P el cliente generando un tráfico de cliente que tiene la covarianza más baja con el tráfico global. Se señala que para cualquier cliente de índice j, representado por el elemento sj, con 1≤j≤P, existe 10 this example of realization, the set of clients is ordered according to a decreasing order of covariance, each client being identified by its criterion value c, that is, in this particular case by its IP address. This set is indicated C1 → P = {s1, s2,…, sp), s1 representing the client that generates a client traffic that has the strongest covariance with the global traffic, and s P the client generating a client traffic that has the lowest covariance with global traffic. It is noted that for any client of index j, represented by the element sj, with 1≤j≤P, there is

15 un valor ci del criterio c, que corresponde aquí a la dirección IP de este cliente de índice j, con 1≤i≤P, tal como sj=ci. 15 a value ci of criterion c, which corresponds here to the IP address of this index client j, with 1≤i≤P, such as sj = ci.

Se define una covarianza acumulada, cov(Cu→v), con u<v, como que es la covarianza entre el tráfico generado por los clientes de índices comprendidos entre u y v, y el tráfico global. Más precisamente, An accumulated covariance, cov (Cu → v), is defined with u <v, as is the covariance between the traffic generated by the clients of indexes between u and v, and the global traffic. More precisely,

imagen6image6

Se señala que cov(C 1→p) representa la covarianza del tráfico global con él mismo. It is noted that cov (C 1 → p) represents the covariance of global traffic with itself.

El objetivo es por lo tanto determinar el número x de clientes más implicados en la variación detectada en el tráfico 25 global y por lo tanto el número x de clientes, tal como: The objective is therefore to determine the number x of customers most involved in the variation detected in global traffic and therefore the number x of customers, such as:

imagen7image7

Los clientes x, señalados s1 a sx, son los que generan un tráfico acumulado que presenta la correlación más fuerte 30 con el tráfico global. Clients x, designated s1 to sx, are those that generate accumulated traffic that has the strongest correlation 30 with global traffic.

En otro ejemplo de realización de la invención, la identificación de los n-susp tramos horarios sospechosos efectuada en la etapa inicial E10 de observación del tráfico consiste en comparar el tráfico global observado en un tráfico medio, evaluado consecutivamente con un aprendizaje previo en un periodo de tiempo determinado. En In another example of embodiment of the invention, the identification of the suspicious n-susp tranches carried out in the initial stage E10 of traffic observation consists in comparing the global traffic observed in an average traffic, evaluated consecutively with a previous learning in a period of determined time. In

35 general, el periodo de tiempo de aprendizaje corresponde a varios días consecutivos, que permiten así observar variaciones habituales en ciertos momentos del día, o ciertos días de la semana. Desviaciones del tráfico global observado superiores a un valor predeterminado con respecto al tráfico medio permiten etiquetar tramos horarios como sospechosos. In general, the period of learning time corresponds to several consecutive days, which allow us to observe habitual variations at certain times of the day, or certain days of the week. Deviations from the observed global traffic above a predetermined value with respect to the average traffic allow to label time segments as suspicious.

40 En otro ejemplo de realización de la invención, otro criterio que la dirección IP es retenido para efectuar el análisis con el fin de explicar la variación macroscópica de tráfico. Así, en la etapa E13 de selección de un criterio, un criterio seleccionado es el campo que corresponde a la petición DNS emitida (de Domain Name Service), por ejemplo www.monsite.com. En este ejemplo, el análisis permite descubrir que una avería de uno o varios servidores específicos está al principio de la variación macroscópica de tráfico. En otro ejemplo de realización de la invención, In another embodiment of the invention, another criterion that the IP address is retained for analysis in order to explain the macroscopic variation of traffic. Thus, in step E13 of selecting a criterion, a selected criterion is the field that corresponds to the DNS request issued (from Domain Name Service), for example www.monsite.com. In this example, the analysis allows us to discover that a failure of one or more specific servers is at the beginning of the macroscopic traffic variation. In another embodiment of the invention,

45 el criterio es el puerto fuente del paquete IP. En este ejemplo, el análisis permite identificar un punto común entre los paquetes que participan en la variación macroscópica. Este punto común es un índice que puede ser asimilado a una firma en caso de ataque. Así el procedimiento según la invención va a identificar entidades, identificadas por su dirección IP, su puerto fuente, la petición DNS, según el criterio elegido. The criterion is the source port of the IP packet. In this example, the analysis allows us to identify a common point among the packages that participate in the macroscopic variation. This common point is an index that can be assimilated to a signature in case of attack. Thus, the procedure according to the invention will identify entities, identified by their IP address, their source port, the DNS request, according to the chosen criteria.

50 Una realización alternativa de las etapas E10 de observación continua del tráfico, y E11 de determinación de un periodo de análisis va ahora a ser descrita en relación con la figura 2. An alternative embodiment of the steps E10 of continuous traffic observation, and E11 of determining an analysis period will now be described in relation to Figure 2.

En una etapa inicial E10-1 de vigilancia, se observa durante un tramo unitario corriente de duración T, el tráfico con destino a un servidor 56 según la figura 5. In an initial monitoring stage E10-1, the traffic destined to a server 56 according to Figure 5 is observed during a single unit section of duration T.

55 En una etapa E10-2 de detección, se detecta una fuerte variación del tráfico entre el tramo unitario corriente de duración T y el tramo unitario precedente. La variación corresponde ya sea a un aumento brutal, ya sea una In a detection step E10-2, a strong variation in traffic is detected between the current unit segment of duration T and the preceding unit section. The variation corresponds to either a brutal increase, either a

15 fifteen

25 25

35 35

45 Four. Five

55 55

65 65

E09753148 E09753148

28-08-2014 08-28-2014

disminución brutal del tráfico con destino al servidor. brutal decrease in traffic to the server.

En una etapa E11-1 de determinación de una ventana inicial de análisis, se determina una ventana inicial de estudio del tráfico observado que comprende el tramo unitario corriente así como los N_max-1 tramos horarios de duración T precedentes. El tráfico global observado durante la ventana inicial de estudio es suministrado por el colector 58 de tráfico según la figura 5. La ventana inicial de estudio, de duración N_Max tramos horarios de duración T representa por ejemplo el tráfico observado durante una duración de 24 horas. In an E11-1 step of determining an initial analysis window, an initial window of study of the observed traffic is determined which comprises the current unit segment as well as the N_max-1 hourly sections of preceding duration T. The overall traffic observed during the initial study window is provided by the traffic manifold 58 according to Figure 5. The initial study window, of duration N_Max time sections of duration T represents for example the traffic observed for a duration of 24 hours.

En una etapa E11-2 de parametrización de la ventana de análisis, se tiene en cuenta un factor de ponderación p que precisa una tasa mínima de tramos sospechosos que desean encontrar en la ventana de análisis. Por ejemplo, se desea una tasa de 50% de tramos sospechosos. Después se evalúa el número de tramos sospechosos de tráfico observado durante la ventana inicial de estudio de duración N_max tramos horarios. In a step E11-2 of parameterization of the analysis window, a weighting factor p is taken into account that requires a minimum rate of suspicious sections that you wish to find in the analysis window. For example, a 50% rate of suspicious tranches is desired. Then the number of suspicious sections of traffic observed during the initial study window of duration N_max hourly sections is evaluated.

En una etapa E11-3 de ajuste del tamaño de la ventaja, mientras que la tasa de tramos sospechosos en la ventana de análisis corriente es inferior a la tasa deseada correspondiente al factor de ponderación p, entonces el tamaño de la ventana de análisis corriente es decrementado de 1 en términos de número de tramos horarios, el tramo horario más antiguo siendo el tramo que es quitado antes de reejecutar la etapa E11-3 de ajuste al tamaño de la ventana. In an E11-3 step of adjusting the size of the advantage, while the rate of suspicious tranches in the current analysis window is lower than the desired rate corresponding to the weighting factor p, then the size of the current analysis window is decremented of 1 in terms of number of hourly sections, the oldest hourly section being the section that is removed before re-executing step E11-3 of adjustment to the size of the window.

En una etapa E11-4 final, la ventana de análisis adecuada se determina; corresponde a la ventana corriente de análisis obtenido después de tantas ejecuciones de la etapa E11-3 de ajuste como sea necesario. Se constituyen m tramos horarios pasados y comprende una tasa de al menos p tramos sospechosos de duración T. In a final step E11-4, the appropriate analysis window is determined; corresponds to the current analysis window obtained after as many executions of the adjustment step E11-3 as necessary. Past time sections are constituted and comprise a rate of at least suspicious tranches of duration T.

De forma ventajosa, la determinación de la ventana de análisis adecuado permite ajustar mejor el tráfico a analizar. Así, la ventana de análisis adecuado puede comprender varias variaciones macroscópicas de tráfico sucesivas que hacen aparecer, en un primer tiempo una variación positiva del tráfico observado, después en un segundo tiempo una variación negativa del tráfico. La variación positiva indica un aumento masivo de tráfico, que puede ser asociado a un envío masivo de peticiones desde un conjunto de máquinas, y la variación negativa una disminución masiva, signo de un paro simultáneo de los envíos de peticiones. Tal observación es reveladora de un ataque, y el periodo de análisis adecuado comprende al menos la variación positiva y la variación negativa del tráfico. En otro caso de figura en el que variaciones puntuales y regulares, por ejemplo diarias, se observan, un periodo de análisis adecuado de varios días, incluso una semana se adapta. Advantageously, the determination of the appropriate analysis window allows to better adjust the traffic to be analyzed. Thus, the appropriate analysis window may comprise several macroscopic successive traffic variations that make a positive variation of the observed traffic appear at first, then a negative traffic variation at a second time. The positive variation indicates a massive increase in traffic, which can be associated with a massive sending of requests from a set of machines, and the negative variation a massive decrease, sign of a simultaneous stop of the sending of requests. Such observation is revealing of an attack, and the appropriate analysis period comprises at least the positive variation and the negative variation of the traffic. In another case of a figure in which specific and regular variations, for example daily, are observed, an adequate analysis period of several days, even one week is adapted.

La figura 3 es una capa que ilustra un tráfico observado con destino a un servidor no representado. En la curva según la figura 3, se observa que entre las 20.50 h y las 21.00 h, el tráfico observado ha caído brutalmente. Igualmente, ha crecido brutalmente un poco antes de las 21.20 h, hasta las 21.40 h. Figure 3 is a layer illustrating an observed traffic destined for a server not represented. In the curve according to figure 3, it is observed that between 20.50 and 21.00, the observed traffic has fallen brutally. Likewise, it has grown brutally a little before 9:20 p.m., until 9:40 p.m.

Van ahora a ser descritos ejemplos que ilustran tráficos de contribuidores cuya covarianza con el tráfico total es representativa en relación con las figuras 4a, 4b y 4c. Examples that illustrate traffic from taxpayers whose covariance with total traffic is representative in relation to Figures 4a, 4b and 4c will now be described.

La figura 4a es una curva que representa el tráfico total con destino a un servidor no representado para la que ya se ha procedido a un recorte según un periodo de análisis adecuado. El periodo de análisis ha sido recortado aquí en 400 tramos. Se señalan variaciones macroscópicas importantes del tráfico en los tramos comprendidos entre 150 y 200, y entre 240 y 300. Figure 4a is a curve representing the total traffic destined for a server not represented for which a cut has already been made according to an appropriate analysis period. The analysis period has been cut here in 400 sections. Significant macroscopic traffic variations are indicated in sections between 150 and 200, and between 240 and 300.

La figura 4b es una curva que representa el tráfico de un cliente cuya covarianza con el tráfico total es fuerte. La covarianza calculada para este cliente es positiva. Se señala una similitud del comportamiento del cliente con el tráfico global: el cliente cesa de emitir paquetes en un tramo próximo a 150, y reemite de nuevo paquetes en un tramo próximo a 250. Figure 4b is a curve that represents the traffic of a customer whose covariance with total traffic is strong. The covariance calculated for this client is positive. A similarity of the client's behavior with the global traffic is signaled: the client ceases to issue packets in a section close to 150, and reissues packets again in a section close to 250.

En definitiva, la figura 4c es una curva que representa el tráfico de un cliente cuya covarianza con el tráfico es débil. La covarianza calculada para este cliente es negativa. Se señala un comportamiento completamente diferente en relación al tráfico global: el cliente emite en continuo paquetes entre los tramos 100 y 350. In short, Figure 4c is a curve that represents the traffic of a customer whose covariance with the traffic is weak. The covariance calculated for this client is negative. A completely different behavior is pointed out in relation to global traffic: the client continuously issues packets between sections 100 and 350.

Un ejemplo de arquitectura de red en el que se implanta un servidor capaz de poner en marcha el procedimiento según la invención va ahora a ser descrito en relación con la figura 5. An example of a network architecture in which a server capable of implementing the method according to the invention is now going to be described in relation to Figure 5.

En una red 50, por ejemplo, la red de Internet, una pluralidad de clientes 51, 52, 53, 54 de los cuales solo cuatro se representan en la figura 5 emiten un tráfico constituido de paquetes IP hacia un servidor S 56. El tráfico con destino al servidor 56 transita por un equipo 55 de red, por ejemplo, un rúter, próximo geográficamente al servidor 56. El rúter 55 ve transitar el tráfico global con destino al servidor 56. In a network 50, for example, the Internet network, a plurality of clients 51, 52, 53, 54 of which only four are represented in Figure 5 emit a traffic constituted of IP packets towards an S 56 server. Traffic bound for server 56 transits through a network device 55, for example, a router, geographically close to server 56. Router 55 sees global traffic traveling to server 56.

Un detector 57 de anomalías en un tráfico de red se adapta para supervisar todo el tráfico que transita por el rúter 55 por un mecanismo de reflejo (el término corrientemente utilizado es el término inglés mirroring), para transmitir a un colector 58 de tráfico la totalidad del tráfico supervisado y para detectar una anomalía en el tráfico con destino al servidor 56. La anomalía corresponde a una variación del tráfico en términos de número de paquetes, superior a un valor determinado. El detector 57 de anomalías en un tráfico es además adaptado para informar un dispositivo 59 de An anomaly detector 57 in a network traffic is adapted to monitor all the traffic that passes through the router 55 through a mirroring mechanism (the term commonly used is the English term mirroring), to transmit to a traffic manifold 58 the totality of the monitored traffic and to detect an anomaly in the traffic destined to the server 56. The anomaly corresponds to a variation of the traffic in terms of number of packets, superior to a determined value. The detector 57 of anomalies in a traffic is also adapted to inform a device 59 of

E09753148 E09753148

28-08-2014 08-28-2014

caracterización de tráfico según un modo de realización particular de la invención de la detección de una anomalía en el tráfico observado. traffic characterization according to a particular embodiment of the invention of the detection of an anomaly in the observed traffic.

El colector 58 de tráfico se adapta para almacenar en una memoria no representada, uno o varios diarios (el término 5 corrientemente utilizado es el término log) que contiene toda la información pertinente relativamente al tráfico observado, como los paquetes IP que constituyen el tráfico, sellos temporales de dichos paquetes. The traffic manifold 58 is adapted to store in a memory not shown, one or more journals (the term 5 currently used is the term log) that contains all the information pertinent to the observed traffic, such as the IP packets that constitute the traffic, Temporary stamps of these packages.

En la realización de la invención descrita aquí, el dispositivo 59 de caracterización de tráfico es un servidor informático que comprende módulos clásicos como: In the embodiment of the invention described herein, the traffic characterization device 59 is a computer server comprising classic modules such as:

10 -interfaces de red (no representadas) adaptadas para comunicar con el detector 57 de anomalías en un tráfico, el colector 58 de tráfico; 10-network interfaces (not shown) adapted to communicate with the detector 57 of anomalies in a traffic, the traffic manifold 58;

-una interfaz hombre-máquina (no representada), tal como una consola, adaptada para presentar a un operario 15 humano resultados de una caracterización de entidades al principio de variaciones macroscópicas en una red, según la invención; -a man-machine interface (not shown), such as a console, adapted to present to a human operator 15 results of a characterization of entities at the beginning of macroscopic variations in a network, according to the invention;

-un microprocesador (no representado), o CPU que es una unidad de tratamiento; -a microprocessor (not shown), or CPU that is a processing unit;

20 -una memoria de tratamiento (no representada) adaptada para efectuar cálculos, cargar instrucciones de programas que corresponden a las etapas del procedimiento de caracterización según la invención descrita precedentemente, y para hacerlos ejecutar por el microprocesador. 20 -a treatment memory (not shown) adapted to perform calculations, load program instructions corresponding to the steps of the characterization procedure according to the invention described above, and to be executed by the microprocessor.

Para la puesta en marcha del procedimiento según la invención, el dispositivo 59 de caracterización de tráfico 25 comprende además los módulos siguientes: For the implementation of the method according to the invention, the traffic characterization device 59 further comprises the following modules:

-un módulo 59-1 de determinación de un periodo de análisis adecuado, comprendiendo dicho periodo al menos el tramo horario sospechoso correspondiente a la variación detectada en el tráfico por el detector 57 de anomalías en un tráfico, -a module 59-1 for determining a suitable analysis period, said period comprising at least the suspicious time segment corresponding to the variation detected in traffic by the detector 57 of anomalies in a traffic,

30 -un módulo 59-2 de evaluación, dispuesto para evaluar para cada entidad ck, 1≤k≤P, que contribuye al tráfico de red, una similitud de tráfico entre una parte del tráfico atribuible a dicha entidad y el tráfico global. En el ejemplo de realización descrito aquí el módulo de evaluación evalúa una covarianza cov(ck) entre la parte del tráfico asociado a dicha entidad y el tráfico de red durante el periodo de análisis adecuado, y 30 - an evaluation module 59-2, arranged to evaluate for each entity ck, 1≤k≤P, which contributes to the network traffic, a traffic similarity between a part of the traffic attributable to said entity and the global traffic. In the exemplary embodiment described here, the evaluation module evaluates a covariance cov (ck) between the part of the traffic associated with said entity and the network traffic during the appropriate analysis period, and

35 -un módulo 59-3 de identificación, adaptado para identificar entre la pluralidad de entidades que contribuyen al tráfico de red, un grupo de entidades responsables de la variación detectada en la red, a partir de los valores de similitud de tráfico evaluados por el módulo 59-2 de evaluación. Con este fin, el módulo 59-3 de identificación está dispuesto para clasificar la pluralidad de entidades (ck) que contribuye al tráfico de red en un conjunto ordenado, 35 -a 59-3 identification module, adapted to identify among the plurality of entities that contribute to network traffic, a group of entities responsible for the variation detected in the network, based on the traffic similarity values evaluated by the evaluation module 59-2. To this end, the identification module 59-3 is arranged to classify the plurality of entities (ck) that contributes to the network traffic in an ordered set,

40 según un orden predefinido de similitud de tráfico (sk), y para seleccionar x entidades consecutivas en el conjunto ordenado con el fin de formar dicho grupo, el valor de similitud de tráfico (cov(Cx→P)) entre el tráfico acumulado atribuible a las entidades restantes (sx+1,…, sP) del conjunto ordenado y el tráfico de red siendo inferior a un umbral predefinido. En este ejemplo de realización de la invención, el umbral predefinido está fijado en 0. 40 according to a predefined order of traffic similarity (sk), and to select x consecutive entities in the ordered set in order to form said group, the traffic similarity value (cov (Cx → P)) between the attributable accumulated traffic to the remaining entities (sx + 1,…, sP) of the ordered set and the network traffic being less than a predefined threshold. In this embodiment of the invention, the predefined threshold is set to 0.

45 Los módulos descritos precedentemente se unen al microprocesador a través de un bus de comunicación. The modules described above are connected to the microprocessor through a communication bus.

Los módulos 59-1, 59-2 y 59-3 están dispuestos para poner en macha las etapas del procedimiento de caracterización según la invención descrita precedentemente. Se trata preferentemente de módulos de programas que comprenden instrucciones de programas para hacer ejecutar las etapas del procedimiento de evaluación según The modules 59-1, 59-2 and 59-3 are arranged to set the steps of the characterization process according to the invention described above. These are preferably program modules comprising program instructions for executing the stages of the evaluation procedure according to

50 la invención. 50 the invention.

La invención se refiere por lo tanto también a: The invention therefore also relates to:

-un programa de ordenador que comprende instrucciones para la puesta en marcha del procedimiento de 55 caracterización de entidades al principio de variaciones macroscópicas en el tráfico tal como el descrito precedentemente, mientras este programa es ejecutado por un procesador; - a computer program comprising instructions for the implementation of the method of characterization of entities at the beginning of macroscopic variations in traffic such as that described above, while this program is executed by a processor;

-un soporte de registro legible por un lector en el que se registra el programa de ordenador descrito anteriormente. -a registration support readable by a reader in which the computer program described above is registered.

60 Los módulos de programas pueden ser almacenados, o transmitidos por un soporte de datos. Este puede ser un soporte material de almacenaje, por ejemplo un CD-ROM, un disquete magnético o un disco duro, o bien un soporte de transmisión tal como una señal, o una red de telecomunicaciones. 60 Program modules can be stored, or transmitted by a data carrier. This may be a material storage medium, for example a CD-ROM, a magnetic floppy disk or a hard disk, or a transmission medium such as a signal, or a telecommunications network.

Claims (5)

5 5 15 fifteen 25 25 35 35 45 Four. Five 55 55 65 65 E09753148 E09753148 28-08-2014 08-28-2014 REIVINDICACIONES 1.-Procedimiento de caracterización de entidades al principio de al menos una variación detectada en un tráfico de red, comprendiendo el procedimiento: 1.-Entity characterization procedure at the beginning of at least one variation detected in a network traffic, the procedure comprising: -una etapa (E11) de determinación de un periodo de análisis adecuado que comprende al menos un tramo horario sospechoso, conteniendo el tramo horario sospechoso la variación detectada en el tráfico, -a stage (E11) for determining an appropriate analysis period comprising at least one suspicious time segment, the suspicious time segment containing the variation detected in traffic, -una etapa (E14-1) de evaluación, para una entidad (ck) que contribuye al tráfico de red, de un valor representativo de una similitud de tráfico entre una parte del tráfico atribuible a dicha entidad y el tráfico de red durante el periodo de análisis adecuado, siendo realizada dicha etapa de evaluación para una pluralidad de entidades que contribuyen al tráfico de red, y -a stage (E14-1) of evaluation, for an entity (ck) that contributes to the network traffic, of a representative value of a traffic similarity between a part of the traffic attributable to said entity and the network traffic during the period of adequate analysis, said evaluation stage being performed for a plurality of entities contributing to the network traffic, and -una etapa (E14-2) de identificación, entre la pluralidad de entidades que contribuyen al tráfico de red, de un grupo de entidades responsables de la variación de tráfico, a partir de los valores de similitud de tráfico evaluados; -a step (E14-2) of identification, among the plurality of entities contributing to network traffic, of a group of entities responsible for traffic variation, based on the traffic similarity values evaluated; estando caracterizado dicho procedimiento porque dicha etapa de identificación comprende: said procedure being characterized in that said identification step comprises: -una operación de supresión del tráfico atribuible a la entidad cuya similitud de tráfico con el tráfico de red es más fuerte, repitiéndose la operación de supresión hasta que la similitud de tráfico entre el tráfico filtrado y el tráfico global sea inferior a un umbral predefinido, comprendiendo el grupo de entidades las entidades cuyo tráfico ha sido filtrado. - a traffic suppression operation attributable to the entity whose traffic similarity with the network traffic is stronger, the deletion operation being repeated until the traffic similarity between the filtered traffic and the global traffic is less than a predefined threshold, the group of entities comprising the entities whose traffic has been filtered. 2.-Procedimiento según la reivindicación 1, en el que la etapa (E14-2) de identificación del grupo de entidades comprende: 2. Method according to claim 1, wherein the step (E14-2) of identification of the group of entities comprises: -una etapa de clasificación de la pluralidad de entidades (ck) que contribuyen al tráfico de red en un conjunto ordenado, según un orden predefinido de similitud de tráfico (sk), -a stage of classification of the plurality of entities (ck) that contribute to network traffic in an ordered set, according to a predefined order of traffic similarity (sk), -una etapa de selección de x entidades consecutivas en el conjunto ordenado con el fin de formar dicho grupo, siendo inferior a un umbral predefinido el valor de similitud de tráfico (cov(C x→P)) entre el tráfico acumulado atribuible a las entidades restantes (sx+1,…, sp) del conjunto ordenado y el tráfico de red. -a stage of selection of x consecutive entities in the ordered set in order to form said group, the traffic similarity value (cov (C x → P)) being less than a predefined threshold among the accumulated traffic attributable to the entities Remaining (sx + 1,…, sp) of the ordered set and network traffic. 3.-Procedimiento según la reivindicación 1, en el que la etapa de determinación de un periodo de análisis adecuado comprende: 3. Method according to claim 1, wherein the step of determining a suitable analysis period comprises: -una etapa de selección de una zona de (m) tramos horarios pasados consecutivos, -a stage of selecting an area of (m) consecutive past hourly sections, -si el número de tramos sospechosos en dicha zona es inferior a una tasa (p) predefinida, entonces una selección de una nueva zona que comprende los tramos horarios pasados (m-1) más recientes, y -if the number of suspicious sections in that zone is lower than a predefined (p) rate, then a selection of a new zone comprising the most recent past (m-1) time sections, and -si el número de tramos sospechosos en dicha zona es superior o igual a dicha tasa, entonces el periodo de análisis adecuado es igual a dicha zona. -if the number of suspicious tranches in said zone is greater than or equal to said rate, then the appropriate analysis period is equal to said zone. 4.-Procedimiento según la reivindicación 1, en el que la entidad (ck) que contribuye al tráfico global se identifica por medio de un criterio, siendo dicho criterio un campo de un paquete IP emitido por dicha entidad que pertenece al grupo que comprende: dirección IP fuente, puerto fuente, petición DNS. 4. Method according to claim 1, wherein the entity (ck) contributing to the global traffic is identified by means of a criterion, said criterion being a field of an IP packet issued by said entity belonging to the group comprising: Source IP address, source port, DNS request. 5.-Dispositivo (59) de caracterización de tráfico adaptado para caracterizar entidades al principio de al menos una variación detectada en un tráfico de red, siendo detectada en dicho tráfico al menos una variación superior a un valor predeterminado, comprendiendo dicho dispositivo: 5.-Traffic characterization device (59) adapted to characterize entities at the beginning of at least one variation detected in a network traffic, at least one variation greater than a predetermined value being detected in said traffic, said device comprising: -un módulo (59-1) de determinación de un periodo de análisis, dispuesto para determinar un periodo de análisis adecuado que comprende al menos un tramo horario sospechoso, conteniendo el tramo horario sospechoso la variación detectada en el tráfico, -a module (59-1) for determining an analysis period, arranged to determine an appropriate analysis period comprising at least one suspicious time segment, the suspicious time segment containing the variation detected in traffic, -un módulo (59-2) de evaluación, dispuesto para evaluar, para cada entidad (ck) que contribuye al tráfico de red, un valor representativo de una similitud de tráfico entre una parte del tráfico atribuible a dicha entidad y el tráfico de red durante el periodo de análisis adecuado, estando dispuesto dicho módulo igualmente para realizar la evaluación para una pluralidad de entidades que contribuyen al tráfico de red, y - an evaluation module (59-2), arranged to evaluate, for each entity (ck) that contributes to the network traffic, a representative value of a traffic similarity between a part of the traffic attributable to said entity and the network traffic during the appropriate analysis period, said module being also arranged to perform the evaluation for a plurality of entities contributing to the network traffic, and -un módulo (59-3) de identificación, dispuesto para identificar entre la pluralidad de entidades que contribuyen al tráfico de red un grupo de entidades responsables de la variación de tráfico, a partir de los valores de similitud de tráfico evaluados por el módulo de evaluación; - an identification module (59-3), arranged to identify among the plurality of entities that contribute to network traffic a group of entities responsible for traffic variation, based on traffic similarity values evaluated by the module evaluation; estando caracterizado dicho dispositivo porque dicho módulo de identificación comprende unos medios de supresión said device being characterized in that said identification module comprises suppression means 9 9 E09753148 E09753148 28-08-2014 08-28-2014 de tráfico, dispuestos para suprimir el tráfico atribuible a la entidad cuya similitud de tráfico con el tráfico de red es más fuerte, repitiéndose la operación de supresión hasta que la similitud de tráfico entre el tráfico filtrado y el tráfico global sea inferior a un umbral predefinido, comprendiendo el grupo de entidades las entidades cuyo tráfico ha sido filtrado. of traffic, arranged to suppress the traffic attributable to the entity whose traffic similarity with the network traffic is stronger, the deletion operation being repeated until the traffic similarity between the filtered traffic and the global traffic is less than a predefined threshold , comprising the group of entities the entities whose traffic has been filtered. 5 6.-Programa de ordenador en un soporte de datos y cargable en la memoria interna de un ordenador, comprendiendo el programa porciones de código para la ejecución de las etapas del procedimiento según una de las reivindicaciones 1 a 4, cuando el programa es ejecutado en dicho ordenador. 6. Computer program in a data carrier and loadable in the internal memory of a computer, the program comprising portions of code for the execution of the steps of the process according to one of claims 1 to 4, when the program is executed on that computer. 10 7.-Soporte de datos en el que está registrado el programa de ordenador según la reivindicación 6. 10 7. Data support in which the computer program according to claim 6 is registered. 10 10
ES09753148.7T 2008-09-30 2009-09-28 Entity characterization procedure at the beginning of variations in a network traffic Active ES2496982T3 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0856580 2008-09-30
FR0856580 2008-09-30
PCT/FR2009/051831 WO2010037955A1 (en) 2008-09-30 2009-09-28 Method for characterising entities at the origin of fluctuations in a network traffic

Publications (1)

Publication Number Publication Date
ES2496982T3 true ES2496982T3 (en) 2014-09-22

Family

ID=40801884

Family Applications (1)

Application Number Title Priority Date Filing Date
ES09753148.7T Active ES2496982T3 (en) 2008-09-30 2009-09-28 Entity characterization procedure at the beginning of variations in a network traffic

Country Status (4)

Country Link
EP (1) EP2353272B1 (en)
ES (1) ES2496982T3 (en)
PL (1) PL2353272T3 (en)
WO (1) WO2010037955A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741862B (en) * 2010-01-22 2012-07-18 西安交通大学 System and method for detecting IRC bot network based on data packet sequence characteristics
US8799456B2 (en) * 2011-03-23 2014-08-05 Spidercrunch Limited Fast device classification
CN102130920A (en) * 2011-04-19 2011-07-20 成都梯度科技有限公司 Botnet discovery method and system thereof
CN112261004B (en) * 2020-09-27 2022-05-27 新华三信息安全技术有限公司 Method and device for detecting Domain Flux data stream

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020032793A1 (en) * 2000-09-08 2002-03-14 The Regents Of The University Of Michigan Method and system for reconstructing a path taken by undesirable network traffic through a computer network from a source of the traffic
US8479057B2 (en) * 2002-11-04 2013-07-02 Riverbed Technology, Inc. Aggregator for connection based anomaly detection

Also Published As

Publication number Publication date
EP2353272A1 (en) 2011-08-10
PL2353272T3 (en) 2014-11-28
EP2353272B1 (en) 2014-06-04
WO2010037955A1 (en) 2010-04-08

Similar Documents

Publication Publication Date Title
US9934379B2 (en) Methods, systems, and computer readable media for detecting a compromised computing host
CN104361283B (en) The method for protecting Web attacks
US10320812B2 (en) Methods and systems for full pattern matching in hardware
ES2496982T3 (en) Entity characterization procedure at the beginning of variations in a network traffic
Yeganeh et al. Cute: Traffic classification using terms
US20200195672A1 (en) Analyzing user behavior patterns to detect compromised nodes in an enterprise network
ES2393501A1 (en) Method and system for classifying traffic
US20170024983A1 (en) System and method for tamper detection on distributed utility infrastructure
JP4500921B2 (en) Log analysis apparatus, log analysis method, and log analysis program
Chae et al. An adaptive threshold method for anomaly-based intrusion detection systems
KR101045330B1 (en) Network-based Detection Method of HTTP Botnet
Sadasivam et al. Detection of severe SSH attacks using honeypot servers and machine learning techniques
Maliha A supervised learning approach: Detection of cyber attacks
Kim et al. A slow port scan attack detection mechanism based on fuzzy logic and a stepwise policy
Liu et al. TrustGuard: A flow-level reputation-based DDoS defense system
Yi et al. Source-based filtering scheme against DDOS attacks
Manusankar et al. Intrusion detection system with packet filtering for IP spoofing
KR101045556B1 (en) Network based IRC botnet detection method
CN117278311A (en) A method, device, medium and electronic equipment for detecting network intrusion
Kim et al. Detection of advanced persistent threat by analyzing the big data log
US20110153537A1 (en) Methods, Systems, and Products for Estimating Answers to Questions
Manggalanny et al. Combination of DNS traffic analysis: A design to enhance APT detection
CN120602222B (en) Network traffic APT detection method and device, computer equipment and storage medium
Kinable Detection of network scan attacks using flow data
Rahmat et al. Normal and anomalous traffic flow pattern analysis for organizational networks