ES2937937T3 - Un método para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no - Google Patents

Un método para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no Download PDF

Info

Publication number
ES2937937T3
ES2937937T3 ES17162468T ES17162468T ES2937937T3 ES 2937937 T3 ES2937937 T3 ES 2937937T3 ES 17162468 T ES17162468 T ES 17162468T ES 17162468 T ES17162468 T ES 17162468T ES 2937937 T3 ES2937937 T3 ES 2937937T3
Authority
ES
Spain
Prior art keywords
registration
domain name
malicious
distance
registrant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17162468T
Other languages
English (en)
Inventor
Lieven Desmet
Thomas Vissers
Pieter Agten
Jan Spooren
Wesemael Marc Van
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eurid Vzw
Original Assignee
Eurid Vzw
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eurid Vzw filed Critical Eurid Vzw
Application granted granted Critical
Publication of ES2937937T3 publication Critical patent/ES2937937T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • H04L61/3015Name registration, generation or assignment
    • H04L61/302Administrative registration, e.g. for domain names at internet corporation for assigned names and numbers [ICANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/144Detection or countermeasures against botnets

Abstract

La invención se refiere a métodos para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado a actividades maliciosas o no, métodos para ajustar (entrenar) dichos métodos y el uso de dichos métodos mediante un registro y/o una lista negra. servicios y software relacionados con los mismos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Un método para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no
Campo de la invención
La invención se refiere a métodos para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no, métodos para ajustar (entrenar) dichos métodos y el uso de dichos métodos mediante un registro y/o servicios de lista negra y software relacionados con los mismos.
Esta invención proporciona una solución a la necesidad de detectar y desbaratar los registros de dominios maliciosos incluso antes de que el dominio entre en funcionamiento. La invención proporciona métodos para permitir la participación de las partes preocupadas por el proceso de registro en sí, ya que detener un nombre de dominio en el momento del registro requiere la participación de las mismas, en particular los registros que están involucrados en el proceso de registro de todos los nombres de dominio que administran. Como tales, son capaces de actuar en una etapa temprana. Además, como un registro (grueso) tiene acceso a los datos de registro relevantes de todos sus registros de dominio, entre registradores y registradores, la invención hace uso de dichos datos, más en particular, proporciona un análisis de datos particular para usar en los métodos descritos anteriormente.
Antecedentes de la invención
El Sistema de Nombres de Dominio (DNS) y los nombres de dominio mismos forman una piedra angular clave del funcionamiento de Internet. Prácticamente toda la comunicación en la web requiere la resolución de nombres de dominio a direcciones IP. Las actividades maliciosas no son una excepción, y los atacantes dependen constantemente de nombres de dominio que funcionen para ejecutar sus operaciones abusivas.
En consecuencia, el bloqueo de nombres de dominio controlados por atacantes es una estrategia eficaz para limitar las actividades delictivas. Esto se logra comúnmente a través de la lista negra de dominios. Los nombres de dominio generalmente se colocan en listas negras (DNSBL) cuando se informan actividades abusivas utilizando ese nombre de dominio, como phishing o correo no deseado. En el caso de las listas negras de spam, las entidades receptoras de correo electrónico consultan constantemente estos servicios y luego rechazan los mensajes de correo electrónico cuando se originan en un dominio incluido en la lista negra.
Otros DNSBL, como la Lista de dominios de malware, enumeran los dominios utilizados para la propagación de malware y para los servidores de comando y control de botnets. Los botmasters implementan algoritmos de generación de dominios (DGA) para cambiar con frecuencia a nuevos nombres de dominio de C&C. Esto evita que las eliminaciones de dominios interrumpan efectivamente su funcionamiento. Cuando el DGA de una red de botnets se somete a ingeniería inversa, los futuros dominios de C&C se conocen de antemano y, por lo tanto, pueden incluirse en la lista negra a tiempo. Sin embargo, los atacantes están adoptando algoritmos no deterministas que usan, por ejemplo, los temas de tendencia de Twitter como semilla para su DGA. Esto evita el registro preventivo de dominios C&C o la inclusión en listas negras.
Esencialmente, además de las entradas generadas por DGA, los DNSBL solo detienen dominios maliciosos después de que ya se han producido actividades delictivas. Además, debido al costo limitado de registrar un nombre de dominio, los ciberdelincuentes abandonan y pasan a nuevos dominios a un ritmo muy alto. Además, los atacantes cambian entre muchos registradores y revendedores para ocultar aún más sus acciones. Estas estrategias de golpe y fuga permiten a los atacantes evitar que sus operaciones sean interrumpidas por listas negras.
El documento US 2016/065597 A1 divulga un método para la puntuación de nombres de dominio, que incluye recibir una solicitud para proporcionar una puntuación de reputación para un nombre de dominio, calcular la puntuación de reputación del nombre de dominio encontrando una similitud con uno de los grupos de nombres de dominio en una base de datos. La puntuación de reputación indica la probabilidad de que el nombre de dominio dado sea malicioso. Resumen de la invención
La invención está definida en las reivindicaciones independientes. Otras realizaciones se definen en las reivindicaciones dependientes.
Esta invención proporciona métodos (automatizados) para determinar los registros de dominios maliciosos incluso antes de que el dominio entre en funcionamiento.
La invención proporciona métodos (automatizados) para detener un nombre de dominio en el momento del registro (como parte del proceso de registro) y/o realizar comprobaciones adicionales (por ejemplo, basándose en la información solicitada (automáticamente)).
La invención aprovecha la idea de que las campañas de larga duración son responsables de la gran mayoría de los registros de dominios maliciosos.
Los métodos inventados (automatizados) se basan en los llamados mecanismos de aprendizaje supervisado que pueden predecir registros de dominios maliciosos, en el momento del registro. La invención proporciona ejemplificaciones particulares de tales mecanismos de aprendizaje supervisado, en particular adaptados en base a la visión de campaña de larga duración mencionada anteriormente. Se proporciona un predictor basado en la similitud. En una segunda realización adicional, se proporciona un predictor basado en la reputación. También son posibles combinaciones particulares de estos, más especialmente proporciona cómo las diferentes combinaciones de los dos predictores pueden equilibrar entre falsos positivos y falsos negativos, dependiendo del contexto operativo.
La invención se basa en un estudio profundo del ecosistema de registros de dominios maliciosos que se utiliza para comprender mejor cómo operan los actores maliciosos para apoderarse de un gran corpus de nombres de dominio de corta duración. En realizaciones particulares de la invención, se explota explícitamente que una gran mayoría del abuso de dominio puede atribuirse a un pequeño conjunto de actores maliciosos. Además, los métodos tienen en cuenta la evidencia de que el proceso de registro de dominios maliciosos solo está parcialmente automatizado: los sindicatos trabajan durante el horario de oficina y cometen errores humanos al registrar dominios. Tenga en cuenta que alrededor del 18,41 % de los dominios no están marcados como maliciosos por los servicios de listas negras, mientras que estos dominios pueden estar claramente vinculados a otros dominios maliciosos. O bien no se abusa de todos los dominios registrados con intenciones maliciosas, o los servicios de listas negras no detectan una fracción significativa de la actividad maliciosa.
La información sobre el proceso de registro de dominios maliciosos puede contribuir en gran medida a reducir la cantidad de dominios maliciosos al evitar registros de dominios en primer lugar, o limitar el impacto de la actividad maliciosa al aumentar la cobertura en los servicios de listas negras. En esencia, la invención también proporciona métodos para mejorar los servicios de creación de listas negras de nombres de dominio.
Los métodos inventados se basan en la asociación de dominios a través de los detalles del registrante y demuestran que dicho enfoque mejora significativamente la identificación de dominios registrados con intenciones maliciosas. Esto en los métodos se ha explotado para evitar registros de dominios maliciosos en primer lugar, o para aumentar la cobertura de los servicios de listas negras.
Breve descripción de los dibujos
Con referencia específica ahora a las figuras, se subraya que los detalles mostrados son a modo de ejemplo y con fines de descripción ilustrativa de las diferentes realizaciones de la presente invención únicamente. Se presentan con el fin de proporcionar lo que se cree que es la descripción más útil y sencilla de los principios y aspectos conceptuales de la invención. A este respecto, no se intenta mostrar detalles estructurales de la invención con más detalle del necesario para una comprensión fundamental de la invención. La descripción tomada con los dibujos pone de manifiesto a los expertos en la técnica cómo se pueden realizar en la práctica las diversas formas de la invención.
Figura 1: Diagrama de flujo esquemático de la presente invención
Figura 2: Diagrama de flujo esquemático de la presente invención
Figura 3: Diagrama de flujo esquemático de la presente invención
Figura 4: Diagrama de flujo esquemático de la presente invención
Figura 5: Diagrama de flujo esquemático de la presente invención
Descripción detallada de la invención
El Sistema de Nombres de Dominio es una de las tecnologías más visibles de Internet, y los usuarios confían directamente en los nombres de dominio mientras utilizan los servicios de Internet. Los actores maliciosos intentan constantemente abusar de esta confianza y aprovechan los nombres de dominio para ubicar y reubicar rápidamente sus actividades maliciosas en todo el mundo. En particular, se está produciendo una carrera armamentista continua entre los servicios de listas negras y los atacantes que aplican una estrategia rápida de ataque y fuga (por ejemplo, mediante el uso de una serie de dominios de corta duración).
La invención proporciona soluciones para predecir el comportamiento malicioso de los nombres de dominio (servicios que operan detrás), en el momento en que se registran y, por lo tanto, antes de que se vuelvan operativos/hagan daño.
La invención se basa y valida en datos del mundo real que se recopilaron durante el seguimiento de 14 meses de registros de dominio. Este conjunto de datos consta de 824 121 nuevos registros de dominio; El 2,5 % ha sido marcado como malicioso por los servicios de listas negras. Un análisis retroactivo manual identificó que el 79,64 % de estos registros marcados maliciosamente pueden atribuirse a 20 campañas de larga duración.
La invención proporciona métodos adecuados para que un registro prediga con éxito una gran fracción de registros maliciosos, ya en el momento del registro. En las diversas realizaciones se emplean técnicas de aprendizaje supervisado en línea que se pueden adaptar con respecto a la precisión y la recuperación, dependiendo de las necesidades y costos operativos (por ejemplo, el costo de manejar falsos positivos o falsos negativos).
Mediante el uso de un predictor agresivo, se puede predecir el 74,70 % de los registros maliciosos, a costa de una tasa de falsos positivos del 1,84 %. En otra realización en la que se usa el predictor más conservador, se puede predecir el 56,93 % de los registros maliciosos con una tasa de falsos positivos muy baja del 0,29 %.
En resumen, los predictores inventados ofrecen mejoras claras y complementan los indicadores de abuso existentes, al monitorear o bloquear los nombres de dominio maliciosos antes de que puedan ser utilizados indebidamente para causar daños reales.
Las realizaciones ejemplares se describen ahora con más detalle:
Recuerde que nuestro objetivo es desarrollar técnicas para predecir automáticamente, en el momento del registro, si un nombre de dominio se utilizará con fines maliciosos. Se han identificado y desarrollado dos estrategias complementarias para permitir la clasificación de nuevos registros de nombres de dominio como benignos o maliciosos. La primera estrategia tiene como objetivo agrupar automáticamente los registros anteriores en pseudocampañas centrándose principalmente en las similitudes entre los detalles de los registros maliciosos. Los nombres de dominio maliciosos similares se agrupan en clústeres y, posteriormente, se puede predecir que los nuevos registros se registraron como parte de un clúster malicioso existente. La segunda estrategia se basa en calcular las puntuaciones de reputación de los registros, registradores, proveedores de correo electrónico y servidores de nombres. Estos puntajes forman la entrada a un clasificador binario que aprende a asociar reputaciones con malicia. Teniendo en cuenta el hecho de que estas dos estrategias se centran en criterios diferentes, se pueden combinar los resultados de estos modelos complementarios para mejorar el rendimiento de nuestras predicciones. Ambos enfoques están diseñados para operar como estudiantes en línea, entrenando y generando nuevos modelos de predicción diariamente. Esto asegura la adaptación continua a las estrategias cambiantes de los atacantes inteligentes, contribuyendo a un sistema de detección robusto.
Agrupación
Como discutimos antes, informamos que el 79,64 de los registros maliciosos son parte de campañas más grandes y de mayor duración. Los patrones y características observados durante este análisis post facto revelan oportunidades para el descubrimiento automatizado y temprano de campañas. Proponemos un diseño que utiliza el aprendizaje automático para agrupar registros maliciosos de forma totalmente autónoma en pseudocampañas. No intentamos recrear exactamente las campañas identificadas, sino que aprovechamos las similitudes percibidas que comparten estos registros maliciosos para formar grupos. Estos clústeres luego se usan para predecir si las nuevas instancias están asociadas con actividad maliciosa en curso.
El sistema propuesto opera diariamente en tres fases. Se recopilan todos los registros de la ventana de tiempo de capacitación anterior a la fecha de prueba actual. (A) Primero, todos los registros benignos del conjunto de entrenamiento se filtran mediante las listas negras. Como resultado, solo los registros que se sabe que son maliciosos en la fecha de predicción forman la entrada del algoritmo de agrupación. (B) En este algoritmo de agrupamiento, los registros maliciosos similares se agruparán con el objetivo de representar pseudocampañas. El objetivo es obtener un pequeño conjunto de grupos densos de registros maliciosos asociados durante un período de tiempo determinado. La predicción real se realiza durante la última fase: (C) la métrica de distancia que utiliza el algoritmo de agrupación se aplica para evaluar la similitud de los nuevos registros con todos los grupos maliciosos establecidos previamente. Cuando la distancia es menor que un determinado umbral, se prevé que el nuevo registro se haya registrado como parte del grupo correspondiente.
Para agrupar los registros en la lista negra en grupos, debemos poder evaluar la similitud entre dos instancias. En esa medida, utilizamos una métrica que expresa la distancia entre dos registros, con un enfoque en la evaluación de asociaciones de campaña. Una vez que esta métrica de distancia está en su lugar, podemos calcular la matriz de distancia de un conjunto de registros maliciosos que sirve como entrada para un algoritmo de agrupación. Cuando revisamos las características utilizadas para caracterizar las campañas, encontramos que los patrones más distintivos están presentes en los datos de contacto del registrante. Presuntamente, estos artefactos son causados por herramientas de registro automatizadas utilizadas por actores maliciosos. Por ejemplo, si un registrador impone reglas de formato específicas para un campo de dirección, pueden surgir patrones y valores repetidos mientras la herramienta intenta adherirse a la política del registrador. Inspirándonos en esta idea, incluimos las distancias entre diferentes campos de los datos de contacto del registrante (por ejemplo, dirección, número de teléfono, etc.) como componentes de nuestra métrica de distancia. Naturalmente, estas son características de cadenas que no se pueden comparar mediante una función geométrica, ni es deseable compararlas de forma binaria, ya que cadenas ligeramente diferentes pueden compartir subcadenas o patrones similares. Por lo tanto, hacemos uso de la distancia de edición de Levenshtein para evaluar su similitud. Esta distancia entre dos cadenas se define como el número mínimo de ajustes de un solo carácter (inserciones, eliminaciones o sustituciones) que se necesitan para transformar una cadena en la otra. La función de distancia conserva así una noción de similitud parcial y caracteres comunes en ambas cadenas. Dado que algunos registros contienen cadenas más largas que otras, normalizamos cada distancia por pares a la cadena más larga para permitir una comparación adecuada de las diferentes distancias. Una desventaja de la distancia de Levenshtein es que es computacionalmente costosa. Sin embargo, si muchos registros contienen los mismos valores de cadena, el rendimiento puede mejorarse significativamente mediante técnicas de almacenamiento en caché.
Aparte de las diferencias de cadena en los datos de contacto, también incluimos características categóricas. En nuestra métrica de distancia, las usamos para representar la distancia entre proveedores de correo electrónico, registradores, servidores de nombres y su ubicación geográfica. Las características categóricas se caracterizan por un conjunto limitado de valores posibles.
Para estas características definimos la distancia de forma binaria, 0 cuando la característica categórica de dos registros tiene el mismo valor y 1 cuando es diferente. En algunos escenarios más complejos, donde se utilizan matrices de valores (por ejemplo, servidores de nombres), establecemos la distancia en 0 si un mínimo de un valor coincide con al menos otro valor de la matriz del otro registro. Alternativamente, calculamos la distancia como la fracción de valores que se comparte entre las dos instancias.
Las dos últimas características, la longitud del nombre de dominio y la puntuación de aleatoriedad, son numéricas. Aquí, calculamos la distancia euclidiana entre los valores de los diferentes registros. Para tener en cuenta las diferencias en el rango y las variaciones, ambas características numéricas se estandarizan primero en todo el conjunto de datos de registros maliciosos antes de calcular su distancia.
Calculamos la distancia total entre dos registros tomando la suma ponderada de la distancia por pares de cada entidad. Además, cada par de valores de características requiere un cálculo específico de acuerdo con los objetos de datos subyacentes, como se describe anteriormente. Además, damos un peso a ciertas características para influir en su importancia en la suma agregada. Los pesos han sido elegidos en base a una evaluación durante la fase de validación.
Una vez que hemos establecido la métrica de distancia entre registros, calculamos la distancia por pares entre todos los registros maliciosos. A partir de todas las distancias de registro por pares, construimos una matriz de distancia, que sirve como entrada para el algoritmo de agrupación.
Dado que usamos una métrica de distancia personalizada, la agrupación en clústeres aglomerativa es una opción adecuada dada su capacidad para trabajar con cualquier distancia por pares. El agrupamiento aglomerativo pertenece a la familia de algoritmos de agrupamiento jerárquico y funciona mediante la fusión iterativa de dos clústeres que son los más cercanos entre sí. Para fusionar los clústeres más similares, el algoritmo debe poder determinar la distancia entre los clústeres. Para ello, adoptamos el criterio de vinculación completa. Usando este criterio, la distancia entre dos clústeres es igual a la de las instancias más disímiles de ambos clústeres, promoviendo una alta similitud intra-clúster.
La salida del algoritmo de agrupamiento aglomerativo no se puede utilizar sin procesamiento adicional. De forma predeterminada, el algoritmo continuará fusionando clústeres de forma iterativa hasta que solo quede un clúster grande que abarque todos los registros maliciosos. Por lo tanto, un punto crucial de la fase de agrupación es determinar un criterio de parada adecuado. Como no sabemos la cantidad de pseudocampañas activas en este momento, no podemos configurar el proceso de fusión para que se detenga en una cantidad predefinida de clústeres. Por lo tanto, establecemos un umbral de distancia en donde se debe evitar una mayor fusión para evitar contaminar los clústeres con instancias no relacionadas. Nos referimos a este límite de distancia como la Distancia máxima de fusión (MMD). Un MMD apropiado se determina a través de la evaluación de la homogeneidad del conglomerado mediante el uso del conjunto de datos y el análisis empírico del conjunto de validación.
Una vez que hemos establecido los grupos maliciosos de la ventana de tiempo pasado, podemos predecir si los nuevos registros entrantes forman parte de ellos. En esa medida, usamos la misma métrica de distancia y criterio de vinculación de agrupamiento que se aplicó en el algoritmo de agrupamiento. Se mide la distancia entre el nuevo registro y cada grupo. El nuevo registro puede considerarse como un nuevo clúster con una única instancia. Por lo tanto, si el registro está más cerca de un clúster existente que el MMD, se predice como parte de ese clúster y se clasifica como malicioso.
Durante la predicción, podemos limitar la comparación de nuevos registros a los grupos más importantes. Esto promueve el enfoque en las pseudocampañas más grandes y podría tener un impacto positivo en las predicciones de falsos positivos. Configuramos esto a través de un parámetro que especifica el porcentaje de registros maliciosos que deben cubrir los clústeres más grandes.
Dado que los registros procesan miles de nuevos registros todos los días, un sistema que tiene como objetivo enviar una advertencia en el momento del registro debería poder producir un resultado muy rápidamente. Dado que medir la distancia entre un nuevo registro y un grupo implica costosos cálculos por pares con cada instancia en ese grupo, esto se convierte rápidamente en una operación de larga duración. Para mejorar la eficiencia, aprovechamos las características de enlace completo para evitar cálculos redundantes. Más específicamente, la distancia desde un nuevo registro a un clúster viene dada por la mayor distancia entre ese registro y cualquiera de las instancias del clúster. Además, el umbral de distancia que determina si un registro es parte de ese clúster o no, está predefinido. Esto permite dejar de determinar la distancia entre un nuevo registro y un clúster, tan pronto como encontremos una instancia de ese clúster que esté más lejos del nuevo registro que el umbral. En ese punto, estamos seguros de que la distancia a ese grupo es al menos mayor que el umbral y el algoritmo puede continuar con el próximo grupo. Reputación
Anteriormente, se propuso y desarrolló un enfoque basado en la similitud para predecir la malicia de los registros de dominio. Intuitivamente, este enfoque coincide con el concepto de registros de dominios maliciosos que se registran como parte de campañas. Esta técnica de agrupación utiliza únicamente datos de entrenamiento maliciosos. La integración de otra técnica de clasificación que también incorpore datos de entrenamiento benignos puede aportar conocimientos adicionales al sistema de predicción general. Por lo tanto, la combinación de ambos enfoques puede aumentar aún más el rendimiento de la predicción en una configuración de aprendizaje en conjunto.
Para la predicción basada en la reputación, se eligió un conjunto de atributos de entrada, comparable al utilizado por la predicción basada en la similitud. Sin embargo, se eliminaron los atributos de cadena no categóricos, como la dirección del registrante. En su lugar, se agregaron 'puntuaciones de reputación' para el registrante, el registrador, el proveedor de correo electrónico y los servidores de nombres configurados para un nombre de dominio registrado. Los puntajes de reputación se calcularon en 4 períodos diferentes: 14 días, 30 días, 60 días y desde el inicio del monitoreo de las listas negras, lo que resultó en 16 atributos de clasificación nuevos (aunque derivados). Los puntajes de reputación se calculan como el porcentaje de registros vinculados a un registrante, registrador, proveedor de correo electrónico o servidor de nombres en particular, que fueron etiquetados como maliciosos en los datos de la verdad del terreno. Para garantizar que durante la clasificación solo se utilice el conocimiento disponible en el momento del registro, estos puntajes de reputación se calculan diariamente.
En un primer ejemplo, el algoritmo usa los datos de entrenamiento para construir iterativamente una lista ordenada de reglas si-entonces como modelo de predicción construyendo árboles de decisión parciales en cada iteración y usando la "mejor" hoja del árbol como una nueva regla. El modelo resultante es una lista ordenada de reglas, que combina desigualdades con atributos de registro por medio de múltiples cláusulas AND.
En un segundo ejemplo, el algoritmo genera iterativamente desigualdades simples no combinadas, conocidas como "tocones de decisión" y utiliza el error de predicción resultante para crear mejores tocones de decisión posteriores. El resultado es una lista ponderada de 10 tocones por modelo, prediciendo el registro del dominio.
Ambos clasificadores tienen la ventaja adicional de producir modelos que son legibles e interpretables por humanos.

Claims (9)

  1. REIVINDICACIONES
    i. Un método para determinar automáticamente en el momento del registro si es probable que un nuevo registro de nombre de dominio esté destinado para usarse en actividades maliciosas o no, que comprende los pasos de:
    llevar a cabo un método para la determinación automática de los parámetros de un método automatizado para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no, y esto únicamente en base a la información del registrante, más preferiblemente la información de contacto del registrante, de registros de nombres de dominio maliciosos, dicho método que comprende, para la determinación automática de los parámetros: (i) cargar para una pluralidad de registros de nombres de dominio maliciosos, la información del registrante correspondiente, más preferiblemente la información de contacto del registrante; (ii) determinar (200) mediante aprendizaje automático los parámetros (40) de dicho método automatizado para determinar con alta probabilidad si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no; y posteriormente realizar los pasos de:
    (i) cargar la información del registrante, más preferiblemente la información de contacto del registrante, de dicho nuevo registro de nombre de dominio; (ii) verificar (100), mediante el uso de dicho método automatizado, en base a dichos parámetros, estando dicha verificación aprendida por la máquina basada únicamente en dicha información del registrante de dicho nuevo registro de nombre de dominio, la similitud de dicho registro de nombre de dominio con dicha pluralidad de registros maliciosos de nombres de dominio, (iii) indicar (20) en base a ello que es probable que dicho registro de nombre de dominio esté destinado para usarse en actividades maliciosas.
  2. 2. El método de la reivindicación 1, en donde la determinación de los parámetros a través del aprendizaje automático comprende calcular (1700) una métrica de distancia (1900) entre registros, dicha métrica de distancia, en particular dicha métrica de distancia que es una suma de componentes relacionados con la distancia en los diversos campos de información de contacto del registrante.
  3. 3. El método de la reivindicación 1 o 2, en donde la verificación comprende calcular (2000) una métrica de distancia entre dicho nuevo registro de nombre de dominio y un conjunto preagrupado de la pluralidad de registros de nombres de dominio maliciosos, en particular siendo dicha métrica de distancia una suma de componentes relacionados con la distancia en los diversos campos de información de contacto del registrante; y dicha indicación se basa en la comparación (2100) de dicha distancia con un umbral introducido.
  4. 4. El método de la reivindicación 1, en donde el aprendizaje automático descubre campañas de registro de larga duración.
  5. 5. El método de la reivindicación 4, en donde el aprendizaje automático se basa en un método de agrupación, diseñado para agrupar campañas de registro de larga duración.
  6. 6. El método de la reivindicación 5, en donde el agrupamiento comprende calcular (1700) una métrica de distancia (1900) entre registros, dicha métrica de distancia, en particular dicha métrica de distancia que es una suma de componentes relacionados con la distancia en los diversos campos de información de contacto del registrante.
  7. 7. El método de la reivindicación 3 en combinación con la reivindicación 5, que comprende (i) ingresar un primer parámetro de umbral (1500) y (ii) agrupar (1800) dichos registros de nombres de dominio cargados hasta que se alcance dicho umbral para así usar un umbral de distancia en donde se detiene la fusión de agrupaciones en el método de agrupamiento.
  8. 8. Un método para registrar un nombre de dominio por un registrador y/o registro o mejorar los servicios de listas negras de nombres de dominio, que comprende: el uso del método de cualquiera de las reivindicaciones 1 a 7 en combinación con un segundo método para determinar automáticamente en el momento del registro si es probable que un nuevo registro de nombre de dominio esté destinado para usarse en actividades maliciosas o no, dicho segundo método comprende los pasos de:
    (i) cargar para una pluralidad de registros de nombres de dominio maliciosos y benignos conocidos la correspondiente información de registro de dominio (70) e información relacionada con su uso malicioso y benigno (80);
    (ii) determinar (3000) puntajes de reputación (110) a partir de la información de registro de dominio correspondiente (70) e información relacionada con su uso malicioso y benigno (80), (iii) determinar (3100), en base a la información de registro de dominio correspondiente (70), e información relacionada con su uso malicioso y benigno (80) y puntajes de reputación (110), a través del aprendizaje automático de los parámetros (90) de un segundo método automatizado para determinar con alta probabilidad si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no, y luego realizar los pasos de:
    (i) usar dicho segundo método automatizado para determinar una puntuación de reputación de dicho nuevo registro de nombre de dominio e
    (ii) indicar (60) con base en ello que es probable que dicho nuevo registro de nombre de dominio esté destinado para usarse en actividades maliciosas o, si se determina con ello que la probabilidad de uso para actividades maliciosas es baja, el registro automático (500) de dicho nombre de dominio por parte del registrador y/o registro, o, si se determina que la probabilidad de uso para actividades maliciosas es alta, proporcionar automáticamente (700) dicho nombre de dominio a dichos servicios de listas negras.
  9. 9. El método de la reivindicación 8, en donde dicha indicación se basa en un clasificador.
    10 El método de la reivindicación 8 o 9, en donde el método (1000) de las reivindicaciones 1 a 3 se usa antes de dicho segundo método para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no.
ES17162468T 2016-12-09 2017-03-23 Un método para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no Active ES2937937T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP16203152 2016-12-09

Publications (1)

Publication Number Publication Date
ES2937937T3 true ES2937937T3 (es) 2023-04-03

Family

ID=57544259

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17162468T Active ES2937937T3 (es) 2016-12-09 2017-03-23 Un método para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no

Country Status (3)

Country Link
EP (1) EP3334128B1 (es)
ES (1) ES2937937T3 (es)
PL (1) PL3334128T3 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180227321A1 (en) * 2017-02-05 2018-08-09 International Business Machines Corporation Reputation score for newly observed domain
CN112468444B (zh) * 2020-10-29 2023-05-16 中国互联网络信息中心 互联网域名滥用识别方法和装置,电子设备,存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799465B2 (en) * 2004-10-13 2014-08-05 International Business Machines Corporation Fake web addresses and hyperlinks
US8407791B2 (en) * 2009-06-12 2013-03-26 QinetiQ North America, Inc. Integrated cyber network security system and method
US10742591B2 (en) * 2011-07-06 2020-08-11 Akamai Technologies Inc. System for domain reputation scoring
US8949982B2 (en) * 2011-12-30 2015-02-03 Verisign, Inc. Method for administering a top-level domain
US10185761B2 (en) * 2015-08-07 2019-01-22 Cisco Technology, Inc. Domain classification based on domain name system (DNS) traffic

Also Published As

Publication number Publication date
PL3334128T3 (pl) 2023-03-27
EP3334128B1 (en) 2022-11-09
EP3334128A1 (en) 2018-06-13

Similar Documents

Publication Publication Date Title
US20200349430A1 (en) System and method for predicting domain reputation
Chen et al. Practical attacks against graph-based clustering
Liang et al. A survey on security attacks and solutions in the IoT network
Kumar et al. P2tif: A blockchain and deep learning framework for privacy-preserved threat intelligence in industrial iot
Einy et al. The anomaly-and signature-based IDS for network security using hybrid inference systems
US20200252427A1 (en) System for query injection detection using abstract syntax trees
Zhang et al. A survey on latest botnet attack and defense
US20210352095A1 (en) Cybersecurity resilience by integrating adversary and defender actions, deep learning, and graph thinking
Celik et al. Detection of Fast-Flux Networks using various DNS feature sets
ES2937937T3 (es) Un método para determinar automáticamente en el momento del registro si es probable que el registro de un nombre de dominio esté destinado para usarse en actividades maliciosas o no
Zang et al. Identifying fast-flux botnet with AGD names at the upper DNS hierarchy
CN110313161A (zh) 对数据库上的放大攻击的基于ipfix的检测
Haddadi et al. Malicious automatically generated domain name detection using stateful-SBB
Kamel et al. Distributed denial of service attacks detection for software defined networks based on evolutionary decision tree model
US10242318B2 (en) System and method for hierarchical and chained internet security analysis
Kordestani et al. An entice resistant automatic phishing detection
Najafi et al. Guilt-by-association: detecting malicious entities via graph mining
Vishvakarma et al. Detection of algorithmically generated domain names in botnets
Noor et al. A Machine Learning based Empirical Evaluation of Cyber Threat Actors High Level Attack Patterns over Low level Attack Patterns in Attributing Attacks
Choraś et al. Emerging cyber security: Bio-inspired techniques and MITM detection in IoT
Agyepong et al. Detection of Algorithmically Generated Malicious Domain Using Frequency Analysis
Sharma Feed Forward MLP SPAM domain Detection Using Authoritative DNS Records and Email Log
Bu Assessing the Effectiveness of Malicious Domain Prediction Using Machine Learning
Arslan Neorealist Analysis of Security Dilemma in Cyberspace; A Quantitative Study
Nordby Security Incident detection with passive DNS logs