ES2258143T3 - Procedimiento y sistema para combatir robots e invasores. - Google Patents

Procedimiento y sistema para combatir robots e invasores.

Info

Publication number
ES2258143T3
ES2258143T3 ES02729426T ES02729426T ES2258143T3 ES 2258143 T3 ES2258143 T3 ES 2258143T3 ES 02729426 T ES02729426 T ES 02729426T ES 02729426 T ES02729426 T ES 02729426T ES 2258143 T3 ES2258143 T3 ES 2258143T3
Authority
ES
Spain
Prior art keywords
access
site
user
robot
obstacles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02729426T
Other languages
English (en)
Inventor
Konrad Simeon c/o Searchspace Corp. FELDMAN
Jason c/o Searchspace Limited KINGDON
Michael c/o Searchspace Corp. RECCE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nice Systems Technologies UK Ltd
Original Assignee
Nice Systems Technologies UK Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nice Systems Technologies UK Ltd filed Critical Nice Systems Technologies UK Ltd
Application granted granted Critical
Publication of ES2258143T3 publication Critical patent/ES2258143T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Catching Or Destruction (AREA)
  • Burglar Alarm Systems (AREA)
  • Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
  • Alarm Systems (AREA)
  • Toys (AREA)

Abstract

Un procedimiento para combatir accesos no deseados de robots o invasores a un sitio en la red, que comprende las etapas de: supervisar (202, 304) accesos realizados al sitio en la red con objeto de facilitar la detección del acceso del robot o invasor; y caracterizado por la etapa adicional de: tras la detección (204, 308) de que el acceso del robot o invasor se está efectuando, desplegar (206, 312, 314) uno o más obstáculos a dicho acceso, en el que el obstáculo u obstáculos son formas de cambio dinámico de disposición de la página dentro de un sitio en la red.

Description

Procedimiento y sistema para combatir robots e invasores.
La presente invención se refiere a un procedimiento y sistema para la prevención del uso de invasores en sitios de la red ("web") y similares. Más específicamente, la presente invención se refiere a un procedimiento y sistema para combatir el uso en dichos sitios en la red y similares de robots y otras entidades invasoras de la red, incluyendo seres humanos actuando de forma similar a los robots de la red.
Un robot de la red es una entidad que ha sido diseñada para llevar a cabo una tarea específica en Internet sin la necesidad de interacción humana con el mismo. En la presente memoria se presentan dos ejemplos contrastados para mayor claridad.
Un primer robot de la red podrá ser utilizado por un motor de búsqueda en Internet para progresar a través de páginas en Internet (a esto se denomina normalmente como reptar en la red) siguiendo los enlaces que encuentra con objeto de suministrar un recurso útil a los usuarios del motor de búsqueda. En otras palabras este robot de la red sigue enlaces a través de páginas sucesivas, de forma periódica, por ejemplo una vez a la semana, con objeto de acomodar actualizaciones en sitios de la red y suministrar información al motor de búsqueda con objeto de que pueda actualizar sus enlaces, suministrando de dicha forma un recurso actualizado.
Un segundo tipo de robot de la red, que en algunas circunstancias podrá ser considerado como anatema, es una entidad que está configurada para llevar a cabo un conjunto de instrucciones continuamente. Por ejemplo, muchos sitios en la red operan esquemas o puntos de recompensa, donde los puntos son asignados, por ejemplo, tras el registro y subsecuentemente por llevar a cabo diversas acciones. Un robot de la red podrá ser utilizado para llevar a cabo dichas acciones, consiguiendo de dicha forma la asignación de puntos sin el valor añadido al proveedor de puntos por haber sido visitado su sitio por el usuario humano pretendido.
En el momento actual existe un número creciente de personas/usuarios accediendo a recursos en línea. De forma similar, existe un número creciente de sistemas automatizados (robots) que acceden a los recursos. Además de los dos factores mencionados se sabe que muchos sitios o recursos en Internet se basan en los ingresos por los anuncios para cubrir sus costes y, como se ha mencionado anteriormente, los esquemas de lealtad y de acumulación de puntos se están utilizando en la actualidad como un incentivo para atraer usuarios a sitios dados. Por lo tanto, los robots de la red del segundo tipo descrito anteriormente, e incluso los del primer tipo, podrán ser considerados como un problema, dado que podrán utilizar recursos sin suministrar un rendimiento al proveedor de recursos, es decir sin que, por ejemplo, un usuario humano haya visto el anuncio ofrecido.
Los recursos en línea podrán ser fácilmente reempaquetados y reutilizados. Un ejemplo de dicha aparición es un motor de metabúsqueda. Motores de búsqueda, como por ejemplo Alta Vista (Marca Registrada), All the Web (Marca Registrada) y Google (Marca Registrada) suministran un medio eficaz para realizar búsquedas en Internet a través de preguntas de texto introducidas por el usuario. Dichos sitios están siendo utilizados como motores de metabúsqueda, como por ejemplo los motores que pueden encontrarse en www.metacrawler.com, www.all4one.com y www. mamma.com, que realizan múltiples preguntas usando diferentes motores simultáneamente. Los sitios en la red están también sometidos a análisis automatizados y a preguntas de robots de la red que realizan la obtención de datos y otras tareas automatizadas, como por ejemplo el disparo de Common Gateway Interface (CGI) o programas de servidores sitios, la navegación de contenidos o la entrada de información en retorno de alguna forma de valor equivalente, como se ha mencionado previamente.
Los sitios comerciales podrán desear prevenir los robots o el uso de páginas por motores de metabúsqueda. Aunque existe un estándar de exclusión de robots en la red, su código es voluntario y los robots podrán elegir ignorarlo. El estándar o protocolo de exclusión de robots es un esquema mediante el cual un administrador de un sitio en la red es habilitado para indicar a los robots que visita su sitio las partes del sitio a las que no deben acceder. Cuando un robot accede a un sitio, su intención es mirar primero al establecimiento de los ficheros que establecen este protocolo o estándar. Sin embargo, los motores de metabúsqueda, por ejemplo, y otros robots ignorarán este procedimiento. Así, en la actualidad no existe una manera eficaz de evitar la actividad de robots o de invasores no deseados en un sitio en la red.
Esto tiene más importancia cuando se consideran los anuncios en los sitios de la red como un medio para generación de ingresos. Existe la necesidad de garantizar que los visitantes de sitios son usuarios legítimos y, por lo tanto, existe la necesidad de diferenciar entre tipos de usuarios del sistema. Esto permitirá que los anunciantes puedan estar seguros de que la diseminación de sus anuncios es para usuarios legítimos y permitirá que el material que está siendo anunciado sea dirigido selectivamente a usuarios apropiados. El mal uso del servicio por robots o invasores podrá conducir a la denegación de dicho servicio a usuarios legítimos del sistema, lo que conduce a costes directos no deseados a un negocio (es decir, el negocio que dirige el sitio en la red) y costes indirectos asociados con la pérdida de ingresos o la congestión de los recursos del sistema.
"Como mantener alejados malignos robots, arañas y reptadores", http://web.archive.org/web/*/http://www.fileiner.
com/bots, desvela una forma de capturar robots perniciosos y excluirlos de hacer cualquier acceso adicional al bloquear las direcciones IP de los ordenadores detectados del robot''.
En vista de lo anterior, los inventores han encontrado que existe la necesidad de una forma efectiva y eficaz de combatir la actividad no deseada de robots o invasores en un sitio en la red.
Con lo anterior en mente se suministra un procedimiento para combatir la actividad no deseada de robots en un sitio en la red según se reivindica en la reivindicación 1.
La presente invención suministra las ventajas que evitan el mal uso de los recursos del sistema. El uso de una página de la red por una organización externa no autorizada, reempaquetar los recursos y el uso meta es evitado eficazmente. Adicionalmente, la invención sirve como un preventivo para la acumulación deshonesta de puntos en un esquema de lealtad u otro esquema similar que ofrezca y incentivos para usuarios que visitan un recurso de Internet. Otra ventaja es la validación de números de acceso de usuarios legítimos. Esto permite a un sitio suministrar información concreta a anunciantes potenciales como el ámbito de diseminación potencial de anuncios. Finalmente, la presente invención sirve como un preventivo del fraude. Actuará para prevenir que personas poco escrupulosas establezcan sitios en la red con anuncios asociados y obtenga ingresos de ello y posteriormente establezcan un robot para aumentar desmesuradamente el acceso al mismo, suministrando de dicha forma un incremento de los ingresos generados.
En una forma de realización preferente de la presente invención, la etapa de detectar dicho acceso incluye identificar inicialmente un posible robot o un acceso similar a un robot a un sitio en la red y llevar a cabo una o más comprobaciones con objeto de determinar el status de una entidad que realiza el acceso.
Preferentemente, una diferenciación entre las características de conducta de los diferentes usuarios se utiliza para facilitar la detección.
Preferentemente, los obstáculos podrán incluir la generación de un aviso o notificación de un acceso abusivo a un sitio. El aviso o notificación generado podrá ser suministrado a uno o más de un sistema de robot sospechoso, a un usuario del mismo, a un operador o al propietario del sitio que experimenta el abuso, una estación de monitorización o un departamento de aplicación de la ley.
En otra forma de realización preferente adicional, la etapa de monitorización se lleva a cabo tanto en tiempo real como fuera de línea. Preferentemente, la etapa de monitorización incluye uno o más de monitorización:
solicitudes de páginas en fallo, fallos asociados con formas u otros accesos al sistema;
direcciones IP que acceden al sitio en la red;
modificación y actualización de galletas ("cookies")
listas de vigilancia; y
detalles del registro de usuarios, perfiles de usuarios, dominios de usuarios o tiempos de acceso de usuarios.
También, según la presente invención se suministra un sistema configurado para combatir actividad de robots no deseados en un sitio en la red, según se reivindica en la reivindicación 10, dada en lo que sigue.
Evidentemente, existirán circunstancias en las que los obstáculos no serán generados o desenrollados. Dicha circunstancia podrá ser la presencia detectada en un sitio en la red de un robot de la red autorizado para estar en dicho sitio, por ejemplo.
Preferentemente, el sistema comprende uno o más obstáculos incorporados a accesos de robots o invasores.
Preferentemente, los obstáculos incorporados en el sistema incluyen al menos uno de entre un esquema de reconstrucción de un sitio en la red regular, cambios para formar campos dentro del sitio en la red y trampas para robots o invasores, incluyendo bucles recursivos. Más preferentemente aún, los obstáculos desarrollados podrán incluir un aviso o notificación generada de abuso del sitio en la red por un invasor o robot. El aviso o notificación generada podrá ser desviada a uno o más de entre un sistema de robot o invasor sospechoso o al usuario o usuarios del mismo. La notificación a una estación de monitorización o a un departamento de hacer cumplir la ley podrá también producirse. Dicha estación o departamento podrá ser por ejemplo un cuerpo público o privado.
En una forma de realización preferente de la presente invención, el sistema de detección monitoriza uno o más de:
solicitud páginas en fallo, fallos asociados con tramas u otros accesos al sistema;
direcciones IP que buscan acceso;
modificación y actualización de galletas ("cookies");
listas de vigilancia; y
detalles del registro de usuarios, perfiles de usuarios, dominios de usuarios o tiempos de acceso de usuarios.
Además, en función de la versión del paginador que está siendo utilizado, por ejemplo, el sistema podrá acceder y/o monitorizar información adicional que está disponible, por el paginador o el sistema que soportar el paginador acerca del usuario del mismo.
En otra forma de realización aún más preferente de la presente invención, el sistema incluye además un almacén de datos en el cual están registrados los detalles o características del monitorizado y/o detectado.
Una forma de realización específica de la presente invención se describirá a continuación, a modo de ejemplo solamente, haciendo referencia a los dibujos adjuntos, en los que:
La figura 1 es una ilustración de una posible implementación del sistema de la presente invención.
La figura 2 es un diagrama de flujo que presenta una vista general del procedimiento de la presente invención.
Y la figura 3 es un diagrama de flujo que establece en detalle el procedimiento según la presente invención.
Con referencia a la figura 1 de los dibujos, el sistema 100 comprende un número de elementos discretos pero interconectables. En primer lugar hay un número de terminales 102 remotos de usuarios y en segundo lugar hay un servidor o módulo 104 del sistema remoto. Cada usuario podrá conectar al servidor con objeto de acceder al recurso o recursos en el mismo. Dicha conexión se realiza por medio de Internet o cualquier otro canal de comunicación, como por ejemplo un intranet interno, y podrá utilizar sistemas de comunicación de conexión fija, móvil o comunicaciones de interfaz aérea o cualquier otro sistema de comunicaciones apropiado.
Como podrá apreciarse, el sistema de la presente invención, en la presente memoria etiquetado como "identificación y combate" 106 reside en el servidor 104, conjuntamente y conectable con el generador y recursos 108 de sitios de la red. Sin embargo, en otra forma de realización, el módulo 106 de "identificación y combate" podrá residir en un servidor que no contiene un generador y recursos del sitio en la red, pero que se puede conectar con un segundo servidor que contiene dicho generador y recursos. El módulo de identificación y combate sirve para regular el acceso de robots o invasores/usuarios de invasores de la red al sitio en la red generado o accedido tras una petición.
La operación del sistema de la figura 1 se describirá ahora haciendo referencia a la figura 2. Como podrá apreciarse, el módulo 106 de identificación y combate opera como sigue. El módulo podrá residir conjuntamente con un sitio en la red al que se busca acceso y, cuando está así dispuesto, monitoriza las peticiones de acceso y los accesos realizados al sitio en la red (recuadro de función 202). Evidentemente, el módulo podrá residir independientemente de un sitio en la red, es decir en cualquier parte en un servidor o en un servidor separado, por ejemplo, o similar y operar aún para monitorizar el acceso al mismo. En un momento dado que la monitorización de dichas peticiones de acceso y accesos indican que un robot o invasor está presente y está accediendo al sitio en la red (recuadro de función 204), el módulo podrá generar o utilizar medidas preventivas, en caso de que se requieran, con objeto de limitar el acceso disponible al robot o invasor, o para terminar la conexión con el mismo e impedir cualquier intento de restablecer la conexión (recuadro de función 206). En otras palabras, el sistema podrá combatir el robot o invasor/usuario del invasor.
La operación del sistema se describirá a continuación en detalle haciendo referencia a la figura 3. Como resulta evidente, el módulo 106 de "identificación y combate" supervisa el acceso y las peticiones de acceso realizas en el sitio de la red. Inicialmente, dichas peticiones, etc, son recibidas por el módulo (recuadro de función 302) con objeto de que el módulo pueda supervisar las características de la sesión de acceso al sitio y al usuario, es decir con objeto de intentar detectar una entidad invasora o robot (recuadro de función 304). La supervisión de los acceso y las peticiones de acceso realizadas al sitio en la red con objeto de que se puedan detectar los robots o invasores se lleva a cabo tanto en tiempo real, es decir mientras que se están produciendo dichos acceso, y fuera de línea.
Cuando la supervisión es en tiempo real, se requieren métricas simples, con objeto de que se pueda llevar a cabo con velocidad. El requisito de velocidad de proceso es inherente en las operaciones de tiempo real. Un ejemplo de la métrica en tiempo real es la imposición de un umbral de frecuencia de acceso. Por ejemplo, podrá esperarse que un usuario humano acceda tres veces al sitio en la red al día, mientras que un robot de la red podría acceder con facilidad muchas veces al sitio en la red en un segundo. Por lo tanto, se puede establecer un umbral de frecuencia de acceso realista. Si se excede dicha frecuencia el acceso podrá ser impedido.
Técnicas de supervisión fuera de línea pueden resultar más duraderas. Dichas técnicas incluyen normalmente, pero sin estar restringido a la misma, la correlación de pautas. Se pueden encontrar pautas, por ejemplo en múltiples registros en una localización, detalles del registro del usuario y similares.
Cuando se supervisa se deberán buscar ciertas características y eventos. Estos incluyen, sin estar restringidos a los mismos, peticiones de página en fallo, fallos asociados con formas u otros acceso al sistema, la aparición de direcciones IP que buscan conexión al sitio, modificación de galletas y actualizaciones, listas de observación, la recurrencia de registros de usuario, perfiles y otros detalles, incluyendo direcciones de correo electrónico o físico, dominios y tiempos de acceso, etc. Un buen indicador del uso de robot en un sitio en la red es la frecuencia de las visitas al sitio en la red por un usuario o por un número de usuarios. La supervisión de esta característica permite el establecimiento de una pauta de uso del sitio en la red. Por ejemplo, si un usuario accede a un sitio diez veces en un segundo es una indicación de que el usuario es un robot de la red.
La detección de robots o invasores de la red requiere llevar a cabo el análisis de la actividad del usuario con objeto de que se puedan identificar conductas anómalas, potencialmente indicativas de recursos del sistema, esquemas de premios y otros de dichos abusos. Con objeto de detectar actividad invasora se necesita obtener detalles de acceso o determinadas transacciones. Por lo tanto, varias de las características supervisadas son almacenadas para su uso en la detección (recuadro de función 306). Dicha información se detalla a continuación. Sin embargo, mientras que toda la información dada a continuación podrá ser útil, no es necesario que toda ella esté almacenada en cada implementación de la presente invención. Se suministra almacenamiento en la forma de un área de memoria asignada para dicho fin, bien en el servidor o en cualquier otro lugar.
Rastreo de intentos en fallo de acceso a los recursos del sistema. Esto podrá o no podrá ser sinónimo de intentos en fallo de obtener premios. En la actualidad, en los esquemas de puntos de premios (recompensas) en los sitios en la red, los servidores de la red solamente suministran información a los sistemas de bases de datos/almacenamiento respecto a la concesión exitosa de puntos. Es probable que al encontrar procedimientos para obtener de forma automática y exitosa puntos, las cuentas accionadas por robots también fallarán en acumular puntos de determinadas actividades. Dichos fallos suministran información valiosa relativa a la acumulación de puntos por invasores y las transacciones, o una representación condensada de las mismas, son almacenadas para un análisis subsecuente. Esto también se aplica a sistemas en los que se intenta acceder a los recursos del sistema. El almacenamiento de intentos en fallo de acceso y/o utilización de recursos del sistema suministrará una información valiosa relativa a los intentos de acceso por un invasor.
Rastreo de las direcciones IP para cada solicitud de páginas. Esto suministrar información valiosa para un análisis subsecuente y podrá usarse directamente para prevenir la acumulación de puntos para una sola petición de cuenta dada de diferentes nodos, por ejemplo diferentes PC simultáneamente (o en un corto período de tiempo). De dicha forma, las direcciones IP que solicitan páginas son almacenadas. En otras palabras, la dirección IP de una máquina hace saber la localización geográfica grosera de la máquina. Esta información podrá ser usada para determinar la posibilidad de que una máquina que haya accedido a un sistema desde diferentes localidades, como por ejemplo del Reino Unido y América del Norte.
Rastreo de acumulación de puntos totales desde una sola dirección IP o grupos de direcciones IP. Usuarios legítimos múltiples podrán ir a través de un solo enrutador, pero una agrupación subsecuente podrá indicar una conducta fraudulenta. Por lo tanto, la acumulación de puntos, etc., por direcciones IP o un grupo de direcciones IP se almacena cuando se considere apropiado. Esto se aplica específicamente a esquemas donde la acumulación de premios/puntos y su transferencia subsecuente a una sola cuenta está permitido. La información almacenada se usa para intentar determinar las pautas de la conducta coordinada por los usuarios. Esto podrá resultar ser una conducta válida o una conducta ilícita.
Almacenamiento de un período más largo de transacciones. En la actualidad, una transacción total o historias de transacciones en la forma de registros de la red generados por un servidor de la red son solamente mantenidos durante un período de tiempo muy corto. Períodos más largos de transacciones o representaciones condensadas de los mismos podrán suministrar información adicional del valor en la detección de la acumulación de puntos en base a robots y son de dicha forma almacenados. Esto podrá beneficiar adicionalmente en la evaluación de la posibilidad de un evento que está actualmente ocurriendo. De dicha forma, si un evento es considerado poco probable de que ocurra, podrá ser tratado con sospecha por el sistema.
Creación de listas de vigilancia. En base a la identificación de una conducta poco usual por usuarios registrados, se considera deseable hacer una nota de la identificación del usuario, de forma que una interacción subsecuente pueda ser interrogada automáticamente con más rigor. En combinación con el primer elemento listado anteriormente, esto suministra un mecanismo de inteligencia que se debe obtener respecto al esquema de premios que pueda servir como "claves" que sirvan de ayuda en la detección subsecuente de una conducta anómala. El uso de listas de vigilancia podrá suplementar las técnicas de supervisión en tiempo real. Por ejemplo, una lista de vigilancia podrá usarse para comprobar un intento de acceso por un usuario particular y, si dicho usuario intenta acceder al sitio en la red o al sistema, hacer que dicho acceso no sea permitido.
Las listas de vigilancia se usan también para almacenar información (si es posible) respecto a usuarios anónimos. El razonamiento para esto es que aquellos que deseen crear robots capaces de acumular puntos de un esquema de premios, por ejemplo, utilizará muy probablemente cuentas anónimas mientras que desarrollan su tecnología. De dicha forma, intentos fallidos en la recolección de puntos por usuarios anónimos podrán revelar información útil para las referencias cruzadas futuras de actividad de acumulación de puntos con éxito.
En combinación con otros procedimientos de detección, las listas de vigilancia suministran un mecanismo poderoso para la detección de ataques de robot. Incluso si un usuario está creando robots cada vez más sofisticados, sus intentos anteriores a una intrusión de robots se incluirán en las listas de vigilancia, asegurando de dicha forma que toda actividad subsecuente (y potencialmente relacionada) podrá ser escrutada cuidadosamente.
Las listas de vigilancia no se tienen que basar únicamente en la cuenta identificada. Las listas de vigilancia podrán mantenerse en base a cualquier detalle suministrado en el proceso de registro y podrán usarse de dicha forma para detectar ataques distribuidos repetidamente o enmascarados.
Información de registro y campos de formas libres. Con objeto de acumular puntos de un esquema de premios y conseguir su cobro, los usuarios deben registrarse. Incentivos significativos son, y deberían ser, puestos en el sitio para convencer a los usuarios registrados a que suministren información adicional. Si se considera relevante, campos de entrada de formas libres deberían también ser suministrados. Considérese campos para palabras clave actualmente usados en diversos sitios/recursos de la red. Dado que los anteriores son formas de texto libre, debería esperarse que las entradas suministradas por los usuarios tuvieran una gran desviación esperada en comparación con los campos seleccionados de la lista presente. Esta variación se volverá más difícil de conseguir sistemáticamente con un robot. De forma similar, otros campos de formas libres usados en el registro intermitentemente durante el uso del sitio podrán suministrar medios adicionales de identificación de ataques de robots.
El análisis de registros también conlleva comprobaciones rutinarias de dirección postal y código postal. Soundex (un sistema desarrollado por el gobierno de los Estados Unidos) y otros procedimientos de comprobación podrán ser usados para identificar la multiplicidad de registros. Además, los períodos de tiempo entre registros de direcciones similares múltiples podrán ser evaluados como indicaciones de procesos de registros mecanizados.
Si, durante la etapa de monitorización (recuadro de función 304), se sospecha de un usuario invasor o un robot se emplean medios de detección adicionales para intentar determinar con seguridad si el usuario es evidentemente un robot o invasor. Los procedimientos de detección usados incluyen la aplicación de sistemas inteligentes y técnicas estadísticas tradicionales y algorítmicas para diferenciar entre características de conducta del usuario. Dichas técnicas podrán utilizar o no una, parte o todas las características almacenadas detalladas anteriormente. Por ejemplo, una forma de análisis hace énfasis en los registros de la red con objeto de suministrar análisis de frecuencias de acceso. Esto permite la probabilidad/idoneidad de que se pueda estimar que se está produciendo un evento. Una segunda forma de análisis se enfoca en la información de registros y IP. Esta segunda forma observa cuantas personas están inscritas viviendo en una sola dirección, cuantas personas están utilizando un campo de palabras clave similar o idéntico, y/o códigos postales, por ejemplo.
Una vez que se ha establecido (recuadro de función 308) que un robot o invasor está presente y está accediendo al sitio en la red, el sistema toma una decisión (recuadro de función 310) en base a si se depende de los obstáculos incorporados (pasivos) en el sistema para detener al invasor o robot, o si se emplean obstáculos activos. El último se describirá el primero.
Obstáculos pasivos o disuasorios son elementos dentro de la construcción del sitio o recurso en la red que son enemigos del robot. En otras palabras, pueden adoptar medidas para intentar confundir o disparar a un robots. Estas podrán incluir reconstrucciones regulares del sitio, cambios a campos de forma y trampas para robots en la red, como por ejemplo bucles recursivos. Observando al último de los mencionados con más detalle, el sistema introduce bucles recursivos para atrapar robots y reptadores mudos ("dumb crawlers"). Cada URL dentro de un sitio en la red es diferente con la intención de confundir a los robots. Dichos bucles podrán ser predeterminados para que tengan una longitud sustancial, por lo que se asegura de dicha forma que los usuarios humanos se cansen rápidamente y permitan una identificación completa de los robots simples.
Si el sistema determina que los obstáculos pasivos contenidos en su interior son insuficientes para asegurar que el robot o invasor no acede al sitio en la red o áreas del mismo que desea proteger, o si el sistema desea expulsar el robot o invasor genera obstáculos activos (recuadro de función 312). Evidentemente, se podrán utilizar otros procedimientos externos para proteger el sistema, como por ejemplo la suspensión de una cuenta, la terminación del acceso o la limitación del ancho de banda.
Los procedimientos automáticos de acceso a páginas asumen configuraciones y disposiciones de páginas definidas. Los robots usan la concordancia de templetes para identificar campos de formas y otros elementos de interés del contenido de la página. Mediante el cambio dinámico de la disposición de la página de forma ingeniosa será posible prevenir o detener accesos automáticos al sitio. Los seres humanos son obviamente lo suficientemente adaptables para hacer frente a cambios significativos en la disposición, pero cambios dinámicos podrán ser lo suficientemente ingeniosos que un usuario humano no se de cuenta de las diferencias.
Existen numerosos enfoques de disposiciones dinámicas que podrán utilizarse para hacer la navegación del robot difícil de esta forma, pudiéndose utilizar en el sistema de la presente invención uno o más de los mencionados, incluyendo:
el uso de texto oculto, elementos de tabla o campos de comentarios para confundir al robot;
cambios en la ordenación de campos;
redenominación o aleatorización de campos de entradas o nombres de formas;
adición de información redundante, (como una o más páginas intermedias), etapas de proceso (como uno o más recuadros de diálogo de solicitud de información), campos (posiblemente ocultos) de forma redundantes, etapas de proceso de páginas, redirecciones, etc.; y
cambio del uso de tramas o tablas, u otros cambio de disposición significativos.
Mientras que en muchos casos será mejor no notificar a los operadores que abusan del esquema las sospechas de su actividad, en vez de simplemente bloquear su cobro de la mercancía, en determinados casos una respuesta activa podrá ser lo apropiado. Dichas respuestas varían desde correos electrónicos de avisos enviados al usuario, adaptación dinámica del contenido, como se ha mencionado anteriormente, en un intento de burlar o verificar ataques de robots. De forma similar, correos electrónicos de aviso u otras formas de aviso o notificaciones podrán ser enviados a otras entidades o instituciones que podrán incluir una estación de supervisión, un departamento de aplicación de la ley o el operador del sitio sospechoso de abuso detectado, por ejemplo. Notificar a un operador que abusa que su abuso ha sido detectado podrá servir para "asustarle" o hacerle desistir de dicho abuso.
Una vez que los obstáculos apropiados o elegidos han sido generados, son desenrollados (recuadro de función 314). Como se ha mencionado anteriormente, los obstáculos adoptan diversas formas. De dicha forma, si se determina terminar el contacto con el robot o invasor, se realiza (recuadro de función 316), en caso contrario, el sistema retorna a la supervisión (recuadro de función 304) del acceso o transacción, o podrá introducir obstáculos dinámicos adicionales, en la forma descrita anteriormente, si lo requiere el sistema.
Mientras que la presente invención se ha descrito con referencia a la protección de un sitio en la red que utiliza un esquema de premios, se podrá apreciar fácilmente por el lector ilustrado que también se aplica a máquinas de búsqueda por Internet, y a otros recursos similares, así como a la protección de sitios y recursos de la red que no utilizan esquemas de premios. Adicionalmente, mientras que la invención se ha descrito como un módulo independiente conectable a un generador de un sitio en la red o sitio en la red, podrá formarse fácilmente como una parte componente del mismo. En este escenario, el sistema de la presente invención está incorporado a un sitio en la red o un recurso de Internet, etc., durante la construcción del mismo o podrá ser incorporado en una fecha posterior. Un sitio en la red, etc., que incorpora dicho sistema está provisto con medios para detectar y combatir robots de la red que acceden ilícitamente al sitio o cualquier otra conducta invasora. El sitio no necesita interactuar con un módulo separado para conseguir esto, sino que podrá ejecutarse como una entidad independiente mientras se beneficia de la protección otorgada por la presente invención. Además, en un sistema o similar donde el acceso es legítimo, el sistema podrá ser utilizado para validar estadísticas de usuarios reales, es decir autentificar el número de accesos realizados a un sitio por, por ejemplo, usuarios humanos.
Evidentemente, deberá comprenderse que la presente invención se ha descrito anteriormente a modo de ejemplo solamente y que se podrán hacer modificaciones de detalle dentro del ámbito de la invención.

Claims (18)

1. Un procedimiento para combatir accesos no deseados de robots o invasores a un sitio en la red, que comprende las etapas de:
supervisar (202, 304) accesos realizados al sitio en la red con objeto de facilitar la detección del acceso del robot o invasor; y
caracterizado por la etapa adicional de:
tras la detección (204, 308) de que el acceso del robot o invasor se está efectuando, desplegar (206, 312, 314) uno o más obstáculos a dicho acceso, en el que el obstáculo u obstáculos son formas de cambio dinámico de disposición de la página dentro de un sitio en la red.
2. Un procedimiento según la reivindicación 1, en el que las formas de cambio dinámico de la disposición de la página se seleccionan de:
el uso de texto oculto, elementos de tabla o campos de comentarios;
cambios en la ordenación de campos;
redenominación o aleatorización de campos de entradas o nombres de formas;
adición de información redundante, páginas intermedias, etapas de proceso, campos de formas redundantes, recuadros de diálogo, etapas de proceso de páginas, redirecciones; y
cambio del uso de tramas o tablas.
3. Un procedimiento según la reivindicación 1 o 2, en el que se podrá seleccionar un obstáculo adicional, siendo dicho obstáculo la generación de un aviso o notificación de abuso del sitio.
4. Un procedimiento según la reivindicación 3, en el que el aviso o notificación generado se suministra a uno o más de los sistemas de robots sospechosos, un usuario del mismo, un sistema o usuario invasor, un operador o propietario del sitio que está experimentando el abuso, una estación de monitorización o un departamento de aplicación de la ley.
5. Un procedimiento según cualquiera de las reivindicaciones 1 a 4, en el cual se podrán seleccionar uno o más obstáculos adicionales seleccionados de entre la limitación del ancho de banda, la suspensión de una cuenta y la terminación del acceso.
6. Un procedimiento según cualquier reivindicación precedente, en el que la etapa de detección de dichos accesos incluye la identificación inicial (308) de un posible acceso de robot o invasor a un sitio en la red, y llevar a cabo una o más comprobaciones con objeto de determinar adicionalmente el status de una entidad que está realizando/solicitando el acceso.
7. Un procedimiento según cualquier reivindicación precedente, en el que se utiliza una diferenciación entre las características de conducta de diferentes usuarios para facilitar la detección.
8. Un procedimiento según cualquier reivindicación precedente, en el que la etapa de monitorización se lleva a cabo tanto en tiempo real como en fuera de línea.
9. Un procedimiento según cualquier reivindicación precedente, en el que la etapa de monitorización incluye la monitorización de uno o más de:
solicitudes de páginas en fallo, fallos asociados con formas u otros accesos al sistema;
direcciones IP que acceden al sitio en la red;
modificación y actualización de galletas ("cookies")
listas de vigilancia; y
registro de usuarios, perfiles de usuarios, dominios de usuarios o tiempos de acceso de usuarios.
10. Un sistema (100) configurado para combatir accesos no deseados de robots o invasores a un sitio en la red, que comprende:
\newpage
al menos un sistema de detección (106) configurado para recibir solicitudes de acceso entrantes por un usuario del sitio en la red y para detectar cuándo un acceso de robot o invasor se está realizando; y
caracterizado por:
un generador (106) de obstáculos para generar y desenrollar uno o más obstáculos a dicho acceso tras su detección,
en el que el obstáculo u obstáculos son formas de un cambio dinámico de disposición de la página dentro de un sitio en la red.
11. Un sistema según la reivindicación 10, en el que las formas de cambio dinámico de disposición de la página se seleccionan de:
el uso de texto oculto, elementos de tabla o campos de comentarios;
cambios en la ordenación de campos;
redenominación o aleatorización de campos de entradas o nombres de formas;
adición de información redundante, páginas intermedias, etapas de proceso, campos de formas redundantes, recuadros de diálogo, etapas de proceso de páginas, redirecciones; y
cambio del uso de tramas o tablas.
12. Un sistema según la reivindicación 10 u 11, en el que los obstáculos seleccionables para desenrollar incluyen también la generación de un aviso o notificación de abuso en el sitio.
13. Un sistema según la reivindicación 12, en el que el aviso o notificación generado se suministra a uno o más de entre un sistema de robot sospechoso, un usuario del mismo, un sistema o usuario invasor, un operador o propietario del sitio que está experimentando el abuso, una estación de monitorización o un departamento de aplicación de la ley.
14. Un sistema según cualquiera de las reivindicaciones 10 a 13 en el que los obstáculos seleccionables para desenrollar incluyen también la limitación del ancho de banda, la suspensión de una cuenta y la terminación del acceso.
15. Un sistema según cualquiera de las reivindicaciones 10 a 14, en el que el sistema comprende también uno o más obstáculos incorporados a los accesos de robots o invasores.
16. Un sistema según la reivindicación 15, en el que los obstáculos incorporados al sistema incluyen al menos uno de entre un esquema de reconstrucción regular del sitio en la red, cambios a campos de formas dentro del sitio en la red y trampas que incluyen bucles recursivos.
17. Un sistema según cualquiera de las reivindicaciones 10 a 16, en el que el sistema de detección monitoriza uno o más de:
solicitudes de páginas en fallo, fallos asociados con formas u otros accesos al sistema;
direcciones IP que acceden al sitio en la red;
modificación y actualización de galletas ("cookies")
listas de vigilancia; y
registro de usuarios, perfiles de usuarios, dominios de usuarios o tiempos de acceso de usuarios.
18. Un sistema según cualquiera de las reivindicaciones 10 a 17 que incluye además un almacén de datos en el cual se registran los detalles monitorizados y/o detectados.
ES02729426T 2001-01-09 2002-01-03 Procedimiento y sistema para combatir robots e invasores. Expired - Lifetime ES2258143T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0100547 2001-01-09
GB0100547A GB2370888B (en) 2001-01-09 2001-01-09 A method and system for combating robots and rogues

Publications (1)

Publication Number Publication Date
ES2258143T3 true ES2258143T3 (es) 2006-08-16

Family

ID=9906513

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02729426T Expired - Lifetime ES2258143T3 (es) 2001-01-09 2002-01-03 Procedimiento y sistema para combatir robots e invasores.

Country Status (9)

Country Link
US (1) US20040117654A1 (es)
EP (1) EP1352312B1 (es)
AT (1) ATE322038T1 (es)
DE (1) DE60210269T2 (es)
DK (1) DK1352312T3 (es)
ES (1) ES2258143T3 (es)
GB (1) GB2370888B (es)
PT (1) PT1352312E (es)
WO (1) WO2002056157A1 (es)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763362B2 (en) * 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
GB2391346A (en) * 2002-07-31 2004-02-04 Hewlett Packard Co On-line recognition of robots
US7895649B1 (en) 2003-04-04 2011-02-22 Raytheon Company Dynamic rule generation for an enterprise intrusion detection system
US7584287B2 (en) * 2004-03-16 2009-09-01 Emergency,24, Inc. Method for detecting fraudulent internet traffic
US8930239B2 (en) * 2005-03-23 2015-01-06 Douglas Ashbaugh Distributed content exchange and presentation system
US7523499B2 (en) * 2004-03-25 2009-04-21 Microsoft Corporation Security attack detection and defense
US7881255B1 (en) * 2004-09-29 2011-02-01 Google Inc. Systems and methods for relating network traffic using traffic-based signatures
US7665134B1 (en) * 2005-01-26 2010-02-16 Symantec Corporation Profiling users based on artificially constructed deceptive content
US9762685B2 (en) 2005-04-27 2017-09-12 Live Nation Entertainment, Inc. Location-based task execution for enhanced data access
US20140379390A1 (en) 2013-06-20 2014-12-25 Live Nation Entertainment, Inc. Location-based presentations of ticket opportunities
US7712141B1 (en) 2005-06-30 2010-05-04 Google Inc. Determining advertising activity
US8572733B1 (en) * 2005-07-06 2013-10-29 Raytheon Company System and method for active data collection in a network security system
US8224761B1 (en) 2005-09-01 2012-07-17 Raytheon Company System and method for interactive correlation rule design in a network security system
US7950058B1 (en) 2005-09-01 2011-05-24 Raytheon Company System and method for collaborative information security correlation in low bandwidth environments
US9311398B2 (en) * 2005-11-15 2016-04-12 Ebay Inc. Method and system to process navigation information
EP2021995A4 (en) 2005-12-06 2011-06-01 Berman Joel METHOD AND SYSTEM FOR RATING THE QUALITY OF TRAFFIC TO NETWORK SITES
US7954152B2 (en) * 2005-12-30 2011-05-31 Microsoft Corporation Session management by analysis of requests and responses
US7849185B1 (en) 2006-01-10 2010-12-07 Raytheon Company System and method for attacker attribution in a network security system
US20080155409A1 (en) * 2006-06-19 2008-06-26 Andy Santana Internet search engine
US7730478B2 (en) 2006-10-04 2010-06-01 Salesforce.Com, Inc. Method and system for allowing access to developed applications via a multi-tenant on-demand database service
US8811156B1 (en) 2006-11-14 2014-08-19 Raytheon Company Compressing n-dimensional data
US10402832B2 (en) * 2006-12-15 2019-09-03 Comscore, Inc. Network interaction correlation
US10235677B1 (en) 2006-12-15 2019-03-19 Comscore, Inc. Determination and application of click quality
US20090037208A1 (en) * 2007-08-03 2009-02-05 Fraudwall Technologies, Inc. Using a reason code to indicate a reason for a rating of a network interaction
US8990379B2 (en) 2006-12-15 2015-03-24 Comscore, Inc. Network interaction monitoring appliance
KR100799193B1 (ko) * 2007-02-12 2008-01-29 삼성전자주식회사 이동통신 시스템에서 감청을 위한 장치 및 방법
US20090055828A1 (en) * 2007-08-22 2009-02-26 Mclaren Iain Douglas Profile engine system and method
US8789171B2 (en) * 2008-03-26 2014-07-22 Microsoft Corporation Mining user behavior data for IP address space intelligence
US8244752B2 (en) * 2008-04-21 2012-08-14 Microsoft Corporation Classifying search query traffic
US7516220B1 (en) 2008-05-15 2009-04-07 International Business Machines Corporation Method and system for detecting and deterring robot access of web-based interfaces by using minimum expected human response time
US7991957B2 (en) * 2008-05-27 2011-08-02 Microsoft Corporation Abuse detection using distributed cache
US8904279B1 (en) 2011-12-07 2014-12-02 Amazon Technologies, Inc. Inhibiting automated extraction of data from network pages
US9762390B2 (en) * 2012-04-06 2017-09-12 Live Nation Entertainment, Inc. Enhanced task scheduling for data access control using queue protocols
EP2836979A4 (en) 2012-04-06 2018-08-08 Live Nation Entertainment Inc. Methods and systems of inhibiting automated scripts from accessing a ticket site
US20140278610A1 (en) * 2013-03-15 2014-09-18 Live Nation Entertainment, Inc. Abuse tolerant ticketing system
US10726488B2 (en) * 2012-11-27 2020-07-28 Metropolitan Life Insurance Co. System and method for identifying and distributing matured policy proceeds
US9953274B2 (en) 2013-08-30 2018-04-24 Live Nation Entertainment, Inc. Biased ticket offers for actors identified using dynamic assessments of actors' attributes
US10521496B1 (en) * 2014-01-03 2019-12-31 Amazon Technologies, Inc. Randomize markup to disturb scrapers
US9411958B2 (en) * 2014-05-23 2016-08-09 Shape Security, Inc. Polymorphic treatment of data entered at clients
US9762597B2 (en) * 2015-08-26 2017-09-12 International Business Machines Corporation Method and system to detect and interrupt a robot data aggregator ability to access a website
US10326789B1 (en) 2015-09-25 2019-06-18 Amazon Technologies, Inc. Web Bot detection and human differentiation
US9600340B1 (en) * 2016-05-16 2017-03-21 Live Nation Entertainment, Inc. Iterative and hierarchical processing of request partitions
US10482171B2 (en) * 2017-11-08 2019-11-19 Adobe Inc. Digital form optimization

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19722424C5 (de) * 1997-05-28 2006-09-14 Telefonaktiebolaget Lm Ericsson (Publ) Verfahren zum Sichern eines Zugreifens auf ein fernab gelegenes System
IL125432A (en) * 1998-01-30 2010-11-30 Easynet Access Inc Personalized internet interaction
US6275942B1 (en) * 1998-05-20 2001-08-14 Network Associates, Inc. System, method and computer program product for automatic response to computer system misuse using active response modules
US6539375B2 (en) * 1998-08-04 2003-03-25 Microsoft Corporation Method and system for generating and using a computer user's personal interest profile
EP1277141A2 (en) * 1999-06-09 2003-01-22 Teralytics, Inc. System, method and computer program product for generating an inventory-centric demographic hyper-cube
US6523120B1 (en) * 1999-10-29 2003-02-18 Rstar Corporation Level-based network access restriction
US6418452B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
SE516216C2 (sv) * 1999-12-23 2001-12-03 Tentake Ab Mjukvarurobot för informationshantering i ett datanät.
US6938170B1 (en) * 2000-07-17 2005-08-30 International Business Machines Corporation System and method for preventing automated crawler access to web-based data sources using a dynamic data transcoding scheme

Also Published As

Publication number Publication date
GB0100547D0 (en) 2001-02-21
GB2370888B (en) 2003-03-19
GB2370888A (en) 2002-07-10
DE60210269T2 (de) 2006-12-28
PT1352312E (pt) 2006-06-30
DK1352312T3 (da) 2006-07-31
EP1352312B1 (en) 2006-03-29
WO2002056157A1 (en) 2002-07-18
US20040117654A1 (en) 2004-06-17
ATE322038T1 (de) 2006-04-15
EP1352312A1 (en) 2003-10-15
DE60210269D1 (de) 2006-05-18

Similar Documents

Publication Publication Date Title
ES2258143T3 (es) Procedimiento y sistema para combatir robots e invasores.
Al-Khater et al. Comprehensive review of cybercrime detection techniques
ES2679286T3 (es) Distinguir usuarios válidos de robots, OCR y solucionadores de terceras partes cuando se presenta CAPTCHA
Rahman et al. Efficient and scalable socware detection in online social networks
Rawat et al. Dark web—onion hidden service discovery and crawling for profiling morphing, unstructured crime and vulnerabilities prediction
Gandhi et al. Badvertisements: Stealthy click-fraud with unwitting accessories
Schmucker Web tracking
Cho et al. Cyber defense in breadth: Modeling and analysis of integrated defense systems
Yucedal Victimization in cyberspace: An application of Routine Activity and Lifestyle Exposure theories
Wan et al. PathMarker: protecting web contents against inside crawlers
Koch Hidden in the shadow: The dark web-a growing risk for military operations?
Alrwais et al. Catching predators at watering holes: finding and understanding strategically compromised websites
Pastor-Galindo et al. Nothing to hide? On the security and privacy threats beyond open data
Wilner et al. On the social science of ransomware: Technology, security, and society
Jansson et al. Social engineering: Towards a holistic solution
Pawlicki et al. The survey and meta-analysis of the attacks, transgressions, countermeasures and security aspects common to the Cloud, Edge and IoT
Ehney et al. DEEP WEB, DARK WEB, INVISIBLE WEB AND THE POST ISIS WORLD.
Liu et al. Traffickstop: Detecting and measuring illicit traffic monetization through large-scale dns analysis
Rauti Towards cyber attribution by deception
Bermudez-Villalva et al. A measurement study on the advertisements displayed to web users coming from the regular web and from tor
Ryu et al. Security protection design for deception and real system regimes: A model and analysis
Kassab et al. Illicit markets and the internet age
Koop Preventing the Leakage of Privacy Sensitive User Data on the Web
Al-Duwairi et al. Passvm: A highly accurate online fast flux detection system
Boyapati et al. Anti-phishing approaches in the era of the internet of things