DE60210269T2

DE60210269T2 - Methode und system zur bekämpfung von robots und rogues

Info

Publication number: DE60210269T2
Application number: DE60210269T
Authority: DE
Inventors: Simeon Konrad New York FELDMAN; c/o Searchspace Limited Jason KINGDON; c/o Searchspace Corp. Michael New York RECCE
Original assignee: Nice Systems Technologies UK Ltd
Current assignee: Nice Systems Technologies UK Ltd
Priority date: 2001-01-09
Filing date: 2002-01-03
Publication date: 2006-12-28
Anticipated expiration: 2022-01-04
Also published as: DE60210269D1; EP1352312A1; EP1352312B1; US20040117654A1; GB2370888B; WO2002056157A1; DK1352312T3; ATE322038T1; GB2370888A; ES2258143T3; GB0100547D0; PT1352312E

Description

Die vorliegende Erfindung betrifft ein Verfahren und ein System zur Verhinderung der betrügerischen Benutzung von Webseiten und dergleichen. Genauer gesagt betrifft die vorliegende Erfindung ein Verfahren und ein System zur Bekämpfung der Benutzung solcher Webseiten und dergleichen durch Web-Robots und andere solche Rogue-Instanzen (betrügerische Instanzen), einschließlich Menschen, die ähnlich wie Web-Robots handeln.
Ein Web-Robot ist eine Instanz, die konstruiert worden ist, um eine bestimmte Aufgabe im Internet ohne die Notwendigkeit einer menschlichen Interaktion damit durchzuführen. Zwei unterschiedliche Beispiele werden hier zur Klarheit vorgebracht.
Ein erster Web-Robot kann von einer Internet-Suchmaschine dazu verwendet werden, seinen Weg durch Seiten im Internet zu arbeiten (dies wird allgemein als Web Crawling bezeichnet), wobei er den Links folgt, auf die er trifft, um eine brauchbare Ressource für die Suchmaschinennutzer bereitzustellen. Mit anderen Worten, dieser Web-Robot folgt Links durch aufeinanderfolgende Seiten in einer periodischen Art und Weise, z.B. einmal pro Woche, um Webseitenaktualisierungen zu erfassen und der Suchmaschine Informationen bereitzustellen, damit diese ihre Links aktualisieren kann, wodurch eine aktuelle Ressource bereitgestellt wird.
Ein zweiter Typ von Web-Robot, der unter gewissen Umständen als ein Anathema betrachtet werden kann, ist eine Instanz, die so konfiguriert ist, dass sie einen Satz von Befehlen kontinuierlich ausführt. So betreiben zum Beispiel viele Webseiten Punkte- oder Belohnungsprogramme, bei denen zum Beispiel bei der Registrierung und danach für das Ausführen von verschiedenen Aktionen Punkte zugewiesen werden. Ein Web-Robot könnte dazu denen Aktionen Punkte zugewiesen werden. Ein Web-Robot könnte dazu verwendet werden, diese Aktionen durchzuführen, wodurch die Zuweisung von Punkten erzielt wird, ohne dass der Gegenwert für den Anbieter dieser Punkte auf ihrer Seite von dem menschlichen Benutzer, für den diese Seite bestimmt ist, betrachtet worden wäre.
Zum gegenwärtigen Zeitpunkt gibt es eine steigende Anzahl von Personen/Benutzern, die auf Online-Ressourcen zugreifen. In ähnlicher Weise gibt es eine steigende Anzahl von automatisierten Systemen (Robots), die auf Ressourcen zugreifen. Zusätzlich zu diesen beiden Faktoren ist es bekannt, dass viele Internet-Seiten oder -Ressourcen auf Einkommen aus Werbung angewiesen sind, um ihre Kosten zu decken, und, wie bereits erwähnt worden ist, werden nun Treueprogramme und Punktesammelprogramme als Anreiz zur Anziehung von Nutzern zu gegebenen Seiten verwendet. Folglich können Web-Robots des oben beschriebenen zweiten Typs und sogar die des ersten Typs als ein Problem betrachtet werden, weil sie Ressourcen verwenden können, ohne dass sie dem Ressourcenanbieter eine Gegenleistung bereitstellen, d.h. ohne dass ein menschlicher Benutzer zum Beispiel die angebotene Werbung betrachtet hat.
Online-Ressourcen können leicht umgepackt und wiederverwendet werden. Ein Beispiel eines solchen Vorkommnisses ist eine Meta-Suchmaschine. Suchmaschinen wie zum Beispiel Alta Vista^TM, All the Web^TM und Google^TM stellen ein einfaches Mittel bereit, um das Internet durch von einem Benutzer eingegebene Textanfragen zu durchsuchen. Diese Seiten werden immer öfter von Meta-Suchmaschinen benutzt, wie zum Beispiel die Maschinen, die bei www.metacrawler.com, www.all4one.com und www.mamma.com zu finden sind, die mehrere Anfragen unter Verwendung von verschiedenen Maschinen gleichzeitig durchführen. Webseiten sind auch einer automatischen Analyse und Abfragen von Web-Robots ausgesetzt, die Datenerfassungen und andere automatisierte Aufgaben durchführen, wie zum Beispiel das Triggern des Common Gateway Interface (CGI) oder von Server- Nebenprogrammen, die Navigation von Inhalten oder die Eingabe von Informationen als Gegenleistung für eine gewisse Form von Wertäquivalent, wie vorher bereits erwähnt worden ist.
Bei kommerziellen Seiten kann es auch erwünscht sein, Robots oder die Verwendung von Seiten durch Meta-Suchmaschinen zu verhindern. Obwohl ein Web-Robot-Ausschlussstandard (Robot Exclusion Standard) existiert, ist der Code freiwillig, und Robots können sich dafür entscheiden, diesen zu ignorieren. Der Robot-Ausschlussstandard oder das Robot-Ausschlussprotokoll ist ein Programm, durch das ein Administrator einer Webseite in die Lage versetzt ist, Robots, die die Seite besuchen, auf diejenigen Teile der Seite hinzuweisen, auf die sie nicht zugreifen sollen. Wenn ein Robot auf eine Seite zugreift, so ist beabsichtigt, dass er zuerst nach der Datei sucht, die diesen Standard oder dieses Protokoll enthält. Aber Meta-Suchmaschinen zum Beispiel und andere Robots ignorieren diese Vorgehensweise. Somit besteht gegenwärtig keine effektive Verfahrensweise, unerwünschte Robot- oder Rogue-Aktivitäten auf einer Webseite zu verhindern.
Dies ist von noch größerer Bedeutung wenn man die Werbung auf Webseiten als ein Mittel zur Einkommenserzeugung betrachtet. Es besteht die Notwendigkeit zu garantieren, dass Seitenbesucher legitime Benutzer sind, und folglich eine Notwendigkeit, zwischen Typen von Systembenutzern zu unterscheiden. Dadurch können Werbetreibende versichert sein, dass die Verbreitung ihrer Anzeigen an legitime Benutzer erfolgt, und ermöglicht ihnen, das inserierte Material selektiv an die passenden Benutzer zu adressieren. Der Missbrauch eines Dienstes durch Robots oder Rogues kann zu der Verweigerung dieses Dienstes für legitime Systembenutzer führen, was an sich weiter zu unerwünschten direkten Kosten für ein Unternehmen (z.B. das Unternehmen, das die Webseite betreibt) sowie auch indirekte Kosten, die mit dem Verlust des Einkommens oder der Überlastung von System-Ressourcen assoziiert sind, führt.
"How to keep bad robots, spiders and web crawlers away" (wie man böse Robots, Spiders und Webcrawlers fernhält), httpa/web.archive.org/web/*/http://www.flleiner.com/bots, offenbart einen Weg, böse Robots zu fangen und diese daran zu hindern, weiter Zugriffe auszuführen, indem IP-Adressen von erfassten Robot-Computern gesperrt werden.
Angesichts des oben Gesagten haben die Erfinder herausgefunden, dass ein Bedarf nach einem effektiven und effizienten Weg zur Bekämpfung von unerwünschter Robot- oder Rogue-Aktivität auf einer Webseite besteht.
Im Hinblick auf das oben Erwähnte wird ein Verfahren zur Bekämpfung unerwünschter Robot-Aktivität auf einer Webseite vorgesehen, wie es in Anspruch 1 beansprucht wird.
Die vorliegende Erfindung stellt die Vorteile bereit, dass sie den Missbrauch von Systemressourcen verhindert. Die Webseitenverwendung durch unberechtigte externe Organisationen, das Umpacken von Ressourcen und die Meta-Verwendung werden effektiv verhindert. Außerdem dient die Erfindung als Schutz vor der unlauteren Ansammlung von Punkten in einem Treueprogramm oder irgendeinem anderen solchen Programm, das Anreize für Nutzer anbietet, die eine Internet-Ressource besuchen. Ein weiterer Vorteil ist die Überprüfung der Zugriffsnummern von legitimen Nutzern. Dies ermöglicht es einer Seite, potentiellen Werbetreibenden konkrete Informationen bezüglich des Umfangs einer potentiellen Verbreitung einer Werbung bereitzustellen. Schließlich dient die vorliegende Erfindung als ein Schutz vor Betrug. Sie wird dahingehend wirken, dass skrupellose Personen daran gehindert werden, Webseiten mit assoziierter Werbung und Einkommen daraus zu erstellen, dann einen Robot einzurichten, um den Zugriff darauf zu erhöhen, wodurch eine Erhöhung des erzeugten Einkommens vorgesehen wird.
In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung umfasst der Schritt der Erfassung solcher Zugriffe das anfängliche Identifizieren eines möglichen Robot- oder robotähnlichen Zugriffs auf eine Webseite und das Ausführen von einer oder mehreren Prüfungen zur Bestimmung des Status einer Instanz, die den Zugriff ausführt.
Vorzugsweise wird eine Differenzierung zwischen den Verhaltenscharakteristika verschiedener Nutzer verwendet, um die Erfassung zu erleichtern.
Vorzugsweise können die Hindernisse die Generierung einer Warnung oder einer Mitteilung eines Seitenzugriffmissbrauchs umfassen. Die erzeugte Warnung oder Mitteilung kann einem oder mehreren aus einem in Verdacht stehenden Robot-System, einem Benutzer davon, einer Bedienperson oder einem Eigentümer der Seite, die einen Missbrauch erfährt, einer Überwachungsstation oder einer Kontrollstelle zugestellt werden.
In noch einem weiteren bevorzugten Ausführungsbeispiel wird der Schritt des Überwachens sowohl in Echtzeit als auch offline durchgeführt. Vorzugsweise umfasst der Schritt des Überwachens die Überwachung eines oder mehrerer aus dem Folgenden:
gescheiterte Seitenanforderungen, Fehler, die mit Formularen oder anderen Systemzugriffen assoziiert sind;
IP-Adressen, die auf die Webseite zugreifen;
Modifikation und Aktualisierung von Cookies;
Kontrolllisten; und
Benutzerregistrierungseinzelheiten, Benutzerprofile, Benutzerdomänen oder Benutzerzugriffszeiten.
Ebenfalls in Übereinstimmung mit der vorliegenden Erfindung wird ein System bereitgestellt, das so konfiguriert ist, dass es eine unerwünschte Robot-Aktivität auf einer Webseite bekämpft, wie dies im nachstehenden Anspruch 10 beansprucht wird.
Natürlich kann es Umstände geben, bei denen Hindernisse nicht generiert oder entfaltet werden. Ein solcher Umstand kann zum Beispiel das erfasste Vorhandensein eines Web-Robots auf einer Webseite sein, der berechtigt ist, dort zu sein.
Vorzugsweise umfasst das System ein oder mehrere eingebaute Hindernisse für Rogue- oder Robot-Zugriffe.
Vorzugsweise umfassen die in dem System eingebauten Hindernisse wenigstens eines aus einem regulären Webseiten-Rekonstruktionsprogramm, Änderungen in den Formularfeldern in der Webseite und Robot- oder Rogue-Fallen, die rekursive Schleifen umfassen. Noch bevorzugter können die entfalteten Hindernisse eine erzeugte Warnung oder Mitteilung eines Webseitenmissbrauchs durch einen Rogue oder Robot enthalten. Die erzeugte Warnung oder Mitteilung kann einem oder mehreren aus einem verdächtigten Rogue- oder Robot-System oder dem/den Benutzer(n) davon zugestellt werden. Es kann auch eine Mitteilung an eine Überwachungsstation oder eine Kontrollstelle etc. erfolgen. Eine solche Station oder Stelle kann zum Beispiel eine öffentliche Körperschaft oder eine private Körperschaft sein.
In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung überwacht das Erfassungssystem eines oder mehrere aus dem Folgenden:
gescheiterte Seitenanforderungen, Fehler, die mit Rahmen oder anderen Systemzugriffen assoziiert sind;
IP-Adressen, die Zugriff verlangen;
Modifikation und Aktualisierung von Cookies;
Kontrolllisten; und
Benutzerregistrierungseinzelheiten, Benutzerprofile, Benutzerdomänen oder Benutzerzugriffszeiten.
Außerdem kann das System in Abhängigkeit von der Version des verwendeten Browser zum Beispiel auf weitere Informationen zugreifen und/oder diese überwachen, die von dem Browser oder dem System, das den Browser unterstützt, über den Benutzer davon bereitgestellt werden.
In noch einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden Erfindung umfasst das System des Weiteren einen Datenspeicher, in dem die überwachten und/oder erfassten Einzelheiten oder Charakteristiken aufgezeichnet werden.
Ein spezifisches Ausführungsbeispiel der vorliegenden Erfindung wird nun nur beispielshalber unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, in denen:
1 eine Veranschaulichung einer möglichen Implementierung des Systems der vorliegenden Erfindung ist;
2 ein Ablaufdiagramm ist, das einen Überblick über das Verfahren der vorliegenden Erfindung präsentiert; und
3 ein Ablaufdiagramm ist, das im Einzelnen das Verfahren gemäß der vorliegenden Erfindung darstellt.
Unter Bezugnahme auf 1 der Zeichnungen umfasst das System 100 eine Anzahl von diskreten und dennoch miteinander verbindbaren Elementen. Erstens gibt es eine Anzahl von entfernt aufgestellten Benutzer-Endgeräten 102, und zweitens gibt es ein entferntes Systemmodul oder einen entfernten Server 104. Jeder Benutzer kann sich mit dem Server verbinden, um Zugriff auf die darauf befindlichen Ressource(n) zu erlangen. Eine solche Verbindung erfolgt über das Internet oder irgendeinen anderen Kommunikationskanal, wie zum Beispiel ein betriebsinternes Intranet, und kann feste Verbindungskommunikationssysteme, mobile oder Luftschnittstellen- Kommunikationssysteme oder irgendein anderes geeignetes Kommunikationssystem verwenden.
Wie zu sehen ist, befindet sich das System der vorliegenden Erfindung, das hier mit "Identifikation und Bekämpfung" 106 bezeichnet wird, in dem Server 104, Seite an Seite und verbindbar mit einem Webseiten-Generator und Ressourcen 108. Aber in einem anderen Ausführungsbeispiel kann sich das "Identifikations- und Bekämpfungs-"Modul 106 in einem Server befinden, der keinen Webseiten-Generator und Ressourcen enthält, aber mit einem zweiten Server verbindbar ist, der einen solchen Generator und solche Ressourcen enthält. Das Identifikations- und Bekämpfungs-Modul dient dazu, den Zugriff von Web-Robots oder Rogues/Rogue-Benutzern auf die Webseite zu regulieren, die auf Anforderung hin generiert wird oder auf die auf Anforderung hin zugegriffen wird.
Der Betrieb des Systems von 1 wird nun unter Bezugnahme auf 2 beschrieben. Wie zu sehen ist, arbeitet das Identifikations- und Bekämpfungs-Modul 106 folgendermaßen. Das Modul kann sich Seite an Seite mit einer Webseite befinden, auf die Zugriff verlangt wird, und wenn es so angeordnet ist, überwacht es die Zugriffsanforderungen und die Zugriffe, die auf die Webseite ausgeführt werden (Funktionsfeld 202). Natürlich kann das Modul auch unabhängig von einer Webseite vorhanden sein, d.h. zum Beispiel irgendwo anders in einem Server oder in einem separaten Server oder dergleichen, und kann immer noch so arbeiten, dass es den Zugriff darauf überwacht. Zu einem solchen Zeitpunkt, an dem die Überwachung solcher Zugriffsanforderungen und Zugriffe anzeigt, dass ein Robot oder Rogue anwesend ist und auf die Webseite zugreift (Funktionsfeld 204), kann das Modul Schutzmaßnahmen generieren oder verwenden, falls dies notwendig sein sollte, um den Zugriff zu beschränken, der für den Robot oder den Rogue zur Verfügung steht, oder um die Verbindung damit zu beenden und jeglichen Versuch einer erneuten Verbindung zu vereiteln (Funktionsfeld 206). Mit an deren Worten, das System kann den identifizierten Web-Robot oder den Rogue/Rogue-Benutzer bekämpfen.
Der Betrieb des Systems wird nun unter Bezugnahme auf 3 genauer beschrieben. Wie offensichtlich ist, überwacht das Identifikations- und Bekämpfungs-Modul 106 die Zugriffe und Zugriffsanforderungen, die bezüglich der Webseite erfolgen. Anfänglich werden diese Anforderungen etc. von dem Modul empfangen (Funktionsfeld 302), damit das Modul die Charakteristika der Seitenzugriffssitzung und des Benutzers überwachen kann, d.h. um zu versuchen, eine Rogue- oder Robot-Instanz zu entdecken (Funktionsfeld 304). Das Überwachen der Zugriffe und der Zugriffsanforderungen, die bezüglich der Webseite erfolgen, damit Robots oder Rogues entdeckt werden können, kann sowohl in Echtzeit, d.h. während solche Zugriffe auftreten, als auch offline durchgeführt werden.
Wenn die Überwachung in Echtzeit ausgeführt wird, sind einfache Metriken erforderlich, damit diese schnell ausgeführt werden können. Die Notwendigkeit einer schnellen Verarbeitung ist Echtzeitoperationen inhärent. Ein Hauptbeispiel einer Echtzeitmetrik ist die Auferlegung eines Zugriffshäufigkeitsschwellwerts. So kann zum Beispiel von einem menschlichen Benutzer erwartet werden, dass er dreimal am Tag auf eine Webseite zugreift, wohingegen ein Web-Robot ohne weiteres mehrere Male pro Sekunde auf eine Webseite zugreifen könnte. Demgemäss kann ein realistischer Zugriffshäufigkeitsschwellwert gesetzt werden. Wenn diese Häufigkeit überschritten wird, kann der Zugriff verweigert werden.
Offline-Überwachungsverfahren können es sich leisten, zeitintensiver zu sein. Diese Verfahren umfassen typischerweise, aber sind nicht beschränkt auf die Korrelation von Mustern. Muster können zum Beispiel bei mehreren Registrierungen an einem Ort, Benutzerregistrierungseinzelheiten und dergleichen gefunden werden.
Bei der Überwachung wird nach bestimmten Charakteristika und Ereignissen Ausschau gehalten. Diese umfassen, sind aber nicht beschränkt auf gescheiterte Seitenanforderungen, Fehler, die mit Formularen oder anderen Systemzugriffen assoziiert sind, das wiederholte Auftreten von IP-Adressen, die eine Verbindung mit der Webseite verlangen, Modifikation und Aktualisierungen von Cookies, Kontrolllisten, das wiederholte Auftreten von Benutzerregistrierungen, Benutzerprofilen und anderen Einzelheiten, einschließlich E-Mail- oder physikalische Adressen, Domains und Zugriffszeiten, etc. Ein wichtiger Hinweis auf eine Robotverwendung einer Webseite ist die Häufigkeit von Webseitenbesuchen durch einen Nutzer oder eine Anzahl von Nutzern. Die Überwachung dieses Merkmals erlaubt es, dass ein Muster der Benutzung der Webseite erstellt werden kann. Wenn zum Beispiel ein Benutzer auf eine Seite zehnmal pro Sekunde zugreift, ist dies ein Hinweis darauf, dass der Nutzer ein Web-Robot ist.
Die Erfassung von Web-Robots oder -Rogues erfordert es, dass eine Analyse der Benutzeraktivität ausgeführt wird, damit ein anomales Verhalten, das potentiell auf einen Systemressourcen-, einen Belohungsprogramm- oder einen anderen derartigen Missbrauch hinweist, identifiziert werden kann. Um eine Rogue-Aktivität zu erfassen, müssen bestimmte Transaktions- oder Zugriffs-Einzelheiten gesammelt werden. Folglich werden viele der überwachten Charakteristika zur Verwendung bei der Erfassung gespeichert (Funktionsfeld 306). Solche Informationen sind unten im Einzelnen aufgeführt. Aber obwohl alle der unten genannten Informationen nützlich sein könnten, werden sie nicht notwendigerweise alle bei jeder Implementierung der vorliegenden Erfindung gespeichert werden. Die Speicherung wird in der Form eines Bereichs eines Speichers, der für diesen Zweck zugewiesen wird, entweder auf dem Server oder anderswo vorgesehen.
• Zurückverfolgen gescheiterter Versuche, auf Systemressourcen zuzugreifen.
Dies kann, muß aber nicht synonym zu gescheiterten Versuchen sein, Belohnungen zu erlangen. Gegenwärtig liefern Webserver bei Punkteprämien-(-belohnungs-)Programmen auf Webseiten lediglich Informationen an Datenbanken/Speichersysteme, die die erfolgreiche Gewährung von Punkten betreffen. Es ist wahrscheinlich, dass beim Herausfinden von Verfahren zur erfolgreichen automatischen Einlösung von Punktekonten, die von Robots gesteuert werden, ebenso daran scheitern werden, Punkte aus verschiedenen Aktivitäten zu sammeln. Diese Fehlschläge liefern wertvolle Informationen bezüglich der Rogue-Punktesammlung, und die Transaktionen, oder eine komprimierte Darstellung davon, werden für eine nachfolgende Analyse gespeichert. Dies trifft auch für Systeme zu, bei denen versucht wird, auf Systemressourcen zuzugreifen. Die Speicherung von gescheiterten Versuchen, auf Systemressourcen zuzugreifen und/oder diese zu verwenden, wird wertvolle Informationen bezüglich der Rogue-Zugriffsversuche bereitstellen.
• Zurückverfolgen der IP-Adressen für jede Seitenanforderung.
Dies liefert wertvolle Informationen für die nachfolgende Analyse und kann direkt dazu verwendet werden, Punkteansammlungen für ein einzelnes Konto zu verhindern, die für Anforderungen von unterschiedlichen Knoten, z.B. unterschiedlichen PCs, gleichzeitig (oder in einem kurzen Zeitraum) gegeben werden. Somit werden IP-Adressen, die Seiten anfordern, gespeichert. Mit anderen Worten, die IP-Adresse einer Maschine gibt die grobe geographische Position dieser Maschine bekannt. Diese Information kann dazu verwendet werden, festzustellen, ob es dieser Maschine möglich ist, Zugriffe auf ein System von unterschiedlichen Positionen aus, wie zum Beispiel Großbritannien und Nordamerika, durchgeführt zu haben.
• Zurückverfolgen der gesamten Punktesammlung von einzelnen oder Gruppen von IP-Adressen.
Mehrere legitime Benutzer können durch einen einzigen Router laufen, aber ein aufeinanderfolgendes Pooling kann ein Hinweis auf ein betrügerisches Verhalten sein. Demgemäss wird die Punktesammlung etc. pro IP-Adresse oder pro Gruppe von IP-Adressen gespeichert, wenn dies zweckdienlich erscheint. Dies trifft vor allem für Pro gramme zu, bei denen das Pooling von Belohnungen/Punkten und deren nachfolgendem Transfer auf ein einziges Konto erlaubt ist. Die gespeicherten Informationen werden dazu verwendet, zu versuchen, Muster von koordiniertem Verhalten von Benutzern zu bestimmen. Dies kann ein legales Verhalten sein oder kann ein unerlaubtes Verhalten sein.
• Speicherung eines längeren Zeitraums von Transaktionen.
Gegenwärtig werden volle Transaktions- oder Zugriffsverläufe in der Form der Weblogs, die von dem Webserver generiert werden, nur für einen sehr kurzen Zeitraum verwaltet. Längere Perioden von Transaktionen oder komprimierte Darstellungen davon können zusätzliche wertvolle Informationen bei der Erfassung von auf Robots basierender Punktesammlung liefern und werden somit gespeichert. Dies kann auch für die Einschätzung der Wahrscheinlichkeit, dass ein Ereignis tatsächlich stattfindet, von Vorteil sein. Somit kann dann, wenn ein Ereignis auftritt, dessen Auftreten als unwahrscheinlich betrachtet wird, dieses Ereignis von dem System mit Misstrauen behandelt werden.
• Kontrolllisten-Erstellung.
Auf der Basis der Identifizierung eines ungewöhnlichen Verhaltens durch registrierte Benutzer ist es wünschenswert, einen Vermerk der Identifizierung dieses Benutzers zu machen, so dass eine nachfolgende Interaktion automatisch rigoroser hinterfragt werden kann. In Kombination mit dem ersten Punkt, der oben aufgeführt ist, stellt dies einen Informationsmechanismus bereit, der im Hinblick auf ein Belohnungsprogramm gesammelt werden soll und der als "Schlüssel" dienen kann, der bei der nachfolgenden Erfassung eines anomalen Verhaltens hilft. Die Verwendung von Kontrolllisten kann die Echtzeit-Überwachungsprogramme ergänzen. Zum Beispiel kann eine Kontrollliste dazu verwendet werden, zu kontrollieren, ob ein bestimmter Benutzer einen Zugriff versucht, und dann, wenn dieser Benutzer einen Versuch unternimmt, auf die Webseite oder das System zuzugreifen, zu bewirken, dass der Zugriff verweigert wird.
Kontrolllisten werden auch dazu verwendet, Informationen zu speichern (falls möglich), die anonyme Nutzer betreffen. Die Gründe dafür sind, dass zum Beispiel diejenigen, die Robots erschaffen wollen, die in der Lage sind, Punkte aus einem Belohnungsprogramm zu sammeln, sehr wahrscheinlich anonyme Konten verwenden werden, während sie ihre Technologie entwickeln. Somit können gescheiterte Versuche bei der Punktesammlung durch anonyme Benutzer nützliche Informationen für die Querverweisung zu einer zukünftigen erfolgreichen Punktesammlungsaktivität offenbaren.
In Kombination mit anderen Erfassungsverfahren stellen Kontrolllisten einen leistungsfähigen Mechanismus für die Erfassung von Robotangriffen bereit. Selbst wenn ein Benutzer immer noch raffiniertere Robots erschafft, werden sie durch ihre früheren Versuche des Eindringens mit Robots in die Kontrolllisten eingetragen, wodurch gewährleistet wird, dass alle nachfolgenden (und potentiell damit in Beziehung stehenden) Aktivitäten sorgfältig und genau untersucht werden können.
Kontrolllisten müssen nicht nur einzig und allein auf dem identifizierten Konto basieren. Kontrolllisten können auf der Basis jeder Einzelheit verwaltet werden, die in dem Registrierungsprozess bereitgestellt wird, und können somit dazu verwendet werden, wiederholte, verteilte oder maskierte Angriffe zu erfassen.
• Registrierungsinformationen und freie Formularfelder.
Um Punkte aus einem Belohnungsprogramm zu sammeln und eine Einlösung zu erzielen, müssen sich Benutzer registrieren. Es werden und sollten signifikante Anreize angeordnet werden, um registrierte Benutzer davon zu überzeugen, zusätzliche Informationen bereitzustellen. Falls relevant, sollten auch freie Formularbearbeitungsfelder bereitgestellt werden. Man denke an die Kennwort-Hinweisfelder, die gegenwärtig in verschiedenen Webseiten/Ressourcen verwendet werden. Da diese ohne Text sind, sollten die Einträge, die von den Benutzern bereitgestellt werden, im Vergleich zu den vor handenen Listenauswahlfeldern erwartungsgemäß eine größere erwartete Abweichung aufweisen. Es wird schwieriger sein, diese Variation systematisch mit einem Robot zu erzielen. In ähnlicher Weise können andere freie Formularfelder, die entweder bei der Registrierung oder periodisch während der Seitenbenutzung verwendet werden, eine zusätzliche Einrichtung zur Identifizierung von Robotangriffen bereitstellen.
Die Registrierungsanalyse unternimmt auch routinemäßige Überprüfungen der Postanschrift und der Postleitzahl. Soundex (ein System, das von der US-Regierung entwickelt wurde) und andere Abgleichverfahren können dazu verwendet werden, eine Multiplizität an Registrierungen zu identifizieren. Ferner können die Zeiträume zwischen den Registrierungen ausgehend von mehreren ähnlichen Adressen für Hinweise auf mechanisierte Registrierungsprozesse geprüft werden.
Wenn während des Überwachungsschritts (Funktionsfeld 304) ein Rogue-Benutzer oder ein Robot vermutet wird, werden weitere Erfassungseinrichtungen verwendet, um zu versuchen, mit Sicherheit herauszufinden, ob der Benutzer wirklich ein Robot oder ein Rogue ist. Die Erfassungsverfahren, die verwendet werden, umfassen den Einsatz von intelligenten Systemen und traditionellen statistischen und algorithmischen Techniken, um zwischen Benutzerverhaltenscharakteristiken zu differenzieren. Diese Techniken können, müssen aber nicht eine der, einige der oder alle der gespeicherten Charakteristika verwenden, die oben im Einzelnen genannt sind. Zum Beispiel konzentriert sich eine Form der Analyse auf Weblogs, um eine Analyse der Häufigkeit des Zugriffs bereitzustellen. Dies erlaubt die Schätzung der Mutmaßlichkeit/Wahrscheinlichkeit, mit der ein Ereignis auftritt. Eine zweite Form der Analyse konzentriert sich auf Registrierungs- und IP-Informationen. Diese zweite Form überprüft zum Beispiel, wie viele Menschen scheinbar an einer einzigen Adresse leben, wie viele Menschen ein identisches oder ähnliches Kennwortfeld und/oder identische oder ähnliche Postleitzahlen verwenden.
Wenn einmal festgestellt ist (Funktionsfeld 308), dass ein Robot oder Rogue vorhanden ist und auf die Webseite zugreift, dann wird eine Entscheidung (Funktionsfeld 310) von dem System getroffen, ob es sich auf eingebaute (passive) Hindernisse des Systems verlassen soll, um den Rogue oder den Robot abzuschrecken, oder ob es aktive Hindernisse verwenden soll. Das Ersterwähnte wird zuerst beschrieben.
Passive Hindernisse oder Abschreckungsmittel sind Elemente in der Konstruktion der Webseite oder der Ressource, die Robot-unfreundlich sind. Mit anderen Worten, sie weisen Maßnahmen auf, die ergriffen werden, um zu versuchen, einen Robot zu verwirren oder zu Fall zu bringen. Diese können reguläre Seitenrekonstruktionen, Änderungen in den Formularfeldern und Web-Robotfallen, wie zum Beispiel rekursive Schleifen, umfassen. Wenn man die Letztgenannte dieser Maßnahmen genauer betrachtet, so führt das System rekursive Schleifen ein, um Robots und unintelligente Crawler zu fangen. Jede URL in einer Webseite ist anders, mit der Intention, Robots zum Narren zu halten. Diese Schleifen können so vorbestimmt sein, dass sie eine beträchtliche Länge aufweisen, womit gewährleistet wird, dass menschliche Benutzer schnell aufgeben würden, und wodurch eine direkte Identifikation von einfachen Robots ermöglicht wird.
Wenn das System feststellt, dass die darin enthaltenen passiven Hindernisse nicht ausreichend sind, um zu gewährleisten, dass der Robot oder Rogue weder auf die Webseite noch auf Bereiche davon zugreift, die das System schützen möchte, oder wenn das System den Robot oder Rogue hinauswerfen möchte, dann generiert es (Funktionsfeld 312) aktive Hindernisse. Natürlich können auch andere externe Verfahren zum Schutz des Systems verwendet werden, wie zum Beispiel die Aufhebung eines Kontos, die Beendigung des Zugriffs oder eine Bandbreitenbegrenzung.
Automatisierte Seitenzugriffsverfahren setzen definierte Seitenkonfigurationen und Seitenlayouts voraus. Robots verwenden Schablonen übereinstimmungen, um Formularfelder oder andere Elemente des Seiteninhalts, der von Interesse ist, zu identifizieren. Durch das dynamische Ändern des Seitenlayouts auf subtile Weise ist es möglich, automatische Seitenzugriffe zu verhindern oder abzuschrecken. Menschen sind offensichtlich anpassungsfähig genug, um mit beträchtlichen Änderungen im Layout klar zu kommen, aber dynamische Änderungen können so ausgeklügelt sein, dass ein menschlicher Benutzer überhaupt nichts von den Unterschieden wahrnimmt.
Es gibt zahlreiche dynamische Layout-Lösungswege, die verwendet werden können, um die Robot-Navigation auf diese Weise schwierig zu gestalten, wobei das System der vorliegenden Erfindung einen oder mehrere davon verwenden kann, die folgende einschließen:

– die Verwendung von verborgenem Text, Tabellenelementen oder Kommentarfeldern, um den Robot zu verwirren;
– Änderungen in der Feldanordnung;
– Umbenennung oder Randomisierung von Bearbeitungsfeldern oder Formularnamen;
– Hinzufügung von redundanten Informationen (wie zum Beispiel eine oder mehrere Zwischenseiten) oder von Verarbeitungsschritten (wie zum Beispiel ein oder mehrere Bestätigungsanforderungs-Dialogfelder), redundanten (möglicherweise verborgenen) Formularfeldern, Seitenverarbeitungsschritten, Umleitungen, etc.; und
– Änderung der Verwendung von Rahmen oder Tabellen, oder andere signifikante Layout-Änderungen.

Während es in vielen Fällen das Beste sein kann, verdächtigte Programm-Missbraucher von ihrer Aktivität nicht zu benachrichtigen, sondern diese einfach daran zu hindern, den Handel einzulösen, kann in einigen bestimmten Fällen eine aktive Antwort zweckdienlich sein. Solche Antworten reichen von Warn-E-Mails, die dem Benutzer zugestellt werden, bis zur dynamischen Inhaltsanpassung, wie bereits beschrieben, in einem Versuch, Robotangriffe zum Narren zu halten oder zu verifizieren. In ähnlicher Weise können Warn-E-Mails oder andere solche Warnungen oder Mitteilungen an andere Instanzen oder Institutionen gesendet werden, die zum Beispiel eine Überwachungsstation, eine Kontrollstelle oder den Betreiber der Webseite, die den entdeckten Missbrauch erfährt, umfassen können. Einen Missbraucher davon in Kenntnis zu setzen, dass sein Missbrauch entdeckt worden ist, kann dazu dienen, diesen zu "verscheuchen", oder zu bewirken, dass dieser Abstand von so einem Missbrauch nimmt.
Wenn die geeigneten oder ausgewählten Hindernisse generiert worden sind, werden sie entfaltet (Funktionsfeld 314). Wie oben im Einzelnen beschrieben worden ist, nehmen die Hindernisse unterschiedliche Formen an. Somit wird dann, wenn bestimmt wird, den Kontakt mit dem Robot oder Rogue zu beenden, dieses auch durchgeführt (Funktionsfeld 316), sonst kehrt das System zurück zu der Überwachung (Funktionsfeld 304) des Zugriffs oder der Transaktion und kann weitere dynamische Hindernisse auf die oben beschriebene Art und Weise einführen, wenn dies von dem System benötigt wird.
Die vorliegende Erfindung ist zwar unter Bezugnahme auf den Schutz einer Webseite beschrieben worden, die ein Belohnungsprogramm verwendet, aber es wird von dem fachkundigen Leser ohne weiteres erkannt werden, dass diese auch auf Internet-Suchmaschinen und andere solche Ressourcen angewendet werden kann, sowie auch auf den Schutz von Webseiten und Ressourcen, die keine Belohungsprogramme verwenden. Außerdem ist die Erfindung zwar als ein unabhängiges Modul beschrieben worden, das mit einem Webseiten-Generator oder einer Webseite verbunden werden kann, aber sie kann ohne weiteres auch als ein Bauelement davon ausgebildet sein. Bei diesem Szenario wird das System der vorliegenden Erfindung in eine Webseite oder Internet-Ressource, etc., bei der Konstruktion davon eingebaut oder kann zu einem späteren Zeitpunkt integriert werden. Eine Webseite etc., die so ein System integriert, ist mit den Mitteln versehen, Web-Robots, die unerlaubter Weise auf die Seite zugreifen, oder ein anderes Ro gue-Verhalten zu erfassen und zu bekämpfen. Die Seite muß nicht mit einem separaten Modul interagieren, um dies zu erreichen, sie kann auch als eine unabhängige Instanz laufen, während sie dennoch von dem Schutz profitiert, der von der vorliegenden Erfindung gewährt wird. Ferner kann das System in einem System oder dergleichen, bei dem der Zugriff berechtigt ist, dazu verwendet werden, reelle Benutzer-Statistiken zu überprüfen, d.h, die Anzahl an Zugriffen zu authentifizieren, die zum Beispiel von menschlichen Nutzern auf eine Seite ausgeführt werden.
Es wird selbstverständlich klar sein, dass die vorliegende Erfindung oben nur beispielshalber beschrieben worden ist, und dass Modifikationen von Einzelheiten innerhalb des Schutzbereichs der Erfindung durchgeführt werden können.

Claims

Verfahren zur Bekämpfung von unerwünschten Robot- oder Rogue-Zugriffen auf eine Webseite, das die folgenden Schritte umfasst: Überwachen (202, 304) der Zugriffe, die auf die Webseite erfolgen, um die Erfassung von Robot- oder Rogue-Zugriffen zu erleichtern; und gekennzeichnet durch die folgenden weiteren Schritte: auf das Erfassen (204, 308) hin, dass ein Robot- oder Rogue-Zugriff unterwegs ist, das Entfalten (206, 312, 314) von einem oder mehreren Hindernissen für diesen Zugriff, wobei die einen oder mehreren Hindernisse Formen der dynamischen Änderung des Seitenlayouts in der Webseite sind.
Verfahren nach Anspruch 1, wobei die Formen der dynamischen Änderung des Seitenlayouts ausgewählt werden aus: der Verwendung von verborgenem Text, Tabellenelementen oder Kommentarfeldern; Änderungen in der Feldanordnung; Umbenennung oder Randomisierung von Bearbeitungsfeldern oder Formularnamen; Hinzufügung von redundanten Informationen, Zwischenseiten, Verarbeitungsschritten, redundanten Formularfeldern, Dialogfenstern, Seitenverarbeitungsschritten, Umleitungen; und Änderung der Verwendung von Rahmen oder Tabellen.
Verfahren nach Anspruch 1 oder Anspruch 2, bei dem ein weiteres Hindernis ausgewählt werden kann, wobei dieses Hindernis die Generierung einer Warnung oder einer Mitteilung eines Seitenmissbrauchs ist.
Verfahren nach Anspruch 3, wobei die erzeugte Warnung oder Mitteilung einem oder mehreren aus einem in Verdacht stehenden Robot- System, einem Benutzer davon, einem Rogue-System oder -Benutzer, einer Bedienperson oder einem Eigentümer der Seite, die einen Missbrauch erfährt, einer Überwachungsstation oder einer Kontrollstelle zugestellt wird.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem ein oder mehrere weitere Hindernisse, die aus der Begrenzung der Bandbreite, der Sperrung eines Kontos und der Beendigung des Zugriffs ausgewählt werden, ebenfalls ausgewählt werden können.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Erfassens von solchen Zugriffen das anfängliche Identifizieren (308) eines möglichen Robot- oder Rogue-Zugriffs auf eine Webseite und das Ausführen von einer oder mehreren Prüfungen zur weiteren Bestimmung des Status einer Instanz, die den Zugriff ausführt/anfordert, umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Differenzierung zwischen den Verhaltenscharakteristiken verschiedener Benutzer verwendet wird, um die Erfassung zu erleichtern.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Überwachens sowohl in Echtzeit als auch offline durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Überwachens die Überwachung eines oder mehrerer aus dem Folgenden umfasst: gescheiterte Seitenanforderungen, Fehler, die mit Formularen oder anderen Systemzugriffen assoziiert sind; IP-Adressen, die auf die Webseite zugreifen; Modifikation und Aktualisierung von Cookies; Kontrolllisten; und Benutzerregistrierung, Benutzerprofile, Benutzerdomänen oder Benutzerzugriffszeiten.
System (100), das so konfiguriert ist, dass es unerwünschte Robot- oder Rogue-Zugriffe auf eine Webseite bekämpft, mit: wenigstens einem Erfassungssystem (106), das so konfiguriert ist, dass es ankommende Zugriffsanforderungen von einem Benutzer der Webseite empfängt und erfasst, wenn ein Robot- oder Rogue-Zugriff unterwegs ist; und gekennzeichnet durch: einen Hindernisgenerator (106) zum Generieren und Entfalten von einem oder mehreren Hindernissen für diesen Zugriff bei seiner Erfassung, wobei das eine oder die mehreren Hindernisse Formen der dynamischen Änderung des Seitenlayouts in der Webseite sind.
System nach Anspruch 10, wobei die Formen der dynamischen Änderung des Seitenlayouts ausgewählt werden aus: der Verwendung von verborgenem Text, verborgenen Tabellenelementen oder Kommentarfeldern; Änderungen in der Feldanordnung; Umbenennung oder Randomisierung von Bearbeitungsfeldern oder Formularnamen; Hinzufügung von redundanten Informationen, Zwischenseiten, Verarbeitungsschritten, redundanten Formularfeldern, Dialogfenstern, Seitenverarbeitungsschritten, Umleitungen; und Änderung der Verwendung von Rahmen oder Tabellen.
System nach Anspruch 10 oder Anspruch 11, wobei die Hindernisse, die zum Entfalten auswählbar sind, auch die Generierung einer Warnung oder einer Mitteilung des Seitenmissbrauchs umfassen.
System nach Anspruch 12, wobei die generierte Warnung oder Mitteilung einem oder mehreren aus einem in Verdacht stehenden Robot-System, einem Benutzer davon, einem Rogue-System oder -Benutzer, einer Bedienperson oder einem Eigentümer der Seite, die einen Missbrauch erfährt, einer Überwachungsstation oder einer Kontrollstelle zugestellt wird.
System nach einem der Ansprüche 10 bis 13, wobei die Hindernisse, die zum Entfalten auswählbar sind, auch die Begrenzung der Bandbreite, die Sperrung eines Kontos und die Beendigung des Zugriffs umfassen.
System nach einem der Ansprüche 10 bis 14, wobei das System auch ein oder mehrere eingebaute Hindernisse für Robot- oder Rogue-Zugriffe umfasst.
System nach Anspruch 15, wobei die in dem System eingebauten Hindernisse wenigstens eines aus einem regulären Webseiten-Rekonstruktionsprogramm, Änderungen in den Formularfeldern in der Webseite und Fallen, die rekursive Schleifen enthalten, umfassen.
System nach einem der Ansprüche 10 bis 16, wobei das Erfassungssystem eines oder mehrere aus dem Folgenden überwacht: gescheiterte Seitenanforderungen, Fehler, die mit Formularen oder anderen Systemzugriffen assoziiert sind; IP-Adressen, die Zugriff verlangen; Modifikation und Aktualisierung von Cookies; Kontrolllisten; und Benutzerregistrierungseinzelheiten, Benutzerprofile, Benutzerdomänen oder Benutzerzugriffszeiten.
System nach einem der Ansprüche 10 bis 17, das des Weiteren einen Datenspeicher umfasst, in dem die überwachten und/oder erfassten Einzelheiten aufgezeichnet werden.