-
Die
vorliegende Erfindung betrifft ein Verfahren und ein System zur
Verhinderung der betrügerischen
Benutzung von Webseiten und dergleichen. Genauer gesagt betrifft
die vorliegende Erfindung ein Verfahren und ein System zur Bekämpfung der
Benutzung solcher Webseiten und dergleichen durch Web-Robots und
andere solche Rogue-Instanzen (betrügerische Instanzen), einschließlich Menschen, die ähnlich wie
Web-Robots handeln.
-
Ein
Web-Robot ist eine Instanz, die konstruiert worden ist, um eine
bestimmte Aufgabe im Internet ohne die Notwendigkeit einer menschlichen
Interaktion damit durchzuführen.
Zwei unterschiedliche Beispiele werden hier zur Klarheit vorgebracht.
-
Ein
erster Web-Robot kann von einer Internet-Suchmaschine dazu verwendet
werden, seinen Weg durch Seiten im Internet zu arbeiten (dies wird allgemein
als Web Crawling bezeichnet), wobei er den Links folgt, auf die
er trifft, um eine brauchbare Ressource für die Suchmaschinennutzer bereitzustellen.
Mit anderen Worten, dieser Web-Robot folgt Links durch aufeinanderfolgende
Seiten in einer periodischen Art und Weise, z.B. einmal pro Woche,
um Webseitenaktualisierungen zu erfassen und der Suchmaschine Informationen
bereitzustellen, damit diese ihre Links aktualisieren kann, wodurch
eine aktuelle Ressource bereitgestellt wird.
-
Ein
zweiter Typ von Web-Robot, der unter gewissen Umständen als
ein Anathema betrachtet werden kann, ist eine Instanz, die so konfiguriert
ist, dass sie einen Satz von Befehlen kontinuierlich ausführt. So
betreiben zum Beispiel viele Webseiten Punkte- oder Belohnungsprogramme,
bei denen zum Beispiel bei der Registrierung und danach für das Ausführen von
verschiedenen Aktionen Punkte zugewiesen werden. Ein Web-Robot könnte dazu denen Aktionen
Punkte zugewiesen werden. Ein Web-Robot könnte dazu verwendet werden,
diese Aktionen durchzuführen,
wodurch die Zuweisung von Punkten erzielt wird, ohne dass der Gegenwert
für den
Anbieter dieser Punkte auf ihrer Seite von dem menschlichen Benutzer,
für den
diese Seite bestimmt ist, betrachtet worden wäre.
-
Zum
gegenwärtigen
Zeitpunkt gibt es eine steigende Anzahl von Personen/Benutzern,
die auf Online-Ressourcen zugreifen. In ähnlicher Weise gibt es eine
steigende Anzahl von automatisierten Systemen (Robots), die auf
Ressourcen zugreifen. Zusätzlich
zu diesen beiden Faktoren ist es bekannt, dass viele Internet-Seiten
oder -Ressourcen auf Einkommen aus Werbung angewiesen sind, um ihre
Kosten zu decken, und, wie bereits erwähnt worden ist, werden nun
Treueprogramme und Punktesammelprogramme als Anreiz zur Anziehung
von Nutzern zu gegebenen Seiten verwendet. Folglich können Web-Robots
des oben beschriebenen zweiten Typs und sogar die des ersten Typs
als ein Problem betrachtet werden, weil sie Ressourcen verwenden können, ohne
dass sie dem Ressourcenanbieter eine Gegenleistung bereitstellen,
d.h. ohne dass ein menschlicher Benutzer zum Beispiel die angebotene Werbung
betrachtet hat.
-
Online-Ressourcen
können
leicht umgepackt und wiederverwendet werden. Ein Beispiel eines
solchen Vorkommnisses ist eine Meta-Suchmaschine. Suchmaschinen
wie zum Beispiel Alta VistaTM, All the WebTM und GoogleTM stellen
ein einfaches Mittel bereit, um das Internet durch von einem Benutzer
eingegebene Textanfragen zu durchsuchen. Diese Seiten werden immer öfter von
Meta-Suchmaschinen benutzt, wie zum Beispiel die Maschinen, die
bei www.metacrawler.com, www.all4one.com und www.mamma.com zu finden sind,
die mehrere Anfragen unter Verwendung von verschiedenen Maschinen
gleichzeitig durchführen. Webseiten
sind auch einer automatischen Analyse und Abfragen von Web-Robots
ausgesetzt, die Datenerfassungen und andere automatisierte Aufgaben durchführen, wie
zum Beispiel das Triggern des Common Gateway Interface (CGI) oder
von Server- Nebenprogrammen,
die Navigation von Inhalten oder die Eingabe von Informationen als
Gegenleistung für
eine gewisse Form von Wertäquivalent,
wie vorher bereits erwähnt
worden ist.
-
Bei
kommerziellen Seiten kann es auch erwünscht sein, Robots oder die
Verwendung von Seiten durch Meta-Suchmaschinen zu verhindern. Obwohl
ein Web-Robot-Ausschlussstandard (Robot Exclusion Standard) existiert,
ist der Code freiwillig, und Robots können sich dafür entscheiden,
diesen zu ignorieren. Der Robot-Ausschlussstandard oder das Robot-Ausschlussprotokoll
ist ein Programm, durch das ein Administrator einer Webseite in
die Lage versetzt ist, Robots, die die Seite besuchen, auf diejenigen
Teile der Seite hinzuweisen, auf die sie nicht zugreifen sollen.
Wenn ein Robot auf eine Seite zugreift, so ist beabsichtigt, dass
er zuerst nach der Datei sucht, die diesen Standard oder dieses
Protokoll enthält.
Aber Meta-Suchmaschinen zum Beispiel und andere Robots ignorieren
diese Vorgehensweise. Somit besteht gegenwärtig keine effektive Verfahrensweise,
unerwünschte
Robot- oder Rogue-Aktivitäten
auf einer Webseite zu verhindern.
-
Dies
ist von noch größerer Bedeutung
wenn man die Werbung auf Webseiten als ein Mittel zur Einkommenserzeugung
betrachtet. Es besteht die Notwendigkeit zu garantieren, dass Seitenbesucher legitime
Benutzer sind, und folglich eine Notwendigkeit, zwischen Typen von
Systembenutzern zu unterscheiden. Dadurch können Werbetreibende versichert
sein, dass die Verbreitung ihrer Anzeigen an legitime Benutzer erfolgt,
und ermöglicht
ihnen, das inserierte Material selektiv an die passenden Benutzer zu
adressieren. Der Missbrauch eines Dienstes durch Robots oder Rogues
kann zu der Verweigerung dieses Dienstes für legitime Systembenutzer führen, was
an sich weiter zu unerwünschten
direkten Kosten für
ein Unternehmen (z.B. das Unternehmen, das die Webseite betreibt)
sowie auch indirekte Kosten, die mit dem Verlust des Einkommens
oder der Überlastung
von System-Ressourcen assoziiert sind, führt.
-
"How to keep bad robots,
spiders and web crawlers away" (wie
man böse
Robots, Spiders und Webcrawlers fernhält), httpa/web.archive.org/web/*/http://www.flleiner.com/bots,
offenbart einen Weg, böse
Robots zu fangen und diese daran zu hindern, weiter Zugriffe auszuführen, indem IP-Adressen
von erfassten Robot-Computern gesperrt werden.
-
Angesichts
des oben Gesagten haben die Erfinder herausgefunden, dass ein Bedarf
nach einem effektiven und effizienten Weg zur Bekämpfung von
unerwünschter
Robot- oder Rogue-Aktivität
auf einer Webseite besteht.
-
Im
Hinblick auf das oben Erwähnte
wird ein Verfahren zur Bekämpfung
unerwünschter
Robot-Aktivität
auf einer Webseite vorgesehen, wie es in Anspruch 1 beansprucht
wird.
-
Die
vorliegende Erfindung stellt die Vorteile bereit, dass sie den Missbrauch
von Systemressourcen verhindert. Die Webseitenverwendung durch unberechtigte
externe Organisationen, das Umpacken von Ressourcen und die Meta-Verwendung
werden effektiv verhindert. Außerdem
dient die Erfindung als Schutz vor der unlauteren Ansammlung von
Punkten in einem Treueprogramm oder irgendeinem anderen solchen
Programm, das Anreize für
Nutzer anbietet, die eine Internet-Ressource besuchen. Ein weiterer Vorteil
ist die Überprüfung der
Zugriffsnummern von legitimen Nutzern. Dies ermöglicht es einer Seite, potentiellen
Werbetreibenden konkrete Informationen bezüglich des Umfangs einer potentiellen
Verbreitung einer Werbung bereitzustellen. Schließlich dient die
vorliegende Erfindung als ein Schutz vor Betrug. Sie wird dahingehend
wirken, dass skrupellose Personen daran gehindert werden, Webseiten
mit assoziierter Werbung und Einkommen daraus zu erstellen, dann
einen Robot einzurichten, um den Zugriff darauf zu erhöhen, wodurch
eine Erhöhung
des erzeugten Einkommens vorgesehen wird.
-
In
einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung umfasst der Schritt der Erfassung solcher
Zugriffe das anfängliche
Identifizieren eines möglichen
Robot- oder robotähnlichen Zugriffs
auf eine Webseite und das Ausführen
von einer oder mehreren Prüfungen
zur Bestimmung des Status einer Instanz, die den Zugriff ausführt.
-
Vorzugsweise
wird eine Differenzierung zwischen den Verhaltenscharakteristika
verschiedener Nutzer verwendet, um die Erfassung zu erleichtern.
-
Vorzugsweise
können
die Hindernisse die Generierung einer Warnung oder einer Mitteilung
eines Seitenzugriffmissbrauchs umfassen. Die erzeugte Warnung oder
Mitteilung kann einem oder mehreren aus einem in Verdacht stehenden
Robot-System, einem Benutzer davon, einer Bedienperson oder einem
Eigentümer
der Seite, die einen Missbrauch erfährt, einer Überwachungsstation oder einer
Kontrollstelle zugestellt werden.
-
In
noch einem weiteren bevorzugten Ausführungsbeispiel wird der Schritt
des Überwachens
sowohl in Echtzeit als auch offline durchgeführt. Vorzugsweise umfasst der
Schritt des Überwachens
die Überwachung
eines oder mehrerer aus dem Folgenden:
gescheiterte Seitenanforderungen,
Fehler, die mit Formularen oder anderen Systemzugriffen assoziiert sind;
IP-Adressen,
die auf die Webseite zugreifen;
Modifikation und Aktualisierung
von Cookies;
Kontrolllisten; und
Benutzerregistrierungseinzelheiten,
Benutzerprofile, Benutzerdomänen
oder Benutzerzugriffszeiten.
-
Ebenfalls
in Übereinstimmung
mit der vorliegenden Erfindung wird ein System bereitgestellt, das so
konfiguriert ist, dass es eine unerwünschte Robot-Aktivität auf einer
Webseite bekämpft,
wie dies im nachstehenden Anspruch 10 beansprucht wird.
-
Natürlich kann
es Umstände
geben, bei denen Hindernisse nicht generiert oder entfaltet werden.
Ein solcher Umstand kann zum Beispiel das erfasste Vorhandensein
eines Web-Robots auf einer Webseite sein, der berechtigt ist, dort
zu sein.
-
Vorzugsweise
umfasst das System ein oder mehrere eingebaute Hindernisse für Rogue-
oder Robot-Zugriffe.
-
Vorzugsweise
umfassen die in dem System eingebauten Hindernisse wenigstens eines
aus einem regulären
Webseiten-Rekonstruktionsprogramm, Änderungen in den Formularfeldern
in der Webseite und Robot- oder Rogue-Fallen, die rekursive Schleifen umfassen.
Noch bevorzugter können die
entfalteten Hindernisse eine erzeugte Warnung oder Mitteilung eines
Webseitenmissbrauchs durch einen Rogue oder Robot enthalten. Die
erzeugte Warnung oder Mitteilung kann einem oder mehreren aus einem
verdächtigten
Rogue- oder Robot-System oder dem/den Benutzer(n) davon zugestellt
werden. Es kann auch eine Mitteilung an eine Überwachungsstation oder eine
Kontrollstelle etc. erfolgen. Eine solche Station oder Stelle kann
zum Beispiel eine öffentliche
Körperschaft
oder eine private Körperschaft sein.
-
In
einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung überwacht
das Erfassungssystem eines oder mehrere aus dem Folgenden:
gescheiterte
Seitenanforderungen, Fehler, die mit Rahmen oder anderen Systemzugriffen
assoziiert sind;
IP-Adressen, die Zugriff verlangen;
Modifikation
und Aktualisierung von Cookies;
Kontrolllisten; und
Benutzerregistrierungseinzelheiten,
Benutzerprofile, Benutzerdomänen
oder Benutzerzugriffszeiten.
-
Außerdem kann
das System in Abhängigkeit von
der Version des verwendeten Browser zum Beispiel auf weitere Informationen
zugreifen und/oder diese überwachen,
die von dem Browser oder dem System, das den Browser unterstützt, über den
Benutzer davon bereitgestellt werden.
-
In
noch einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden
Erfindung umfasst das System des Weiteren einen Datenspeicher, in dem
die überwachten
und/oder erfassten Einzelheiten oder Charakteristiken aufgezeichnet
werden.
-
Ein
spezifisches Ausführungsbeispiel
der vorliegenden Erfindung wird nun nur beispielshalber unter Bezugnahme
auf die beigefügten
Zeichnungen beschrieben, in denen:
-
1 eine
Veranschaulichung einer möglichen
Implementierung des Systems der vorliegenden Erfindung ist;
-
2 ein
Ablaufdiagramm ist, das einen Überblick über das
Verfahren der vorliegenden Erfindung präsentiert; und
-
3 ein
Ablaufdiagramm ist, das im Einzelnen das Verfahren gemäß der vorliegenden
Erfindung darstellt.
-
Unter
Bezugnahme auf 1 der Zeichnungen umfasst das
System 100 eine Anzahl von diskreten und dennoch miteinander
verbindbaren Elementen. Erstens gibt es eine Anzahl von entfernt
aufgestellten Benutzer-Endgeräten 102,
und zweitens gibt es ein entferntes Systemmodul oder einen entfernten Server 104.
Jeder Benutzer kann sich mit dem Server verbinden, um Zugriff auf
die darauf befindlichen Ressource(n) zu erlangen. Eine solche Verbindung erfolgt über das
Internet oder irgendeinen anderen Kommunikationskanal, wie zum Beispiel
ein betriebsinternes Intranet, und kann feste Verbindungskommunikationssysteme,
mobile oder Luftschnittstellen- Kommunikationssysteme
oder irgendein anderes geeignetes Kommunikationssystem verwenden.
-
Wie
zu sehen ist, befindet sich das System der vorliegenden Erfindung,
das hier mit "Identifikation
und Bekämpfung" 106 bezeichnet
wird, in dem Server 104, Seite an Seite und verbindbar
mit einem Webseiten-Generator und Ressourcen 108. Aber
in einem anderen Ausführungsbeispiel
kann sich das "Identifikations-
und Bekämpfungs-"Modul 106 in
einem Server befinden, der keinen Webseiten-Generator und Ressourcen
enthält,
aber mit einem zweiten Server verbindbar ist, der einen solchen
Generator und solche Ressourcen enthält. Das Identifikations- und
Bekämpfungs-Modul
dient dazu, den Zugriff von Web-Robots oder Rogues/Rogue-Benutzern
auf die Webseite zu regulieren, die auf Anforderung hin generiert
wird oder auf die auf Anforderung hin zugegriffen wird.
-
Der
Betrieb des Systems von 1 wird nun unter Bezugnahme
auf 2 beschrieben. Wie zu sehen ist, arbeitet das
Identifikations- und Bekämpfungs-Modul 106 folgendermaßen. Das
Modul kann sich Seite an Seite mit einer Webseite befinden, auf die
Zugriff verlangt wird, und wenn es so angeordnet ist, überwacht
es die Zugriffsanforderungen und die Zugriffe, die auf die Webseite
ausgeführt
werden (Funktionsfeld 202). Natürlich kann das Modul auch unabhängig von
einer Webseite vorhanden sein, d.h. zum Beispiel irgendwo anders
in einem Server oder in einem separaten Server oder dergleichen,
und kann immer noch so arbeiten, dass es den Zugriff darauf überwacht.
Zu einem solchen Zeitpunkt, an dem die Überwachung solcher Zugriffsanforderungen
und Zugriffe anzeigt, dass ein Robot oder Rogue anwesend ist und
auf die Webseite zugreift (Funktionsfeld 204), kann das
Modul Schutzmaßnahmen generieren
oder verwenden, falls dies notwendig sein sollte, um den Zugriff
zu beschränken,
der für
den Robot oder den Rogue zur Verfügung steht, oder um die Verbindung
damit zu beenden und jeglichen Versuch einer erneuten Verbindung
zu vereiteln (Funktionsfeld 206). Mit an deren Worten, das
System kann den identifizierten Web-Robot oder den Rogue/Rogue-Benutzer
bekämpfen.
-
Der
Betrieb des Systems wird nun unter Bezugnahme auf 3 genauer
beschrieben. Wie offensichtlich ist, überwacht das Identifikations-
und Bekämpfungs-Modul 106 die
Zugriffe und Zugriffsanforderungen, die bezüglich der Webseite erfolgen. Anfänglich werden
diese Anforderungen etc. von dem Modul empfangen (Funktionsfeld 302),
damit das Modul die Charakteristika der Seitenzugriffssitzung und
des Benutzers überwachen
kann, d.h. um zu versuchen, eine Rogue- oder Robot-Instanz zu entdecken
(Funktionsfeld 304). Das Überwachen der Zugriffe und
der Zugriffsanforderungen, die bezüglich der Webseite erfolgen,
damit Robots oder Rogues entdeckt werden können, kann sowohl in Echtzeit, d.h.
während
solche Zugriffe auftreten, als auch offline durchgeführt werden.
-
Wenn
die Überwachung
in Echtzeit ausgeführt
wird, sind einfache Metriken erforderlich, damit diese schnell ausgeführt werden
können.
Die Notwendigkeit einer schnellen Verarbeitung ist Echtzeitoperationen
inhärent.
Ein Hauptbeispiel einer Echtzeitmetrik ist die Auferlegung eines
Zugriffshäufigkeitsschwellwerts.
So kann zum Beispiel von einem menschlichen Benutzer erwartet werden,
dass er dreimal am Tag auf eine Webseite zugreift, wohingegen ein
Web-Robot ohne weiteres mehrere Male pro Sekunde auf eine Webseite
zugreifen könnte.
Demgemäss
kann ein realistischer Zugriffshäufigkeitsschwellwert
gesetzt werden. Wenn diese Häufigkeit überschritten
wird, kann der Zugriff verweigert werden.
-
Offline-Überwachungsverfahren
können
es sich leisten, zeitintensiver zu sein. Diese Verfahren umfassen
typischerweise, aber sind nicht beschränkt auf die Korrelation von
Mustern. Muster können
zum Beispiel bei mehreren Registrierungen an einem Ort, Benutzerregistrierungseinzelheiten
und dergleichen gefunden werden.
-
Bei
der Überwachung
wird nach bestimmten Charakteristika und Ereignissen Ausschau gehalten. Diese
umfassen, sind aber nicht beschränkt
auf gescheiterte Seitenanforderungen, Fehler, die mit Formularen
oder anderen Systemzugriffen assoziiert sind, das wiederholte Auftreten
von IP-Adressen, die eine Verbindung mit der Webseite verlangen,
Modifikation und Aktualisierungen von Cookies, Kontrolllisten, das
wiederholte Auftreten von Benutzerregistrierungen, Benutzerprofilen
und anderen Einzelheiten, einschließlich E-Mail- oder physikalische
Adressen, Domains und Zugriffszeiten, etc. Ein wichtiger Hinweis
auf eine Robotverwendung einer Webseite ist die Häufigkeit
von Webseitenbesuchen durch einen Nutzer oder eine Anzahl von Nutzern.
Die Überwachung
dieses Merkmals erlaubt es, dass ein Muster der Benutzung der Webseite
erstellt werden kann. Wenn zum Beispiel ein Benutzer auf eine Seite
zehnmal pro Sekunde zugreift, ist dies ein Hinweis darauf, dass
der Nutzer ein Web-Robot ist.
-
Die
Erfassung von Web-Robots oder -Rogues erfordert es, dass eine Analyse
der Benutzeraktivität
ausgeführt
wird, damit ein anomales Verhalten, das potentiell auf einen Systemressourcen-, einen
Belohungsprogramm- oder einen anderen derartigen Missbrauch hinweist,
identifiziert werden kann. Um eine Rogue-Aktivität zu erfassen, müssen bestimmte
Transaktions- oder Zugriffs-Einzelheiten gesammelt werden. Folglich
werden viele der überwachten
Charakteristika zur Verwendung bei der Erfassung gespeichert (Funktionsfeld 306).
Solche Informationen sind unten im Einzelnen aufgeführt. Aber obwohl
alle der unten genannten Informationen nützlich sein könnten, werden
sie nicht notwendigerweise alle bei jeder Implementierung der vorliegenden
Erfindung gespeichert werden. Die Speicherung wird in der Form eines
Bereichs eines Speichers, der für
diesen Zweck zugewiesen wird, entweder auf dem Server oder anderswo
vorgesehen.
-
• Zurückverfolgen gescheiterter Versuche,
auf Systemressourcen zuzugreifen.
-
Dies
kann, muß aber
nicht synonym zu gescheiterten Versuchen sein, Belohnungen zu erlangen.
Gegenwärtig
liefern Webserver bei Punkteprämien-(-belohnungs-)Programmen
auf Webseiten lediglich Informationen an Datenbanken/Speichersysteme,
die die erfolgreiche Gewährung
von Punkten betreffen. Es ist wahrscheinlich, dass beim Herausfinden
von Verfahren zur erfolgreichen automatischen Einlösung von
Punktekonten, die von Robots gesteuert werden, ebenso daran scheitern
werden, Punkte aus verschiedenen Aktivitäten zu sammeln. Diese Fehlschläge liefern
wertvolle Informationen bezüglich
der Rogue-Punktesammlung, und die Transaktionen, oder eine komprimierte
Darstellung davon, werden für
eine nachfolgende Analyse gespeichert. Dies trifft auch für Systeme
zu, bei denen versucht wird, auf Systemressourcen zuzugreifen. Die
Speicherung von gescheiterten Versuchen, auf Systemressourcen zuzugreifen
und/oder diese zu verwenden, wird wertvolle Informationen bezüglich der Rogue-Zugriffsversuche
bereitstellen.
-
• Zurückverfolgen der IP-Adressen
für jede
Seitenanforderung.
-
Dies
liefert wertvolle Informationen für die nachfolgende Analyse
und kann direkt dazu verwendet werden, Punkteansammlungen für ein einzelnes Konto
zu verhindern, die für
Anforderungen von unterschiedlichen Knoten, z.B. unterschiedlichen
PCs, gleichzeitig (oder in einem kurzen Zeitraum) gegeben werden.
Somit werden IP-Adressen, die Seiten anfordern, gespeichert. Mit
anderen Worten, die IP-Adresse einer Maschine gibt die grobe geographische
Position dieser Maschine bekannt. Diese Information kann dazu verwendet
werden, festzustellen, ob es dieser Maschine möglich ist, Zugriffe auf ein
System von unterschiedlichen Positionen aus, wie zum Beispiel Großbritannien
und Nordamerika, durchgeführt zu
haben.
-
• Zurückverfolgen der gesamten Punktesammlung von
einzelnen oder Gruppen von IP-Adressen.
-
Mehrere
legitime Benutzer können
durch einen einzigen Router laufen, aber ein aufeinanderfolgendes
Pooling kann ein Hinweis auf ein betrügerisches Verhalten sein. Demgemäss wird
die Punktesammlung etc. pro IP-Adresse oder pro Gruppe von IP-Adressen
gespeichert, wenn dies zweckdienlich erscheint. Dies trifft vor
allem für
Pro gramme zu, bei denen das Pooling von Belohnungen/Punkten und deren
nachfolgendem Transfer auf ein einziges Konto erlaubt ist. Die gespeicherten
Informationen werden dazu verwendet, zu versuchen, Muster von koordiniertem
Verhalten von Benutzern zu bestimmen. Dies kann ein legales Verhalten
sein oder kann ein unerlaubtes Verhalten sein.
-
• Speicherung eines längeren Zeitraums
von Transaktionen.
-
Gegenwärtig werden
volle Transaktions- oder Zugriffsverläufe in der Form der Weblogs,
die von dem Webserver generiert werden, nur für einen sehr kurzen Zeitraum
verwaltet. Längere
Perioden von Transaktionen oder komprimierte Darstellungen davon
können
zusätzliche
wertvolle Informationen bei der Erfassung von auf Robots basierender
Punktesammlung liefern und werden somit gespeichert. Dies kann auch
für die
Einschätzung
der Wahrscheinlichkeit, dass ein Ereignis tatsächlich stattfindet, von Vorteil
sein. Somit kann dann, wenn ein Ereignis auftritt, dessen Auftreten
als unwahrscheinlich betrachtet wird, dieses Ereignis von dem System
mit Misstrauen behandelt werden.
-
• Kontrolllisten-Erstellung.
-
Auf
der Basis der Identifizierung eines ungewöhnlichen Verhaltens durch registrierte
Benutzer ist es wünschenswert,
einen Vermerk der Identifizierung dieses Benutzers zu machen, so
dass eine nachfolgende Interaktion automatisch rigoroser hinterfragt werden
kann. In Kombination mit dem ersten Punkt, der oben aufgeführt ist,
stellt dies einen Informationsmechanismus bereit, der im Hinblick
auf ein Belohnungsprogramm gesammelt werden soll und der als "Schlüssel" dienen kann, der
bei der nachfolgenden Erfassung eines anomalen Verhaltens hilft.
Die Verwendung von Kontrolllisten kann die Echtzeit-Überwachungsprogramme
ergänzen.
Zum Beispiel kann eine Kontrollliste dazu verwendet werden, zu kontrollieren,
ob ein bestimmter Benutzer einen Zugriff versucht, und dann, wenn
dieser Benutzer einen Versuch unternimmt, auf die Webseite oder
das System zuzugreifen, zu bewirken, dass der Zugriff verweigert wird.
-
Kontrolllisten
werden auch dazu verwendet, Informationen zu speichern (falls möglich),
die anonyme Nutzer betreffen. Die Gründe dafür sind, dass zum Beispiel diejenigen,
die Robots erschaffen wollen, die in der Lage sind, Punkte aus einem
Belohnungsprogramm zu sammeln, sehr wahrscheinlich anonyme Konten
verwenden werden, während
sie ihre Technologie entwickeln. Somit können gescheiterte Versuche
bei der Punktesammlung durch anonyme Benutzer nützliche Informationen für die Querverweisung
zu einer zukünftigen
erfolgreichen Punktesammlungsaktivität offenbaren.
-
In
Kombination mit anderen Erfassungsverfahren stellen Kontrolllisten
einen leistungsfähigen Mechanismus
für die
Erfassung von Robotangriffen bereit. Selbst wenn ein Benutzer immer
noch raffiniertere Robots erschafft, werden sie durch ihre früheren Versuche
des Eindringens mit Robots in die Kontrolllisten eingetragen, wodurch
gewährleistet wird,
dass alle nachfolgenden (und potentiell damit in Beziehung stehenden)
Aktivitäten
sorgfältig
und genau untersucht werden können.
-
Kontrolllisten
müssen
nicht nur einzig und allein auf dem identifizierten Konto basieren.
Kontrolllisten können
auf der Basis jeder Einzelheit verwaltet werden, die in dem Registrierungsprozess
bereitgestellt wird, und können
somit dazu verwendet werden, wiederholte, verteilte oder maskierte
Angriffe zu erfassen.
-
• Registrierungsinformationen
und freie Formularfelder.
-
Um
Punkte aus einem Belohnungsprogramm zu sammeln und eine Einlösung zu
erzielen, müssen
sich Benutzer registrieren. Es werden und sollten signifikante Anreize
angeordnet werden, um registrierte Benutzer davon zu überzeugen,
zusätzliche
Informationen bereitzustellen. Falls relevant, sollten auch freie
Formularbearbeitungsfelder bereitgestellt werden. Man denke an die
Kennwort-Hinweisfelder, die gegenwärtig in verschiedenen Webseiten/Ressourcen
verwendet werden. Da diese ohne Text sind, sollten die Einträge, die
von den Benutzern bereitgestellt werden, im Vergleich zu den vor handenen
Listenauswahlfeldern erwartungsgemäß eine größere erwartete Abweichung aufweisen.
Es wird schwieriger sein, diese Variation systematisch mit einem
Robot zu erzielen. In ähnlicher
Weise können andere
freie Formularfelder, die entweder bei der Registrierung oder periodisch
während
der Seitenbenutzung verwendet werden, eine zusätzliche Einrichtung zur Identifizierung
von Robotangriffen bereitstellen.
-
Die
Registrierungsanalyse unternimmt auch routinemäßige Überprüfungen der Postanschrift und der
Postleitzahl. Soundex (ein System, das von der US-Regierung entwickelt
wurde) und andere Abgleichverfahren können dazu verwendet werden, eine
Multiplizität
an Registrierungen zu identifizieren. Ferner können die Zeiträume zwischen
den Registrierungen ausgehend von mehreren ähnlichen Adressen für Hinweise
auf mechanisierte Registrierungsprozesse geprüft werden.
-
Wenn
während
des Überwachungsschritts (Funktionsfeld 304)
ein Rogue-Benutzer
oder ein Robot vermutet wird, werden weitere Erfassungseinrichtungen
verwendet, um zu versuchen, mit Sicherheit herauszufinden, ob der
Benutzer wirklich ein Robot oder ein Rogue ist. Die Erfassungsverfahren,
die verwendet werden, umfassen den Einsatz von intelligenten Systemen
und traditionellen statistischen und algorithmischen Techniken,
um zwischen Benutzerverhaltenscharakteristiken zu differenzieren.
Diese Techniken können,
müssen
aber nicht eine der, einige der oder alle der gespeicherten Charakteristika verwenden,
die oben im Einzelnen genannt sind. Zum Beispiel konzentriert sich
eine Form der Analyse auf Weblogs, um eine Analyse der Häufigkeit
des Zugriffs bereitzustellen. Dies erlaubt die Schätzung der Mutmaßlichkeit/Wahrscheinlichkeit,
mit der ein Ereignis auftritt. Eine zweite Form der Analyse konzentriert sich
auf Registrierungs- und IP-Informationen. Diese zweite Form überprüft zum Beispiel,
wie viele Menschen scheinbar an einer einzigen Adresse leben, wie
viele Menschen ein identisches oder ähnliches Kennwortfeld und/oder
identische oder ähnliche Postleitzahlen
verwenden.
-
Wenn
einmal festgestellt ist (Funktionsfeld 308), dass ein Robot
oder Rogue vorhanden ist und auf die Webseite zugreift, dann wird
eine Entscheidung (Funktionsfeld 310) von dem System getroffen, ob
es sich auf eingebaute (passive) Hindernisse des Systems verlassen
soll, um den Rogue oder den Robot abzuschrecken, oder ob es aktive
Hindernisse verwenden soll. Das Ersterwähnte wird zuerst beschrieben.
-
Passive
Hindernisse oder Abschreckungsmittel sind Elemente in der Konstruktion
der Webseite oder der Ressource, die Robot-unfreundlich sind. Mit
anderen Worten, sie weisen Maßnahmen
auf, die ergriffen werden, um zu versuchen, einen Robot zu verwirren
oder zu Fall zu bringen. Diese können
reguläre
Seitenrekonstruktionen, Änderungen
in den Formularfeldern und Web-Robotfallen, wie zum Beispiel rekursive
Schleifen, umfassen. Wenn man die Letztgenannte dieser Maßnahmen
genauer betrachtet, so führt
das System rekursive Schleifen ein, um Robots und unintelligente
Crawler zu fangen. Jede URL in einer Webseite ist anders, mit der
Intention, Robots zum Narren zu halten. Diese Schleifen können so
vorbestimmt sein, dass sie eine beträchtliche Länge aufweisen, womit gewährleistet
wird, dass menschliche Benutzer schnell aufgeben würden, und wodurch
eine direkte Identifikation von einfachen Robots ermöglicht wird.
-
Wenn
das System feststellt, dass die darin enthaltenen passiven Hindernisse
nicht ausreichend sind, um zu gewährleisten, dass der Robot oder Rogue
weder auf die Webseite noch auf Bereiche davon zugreift, die das
System schützen
möchte,
oder wenn das System den Robot oder Rogue hinauswerfen möchte, dann
generiert es (Funktionsfeld 312) aktive Hindernisse. Natürlich können auch
andere externe Verfahren zum Schutz des Systems verwendet werden,
wie zum Beispiel die Aufhebung eines Kontos, die Beendigung des
Zugriffs oder eine Bandbreitenbegrenzung.
-
Automatisierte
Seitenzugriffsverfahren setzen definierte Seitenkonfigurationen
und Seitenlayouts voraus. Robots verwenden Schablonen übereinstimmungen,
um Formularfelder oder andere Elemente des Seiteninhalts, der von
Interesse ist, zu identifizieren. Durch das dynamische Ändern des Seitenlayouts
auf subtile Weise ist es möglich,
automatische Seitenzugriffe zu verhindern oder abzuschrecken. Menschen
sind offensichtlich anpassungsfähig
genug, um mit beträchtlichen Änderungen
im Layout klar zu kommen, aber dynamische Änderungen können so ausgeklügelt sein,
dass ein menschlicher Benutzer überhaupt
nichts von den Unterschieden wahrnimmt.
-
Es
gibt zahlreiche dynamische Layout-Lösungswege, die verwendet werden
können,
um die Robot-Navigation auf diese Weise schwierig zu gestalten,
wobei das System der vorliegenden Erfindung einen oder mehrere davon
verwenden kann, die folgende einschließen:
- – die Verwendung
von verborgenem Text, Tabellenelementen oder Kommentarfeldern, um
den Robot zu verwirren;
- – Änderungen
in der Feldanordnung;
- – Umbenennung
oder Randomisierung von Bearbeitungsfeldern oder Formularnamen;
- – Hinzufügung von
redundanten Informationen (wie zum Beispiel eine oder mehrere Zwischenseiten)
oder von Verarbeitungsschritten (wie zum Beispiel ein oder mehrere
Bestätigungsanforderungs-Dialogfelder),
redundanten (möglicherweise
verborgenen) Formularfeldern, Seitenverarbeitungsschritten, Umleitungen,
etc.; und
- – Änderung
der Verwendung von Rahmen oder Tabellen, oder andere signifikante
Layout-Änderungen.
-
Während es
in vielen Fällen
das Beste sein kann, verdächtigte
Programm-Missbraucher
von ihrer Aktivität
nicht zu benachrichtigen, sondern diese einfach daran zu hindern,
den Handel einzulösen, kann
in einigen bestimmten Fällen
eine aktive Antwort zweckdienlich sein. Solche Antworten reichen von
Warn-E-Mails, die dem Benutzer zugestellt werden, bis zur dynamischen
Inhaltsanpassung, wie bereits beschrieben, in einem Versuch, Robotangriffe zum
Narren zu halten oder zu verifizieren. In ähnlicher Weise können Warn-E-Mails oder andere
solche Warnungen oder Mitteilungen an andere Instanzen oder Institutionen
gesendet werden, die zum Beispiel eine Überwachungsstation, eine Kontrollstelle oder
den Betreiber der Webseite, die den entdeckten Missbrauch erfährt, umfassen
können.
Einen Missbraucher davon in Kenntnis zu setzen, dass sein Missbrauch
entdeckt worden ist, kann dazu dienen, diesen zu "verscheuchen", oder zu bewirken,
dass dieser Abstand von so einem Missbrauch nimmt.
-
Wenn
die geeigneten oder ausgewählten Hindernisse
generiert worden sind, werden sie entfaltet (Funktionsfeld 314).
Wie oben im Einzelnen beschrieben worden ist, nehmen die Hindernisse
unterschiedliche Formen an. Somit wird dann, wenn bestimmt wird,
den Kontakt mit dem Robot oder Rogue zu beenden, dieses auch durchgeführt (Funktionsfeld 316),
sonst kehrt das System zurück
zu der Überwachung
(Funktionsfeld 304) des Zugriffs oder der Transaktion und
kann weitere dynamische Hindernisse auf die oben beschriebene Art
und Weise einführen,
wenn dies von dem System benötigt
wird.
-
Die
vorliegende Erfindung ist zwar unter Bezugnahme auf den Schutz einer
Webseite beschrieben worden, die ein Belohnungsprogramm verwendet,
aber es wird von dem fachkundigen Leser ohne weiteres erkannt werden,
dass diese auch auf Internet-Suchmaschinen und andere solche Ressourcen angewendet
werden kann, sowie auch auf den Schutz von Webseiten und Ressourcen,
die keine Belohungsprogramme verwenden. Außerdem ist die Erfindung zwar
als ein unabhängiges
Modul beschrieben worden, das mit einem Webseiten-Generator oder
einer Webseite verbunden werden kann, aber sie kann ohne weiteres
auch als ein Bauelement davon ausgebildet sein. Bei diesem Szenario
wird das System der vorliegenden Erfindung in eine Webseite oder
Internet-Ressource, etc., bei der Konstruktion davon eingebaut oder
kann zu einem späteren
Zeitpunkt integriert werden. Eine Webseite etc., die so ein System
integriert, ist mit den Mitteln versehen, Web-Robots, die unerlaubter Weise auf die
Seite zugreifen, oder ein anderes Ro gue-Verhalten zu erfassen und
zu bekämpfen.
Die Seite muß nicht
mit einem separaten Modul interagieren, um dies zu erreichen, sie
kann auch als eine unabhängige
Instanz laufen, während
sie dennoch von dem Schutz profitiert, der von der vorliegenden
Erfindung gewährt wird.
Ferner kann das System in einem System oder dergleichen, bei dem
der Zugriff berechtigt ist, dazu verwendet werden, reelle Benutzer-Statistiken
zu überprüfen, d.h,
die Anzahl an Zugriffen zu authentifizieren, die zum Beispiel von
menschlichen Nutzern auf eine Seite ausgeführt werden.
-
Es
wird selbstverständlich
klar sein, dass die vorliegende Erfindung oben nur beispielshalber
beschrieben worden ist, und dass Modifikationen von Einzelheiten
innerhalb des Schutzbereichs der Erfindung durchgeführt werden
können.