DE60126798T2

DE60126798T2 - Verfahren zum durchsuchen und analysieren von informationen in datennetzen

Info

Publication number: DE60126798T2
Application number: DE60126798T
Authority: DE
Inventors: Bjørn OLSTAD; Knurt Magne Risvik
Original assignee: Fast Search and Transfer AS
Current assignee: Fast Search and Transfer AS
Priority date: 2000-09-14
Filing date: 2001-09-11
Publication date: 2007-10-31
Anticipated expiration: 2021-09-12
Also published as: CA2420382C; PL360714A1; US20020032772A1; NO313399B1; BRPI0113882B1; HUP0301788A2; KR20030048045A; BR0113882A; ATE354831T1; CA2420382A1; CN1279475C; NO20004595D0; EP1325434A1; WO2002023398A1; IS6735A; JP2004509415A; IL154492A0; CZ2003510A3; US7093012B2; CN1459064A

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Durchsuchen und Analysieren des Verkehrsinhalts an Zugangspunkten in Datennetzen, wobei die Datennetze gemeinsam genutzte Netzressourcen, insbesondere das vollständige Internet oder ein Intranet, sind, wobei die Zugangspunkte insbesondere Internet-Zugangspunkte für Nutzer sind, die Dienste eines Internet-Serviceproviders in Anspruch nehmen, oder in der Form einer Anwendung für mehrere Nutzer verteilt sind oder ein Verbindungspunkt für Drahtlos-Nutzer sind, wobei der Verbindungspunkt entweder ein nativer Verbindungspunkt oder ein Internet-Gateway für mehrere Verbindungspunkte ist.
Die Erfindung betrifft verbesserte Informationsabrufverfahren und -systeme. Genauer gesagt, betrifft die vorliegende Erfindung Informationsabrufverfahren und -systeme, die auf Informationen im Internet oder in Intranets über verdrahtete oder drahtlose Schnittstellen zugreifen. Noch genauer gesagt, betrifft die vorliegende Erfindung Intranet- und Internet-gestützte Suchmaschinen und Alarmdienste.
Elektronische Informationsressourcen nehmen rasch sowohl im Internet als auch in geschlossenen Intranets zu. Diese Art elektronischer Informationen verdrängt zunehmend die herkömmlicheren Informationsquellen, wie zum Beispiel Tageszeitungen, Zeitschriften und sogar das Fernsehen. Die Größe dieser Informationsdatenbanken wächst derzeit nahezu exponentiell.
Der relevante allgemeine Stand der Technik kann in folgenden Publikationen nachgelesen werden:

S. Brin und L. Page, The anatomy of a large-scale hypertextual web search engine, Proceedings of the 7th International World Wide Web Conference, Seiten 107-117, Brisbane, Australien, April 1998 (Elsevier Science); J. M. Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of ACM-SIAM Symposium on Discrete Algorithms, Seiten 668- 677, Januar 1998; und D. Gibson, J. M. Kleinberg und P. Raghavan, Inferring Web communities from link topology, Hypertext, Seiten 225-234, Pittsburgh, Pennsylvania, Juni 1998.

Ein Protokoll wie zum Beispiel das Hypertext-Transfer-Protokoll (HTTP), das File-Transfer-Protokoll (FTP) oder das Wireless Application-Protokoll (WAP) wird oft benutzt, um den Inhalt zwischen den Inhaltsanbietern und den Clients zu übertragen. Suchmaschinentechnologien sind sowohl für Internet- als auch Intranet-Anwendungen entwickelt worden. Derzeit basieren diese Suchmaschinen auf dem automatisierten "Crawling" (Durcharbeiten) von Webseiten und zusätzlichem Online-Inhalt von zugänglichen Servern. In der Regel wird ein Satz Ausgangsseiten benutzt, um das Crawling zu initialisieren. In einer zweiten Phase holt der Crawler auch Dokumente herbei, auf die in einer der anfänglichen Ausgangsseiten verwiesen wird. Dieser Prozeß setzt sich fort, solange der Crawler noch neue, unbesuchte Dokumentenverweisstellen in einem der herbeigeholten Dokumente findet. Webdokumente sind oft in der Hypertext Markup Language (HTML) formatiert. Eine Dokumentenverweisstelle ist in diesem Fall in der Regel ein HTML-Hyperlink zu einer anderen Webseite. Die Webseite selbst ist gewöhnlich durch eine Adresse, wie zum Beispiel den Universal Resource Locator (URL), spezifiziert.
Derzeit arbeiten Suchmaschinen gewöhnlich in zwei Phasen. Zuerst wird ein Crawler verwendet, um eine Dokumentendatenbank zusammenzutragen. Nachdem die Dokumente zusammengetragen wurden, werden sie vorverarbeitet und indexiert, um sie für ein Durchsuchen verfügbar zu machen. Das Dokumentenerfassungsprinzip für einen Crawler ist mit den folgenden Einschränkungen oder Nachteilen behaftet, welche die Qualität der nachfolgenden Suche beeinträchtigen.
Der Crawler erhält nur Zugriff auf Dokumente in der transitiven Hülle der ausgewählten Ausgangsseiten auf der Grundlage der Dokumentenverweisstellen. Ein Crawler besucht zum Beispiel niemals die Dokumente, die keinerlei verweisende Dokumente haben. Des Weiteren können je nach der Linktopologie und den ausgewählten Ausgangsseiten auch Dokumente, die verweisende Dokumente haben, durch den Crawler unbesucht bleiben.
Crawler sind auf einen relativ seltenen Zugriff auf einen Server beschränkt. In der Regel muß der Crawler 30 Sekunden oder länger zwischen zwei Zugriffen auf denselben Server warten. Diese Beschränkung ist auf Roboterregeln zurückzuführen, die dazu dienen, Server vor Über lastung mit automatisierten Anfragen zu schützen. Das kontinuierliche Crawlen (Durcharbeiten) einer bestimmten Site ist darum auf etwa dreitausend Dokumente am Tag beschränkt. Es gibt verschiedene große Sites mit so vielen Dokumenten, daß es in der Praxis unmöglich ist, den gesamten Inhalt mit den Crawling-Prinzipien des Standes der Technik herunterzuladen und zu indexieren. Selbst mittelgroße Sites stellen im Hinblick auf die Aktualität ein großes Problem für die Crawling-Prinzipien des Standes der Technik dar. Eine Site mit neunzigtausend Dokumenten benötigt zum Beispiel einen Monat Crawling-Arbeit für eine vollständige Aktualisierung.
Die Crawling-Prinzipien des Standes der Technik eignen sich nicht besonders zum Garantieren der Aktualität der erfaßten Dokumente. Die Crawling-Beschränkungen machen vollständige Site-Aktualisierungen in einer Suchmaschine für einige Sites unmöglich und für andere Sites zu einer Angelegenheit von Wochen oder Monaten. Nur Sites mit weniger als etwa dreitausend Dokumenten können täglich vollständig aktualisiert werden. Der Mangel an Aktualität ist eine schwerwiegende Beschränkung des Potentials für Suchmaschinen. Es gibt einen gewaltigen Markt für Tageszeitungen, aber ein Markt für das Lesen oder auch nur Durchsuchen alter Tageszeitungen ist praktisch nicht vorhanden. Gleichermaßen sollte man erwarten, daß es von allgemeinem Interesse wäre, über Such- und Alarmdienste Zugriff auf Web-Inhalte zu haben, die erst vor kurzem aktualisiert wurden.
Die Crawling-Prinzipien des Standes der Technik sind nicht in der Lage, dynamische Objekte abzurufen. Dynamische Objekte sind Objekte, die in der Regel Parameter erfordern, die zusammen mit der HTTP-Anfrage übermittelt werden. Ein Nutzer kann zum Beispiel ein paar Auswahlen in Dialogfeldern, Häkchenfeldern usw. treffen und eine Seite herunterladen, die nicht dauerhaft als eine html-Datei gespeichert ist, sondern vielmehr automatisch auf der Grundlage der Nutzerauswahlen erzeugt wird. Das Abschätzen aller möglichen Parametereinstellungen ist für einen Crawler praktisch unmöglich, und auf dynamische Objekte kann darum derzeit nicht über Internet-Suchmaschinen zugegriffen werden. Das Web wird andererseits sowohl im Hinblick auf die Anzahl der Seiten als auch im Hinblick auf den Wert der Informationen oder Dienste zunehmend durch dynamische Inhalte dominiert.
Die Dokumentendatenbanken sowohl für das Internet als auch für viele Intranets wachsen nahezu exponentiell. Die Anfragekomplexität bleibt hingegen nahezu unverändert. Die Anzahl der Dokumententreffer für eine bestimmte Frage wächst darum ebenfalls nahezu expo nentiell. Die Herausforderung an die Suchmaschinen im Hinblick auf die Trefferrelevanz gewinnt daher zunehmend an Bedeutung. Die Crawling-Prinzipien des Standes der Technik gestatten die Analyse der Linktopologie zwischen Dokumenten, und es sind schon verschiedene Techniken zum Zuweisen einer Dokumentenpriorität auf der Grundlage dieser Topologie vorgeschlagen werden. Die Linktopologie ist andererseits keine hinreichende Quelle für die Relevanz für wichtige Dokumentklassen wie: dynamische Objekte, neue Dokumente, binäre Dateien und Drahtlos-Seiten, wie Seiten, die in der Wireless Markup Language (WML) geschrieben sind. Alle diese Beispiele haben keine oder relativ wenige Links, die für eine Linktopologieanalyse verwendet werden können.
Alarmdienste sind im Stand der Technik beschrieben und funktionieren weitgehend in der gleichen Weise wie eine Suchmaschine. Ein Alarmdienst ist in der Regel in der Lage, eine Suchmaschinenanfrage aufzugreifen und einen Strom neuer Informationen anhand der Anfrage zu überprüfen. Ein Nutzer kann zum Beispiel historische Daten mit einer Suchmaschine durchsuchen und die Anfrage als einen Auslöser in einem Alarmdienst nutzen, der die Anfrage auf einen Strom neuer Dokumente anwendet.
Aufgrund der Schwachstellen und Nachteile, die dem Stand der Technik innewohnen und oben besprochen wurden, besteht ein dringender Bedarf an einer Verbesserung des Dokumentenerfassungsprozesses bei Such- und Alarmdiensten.
Eine primäre Aufgabe der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahren, das einen Zuwachs der Gesamtzahl an Dokumenten, die erfaßt werden können, und einen Zuwachs des Prozentsatzes an Dokumenten, die von großen Sites erfaßt werden können, sowie eine Verbesserung der Aktualität der Dokumente im Hinblick auf die Verzögerung zwischen der letzten Dokumentenaktualisierung oder Dokumentenerstellung und dem Zeitpunkt, wo sie mit einem Suchdienst aufgefunden werden können, ermöglicht und außerdem die Detektion von Dokumenten, die ungültig (zu "toten" Links) geworden sind, und das Erfassen von dynamischen Objekten gestattet.
Es ist eine weitere Aufgabe der Erfindung, die verbesserte Quelle von kürzlich aktualisierten Dokumenten synergistisch zu nutzen, um Alarmdienste zu erzeugen, indem geprüft wird, ob ein neues Dokument zu den Auslösern paßt, die durch die Nutzer des Alarmdienstes definiert wurden.
Es ist eine weitere Aufgabe der Erfindung, es zu ermöglichen, das Relevanz- oder Rangordnungskriterium in der Suchmaschine auf das Alter des Dokuments zu stützen. Dies ist besonders wichtig, weil diese Erfindung verbesserte Dokumentenerfassungsprinzipien beschreibt, die es dem Nutzer zum Beispiel ermöglichen, neue Web-Dokumente zu durchsuchen, die in den letzten 10 Minuten, in der letzten Stunde oder im Verlauf des letzten Tages erstellt oder aktualisiert wurden.
Es ist eine weitere Aufgabe der Erfindung, die Anfragestatistiken an Zugangspunkten in Datennetzen zu nutzen, um eine verbesserte Relevanz in Such- und Alarmdiensten zu ermöglichen.
Es ist eine weitere Aufgabe der Erfindung, eine fundortspezifische Dokumentenrangordnung anhand von Anfragestatistiken von Nutzern in einer räumlichen Nachbarschaft zu erstellen.
Schließlich ist es ebenfalls eine Aufgabe der Erfindung, eine zeitliche Nähe in Anfragestatistiken zu verwenden, um Grade einer Ähnlichkeit zwischen Dokumenten zu definieren.
Die oben genannten Aufgaben und sonstigen Merkmale und Vorteile werden gemäß dem Verfahren der vorliegenden Erfindung realisiert, das dadurch gekennzeichnet ist, daß es Schritte umfaßt zum: Erfassen von Informationen in Form von Daten, die aus dem Informationsfluß an den Zugangspunkten in dem Datennetz herausgezogen wurden; Indexieren der erfaßten Informationen mit einer zuvor festgelegten maximalen Zeitverzögerung; und Suchen und Abrufen von Informationen aus den indexierten Informationen; und durch weitere optionale Schritte, die basieren auf einer Analyse des Verkehrsinhalts an Zugangspunkten für eine Fundortcodierung von erfaßten Informationen in Form von Dokumenten; dem Messen der Ähnlichkeit von Dokumenten; und dem Alarmieren von Nutzern bezüglich neuer und aktualisierter Informationen.
Weitere Merkmale und Vorteile der vorliegenden Erfindung werden in den angehängten abhängigen Ansprüchen 2-36 offenbart.
Die Erfindung selbst sowie die bevorzugten Ausführungsformen werden durch das Studium der folgenden detaillierten Beschreibung von bevorzugten und veranschaulichenden Ausfüh rungsformen in Verbindung mit den begleitenden Zeichnungen besser verstanden. In diesen Zeichnungen ist Folgendes dargestellt:
1 zeigt die Verbindung des Clients mit dem Internet über einen ISP.
2 zeigt einen Proxyserver bei dem ISP, der Web-Inhalte cachespeichert.
3 zeigt einen Proxyserver, der dafür modifiziert ist, mit einem externen Suchcache zu kommunizieren.
3b zeigt ein verteiltes Verkehrs-Crawling, das von einer Client-Software ausgeht.
4 zeigt eine mögliche Organisation des Suchcache.
5 zeigt, wie der Inhalt des Suchcache in einen Suchindex umgewandelt werden kann.
6 zeigt Konfigurationen für einen Suchdienst, der den Suchcache-Index.
7 zeigt das Prinzip der zeitlichen Nähe zum Definieren der Dokumentenähnlichkeit.
8 zeigt eine mögliche Definition für eine Gewichtsfunktion, welche die zeitliche Nähe definiert.
Bevor bevorzugte Ausführungsformen näher besprochen werden, wird kurz der allgemeine Hintergrund der vorliegenden Erfindung besprochen, um sie besser verständlich zu machen.
Internet-Nutzer sind oft mit dem Netz über sogenannte Internet-Serviceprovider (ISPs) verbunden. 1 veranschaulicht, wie Clients über einen ISP an die verschiedenen Web-Server angeschlossen sind. Der ISP (12) mietet Bandbreite von einem Internet-Backboneprovider und bietet Endnutzern (11) einen Anteil an der Bandbreite (14) auf der Basis eines Teilzeitnutzungsmodells an. Die Zugriffe von den Endnutzern (11) werden auf diese Weise über den ISP (12) an das Web (13) geroutet, wo die einzelnen Server (14) Dokumenten (15) und multimediale Inhalte (16) hostspeichern. Das gleiche Modell gilt auch für Drahtlos-Nutzer, entweder über native Verbindungspunkte oder über Internet-Gateways für mehrere Verbin dungspunkte. Suchmaschinen basieren im Stand der Technik auf einem automatisierten Crawling (Durcharbeiten) (17) von den Web-Servern (14) aus und dem Strukturieren dieser Informationen in einem Suchindex (18), der zum Durchsuchen verfügbar gemacht wird. Die Ergebnisse aus diesen Suchen erzeugen Rückverweise zu den Originaldokumenten im Web (15, 16).
Ein Konzept, das Computersysteme gemeinsam haben, sind Cachespeichersysteme. Die ISPs verwenden oft einen Webcache in ihrer Bandbreitenverteilungseinheit. Dieser Cache verringert die Bandbreitennutzung im Backbone, während für die Endnutzer die Latenzzeiten kürzer werden. Webcaches werden oft über Proxyserver eingesetzt. Proxyserver können transparent oder nicht-transparent sein. Im Stand der Technik gibt es verschiedene Cachespeichermechanismen und Proxyserver. Ein Beispiel ist Squid (www.squid-cache.org), das eine Gratissoftwareversion eines Web-Proxy ist. 2 veranschaulicht, wie die Proxyserver (21) eine interne Zusammenstellung von Dokumenten oder Objekten (22) enthalten könnten. Nutzeranfragen an diese Objekte werden lokal bedient (23), um den von dem ISP (24) ausgehenden externen Bandbreitenbedarf zu verringern. Für die Nutzer wird auch die Latenzzeit verkürzt, wenn auf ein cachegespeichertes Dokument oder Objekt zugegriffen wird. Es werden Verfallsregeln für die einzelnen Objekte definiert, um zu gewährleisten, daß eine Kopie in dem Cache tatsächlich das Originalobjekt widerspiegelt.
Es werden nun das Konzept und die Eigenschaften eines sogenannten Verkehrs-Crawling besprochen.
Die gesamte Gruppe der Nutzer, die über einen ISP mit dem Internet verbunden sind, agiert insgesamt als ein großer Crawler von Informationen aus dem Web. Im weiteren Verlauf der Beschreibung dieser Erfindung wird diese Gesamtinformationserfassung bei einem ISP oder einem ähnlichen Verbindungspunkt oder Gateway als ein Verkehrs-Crawler bezeichnet. Dieser durch Menschen verkörperte Verkehrs-Crawler hat eine Anzahl von Eigenschaften, die sich von denen eines automatisierten Software-Crawlers erheblich unterscheiden:

• Der Verkehrs-Crawler ist im Hinblick auf Ausgangsseiten und Linktopologie nicht den gleichen Einschränkungen wie ein Software-Crawler unterworfen, um Zugriff zu Dokumenten zu erhalten.
• Der Verkehrs-Crawler ist nicht durch die Zugriffsbeschränkungen für eine bestimmte Site eingeschränkt, denen ein Software-Crawler unterworfen ist. Der Verkehrs-Crawler hat darum das Potential, große Sites viel schneller und vollständiger durchzuarbeiten.
• Ein Software-Crawler wendet einen großen Teil seiner Zeit dafür auf, einfach Dokumente herunterzuladen, die er bereits besucht hat, und zu prüfen, ob der Inhalt dieser Seiten seit dem letzten Download aktualisiert wurde. Der Verkehrs-Crawler kann den Inhalt, der durch den ISP für die Nutzeranfragen abgerufen wird, prüfen, um einen Doppeltest anhand früherer Kopien des entsprechenden Dokuments auszuführen. Es brauchen darum keine zusätzlichen Informationen heruntergeladen zu werden.
• Der Verkehrs-Crawler kann die Aktualität, die ein Software-Crawler erzeugen kann, auf zweifache Weise verbessern:
– Der Verkehrs-Crawler detektiert fehlende oder zeitweilig nicht-verfügbare Dokumente. Die Detektion könnte in der Regel durch Aufzeichnen erfolgen, wann eine HTTP-Anfrage an eine bestimmte URL zu einer Fehlermeldung führt, wie zum Beispiel der Fehlerzahl 404. Diese fehlgeschlagenen Anfragen könnten in dem zugehörigen Suchdienst dafür verwendet werden, entweder die zugehörigen URLs zu entfernen oder der URL einen niedrigeren Rangfolgewert für das Sortieren von Dokumenten in den Ergebnislisten, die durch die Suchmaschine hervorgebracht werden, zuzuweisen.
– Der Verkehrs-Crawler hat das Potential, ein neues oder aktualisiertes Dokument zu analysieren, sobald einer der verbundenen ISP-Clients das Dokument heruntergeladen hat. Zum Beispiel könnte eine neue Pressemitteilung auf diese Weise suchfähig gemacht werden, sobald einer der ISP-Clients den Artikel gelesen hat.
• Die ISP-Nutzer greifen auf dynamische Seiten zu, und der Inhalt dieser Seiten kann dadurch ebenfalls suchfähig gemacht werden. Es kann oft eine praktisch unendliche Anzahl von Parameterkombinationen verwendet werden, um eine dynamische Seite zu erzeugen. Die Parameterkombinationen, die tatsächlich in den Anfragen verwendet werden, sind darum eine wohlüberlegte Auswahl zum Definieren des Satzes dynamischer Seiten, die suchfähig gemacht werden sollen. Dies ist exakt der Satz dynamischer Seiten, die der Verkehrs-Crawler potentiell für ein anschließendes Durchsuchen indexieren kann.
• Das Zugriffsmuster der ISP-Nutzer kann ebenfalls eine verbesserte Relevanz in dem zugehörigen Suchindex bewirken. Häufig besuchte Sites können höher eingestuft werden als die Sites, die selten besucht werden. Eine solche Zugriffszählung könnte möglicherweise auch durch die Suchmaschine selbst vorgenommen werden, indem die Nutzerauswahlen in den Ergebnislisten umgeleitet werden, aber es ist viel nutzbringender, die Relevanzberechnung auf das Gesamtzugriffsmuster zu stützen und nicht nur auf das Zugriffsmuster, das das Ergebnis von Suchvorgängen ist.

Es wird nun die Implementierung und das Design des Verkehrs-Crawling anhand des Konzepts eines zentralisierten bzw. eines verteilten Crawling besprochen.
Zentralisiertes Verkehrs-Crawling
Es gibt verschiedene Möglichkeiten zum Implementieren eines Verkehrs-Crawlers auf der Grundlage des Verkehrs an einem Zugangspunkt in Datennetzen. Diese Erfindung lehrt einige mögliche Ausführungsformen, und für den Fachmann ist klar erkennbar, wie mittels geringfügig veränderter Designauswahlen die gleichen Nutzeffekte realisiert werden können. Die Beispiele, die in dieser Erfindung gelehrt werden, arbeiten mit dem Verkehr bei einem ISP und einem Indexieren von Web-Dokumenten als einem konkreten Fall, aber dem Fachmann ist klar, wie die gleichen Prinzipien auch in ähnlichen Situationen angewendet werden können, wie zum Beispiel im Intranet-Verkehr oder an drahtlosen Verbindungspunkten.
Der eigentliche Zugriff auf die Dokumente oder Objekte, die über einen ISP übermittelt werden, kann auf verschiedene Weise erfolgen. Eine Alternative ist, die Cachespeichermechanismen zu nutzen, die durch den ISP verwendet werden. Der Inhalt dieses Cache kann entweder periodisch zum Durchsuchen und Alarmieren indexiert werden, oder der Suchindex könnte inkrementell erhöht werden, wann immer ein neues Dokument oder Objekt in dem Webcache gespeichert wird. Die mit diesem Lösungsweg verbundene Beschränkung ist, daß derzeitige Webcaches dafür ausgelegt sind, den von dem ISP ausgehenden externen Bandbreitenbedarf zu reduzieren. Die Sollbandbreite diktiert zu einem großen Teil, welche Art von Objekten in dem Webcache gespeichert wird. In der Regel besteht ein großer Teil des Webcache aus häufig zugegriffenen Multimedia-Objekten. In vielen der interessantesten Textseiten zum Indexieren ist auch eine Verfallsmarkierung definiert, die dem Webcache sagt, sie aus dem Cache auszuschließen.
Darum erfordert das Optimieren der Qualität des Verkehrs-Crawling entweder eine Modifikation der Webcachespeichervorschriften, oder ein separater Cache muß parallel zu dem Webcache verwendet werden. Der Webcache wählt in diesem Fall Objekte anhand von Bandbreitenoptimierungskriterien aus, und der Suchcache wählt Objekte anhand der Dokumentenqualität im Hinblick auf Such- und Alarmierungsdienste aus.
3 veranschaulicht, wie ein Proxyserver modifiziert werden kann, um mit einem zusammenwirkenden Suchcache zu kommunizieren. Der Suchcache kann sich entweder in dem oder in den gleichen Computern wie der Proxyserver befinden, oder er kann sich auf einem oder mehreren Computern befinden und über ein Datennetz kommunizieren. Der Proxyserver enthält einen internen Webcache (31), der dafür verwendet wird, den externen Bandbreitenbedarf zu verringern. Der interne Webcache ist nicht erforderlich, um das Verkehrs-Crawling zu implementieren. Ein Kommunikationsmodul (32) ist in dem Proxyserver enthalten. Das Kommunikationsmodul zeichnet Web-Anfragen (35) auf, die den Proxyserver (34) passieren, und protokolliert und puffert optional Ergebnismeldungen für die Anfragen und den tatsächlichen Inhalt, der im Ergebnis der Anfrage an den Nutzer übermittelt wird. Das Kommunikationsmodul überträgt (36) einen Teil dieser Informationen an den Suchcache (33). Die übertragenen Informationen können so eingerichtet werden, daß sie Folgendes enthalten:

• Nur Anfragen: Dies kann durch periodisches Übertragen der Aktualisierungen in dem Zugriffprotokoll des Proxyservers von dem Kommunikationsmodul (32) zu dem Suchcache (33) implementiert werden. Jede Zugriffsaufzeichnung kann optional mit Informationen wie diesen markiert werden:
– Nutzerinformationen, wie die IP-Adresse.
– Verschlüsselte Nutzerinformationen. Im Zusammenhang mit der Problematik des Schutzes der Vertraulichkeit in Web-Anwendungen ist es in der Regel wichtig, die Anonymität der einzelnen Nutzer zu wahren. Das Kommunikationsmodul innerhalb des Proxyservers kann darum so eingerichtet werden, daß entweder alle persönliche Informationen ausgeschlossen oder so codiert werden, daß einzelne Nutzer auf der Grundlage der Daten, die in den Suchcache gelangen, voneinander unterschieden, aber nicht identifiziert werden können. Ein Beispiel könnte sein, die Anfrage mit einer verschlüsselten Nummer auf der Grundlage der Nutzersitzungs-ID zu markieren. Diese Vorgehensweise macht auch die Vertraulichkeitsvorschriften durch den ISP und intern in der ISP-Proxysoftware kontrollierbar.
– Zugehörige Nutzerinformationen, wie Land und Stadt. Diese Informationen könnten auf einer genügend groben Ebene verwaltet werden, um zu garantieren, daß einzelne Nutzer nicht auf der Grundlage der Daten, die in den Suchcache gelangen, identifiziert werden können. Die Standortinformationen können anhand von Hilfsdaten erzeugt werden, die durch den ISP aufgezeichnet wurde, wenn der einzelne Nutzer ein Nutzerkonto eröffnet. Drahtlos-Anwendungen können Lokalisierungsinformationen zum Beispiel aus GPS-Daten gewinnen, die von dem Drahtlosgerät übermittelt werden, oder über eine Lokalisierung von Telefonen zum Beispiel auf der Grundlage von Basisstations-IDs und Verzögerungszeiten.
– Der Ergebniscode für die Web-Anfrage. Der Suchcache kann zum Beispiel diese Informationen verwenden, um tote Links zu entfernen oder die Rangfolge von Links herabzusetzen, die oft zeitweilig nicht verfügbar sind.
– Hash-Werte für Dokumenteninhalte. Das Kommunikationsmodul (32) kann einen oder mehrere Hash-Werte berechnen, die den Inhalt widerspiegeln, der an den Nutzer im Ergebnis der Anfrage zurückgesendet wurde. Solche Inhaltsschlüssel können mit einem minimalen CPU-Aufwand berechnet werden und stellen eine sehr kompakte Möglichkeit dar, Informationen an eventuell einen räumlich abgesetzten Suchcache zu übertragen. Ein räumlich abgesetzter Suchcache kann zum Beispiel diese Informationen verwenden, um sie mit historischen Hash-Werten für dasselbe Dokument zu vergleichen. Änderungen bei den Hash-Werten zeigen an, daß das Dokument aktualisiert wurde und daß es erneut durchgearbeitet (recrawled) werden sollte, um den Suchindex zu aktualisieren.
• Anfragen mit Inhalten: Das Kommunikationsmodul (32) kann auch den eigentlichen Dokumenteninhalt zusätzlich zu den oben besprochenen Informationen für die Anfrage selbst senden. Diese Option wird in der Regel gewählt, wenn ein Datenkanal mit hoher Kapazität zwischen dem Kommunikationsmodul (32) und dem Suchcache (33) zur Verfügung steht. Das Dokument ist durch den ISP abgerufen worden und kann darum auf diese Weise – ohne zusätzliche Anfragen an den ursprünglichen Web-Server – zum Indexieren und Alarmieren verfügbar gemacht werden. Der Datenstrom muß in diesem Fall so geteilt werden, daß eine Kopie der Informationen, die an den Nutzer zurückgesendet werden, von dem Kommunikationsmodul (32) zu dem Suchcache (33) übertragen wird. Es kann vorteilhaft sein, ein gewisses Maß an Filterung in dem Kommunikationsmodul (32) auszuführen, um die Kommunikation zu dem Suchcache (33) zu verringern. In der Regel könnten nur Anfragen übermittelt werden, die für das Indexieren von Interesse sind. Zu Beispielen solcher Filterungsregeln gehören:
– nur eine Übermittlung von HTTP GET-Anfragen
– nur eine Übermittlung von Anfragen für die MIME-Typen text/*
– nur eine Übermittlung von Inhalten für Anfragen mit einem Resultatcode, der eine erfolgreiche Übertragung anzeigt
– nur eine Übermittlung von Anfragen entweder für eindeutig identifizierte Hosts oder für Hosts, die nicht in einer Datenbank benannter Hosts enthalten sind, die auszuschließen sind.

Der Suchcache (33) empfängt den Informationsstrom von dem Kommunikationsmodul (32) innerhalb des Proxyservers und verwendet diese Informationen zum Aufbau eines Suchindex' oder eines Alarmdienstes. 4 zeigt eine mögliche Organisation des Suchcache. Der Suchcache (33) enthält ein Kommunikationsmodul (41), das die Datenübertragung mit dem Kommunikationsmodul (32) innerhalb des Proxyservers handhabt. Die eigentliche Übertragungslogik kann zum Beispiel mit Sockets implementiert werden. Die durch das Kommunikationsmodul (41) empfangenen Daten werden zur Weiterverarbeitung übermittelt. Der erste Verarbeitungsschritt ist optional ein Zurückweisungslogikfilter (42), das die Filterungsmechanismen, die für das Kommunikationsmodul innerhalb des Proxyservers beschrieben wurden, erweitern und ergänzen kann. Der Nutzeffekt einer Zurückweisungsfilterung innerhalb des Proxyservers ist, daß die Datenbandbreite zwischen dem Proxyserver und dem Suchcache verringert wird. Es ist andererseits auch von Vorteil, einen Teil der Zurückweisungsfilterung innerhalb des Suchcache auszuführen:

• Der Lastzuwachs für die CPU, die den Proxyserver betreibt, sollte minimiert werden. Der Verarbeitungsaufwand innerhalb des Kommunikationsmoduls (32) sollte darum auf ein Minimum verringert werden.
• Der Suchcache hat in der Regel einen schnellen Zugriff auf Dokumenteninformationen, die für die Gestaltung guter Zurückweisungsfilter wichtig sind. Zu solchen Informationen gehören zum Beispiel historische Hash-Werte für Dokumenteninhalte, Zugriffsstatistiken und Datenbanken mit Hosts oder Sites, die zurückzuweisen sind.

Es ist zu beachten, daß die Zurückweisungslogik (42) in Echtzeit während der eigentlichen Übertragung ausgeführt werden könnte. Die Übertragung kann daher gestoppt werden, sobald der Strom als ein Objekt identifiziert wurde, das durch den Suchcache zurückzuweisen ist.
Verteiltes Verkehrs-Crawling
3b zeigt ein verteiltes Verkehrs-Crawling von einer Client-Software aus. Eine Gruppe Nutzer (3b1, 3b2, 3b3) ruft Dokumente von einer gemeinsam genutzten Netzressource ab, wie zum Beispiel dem Internet, dem mobilen Internet oder Intranets. Die Dokumente werden abgerufen und innerhalb der Client-Software (3b4, 3b6, 3b8) angezeigt. Die Client-Software kann in der Regel eine Browser-Anwendung sein. Ein Kommunikationsmodul (3b5, 3b7, 3b8) kann entweder intern in der Client-Software, als ein Plug-in oder als ein kooperierendes Modul angeordnet sein. Das Kommunikationsmodul kann, wenn es aktiviert ist, die Dokumenten-IDs aufzeichnen, wie zum Beispiel die URLs der Dokumente, die durch die Client-Software abgerufen werden. Die Kommunikationsmodule können des Weiteren die gleiche Art von Informationen senden, wie sie oben für das zentralisierte Verkehrs-Crawling beschrieben wurde. Die Meldungen von dem verteilten Satz Kommunikationsmodule innerhalb der Client-Software werden durch eine Server-Anwendung (3b10) aggregiert. Die Server-Anwendung (3b10) übermittelt die erfaßten Informationen an einen Suchcache (3b11) in genau der gleichen Weise, wie das Kommunikationsmodul in dem zentralisierten Verkehrs-Crawling (32) Informationen an den Suchcache (33) sendet.
Verteiltes Verkehrs-Crawling ermöglicht die Realisierung der gleichen Nutzeffekte wie das zentralisierte Verkehrs-Crawling ohne die Notwendigkeit, das System in ISPs oder ähnliche Dienste integrieren zu müssen. Ein verteilter Zugangspunkt wird statt dessen über Client-Software genutzt, und die Informationen über die verteilten Zugriffe werden durch Übermittlung über das Netz an eine zentralisierte Server-Anwendung aggregiert.
Der Umgang mit privaten Informationen kann in dem verteilten Verkehrs-Crawling auf einfache Weise gehandhabt werden, weil der Nutzer über die Client-Software explizit das Kommunikationsmodul aktivieren und deaktivieren kann.
Es wird nun das Cachespeichern von Verkehrsinhalten besprochen.
Die Dokumente, die nicht durch das Zurückweisungslogikfilter (42) zurückgewiesen werden, werden an einen Objektverwalter (43) übermittelt, der praktisch die Informationen cachespeichert, die zu den verschiedene Dokumenten gehören. Der Objektverwalter enthält ein Vertraulichkeitsfilter (44), das die Dokumente in dem temporären Speicher (47) dergestalt prüft, daß private Informationen aus den Daten, die den Objektverwalter (43) verlassen, ausgeschlossen werden. Das Vertraulichkeitsfilter (44) wird in der Erfindung getrennt besprochen. Zu den Informationen, die zusammen mit den Dokumentenverweisen in dem Objektverwalter (43) gespeichert werden, können gehören:

• Informationen, die dem Dokument durch das Kommunikationsmodul (32) innerhalb des Proxyservers angehängt werden, wie oben beschrieben.
• Dokumentenstatistiken wie das zuletzt modifizierte Attribut.
• Zugriffsstatistiken wie der Zeitpunkt des erstmaligen Sehens, der Zeitpunkt des letztmaligen Sehens, die Anzahl der Zugriffe in verschiedenen Zeitintervallen und die Anzahl der verschiedenen Nutzer, die auf das Dokument zugegriffen haben.
• der Dokumenteninhalt selbst.
• ein statischer Rangfolgewert für das Dokument.

Der Objektverwalter kann entweder als ein Dienst dienen, der kontinuierlich oder periodisch Datenströme mit Informationen über neue, aktualisierte oder gelöschte Dokumente ausgibt.
Die Datenströme können entweder nur Dokumentenverweise (45) oder Dokumentenverweise, die den eigentlichen Dokumenteninhalt (46) beinhalten, enthalten. Diese Datenquellen sind nützlich für den Aufbau von Alarmdiensten für Web-Aktualisierungen und zum Optimieren der Größe, der Aktualität und der Relevanz von allgemeinen und spezialisierten Suchmaschinen im Web. Die Dokumentenverweise (45) können als ein Neuindexierungssignal zum Führen des Crawlers (17) einer herkömmlichen Suchmaschine verwendet werden, und der eigentliche Dokumenteninhalt (46) kann auch dafür verwendet werden, das Crawling (17) dieser Dokumente in einer herkömmlichen Suchmaschine zu ersetzen.
Der Objektverwalter (43) kann auch als ein Cache durch Vergrößern des temporären Speichers und Einbinden von Ausschlußalgorithmen zum Entfernen von Dokumenten aus dem Cache dienen. Das Lebensdauerattribut, das Dokumenten zum Anweisen einer Webcachespeicherung zugewiesen werden kann, ist für die Suchcachespeicherung nicht wirklich relevant. Das eigentliche Dokument, auf das der Nutzer in dem resultierenden Suchdienst zugreift, ist das Originaldokument. Das einzige Risiko ist daher das herkömmliche Problem für Suchmaschinen, daß der indexierte Text möglicherweise im Vergleich zum eigentlichen Dokument veraltet ist. Die Wahrscheinlichkeit dieses Aktualitätsproblems wird andererseits weitgehend durch Suchdienste verringert, die auf den Techniken aufgebaut sind, die in dieser Erfindung gelehrt werden. Die Cacheausschlußvorschriften könnten eng an den Dokumentenrangfolgewert geknüpft werden, wenn dieser Wert tatsächlich die Dokumentenqualität und/oder -beliebtheit widerspiegelt. Neue oder aktualisierte Dokumenten könnten für eine zuvor festgelegte Mindestzeit in dem Cache gespeichert bleiben, so daß Suchdienste für unlängst stattgefundene Web-Aktualisierungen aufgebaut werden können. Dynamische Objekte könnten eine verkürzte Lebensdauer in dem Suchcache haben, um eine übermäßige Menge an dynamischen Objekten zu vermeiden, die gewöhnlich häufig aktualisiert werden.
Der Objektverwalter (43) könnte auch ein Modul zum Berechnen statischer Rangfolgewerte (48) für die Dokumente in dem temporären Speicher (47) enthalten. Der Rangfolgewert kann sowohl für die Cachespeichervorschriften im Hinblick auf das Bestimmen, welche Dokumente aus dem temporären Speicher (47) zu entfernen sind, als auch als Eingabe für die Rangordnungsfestlegung von Suchergebnissen in dem resultierenden Suchdienst verwendet werden. Das Rangordnungskriterium kann in der Regel eine Kombination aus Linktopologie, Dokumenteninhalt und Zugriffsmuster sein. Der Nutzeffekt des Verkehrs-Crawlers ist, daß die Qualität der Schätzungen zu den Zugriffsstatistiken im Vergleich zum Stand der Technik ver bessert wird. Ein Beispiel einer einfachen Rangordnungsformel, die auf die Zugriffsstatistiken beschränkt ist, lautet: r' = r + w·I·f(Trefferrate)·g(Anzahl der Nutzer, die auf das Dokument zugreifen) + (I – A)
In dieser Gleichung bezeichnet r den vorherigen Rang des Dokuments, und r' bezeichnet den aktualisierten Rang des Dokuments. w ist ein Gewichtungsfaktor in der rekursiven Aktualisierung des Rangordnungswertes. I bezeichnet den durchschnittlichen Rangfolge-Sollwert und könnte auch als ein Ausgangswert für neue Dokumente verwendet werden. A bezeichnet den durchschnittlichen Rang in der vorherigen Rangordnung und dient dem Stabilisieren des Rangfolgewertes im Lauf der Zeit auf der Basis von I. Die Funktionen f und g sind monotone Funktionen, die das Gewicht der Dokumente erhöhen, auf die oft und durch viele verschiedene Nutzer zugegriffen wird.
Es wird nun kurz das Indexieren des Verkehrscaches erläutert.
Der Objektverwalter kann einfach dafür verwendet werden, kontinuierlich oder periodisch Datenströme mit Informationen über neue, aktualisierte oder gelöschte Dokumente (45 und 46) auszugeben. Der Empfänger der erzeugten Datenströme handhabt in diesem Fall das Indexieren dieser Informationen und die resultierende Suchdiensterzeugung. Eine andere Alternative ist, den Objektverwalter (43) einen Cache oder eine temporären Speicher (47) verwenden zu lassen und entweder kontinuierlich oder periodisch die Inhalte in dem temporären Speicher (47) indexieren zu lassen.
5 zeigt, wie der Inhalt des Suchcaches in einen Suchindex verwandelt werden kann. Die einfachste Vorgehensweise (51) ist, den kompletten Inhalt des Suchcaches periodisch zu verarbeiten (54), um einen aktualisierten Suchindex aufzubauen. Alternativ kann der komplette Suchcache einmal indexiert werden, und dann wird ein inkrementeller Index (58) kontinuierlich oder periodisch für Aktualisierungen (57) in dem Suchcache (52) aufgebaut (55). Der inkrementelle Index muß entweder direkt mit dem kompletten Index kombiniert oder periodisch fusioniert werden. Das Fusionieren kann auch implementiert werden, indem man einfach den kompletten Suchcache neu indexiert. Eine weitere Alternative ist, den Suchcache die Daten gemäß den letzten aufgezeichneten Dokumentenaktualisierungen (53) in Gruppen unterteilen zu lassen. Die Gruppen könnten zum Beispiel "letzte Stunde" (59c), "letzter Tag" (59b) und "letzte Woche" (59a) sein. Die gleichen Gruppen würden daher in dem Suchindex (59d, 59e, 59f) widergespiegelt werden. Solche Gruppen würden den Indexierungsbedarf und die Fusionierungen, die für die Indizes benötigt werden, verringern.
Der Dokumentenrang, der durch die Indexierung berechnet wird, kann entweder den Rangfolgewert verwenden, der durch die Rangfolgeberechnung (48) innerhalb des Objektverwalters angeboten wird, oder er kann diesen Wert mit anderen Informationsquellen wie zum Beispiel der Linktopologie kombinieren.
Gemäß der vorliegenden Erfindung kann der Verkehrscache vorteilhafterweise in einem Suchdienst verwendet werden.
6 zeigt Konfigurationen für einen Suchdienst, der mit dem Suchcache-Index arbeitet. Der aus dem Suchcache erzeugte Suchindex ist ein Index, der auf eine herkömmliche Weise zum Aufbau von Suchmaschinendiensten verwendet werden kann. Der Nutzer sendet die Anfragen (61) an den Suchcache-Index (62), der Ergebnisse (63) hervorbringt, die an den Nutzer zurückgemeldet werden. Die Suchmaschine kann die Nutzeffekte, die durch den in dieser Erfindung beschriebenen Verkehrs-Crawler realisiert werden, synergistisch nutzen.
Eine weitere Alternative ist, den aus dem Suchcache erzeugten Suchindex mit einem externen Suchindex zu kombinieren, der zum Beispiel ein großer allgemeiner Internet-Suchdienst sein könnte, wie zum Beispiel www.alltheweb.com. Die Nutzersuchanfrage (64) würde in diesem Fall an ein Anfragedispatchmodul (65) gesendet werden, und die gleiche Suche würde sowohl in dem Verkehrscache-Index (66) als auch in dem zusammenwirkenden Suchindex (67) ausgeführt werden. Die Ergebnislisten, die durch die zwei Suchen hervorgebracht werden, werden in einem Fusionsmodul (68) fusioniert, das die Dokumentenrangordnungswerte berücksichtigt. Schließlich wird ein vereinheitlichtes Ergebnis erzeugt und als eine Antwort auf die ursprüngliche Anfrage (69) an den Nutzer zurückgesendet. Der Fusionierungsvorgang kann daher verschiedene Algorithmen zum Rangordnen des lokalen Inhalts, der aus dem Verkehrscache-Index zurückgemeldet wird, anhand des Inhalts aus der zusammenwirkenden Suchmaschine, die einen global ranggeordneten Inhalt haben könnte, auswählen.
Das Konzept mit zwei zusammenwirkenden Suchmaschinen kann auf einfache Weise erweitert werden, um mehrere Suchmaschinen mit möglicherweise mehr als einem einzigen Ver kehrscache zu handhaben. Das Dispatchmodul (65) und das Fusionsmodul (68) müssen in diesem Fall dafür modifiziert werden, mit dem ausgewählten Satz Suchdiensten zu kommunizieren. Es gibt ähnliche Kombinationen mit parallelen Suchen in mehreren zum Stand der Technik gehörenden Suchmaschinen für das Internet; sie werden gewöhnlich als Meta-Suchmaschinen bezeichnet.
Das Verfahren der Erfindung soll vorteilhafterweise die Verwendung von regionalen oder Community-spezifischen Rangordnungen ermöglichen.
Die Dokumentendatenbanken sowohl für das Internet als auch viele Intranets wachsen nahezu exponentiell. Die Anfragekomplexität bleibt hingegen nahezu unverändert. Die Anzahl der Dokumententreffer für eine bestimmte Frage wächst darum ebenfalls nahezu exponentiell. Die Herausforderung an die Suchmaschinen im Hinblick auf die Trefferrelevanz gewinnt daher zunehmend an Bedeutung. Standortinformationen können eine Schlüsselrolle in der Implementierung der erforderlichen Relevanzverbesserungen spielen.
Eine Standortcodierung kann durch Studieren des Inhalts und der Eigenschaften eines bestimmten Dokuments erreicht werden. Informationen wie zum Beispiel Adressen oder Telefonnummern können dafür verwendet werden, das Dokument einem bestimmten geografischen Standort zuzuordnen. Alternativ kann man das Zugriffsmuster zu einem bestimmten Dokument von verschiedenen Regionen aus studieren und identifizieren, welche Dokumente im Hinblick auf Zugriffe aus einer bestimmten Region statistisch überrepräsentiert sind. Die Suchmaschine kann diese Informationen verwenden, um regionsspezifische Rangordnungsformeln zu erzeugen. Ein spanischer Nutzer des Suchdienstes könnte zum Beispiel eine Rangordnung haben, die Informationen darüber verwendet, welche Sites bei spanischen Nutzern beliebt sind. Das regionale Zugriffsmuster kann auch dafür verwendet werden, automatisierte Listen von beliebten Dokumenten zu erstellen, die zu einer bestimmten Region gehören. Diese Listen können weiter in Kategorien unterteilt werden und können daher benutzt werden, um automatisierte regionale Portaldienste zu erstellen.
Die räumlichen Informationen, die durch den Verkehrs-Crawler geliefert werden, müssen auf einem genügend groben Niveau gehalten werden, um zu garantieren, daß einzelne Nutzer nicht auf der Grundlage der Daten, die in den Suchcache gelangen, identifiziert werden können. In der Regel sollten alle bezeichneten Regionen eine zuvor festgelegte Mindestanzahl von Nutzern haben. Die Standortinformationen können anhand von Hilfsdaten erzeugt werden, die durch den ISP aufgezeichnet werden, wenn die einzelnen Nutzer ein Nutzerkonto einrichten. Drahtlos-Anwendungen können Lokalisierungsinformationen aus GPS-Daten gewinnen, die durch das Drahtlosgerät geliefert werden, oder über die Lokalisierung von Telefonen auf der Grundlage zum Beispiel von Basisstations-IDs und Verzögerungszeiten.
Das Verfahren gemäß der vorliegenden Erfindung ist vorteilhafterweise in der Lage, Informationen zu liefern, die ein Berechnen einer Dokumentenähnlichkeit anhand von Statistiken, die durch den Verkehrs-Crawler erzeugt werden, ermöglichen.
Die Crawling-Techniken des Standes der Technik gestatten die Analyse der Linktopologie zwischen Dokumenten, und es sind schon verschiedene Techniken zum Zuweisen einer Dokumentenpriorität auf der Grundlage dieser Topologie vorgeschlagen werden. Die Linktopologie ist andererseits keine hinreichende Quelle für die Relevanz für wichtige Dokumentklassen wie: dynamische Objekte, neue Dokumente, binäre Dateien und Drahtlosseiten wie Seiten, die in der Wireless Markup Language (WML) geschrieben sind. Alle diese Beispiele haben keine oder relativ wenige Links, die für eine Linktopologieanalyse verwendet werden können. Die zeitliche Nähe in Anfragestatistiken, die durch den Verkehrs-Crawler erzeugt werden, kann eine brauchbare Quelle zum Definieren von Ähnlichkeitsmessungen zwischen Dokumenten in diesen Situationen darstellen. Die Anfragestatistiken können auch Ähnlichkeitsmessungen in Situationen unterstützen, wo eine reichhaltigere Linktopologie für Ähnlichkeitsmessungen verwendet werden kann.
7 veranschaulicht das Prinzip der zeitlichen Nähe zum Definieren einer Dokumentenähnlichkeit. Der ISP (71) verbindet (72) eine Anzahl von Nutzern (A, B, C, ...) mit den Web-Ressourcen (73), die aus Servern (74) und einzelnen Dokumenten (a, b, c, d, ...) bestehen. Das durch den Verkehrs-Crawler aufgezeichnete Zugriffprotokoll kann so auf die verschiedenen Nutzer geteilt werden, daß anschließende Anfragen von demselben Nutzer identifiziert werden können (74). Die Nutzervertraulichkeit kann immer noch durch Verschlüsseln der Nutzer-ID-Informationen gewahrt werden. Es genügt für die folgende Analyse, daß das Zugriffprotokoll mit Sitzungs-IDs anstelle von Nutzer-IDs versehen wird. Ein Versehen mit Sitzungs-IDs oder verschlüsselten Sitzungs-IDs schützt die Nutzervertraulichkeit zusätzlich.
Die Ähnlichkeitsdefinition ruht auf der Annahme, daß eine Person überwiegend zugehörige Informationen innerhalb eines kurzen Zeitfensters oder innerhalb eines kurzen Intervalls aufeinanderfolgender Anfragen abruft. Es gibt natürlich Ausnahmen von dieser Annahme, aber man kann auch erwarten, daß zufällige Änderungen infolge einer Aufmerksamkeitsverschiebung seitens des Nutzers eine eher statistische Zufälligkeit haben.
8 zeigt eine mögliche Definition für eine Gewichtsfunktion, welche die zeitliche Nähe definiert. Es ist ein Beispiel veranschaulicht, wo der Nutzer "C" an einem Zeitpunkt t₀ eine Anfrage an das Dokument "a" stellt. Eine zweite Anfrage durch denselben Nutzer oder dieselbe Sitzung ergeht an das Dokument "b" an einem Zeitpunkt t₁. Wir nehmen des Weiteren an, daß k weitere Dokumentenanfragen durch denselben Nutzer zwischen den Anfragen an die Dokumenten "a" und "b" gestellt wurden. Eine Nähe-Gewichtsfunktion kann in diesem Fall als eine Funktion w(k, t₁ – t₀) definiert werden, wobei w eine Funktion ist, die monoton sowohl mit k als auch |t₁ – t₀| abnimmt. In vereinfachten Modellen kann w als eine Signaturfunktion zum Beispiel von einem bestimmten Zeitintervall relativ zu t₀ (t_MIN-t_MAX) oder einer bestimmten Anzahl von Zugriffen k₁ vor t₀ und einer bestimmter Anzahl von Zugriffen k₂ nach t₀ ausgewählt werden. Ähnliche Gewichtsfunktionsmodelle werden in anderen Anwendungen verwendet, wie zum Beispiel Algorithmen zum Verwalten von Seiten in einem virtuellen Speicher.
Eine ranggeordnete Ähnlichkeitsliste für ein bestimmtes Dokument "a" kann nun durch Messen der statistischen Überrepräsentiertheit anderer Dokumente in der Nähe von Anfragen an das "a"-Dokument erstellt werden. Die Analyse kann entweder auf einer Dokumentenebene oder auf einer Site-Ebene erfolgen, wobei alle Dokumente, die sich in einer bestimmten Site befinden, einfach als eine Anfrage an die übergeordnete Site behandelt werden. Der Rangordnungswert kann auf eine Anzahl von Techniken gestützt werden, und für den Fachmann ist klar erkennbar, wie geringfügige Modifikationen der Ausführungsformen, die in dieser Erfindung gelehrt werden, ausgeführt werden können. Der Ähnlichkeitsrang kann zum Beispiel auf eine dieser Messungen gestützt werden:

• Gesamtzugriffszahl innerhalb eines zuvor festgelegten Zeitnähefensters von Anfragen an das "a"-Dokument.
• Die Gesamtsumme der Nähe-Gewichtsfunktion w für alle Zugriffe innerhalb eines zuvor festgelegten Nähefensters von Anfragen an das "a"-Dokument".
• Die statistische Signifikanz der beobachteten Anzahl von "b"-Anfragen innerhalb eines zuvor festgelegten Nähefensters von Anfragen an das "a"-Dokument. Der statistische Test kann auf eine Null-Hypothese gestützt werden, die davon ausgeht, daß Anfragen an das "a"- und das "b"-Dokument wirklich unabhängig sind. Des Weiteren kann die allgemeine Häufigkeit des Zugriffs auf das "a"- und das "b"-Dokument in dem statistischen Test berücksichtigt werden. Ein ähnlicher statistischer Test kann ersonnen werden, indem man die Gesamtsumme der Nähe-Gewichtsfunktion w als die Beobachtungsvariable anstelle des Anfragezählwertes verwendet.

Daher kann eine Dokumentenähnlichkeitsliste für jedes Dokument "a" berechnet werden, indem man Dokumente, die innerhalb eines zuvor festgelegten Nähefensters von Anfragen an das "a"-Dokument angefragt wurden, gemäß einer der vorgeschlagenen Ähnlichkeitsrangfunktionen sortiert. Die Qualität solcher Ähnlichkeitslisten kann verbessert werden, indem man triviale Ähnlichkeiten entfernt, wie zum Beispiel Dokumente in derselben Site oder Dokumente, auf die direkt mit Hyperlinks in dem "a"-Dokument verwiesen wird.
Die Ähnlichkeitslisten können auch für eine Gruppe von Dokumenten anstelle eines einzelnen Dokuments berechnet werden. Dies kann auf einfache Weise implementiert werden, indem man eine Anfrage an ein Dokument in der Dokumentengruppe als einen Verweis auf das "a"-Dokument in der vorherigen Beschreibung behandelt. Alternativ kann man die Affinität durch Gewichten der Anfragen durch einen Nutzerähnlichkeitsfaktor verbessern, der zum Beispiel die Anzahl von gemeinsamen Dokumenten zwischen der Dokumentengruppe und jedem der Zugriffprotokolle für einzelne Sitzungen zählen könnte.
Personalisierte Rangordnung und Dokumentenauswahl können auf diese Weise erreicht werden, indem man zum Beispiel eine Dokumentenähnlichkeitsliste auf der Grundlage eines Satzes von durch einen Nutzer ausgewählten Dokumenten berechnet. Der Nutzer kann entweder diese Dokumente explizit auswählen, oder es kann eine automatische Auswahl anhand von Favoritenauswahlen innerhalb des Browsers oder des Zugriffsverlaufs erfolgen, die entweder lokal durch den Browser des Client oder am Zugangs-Gateway aufgezeichnet wurden.
Suchdienste und Alarmdienste können diese Informationen nutzen, um es dem Nutzer zu er möglichen, eine personalisierte Rangordnungsformel zu erstellen. Die personalisierte Rangordnung kann die folgenden Dokumente in den Ergebnislisten bevorzugen:

• Dokumente, die eigentlich durch den Nutzer bereitgestellt wurden.
• Neue dynamische Seiten, die zu Dokumenten gehören, die durch den Nutzer bereitgestellt wurden, wie zum Beispiel Zeitungsartikel in einer Tageszeitungs-Site.
• Dokumente, die hohe Ähnlichkeitsfaktoren, wie oben beschrieben, mit dem Satz Dokumente haben, die durch den Nutzer bereitgestellt wurden.

Die vorliegende Erfindung kann auch dazu dienen, Relevanzalgorithmen auf der Grundlage der Dokumentenähnlichkeitstopologie aufzustellen.
Durch Modifizieren der Definition des zuvor festgelegten Nähefensters für die Ähnlichkeitsrangordnung können interessante Eigenschaften über die Dokumente gewonnen werden. Es ist zum Beispiel möglich, den Rangfolgewert zwischen den zwei Dokumenten "a" und "b" mit zwei Nähefenstern zu vergleichen: einer 10 Minuten nach "a"-Anfragen und einer 10 Minuten vor "a"-Anfragen. Die Unterschiede bei diesen zwei Werten geben sowohl Informationen zu der Beziehung zwischen "a" und "b" als auch zu der Art des Inhalts in "a". Diese Werte definieren praktisch die reale effektive Linktopologie zwischen Dokumenten auf der Grundlage der tatsächlichen Nutzung. Die Werte können mit der Hyperlinktopologie verglichen werden oder die Hyperlinktopologie als eine Basis für Dokumentenrelevanzberechnungen ersetzen. Dem Fachmann ist klar, wie zum Stand der Technik gehörende Relevanz-Techniken auf der Basis der Linktopologie auf die in dieser Erfindung gelehrte, vom Verkehr abgeleitete Nutzungstopologie ausgedehnt werden können. Zwei derartige Alternativen sind:

• Zuerst wird jedem Dokument ein anfänglicher Dokumentenrang zugewiesen. Er kann entweder für alle Dokumente der gleiche sein oder andere Informationsquellen zum Unterscheiden des Dokuments berücksichtigen. Zweitens werden Dokumentenränge über die beschriebene Nutzungstopologie durch Gewichten der anfänglichen Dokumentenränge mit der Linkstärke verbreitet.
• Algorithmen des Standes der Technik, wie zum Beispiel der Seitenrang- oder HITS-Algorithmus, können als iterative Modelle zum Verbreiten der Seiteränge über die beschriebene Nutzungstopologie verwendet werden.

In den meisten Web- und Drahtlos-Anwendungen der vorliegenden Erfindung ist es von größter Bedeutung, daß die Nutzervertraulichkeit gewahrt bleibt. Das Indexieren von Verkehrsinhalten an Zugangspunkten im Datennetz könnte möglicherweise private Informationen für ein breites Publikum suchfähig machen. Daher soll das Verfahren gemäß der vorliegenden Erfindung in der Lage sein, die Nutzervertraulichkeit zu gewährleisten.
Es sind separate Protokolle ersonnen worden, die Web-Objekte sicher und geschützt transportieren, zum Beispiel das HTTPS-Protokoll. Web-Server, die einen Host für Objekte privaten Inhalts bilden, sollten solche Protokolle verwenden, wenn sie für den Nutzer Diskretion garantieren wollen. Leider ist eher das Gegenteil gängige Praxis. Es kommen eine Vielzahl verschiedener Möglichkeiten zum Einsatz, um private Inhalte auf den Web-Servern zu verbergen, während der eigentliche Inhalt nach wie vor als Klartext transportiert wird. Ein Großteil der privaten Inhalte wird als dynamische Objekte gespeichert und ist darum im Allgemeinen in zum Stand der Technik gehörenden Suchdiensten nicht verfügbar gewesen. Die vorliegende Erfindung lehrt, wie dynamische Objekte ebenfalls effizient indexiert und suchfähig gemacht werden können.
Es können die folgenden Prinzipien genutzt werden, um das Indexieren von privaten oder sensiblen Informationen zu vermeiden:

• Sichere Protokolle wie das HTTPS-Protokoll sind offenkundig nicht indexiert.
• Das Indexieren wird auf HTTP GET-Anfragen begrenzt. Einige persönliche Objekte werden zum Beispiel mittels einer HTTP POST-Operation auf dem Server abgerufen. Die Ergebnisse dieser Operationen werden nicht gespeichert.
• Mitunter werden dynamische und persönliche Inhalte durch eine Version der HTTP-Authentifizierungsmechanismen geschützt. Das funktioniert durch Einstellen spezifischer Felder in dem HTTP-Anfrageheader. Diese Art der Authentifizierung kann automatisch detektiert werden, um die resultierenden Informationen vom Indexieren auszuschließen.
• Das Indexieren kann auf Dokumente beschränkt werden, die durch eine zuvor festgelegte Mindestanzahl von Nutzern betrachtet wurden. Das Indexieren von Informationen, die nur ein einziger Nutzer betrachtet hat, kann auf diese Weise vermieden werden.
• Das Indexieren kann auf Anfragen begrenzt werden, die keine Cookies enthalten, um zu gewährleisten, daß das Cookie keine persönlichen Informationen transportiert, die zum Abrufen des Dokuments benötigt werden.
• Das Indexieren auf einen zuvor festgelegten Satz Sites und Hosts begrenzt werden.
• Das Indexieren kann zuvor festgelegte Sites und Hosts ausschließen, die nicht zu indexieren sind.
• Detektierte Dokumentenverweise können schließlich erneut durchgearbeitet (recrawled) werden, um zu prüfen, daß die Informationen tatsächlich allgemein für jedermann verfügbar sind.

Obgleich die vorliegende Erfindung speziell anhand einer Beschreibung einer bevorzugten Ausführungsform gezeigt wurde, leuchtet dem Fachmann ein, daß verschiedene Änderungen in Form und Detail daran vorgenommen werden können, ohne den Geltungsbereich der Erfindung zu verlassen. Die Nutzung bestimmter Protokolle und Formate ist kein notwendiges Merkmal der vorliegenden Erfindung. Zum Beispiel können andere Drahtlos-Protokolle das WAP/WML ersetzen, ohne daß davon die in dieser Erfindung gelehrten Prinzipien berührt werden. Es wird darum in Betracht gezogen, daß derartige Modifikationen vorgenommen werden können, ohne den Geltungsbereich der vorliegenden Erfindung, wie er in den angehängten Ansprüchen definiert ist, zu verlassen.

Claims

Verfahren zum Durchsuchen und Analysieren des Verkehrsinhalts an Zugangspunkten in Datennetzen, wobei die Datennetze mehrfach genutzte Netz-Resourcen, insbesondere das vollständige Internet oder ein Intranet sind, wobei die Zugangspunkte insbesondere Internet-Zugangspunkte für Nutzer sind, die Dienste eines Internet-Serviceproviders in Anspruch nehmen, oder in der Form einer Anwendung für mehrere Nutzer verteilt sind oder ein Verbindungspunkt für einen drahtlosen Nutzer sind, wobei der Verbindungspunkt entweder ein eigener Verbindungspunkt oder ein Internet-Gateway für mehrere Verbindungspunkte ist, und wobei das Verfahren gekennzeichnet ist durch Schritte zum Erfassen von Informationen in der Form von Daten, die aus dem Informationsfluß bei den Zugangspunkten in dem Datennetz extrahiert werden, Indexieren der erfaßten Information mit einer vordefinierten maximalen Zeitverzögerung und Suchen und Abrufen von Information aus der indexierten Information.
Verfahren nach Anspruch 1, gekennzeichnet durch das Speichern erfaßter Information durch Cache-Speicherung in einem oder mehreren Cache-Speichern, die an einem oder mehreren Zugangspunkten vorgesehen sind.
Verfahren nach Anspruch 2, gekennzeichnet durch Cache-Speichern erfaßter Information eines wachsenden Satzes an Zeitintervallen in zwei oder mehr Cache-Speichern, wiederholtes Indexieren der Cache-gespeicherten Information in jedem der Cache-Speicher, um zugeordnete Suchindices für einen wachsenden Satz an Zeitintervallen zu erzeugen, und Kombinieren der Suchergebnisse aus den erzeugten Suchindices.
Verfahren nach Anspruch 2 oder 3, gekennzeichnet durch das Halten der Cache-gespeicherten Information in einem Cache-Speicher bis dessen Inhalt indexiert wurde.
Verfahren nach Anspruch 4, gekennzeichnet durch das Berechnen der Frische der Cache-gespeicherten Information auf der Grundlage der verstrichenen Zeit seit der letzen Aktualisierung einer gegebenen Verkehrs-Inhaltseinheit.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Schritt zum Erfassen von Information den folgenden Unterschritt umfaßt: Cache-Speichern des Verkehrs-Inhalts, um jeweils die Anforderungen an die externe Bandbreite zu minimieren und die Information für die Indexierung frisch und relevant zu halten.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Verkehrs-Inhalt in beiderlei Hinsicht in jeweils zwei hierfür zugeordneten Cache-Speichern gespeichert wird.
Verfahren nach Anspruch 2, gekennzeichnet durch wiederholtes Verarbeiten der Cache-gespeicherten Information mit einer vordefinierten maximalen Zeitverzögerung zum Indexieren der erfaßten Information und Erzeugen eines entsprechenden Indices.
Verfahren nach Anspruch 8, gekennzeichnet durch inkrementelles Aktualisieren des Index durch Erfassen neuer oder aktualisierter Information, die an dem Zugangspunkt bisher nicht erfaßt wurde, und durch Hinzufügen der neuen oder aktualisierten Information zu dem Suchindex.
Verfahren nach Anspruch 8 oder 9, gekennzeichnet durch Verwenden des Verkehrs-Inhalts, der zwischen zwei Indexierungen der Cache-gespeicherten Information beobachtet wurde, zum Erzeugen eines vorübergehenden Suchindex mit frischem Verkehrs-Inhalt seit einer letzten Indexierung, die mit der Cache-Speicherinformation durchgeführt wurde, und Durchführen eines Suchvorgangs durch Kombinieren von Suchvorgängen mit sowohl dem vorübergehenden Suchindex und dem letzten Suchindex, der beim Indexieren der Cache-gespeicherten Information erzeugt wurde.
Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch das Begrenzen der Indexierung der erfaßten Information auf eine Untergruppe des Verkehrs-Inhalts, die von einem Empfindlichkeitsfilter nicht verworfen wurde, wobei der Empfindlichkeitsfilter eines oder mehrere der folgenden Materialen erfassen kann: pornographisches Material, privates Material, besonders privates Material, zu dem nur einer vorgegebenen Anzahl von Nutzern Zugang gewährt wurde, und Material von http POST Operationen.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß der Suchschritt einen Unterschritt zum Ranking nach Relevanz oder Datenfilterung abhängig von einem aufgezeichneten Zeitattribut der Verkehrs-Inhaltseinheiten umfaßt, wobei das aufgezeichnete Zeitattribut eines oder mehrere der folgenden umfaßt: die Zeit, zu der eine Verkehrs-Inhaltseinheit erzeugt wurde, der letzte Zeitpunkt, zu dem eine Verkehrs-Inhaltseinheit modifiziert wurde, die Zeit, zu der eine gegebene Verkehrs-Inhaltseinheit bei einem Zugangspunkt zum ersten Mal beobachtet wurde, und die Zeit, zu der die gegebene Verkehrs-Inhaltseinheit bei dem Zugangspunkt das letzte Mal beobachtet wurde.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß der Schritt des Suchens den folgenden Unterschritt umfaßt: Ranking nach Relevanz abhängig von der Anzahl der Zugriffe einzelner Verkehrs-Inhaltseinheiten über einen Zugangspunkt.
Verfahren nach einem der Ansprüche 1 bis 12, wobei der Schritt des Suchens durch wenigstens eine kollaborierende Suchmaschine realisiert wird, dadurch gekennzeichnet, daß der Schritt des Suchen die folgenden Unterschritte umfaßt: Absenden von Suchanfragen an wenigstens eine kollaborierende Suchmaschine; Erfassen von Suchergebnissen aufgrund eines lokalen Verkehrsindex, Erfassen von Suchergebnissen von der wenigstens einen kollaborierenden Suchmaschine und Kombinieren der erfaßten Suchergebnisse, um ein einheitliches Ergebnis auf die anfängliche Suchanfrage zu liefern.
Verfahren nach Anspruch 14, wobei die kollaborierende Suchmaschine eine Internet-Suchmaschine ist, dadurch gekennzeichnet, daß mit der Suchmaschine aus dem Internet hervorgeholte Information indexiert wird.
Verfahren nach Anspruch 14, wobei der Schritt des Suchens mit mehr als einer kollaborierenden Suchmaschine realisiert wird, dadurch gekennzeichnet, daß eine Suchmaschine in jeweils wenigstens einem Zugangspunkt in dem Datennetz vorgesehen wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß der Schritt des Erfassens von Information die folgenden Unterschritte umfaßt: Erfassen angefragter Information, die nicht zugänglich war, und Verwenden von Information über die nicht zugängliche Information, um den Rang eines zugeordneten Eintrages in einem Suchindex, insbesondere in einem kollaborierenden Suchindex, zu entfernen oder zu reduzieren.
Verfahren nach einem der Ansprüche 1 bis 12, wobei der Schritt des Suchens von wenigstens einer kollaborierenden Suchmaschine realisiert wird, dadurch gekennzeichnet, daß der Schritt des Erfassens von Information die folgenden Unterschritte umfaßt: Erfassen neuer oder aktualisierter Information, die beim Zugangspunkt zuvor nicht beobachtet wurde, und Verwenden der Information über die neue oder aktualisierte Information, um einen Suchindex der wenigstens einen kollaborierenden Suchmaschine zu erhöhen.
Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch die weiteren Schritte, die gestützt auf eine Analyse des Verkehrs-Inhalts bei Zugangspunkten durchgeführt werden: räumlich Kodierung erfaßter Information in der Form von Dokumenten, Messen der Ähnlichkeit der Dokumente und Benachrichtigen von Benutzern in Bezug auf neue und aktualisierte Information.
Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß der weitere Schritt des räumlichen Kodierens die folgenden Unterschritte umfaßt: Erfassen von Dokumentenkennungen für geforderte Dokumente, Versehen der Dokumentenkennungen mit Anmerkungen bezüglich räumlicher Information über Nutzer, welche die Anforderungen stellen, Berechnen von Zugangsstatistiken für wenigstens ein Dokument einschließlich wenigstens der Anzahl der Anforderung des Dokumentes aus einer räumlichen Region und der Gesamtanzahl der Anforderung aus der räumlichen Region, und Ermitteln, welche Dokumente für eine gegebene räumliche Region am spezifischsten sind, durch Vergleichen der Zugangsstatistik für eine gegebene räumliche Region mit entsprechenden Zugangsstatistiken für wenigstens eine zweite räumliche Region.
Verfahren nach Anspruch 20, gekennzeichnet durch das Ableiten der räumlichen Information aus Benutzerdaten, die von einem Internet-Serviceprovider aufgezeichnet werden.
Verfahren nach Anspruch 20, gekennzeichnet durch Ableiten der räumlichen Information aus der Position einer mobilen Einrichtung, die ein Dokument anfordert.
Verfahren nach einem der Ansprüche 20 bis 22, gekennzeichnet durch Auswählen einer räumlichen Granularität derart, daß eine ausreichende Anzahl von Nutzern innerhalb jeder räumlichen Region erhalten wird, um sicherzustellen, daß in den Zugangsstatistiken nicht einzelne Nutzer identifiziert werden können.
Verfahren nach einem der Ansprüche 20 bis 23, gekennzeichnet durch Ermitteln der Spezifizität eines Dokuments durch Berechnen der Wahrscheinlichkeit, daß die Zugangsstatistik für wenigstens zwei räumliche Bereiche derselben statistischen Verteilung angehört.
Verfahren nach einem der Ansprüche 20 bis 23, gekennzeichnet durch Ermitteln der Spezifizität eines Dokuments unter Verwendung eines großen räumlichen Bereichs als die Statistik für eine Null-Hypothese und Berechnen der statistischen Signifikanz eines Differenztests der Zugangsstatistik für einen gegebenen räumlichen Bereich.
Verfahren nach Anspruch 24 oder 25, gekennzeichnet durch die Verwendung einer bereichsspezifischen Punktezuweisung, um eine Rangfolge der Suchergebnisse in Bezug auf den Ort vorzusehen.
Verfahren nach Anspruch 26, gekennzeichnet durch das Teilen der Dokumentenliste in Kategorie-Unterlisten durch eine automatische Kategorieanalyse des Dokumenteninhalts.
Verfahren nach Anspruch 19, gekennzeichnet durch den weiteren Schritt des Messens der Ähnlichkeit der Dokumente, einschließlich der Unterschritte des Erfassens von Dokumentenkennungen für die angeforderten Dokumente, Versehen der Dokumentenanfragen mit einer Anmerkung, so daß aufeinanderfolgende Anfragen von demselben Benutzer identifiziert werden können, und Berechnen einer Dokumentenähnlichkeit zwischen einem Dokument „b" und einem Referenzdokument „a" durch Vergleichen der Anzahl der „b"-Anfragen in der Nähe von „a"-Anfragen mit einer mittleren Frequenz von „b"-Anfragen.
Verfahren nach Anspruch 28, gekennzeichnet durch die Verwendung des Ähnlichkeitsmaßes zum Vorsehen einer geordneten Liste ähnlicher Dokumente gestützt auf ein beliebiges, gegebenes Eingangsdokument.
Verfahren nach Anspruch 29, gekennzeichnet durch das Berechnen der geordneten Liste durch Auslassen von Dokumenten, die von derselben Stelle kommen wie das Eingangsdokument.
Verfahren nach einem der Ansprüche 28-30, gekennzeichnet durch das Kombinieren des Ähnlichkeitsmaßes entweder mit einem Ähnlichkeitsmaß aufgrund des Dokumenteninhalts oder mit einem Ähnlichkeitsmaß aufgrund der Anzahl von übereinstimmenden Zitaten.
Verfahren nach einem der Ansprüche 28-31, gekennzeichnet durch das Berechnen des Ähnlichkeitsmaßes für eine Gruppe von Dokumentenkennungen, indem alle Anfragen nach einem der Dokumente in der Gruppe als eine Anfrage nach dem „a"-Dokument behandelt werden.
Verfahren nach Anspruch 32, gekennzeichnet durch die Verwendung einer Untergruppe eines Web-Protokolls eines Benutzers als die Gruppe der Dokumentenkennungen.
Verfahren nach Anspruch 33, gekennzeichnet durch das Heranziehen dieser Gruppe von Dokumenten, um Vorlieben des Benutzers wiederzugeben, und das Erzeugen einer personalisierten Rangordnung von Suchergebnissen gestützt auf das Ähnlichkeitsmaß.
Verfahren nach Anspruch 33 oder 34, gekennzeichnet durch das Berechnen einer Dokumenten-Rangordnung auf der Basis einer Link-Topologieanalyse, wobei das Ähnlichkeitsmaß dazu verwendet wird, eine Linktopologie und zugehörige Gewichte zu definieren.
Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß der weitere Schritt des Benachrichtigens die folgenden Unterschritte umfaßt: Erfassen von Informationen, die aus dem Datenstrom bei dem Zugangspunkt in dem Datennetz extrahiert wird, in Realzeit, Erfassen neuer und/oder aktualisierter Information, die zuvor bei dem Zugangspunkt nicht erfaßt worden war, Vergleichen der neuen und/oder aktualisierten Information mit einem Satz von Benutzerprofilen, und Senden von Benachrichtigungen an Benutzer, die den Benutzerprofilen zugeordnet sind, wobei die Nachrichten durch die neue und/oder aktualisierte Information ausgelöst werden.