DE60126798T2 - Verfahren zum durchsuchen und analysieren von informationen in datennetzen - Google Patents

Verfahren zum durchsuchen und analysieren von informationen in datennetzen Download PDF

Info

Publication number
DE60126798T2
DE60126798T2 DE60126798T DE60126798T DE60126798T2 DE 60126798 T2 DE60126798 T2 DE 60126798T2 DE 60126798 T DE60126798 T DE 60126798T DE 60126798 T DE60126798 T DE 60126798T DE 60126798 T2 DE60126798 T2 DE 60126798T2
Authority
DE
Germany
Prior art keywords
information
document
search
documents
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60126798T
Other languages
English (en)
Other versions
DE60126798D1 (de
Inventor
Bjørn OLSTAD
Knurt Magne Risvik
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fast Search and Transfer AS
Original Assignee
Fast Search and Transfer AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fast Search and Transfer AS filed Critical Fast Search and Transfer AS
Application granted granted Critical
Publication of DE60126798D1 publication Critical patent/DE60126798D1/de
Publication of DE60126798T2 publication Critical patent/DE60126798T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/09Obsolescence

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Communication Control (AREA)
  • Circuits Of Receivers In General (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Durchsuchen und Analysieren des Verkehrsinhalts an Zugangspunkten in Datennetzen, wobei die Datennetze gemeinsam genutzte Netzressourcen, insbesondere das vollständige Internet oder ein Intranet, sind, wobei die Zugangspunkte insbesondere Internet-Zugangspunkte für Nutzer sind, die Dienste eines Internet-Serviceproviders in Anspruch nehmen, oder in der Form einer Anwendung für mehrere Nutzer verteilt sind oder ein Verbindungspunkt für Drahtlos-Nutzer sind, wobei der Verbindungspunkt entweder ein nativer Verbindungspunkt oder ein Internet-Gateway für mehrere Verbindungspunkte ist.
  • Die Erfindung betrifft verbesserte Informationsabrufverfahren und -systeme. Genauer gesagt, betrifft die vorliegende Erfindung Informationsabrufverfahren und -systeme, die auf Informationen im Internet oder in Intranets über verdrahtete oder drahtlose Schnittstellen zugreifen. Noch genauer gesagt, betrifft die vorliegende Erfindung Intranet- und Internet-gestützte Suchmaschinen und Alarmdienste.
  • Elektronische Informationsressourcen nehmen rasch sowohl im Internet als auch in geschlossenen Intranets zu. Diese Art elektronischer Informationen verdrängt zunehmend die herkömmlicheren Informationsquellen, wie zum Beispiel Tageszeitungen, Zeitschriften und sogar das Fernsehen. Die Größe dieser Informationsdatenbanken wächst derzeit nahezu exponentiell.
  • Der relevante allgemeine Stand der Technik kann in folgenden Publikationen nachgelesen werden:
    • S. Brin und L. Page, The anatomy of a large-scale hypertextual web search engine, Proceedings of the 7th International World Wide Web Conference, Seiten 107-117, Brisbane, Australien, April 1998 (Elsevier Science); J. M. Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of ACM-SIAM Symposium on Discrete Algorithms, Seiten 668- 677, Januar 1998; und D. Gibson, J. M. Kleinberg und P. Raghavan, Inferring Web communities from link topology, Hypertext, Seiten 225-234, Pittsburgh, Pennsylvania, Juni 1998.
  • Ein Protokoll wie zum Beispiel das Hypertext-Transfer-Protokoll (HTTP), das File-Transfer-Protokoll (FTP) oder das Wireless Application-Protokoll (WAP) wird oft benutzt, um den Inhalt zwischen den Inhaltsanbietern und den Clients zu übertragen. Suchmaschinentechnologien sind sowohl für Internet- als auch Intranet-Anwendungen entwickelt worden. Derzeit basieren diese Suchmaschinen auf dem automatisierten "Crawling" (Durcharbeiten) von Webseiten und zusätzlichem Online-Inhalt von zugänglichen Servern. In der Regel wird ein Satz Ausgangsseiten benutzt, um das Crawling zu initialisieren. In einer zweiten Phase holt der Crawler auch Dokumente herbei, auf die in einer der anfänglichen Ausgangsseiten verwiesen wird. Dieser Prozeß setzt sich fort, solange der Crawler noch neue, unbesuchte Dokumentenverweisstellen in einem der herbeigeholten Dokumente findet. Webdokumente sind oft in der Hypertext Markup Language (HTML) formatiert. Eine Dokumentenverweisstelle ist in diesem Fall in der Regel ein HTML-Hyperlink zu einer anderen Webseite. Die Webseite selbst ist gewöhnlich durch eine Adresse, wie zum Beispiel den Universal Resource Locator (URL), spezifiziert.
  • Derzeit arbeiten Suchmaschinen gewöhnlich in zwei Phasen. Zuerst wird ein Crawler verwendet, um eine Dokumentendatenbank zusammenzutragen. Nachdem die Dokumente zusammengetragen wurden, werden sie vorverarbeitet und indexiert, um sie für ein Durchsuchen verfügbar zu machen. Das Dokumentenerfassungsprinzip für einen Crawler ist mit den folgenden Einschränkungen oder Nachteilen behaftet, welche die Qualität der nachfolgenden Suche beeinträchtigen.
  • Der Crawler erhält nur Zugriff auf Dokumente in der transitiven Hülle der ausgewählten Ausgangsseiten auf der Grundlage der Dokumentenverweisstellen. Ein Crawler besucht zum Beispiel niemals die Dokumente, die keinerlei verweisende Dokumente haben. Des Weiteren können je nach der Linktopologie und den ausgewählten Ausgangsseiten auch Dokumente, die verweisende Dokumente haben, durch den Crawler unbesucht bleiben.
  • Crawler sind auf einen relativ seltenen Zugriff auf einen Server beschränkt. In der Regel muß der Crawler 30 Sekunden oder länger zwischen zwei Zugriffen auf denselben Server warten. Diese Beschränkung ist auf Roboterregeln zurückzuführen, die dazu dienen, Server vor Über lastung mit automatisierten Anfragen zu schützen. Das kontinuierliche Crawlen (Durcharbeiten) einer bestimmten Site ist darum auf etwa dreitausend Dokumente am Tag beschränkt. Es gibt verschiedene große Sites mit so vielen Dokumenten, daß es in der Praxis unmöglich ist, den gesamten Inhalt mit den Crawling-Prinzipien des Standes der Technik herunterzuladen und zu indexieren. Selbst mittelgroße Sites stellen im Hinblick auf die Aktualität ein großes Problem für die Crawling-Prinzipien des Standes der Technik dar. Eine Site mit neunzigtausend Dokumenten benötigt zum Beispiel einen Monat Crawling-Arbeit für eine vollständige Aktualisierung.
  • Die Crawling-Prinzipien des Standes der Technik eignen sich nicht besonders zum Garantieren der Aktualität der erfaßten Dokumente. Die Crawling-Beschränkungen machen vollständige Site-Aktualisierungen in einer Suchmaschine für einige Sites unmöglich und für andere Sites zu einer Angelegenheit von Wochen oder Monaten. Nur Sites mit weniger als etwa dreitausend Dokumenten können täglich vollständig aktualisiert werden. Der Mangel an Aktualität ist eine schwerwiegende Beschränkung des Potentials für Suchmaschinen. Es gibt einen gewaltigen Markt für Tageszeitungen, aber ein Markt für das Lesen oder auch nur Durchsuchen alter Tageszeitungen ist praktisch nicht vorhanden. Gleichermaßen sollte man erwarten, daß es von allgemeinem Interesse wäre, über Such- und Alarmdienste Zugriff auf Web-Inhalte zu haben, die erst vor kurzem aktualisiert wurden.
  • Die Crawling-Prinzipien des Standes der Technik sind nicht in der Lage, dynamische Objekte abzurufen. Dynamische Objekte sind Objekte, die in der Regel Parameter erfordern, die zusammen mit der HTTP-Anfrage übermittelt werden. Ein Nutzer kann zum Beispiel ein paar Auswahlen in Dialogfeldern, Häkchenfeldern usw. treffen und eine Seite herunterladen, die nicht dauerhaft als eine html-Datei gespeichert ist, sondern vielmehr automatisch auf der Grundlage der Nutzerauswahlen erzeugt wird. Das Abschätzen aller möglichen Parametereinstellungen ist für einen Crawler praktisch unmöglich, und auf dynamische Objekte kann darum derzeit nicht über Internet-Suchmaschinen zugegriffen werden. Das Web wird andererseits sowohl im Hinblick auf die Anzahl der Seiten als auch im Hinblick auf den Wert der Informationen oder Dienste zunehmend durch dynamische Inhalte dominiert.
  • Die Dokumentendatenbanken sowohl für das Internet als auch für viele Intranets wachsen nahezu exponentiell. Die Anfragekomplexität bleibt hingegen nahezu unverändert. Die Anzahl der Dokumententreffer für eine bestimmte Frage wächst darum ebenfalls nahezu expo nentiell. Die Herausforderung an die Suchmaschinen im Hinblick auf die Trefferrelevanz gewinnt daher zunehmend an Bedeutung. Die Crawling-Prinzipien des Standes der Technik gestatten die Analyse der Linktopologie zwischen Dokumenten, und es sind schon verschiedene Techniken zum Zuweisen einer Dokumentenpriorität auf der Grundlage dieser Topologie vorgeschlagen werden. Die Linktopologie ist andererseits keine hinreichende Quelle für die Relevanz für wichtige Dokumentklassen wie: dynamische Objekte, neue Dokumente, binäre Dateien und Drahtlos-Seiten, wie Seiten, die in der Wireless Markup Language (WML) geschrieben sind. Alle diese Beispiele haben keine oder relativ wenige Links, die für eine Linktopologieanalyse verwendet werden können.
  • Alarmdienste sind im Stand der Technik beschrieben und funktionieren weitgehend in der gleichen Weise wie eine Suchmaschine. Ein Alarmdienst ist in der Regel in der Lage, eine Suchmaschinenanfrage aufzugreifen und einen Strom neuer Informationen anhand der Anfrage zu überprüfen. Ein Nutzer kann zum Beispiel historische Daten mit einer Suchmaschine durchsuchen und die Anfrage als einen Auslöser in einem Alarmdienst nutzen, der die Anfrage auf einen Strom neuer Dokumente anwendet.
  • Aufgrund der Schwachstellen und Nachteile, die dem Stand der Technik innewohnen und oben besprochen wurden, besteht ein dringender Bedarf an einer Verbesserung des Dokumentenerfassungsprozesses bei Such- und Alarmdiensten.
  • Eine primäre Aufgabe der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahren, das einen Zuwachs der Gesamtzahl an Dokumenten, die erfaßt werden können, und einen Zuwachs des Prozentsatzes an Dokumenten, die von großen Sites erfaßt werden können, sowie eine Verbesserung der Aktualität der Dokumente im Hinblick auf die Verzögerung zwischen der letzten Dokumentenaktualisierung oder Dokumentenerstellung und dem Zeitpunkt, wo sie mit einem Suchdienst aufgefunden werden können, ermöglicht und außerdem die Detektion von Dokumenten, die ungültig (zu "toten" Links) geworden sind, und das Erfassen von dynamischen Objekten gestattet.
  • Es ist eine weitere Aufgabe der Erfindung, die verbesserte Quelle von kürzlich aktualisierten Dokumenten synergistisch zu nutzen, um Alarmdienste zu erzeugen, indem geprüft wird, ob ein neues Dokument zu den Auslösern paßt, die durch die Nutzer des Alarmdienstes definiert wurden.
  • Es ist eine weitere Aufgabe der Erfindung, es zu ermöglichen, das Relevanz- oder Rangordnungskriterium in der Suchmaschine auf das Alter des Dokuments zu stützen. Dies ist besonders wichtig, weil diese Erfindung verbesserte Dokumentenerfassungsprinzipien beschreibt, die es dem Nutzer zum Beispiel ermöglichen, neue Web-Dokumente zu durchsuchen, die in den letzten 10 Minuten, in der letzten Stunde oder im Verlauf des letzten Tages erstellt oder aktualisiert wurden.
  • Es ist eine weitere Aufgabe der Erfindung, die Anfragestatistiken an Zugangspunkten in Datennetzen zu nutzen, um eine verbesserte Relevanz in Such- und Alarmdiensten zu ermöglichen.
  • Es ist eine weitere Aufgabe der Erfindung, eine fundortspezifische Dokumentenrangordnung anhand von Anfragestatistiken von Nutzern in einer räumlichen Nachbarschaft zu erstellen.
  • Schließlich ist es ebenfalls eine Aufgabe der Erfindung, eine zeitliche Nähe in Anfragestatistiken zu verwenden, um Grade einer Ähnlichkeit zwischen Dokumenten zu definieren.
  • Die oben genannten Aufgaben und sonstigen Merkmale und Vorteile werden gemäß dem Verfahren der vorliegenden Erfindung realisiert, das dadurch gekennzeichnet ist, daß es Schritte umfaßt zum: Erfassen von Informationen in Form von Daten, die aus dem Informationsfluß an den Zugangspunkten in dem Datennetz herausgezogen wurden; Indexieren der erfaßten Informationen mit einer zuvor festgelegten maximalen Zeitverzögerung; und Suchen und Abrufen von Informationen aus den indexierten Informationen; und durch weitere optionale Schritte, die basieren auf einer Analyse des Verkehrsinhalts an Zugangspunkten für eine Fundortcodierung von erfaßten Informationen in Form von Dokumenten; dem Messen der Ähnlichkeit von Dokumenten; und dem Alarmieren von Nutzern bezüglich neuer und aktualisierter Informationen.
  • Weitere Merkmale und Vorteile der vorliegenden Erfindung werden in den angehängten abhängigen Ansprüchen 2-36 offenbart.
  • Die Erfindung selbst sowie die bevorzugten Ausführungsformen werden durch das Studium der folgenden detaillierten Beschreibung von bevorzugten und veranschaulichenden Ausfüh rungsformen in Verbindung mit den begleitenden Zeichnungen besser verstanden. In diesen Zeichnungen ist Folgendes dargestellt:
  • 1 zeigt die Verbindung des Clients mit dem Internet über einen ISP.
  • 2 zeigt einen Proxyserver bei dem ISP, der Web-Inhalte cachespeichert.
  • 3 zeigt einen Proxyserver, der dafür modifiziert ist, mit einem externen Suchcache zu kommunizieren.
  • 3b zeigt ein verteiltes Verkehrs-Crawling, das von einer Client-Software ausgeht.
  • 4 zeigt eine mögliche Organisation des Suchcache.
  • 5 zeigt, wie der Inhalt des Suchcache in einen Suchindex umgewandelt werden kann.
  • 6 zeigt Konfigurationen für einen Suchdienst, der den Suchcache-Index.
  • 7 zeigt das Prinzip der zeitlichen Nähe zum Definieren der Dokumentenähnlichkeit.
  • 8 zeigt eine mögliche Definition für eine Gewichtsfunktion, welche die zeitliche Nähe definiert.
  • Bevor bevorzugte Ausführungsformen näher besprochen werden, wird kurz der allgemeine Hintergrund der vorliegenden Erfindung besprochen, um sie besser verständlich zu machen.
  • Internet-Nutzer sind oft mit dem Netz über sogenannte Internet-Serviceprovider (ISPs) verbunden. 1 veranschaulicht, wie Clients über einen ISP an die verschiedenen Web-Server angeschlossen sind. Der ISP (12) mietet Bandbreite von einem Internet-Backboneprovider und bietet Endnutzern (11) einen Anteil an der Bandbreite (14) auf der Basis eines Teilzeitnutzungsmodells an. Die Zugriffe von den Endnutzern (11) werden auf diese Weise über den ISP (12) an das Web (13) geroutet, wo die einzelnen Server (14) Dokumenten (15) und multimediale Inhalte (16) hostspeichern. Das gleiche Modell gilt auch für Drahtlos-Nutzer, entweder über native Verbindungspunkte oder über Internet-Gateways für mehrere Verbin dungspunkte. Suchmaschinen basieren im Stand der Technik auf einem automatisierten Crawling (Durcharbeiten) (17) von den Web-Servern (14) aus und dem Strukturieren dieser Informationen in einem Suchindex (18), der zum Durchsuchen verfügbar gemacht wird. Die Ergebnisse aus diesen Suchen erzeugen Rückverweise zu den Originaldokumenten im Web (15, 16).
  • Ein Konzept, das Computersysteme gemeinsam haben, sind Cachespeichersysteme. Die ISPs verwenden oft einen Webcache in ihrer Bandbreitenverteilungseinheit. Dieser Cache verringert die Bandbreitennutzung im Backbone, während für die Endnutzer die Latenzzeiten kürzer werden. Webcaches werden oft über Proxyserver eingesetzt. Proxyserver können transparent oder nicht-transparent sein. Im Stand der Technik gibt es verschiedene Cachespeichermechanismen und Proxyserver. Ein Beispiel ist Squid (www.squid-cache.org), das eine Gratissoftwareversion eines Web-Proxy ist. 2 veranschaulicht, wie die Proxyserver (21) eine interne Zusammenstellung von Dokumenten oder Objekten (22) enthalten könnten. Nutzeranfragen an diese Objekte werden lokal bedient (23), um den von dem ISP (24) ausgehenden externen Bandbreitenbedarf zu verringern. Für die Nutzer wird auch die Latenzzeit verkürzt, wenn auf ein cachegespeichertes Dokument oder Objekt zugegriffen wird. Es werden Verfallsregeln für die einzelnen Objekte definiert, um zu gewährleisten, daß eine Kopie in dem Cache tatsächlich das Originalobjekt widerspiegelt.
  • Es werden nun das Konzept und die Eigenschaften eines sogenannten Verkehrs-Crawling besprochen.
  • Die gesamte Gruppe der Nutzer, die über einen ISP mit dem Internet verbunden sind, agiert insgesamt als ein großer Crawler von Informationen aus dem Web. Im weiteren Verlauf der Beschreibung dieser Erfindung wird diese Gesamtinformationserfassung bei einem ISP oder einem ähnlichen Verbindungspunkt oder Gateway als ein Verkehrs-Crawler bezeichnet. Dieser durch Menschen verkörperte Verkehrs-Crawler hat eine Anzahl von Eigenschaften, die sich von denen eines automatisierten Software-Crawlers erheblich unterscheiden:
    • • Der Verkehrs-Crawler ist im Hinblick auf Ausgangsseiten und Linktopologie nicht den gleichen Einschränkungen wie ein Software-Crawler unterworfen, um Zugriff zu Dokumenten zu erhalten.
    • • Der Verkehrs-Crawler ist nicht durch die Zugriffsbeschränkungen für eine bestimmte Site eingeschränkt, denen ein Software-Crawler unterworfen ist. Der Verkehrs-Crawler hat darum das Potential, große Sites viel schneller und vollständiger durchzuarbeiten.
    • • Ein Software-Crawler wendet einen großen Teil seiner Zeit dafür auf, einfach Dokumente herunterzuladen, die er bereits besucht hat, und zu prüfen, ob der Inhalt dieser Seiten seit dem letzten Download aktualisiert wurde. Der Verkehrs-Crawler kann den Inhalt, der durch den ISP für die Nutzeranfragen abgerufen wird, prüfen, um einen Doppeltest anhand früherer Kopien des entsprechenden Dokuments auszuführen. Es brauchen darum keine zusätzlichen Informationen heruntergeladen zu werden.
    • • Der Verkehrs-Crawler kann die Aktualität, die ein Software-Crawler erzeugen kann, auf zweifache Weise verbessern:
    • – Der Verkehrs-Crawler detektiert fehlende oder zeitweilig nicht-verfügbare Dokumente. Die Detektion könnte in der Regel durch Aufzeichnen erfolgen, wann eine HTTP-Anfrage an eine bestimmte URL zu einer Fehlermeldung führt, wie zum Beispiel der Fehlerzahl 404. Diese fehlgeschlagenen Anfragen könnten in dem zugehörigen Suchdienst dafür verwendet werden, entweder die zugehörigen URLs zu entfernen oder der URL einen niedrigeren Rangfolgewert für das Sortieren von Dokumenten in den Ergebnislisten, die durch die Suchmaschine hervorgebracht werden, zuzuweisen.
    • – Der Verkehrs-Crawler hat das Potential, ein neues oder aktualisiertes Dokument zu analysieren, sobald einer der verbundenen ISP-Clients das Dokument heruntergeladen hat. Zum Beispiel könnte eine neue Pressemitteilung auf diese Weise suchfähig gemacht werden, sobald einer der ISP-Clients den Artikel gelesen hat.
    • • Die ISP-Nutzer greifen auf dynamische Seiten zu, und der Inhalt dieser Seiten kann dadurch ebenfalls suchfähig gemacht werden. Es kann oft eine praktisch unendliche Anzahl von Parameterkombinationen verwendet werden, um eine dynamische Seite zu erzeugen. Die Parameterkombinationen, die tatsächlich in den Anfragen verwendet werden, sind darum eine wohlüberlegte Auswahl zum Definieren des Satzes dynamischer Seiten, die suchfähig gemacht werden sollen. Dies ist exakt der Satz dynamischer Seiten, die der Verkehrs-Crawler potentiell für ein anschließendes Durchsuchen indexieren kann.
    • • Das Zugriffsmuster der ISP-Nutzer kann ebenfalls eine verbesserte Relevanz in dem zugehörigen Suchindex bewirken. Häufig besuchte Sites können höher eingestuft werden als die Sites, die selten besucht werden. Eine solche Zugriffszählung könnte möglicherweise auch durch die Suchmaschine selbst vorgenommen werden, indem die Nutzerauswahlen in den Ergebnislisten umgeleitet werden, aber es ist viel nutzbringender, die Relevanzberechnung auf das Gesamtzugriffsmuster zu stützen und nicht nur auf das Zugriffsmuster, das das Ergebnis von Suchvorgängen ist.
  • Es wird nun die Implementierung und das Design des Verkehrs-Crawling anhand des Konzepts eines zentralisierten bzw. eines verteilten Crawling besprochen.
  • Zentralisiertes Verkehrs-Crawling
  • Es gibt verschiedene Möglichkeiten zum Implementieren eines Verkehrs-Crawlers auf der Grundlage des Verkehrs an einem Zugangspunkt in Datennetzen. Diese Erfindung lehrt einige mögliche Ausführungsformen, und für den Fachmann ist klar erkennbar, wie mittels geringfügig veränderter Designauswahlen die gleichen Nutzeffekte realisiert werden können. Die Beispiele, die in dieser Erfindung gelehrt werden, arbeiten mit dem Verkehr bei einem ISP und einem Indexieren von Web-Dokumenten als einem konkreten Fall, aber dem Fachmann ist klar, wie die gleichen Prinzipien auch in ähnlichen Situationen angewendet werden können, wie zum Beispiel im Intranet-Verkehr oder an drahtlosen Verbindungspunkten.
  • Der eigentliche Zugriff auf die Dokumente oder Objekte, die über einen ISP übermittelt werden, kann auf verschiedene Weise erfolgen. Eine Alternative ist, die Cachespeichermechanismen zu nutzen, die durch den ISP verwendet werden. Der Inhalt dieses Cache kann entweder periodisch zum Durchsuchen und Alarmieren indexiert werden, oder der Suchindex könnte inkrementell erhöht werden, wann immer ein neues Dokument oder Objekt in dem Webcache gespeichert wird. Die mit diesem Lösungsweg verbundene Beschränkung ist, daß derzeitige Webcaches dafür ausgelegt sind, den von dem ISP ausgehenden externen Bandbreitenbedarf zu reduzieren. Die Sollbandbreite diktiert zu einem großen Teil, welche Art von Objekten in dem Webcache gespeichert wird. In der Regel besteht ein großer Teil des Webcache aus häufig zugegriffenen Multimedia-Objekten. In vielen der interessantesten Textseiten zum Indexieren ist auch eine Verfallsmarkierung definiert, die dem Webcache sagt, sie aus dem Cache auszuschließen.
  • Darum erfordert das Optimieren der Qualität des Verkehrs-Crawling entweder eine Modifikation der Webcachespeichervorschriften, oder ein separater Cache muß parallel zu dem Webcache verwendet werden. Der Webcache wählt in diesem Fall Objekte anhand von Bandbreitenoptimierungskriterien aus, und der Suchcache wählt Objekte anhand der Dokumentenqualität im Hinblick auf Such- und Alarmierungsdienste aus.
  • 3 veranschaulicht, wie ein Proxyserver modifiziert werden kann, um mit einem zusammenwirkenden Suchcache zu kommunizieren. Der Suchcache kann sich entweder in dem oder in den gleichen Computern wie der Proxyserver befinden, oder er kann sich auf einem oder mehreren Computern befinden und über ein Datennetz kommunizieren. Der Proxyserver enthält einen internen Webcache (31), der dafür verwendet wird, den externen Bandbreitenbedarf zu verringern. Der interne Webcache ist nicht erforderlich, um das Verkehrs-Crawling zu implementieren. Ein Kommunikationsmodul (32) ist in dem Proxyserver enthalten. Das Kommunikationsmodul zeichnet Web-Anfragen (35) auf, die den Proxyserver (34) passieren, und protokolliert und puffert optional Ergebnismeldungen für die Anfragen und den tatsächlichen Inhalt, der im Ergebnis der Anfrage an den Nutzer übermittelt wird. Das Kommunikationsmodul überträgt (36) einen Teil dieser Informationen an den Suchcache (33). Die übertragenen Informationen können so eingerichtet werden, daß sie Folgendes enthalten:
    • • Nur Anfragen: Dies kann durch periodisches Übertragen der Aktualisierungen in dem Zugriffprotokoll des Proxyservers von dem Kommunikationsmodul (32) zu dem Suchcache (33) implementiert werden. Jede Zugriffsaufzeichnung kann optional mit Informationen wie diesen markiert werden:
    • – Nutzerinformationen, wie die IP-Adresse.
    • – Verschlüsselte Nutzerinformationen. Im Zusammenhang mit der Problematik des Schutzes der Vertraulichkeit in Web-Anwendungen ist es in der Regel wichtig, die Anonymität der einzelnen Nutzer zu wahren. Das Kommunikationsmodul innerhalb des Proxyservers kann darum so eingerichtet werden, daß entweder alle persönliche Informationen ausgeschlossen oder so codiert werden, daß einzelne Nutzer auf der Grundlage der Daten, die in den Suchcache gelangen, voneinander unterschieden, aber nicht identifiziert werden können. Ein Beispiel könnte sein, die Anfrage mit einer verschlüsselten Nummer auf der Grundlage der Nutzersitzungs-ID zu markieren. Diese Vorgehensweise macht auch die Vertraulichkeitsvorschriften durch den ISP und intern in der ISP-Proxysoftware kontrollierbar.
    • – Zugehörige Nutzerinformationen, wie Land und Stadt. Diese Informationen könnten auf einer genügend groben Ebene verwaltet werden, um zu garantieren, daß einzelne Nutzer nicht auf der Grundlage der Daten, die in den Suchcache gelangen, identifiziert werden können. Die Standortinformationen können anhand von Hilfsdaten erzeugt werden, die durch den ISP aufgezeichnet wurde, wenn der einzelne Nutzer ein Nutzerkonto eröffnet. Drahtlos-Anwendungen können Lokalisierungsinformationen zum Beispiel aus GPS-Daten gewinnen, die von dem Drahtlosgerät übermittelt werden, oder über eine Lokalisierung von Telefonen zum Beispiel auf der Grundlage von Basisstations-IDs und Verzögerungszeiten.
    • – Der Ergebniscode für die Web-Anfrage. Der Suchcache kann zum Beispiel diese Informationen verwenden, um tote Links zu entfernen oder die Rangfolge von Links herabzusetzen, die oft zeitweilig nicht verfügbar sind.
    • – Hash-Werte für Dokumenteninhalte. Das Kommunikationsmodul (32) kann einen oder mehrere Hash-Werte berechnen, die den Inhalt widerspiegeln, der an den Nutzer im Ergebnis der Anfrage zurückgesendet wurde. Solche Inhaltsschlüssel können mit einem minimalen CPU-Aufwand berechnet werden und stellen eine sehr kompakte Möglichkeit dar, Informationen an eventuell einen räumlich abgesetzten Suchcache zu übertragen. Ein räumlich abgesetzter Suchcache kann zum Beispiel diese Informationen verwenden, um sie mit historischen Hash-Werten für dasselbe Dokument zu vergleichen. Änderungen bei den Hash-Werten zeigen an, daß das Dokument aktualisiert wurde und daß es erneut durchgearbeitet (recrawled) werden sollte, um den Suchindex zu aktualisieren.
    • • Anfragen mit Inhalten: Das Kommunikationsmodul (32) kann auch den eigentlichen Dokumenteninhalt zusätzlich zu den oben besprochenen Informationen für die Anfrage selbst senden. Diese Option wird in der Regel gewählt, wenn ein Datenkanal mit hoher Kapazität zwischen dem Kommunikationsmodul (32) und dem Suchcache (33) zur Verfügung steht. Das Dokument ist durch den ISP abgerufen worden und kann darum auf diese Weise – ohne zusätzliche Anfragen an den ursprünglichen Web-Server – zum Indexieren und Alarmieren verfügbar gemacht werden. Der Datenstrom muß in diesem Fall so geteilt werden, daß eine Kopie der Informationen, die an den Nutzer zurückgesendet werden, von dem Kommunikationsmodul (32) zu dem Suchcache (33) übertragen wird. Es kann vorteilhaft sein, ein gewisses Maß an Filterung in dem Kommunikationsmodul (32) auszuführen, um die Kommunikation zu dem Suchcache (33) zu verringern. In der Regel könnten nur Anfragen übermittelt werden, die für das Indexieren von Interesse sind. Zu Beispielen solcher Filterungsregeln gehören:
    • – nur eine Übermittlung von HTTP GET-Anfragen
    • – nur eine Übermittlung von Anfragen für die MIME-Typen text/*
    • – nur eine Übermittlung von Inhalten für Anfragen mit einem Resultatcode, der eine erfolgreiche Übertragung anzeigt
    • – nur eine Übermittlung von Anfragen entweder für eindeutig identifizierte Hosts oder für Hosts, die nicht in einer Datenbank benannter Hosts enthalten sind, die auszuschließen sind.
  • Der Suchcache (33) empfängt den Informationsstrom von dem Kommunikationsmodul (32) innerhalb des Proxyservers und verwendet diese Informationen zum Aufbau eines Suchindex' oder eines Alarmdienstes. 4 zeigt eine mögliche Organisation des Suchcache. Der Suchcache (33) enthält ein Kommunikationsmodul (41), das die Datenübertragung mit dem Kommunikationsmodul (32) innerhalb des Proxyservers handhabt. Die eigentliche Übertragungslogik kann zum Beispiel mit Sockets implementiert werden. Die durch das Kommunikationsmodul (41) empfangenen Daten werden zur Weiterverarbeitung übermittelt. Der erste Verarbeitungsschritt ist optional ein Zurückweisungslogikfilter (42), das die Filterungsmechanismen, die für das Kommunikationsmodul innerhalb des Proxyservers beschrieben wurden, erweitern und ergänzen kann. Der Nutzeffekt einer Zurückweisungsfilterung innerhalb des Proxyservers ist, daß die Datenbandbreite zwischen dem Proxyserver und dem Suchcache verringert wird. Es ist andererseits auch von Vorteil, einen Teil der Zurückweisungsfilterung innerhalb des Suchcache auszuführen:
    • • Der Lastzuwachs für die CPU, die den Proxyserver betreibt, sollte minimiert werden. Der Verarbeitungsaufwand innerhalb des Kommunikationsmoduls (32) sollte darum auf ein Minimum verringert werden.
    • • Der Suchcache hat in der Regel einen schnellen Zugriff auf Dokumenteninformationen, die für die Gestaltung guter Zurückweisungsfilter wichtig sind. Zu solchen Informationen gehören zum Beispiel historische Hash-Werte für Dokumenteninhalte, Zugriffsstatistiken und Datenbanken mit Hosts oder Sites, die zurückzuweisen sind.
  • Es ist zu beachten, daß die Zurückweisungslogik (42) in Echtzeit während der eigentlichen Übertragung ausgeführt werden könnte. Die Übertragung kann daher gestoppt werden, sobald der Strom als ein Objekt identifiziert wurde, das durch den Suchcache zurückzuweisen ist.
  • Verteiltes Verkehrs-Crawling
  • 3b zeigt ein verteiltes Verkehrs-Crawling von einer Client-Software aus. Eine Gruppe Nutzer (3b1, 3b2, 3b3) ruft Dokumente von einer gemeinsam genutzten Netzressource ab, wie zum Beispiel dem Internet, dem mobilen Internet oder Intranets. Die Dokumente werden abgerufen und innerhalb der Client-Software (3b4, 3b6, 3b8) angezeigt. Die Client-Software kann in der Regel eine Browser-Anwendung sein. Ein Kommunikationsmodul (3b5, 3b7, 3b8) kann entweder intern in der Client-Software, als ein Plug-in oder als ein kooperierendes Modul angeordnet sein. Das Kommunikationsmodul kann, wenn es aktiviert ist, die Dokumenten-IDs aufzeichnen, wie zum Beispiel die URLs der Dokumente, die durch die Client-Software abgerufen werden. Die Kommunikationsmodule können des Weiteren die gleiche Art von Informationen senden, wie sie oben für das zentralisierte Verkehrs-Crawling beschrieben wurde. Die Meldungen von dem verteilten Satz Kommunikationsmodule innerhalb der Client-Software werden durch eine Server-Anwendung (3b10) aggregiert. Die Server-Anwendung (3b10) übermittelt die erfaßten Informationen an einen Suchcache (3b11) in genau der gleichen Weise, wie das Kommunikationsmodul in dem zentralisierten Verkehrs-Crawling (32) Informationen an den Suchcache (33) sendet.
  • Verteiltes Verkehrs-Crawling ermöglicht die Realisierung der gleichen Nutzeffekte wie das zentralisierte Verkehrs-Crawling ohne die Notwendigkeit, das System in ISPs oder ähnliche Dienste integrieren zu müssen. Ein verteilter Zugangspunkt wird statt dessen über Client-Software genutzt, und die Informationen über die verteilten Zugriffe werden durch Übermittlung über das Netz an eine zentralisierte Server-Anwendung aggregiert.
  • Der Umgang mit privaten Informationen kann in dem verteilten Verkehrs-Crawling auf einfache Weise gehandhabt werden, weil der Nutzer über die Client-Software explizit das Kommunikationsmodul aktivieren und deaktivieren kann.
  • Es wird nun das Cachespeichern von Verkehrsinhalten besprochen.
  • Die Dokumente, die nicht durch das Zurückweisungslogikfilter (42) zurückgewiesen werden, werden an einen Objektverwalter (43) übermittelt, der praktisch die Informationen cachespeichert, die zu den verschiedene Dokumenten gehören. Der Objektverwalter enthält ein Vertraulichkeitsfilter (44), das die Dokumente in dem temporären Speicher (47) dergestalt prüft, daß private Informationen aus den Daten, die den Objektverwalter (43) verlassen, ausgeschlossen werden. Das Vertraulichkeitsfilter (44) wird in der Erfindung getrennt besprochen. Zu den Informationen, die zusammen mit den Dokumentenverweisen in dem Objektverwalter (43) gespeichert werden, können gehören:
    • • Informationen, die dem Dokument durch das Kommunikationsmodul (32) innerhalb des Proxyservers angehängt werden, wie oben beschrieben.
    • • Dokumentenstatistiken wie das zuletzt modifizierte Attribut.
    • • Zugriffsstatistiken wie der Zeitpunkt des erstmaligen Sehens, der Zeitpunkt des letztmaligen Sehens, die Anzahl der Zugriffe in verschiedenen Zeitintervallen und die Anzahl der verschiedenen Nutzer, die auf das Dokument zugegriffen haben.
    • • der Dokumenteninhalt selbst.
    • • ein statischer Rangfolgewert für das Dokument.
  • Der Objektverwalter kann entweder als ein Dienst dienen, der kontinuierlich oder periodisch Datenströme mit Informationen über neue, aktualisierte oder gelöschte Dokumente ausgibt.
  • Die Datenströme können entweder nur Dokumentenverweise (45) oder Dokumentenverweise, die den eigentlichen Dokumenteninhalt (46) beinhalten, enthalten. Diese Datenquellen sind nützlich für den Aufbau von Alarmdiensten für Web-Aktualisierungen und zum Optimieren der Größe, der Aktualität und der Relevanz von allgemeinen und spezialisierten Suchmaschinen im Web. Die Dokumentenverweise (45) können als ein Neuindexierungssignal zum Führen des Crawlers (17) einer herkömmlichen Suchmaschine verwendet werden, und der eigentliche Dokumenteninhalt (46) kann auch dafür verwendet werden, das Crawling (17) dieser Dokumente in einer herkömmlichen Suchmaschine zu ersetzen.
  • Der Objektverwalter (43) kann auch als ein Cache durch Vergrößern des temporären Speichers und Einbinden von Ausschlußalgorithmen zum Entfernen von Dokumenten aus dem Cache dienen. Das Lebensdauerattribut, das Dokumenten zum Anweisen einer Webcachespeicherung zugewiesen werden kann, ist für die Suchcachespeicherung nicht wirklich relevant. Das eigentliche Dokument, auf das der Nutzer in dem resultierenden Suchdienst zugreift, ist das Originaldokument. Das einzige Risiko ist daher das herkömmliche Problem für Suchmaschinen, daß der indexierte Text möglicherweise im Vergleich zum eigentlichen Dokument veraltet ist. Die Wahrscheinlichkeit dieses Aktualitätsproblems wird andererseits weitgehend durch Suchdienste verringert, die auf den Techniken aufgebaut sind, die in dieser Erfindung gelehrt werden. Die Cacheausschlußvorschriften könnten eng an den Dokumentenrangfolgewert geknüpft werden, wenn dieser Wert tatsächlich die Dokumentenqualität und/oder -beliebtheit widerspiegelt. Neue oder aktualisierte Dokumenten könnten für eine zuvor festgelegte Mindestzeit in dem Cache gespeichert bleiben, so daß Suchdienste für unlängst stattgefundene Web-Aktualisierungen aufgebaut werden können. Dynamische Objekte könnten eine verkürzte Lebensdauer in dem Suchcache haben, um eine übermäßige Menge an dynamischen Objekten zu vermeiden, die gewöhnlich häufig aktualisiert werden.
  • Der Objektverwalter (43) könnte auch ein Modul zum Berechnen statischer Rangfolgewerte (48) für die Dokumente in dem temporären Speicher (47) enthalten. Der Rangfolgewert kann sowohl für die Cachespeichervorschriften im Hinblick auf das Bestimmen, welche Dokumente aus dem temporären Speicher (47) zu entfernen sind, als auch als Eingabe für die Rangordnungsfestlegung von Suchergebnissen in dem resultierenden Suchdienst verwendet werden. Das Rangordnungskriterium kann in der Regel eine Kombination aus Linktopologie, Dokumenteninhalt und Zugriffsmuster sein. Der Nutzeffekt des Verkehrs-Crawlers ist, daß die Qualität der Schätzungen zu den Zugriffsstatistiken im Vergleich zum Stand der Technik ver bessert wird. Ein Beispiel einer einfachen Rangordnungsformel, die auf die Zugriffsstatistiken beschränkt ist, lautet: r' = r + w·I·f(Trefferrate)·g(Anzahl der Nutzer, die auf das Dokument zugreifen) + (I – A)
  • In dieser Gleichung bezeichnet r den vorherigen Rang des Dokuments, und r' bezeichnet den aktualisierten Rang des Dokuments. w ist ein Gewichtungsfaktor in der rekursiven Aktualisierung des Rangordnungswertes. I bezeichnet den durchschnittlichen Rangfolge-Sollwert und könnte auch als ein Ausgangswert für neue Dokumente verwendet werden. A bezeichnet den durchschnittlichen Rang in der vorherigen Rangordnung und dient dem Stabilisieren des Rangfolgewertes im Lauf der Zeit auf der Basis von I. Die Funktionen f und g sind monotone Funktionen, die das Gewicht der Dokumente erhöhen, auf die oft und durch viele verschiedene Nutzer zugegriffen wird.
  • Es wird nun kurz das Indexieren des Verkehrscaches erläutert.
  • Der Objektverwalter kann einfach dafür verwendet werden, kontinuierlich oder periodisch Datenströme mit Informationen über neue, aktualisierte oder gelöschte Dokumente (45 und 46) auszugeben. Der Empfänger der erzeugten Datenströme handhabt in diesem Fall das Indexieren dieser Informationen und die resultierende Suchdiensterzeugung. Eine andere Alternative ist, den Objektverwalter (43) einen Cache oder eine temporären Speicher (47) verwenden zu lassen und entweder kontinuierlich oder periodisch die Inhalte in dem temporären Speicher (47) indexieren zu lassen.
  • 5 zeigt, wie der Inhalt des Suchcaches in einen Suchindex verwandelt werden kann. Die einfachste Vorgehensweise (51) ist, den kompletten Inhalt des Suchcaches periodisch zu verarbeiten (54), um einen aktualisierten Suchindex aufzubauen. Alternativ kann der komplette Suchcache einmal indexiert werden, und dann wird ein inkrementeller Index (58) kontinuierlich oder periodisch für Aktualisierungen (57) in dem Suchcache (52) aufgebaut (55). Der inkrementelle Index muß entweder direkt mit dem kompletten Index kombiniert oder periodisch fusioniert werden. Das Fusionieren kann auch implementiert werden, indem man einfach den kompletten Suchcache neu indexiert. Eine weitere Alternative ist, den Suchcache die Daten gemäß den letzten aufgezeichneten Dokumentenaktualisierungen (53) in Gruppen unterteilen zu lassen. Die Gruppen könnten zum Beispiel "letzte Stunde" (59c), "letzter Tag" (59b) und "letzte Woche" (59a) sein. Die gleichen Gruppen würden daher in dem Suchindex (59d, 59e, 59f) widergespiegelt werden. Solche Gruppen würden den Indexierungsbedarf und die Fusionierungen, die für die Indizes benötigt werden, verringern.
  • Der Dokumentenrang, der durch die Indexierung berechnet wird, kann entweder den Rangfolgewert verwenden, der durch die Rangfolgeberechnung (48) innerhalb des Objektverwalters angeboten wird, oder er kann diesen Wert mit anderen Informationsquellen wie zum Beispiel der Linktopologie kombinieren.
  • Gemäß der vorliegenden Erfindung kann der Verkehrscache vorteilhafterweise in einem Suchdienst verwendet werden.
  • 6 zeigt Konfigurationen für einen Suchdienst, der mit dem Suchcache-Index arbeitet. Der aus dem Suchcache erzeugte Suchindex ist ein Index, der auf eine herkömmliche Weise zum Aufbau von Suchmaschinendiensten verwendet werden kann. Der Nutzer sendet die Anfragen (61) an den Suchcache-Index (62), der Ergebnisse (63) hervorbringt, die an den Nutzer zurückgemeldet werden. Die Suchmaschine kann die Nutzeffekte, die durch den in dieser Erfindung beschriebenen Verkehrs-Crawler realisiert werden, synergistisch nutzen.
  • Eine weitere Alternative ist, den aus dem Suchcache erzeugten Suchindex mit einem externen Suchindex zu kombinieren, der zum Beispiel ein großer allgemeiner Internet-Suchdienst sein könnte, wie zum Beispiel www.alltheweb.com. Die Nutzersuchanfrage (64) würde in diesem Fall an ein Anfragedispatchmodul (65) gesendet werden, und die gleiche Suche würde sowohl in dem Verkehrscache-Index (66) als auch in dem zusammenwirkenden Suchindex (67) ausgeführt werden. Die Ergebnislisten, die durch die zwei Suchen hervorgebracht werden, werden in einem Fusionsmodul (68) fusioniert, das die Dokumentenrangordnungswerte berücksichtigt. Schließlich wird ein vereinheitlichtes Ergebnis erzeugt und als eine Antwort auf die ursprüngliche Anfrage (69) an den Nutzer zurückgesendet. Der Fusionierungsvorgang kann daher verschiedene Algorithmen zum Rangordnen des lokalen Inhalts, der aus dem Verkehrscache-Index zurückgemeldet wird, anhand des Inhalts aus der zusammenwirkenden Suchmaschine, die einen global ranggeordneten Inhalt haben könnte, auswählen.
  • Das Konzept mit zwei zusammenwirkenden Suchmaschinen kann auf einfache Weise erweitert werden, um mehrere Suchmaschinen mit möglicherweise mehr als einem einzigen Ver kehrscache zu handhaben. Das Dispatchmodul (65) und das Fusionsmodul (68) müssen in diesem Fall dafür modifiziert werden, mit dem ausgewählten Satz Suchdiensten zu kommunizieren. Es gibt ähnliche Kombinationen mit parallelen Suchen in mehreren zum Stand der Technik gehörenden Suchmaschinen für das Internet; sie werden gewöhnlich als Meta-Suchmaschinen bezeichnet.
  • Das Verfahren der Erfindung soll vorteilhafterweise die Verwendung von regionalen oder Community-spezifischen Rangordnungen ermöglichen.
  • Die Dokumentendatenbanken sowohl für das Internet als auch viele Intranets wachsen nahezu exponentiell. Die Anfragekomplexität bleibt hingegen nahezu unverändert. Die Anzahl der Dokumententreffer für eine bestimmte Frage wächst darum ebenfalls nahezu exponentiell. Die Herausforderung an die Suchmaschinen im Hinblick auf die Trefferrelevanz gewinnt daher zunehmend an Bedeutung. Standortinformationen können eine Schlüsselrolle in der Implementierung der erforderlichen Relevanzverbesserungen spielen.
  • Eine Standortcodierung kann durch Studieren des Inhalts und der Eigenschaften eines bestimmten Dokuments erreicht werden. Informationen wie zum Beispiel Adressen oder Telefonnummern können dafür verwendet werden, das Dokument einem bestimmten geografischen Standort zuzuordnen. Alternativ kann man das Zugriffsmuster zu einem bestimmten Dokument von verschiedenen Regionen aus studieren und identifizieren, welche Dokumente im Hinblick auf Zugriffe aus einer bestimmten Region statistisch überrepräsentiert sind. Die Suchmaschine kann diese Informationen verwenden, um regionsspezifische Rangordnungsformeln zu erzeugen. Ein spanischer Nutzer des Suchdienstes könnte zum Beispiel eine Rangordnung haben, die Informationen darüber verwendet, welche Sites bei spanischen Nutzern beliebt sind. Das regionale Zugriffsmuster kann auch dafür verwendet werden, automatisierte Listen von beliebten Dokumenten zu erstellen, die zu einer bestimmten Region gehören. Diese Listen können weiter in Kategorien unterteilt werden und können daher benutzt werden, um automatisierte regionale Portaldienste zu erstellen.
  • Die räumlichen Informationen, die durch den Verkehrs-Crawler geliefert werden, müssen auf einem genügend groben Niveau gehalten werden, um zu garantieren, daß einzelne Nutzer nicht auf der Grundlage der Daten, die in den Suchcache gelangen, identifiziert werden können. In der Regel sollten alle bezeichneten Regionen eine zuvor festgelegte Mindestanzahl von Nutzern haben. Die Standortinformationen können anhand von Hilfsdaten erzeugt werden, die durch den ISP aufgezeichnet werden, wenn die einzelnen Nutzer ein Nutzerkonto einrichten. Drahtlos-Anwendungen können Lokalisierungsinformationen aus GPS-Daten gewinnen, die durch das Drahtlosgerät geliefert werden, oder über die Lokalisierung von Telefonen auf der Grundlage zum Beispiel von Basisstations-IDs und Verzögerungszeiten.
  • Das Verfahren gemäß der vorliegenden Erfindung ist vorteilhafterweise in der Lage, Informationen zu liefern, die ein Berechnen einer Dokumentenähnlichkeit anhand von Statistiken, die durch den Verkehrs-Crawler erzeugt werden, ermöglichen.
  • Die Crawling-Techniken des Standes der Technik gestatten die Analyse der Linktopologie zwischen Dokumenten, und es sind schon verschiedene Techniken zum Zuweisen einer Dokumentenpriorität auf der Grundlage dieser Topologie vorgeschlagen werden. Die Linktopologie ist andererseits keine hinreichende Quelle für die Relevanz für wichtige Dokumentklassen wie: dynamische Objekte, neue Dokumente, binäre Dateien und Drahtlosseiten wie Seiten, die in der Wireless Markup Language (WML) geschrieben sind. Alle diese Beispiele haben keine oder relativ wenige Links, die für eine Linktopologieanalyse verwendet werden können. Die zeitliche Nähe in Anfragestatistiken, die durch den Verkehrs-Crawler erzeugt werden, kann eine brauchbare Quelle zum Definieren von Ähnlichkeitsmessungen zwischen Dokumenten in diesen Situationen darstellen. Die Anfragestatistiken können auch Ähnlichkeitsmessungen in Situationen unterstützen, wo eine reichhaltigere Linktopologie für Ähnlichkeitsmessungen verwendet werden kann.
  • 7 veranschaulicht das Prinzip der zeitlichen Nähe zum Definieren einer Dokumentenähnlichkeit. Der ISP (71) verbindet (72) eine Anzahl von Nutzern (A, B, C, ...) mit den Web-Ressourcen (73), die aus Servern (74) und einzelnen Dokumenten (a, b, c, d, ...) bestehen. Das durch den Verkehrs-Crawler aufgezeichnete Zugriffprotokoll kann so auf die verschiedenen Nutzer geteilt werden, daß anschließende Anfragen von demselben Nutzer identifiziert werden können (74). Die Nutzervertraulichkeit kann immer noch durch Verschlüsseln der Nutzer-ID-Informationen gewahrt werden. Es genügt für die folgende Analyse, daß das Zugriffprotokoll mit Sitzungs-IDs anstelle von Nutzer-IDs versehen wird. Ein Versehen mit Sitzungs-IDs oder verschlüsselten Sitzungs-IDs schützt die Nutzervertraulichkeit zusätzlich.
  • Die Ähnlichkeitsdefinition ruht auf der Annahme, daß eine Person überwiegend zugehörige Informationen innerhalb eines kurzen Zeitfensters oder innerhalb eines kurzen Intervalls aufeinanderfolgender Anfragen abruft. Es gibt natürlich Ausnahmen von dieser Annahme, aber man kann auch erwarten, daß zufällige Änderungen infolge einer Aufmerksamkeitsverschiebung seitens des Nutzers eine eher statistische Zufälligkeit haben.
  • 8 zeigt eine mögliche Definition für eine Gewichtsfunktion, welche die zeitliche Nähe definiert. Es ist ein Beispiel veranschaulicht, wo der Nutzer "C" an einem Zeitpunkt t0 eine Anfrage an das Dokument "a" stellt. Eine zweite Anfrage durch denselben Nutzer oder dieselbe Sitzung ergeht an das Dokument "b" an einem Zeitpunkt t1. Wir nehmen des Weiteren an, daß k weitere Dokumentenanfragen durch denselben Nutzer zwischen den Anfragen an die Dokumenten "a" und "b" gestellt wurden. Eine Nähe-Gewichtsfunktion kann in diesem Fall als eine Funktion w(k, t1 – t0) definiert werden, wobei w eine Funktion ist, die monoton sowohl mit k als auch |t1 – t0| abnimmt. In vereinfachten Modellen kann w als eine Signaturfunktion zum Beispiel von einem bestimmten Zeitintervall relativ zu t0 (tMIN-tMAX) oder einer bestimmten Anzahl von Zugriffen k1 vor t0 und einer bestimmter Anzahl von Zugriffen k2 nach t0 ausgewählt werden. Ähnliche Gewichtsfunktionsmodelle werden in anderen Anwendungen verwendet, wie zum Beispiel Algorithmen zum Verwalten von Seiten in einem virtuellen Speicher.
  • Eine ranggeordnete Ähnlichkeitsliste für ein bestimmtes Dokument "a" kann nun durch Messen der statistischen Überrepräsentiertheit anderer Dokumente in der Nähe von Anfragen an das "a"-Dokument erstellt werden. Die Analyse kann entweder auf einer Dokumentenebene oder auf einer Site-Ebene erfolgen, wobei alle Dokumente, die sich in einer bestimmten Site befinden, einfach als eine Anfrage an die übergeordnete Site behandelt werden. Der Rangordnungswert kann auf eine Anzahl von Techniken gestützt werden, und für den Fachmann ist klar erkennbar, wie geringfügige Modifikationen der Ausführungsformen, die in dieser Erfindung gelehrt werden, ausgeführt werden können. Der Ähnlichkeitsrang kann zum Beispiel auf eine dieser Messungen gestützt werden:
    • • Gesamtzugriffszahl innerhalb eines zuvor festgelegten Zeitnähefensters von Anfragen an das "a"-Dokument.
    • • Die Gesamtsumme der Nähe-Gewichtsfunktion w für alle Zugriffe innerhalb eines zuvor festgelegten Nähefensters von Anfragen an das "a"-Dokument".
    • • Die statistische Signifikanz der beobachteten Anzahl von "b"-Anfragen innerhalb eines zuvor festgelegten Nähefensters von Anfragen an das "a"-Dokument. Der statistische Test kann auf eine Null-Hypothese gestützt werden, die davon ausgeht, daß Anfragen an das "a"- und das "b"-Dokument wirklich unabhängig sind. Des Weiteren kann die allgemeine Häufigkeit des Zugriffs auf das "a"- und das "b"-Dokument in dem statistischen Test berücksichtigt werden. Ein ähnlicher statistischer Test kann ersonnen werden, indem man die Gesamtsumme der Nähe-Gewichtsfunktion w als die Beobachtungsvariable anstelle des Anfragezählwertes verwendet.
  • Daher kann eine Dokumentenähnlichkeitsliste für jedes Dokument "a" berechnet werden, indem man Dokumente, die innerhalb eines zuvor festgelegten Nähefensters von Anfragen an das "a"-Dokument angefragt wurden, gemäß einer der vorgeschlagenen Ähnlichkeitsrangfunktionen sortiert. Die Qualität solcher Ähnlichkeitslisten kann verbessert werden, indem man triviale Ähnlichkeiten entfernt, wie zum Beispiel Dokumente in derselben Site oder Dokumente, auf die direkt mit Hyperlinks in dem "a"-Dokument verwiesen wird.
  • Die Ähnlichkeitslisten können auch für eine Gruppe von Dokumenten anstelle eines einzelnen Dokuments berechnet werden. Dies kann auf einfache Weise implementiert werden, indem man eine Anfrage an ein Dokument in der Dokumentengruppe als einen Verweis auf das "a"-Dokument in der vorherigen Beschreibung behandelt. Alternativ kann man die Affinität durch Gewichten der Anfragen durch einen Nutzerähnlichkeitsfaktor verbessern, der zum Beispiel die Anzahl von gemeinsamen Dokumenten zwischen der Dokumentengruppe und jedem der Zugriffprotokolle für einzelne Sitzungen zählen könnte.
  • Personalisierte Rangordnung und Dokumentenauswahl können auf diese Weise erreicht werden, indem man zum Beispiel eine Dokumentenähnlichkeitsliste auf der Grundlage eines Satzes von durch einen Nutzer ausgewählten Dokumenten berechnet. Der Nutzer kann entweder diese Dokumente explizit auswählen, oder es kann eine automatische Auswahl anhand von Favoritenauswahlen innerhalb des Browsers oder des Zugriffsverlaufs erfolgen, die entweder lokal durch den Browser des Client oder am Zugangs-Gateway aufgezeichnet wurden.
  • Suchdienste und Alarmdienste können diese Informationen nutzen, um es dem Nutzer zu er möglichen, eine personalisierte Rangordnungsformel zu erstellen. Die personalisierte Rangordnung kann die folgenden Dokumente in den Ergebnislisten bevorzugen:
    • • Dokumente, die eigentlich durch den Nutzer bereitgestellt wurden.
    • • Neue dynamische Seiten, die zu Dokumenten gehören, die durch den Nutzer bereitgestellt wurden, wie zum Beispiel Zeitungsartikel in einer Tageszeitungs-Site.
    • • Dokumente, die hohe Ähnlichkeitsfaktoren, wie oben beschrieben, mit dem Satz Dokumente haben, die durch den Nutzer bereitgestellt wurden.
  • Die vorliegende Erfindung kann auch dazu dienen, Relevanzalgorithmen auf der Grundlage der Dokumentenähnlichkeitstopologie aufzustellen.
  • Durch Modifizieren der Definition des zuvor festgelegten Nähefensters für die Ähnlichkeitsrangordnung können interessante Eigenschaften über die Dokumente gewonnen werden. Es ist zum Beispiel möglich, den Rangfolgewert zwischen den zwei Dokumenten "a" und "b" mit zwei Nähefenstern zu vergleichen: einer 10 Minuten nach "a"-Anfragen und einer 10 Minuten vor "a"-Anfragen. Die Unterschiede bei diesen zwei Werten geben sowohl Informationen zu der Beziehung zwischen "a" und "b" als auch zu der Art des Inhalts in "a". Diese Werte definieren praktisch die reale effektive Linktopologie zwischen Dokumenten auf der Grundlage der tatsächlichen Nutzung. Die Werte können mit der Hyperlinktopologie verglichen werden oder die Hyperlinktopologie als eine Basis für Dokumentenrelevanzberechnungen ersetzen. Dem Fachmann ist klar, wie zum Stand der Technik gehörende Relevanz-Techniken auf der Basis der Linktopologie auf die in dieser Erfindung gelehrte, vom Verkehr abgeleitete Nutzungstopologie ausgedehnt werden können. Zwei derartige Alternativen sind:
    • • Zuerst wird jedem Dokument ein anfänglicher Dokumentenrang zugewiesen. Er kann entweder für alle Dokumente der gleiche sein oder andere Informationsquellen zum Unterscheiden des Dokuments berücksichtigen. Zweitens werden Dokumentenränge über die beschriebene Nutzungstopologie durch Gewichten der anfänglichen Dokumentenränge mit der Linkstärke verbreitet.
    • • Algorithmen des Standes der Technik, wie zum Beispiel der Seitenrang- oder HITS-Algorithmus, können als iterative Modelle zum Verbreiten der Seiteränge über die beschriebene Nutzungstopologie verwendet werden.
  • In den meisten Web- und Drahtlos-Anwendungen der vorliegenden Erfindung ist es von größter Bedeutung, daß die Nutzervertraulichkeit gewahrt bleibt. Das Indexieren von Verkehrsinhalten an Zugangspunkten im Datennetz könnte möglicherweise private Informationen für ein breites Publikum suchfähig machen. Daher soll das Verfahren gemäß der vorliegenden Erfindung in der Lage sein, die Nutzervertraulichkeit zu gewährleisten.
  • Es sind separate Protokolle ersonnen worden, die Web-Objekte sicher und geschützt transportieren, zum Beispiel das HTTPS-Protokoll. Web-Server, die einen Host für Objekte privaten Inhalts bilden, sollten solche Protokolle verwenden, wenn sie für den Nutzer Diskretion garantieren wollen. Leider ist eher das Gegenteil gängige Praxis. Es kommen eine Vielzahl verschiedener Möglichkeiten zum Einsatz, um private Inhalte auf den Web-Servern zu verbergen, während der eigentliche Inhalt nach wie vor als Klartext transportiert wird. Ein Großteil der privaten Inhalte wird als dynamische Objekte gespeichert und ist darum im Allgemeinen in zum Stand der Technik gehörenden Suchdiensten nicht verfügbar gewesen. Die vorliegende Erfindung lehrt, wie dynamische Objekte ebenfalls effizient indexiert und suchfähig gemacht werden können.
  • Es können die folgenden Prinzipien genutzt werden, um das Indexieren von privaten oder sensiblen Informationen zu vermeiden:
    • • Sichere Protokolle wie das HTTPS-Protokoll sind offenkundig nicht indexiert.
    • • Das Indexieren wird auf HTTP GET-Anfragen begrenzt. Einige persönliche Objekte werden zum Beispiel mittels einer HTTP POST-Operation auf dem Server abgerufen. Die Ergebnisse dieser Operationen werden nicht gespeichert.
    • • Mitunter werden dynamische und persönliche Inhalte durch eine Version der HTTP-Authentifizierungsmechanismen geschützt. Das funktioniert durch Einstellen spezifischer Felder in dem HTTP-Anfrageheader. Diese Art der Authentifizierung kann automatisch detektiert werden, um die resultierenden Informationen vom Indexieren auszuschließen.
    • • Das Indexieren kann auf Dokumente beschränkt werden, die durch eine zuvor festgelegte Mindestanzahl von Nutzern betrachtet wurden. Das Indexieren von Informationen, die nur ein einziger Nutzer betrachtet hat, kann auf diese Weise vermieden werden.
    • • Das Indexieren kann auf Anfragen begrenzt werden, die keine Cookies enthalten, um zu gewährleisten, daß das Cookie keine persönlichen Informationen transportiert, die zum Abrufen des Dokuments benötigt werden.
    • • Das Indexieren auf einen zuvor festgelegten Satz Sites und Hosts begrenzt werden.
    • • Das Indexieren kann zuvor festgelegte Sites und Hosts ausschließen, die nicht zu indexieren sind.
    • • Detektierte Dokumentenverweise können schließlich erneut durchgearbeitet (recrawled) werden, um zu prüfen, daß die Informationen tatsächlich allgemein für jedermann verfügbar sind.
  • Obgleich die vorliegende Erfindung speziell anhand einer Beschreibung einer bevorzugten Ausführungsform gezeigt wurde, leuchtet dem Fachmann ein, daß verschiedene Änderungen in Form und Detail daran vorgenommen werden können, ohne den Geltungsbereich der Erfindung zu verlassen. Die Nutzung bestimmter Protokolle und Formate ist kein notwendiges Merkmal der vorliegenden Erfindung. Zum Beispiel können andere Drahtlos-Protokolle das WAP/WML ersetzen, ohne daß davon die in dieser Erfindung gelehrten Prinzipien berührt werden. Es wird darum in Betracht gezogen, daß derartige Modifikationen vorgenommen werden können, ohne den Geltungsbereich der vorliegenden Erfindung, wie er in den angehängten Ansprüchen definiert ist, zu verlassen.

Claims (36)

  1. Verfahren zum Durchsuchen und Analysieren des Verkehrsinhalts an Zugangspunkten in Datennetzen, wobei die Datennetze mehrfach genutzte Netz-Resourcen, insbesondere das vollständige Internet oder ein Intranet sind, wobei die Zugangspunkte insbesondere Internet-Zugangspunkte für Nutzer sind, die Dienste eines Internet-Serviceproviders in Anspruch nehmen, oder in der Form einer Anwendung für mehrere Nutzer verteilt sind oder ein Verbindungspunkt für einen drahtlosen Nutzer sind, wobei der Verbindungspunkt entweder ein eigener Verbindungspunkt oder ein Internet-Gateway für mehrere Verbindungspunkte ist, und wobei das Verfahren gekennzeichnet ist durch Schritte zum Erfassen von Informationen in der Form von Daten, die aus dem Informationsfluß bei den Zugangspunkten in dem Datennetz extrahiert werden, Indexieren der erfaßten Information mit einer vordefinierten maximalen Zeitverzögerung und Suchen und Abrufen von Information aus der indexierten Information.
  2. Verfahren nach Anspruch 1, gekennzeichnet durch das Speichern erfaßter Information durch Cache-Speicherung in einem oder mehreren Cache-Speichern, die an einem oder mehreren Zugangspunkten vorgesehen sind.
  3. Verfahren nach Anspruch 2, gekennzeichnet durch Cache-Speichern erfaßter Information eines wachsenden Satzes an Zeitintervallen in zwei oder mehr Cache-Speichern, wiederholtes Indexieren der Cache-gespeicherten Information in jedem der Cache-Speicher, um zugeordnete Suchindices für einen wachsenden Satz an Zeitintervallen zu erzeugen, und Kombinieren der Suchergebnisse aus den erzeugten Suchindices.
  4. Verfahren nach Anspruch 2 oder 3, gekennzeichnet durch das Halten der Cache-gespeicherten Information in einem Cache-Speicher bis dessen Inhalt indexiert wurde.
  5. Verfahren nach Anspruch 4, gekennzeichnet durch das Berechnen der Frische der Cache-gespeicherten Information auf der Grundlage der verstrichenen Zeit seit der letzen Aktualisierung einer gegebenen Verkehrs-Inhaltseinheit.
  6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Schritt zum Erfassen von Information den folgenden Unterschritt umfaßt: Cache-Speichern des Verkehrs-Inhalts, um jeweils die Anforderungen an die externe Bandbreite zu minimieren und die Information für die Indexierung frisch und relevant zu halten.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Verkehrs-Inhalt in beiderlei Hinsicht in jeweils zwei hierfür zugeordneten Cache-Speichern gespeichert wird.
  8. Verfahren nach Anspruch 2, gekennzeichnet durch wiederholtes Verarbeiten der Cache-gespeicherten Information mit einer vordefinierten maximalen Zeitverzögerung zum Indexieren der erfaßten Information und Erzeugen eines entsprechenden Indices.
  9. Verfahren nach Anspruch 8, gekennzeichnet durch inkrementelles Aktualisieren des Index durch Erfassen neuer oder aktualisierter Information, die an dem Zugangspunkt bisher nicht erfaßt wurde, und durch Hinzufügen der neuen oder aktualisierten Information zu dem Suchindex.
  10. Verfahren nach Anspruch 8 oder 9, gekennzeichnet durch Verwenden des Verkehrs-Inhalts, der zwischen zwei Indexierungen der Cache-gespeicherten Information beobachtet wurde, zum Erzeugen eines vorübergehenden Suchindex mit frischem Verkehrs-Inhalt seit einer letzten Indexierung, die mit der Cache-Speicherinformation durchgeführt wurde, und Durchführen eines Suchvorgangs durch Kombinieren von Suchvorgängen mit sowohl dem vorübergehenden Suchindex und dem letzten Suchindex, der beim Indexieren der Cache-gespeicherten Information erzeugt wurde.
  11. Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch das Begrenzen der Indexierung der erfaßten Information auf eine Untergruppe des Verkehrs-Inhalts, die von einem Empfindlichkeitsfilter nicht verworfen wurde, wobei der Empfindlichkeitsfilter eines oder mehrere der folgenden Materialen erfassen kann: pornographisches Material, privates Material, besonders privates Material, zu dem nur einer vorgegebenen Anzahl von Nutzern Zugang gewährt wurde, und Material von http POST Operationen.
  12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß der Suchschritt einen Unterschritt zum Ranking nach Relevanz oder Datenfilterung abhängig von einem aufgezeichneten Zeitattribut der Verkehrs-Inhaltseinheiten umfaßt, wobei das aufgezeichnete Zeitattribut eines oder mehrere der folgenden umfaßt: die Zeit, zu der eine Verkehrs-Inhaltseinheit erzeugt wurde, der letzte Zeitpunkt, zu dem eine Verkehrs-Inhaltseinheit modifiziert wurde, die Zeit, zu der eine gegebene Verkehrs-Inhaltseinheit bei einem Zugangspunkt zum ersten Mal beobachtet wurde, und die Zeit, zu der die gegebene Verkehrs-Inhaltseinheit bei dem Zugangspunkt das letzte Mal beobachtet wurde.
  13. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß der Schritt des Suchens den folgenden Unterschritt umfaßt: Ranking nach Relevanz abhängig von der Anzahl der Zugriffe einzelner Verkehrs-Inhaltseinheiten über einen Zugangspunkt.
  14. Verfahren nach einem der Ansprüche 1 bis 12, wobei der Schritt des Suchens durch wenigstens eine kollaborierende Suchmaschine realisiert wird, dadurch gekennzeichnet, daß der Schritt des Suchen die folgenden Unterschritte umfaßt: Absenden von Suchanfragen an wenigstens eine kollaborierende Suchmaschine; Erfassen von Suchergebnissen aufgrund eines lokalen Verkehrsindex, Erfassen von Suchergebnissen von der wenigstens einen kollaborierenden Suchmaschine und Kombinieren der erfaßten Suchergebnisse, um ein einheitliches Ergebnis auf die anfängliche Suchanfrage zu liefern.
  15. Verfahren nach Anspruch 14, wobei die kollaborierende Suchmaschine eine Internet-Suchmaschine ist, dadurch gekennzeichnet, daß mit der Suchmaschine aus dem Internet hervorgeholte Information indexiert wird.
  16. Verfahren nach Anspruch 14, wobei der Schritt des Suchens mit mehr als einer kollaborierenden Suchmaschine realisiert wird, dadurch gekennzeichnet, daß eine Suchmaschine in jeweils wenigstens einem Zugangspunkt in dem Datennetz vorgesehen wird.
  17. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß der Schritt des Erfassens von Information die folgenden Unterschritte umfaßt: Erfassen angefragter Information, die nicht zugänglich war, und Verwenden von Information über die nicht zugängliche Information, um den Rang eines zugeordneten Eintrages in einem Suchindex, insbesondere in einem kollaborierenden Suchindex, zu entfernen oder zu reduzieren.
  18. Verfahren nach einem der Ansprüche 1 bis 12, wobei der Schritt des Suchens von wenigstens einer kollaborierenden Suchmaschine realisiert wird, dadurch gekennzeichnet, daß der Schritt des Erfassens von Information die folgenden Unterschritte umfaßt: Erfassen neuer oder aktualisierter Information, die beim Zugangspunkt zuvor nicht beobachtet wurde, und Verwenden der Information über die neue oder aktualisierte Information, um einen Suchindex der wenigstens einen kollaborierenden Suchmaschine zu erhöhen.
  19. Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch die weiteren Schritte, die gestützt auf eine Analyse des Verkehrs-Inhalts bei Zugangspunkten durchgeführt werden: räumlich Kodierung erfaßter Information in der Form von Dokumenten, Messen der Ähnlichkeit der Dokumente und Benachrichtigen von Benutzern in Bezug auf neue und aktualisierte Information.
  20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß der weitere Schritt des räumlichen Kodierens die folgenden Unterschritte umfaßt: Erfassen von Dokumentenkennungen für geforderte Dokumente, Versehen der Dokumentenkennungen mit Anmerkungen bezüglich räumlicher Information über Nutzer, welche die Anforderungen stellen, Berechnen von Zugangsstatistiken für wenigstens ein Dokument einschließlich wenigstens der Anzahl der Anforderung des Dokumentes aus einer räumlichen Region und der Gesamtanzahl der Anforderung aus der räumlichen Region, und Ermitteln, welche Dokumente für eine gegebene räumliche Region am spezifischsten sind, durch Vergleichen der Zugangsstatistik für eine gegebene räumliche Region mit entsprechenden Zugangsstatistiken für wenigstens eine zweite räumliche Region.
  21. Verfahren nach Anspruch 20, gekennzeichnet durch das Ableiten der räumlichen Information aus Benutzerdaten, die von einem Internet-Serviceprovider aufgezeichnet werden.
  22. Verfahren nach Anspruch 20, gekennzeichnet durch Ableiten der räumlichen Information aus der Position einer mobilen Einrichtung, die ein Dokument anfordert.
  23. Verfahren nach einem der Ansprüche 20 bis 22, gekennzeichnet durch Auswählen einer räumlichen Granularität derart, daß eine ausreichende Anzahl von Nutzern innerhalb jeder räumlichen Region erhalten wird, um sicherzustellen, daß in den Zugangsstatistiken nicht einzelne Nutzer identifiziert werden können.
  24. Verfahren nach einem der Ansprüche 20 bis 23, gekennzeichnet durch Ermitteln der Spezifizität eines Dokuments durch Berechnen der Wahrscheinlichkeit, daß die Zugangsstatistik für wenigstens zwei räumliche Bereiche derselben statistischen Verteilung angehört.
  25. Verfahren nach einem der Ansprüche 20 bis 23, gekennzeichnet durch Ermitteln der Spezifizität eines Dokuments unter Verwendung eines großen räumlichen Bereichs als die Statistik für eine Null-Hypothese und Berechnen der statistischen Signifikanz eines Differenztests der Zugangsstatistik für einen gegebenen räumlichen Bereich.
  26. Verfahren nach Anspruch 24 oder 25, gekennzeichnet durch die Verwendung einer bereichsspezifischen Punktezuweisung, um eine Rangfolge der Suchergebnisse in Bezug auf den Ort vorzusehen.
  27. Verfahren nach Anspruch 26, gekennzeichnet durch das Teilen der Dokumentenliste in Kategorie-Unterlisten durch eine automatische Kategorieanalyse des Dokumenteninhalts.
  28. Verfahren nach Anspruch 19, gekennzeichnet durch den weiteren Schritt des Messens der Ähnlichkeit der Dokumente, einschließlich der Unterschritte des Erfassens von Dokumentenkennungen für die angeforderten Dokumente, Versehen der Dokumentenanfragen mit einer Anmerkung, so daß aufeinanderfolgende Anfragen von demselben Benutzer identifiziert werden können, und Berechnen einer Dokumentenähnlichkeit zwischen einem Dokument „b" und einem Referenzdokument „a" durch Vergleichen der Anzahl der „b"-Anfragen in der Nähe von „a"-Anfragen mit einer mittleren Frequenz von „b"-Anfragen.
  29. Verfahren nach Anspruch 28, gekennzeichnet durch die Verwendung des Ähnlichkeitsmaßes zum Vorsehen einer geordneten Liste ähnlicher Dokumente gestützt auf ein beliebiges, gegebenes Eingangsdokument.
  30. Verfahren nach Anspruch 29, gekennzeichnet durch das Berechnen der geordneten Liste durch Auslassen von Dokumenten, die von derselben Stelle kommen wie das Eingangsdokument.
  31. Verfahren nach einem der Ansprüche 28-30, gekennzeichnet durch das Kombinieren des Ähnlichkeitsmaßes entweder mit einem Ähnlichkeitsmaß aufgrund des Dokumenteninhalts oder mit einem Ähnlichkeitsmaß aufgrund der Anzahl von übereinstimmenden Zitaten.
  32. Verfahren nach einem der Ansprüche 28-31, gekennzeichnet durch das Berechnen des Ähnlichkeitsmaßes für eine Gruppe von Dokumentenkennungen, indem alle Anfragen nach einem der Dokumente in der Gruppe als eine Anfrage nach dem „a"-Dokument behandelt werden.
  33. Verfahren nach Anspruch 32, gekennzeichnet durch die Verwendung einer Untergruppe eines Web-Protokolls eines Benutzers als die Gruppe der Dokumentenkennungen.
  34. Verfahren nach Anspruch 33, gekennzeichnet durch das Heranziehen dieser Gruppe von Dokumenten, um Vorlieben des Benutzers wiederzugeben, und das Erzeugen einer personalisierten Rangordnung von Suchergebnissen gestützt auf das Ähnlichkeitsmaß.
  35. Verfahren nach Anspruch 33 oder 34, gekennzeichnet durch das Berechnen einer Dokumenten-Rangordnung auf der Basis einer Link-Topologieanalyse, wobei das Ähnlichkeitsmaß dazu verwendet wird, eine Linktopologie und zugehörige Gewichte zu definieren.
  36. Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß der weitere Schritt des Benachrichtigens die folgenden Unterschritte umfaßt: Erfassen von Informationen, die aus dem Datenstrom bei dem Zugangspunkt in dem Datennetz extrahiert wird, in Realzeit, Erfassen neuer und/oder aktualisierter Information, die zuvor bei dem Zugangspunkt nicht erfaßt worden war, Vergleichen der neuen und/oder aktualisierten Information mit einem Satz von Benutzerprofilen, und Senden von Benachrichtigungen an Benutzer, die den Benutzerprofilen zugeordnet sind, wobei die Nachrichten durch die neue und/oder aktualisierte Information ausgelöst werden.
DE60126798T 2000-09-14 2001-09-11 Verfahren zum durchsuchen und analysieren von informationen in datennetzen Expired - Lifetime DE60126798T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NO20004595A NO313399B1 (no) 2000-09-14 2000-09-14 Fremgangsmate til soking og analyse av informasjon i datanettverk
NO20004595 2000-09-14
PCT/NO2001/000371 WO2002023398A1 (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks

Publications (2)

Publication Number Publication Date
DE60126798D1 DE60126798D1 (de) 2007-04-05
DE60126798T2 true DE60126798T2 (de) 2007-10-31

Family

ID=19911580

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60126798T Expired - Lifetime DE60126798T2 (de) 2000-09-14 2001-09-11 Verfahren zum durchsuchen und analysieren von informationen in datennetzen

Country Status (17)

Country Link
US (1) US7093012B2 (de)
EP (1) EP1325434B1 (de)
JP (1) JP2004509415A (de)
KR (1) KR100514149B1 (de)
CN (1) CN1279475C (de)
AT (1) ATE354831T1 (de)
AU (2) AU9036301A (de)
BR (1) BRPI0113882B1 (de)
CA (1) CA2420382C (de)
CZ (1) CZ2003510A3 (de)
DE (1) DE60126798T2 (de)
HU (1) HUP0301788A2 (de)
IL (1) IL154492A0 (de)
IS (1) IS6735A (de)
NO (1) NO313399B1 (de)
PL (1) PL360714A1 (de)
WO (1) WO2002023398A1 (de)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8585598B2 (en) 2009-02-17 2013-11-19 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image guided surgery
US8641621B2 (en) 2009-02-17 2014-02-04 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures
US8670816B2 (en) 2012-01-30 2014-03-11 Inneroptic Technology, Inc. Multiple medical device guidance
US9107698B2 (en) 2010-04-12 2015-08-18 Inneroptic Technology, Inc. Image annotation in image-guided medical procedures
US9265572B2 (en) 2008-01-24 2016-02-23 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for image guided ablation
US9659345B2 (en) 2006-08-02 2017-05-23 Inneroptic Technology, Inc. System and method of providing real-time dynamic imagery of a medical procedure site using multiple modalities
US9901406B2 (en) 2014-10-02 2018-02-27 Inneroptic Technology, Inc. Affected region display associated with a medical device
US10188467B2 (en) 2014-12-12 2019-01-29 Inneroptic Technology, Inc. Surgical guidance intersection display
US10314559B2 (en) 2013-03-14 2019-06-11 Inneroptic Technology, Inc. Medical device guidance

Families Citing this family (208)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271316B2 (en) * 1999-12-17 2012-09-18 Buzzmetrics Ltd Consumer to business data capturing system
US8775197B2 (en) * 2000-02-24 2014-07-08 Webmd, Llc Personalized health history system with accommodation for consumer health terminology
US7197470B1 (en) * 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
NO315887B1 (no) 2001-01-04 2003-11-03 Fast Search & Transfer As Fremgangsmater ved overforing og soking av videoinformasjon
US7398271B1 (en) * 2001-04-16 2008-07-08 Yahoo! Inc. Using network traffic logs for search enhancement
US20030061206A1 (en) * 2001-09-27 2003-03-27 Richard Qian Personalized content delivery and media consumption
JP4283466B2 (ja) * 2001-10-12 2009-06-24 富士通株式会社 リンク関係に基づく文書整理方法
US20080256069A1 (en) * 2002-09-09 2008-10-16 Jeffrey Scott Eder Complete Context(tm) Query System
US7249312B2 (en) * 2002-09-11 2007-07-24 Intelligent Results Attribute scoring for unstructured content
US7568148B1 (en) 2002-09-20 2009-07-28 Google Inc. Methods and apparatus for clustering news content
US8090717B1 (en) 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US20050076233A1 (en) * 2002-11-15 2005-04-07 Nokia Corporation Method and apparatus for transmitting data subject to privacy restrictions
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
US8095500B2 (en) * 2003-06-13 2012-01-10 Brilliant Digital Entertainment, Inc. Methods and systems for searching content in distributed computing networks
EP1777633A3 (de) * 2003-09-30 2007-12-12 Google, Inc. Auf Abfrageanalysen basierender Dokumentähnlichkeitswert
US7797316B2 (en) 2003-09-30 2010-09-14 Google Inc. Systems and methods for determining document freshness
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7467131B1 (en) * 2003-09-30 2008-12-16 Google Inc. Method and system for query data caching and optimization in a search engine system
US7774499B1 (en) * 2003-10-30 2010-08-10 United Online, Inc. Accelerating network communications
US7240064B2 (en) * 2003-11-10 2007-07-03 Overture Services, Inc. Search engine with hierarchically stored indices
FR2862460A1 (fr) * 2003-11-14 2005-05-20 Canon Kk Procede d'acces a un document numerique dans un reseau de communication
US7647378B2 (en) * 2003-11-17 2010-01-12 International Business Machines Corporation Personnel search enhancement for collaborative computing
JP2005165750A (ja) * 2003-12-03 2005-06-23 Ricoh Co Ltd Webサーバ機能を有する組み込み機器
US8548170B2 (en) 2003-12-10 2013-10-01 Mcafee, Inc. Document de-registration
US7814327B2 (en) * 2003-12-10 2010-10-12 Mcafee, Inc. Document registration
US7899828B2 (en) 2003-12-10 2011-03-01 Mcafee, Inc. Tag data structure for maintaining relational data over captured objects
US7984175B2 (en) 2003-12-10 2011-07-19 Mcafee, Inc. Method and apparatus for data capture and analysis system
US7774604B2 (en) * 2003-12-10 2010-08-10 Mcafee, Inc. Verifying captured objects before presentation
US8656039B2 (en) * 2003-12-10 2014-02-18 Mcafee, Inc. Rule parser
US7930540B2 (en) * 2004-01-22 2011-04-19 Mcafee, Inc. Cryptographic policy enforcement
US7725414B2 (en) 2004-03-16 2010-05-25 Buzzmetrics, Ltd An Israel Corporation Method for developing a classifier for classifying communications
US7346751B2 (en) 2004-04-30 2008-03-18 Commvault Systems, Inc. Systems and methods for generating a storage-related metric
US8266406B2 (en) 2004-04-30 2012-09-11 Commvault Systems, Inc. System and method for allocation of organizational resources
US7565445B2 (en) 2004-06-18 2009-07-21 Fortinet, Inc. Systems and methods for categorizing network traffic content
US7836044B2 (en) * 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US7962591B2 (en) * 2004-06-23 2011-06-14 Mcafee, Inc. Object classification in a capture system
US7730012B2 (en) * 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
US7693856B2 (en) * 2004-06-25 2010-04-06 Apple Inc. Methods and systems for managing data
US8131674B2 (en) * 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
US7698626B2 (en) * 2004-06-30 2010-04-13 Google Inc. Enhanced document browsing with automatically generated links to relevant information
US9026534B2 (en) * 2004-07-21 2015-05-05 Cisco Technology, Inc. Method and system to collect and search user-selected content
US20060036579A1 (en) * 2004-08-10 2006-02-16 Byrd Stephen A Apparatus, system, and method for associating resources using a time based algorithm
GB2417342A (en) * 2004-08-19 2006-02-22 Fujitsu Serv Ltd Indexing system for a computer file store
KR100605017B1 (ko) * 2004-08-20 2006-07-28 학교법인 울산공업학원 동적 확장이 가능한 알몬 에이전트 시스템
US8560534B2 (en) 2004-08-23 2013-10-15 Mcafee, Inc. Database for a capture system
US8341135B2 (en) * 2004-09-07 2012-12-25 Interman Corporation Information search provision apparatus and information search provision system
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
WO2006039566A2 (en) 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
US8464311B2 (en) * 2004-10-28 2013-06-11 International Business Machines Corporation Method and system for implementing privacy notice, consent, and preference with a privacy proxy
US20060106769A1 (en) 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US7584194B2 (en) * 2004-11-22 2009-09-01 Truveo, Inc. Method and apparatus for an application crawler
CA2588219C (en) 2004-11-22 2014-05-20 Truveo, Inc. Method and apparatus for an application crawler
WO2009021198A1 (en) * 2007-08-08 2009-02-12 Baynote, Inc. Method and apparatus for context-based content recommendation
US7698270B2 (en) * 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
CN100458776C (zh) * 2005-01-13 2009-02-04 龙搜(北京)科技有限公司 网络缓存管理的系统和方法
US10210159B2 (en) * 2005-04-21 2019-02-19 Oath Inc. Media object metadata association and ranking
US8732175B2 (en) * 2005-04-21 2014-05-20 Yahoo! Inc. Interestingness ranking of media objects
WO2006115718A2 (en) * 2005-04-25 2006-11-02 Microsoft Corporation Associating information with an electronic document
US7801881B1 (en) 2005-05-31 2010-09-21 Google Inc. Sitemap generating client for web crawler
US7769742B1 (en) 2005-05-31 2010-08-03 Google Inc. Web crawler scheduler that utilizes sitemaps from websites
US9158855B2 (en) 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs
US8086605B2 (en) * 2005-06-28 2011-12-27 Yahoo! Inc. Search engine with augmented relevance ranking by community participation
CN100452921C (zh) * 2005-07-08 2009-01-14 华为技术有限公司 实现网络服务提供商发现的方法及相应装置
US20070033229A1 (en) * 2005-08-03 2007-02-08 Ethan Fassett System and method for indexing structured and unstructured audio content
US20070100779A1 (en) * 2005-08-05 2007-05-03 Ori Levy Method and system for extracting web data
US7907608B2 (en) * 2005-08-12 2011-03-15 Mcafee, Inc. High speed packet capture
US20070198486A1 (en) * 2005-08-29 2007-08-23 Daniel Abrams Internet search engine with browser tools
US7818326B2 (en) * 2005-08-31 2010-10-19 Mcafee, Inc. System and method for word indexing in a capture system and querying thereof
US7499919B2 (en) * 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
US7730011B1 (en) 2005-10-19 2010-06-01 Mcafee, Inc. Attributes of captured objects in a capture system
KR100656953B1 (ko) * 2005-10-20 2006-12-14 엔에이치엔(주) 방문 웹사이트 검색 시스템 및 이를 이용한 방문 웹사이트검색 방법
US8849821B2 (en) * 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7657104B2 (en) 2005-11-21 2010-02-02 Mcafee, Inc. Identifying image type in a capture system
KR100695009B1 (ko) * 2005-12-01 2007-03-14 한국전자통신연구원 소프트웨어 기반 프리필터링을 이용한 스트림 데이터 처리시스템 및 그 방법
US7827191B2 (en) * 2005-12-14 2010-11-02 Microsoft Corporation Discovering web-based multimedia using search toolbar data
US8655850B2 (en) 2005-12-19 2014-02-18 Commvault Systems, Inc. Systems and methods for resynchronizing information
US7651593B2 (en) 2005-12-19 2010-01-26 Commvault Systems, Inc. Systems and methods for performing data replication
US7606844B2 (en) 2005-12-19 2009-10-20 Commvault Systems, Inc. System and method for performing replication copy storage operations
US8572330B2 (en) 2005-12-19 2013-10-29 Commvault Systems, Inc. Systems and methods for granular resource management in a storage network
US20110010518A1 (en) 2005-12-19 2011-01-13 Srinivas Kavuri Systems and Methods for Migrating Components in a Hierarchical Storage Network
WO2007075587A2 (en) 2005-12-19 2007-07-05 Commvault Systems, Inc. Systems and methods for performing data replication
US7693836B2 (en) * 2005-12-27 2010-04-06 Baynote, Inc. Method and apparatus for determining peer groups based upon observed usage patterns
US7599931B2 (en) * 2006-03-03 2009-10-06 Microsoft Corporation Web forum crawler
US8504537B2 (en) 2006-03-24 2013-08-06 Mcafee, Inc. Signature distribution in a document registration system
US20070239682A1 (en) * 2006-04-06 2007-10-11 Arellanes Paul T System and method for browser context based search disambiguation using a viewed content history
US8214360B2 (en) * 2006-04-06 2012-07-03 International Business Machines Corporation Browser context based search disambiguation using existing category taxonomy
US7958227B2 (en) 2006-05-22 2011-06-07 Mcafee, Inc. Attributes of captured objects in a capture system
US7689614B2 (en) 2006-05-22 2010-03-30 Mcafee, Inc. Query generation for a capture system
CN100456298C (zh) * 2006-07-12 2009-01-28 百度在线网络技术(北京)有限公司 广告信息检索系统及广告信息检索方法
US8726242B2 (en) 2006-07-27 2014-05-13 Commvault Systems, Inc. Systems and methods for continuous data replication
US8533226B1 (en) 2006-08-04 2013-09-10 Google Inc. System and method for verifying and revoking ownership rights with respect to a website in a website indexing system
US7930400B1 (en) 2006-08-04 2011-04-19 Google Inc. System and method for managing multiple domain names for a website in a website indexing system
US8775452B2 (en) 2006-09-17 2014-07-08 Nokia Corporation Method, apparatus and computer program product for providing standard real world to virtual world links
US20080071770A1 (en) * 2006-09-18 2008-03-20 Nokia Corporation Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices
US7660783B2 (en) * 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data
US9037581B1 (en) 2006-09-29 2015-05-19 Google Inc. Personalized search result ranking
US7599920B1 (en) * 2006-10-12 2009-10-06 Google Inc. System and method for enabling website owners to manage crawl rate in a website indexing system
US20080147878A1 (en) * 2006-12-15 2008-06-19 Rajiv Kottomtharayil System and methods for granular resource management in a storage network
CN101226619B (zh) * 2007-01-17 2012-11-21 阿里巴巴集团控股有限公司 实现统计邮件中超链接url点击率的系统及方法
US20080215541A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Techniques for searching web forums
US20080235163A1 (en) * 2007-03-22 2008-09-25 Srinivasan Balasubramanian System and method for online duplicate detection and elimination in a web crawler
US8290986B2 (en) * 2007-06-27 2012-10-16 Yahoo! Inc. Determining quality measures for web objects based on searcher behavior
US20090063448A1 (en) * 2007-08-29 2009-03-05 Microsoft Corporation Aggregated Search Results for Local and Remote Services
JP2009064055A (ja) 2007-09-04 2009-03-26 Hitachi Ltd 計算機システム及びセキュリティ管理方法
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US20090150433A1 (en) * 2007-12-07 2009-06-11 Nokia Corporation Method, Apparatus and Computer Program Product for Using Media Content as Awareness Cues
US8347326B2 (en) 2007-12-18 2013-01-01 The Nielsen Company (US) Identifying key media events and modeling causal relationships between key events and reported feelings
US8024285B2 (en) 2007-12-27 2011-09-20 Microsoft Corporation Determining quality of tier assignments
US8429176B2 (en) * 2008-03-28 2013-04-23 Yahoo! Inc. Extending media annotations using collective knowledge
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8205242B2 (en) 2008-07-10 2012-06-19 Mcafee, Inc. System and method for data mining and security policy management
US8244608B2 (en) * 2008-07-28 2012-08-14 Autodesk, Inc. Takeoff list palette for guiding semi-automatic quantity takeoff from computer aided design drawings
US9253154B2 (en) 2008-08-12 2016-02-02 Mcafee, Inc. Configuration management for a capture/registration system
CN101667179B (zh) * 2008-09-03 2012-08-15 华为技术有限公司 移动搜索方法及其系统、搜索服务器同步元索引的方法
US8751559B2 (en) 2008-09-16 2014-06-10 Microsoft Corporation Balanced routing of questions to experts
US20100125484A1 (en) * 2008-11-14 2010-05-20 Microsoft Corporation Review summaries for the most relevant features
US8204859B2 (en) 2008-12-10 2012-06-19 Commvault Systems, Inc. Systems and methods for managing replicated database data
US9495382B2 (en) 2008-12-10 2016-11-15 Commvault Systems, Inc. Systems and methods for performing discrete data replication
US8850591B2 (en) 2009-01-13 2014-09-30 Mcafee, Inc. System and method for concept building
US8706709B2 (en) 2009-01-15 2014-04-22 Mcafee, Inc. System and method for intelligent term grouping
US8001462B1 (en) 2009-01-30 2011-08-16 Google Inc. Updating search engine document index based on calculated age of changed portions in a document
US11464578B2 (en) 2009-02-17 2022-10-11 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures
US9195739B2 (en) 2009-02-20 2015-11-24 Microsoft Technology Licensing, Llc Identifying a discussion topic based on user interest information
US8473442B1 (en) 2009-02-25 2013-06-25 Mcafee, Inc. System and method for intelligent state management
JP4600700B2 (ja) 2009-03-17 2010-12-15 日本電気株式会社 プログラムのメモリ空間への配置方法、装置、およびプログラム
US8447722B1 (en) 2009-03-25 2013-05-21 Mcafee, Inc. System and method for data mining and security policy management
US8667121B2 (en) 2009-03-25 2014-03-04 Mcafee, Inc. System and method for managing data and policies
US8521908B2 (en) * 2009-04-07 2013-08-27 Verisign, Inc. Existent domain name DNS traffic capture and analysis
US9292612B2 (en) * 2009-04-22 2016-03-22 Verisign, Inc. Internet profile service
US8103768B2 (en) * 2009-04-14 2012-01-24 At&T Intellectual Property I, Lp Network aware forward caching
US8370504B2 (en) 2009-07-15 2013-02-05 Verisign, Inc. Method and system for predicting domain name registration renewal probability
US9009296B1 (en) * 2009-08-07 2015-04-14 Google Inc. System and method of determining latency
US8468195B1 (en) 2009-09-30 2013-06-18 Cisco Technology, Inc. System and method for controlling an exchange of information in a network environment
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
US8489390B2 (en) * 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
US8990083B1 (en) 2009-09-30 2015-03-24 Cisco Technology, Inc. System and method for generating personal vocabulary from network data
US8504517B2 (en) 2010-03-29 2013-08-06 Commvault Systems, Inc. Systems and methods for selective data replication
US8504515B2 (en) 2010-03-30 2013-08-06 Commvault Systems, Inc. Stubbing systems and methods in a data replication environment
US8725698B2 (en) 2010-03-30 2014-05-13 Commvault Systems, Inc. Stub file prioritization in a data replication system
US8935274B1 (en) 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
WO2011150391A1 (en) 2010-05-28 2011-12-01 Commvault Systems, Inc. Systems and methods for performing data replication
US8874727B2 (en) 2010-05-31 2014-10-28 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to rank users in an online social network
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8332408B1 (en) 2010-08-23 2012-12-11 Google Inc. Date-based web page annotation
US8806615B2 (en) 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
CN101964000B (zh) * 2010-11-09 2013-05-15 焦点科技股份有限公司 一种敏感词自动过滤管理系统
EP2638663A1 (de) * 2010-11-10 2013-09-18 Thomson Licensing Gateway-fernsteuerungssystem und betriebsverfahren
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US8667169B2 (en) 2010-12-17 2014-03-04 Cisco Technology, Inc. System and method for providing argument maps based on activity in a network environment
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment
US9854055B2 (en) 2011-02-28 2017-12-26 Nokia Technologies Oy Method and apparatus for providing proxy-based content discovery and delivery
US8553065B2 (en) 2011-04-18 2013-10-08 Cisco Technology, Inc. System and method for providing augmented data in a network environment
US8528018B2 (en) 2011-04-29 2013-09-03 Cisco Technology, Inc. System and method for evaluating visual worthiness of video data in a network environment
US8620136B1 (en) 2011-04-30 2013-12-31 Cisco Technology, Inc. System and method for media intelligent recording in a network environment
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US20120324538A1 (en) * 2011-06-15 2012-12-20 Cisco Technology, Inc. System and method for discovering videos
US8560509B2 (en) * 2011-07-08 2013-10-15 Microsoft Corporation Incremental computing for web search
US8886797B2 (en) 2011-07-14 2014-11-11 Cisco Technology, Inc. System and method for deriving user expertise based on data propagating in a network environment
CN102904765B (zh) * 2011-07-26 2016-01-27 腾讯科技(深圳)有限公司 数据上报的方法及设备
JP5673520B2 (ja) * 2011-12-20 2015-02-18 株式会社Jvcケンウッド 情報処理装置、情報処理方法、及び情報処理プログラム
US20130246336A1 (en) 2011-12-27 2013-09-19 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US8831403B2 (en) 2012-02-01 2014-09-09 Cisco Technology, Inc. System and method for creating customized on-demand video reports in a network environment
CN103312523B (zh) * 2012-03-16 2016-02-17 腾讯科技(深圳)有限公司 一种业务提醒消息的推送方法及装置、系统
CA2779235C (en) 2012-06-06 2019-05-07 Ibm Canada Limited - Ibm Canada Limitee Identifying unvisited portions of visited information
US9600351B2 (en) 2012-12-14 2017-03-21 Microsoft Technology Licensing, Llc Inversion-of-control component service models for virtual environments
US10379988B2 (en) 2012-12-21 2019-08-13 Commvault Systems, Inc. Systems and methods for performance monitoring
CN103902449B (zh) * 2012-12-28 2018-05-25 百度在线网络技术(北京)有限公司 一种用于生成搜索引擎相关性排序测试用例的方法与设备
US9049134B2 (en) * 2013-03-08 2015-06-02 Disney Enterprises, Inc. Network condition predictions for multimedia streaming
US9916289B2 (en) * 2013-09-10 2018-03-13 Embarcadero Technologies, Inc. Syndication of associations relating data and metadata
US9836765B2 (en) 2014-05-19 2017-12-05 Kibo Software, Inc. System and method for context-aware recommendation through user activity change detection
US10063650B2 (en) 2014-09-22 2018-08-28 Belkin International, Inc. Intranet distributed caching
US10284299B2 (en) 2014-06-02 2019-05-07 Belkin International, Inc. Optimizing placement of a wireless range extender
US10769176B2 (en) * 2015-06-19 2020-09-08 Richard Chino Method and apparatus for creating and curating user collections for network search
US9832196B2 (en) * 2014-09-15 2017-11-28 Bank Of America Corporation Network monitoring device
US9160680B1 (en) 2014-11-18 2015-10-13 Kaspersky Lab Zao System and method for dynamic network resource categorization re-assignment
US10616433B2 (en) * 2015-01-27 2020-04-07 Brother Kogyo Kabushiki Kaisha Image processing device
CN106330988B (zh) * 2015-06-16 2020-01-03 阿里巴巴集团控股有限公司 一种超文本传输请求的补发方法、装置及客户端
US10275320B2 (en) 2015-06-26 2019-04-30 Commvault Systems, Inc. Incrementally accumulating in-process performance data and hierarchical reporting thereof for a data stream in a secondary copy operation
US9949700B2 (en) 2015-07-22 2018-04-24 Inneroptic Technology, Inc. Medical device approaches
CN105243124B (zh) 2015-09-29 2018-11-09 百度在线网络技术(北京)有限公司 资源组合处理方法及装置
KR102226721B1 (ko) * 2015-10-21 2021-03-11 에스케이텔레콤 주식회사 데이터 검색 장치 및 방법
US10248494B2 (en) 2015-10-29 2019-04-02 Commvault Systems, Inc. Monitoring, diagnosing, and repairing a management database in a data storage management system
US9535957B1 (en) * 2015-11-24 2017-01-03 International Business Machines Corporation Electronic file management based on user affinity
US9675319B1 (en) 2016-02-17 2017-06-13 Inneroptic Technology, Inc. Loupe display
CN106649468B (zh) * 2016-09-28 2023-04-07 杭州电子科技大学 一种cdn网络内容查询方法及系统
US10278778B2 (en) 2016-10-27 2019-05-07 Inneroptic Technology, Inc. Medical device navigation using a virtual 3D space
CN108228582B (zh) * 2016-12-09 2022-02-18 阿里巴巴集团控股有限公司 一种搜索方法和装置
US11259879B2 (en) 2017-08-01 2022-03-01 Inneroptic Technology, Inc. Selective transparency to assist medical device navigation
US10897447B2 (en) * 2017-11-07 2021-01-19 Verizon Media Inc. Computerized system and method for automatically performing an implicit message search
US10831591B2 (en) 2018-01-11 2020-11-10 Commvault Systems, Inc. Remedial action based on maintaining process awareness in data storage management
US11484365B2 (en) 2018-01-23 2022-11-01 Inneroptic Technology, Inc. Medical image guidance
US20200192572A1 (en) 2018-12-14 2020-06-18 Commvault Systems, Inc. Disk usage growth prediction system
US11468076B2 (en) * 2019-03-20 2022-10-11 Universal Research Solutions, Llc System and method for dynamic data filtering
US10503792B1 (en) 2019-05-10 2019-12-10 Georgetown University Cache optimization via topics in web search engines
US11151167B2 (en) * 2019-05-10 2021-10-19 Georgetown University Cache optimization via topics in web search engines
US11042318B2 (en) 2019-07-29 2021-06-22 Commvault Systems, Inc. Block-level data replication
CN111198804B (zh) * 2019-12-30 2023-09-05 中电工业互联网有限公司 基于网关的工业互联网平台第三方微服务监控预警方法
US11327947B1 (en) 2021-01-04 2022-05-10 Bank Of America Corporation System for identifying, tagging, and monitoring data flow in a system environment
US11809285B2 (en) 2022-02-09 2023-11-07 Commvault Systems, Inc. Protecting a management database of a data storage management system to meet a recovery point objective (RPO)
CN114553541B (zh) * 2022-02-17 2024-02-06 苏州良医汇网络科技有限公司 一种分级校验防爬虫的方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5557748A (en) * 1995-02-03 1996-09-17 Intel Corporation Dynamic network configuration
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5855020A (en) * 1996-02-21 1998-12-29 Infoseek Corporation Web scan process
US6038668A (en) * 1997-09-08 2000-03-14 Science Applications International Corporation System, method, and medium for retrieving, organizing, and utilizing networked data
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6163778A (en) * 1998-02-06 2000-12-19 Sun Microsystems, Inc. Probabilistic web link viability marker and web page ratings
US6292475B1 (en) * 1998-07-08 2001-09-18 Motorola, Inc. Flow initiated burst mode communication for wireless communication network systems and method
US6219676B1 (en) * 1999-03-29 2001-04-17 Novell, Inc. Methodology for cache coherency of web server data
US6253198B1 (en) * 1999-05-11 2001-06-26 Search Mechanics, Inc. Process for maintaining ongoing registration for pages on a given search engine
US6430595B1 (en) * 1999-05-20 2002-08-06 Cisco Technology, Inc. Method and apparatus for establishing a database used for correlating information gathered via SNMP
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127629B2 (en) 2006-08-02 2018-11-13 Inneroptic Technology, Inc. System and method of providing real-time dynamic imagery of a medical procedure site using multiple modalities
US9659345B2 (en) 2006-08-02 2017-05-23 Inneroptic Technology, Inc. System and method of providing real-time dynamic imagery of a medical procedure site using multiple modalities
US9265572B2 (en) 2008-01-24 2016-02-23 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for image guided ablation
US8641621B2 (en) 2009-02-17 2014-02-04 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures
US11464575B2 (en) 2009-02-17 2022-10-11 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image guided surgery
US8690776B2 (en) 2009-02-17 2014-04-08 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image guided surgery
US8585598B2 (en) 2009-02-17 2013-11-19 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image guided surgery
US9364294B2 (en) 2009-02-17 2016-06-14 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures
US9398936B2 (en) 2009-02-17 2016-07-26 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image guided surgery
US10136951B2 (en) 2009-02-17 2018-11-27 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image guided surgery
US9107698B2 (en) 2010-04-12 2015-08-18 Inneroptic Technology, Inc. Image annotation in image-guided medical procedures
US8670816B2 (en) 2012-01-30 2014-03-11 Inneroptic Technology, Inc. Multiple medical device guidance
US10314559B2 (en) 2013-03-14 2019-06-11 Inneroptic Technology, Inc. Medical device guidance
US9901406B2 (en) 2014-10-02 2018-02-27 Inneroptic Technology, Inc. Affected region display associated with a medical device
US10820944B2 (en) 2014-10-02 2020-11-03 Inneroptic Technology, Inc. Affected region display based on a variance parameter associated with a medical device
US11684429B2 (en) 2014-10-02 2023-06-27 Inneroptic Technology, Inc. Affected region display associated with a medical device
US10188467B2 (en) 2014-12-12 2019-01-29 Inneroptic Technology, Inc. Surgical guidance intersection display
US10820946B2 (en) 2014-12-12 2020-11-03 Inneroptic Technology, Inc. Surgical guidance intersection display
US11534245B2 (en) 2014-12-12 2022-12-27 Inneroptic Technology, Inc. Surgical guidance intersection display

Also Published As

Publication number Publication date
CA2420382C (en) 2011-04-19
PL360714A1 (en) 2004-09-20
US20020032772A1 (en) 2002-03-14
NO313399B1 (no) 2002-09-23
BRPI0113882B1 (pt) 2016-05-10
HUP0301788A2 (en) 2003-08-28
KR20030048045A (ko) 2003-06-18
BR0113882A (pt) 2003-07-15
ATE354831T1 (de) 2007-03-15
CA2420382A1 (en) 2002-03-21
CN1279475C (zh) 2006-10-11
NO20004595D0 (no) 2000-09-14
EP1325434A1 (de) 2003-07-09
WO2002023398A1 (en) 2002-03-21
IS6735A (is) 2003-03-03
JP2004509415A (ja) 2004-03-25
IL154492A0 (en) 2003-09-17
CZ2003510A3 (cs) 2003-08-13
US7093012B2 (en) 2006-08-15
CN1459064A (zh) 2003-11-26
AU2001290363B2 (en) 2006-02-02
NO20004595L (no) 2002-03-15
KR100514149B1 (ko) 2005-09-13
EP1325434B1 (de) 2007-02-21
DE60126798D1 (de) 2007-04-05
AU9036301A (en) 2002-03-26

Similar Documents

Publication Publication Date Title
DE60126798T2 (de) Verfahren zum durchsuchen und analysieren von informationen in datennetzen
DE60108861T2 (de) Gerät und verfahren zur überwachung der netzwerkauslastung
DE69834129T2 (de) Verfahren und system zum vorausladen von informationen
DE69831904T2 (de) Dynamische Erstellung von Internetseiten
DE69909839T2 (de) Optimierte Lokalisierung von Netzwerkbetriebsmittel
AU2001290363A1 (en) A method for searching and analysing information in data networks
DE60317403T2 (de) Mehrstufige Cache-Speicherarchitektur und Cache-Speicherverwaltungsverfahren für gleichrangiges Namensauflösungs-Protokoll
DE69915462T2 (de) Sehr leistungsstarker objektcache
US8572100B2 (en) Method and system for recording search trails across one or more search engines in a communications network
DE60103775T2 (de) Informationsanbieter
DE112017005885T5 (de) Datenverwaltung in einem Informationszentrierten Netzwerk
DE69723432T2 (de) Informationsauffindungssystem mit einer cachedatenbank
CA2413057A1 (en) System and method for adapting an internet filter
DE60003278T2 (de) Hierarchische Auflösung von Adressen in einem Datennetzwerk
US20160286420A1 (en) Technique for data traffic analysis
CN110677270B (zh) 一种域名的可缓存性分析方法及系统
DE19813883B4 (de) Verfahren, Computerprogrammprodukt und Dokumentenmanagementsystem zum Zugriff auf Internet-Informationen für geschlossene Benutzergruppen
WO2002041173A2 (de) Meta-standortinformationsdienst
DE202008017947U1 (de) Netz-Servereinrichtung zum Erkennen eines unerwünschten Zugriffs
DE10014757B4 (de) Warehousing-Verfahren und verteiltes Computer-Datenbanksystem für das Warehousing
Dixit et al. A New Approach for Clustering of Navigation Patterns of Online Users
US20030063118A1 (en) The .edu browser
DE202010016871U1 (de) Vorrichtung zum Erkennen eines unerwünschten Zugriffs
EP2685391A1 (de) Computernetzwerksystem, Server Computer, Service Provider Computer, computerimplementiertes Verfahren und Computerprogrammprodukt zur automatischen Weiterleitung auf eine benutzerspezifische Webseite eines Service Provider Computers bei Anruf einer Webseite eines Provider Computers durch einen Benutzer
AU2004313991A1 (en) Method and system for recording search trails across one or more search engines in a communications network

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee
8370 Indication related to discontinuation of the patent is to be deleted
8328 Change in the person/name/address of the agent

Representative=s name: WEICKMANN & WEICKMANN, 81679 MUENCHEN