DE69917250T2 - Merkmalübertragung über hyperlinks - Google Patents

Merkmalübertragung über hyperlinks Download PDF

Info

Publication number
DE69917250T2
DE69917250T2 DE69917250T DE69917250T DE69917250T2 DE 69917250 T2 DE69917250 T2 DE 69917250T2 DE 69917250 T DE69917250 T DE 69917250T DE 69917250 T DE69917250 T DE 69917250T DE 69917250 T2 DE69917250 T2 DE 69917250T2
Authority
DE
Germany
Prior art keywords
document
computer
documents
query
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69917250T
Other languages
English (en)
Other versions
DE69917250D1 (de
Inventor
Soumen Powai CHAKRABARTI
Edward Byron DOM
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69917250D1 publication Critical patent/DE69917250D1/de
Publication of DE69917250T2 publication Critical patent/DE69917250T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft allgemein das Abrufen von Daten und insbesondere verfahren und eine Vorrichtung zum leistungsfähigen und wirkungsvollen Abrufen von Hypertextdokumenten, z.B. aus dem World Wide Web.
  • HINTERGRUND DER ERFINDUNG
  • Das als Internet bekannte Computer-Weitverkehrsnetz und insbesondere der als World Wide Web bekannte Teil des Internet ermöglicht Benutzern den Zugriff auf große Datenmengen. Aus diesem Grund stehen den Benutzern zur Filterung der Informationen aus dem Internet verschiedene Suchmaschinen durch Eingabe von Abfragen zur Verfügung, wobei sich die Suchmaschinen verschiedener Schemata bedienen, um als Antwort auf die Abfragen Listen mit Websites auszugeben. Bei diesen Websites handelt es sich im Allgemeinen um Dokumente in einem Computerspeicher, auf welche ein Benutzer zugreifen kann, um Informationen über das Thema der betreffenden Website zu erlangen.
  • Üblicherweise verwenden Internetsuchmaschinen ähnlich wie die meisten Computersuchverfahren eine Art Schlüsselwort-Suchstrategie, bei welcher der Begriff oder die Begriffe einer durch den Benutzer eingegebenen Abfrage auf bestimmte Weise mit Begriffen in Internetdokumenten verglichen werden, um dann eine Liste der zugehörigen Websites an den abfragenden Benutzer auszugeben. Die meisten Abfragen sind jedoch nur ein bis drei Wörter lang und damit normalerweise sehr weit gefasst. Das bedeutet, dass dieses eine oder diese mehreren Wörter in einer großen Anzahl Websites enthalten sein können und der Benutzer dann Hunderte und vielleicht sogar Tausende Dokumente durchsuchen muss, wenn die Suchmaschine alle möglichen Kandidaten ausgibt.
  • Außerdem kann es geschehen, dass als Antwort auf eine Abfrage diejenigen Websites, die am besten zur Abfrage passen, gar nicht ausgegeben werden. Das passiert besonders dann, wenn in der Abfrage Begriffe verwendet werden, die in den zur der Abfrage am besten passenden Websites nicht vorkommen. Zum Beispiel kommt der Begriff „Browser“ in den Websites für zwei der aktuell verbreitetsten Browser überhaupt nicht vor. Stattdessen decken die Websites das Thema mit anderen Wörtern ab und nicht mit dem Wort „Browser“. Folglich erhält ein Benutzer diese Websites nicht, wenn er das Wort „Browser“ in eine Suchmaschine eingibt, die sich einer einfachen Schlüsselwort-Suchstrategie bedient.
  • In der vorliegenden Erfindung wird jedoch berücksichtigt, dass die Internetbenutzer unbewusst einen kooperativen Beitrag leisten, wenn sie nach Internetdokumenten suchen, sie durchlesen, durchsuchen und ihre Qualität bewerten. Dieser Beitrag äußert sich großenteils in der Zusammenstellung der Webseiten insofern, als normalerweise viele oder gar die meisten Webseiten andere als qualitativ hochwertig eingeschätzte Seiten beschreiben oder auf sie zeigen.
  • Eine Webseite zeigt insbesondere mittels Hyperlinks auf andere Webseiten, wobei es sich bei den Hyperlinks um Bezüge innerhalb eines ersten Dokuments (d.h. in einer ersten Webseite) auf ein anderes Dokument (d.h. andere Webseiten) handelt. Ein Hyperlink bietet einem Benutzer die Möglichkeit, durch „Anklicken“ des Hyperlinks mittels einer Computermaus oder einer anderen Zeige- und Auswahlvorrichtung unmittelbar auf eine andere Webseite zuzugreifen. Gemäß der vorliegenden Erfindung kann man durch das Aufrufen von Webseiten eine Vielfalt von Begriffen erschließen, deren Zuordnung zu den aufgerufenen Webseiten gebräuchlich ist, obwohl die Begriffe in den aufgerufenen Webseiten selbst nicht verwendet werden. Folglich kann man die Abfrageergebnisse bei der Suche im Internet verbessern, wenn man diese Begriffe verwendet. Die vorliegende Erfindung geht ferner davon aus, dass man die vorliegenden Prinzipien der wirksamen Verteilung von Merkmalen (in Form von Begriffen) über einen Verweis auf ein Dokument (wie zum Beispiel über einen Hyperlink) nicht nur auf das World Wide Web, sondern auf alle Arten verknüpfter Dokumente wie zum Beispiel Patente, wissenschaftliche Veröffentlichungen, Artikel, Bücher, E-Mails usw. anwenden kann.
  • Deshalb besteht eine Aufgabe der vorliegenden Erfindung darin, ein Verfahren und ein System zum Verteilen von Merkmalen über Hyperlinks bereitzustellen. Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zum Festlegen der Rangfolge von Dokumenten in einer Gruppe von Dokumenten als Reaktion auf eine Abfrage bereitzustellen. Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zum Auffinden von Schlüsselwörtern in einer Gruppe von Dokumenten bereitzustellen. Noch eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zum Auffinden von Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen, welche durch einen oder mehrere Abfragebegriffe repräsentiert werden, in Dokumenten in einem Computerspeicher bereitzustellen. Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zur Internetsuche bereitzustellen, welche benutzerfreundlich und kostengünstig sind.
  • In WO 9749048 A werden ein System und ein Verfahren zum Aufrufen von Hypertextdokumenten beschrieben, bei dem Hypertextdokumente, auf die in aufgerufenen Dokumenten verwiesen wird, mittels derjenigen Begriffe indiziert und in eine Rangfolge gebracht werden, die in den auf die Hypertextdokumente verweisenden Hyperlinks innerhalb der aufgerufenen Dokumente enthalten sind.
  • In EP 0 809 197 A wird ein System zur Suche nach Hypertextdokumenten beschrieben, bei dem ein Stammdokument und ein weiteres Dokument innerhalb einer Gruppe von aufgerufenen Dokumenten einander zugeordnet werden, wenn ein Hyperlink im Stammdokument auf das andere Dokument verweist und beide Dokumente in der Suchabfrage dasselbe Schlüsselwort enthalten. Die Häufigkeit des Vorkommens jedes zugeordneten Dokuments wird berechnet und dient zur Festlegung der Rangfolge der Gruppe der aufgerufenen Dokumente.
  • BESCHREIBUNG DER ERFINDUNG
  • Die Erfindung besteht in einem Universalcomputer, der entsprechend den in der Erfindung beschriebenen Schritten so programmiert ist, dass Dokumente in einer Dokumentengruppe als Reaktion auf eine Abfrage in einer Rangfolge angeordnet werden. Die Erfindung kann auch als Herstellungsartikel – etwa als Maschinenkomponente – realisiert werden, der durch eine Datenverarbeitungseinheit verwendet wird und ein Programm aus Anweisungen selbst realisiert, die durch die Datenverarbeitungseinheit ausgeführt werden, um in Dokumenten im Computerspeicher Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen aufzufinden. Die vorliegende Erfindung wird in einer kritischen Maschinenkomponente realisiert, welche die Datenverarbeitungseinheit veranlasst, die in der Erfindung beschriebenen Schritte auszuführen.
  • Gemäß der vorliegenden Erfindung beinhaltet der Computer ein computerlesbares Codemittel zum Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument. Das computerlesbare Codemittel empfängt einen lexikalischen Abstand, der eine Anzahl von Dokumentbegriffen definiert. Ferner enthält der Computer ein computerlesbares Codemittel zum Empfangen einer einen oder mehrere Abfragebegriffe enthaltenden Abfrage sowie ein computerlesbares Codemittel zum Ermitteln, wie oft mindestens einer der Abfragebegriffe im ersten Dokument innerhalb des lexikalischen Abstands zum zweiten Dokument vorkommt, um die Rangfolge der zugehörigen Dokumente festzulegen.
  • Bei einer Ausführungsart kann man über ein Weitverkehrs-Computernetz auf die Dokumente zugreifen, bei dem die Bezüge in URLs (unified resource locators, einheitliche Ressourcenadresse) bestehen. Der lexikalische Abstand kann ausgehend von der Abfrage festgelegt werden.
  • Vorzugsweise enthält der Computer auch ein computerlesbares Codemittel zum Festlegen der Rangfolge mehrerer Dokumente ausgehend davon, wie oft Abfragebegriffe jeweils innerhalb von lexikalischen Abständen von Bezügen in den Dokumenten vorkommen. Außerdem enthält der Computer ein computerlesbares Codemittel zum Empfangen einer Dokumentengruppe „U“. Das computerlesbare Codemittel dient zum Definieren von Dokumenten in der Dokumentengruppe „U“, die mindestens einen Bezug auf das Testdokument „u“ enthalten, als Nachbardokumente „N(u)“ bezüglich mindestens eines Testdokuments „u“ in der Gruppe „U“. Außerdem ermittelt das computerlesbare Codemittel bezüglich mindestens eines Dokumentbegriffs in mindestens einem Nachbardokument „N(u)“, ob sich dieser mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands (d.h. innerhalb einer vorgegeben Anzahl von Begriffen) eines Bezugs im Nachbardokument „N(u)“ auf das Testdokument „u“ befindet. Das computerlesbare Codemittel der vorliegenden Erfindung gibt dann als Reaktion auf das Mittel zum Ermitteln, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs befindet, ein Signal aus. Das Ausgabemittel setzt einen dem mindestens einen Dokumentbegriff zugehörigen Zähler um eins höher, wenn sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs auf das Testdokument „u“ befindet.
  • Zusätzlich zu der oben beschriebenen Logik kann der Computer auch ein computerlesbares Codemittel zum Empfangen einer Dokumentengruppe „U“ als Reaktion auf eine einen oder mehrere Abfragebegriffe enthaltende Abfrage enthalten, wobei jedes Dokument einen oder mehrere Dokumentbegriffe enthält. Es wird ein computerlesbares Codemittel zum Definieren einer Korrelation zwischen mindestens einem ersten Dokument und mindestens einem ersten Dokumentbegriff bereitgestellt, wenn sich sowohl der erste Dokumentbegriff als auch ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs befinden. Die Korrelation kann mit einem Gewicht verknüpft werden, wobei das Gewicht darauf beruht, wie oft sich der erste Dokumentbegriff und ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in der Dokumentengruppe „U“ befinden.
  • Gemäß einem weiteren Aspekt umfasst eine Computerprogrammvorrichtung eine Computer-Programmspeichereinheit, die durch eine Datenverarbeitungseinheit gelesen werden kann; und ein Programmmittel in der Programmspeichereinheit, wobei das Programmmittel durch die Datenverarbeitungseinheit ausführbare Instruktionen beinhaltet, mittels derer Verfahrenschritte zum Auffinden von Schlüsselwörtern in einer Dokumentengruppe ausgeführt werden, und wobei das Verfahren folgende Schritte umfasst: Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; Empfangen einer einen oder mehrere Abfragebegriffe enthaltenden Abfrage; und Ermittlung, wie oft sich mindestens einer der Abfragebegriffe in dem ersten Dokument innerhalb des lexikalischen Abstands des Bezugs auf das zweite Dokument befindet, um die Rangfolge der diesbezüglichen Dokumente festzulegen.
  • Die Erfindung stellt des Weiteren ein Verfahren zum Festlegen der Rangfolge von Dokumenten in einer Dokumentengruppe als Reaktion auf eine Abfrage bereit, wobei das Verfahren die folgenden Schritte umfasst: Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; Empfangen einer einen oder mehrere Abfragebegriffe enthaltenden Abfrage; und Ermittlung, wie oft sich mindestens einer der Abfragebegriffe in dem ersten Dokument innerhalb des lexikalischen Abstands des Bezugs auf das zweite Dokument befindet, um die Rangfolge der diesbezüglichen Dokumente festzulegen.
  • Im Folgenden wird die Erfindung lediglich anhand eines Beispiels und unter Bezug auf die beiliegenden Zeichnungen beschrieben, in denen:
  • 1 eine schematische Darstellung des verwendeten Computersystems zum Verbreiten von Dokumentmerkmalen über Hyperlinks ist;
  • 2 eine schematische Ansicht eines Computerprogrammprodukts ist;
  • 3 ein Ablaufdiagramm der Logik zum Anlegen einer Liste von Websites ist, die als Reaktion auf eine Abfrage ermittelt wurden;
  • 4 ein Ablaufdiagramm der Logik zum Ausgeben „qualitativ hochwertiger“ Seiten aus einer als Reaktion auf eine Abfrage erzeugten Liste von Seiten ist;
  • 5 ein Ablaufdiagramm ist, welches die Logik zum Auffinden deskriptiver Begriffe (in der Beschreibung auch als Merkmale bezeichnet) über Hyperlinks darstellt; und
  • 6 ein Ablaufdiagramm ist, welches die Logik zum Auffinden von Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen, die durch einen oder mehrere Abfragebegriffe dargestellt werden, in Dokumenten im Computerspeicher darstellt.
  • DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
  • 1 zeigt ein mit der Bezugsnummer 10 bezeichnetes System zum Auffinden von deskriptiven Begriffen über Hyperlinks. Bei der gezeigten bestimmten Architektur ist im System 10 eine Datenverarbeitungseinheit wie zum Beispiel ein Computer 12 enthalten. Bei einer vorgesehenen Ausführungsart kann es sich bei dem Computer 12 um einen von International Business Machines Corporation (IBM), Armonk, New York, hergestellten Personal Computer oder um einen anderen Computer handeln, einschließlich solcher unter Warenzeichen wie beispielsweise AS/400 vertriebener Computer und der zugehörigen IBM Netzwerkrechner. Beim Computer 12 kann es sich jedoch auch um einen UNIX-Rechner, um einen OS/2-Server, einen Windows NT-Server oder um eine IBM RS/6000 250-Workstation mit 128 MB Hauptspeicher und dem Betriebssystem AIX 3.2.5 oder um einen IBM Laptoprechner handeln. (UNIX ist ein Warenzeichen von Open Group, AS/400, OS/2, RS/6000 und AIX sind Warenzeichen von International Business Machines Corporation und Windows NT ist ein Warenzeichen von Microsoft Corp.).
  • Der Computer 12 greift auf eine Internet-Suchmaschine 14 zu. Bei einer Ausführungsart handelt es sich bei der Suchmaschine 14 um ein Produkt von Alta Vista, jedoch können auch andere Suchmaschinen verwendet werden. Die Suchmaschine 14 empfängt Abfragen vom Computer 12 und gibt als Reaktion auf die Abfragen an den Computer 12 eine Liste im Computer gespeicherter Dokumente und insbesondere eine Liste von Websites 16 aus, mit denen der Computer 12 über den als World Wide Web 18 bekannten Teil des Internets in Verbindung treten kann.
  • Außerdem hat der Computer 12 ein Merkmalverbreitungsmodul 19, welches durch einen Prozessor im Computer 12 als Folge von computerlesbaren Anweisungen ausgeführt werden kann. Diese Anweisungen können zum Beispiel im Arbeitsspeicher (RAM, random access memory) des Computers 12 gespeichert sein. Die beiliegenden Ablaufdiagramme stellen die Struktur der Programmanweisungen dar, welche durch das in der Computerprogrammsoftware realisierte Modul 19 der vorliegenden Erfindung ausgeführt werden. Dem Fachmann ist klar, dass die Ablaufdiagramme die Struktur von Logikelementen wie zum Beispiel von Codeelementen in einem Computerprogramm oder von elektronischen Logikschaltkreisen darstellen, die eine Funktion gemäß der vorliegenden Erfindung ausführen. Es ist klar, dass die Erfindung in ihrer wesentlichen Ausführungsart durch eine Maschinenkomponente realisiert wird, bei der die Logikelemente so angeordnet sind, dass eine Datenverarbeitungseinheit (das heißt, ein Computer) angewiesen wird, eine den dargestellten Schritten entsprechende Folge von Funktionsschritten auszuführen.
  • Mit anderen Worten, das Modul 19 kann ein Computerprogramm sein, welches durch einen Prozessor im Computer 12 als Folge durch einen Computer ausführbarer Anweisungen ausgeführt wird.
  • Alternativ können die Anweisungen in einer Datenspeichereinheit mit einem computerlesbaren Medium wie zum Beispiel in einer Computerdiskette 20 gemäß 2 gespeichert sein. In der Diskette 20 kann ein computerlesbares Medium enthalten sein, in welchem die computerlesbaren Programmcodeelemente A bis D elektronisch gespeichert sind. Die Anweisungen können jedoch auch in einem DASD-Speicher, auf einem Magnetband, einer herkömmlichen Festplatte, in einem elektronischen Nur-Lese-Speicher, einer optischen Speichereinheit oder einer anderen geeigneten Datenspeichereinheit gespeichert sein. Bei einer anschaulichen Ausführungsart der Erfindung können die durch den Computer ausführbaren Anweisungen aus Zeilen eines kompilierten Codes bestehen, der mit der Programmiersprache C++ oder HTML (Hypertext Markup Language) kompatibel ist.
  • 1 zeigt ferner, dass das System 10 in der Technik bekannte Peripherieeinheiten einschließlich einer Eingabeeinheit wie zum Beispiel einer Computertastatur 24 und/oder einer Computermaus 25 enthält. Außer den dargestellten Eingabeeinheiten können jedoch auch weitere Eingabeeinheiten wie z.B. eine Rollkugel, ein Tastenfeld, ein Berührungsbildschirm oder eine Spracherkennungseinheit verwendet werden. Ferner wird eine Ausgabeeinheit wie zum Beispiel ein Videomonitor 26 bereitgestellt. Darüber hinaus können jedoch auch andere Ausgabeeinheiten wie zum Beispiel Drucker, andere Computer usw. verwendet werden.
  • 3 zeigt die Logik der ersten Prozedur (im Folgenden als „Prozedur A“ bezeichnet), welche durch das Modul 19 ausgeführt wird. Die Prozedur beginnt in Kasten 28 mit dem Empfangen einer Benutzerabfrage, die beispielsweise mittels der Tastatur 24 eingegeben wurde. Die Benutzerabfrage besteht aus einem oder mehreren Abfragebegriffen, wie zum Beispiel „high mountains“.
  • In Kasten 30 wird der lexikalische Abstand „1“ festgelegt. Bei einer Ausführungsart definiert der lexikalische Abstand „1“ ein aus einer ganzzahligen Anzahl von Begriffen bestehendes Fenster, wie zum Beispiel „high mountains“. Der lexikalische Abstand „1“ kann einen festen Wert haben oder alternativ anhand der Anzahl der in der Abfrage vorkommenden Begriffe festgelegt werden. Zum Beispiel kann der Wert des lexikalischen Abstands „1“ umgekehrt proportional zur Anzahl der Abfragebegriffe sein.
  • In Kasten 32 wird die Abfrage zur Suchmaschine 14 gesendet. Gemäß den der Suchmaschine 14 zugrunde liegenden Prinzipien gibt diese eine Liste mit Websites 16 zurück, welche die Abfragekriterien erfüllen. Die Liste wird in Form einer Ergebnismenge „R“ zurückgegeben und in Kasten 34 empfangen. Üblicherweise wird die Ergebnismenge als Liste mit Websitenamen zurückgegeben, die als URLs (Uniform resource locators, einheitliche Ressourcenadressen) bezeichnet werden.
  • In Kasten 36 wird die Ergebnismenge „R“ wie folgt durch die Logik erweitert. Zuerst werden alle „s“ URLs, in welchen Hyperlinks auf ein oder mehrere Elemente „r“ in der Ergebnismenge „R“ vorkommen, zur Ergebnismenge „R“ hinzugefügt. Auf diese Weise wird in Kasten 36 ein Bezug in einem ersten Dokument auf ein zweites Dokument erkannt.
  • Dann werden in Kasten 38 alle „t“ URLs zur Ergebnismenge „R“ hinzugefügt, wobei eine URL „t“ dadurch gekennzeichnet ist, dass in der Ergebnismenge „R“ Hyperlinks von einem Element „r“ auf diese URL vorkommen; die erweiterte Ergebnismenge wird dann mit „S“ bezeichnet. Somit wird die Ergebnismenge „R“ in Kasten 36 und 38 zur erweiterten Ergebnismenge „S“, indem solche URLs hinzugefügt werden, auf welche ein Hyperlink in einer URL in der Ergebnismenge „R“ verweist oder welche mittels eines Hyperlinks auf eine URL in der Ergebnismenge „R“ verweisen.
  • Nach Kasten 38 geht die Logik weiter zu Kasten 40, wo für jedes Dokument in der erweiterten Ergebnismenge „S“ eine „DO“-Schleife begonnen wird. Im Entscheidungsfeld 42 wird ermittelt, ob sich einer der Abfragebegriffe innerhalb des lexikalischen Abstands einer URL „u“ im betreffenden Dokument befindet, d.h., ob sich ein Abfragebegriff im gerade geprüften Dokument innerhalb des lexikalischen Abstands eines auf das u-te Dokument in der erweiterten Ergebnismenge „S“ verweisenden Hyperlinks befindet. Wenn dies der Fall ist, wird in Kasten 44 ein zum u-ten Dokument in der erweiterten Ergebnismenge „S“ gehörender Zähler u um eins erhöht und dann in Kasten 46 das nächste Dokument aufgerufen. Auf diese Weise ermittelt die Logik, wie oft einer der Abfragebegriffe in einem ersten Dokument innerhalb des lexikalischen Abstands eines Bezugs auf das zweite Dokument vorkommt, um daraufhin gemäß der folgenden Beschreibung die Rangfolge der Dokumente festzulegen.
  • Wenn das Prüfergebnis im Entscheidungsfeld 42 negativ ist, geht die Logik sofort weiter zu Kasten 46. Von Kasten 46 geht die Logik weiter zum Entscheidungsfeld 48 und ermittelt, ob die „DO“-Schleife beendet ist, und kehrt zum Entscheidungsfeld 42 zurück, wenn dies nicht der Fall ist. Wenn die „DO“-Schleife jedoch beendet ist, kehrt der Prozess zurück zu Kasten 50 und gibt eine in abnehmender Reihenfolge der Zählerwerte geordnete Menge URLs zurück.
  • 4 zeigt eine Prozedur „B“ zum Neuordnen der obersten „N“ URLs, die von der Prozedur „A“ auf der Grundlage der Wichtigkeit bestimmter darin enthaltener Begriffe zurückgegeben wurden. Zuerst wird in Kasten 52 eine Dokumentengruppe empfangen. Bei dieser Gruppe kann es sich z.B. um die obersten „N“ (z.B. 20) URLs handeln, die in Kasten 50 ausgegeben wurden. Für diese Gruppe wird eine „DO“-Schleife gestartet und in Kasten 54 eine Indexvariable „v“ gleich der geprüften URL gesetzt.
  • In Kasten 56 werden alle (oder eine Teilmenge der) URLs „u“ ermittelt, in denen auf die gerade geprüfte URL „v“ verwiesen wird (zum Beispiel, indem sie einen Hyperlink auf die gerade geprüfte URL „v“ enthalten). Dann wird der gesamte Schlüsseltext in den URLs abgerufen, der sich auf die Hyperlinks bezieht, welche auf die gerade geprüfte URL „v“ verweisen.
  • Unter „Schlüsseltext“ ist derjenige Text zu verstehen, der direkt mit einem Hyperlink oder einem anderen Bezug oder einer anderen Erwähnung in einem Dokument verknüpft ist. Zum Beispiel stellt in dem Text „One of the earliest high-energy nuclear accelerators was built at <A HREF=“http://www.CERN.ch“>CERN, the European Laboratory for Particle Physics</A> der Ausdruck “http://www.CERN.ch“ den Hyperlink und der durch “<A>...<A>“ eingeschlossene Text den Schlüsseltext dar. Beim vorliegenden Beispiel mit einem lexikalischen Abstand von z.B. fünf liegen die Begriffe „nuclear accelerators was built at“ innerhalb des lexikalischen Abstands des Schlüsseltextes, während die Begriffe „One of the earliest high-energy“ außerhalb des lexikalischen Abstands des Schlüsseltextes liegen.
  • Dann wird in Kasten 60 für jeden Abfragebegriff eine verschachtelte „DO“-Schleife gestartet. Anschließend wird im Entscheidungsfeld 62 mittels eines aus einer Vielzahl herkömmlicher Statistikverfahren ermittelt, ob die Häufigkeit des gerade geprüften Abfragebegriffes im gerade geprüften Dokument größer als die Häufigkeit eines Bezugs in einer Bezugsgruppe des Schlüsseltextes ist.
  • Wenn die Häufigkeit des gerade geprüften Abfragebegriffes im gerade geprüften Dokument größer als die Häufigkeit des Bezugs ist, geht der Prozess weiter zu Kasten 64, um das gerade geprüfte Dokument als wichtig zu markieren. Wenn dies jedoch nicht der Fall ist, wird das gerade geprüfte Dokument nicht als wichtig markiert. In beiden Fällen kann jedes Dokument mit einem Zähler oder einem anderen Wert verknüpft werden, der die Wichtigkeit des zuvor geprüften Dokuments anzeigt. Nach Abschluss der oben erörterten „DO“-Schleifen sind die „N“ obersten URLs nach ihrer Wichtigkeit geordnet.
  • 5 zeigt die Logik einer Prozedur „C“ zum Auffinden von deskriptiven Begriffen über Hyperlinks. Zu Anfang wird in Kasten 68 eine Gruppe „U“ von URLs „u“ empfangen und dann für jede einzelne URL „u“ in der Gruppe „U“ eine „DO“-Schleife gestartet. In Kasten 70 wird die Gruppe N(u) der der gerade geprüften URL „u“ benachbarten Dokumente ermittelt. Unter „benachbarten Dokumenten“ ist ein Dokument in der Gruppe „U“ von URLs zu verstehen, welches einen auf das gerade geprüfte Dokument „u“ verweisenden Hyperlink enthält. Anders gesagt, unter der Gruppe N(u) benachbarter Dokumente kann man diejenigen Dokumente verstehen, die auf das Dokument „u“ verweisen.
  • In Kasten 72 wird für jedes Element (d.h. für jeden Dokumentbegriff) in der Gruppe N(u) benachbarter Dokumente eine verschachtelte „DO“-Schleife gestartet. In Kasten 74 wird jedem Begriff in der Gruppe N(u) benachbarter Dokumente ein Zähler zugewiesen. Dann wird eine zweifach verschachtelte „DO“-Schleife gestartet. Im Entscheidungsfeld 76 wird dann ermittelt, ob sich der gerade geprüfte Begriff innerhalb eines vorgegebenen Abstands eines Bezugs (z.B. Hyperlinks) auf das gerade geprüfte Dokument „u“ befindet. Bei diesem vorgegebenen Abstand kann es sich um den oben erörterten lexikalischen Abstand handeln. Wenn sich der gerade geprüfte Begriff innerhalb des vorgegebenen Abstands eines Bezugs auf das gerade geprüfte Dokument „u“ befindet, wird der Zähler des Begriffs in Kasten 78 um eins erhöht. Wenn dies nicht der Fall ist, wird der Zähler nicht erhöht. Nachdem alle Begriffe aller benachbarten Dokumente in der Gruppe N(u) benachbarter Dokumente, die allen Dokumenten „u“ in der Dokumentengruppe „U“ benachbart sind, wie oben beschrieben geprüft worden sind, geht die Logik weiter zu Kasten 80, um die Begriffe nach ihren jeweiligen Zählerwerten zu sortieren und die sortierte Liste auszugeben.
  • Gemäß der vorliegenden Erfindung wird am Ausgang von Kasten 80 eine geordnete Liste von Begriffen in der Dokumentengruppe „U“ ausgegeben. Diese geordnete Liste kann dazu verwendet werden, dem Benutzer weitere Abfragebegriffe vorzuschlagen. Ferner kann sie in einem ständig aktualisierten Verknüpfungsthesaurus verwendet werden. Außerdem kann die von Kasten 80 ausgegebene Liste dazu verwendet werden, bei zahlreichen Suchmaschinen in einem Nachverarbeitungsschritt Gruppen von durch Hyperlinks verknüpften Dokumenten oder Gruppen von Begriffen mit Anmerkungen zu versehen.
  • 6 zeigt die Logik einer Prozedur „D“ zum Auffinden von Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen, die durch einen oder mehrere Abfragebegriffe dargestellt werden, in Dokumenten in einem Computerspeicher. Zuerst wird in Kasten 82 eine Abfrage „Q“ empfangen. Die Abfrage „Q“ besteht aus einem oder mehreren Abfragebegriffen „q“.
  • In-Kasten 84 wird die Abfrage an die Suchmaschine weitergeleitet, und als Reaktion auf die Abfrage wird von der Suchmaschine eine Dokumentenliste empfangen. In Kasten 86 wird ein zweiteiliger Graph G = ((T,U),E) konstruiert, dessen Scheitelpunkte die in Kasten 84 zurückgegebenen Begriffe (T) und Dokumente (U) darstellen, wobei T und U jeweils einen Dokumentbegriffzweig bzw. einen URL-Zweig des zweiteiligen Graphen darstellen und E die Grenzlinien zwischen den Zweigen darstellt.
  • In Kasten 88 wird für jedes Dokument eine „DO“-Schleife gestartet. In Kasten 90 wird das Dokument auf URLs „u“ und Abfragebegriffe „q“ durchsucht. In Kasten 92 wird für jeden Dokumentbegriff „t“ und jede URL „u“ innerhalb eines vorgegebenen Abstands eines Abfragebegriffes „q“ eine „DO“-Schleife gestartet, in welcher in Kasten 94 das Gewicht der Grenzlinie (t,u)E um eins erhöht wird. Wenn bei dieser Logik sowohl ein Dokumentbegriff als auch ein Dokumentname oder eine Erwähnung (in Form eines Hyperlinks) in einem Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffes gefunden werden, sendet die Logik ein Signal, welches eine Verknüpfung zwischen dem Dokumentbegriff und dem Abfragethema anzeigt.
  • Wenn gewünscht, kann die „DO“-Schleife auch zu Kasten 96 weitergehen und dort eine Einzelwertzerlegung (single value decomposition, SVD) einer durch die Grenzlinien E:ai,j definierten Matrix vornehmen, wobei ai,j das Gewicht der Grenzlinie vom i-ten Begriff zur j-ten URL darstellt. Wie in der Technik bekannt, wird durch die Einzelwertzerlegung in Kasten 96 eine Faktorzerlegung A = U SV erreicht, wobei S eine die Einzelwerte von A enthaltende Diagonalmatrix ist und U und V Orthogonalmatrizen zum Ausführen von Orthogonaltransformationen sind. Ein in der Technik als Latente Semantische Indizierung (Latent Semantic Indexing, LSI) bekanntes Verfahren, wie es in der US-Patentschrift 4 839 853 beschrieben wird, kann zur Vorbearbeitung des Stammtextes und insbesondere zur Faktorzerlegung der Dokumentbegriffmatrix A als USV verwendet werden, wobei U die lineare Projektion vom Begriffsraum auf den so genannten LSI- oder Konzeptraum liefert. Hierfür reichen einige wenige hundert LSI-Dimensionen „k“ aus.
  • Bei der LSI-Suche wird jedoch die Matrix U nicht verwendet, während die vorliegende Erfindung die Matrix U wie folgt verwendet. Jeder Begriff wird im LSI-Raum abgebildet, indem jedes Dokument durch eine Folge k-dimensionaler Vektoren dargestellt wird. Die Abfrage selbst wird in eine kurze Folge solcher Vektoren umgewandelt. Dann werden die Dokumente durchsucht, und die Logik versucht die Abfragevektoren mit einem kleinen Fenster von Vektoren in den Dokumenten in Übereinstimmung zu bringen. Wenn eine wenig aufwendige (d.h. „gute“) Übereinstimmung gefunden wird, erhalten nahe liegende Erwähnungen, d.h. Hyperlinks, eine starke Bewertung. Der Aufwand kann mittels einer Minimalaufwand-Vergleichsstrategie ermittelt werden, bei der sich die Grenzkosten zum Ermitteln der Übereinstimmung zwischen den Vektoren, die den Begriffen t1 und t2 entsprechen, aus dem Abstand zwischen ihren Projektionen in U ergeben. Zum Beispiel kann die Abfrage „auto makers“ ohne großen Aufwand mit der Textpassage „companies making cars“ in Übereinstimmung gebracht werden, indem Erwähnungen berücksichtigt werden, die solchen ähnlichen Passagen näher kommen.
  • Im Gegensatz zum LSI-Verfahren wird bei der vorliegenden Erfindung für jedes Dokument eine Folge von LSI-Vektoren gespeichert. Mit anderen Worten, im Gegensatz zum LSI-Verfahren berücksichtigt die vorliegende Erfindung die Übereinstimmung von LSI-Vektorfolgen und das Gewicht benachbarter Erwähnungen.
  • Wenn gewünscht, kann der Prozess in Kasten 98 dem Benutzer Suchbegriffe vorschlagen. Um diese vorzuschlagenden Begriffe zu ermitteln, sortiert die Logik die Begriffe mit Überständen am linken Vektor (d.h. in der ersten Spalte von „U“) der in Kasten 96 ermittelten SVD in absteigender Reihenfolge. Die „k“ obersten Begriffe in der sortierten Liste werden dann in Kasten 98 zurückgegeben, wobei „k“ ein vorgegebener ganzzahliger Wert, z.B. fünf, ist.

Claims (15)

  1. Computer (12) mit einer Datenspeichervorrichtung, welche ein durch einen Computer verwendbares Medium (19, 22) enthält, welches wiederum ein durch einen Computer verwendbares Codemittel zum Festlegen der Rangfolge von Dokumenten in einer Gruppe von Dokumenten als Reaktion auf eine Abfrage hat, wobei das durch den Computer verwendbare Codierungsmittel Folgendes aufweist: ein computerlesbares Codemittel zum Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; ein computerlesbares Codemittel (30) zum Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; ein computerlesbares Codemittel (28) zum Empfangen einer Abfrage, die einen oder mehrere Abfragebegriffe enthält; und ein computerlesbares Codemittel (40, 42, 44, 46, 48) zur Ermittlung, wie oft sich mindestens einer der Abfragebegriffe in dem ersten Dokument innerhalb des lexikalischen Abstands des Bezugs auf das zweite Dokument befindet, um die Rangfolge mehrerer Dokumente anhand der Häufigkeit des Vorkommens der Abfragebegriffe innerhalb lexikalischer Abstände von Bezügen in den Dokumenten festzulegen.
  2. Computer (12) nach Anspruch 1, bei dem über ein Weitverkehrs-Computernetzwerk auf die Dokumente zugegriffen werden kann und der Bezug eine einheitliche Ressourcenliste (URL) enthält.
  3. Computer (12) nach Anspruch 2, bei dem der lexikalische Abstand anhand der Abfrage festgelegt wird.
  4. Computer (12) nach Anspruch 2, der ferner Folgendes umfasst: ein computerlesbares Codemittel (52) zum Empfangen einer Gruppe „U“ von Dokumenten; ein computerlesbares Codemittel (70) zum Definieren mindestens eines Testdokuments „u“ in der Gruppe „U“ als Nachbardokumente „N(u)“ in der Gruppe „U“, welche mindestens einen Bezug auf das Testdokument „u“ enthalten; ein computerlesbares Codemittel (76, 78) zum Ermitteln für mindestens einen Dokumentbegriff in mindestens einem Nachbardokument „N(u)“, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs im Nachbardokument „N(u)“ zum Testdokument „u“ befindet; und ein computerlesbares Codemittel (80) zum Ausgeben eines Signals als Reaktion auf das Mittel zum Ermitteln, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs befindet.
  5. Computer (12) nach Anspruch 4, bei dem das Mittel (80) zum Ausgeben eines Signals einen dem mindestens einen Dokumentbegriff zugeordneten Zähler um eins erhöht, wenn sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs zum Testdokument „u“ befindet.
  6. Computer (12) nach Anspruch 2, der ferner Folgendes umfasst: ein computerlesbares Codemittel (52) zum Empfangen einer Gruppe „U“ von Dokumenten als Reaktion auf eine Abfrage, die einen oder mehrere Abfragebegriffe enthält, wobei jedes Dokument einen oder mehrere Dokumentbegriffe enthält; und ein computerlesbares Codemittel (60, 62) zum Definieren eines Zusammenhangs zwischen mindestens einem ersten Dokument und mindestens einem Dokumentbegriff, wenn sich sowohl der Dokumentbegriff als auch ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in dem mindestens einen Dokument befindet.
  7. Computer (12) nach Anspruch 6, bei dem der Zusammenhang einem Gewicht zugeordnet wird und das Gewicht darauf beruht, wie oft der Dokumentbegriff und ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in der Gruppe „U“ von Dokumenten vorkommen.
  8. Verfahren zum Festlegen der Rangfolge von Dokumenten in einer Gruppe von Dokumenten als Reaktion auf eine Abfrage, wobei das Verfahren die folgenden Schritte umfasst: Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; Empfangen (30) eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; Empfangen (28) einer Abfrage, welche einen oder mehrere Abfragebegriffe enthält; und Ermitteln (40, 42, 44, 46, 48), wie oft mindestens einer der Abfragebegriffe im ersten Dokument innerhalb des lexikalischen Abstands des Bezugs zum zweiten Dokument vorkommt, um die Rangfolge (50) mehrerer Dokumente anhand der Häufigkeit des Vorkommens von Abfragebegriffen innerhalb des lexikalischen Abstands von Bezügen in den Dokumenten festzulegen.
  9. Verfahren nach Anspruch 8, bei dem über ein Weitverkehrs-Computernetzwerk auf die Dokumente zugegriffen werden kann und der Bezug eine einheitliche Ressourcenliste (URL) enthält.
  10. Verfahren nach Anspruch 9, bei dem der lexikalische Abstand anhand einer Abfrage festgelegt wird.
  11. Verfahren nach Anspruch 9, bei dem das Verfahren ferner folgende Schritte umfasst: Empfangen (52) einer Gruppe „U“ von Dokumenten; Definieren (70) von Dokumenten in der Gruppe „U“ als Nachbardokumente „N(u)“ des mindestens einen Testdokuments „u“ in der Gruppe „U“, wobei diese Dokumente in der Gruppe „U“ mindestens einen Bezug auf das Testdokument „u“ enthalten; Ermitteln (76, 78) für den mindestens einen Dokumentbegriff in mindestens einem Nachbardokument „N(u)“, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs im Nachbardokument „N(u)“ zum Testdokument „u“ befindet; und Ausgeben (80) eines Signals als Reaktion auf das Mittel zum Ermitteln, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs befindet.
  12. Verfahren nach Anspruch 11, bei dem der Schritt zum Ausgeben (80) einen Zähler um eins höher setzt, welcher dem mindestens einen Dokumentbegriff zugeordnet ist, wenn sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs zum Testdokument „u“ befindet.
  13. Verfahren nach Anspruch 9, welches ferner Folgendes umfasst: ein computerlesbares Codemittel (52) zum Empfangen einer Gruppe „U“ von Dokumenten als Reaktion auf eine Abfrage, welche einen oder mehrere Abfragebegriffe enthält, wobei jedes Dokument einen oder mehrere Dokumentbegriffe enthält; und ein computerlesbares Codemittel (60, 62) zum Definieren eines Zusammenhangs zwischen mindestens einem ersten Dokument und mindestens einem Dokumentbegriff, wenn sich sowohl der Dokumentbegriff als auch ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffes in dem mindestens einen der Dokumente befinden.
  14. Verfahren nach Anspruch 13, bei dem der Zusammenhang zu einem Gewicht hergestellt wird und das Gewicht darauf basiert, wie oft der Dokumentbegriff und ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in der Gruppe „U“ von Dokumenten vorkommen.
  15. Computerprogramm, das in einer Speichervorrichtung gespeichert ist, welches durch eine digitale Verarbeitungsvorrichtung (12) gelesen werden kann, zum Ausführen von Computerprogrammanweisungen zum Durchführen der Schritte des Verfahrens nach einem der Ansprüche 8 bis 14.
DE69917250T 1998-04-10 1999-03-12 Merkmalübertragung über hyperlinks Expired - Lifetime DE69917250T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/058,635 US6125361A (en) 1998-04-10 1998-04-10 Feature diffusion across hyperlinks
US58635 1998-04-10
PCT/GB1999/000752 WO1999053418A1 (en) 1998-04-10 1999-03-12 Feature diffusion across hyperlinks

Publications (2)

Publication Number Publication Date
DE69917250D1 DE69917250D1 (de) 2004-06-17
DE69917250T2 true DE69917250T2 (de) 2006-03-23

Family

ID=22018010

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69917250T Expired - Lifetime DE69917250T2 (de) 1998-04-10 1999-03-12 Merkmalübertragung über hyperlinks

Country Status (8)

Country Link
US (1) US6125361A (de)
EP (1) EP1070296B1 (de)
CN (1) CN1112647C (de)
CA (1) CA2326153C (de)
DE (1) DE69917250T2 (de)
PL (1) PL343403A1 (de)
TW (1) TW526432B (de)
WO (1) WO1999053418A1 (de)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760746B1 (en) 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US6640224B1 (en) * 1997-12-15 2003-10-28 International Business Machines Corporation System and method for dynamic index-probe optimizations for high-dimensional similarity search
FI981355A (fi) * 1998-06-11 1999-12-12 Nokia Mobile Phones Ltd Elektroninen tiedoston noutomenetelmä ja -järjestelmä
USRE43690E1 (en) 1999-03-22 2012-09-25 Esdr Network Solutions Llc Search engine request method, product, and apparatus
US6338082B1 (en) 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
US9141717B2 (en) 1999-03-22 2015-09-22 Esdr Network Solutions Llc Methods, systems, products, and devices for processing DNS friendly identifiers
US7188138B1 (en) 1999-03-22 2007-03-06 Eric Schneider Method, product, and apparatus for resource identifier registration and aftermarket services
US8667051B2 (en) * 1999-03-22 2014-03-04 Esdr Network Solutions Llc Real-time communication processing method, product, and apparatus
US8037168B2 (en) 1999-07-15 2011-10-11 Esdr Network Solutions Llc Method, product, and apparatus for enhancing resolution services, registration services, and search services
US7065500B2 (en) * 1999-05-28 2006-06-20 Overture Services, Inc. Automatic advertiser notification for a system for providing place and price protection in a search result list generated by a computer network search engine
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6430558B1 (en) * 1999-08-02 2002-08-06 Zen Tech, Inc. Apparatus and methods for collaboratively searching knowledge databases
US6321228B1 (en) * 1999-08-31 2001-11-20 Powercast Media, Inc. Internet search system for retrieving selected results from a previous search
USRE44207E1 (en) 1999-09-01 2013-05-07 Esdr Network Solutions Llc Network resource access method, product, and apparatus
US6324534B1 (en) * 1999-09-10 2001-11-27 Requisite Technology, Inc. Sequential subset catalog search engine
US6907424B1 (en) 1999-09-10 2005-06-14 Requisite Technology, Inc. Sequential subset catalog search engine
US6697799B1 (en) * 1999-09-10 2004-02-24 Requisite Technology, Inc. Automated classification of items using cascade searches
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7010537B2 (en) * 2000-04-27 2006-03-07 Friskit, Inc. Method and system for visual network searching
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US7103838B1 (en) * 2000-08-18 2006-09-05 Firstrain, Inc. Method and apparatus for extracting relevant data
US6915294B1 (en) * 2000-08-18 2005-07-05 Firstrain, Inc. Method and apparatus for searching network resources
US7308439B2 (en) 2001-06-06 2007-12-11 Hyperthink Llc Methods and systems for user activated automated searching
US7043492B1 (en) 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
US7209913B2 (en) * 2001-12-28 2007-04-24 International Business Machines Corporation Method and system for searching and retrieving documents
US6996268B2 (en) * 2001-12-28 2006-02-07 International Business Machines Corporation System and method for gathering, indexing, and supplying publicly available data charts
US7565402B2 (en) * 2002-01-05 2009-07-21 Eric Schneider Sitemap access method, product, and apparatus
US7149697B2 (en) * 2002-11-04 2006-12-12 Hewlett-Packard Development Company, L.P. Printer-based consumables price searching
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
US20040220914A1 (en) * 2003-05-02 2004-11-04 Dominic Cheung Content performance assessment optimization for search listings in wide area network searches
US7428700B2 (en) 2003-07-28 2008-09-23 Microsoft Corporation Vision-based document segmentation
US7594011B2 (en) * 2004-02-10 2009-09-22 Narus, Inc. Network traffic monitoring for search popularity analysis
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7487145B1 (en) 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7836044B2 (en) * 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US8595225B1 (en) * 2004-09-30 2013-11-26 Google Inc. Systems and methods for correlating document topicality and popularity
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7739277B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7499940B1 (en) * 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060106769A1 (en) 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US8195693B2 (en) 2004-12-16 2012-06-05 International Business Machines Corporation Automatic composition of services through semantic attribute matching
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20060253476A1 (en) * 2005-05-09 2006-11-09 Roth Mary A Technique for relationship discovery in schemas using semantic name indexing
CN100338610C (zh) * 2005-06-22 2007-09-19 浙江大学 基于链接分析的个性化搜索引擎方法
US7739708B2 (en) * 2005-07-29 2010-06-15 Yahoo! Inc. System and method for revenue based advertisement placement
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
BRPI0616902B1 (pt) * 2005-10-04 2019-01-15 Thomson Global Resources sistemas, métodos e software para identificar documentos legais relevantes
US20070124280A1 (en) * 2005-11-27 2007-05-31 Tony Tateossian Search Engine which awards Point per Click
US8095565B2 (en) * 2005-12-05 2012-01-10 Microsoft Corporation Metadata driven user interface
US8010523B2 (en) * 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US8725729B2 (en) * 2006-04-03 2014-05-13 Steven G. Lisa System, methods and applications for embedded internet searching and result display
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US8099417B2 (en) * 2007-12-12 2012-01-17 Microsoft Corporation Semi-supervised part-of-speech tagging
US8201075B2 (en) * 2008-02-29 2012-06-12 Research In Motion Limited Enhanced browser navigation
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8312032B2 (en) 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
CN101639857B (zh) * 2009-04-30 2012-12-05 腾讯科技(深圳)有限公司 构建知识问答分享平台的方法、装置及系统
WO2010139277A1 (en) 2009-06-03 2010-12-09 Google Inc. Autocompletion for partially entered query
US8339094B2 (en) * 2010-03-11 2012-12-25 GM Global Technology Operations LLC Methods, systems and apparatus for overmodulation of a five-phase machine
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US8463789B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event detection
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
AU2011258449B2 (en) 2010-05-25 2015-06-11 Mark F. Mclellan Active search results page ranking technology
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8793706B2 (en) 2010-12-16 2014-07-29 Microsoft Corporation Metadata-based eventing supporting operations on data
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US8433719B1 (en) 2011-12-29 2013-04-30 Google Inc. Accelerating find in page queries within a web browser
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9292505B1 (en) 2012-06-12 2016-03-22 Firstrain, Inc. Graphical user interface for recurring searches
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
CN104036045B (zh) * 2014-07-01 2018-04-03 彩带网络科技(北京)有限公司 一种信息分析方法及服务平台

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3108015B2 (ja) * 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
US5802515A (en) * 1996-06-11 1998-09-01 Massachusetts Institute Of Technology Randomized query generation and document relevance ranking for robust information retrieval from a database
WO1997049048A1 (en) * 1996-06-17 1997-12-24 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5875446A (en) * 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
US5845278A (en) * 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US5953718A (en) * 1997-11-12 1999-09-14 Oracle Corporation Research mode for a knowledge base search and retrieval system

Also Published As

Publication number Publication date
US6125361A (en) 2000-09-26
CN1112647C (zh) 2003-06-25
TW526432B (en) 2003-04-01
PL343403A1 (en) 2001-08-13
CN1296589A (zh) 2001-05-23
DE69917250D1 (de) 2004-06-17
CA2326153A1 (en) 1999-10-21
EP1070296A1 (de) 2001-01-24
WO1999053418A1 (en) 1999-10-21
EP1070296B1 (de) 2004-05-12
CA2326153C (en) 2003-12-09

Similar Documents

Publication Publication Date Title
DE69917250T2 (de) Merkmalübertragung über hyperlinks
DE69433165T2 (de) Assoziatives textsuch- und wiederauffindungssystem
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE60129652T2 (de) Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE69837199T2 (de) Verfahren, vorrichtung und datenträger zur intelligenten auswahl von suchwörtern in einer tastaturlosen umgebung
DE69833238T2 (de) System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE69731142T2 (de) System zum Wiederauffinden von Dokumenten
DE69932344T2 (de) Zugriff zu hierarchischem datenspeicher via sql-eingabe
DE69933187T2 (de) Dokumentensuchverfahren und Dienst
DE10328833A1 (de) System und Verfahren für die Verwaltung einer Synonymsuche
EP1877932B1 (de) System und verfahren zur aggregation und überwachung von dezentralisiert gespeicherten multimediadaten
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
DE69719641T2 (de) Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren
KR20060048777A (ko) 문서 설명의 문구 기반 생성
DE102007037646B4 (de) Computerspeichersystem und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE60315948T2 (de) Methode zur Indexierung und Recherche einer Sammlung von Internet Dokumenten
DE69933123T2 (de) Zugriff auf eine semi-strukturierte datenbank
EP1276056A1 (de) Verfahren zum Verwalten einer Datenbank
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
EP1030254B1 (de) Verfahren und System zum Verwalten von Dokumenten

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication related to discontinuation of the patent is to be deleted
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8328 Change in the person/name/address of the agent

Representative=s name: DUSCHER, R., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 7