DE69917250T2

DE69917250T2 - Merkmalübertragung über hyperlinks

Info

Publication number: DE69917250T2
Application number: DE69917250T
Authority: DE
Inventors: Soumen Powai CHAKRABARTI; Edward Byron DOM
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-04-10
Filing date: 1999-03-12
Publication date: 2006-03-23
Anticipated expiration: 2019-03-13
Also published as: US6125361A; CN1112647C; TW526432B; PL343403A1; CN1296589A; DE69917250D1; CA2326153A1; EP1070296A1; WO1999053418A1; EP1070296B1; CA2326153C

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein das Abrufen von Daten und insbesondere verfahren und eine Vorrichtung zum leistungsfähigen und wirkungsvollen Abrufen von Hypertextdokumenten, z.B. aus dem World Wide Web.
HINTERGRUND DER ERFINDUNG
Das als Internet bekannte Computer-Weitverkehrsnetz und insbesondere der als World Wide Web bekannte Teil des Internet ermöglicht Benutzern den Zugriff auf große Datenmengen. Aus diesem Grund stehen den Benutzern zur Filterung der Informationen aus dem Internet verschiedene Suchmaschinen durch Eingabe von Abfragen zur Verfügung, wobei sich die Suchmaschinen verschiedener Schemata bedienen, um als Antwort auf die Abfragen Listen mit Websites auszugeben. Bei diesen Websites handelt es sich im Allgemeinen um Dokumente in einem Computerspeicher, auf welche ein Benutzer zugreifen kann, um Informationen über das Thema der betreffenden Website zu erlangen.
Üblicherweise verwenden Internetsuchmaschinen ähnlich wie die meisten Computersuchverfahren eine Art Schlüsselwort-Suchstrategie, bei welcher der Begriff oder die Begriffe einer durch den Benutzer eingegebenen Abfrage auf bestimmte Weise mit Begriffen in Internetdokumenten verglichen werden, um dann eine Liste der zugehörigen Websites an den abfragenden Benutzer auszugeben. Die meisten Abfragen sind jedoch nur ein bis drei Wörter lang und damit normalerweise sehr weit gefasst. Das bedeutet, dass dieses eine oder diese mehreren Wörter in einer großen Anzahl Websites enthalten sein können und der Benutzer dann Hunderte und vielleicht sogar Tausende Dokumente durchsuchen muss, wenn die Suchmaschine alle möglichen Kandidaten ausgibt.
Außerdem kann es geschehen, dass als Antwort auf eine Abfrage diejenigen Websites, die am besten zur Abfrage passen, gar nicht ausgegeben werden. Das passiert besonders dann, wenn in der Abfrage Begriffe verwendet werden, die in den zur der Abfrage am besten passenden Websites nicht vorkommen. Zum Beispiel kommt der Begriff „Browser“ in den Websites für zwei der aktuell verbreitetsten Browser überhaupt nicht vor. Stattdessen decken die Websites das Thema mit anderen Wörtern ab und nicht mit dem Wort „Browser“. Folglich erhält ein Benutzer diese Websites nicht, wenn er das Wort „Browser“ in eine Suchmaschine eingibt, die sich einer einfachen Schlüsselwort-Suchstrategie bedient.
In der vorliegenden Erfindung wird jedoch berücksichtigt, dass die Internetbenutzer unbewusst einen kooperativen Beitrag leisten, wenn sie nach Internetdokumenten suchen, sie durchlesen, durchsuchen und ihre Qualität bewerten. Dieser Beitrag äußert sich großenteils in der Zusammenstellung der Webseiten insofern, als normalerweise viele oder gar die meisten Webseiten andere als qualitativ hochwertig eingeschätzte Seiten beschreiben oder auf sie zeigen.
Eine Webseite zeigt insbesondere mittels Hyperlinks auf andere Webseiten, wobei es sich bei den Hyperlinks um Bezüge innerhalb eines ersten Dokuments (d.h. in einer ersten Webseite) auf ein anderes Dokument (d.h. andere Webseiten) handelt. Ein Hyperlink bietet einem Benutzer die Möglichkeit, durch „Anklicken“ des Hyperlinks mittels einer Computermaus oder einer anderen Zeige- und Auswahlvorrichtung unmittelbar auf eine andere Webseite zuzugreifen. Gemäß der vorliegenden Erfindung kann man durch das Aufrufen von Webseiten eine Vielfalt von Begriffen erschließen, deren Zuordnung zu den aufgerufenen Webseiten gebräuchlich ist, obwohl die Begriffe in den aufgerufenen Webseiten selbst nicht verwendet werden. Folglich kann man die Abfrageergebnisse bei der Suche im Internet verbessern, wenn man diese Begriffe verwendet. Die vorliegende Erfindung geht ferner davon aus, dass man die vorliegenden Prinzipien der wirksamen Verteilung von Merkmalen (in Form von Begriffen) über einen Verweis auf ein Dokument (wie zum Beispiel über einen Hyperlink) nicht nur auf das World Wide Web, sondern auf alle Arten verknüpfter Dokumente wie zum Beispiel Patente, wissenschaftliche Veröffentlichungen, Artikel, Bücher, E-Mails usw. anwenden kann.
Deshalb besteht eine Aufgabe der vorliegenden Erfindung darin, ein Verfahren und ein System zum Verteilen von Merkmalen über Hyperlinks bereitzustellen. Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zum Festlegen der Rangfolge von Dokumenten in einer Gruppe von Dokumenten als Reaktion auf eine Abfrage bereitzustellen. Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zum Auffinden von Schlüsselwörtern in einer Gruppe von Dokumenten bereitzustellen. Noch eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zum Auffinden von Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen, welche durch einen oder mehrere Abfragebegriffe repräsentiert werden, in Dokumenten in einem Computerspeicher bereitzustellen. Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und ein System zur Internetsuche bereitzustellen, welche benutzerfreundlich und kostengünstig sind.
In WO 9749048 A werden ein System und ein Verfahren zum Aufrufen von Hypertextdokumenten beschrieben, bei dem Hypertextdokumente, auf die in aufgerufenen Dokumenten verwiesen wird, mittels derjenigen Begriffe indiziert und in eine Rangfolge gebracht werden, die in den auf die Hypertextdokumente verweisenden Hyperlinks innerhalb der aufgerufenen Dokumente enthalten sind.
In EP 0 809 197 A wird ein System zur Suche nach Hypertextdokumenten beschrieben, bei dem ein Stammdokument und ein weiteres Dokument innerhalb einer Gruppe von aufgerufenen Dokumenten einander zugeordnet werden, wenn ein Hyperlink im Stammdokument auf das andere Dokument verweist und beide Dokumente in der Suchabfrage dasselbe Schlüsselwort enthalten. Die Häufigkeit des Vorkommens jedes zugeordneten Dokuments wird berechnet und dient zur Festlegung der Rangfolge der Gruppe der aufgerufenen Dokumente.
BESCHREIBUNG DER ERFINDUNG
Die Erfindung besteht in einem Universalcomputer, der entsprechend den in der Erfindung beschriebenen Schritten so programmiert ist, dass Dokumente in einer Dokumentengruppe als Reaktion auf eine Abfrage in einer Rangfolge angeordnet werden. Die Erfindung kann auch als Herstellungsartikel – etwa als Maschinenkomponente – realisiert werden, der durch eine Datenverarbeitungseinheit verwendet wird und ein Programm aus Anweisungen selbst realisiert, die durch die Datenverarbeitungseinheit ausgeführt werden, um in Dokumenten im Computerspeicher Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen aufzufinden. Die vorliegende Erfindung wird in einer kritischen Maschinenkomponente realisiert, welche die Datenverarbeitungseinheit veranlasst, die in der Erfindung beschriebenen Schritte auszuführen.
Gemäß der vorliegenden Erfindung beinhaltet der Computer ein computerlesbares Codemittel zum Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument. Das computerlesbare Codemittel empfängt einen lexikalischen Abstand, der eine Anzahl von Dokumentbegriffen definiert. Ferner enthält der Computer ein computerlesbares Codemittel zum Empfangen einer einen oder mehrere Abfragebegriffe enthaltenden Abfrage sowie ein computerlesbares Codemittel zum Ermitteln, wie oft mindestens einer der Abfragebegriffe im ersten Dokument innerhalb des lexikalischen Abstands zum zweiten Dokument vorkommt, um die Rangfolge der zugehörigen Dokumente festzulegen.
Bei einer Ausführungsart kann man über ein Weitverkehrs-Computernetz auf die Dokumente zugreifen, bei dem die Bezüge in URLs (unified resource locators, einheitliche Ressourcenadresse) bestehen. Der lexikalische Abstand kann ausgehend von der Abfrage festgelegt werden.
Vorzugsweise enthält der Computer auch ein computerlesbares Codemittel zum Festlegen der Rangfolge mehrerer Dokumente ausgehend davon, wie oft Abfragebegriffe jeweils innerhalb von lexikalischen Abständen von Bezügen in den Dokumenten vorkommen. Außerdem enthält der Computer ein computerlesbares Codemittel zum Empfangen einer Dokumentengruppe „U“. Das computerlesbare Codemittel dient zum Definieren von Dokumenten in der Dokumentengruppe „U“, die mindestens einen Bezug auf das Testdokument „u“ enthalten, als Nachbardokumente „N(u)“ bezüglich mindestens eines Testdokuments „u“ in der Gruppe „U“. Außerdem ermittelt das computerlesbare Codemittel bezüglich mindestens eines Dokumentbegriffs in mindestens einem Nachbardokument „N(u)“, ob sich dieser mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands (d.h. innerhalb einer vorgegeben Anzahl von Begriffen) eines Bezugs im Nachbardokument „N(u)“ auf das Testdokument „u“ befindet. Das computerlesbare Codemittel der vorliegenden Erfindung gibt dann als Reaktion auf das Mittel zum Ermitteln, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs befindet, ein Signal aus. Das Ausgabemittel setzt einen dem mindestens einen Dokumentbegriff zugehörigen Zähler um eins höher, wenn sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs auf das Testdokument „u“ befindet.
Zusätzlich zu der oben beschriebenen Logik kann der Computer auch ein computerlesbares Codemittel zum Empfangen einer Dokumentengruppe „U“ als Reaktion auf eine einen oder mehrere Abfragebegriffe enthaltende Abfrage enthalten, wobei jedes Dokument einen oder mehrere Dokumentbegriffe enthält. Es wird ein computerlesbares Codemittel zum Definieren einer Korrelation zwischen mindestens einem ersten Dokument und mindestens einem ersten Dokumentbegriff bereitgestellt, wenn sich sowohl der erste Dokumentbegriff als auch ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs befinden. Die Korrelation kann mit einem Gewicht verknüpft werden, wobei das Gewicht darauf beruht, wie oft sich der erste Dokumentbegriff und ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in der Dokumentengruppe „U“ befinden.
Gemäß einem weiteren Aspekt umfasst eine Computerprogrammvorrichtung eine Computer-Programmspeichereinheit, die durch eine Datenverarbeitungseinheit gelesen werden kann; und ein Programmmittel in der Programmspeichereinheit, wobei das Programmmittel durch die Datenverarbeitungseinheit ausführbare Instruktionen beinhaltet, mittels derer Verfahrenschritte zum Auffinden von Schlüsselwörtern in einer Dokumentengruppe ausgeführt werden, und wobei das Verfahren folgende Schritte umfasst: Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; Empfangen einer einen oder mehrere Abfragebegriffe enthaltenden Abfrage; und Ermittlung, wie oft sich mindestens einer der Abfragebegriffe in dem ersten Dokument innerhalb des lexikalischen Abstands des Bezugs auf das zweite Dokument befindet, um die Rangfolge der diesbezüglichen Dokumente festzulegen.
Die Erfindung stellt des Weiteren ein Verfahren zum Festlegen der Rangfolge von Dokumenten in einer Dokumentengruppe als Reaktion auf eine Abfrage bereit, wobei das Verfahren die folgenden Schritte umfasst: Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; Empfangen einer einen oder mehrere Abfragebegriffe enthaltenden Abfrage; und Ermittlung, wie oft sich mindestens einer der Abfragebegriffe in dem ersten Dokument innerhalb des lexikalischen Abstands des Bezugs auf das zweite Dokument befindet, um die Rangfolge der diesbezüglichen Dokumente festzulegen.
Im Folgenden wird die Erfindung lediglich anhand eines Beispiels und unter Bezug auf die beiliegenden Zeichnungen beschrieben, in denen:
1 eine schematische Darstellung des verwendeten Computersystems zum Verbreiten von Dokumentmerkmalen über Hyperlinks ist;
2 eine schematische Ansicht eines Computerprogrammprodukts ist;
3 ein Ablaufdiagramm der Logik zum Anlegen einer Liste von Websites ist, die als Reaktion auf eine Abfrage ermittelt wurden;
4 ein Ablaufdiagramm der Logik zum Ausgeben „qualitativ hochwertiger“ Seiten aus einer als Reaktion auf eine Abfrage erzeugten Liste von Seiten ist;
5 ein Ablaufdiagramm ist, welches die Logik zum Auffinden deskriptiver Begriffe (in der Beschreibung auch als Merkmale bezeichnet) über Hyperlinks darstellt; und
6 ein Ablaufdiagramm ist, welches die Logik zum Auffinden von Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen, die durch einen oder mehrere Abfragebegriffe dargestellt werden, in Dokumenten im Computerspeicher darstellt.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
1 zeigt ein mit der Bezugsnummer 10 bezeichnetes System zum Auffinden von deskriptiven Begriffen über Hyperlinks. Bei der gezeigten bestimmten Architektur ist im System 10 eine Datenverarbeitungseinheit wie zum Beispiel ein Computer 12 enthalten. Bei einer vorgesehenen Ausführungsart kann es sich bei dem Computer 12 um einen von International Business Machines Corporation (IBM), Armonk, New York, hergestellten Personal Computer oder um einen anderen Computer handeln, einschließlich solcher unter Warenzeichen wie beispielsweise AS/400 vertriebener Computer und der zugehörigen IBM Netzwerkrechner. Beim Computer 12 kann es sich jedoch auch um einen UNIX-Rechner, um einen OS/2-Server, einen Windows NT-Server oder um eine IBM RS/6000 250-Workstation mit 128 MB Hauptspeicher und dem Betriebssystem AIX 3.2.5 oder um einen IBM Laptoprechner handeln. (UNIX ist ein Warenzeichen von Open Group, AS/400, OS/2, RS/6000 und AIX sind Warenzeichen von International Business Machines Corporation und Windows NT ist ein Warenzeichen von Microsoft Corp.).
Der Computer 12 greift auf eine Internet-Suchmaschine 14 zu. Bei einer Ausführungsart handelt es sich bei der Suchmaschine 14 um ein Produkt von Alta Vista, jedoch können auch andere Suchmaschinen verwendet werden. Die Suchmaschine 14 empfängt Abfragen vom Computer 12 und gibt als Reaktion auf die Abfragen an den Computer 12 eine Liste im Computer gespeicherter Dokumente und insbesondere eine Liste von Websites 16 aus, mit denen der Computer 12 über den als World Wide Web 18 bekannten Teil des Internets in Verbindung treten kann.
Außerdem hat der Computer 12 ein Merkmalverbreitungsmodul 19, welches durch einen Prozessor im Computer 12 als Folge von computerlesbaren Anweisungen ausgeführt werden kann. Diese Anweisungen können zum Beispiel im Arbeitsspeicher (RAM, random access memory) des Computers 12 gespeichert sein. Die beiliegenden Ablaufdiagramme stellen die Struktur der Programmanweisungen dar, welche durch das in der Computerprogrammsoftware realisierte Modul 19 der vorliegenden Erfindung ausgeführt werden. Dem Fachmann ist klar, dass die Ablaufdiagramme die Struktur von Logikelementen wie zum Beispiel von Codeelementen in einem Computerprogramm oder von elektronischen Logikschaltkreisen darstellen, die eine Funktion gemäß der vorliegenden Erfindung ausführen. Es ist klar, dass die Erfindung in ihrer wesentlichen Ausführungsart durch eine Maschinenkomponente realisiert wird, bei der die Logikelemente so angeordnet sind, dass eine Datenverarbeitungseinheit (das heißt, ein Computer) angewiesen wird, eine den dargestellten Schritten entsprechende Folge von Funktionsschritten auszuführen.
Mit anderen Worten, das Modul 19 kann ein Computerprogramm sein, welches durch einen Prozessor im Computer 12 als Folge durch einen Computer ausführbarer Anweisungen ausgeführt wird.
Alternativ können die Anweisungen in einer Datenspeichereinheit mit einem computerlesbaren Medium wie zum Beispiel in einer Computerdiskette 20 gemäß 2 gespeichert sein. In der Diskette 20 kann ein computerlesbares Medium enthalten sein, in welchem die computerlesbaren Programmcodeelemente A bis D elektronisch gespeichert sind. Die Anweisungen können jedoch auch in einem DASD-Speicher, auf einem Magnetband, einer herkömmlichen Festplatte, in einem elektronischen Nur-Lese-Speicher, einer optischen Speichereinheit oder einer anderen geeigneten Datenspeichereinheit gespeichert sein. Bei einer anschaulichen Ausführungsart der Erfindung können die durch den Computer ausführbaren Anweisungen aus Zeilen eines kompilierten Codes bestehen, der mit der Programmiersprache C++ oder HTML (Hypertext Markup Language) kompatibel ist.
1 zeigt ferner, dass das System 10 in der Technik bekannte Peripherieeinheiten einschließlich einer Eingabeeinheit wie zum Beispiel einer Computertastatur 24 und/oder einer Computermaus 25 enthält. Außer den dargestellten Eingabeeinheiten können jedoch auch weitere Eingabeeinheiten wie z.B. eine Rollkugel, ein Tastenfeld, ein Berührungsbildschirm oder eine Spracherkennungseinheit verwendet werden. Ferner wird eine Ausgabeeinheit wie zum Beispiel ein Videomonitor 26 bereitgestellt. Darüber hinaus können jedoch auch andere Ausgabeeinheiten wie zum Beispiel Drucker, andere Computer usw. verwendet werden.
3 zeigt die Logik der ersten Prozedur (im Folgenden als „Prozedur A“ bezeichnet), welche durch das Modul 19 ausgeführt wird. Die Prozedur beginnt in Kasten 28 mit dem Empfangen einer Benutzerabfrage, die beispielsweise mittels der Tastatur 24 eingegeben wurde. Die Benutzerabfrage besteht aus einem oder mehreren Abfragebegriffen, wie zum Beispiel „high mountains“.
In Kasten 30 wird der lexikalische Abstand „1“ festgelegt. Bei einer Ausführungsart definiert der lexikalische Abstand „1“ ein aus einer ganzzahligen Anzahl von Begriffen bestehendes Fenster, wie zum Beispiel „high mountains“. Der lexikalische Abstand „1“ kann einen festen Wert haben oder alternativ anhand der Anzahl der in der Abfrage vorkommenden Begriffe festgelegt werden. Zum Beispiel kann der Wert des lexikalischen Abstands „1“ umgekehrt proportional zur Anzahl der Abfragebegriffe sein.
In Kasten 32 wird die Abfrage zur Suchmaschine 14 gesendet. Gemäß den der Suchmaschine 14 zugrunde liegenden Prinzipien gibt diese eine Liste mit Websites 16 zurück, welche die Abfragekriterien erfüllen. Die Liste wird in Form einer Ergebnismenge „R“ zurückgegeben und in Kasten 34 empfangen. Üblicherweise wird die Ergebnismenge als Liste mit Websitenamen zurückgegeben, die als URLs (Uniform resource locators, einheitliche Ressourcenadressen) bezeichnet werden.
In Kasten 36 wird die Ergebnismenge „R“ wie folgt durch die Logik erweitert. Zuerst werden alle „s“ URLs, in welchen Hyperlinks auf ein oder mehrere Elemente „r“ in der Ergebnismenge „R“ vorkommen, zur Ergebnismenge „R“ hinzugefügt. Auf diese Weise wird in Kasten 36 ein Bezug in einem ersten Dokument auf ein zweites Dokument erkannt.
Dann werden in Kasten 38 alle „t“ URLs zur Ergebnismenge „R“ hinzugefügt, wobei eine URL „t“ dadurch gekennzeichnet ist, dass in der Ergebnismenge „R“ Hyperlinks von einem Element „r“ auf diese URL vorkommen; die erweiterte Ergebnismenge wird dann mit „S“ bezeichnet. Somit wird die Ergebnismenge „R“ in Kasten 36 und 38 zur erweiterten Ergebnismenge „S“, indem solche URLs hinzugefügt werden, auf welche ein Hyperlink in einer URL in der Ergebnismenge „R“ verweist oder welche mittels eines Hyperlinks auf eine URL in der Ergebnismenge „R“ verweisen.
Nach Kasten 38 geht die Logik weiter zu Kasten 40, wo für jedes Dokument in der erweiterten Ergebnismenge „S“ eine „DO“-Schleife begonnen wird. Im Entscheidungsfeld 42 wird ermittelt, ob sich einer der Abfragebegriffe innerhalb des lexikalischen Abstands einer URL „u“ im betreffenden Dokument befindet, d.h., ob sich ein Abfragebegriff im gerade geprüften Dokument innerhalb des lexikalischen Abstands eines auf das u-te Dokument in der erweiterten Ergebnismenge „S“ verweisenden Hyperlinks befindet. Wenn dies der Fall ist, wird in Kasten 44 ein zum u-ten Dokument in der erweiterten Ergebnismenge „S“ gehörender Zähler u um eins erhöht und dann in Kasten 46 das nächste Dokument aufgerufen. Auf diese Weise ermittelt die Logik, wie oft einer der Abfragebegriffe in einem ersten Dokument innerhalb des lexikalischen Abstands eines Bezugs auf das zweite Dokument vorkommt, um daraufhin gemäß der folgenden Beschreibung die Rangfolge der Dokumente festzulegen.
Wenn das Prüfergebnis im Entscheidungsfeld 42 negativ ist, geht die Logik sofort weiter zu Kasten 46. Von Kasten 46 geht die Logik weiter zum Entscheidungsfeld 48 und ermittelt, ob die „DO“-Schleife beendet ist, und kehrt zum Entscheidungsfeld 42 zurück, wenn dies nicht der Fall ist. Wenn die „DO“-Schleife jedoch beendet ist, kehrt der Prozess zurück zu Kasten 50 und gibt eine in abnehmender Reihenfolge der Zählerwerte geordnete Menge URLs zurück.
4 zeigt eine Prozedur „B“ zum Neuordnen der obersten „N“ URLs, die von der Prozedur „A“ auf der Grundlage der Wichtigkeit bestimmter darin enthaltener Begriffe zurückgegeben wurden. Zuerst wird in Kasten 52 eine Dokumentengruppe empfangen. Bei dieser Gruppe kann es sich z.B. um die obersten „N“ (z.B. 20) URLs handeln, die in Kasten 50 ausgegeben wurden. Für diese Gruppe wird eine „DO“-Schleife gestartet und in Kasten 54 eine Indexvariable „v“ gleich der geprüften URL gesetzt.
In Kasten 56 werden alle (oder eine Teilmenge der) URLs „u“ ermittelt, in denen auf die gerade geprüfte URL „v“ verwiesen wird (zum Beispiel, indem sie einen Hyperlink auf die gerade geprüfte URL „v“ enthalten). Dann wird der gesamte Schlüsseltext in den URLs abgerufen, der sich auf die Hyperlinks bezieht, welche auf die gerade geprüfte URL „v“ verweisen.
Unter „Schlüsseltext“ ist derjenige Text zu verstehen, der direkt mit einem Hyperlink oder einem anderen Bezug oder einer anderen Erwähnung in einem Dokument verknüpft ist. Zum Beispiel stellt in dem Text „One of the earliest high-energy nuclear accelerators was built at <A HREF=“http://www.CERN.ch“>CERN, the European Laboratory for Particle Physics</A> der Ausdruck “http://www.CERN.ch“ den Hyperlink und der durch “<A>...<A>“ eingeschlossene Text den Schlüsseltext dar. Beim vorliegenden Beispiel mit einem lexikalischen Abstand von z.B. fünf liegen die Begriffe „nuclear accelerators was built at“ innerhalb des lexikalischen Abstands des Schlüsseltextes, während die Begriffe „One of the earliest high-energy“ außerhalb des lexikalischen Abstands des Schlüsseltextes liegen.
Dann wird in Kasten 60 für jeden Abfragebegriff eine verschachtelte „DO“-Schleife gestartet. Anschließend wird im Entscheidungsfeld 62 mittels eines aus einer Vielzahl herkömmlicher Statistikverfahren ermittelt, ob die Häufigkeit des gerade geprüften Abfragebegriffes im gerade geprüften Dokument größer als die Häufigkeit eines Bezugs in einer Bezugsgruppe des Schlüsseltextes ist.
Wenn die Häufigkeit des gerade geprüften Abfragebegriffes im gerade geprüften Dokument größer als die Häufigkeit des Bezugs ist, geht der Prozess weiter zu Kasten 64, um das gerade geprüfte Dokument als wichtig zu markieren. Wenn dies jedoch nicht der Fall ist, wird das gerade geprüfte Dokument nicht als wichtig markiert. In beiden Fällen kann jedes Dokument mit einem Zähler oder einem anderen Wert verknüpft werden, der die Wichtigkeit des zuvor geprüften Dokuments anzeigt. Nach Abschluss der oben erörterten „DO“-Schleifen sind die „N“ obersten URLs nach ihrer Wichtigkeit geordnet.
5 zeigt die Logik einer Prozedur „C“ zum Auffinden von deskriptiven Begriffen über Hyperlinks. Zu Anfang wird in Kasten 68 eine Gruppe „U“ von URLs „u“ empfangen und dann für jede einzelne URL „u“ in der Gruppe „U“ eine „DO“-Schleife gestartet. In Kasten 70 wird die Gruppe N(u) der der gerade geprüften URL „u“ benachbarten Dokumente ermittelt. Unter „benachbarten Dokumenten“ ist ein Dokument in der Gruppe „U“ von URLs zu verstehen, welches einen auf das gerade geprüfte Dokument „u“ verweisenden Hyperlink enthält. Anders gesagt, unter der Gruppe N(u) benachbarter Dokumente kann man diejenigen Dokumente verstehen, die auf das Dokument „u“ verweisen.
In Kasten 72 wird für jedes Element (d.h. für jeden Dokumentbegriff) in der Gruppe N(u) benachbarter Dokumente eine verschachtelte „DO“-Schleife gestartet. In Kasten 74 wird jedem Begriff in der Gruppe N(u) benachbarter Dokumente ein Zähler zugewiesen. Dann wird eine zweifach verschachtelte „DO“-Schleife gestartet. Im Entscheidungsfeld 76 wird dann ermittelt, ob sich der gerade geprüfte Begriff innerhalb eines vorgegebenen Abstands eines Bezugs (z.B. Hyperlinks) auf das gerade geprüfte Dokument „u“ befindet. Bei diesem vorgegebenen Abstand kann es sich um den oben erörterten lexikalischen Abstand handeln. Wenn sich der gerade geprüfte Begriff innerhalb des vorgegebenen Abstands eines Bezugs auf das gerade geprüfte Dokument „u“ befindet, wird der Zähler des Begriffs in Kasten 78 um eins erhöht. Wenn dies nicht der Fall ist, wird der Zähler nicht erhöht. Nachdem alle Begriffe aller benachbarten Dokumente in der Gruppe N(u) benachbarter Dokumente, die allen Dokumenten „u“ in der Dokumentengruppe „U“ benachbart sind, wie oben beschrieben geprüft worden sind, geht die Logik weiter zu Kasten 80, um die Begriffe nach ihren jeweiligen Zählerwerten zu sortieren und die sortierte Liste auszugeben.
Gemäß der vorliegenden Erfindung wird am Ausgang von Kasten 80 eine geordnete Liste von Begriffen in der Dokumentengruppe „U“ ausgegeben. Diese geordnete Liste kann dazu verwendet werden, dem Benutzer weitere Abfragebegriffe vorzuschlagen. Ferner kann sie in einem ständig aktualisierten Verknüpfungsthesaurus verwendet werden. Außerdem kann die von Kasten 80 ausgegebene Liste dazu verwendet werden, bei zahlreichen Suchmaschinen in einem Nachverarbeitungsschritt Gruppen von durch Hyperlinks verknüpften Dokumenten oder Gruppen von Begriffen mit Anmerkungen zu versehen.
6 zeigt die Logik einer Prozedur „D“ zum Auffinden von Verknüpfungen zwischen Dokumentbegriffen und Abfragethemen, die durch einen oder mehrere Abfragebegriffe dargestellt werden, in Dokumenten in einem Computerspeicher. Zuerst wird in Kasten 82 eine Abfrage „Q“ empfangen. Die Abfrage „Q“ besteht aus einem oder mehreren Abfragebegriffen „q“.
In-Kasten 84 wird die Abfrage an die Suchmaschine weitergeleitet, und als Reaktion auf die Abfrage wird von der Suchmaschine eine Dokumentenliste empfangen. In Kasten 86 wird ein zweiteiliger Graph G = ((T,U),E) konstruiert, dessen Scheitelpunkte die in Kasten 84 zurückgegebenen Begriffe (T) und Dokumente (U) darstellen, wobei T und U jeweils einen Dokumentbegriffzweig bzw. einen URL-Zweig des zweiteiligen Graphen darstellen und E die Grenzlinien zwischen den Zweigen darstellt.
In Kasten 88 wird für jedes Dokument eine „DO“-Schleife gestartet. In Kasten 90 wird das Dokument auf URLs „u“ und Abfragebegriffe „q“ durchsucht. In Kasten 92 wird für jeden Dokumentbegriff „t“ und jede URL „u“ innerhalb eines vorgegebenen Abstands eines Abfragebegriffes „q“ eine „DO“-Schleife gestartet, in welcher in Kasten 94 das Gewicht der Grenzlinie (t,u)E um eins erhöht wird. Wenn bei dieser Logik sowohl ein Dokumentbegriff als auch ein Dokumentname oder eine Erwähnung (in Form eines Hyperlinks) in einem Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffes gefunden werden, sendet die Logik ein Signal, welches eine Verknüpfung zwischen dem Dokumentbegriff und dem Abfragethema anzeigt.
Wenn gewünscht, kann die „DO“-Schleife auch zu Kasten 96 weitergehen und dort eine Einzelwertzerlegung (single value decomposition, SVD) einer durch die Grenzlinien E:a_i,j definierten Matrix vornehmen, wobei a_i,j das Gewicht der Grenzlinie vom i-ten Begriff zur j-ten URL darstellt. Wie in der Technik bekannt, wird durch die Einzelwertzerlegung in Kasten 96 eine Faktorzerlegung A = U SV erreicht, wobei S eine die Einzelwerte von A enthaltende Diagonalmatrix ist und U und V Orthogonalmatrizen zum Ausführen von Orthogonaltransformationen sind. Ein in der Technik als Latente Semantische Indizierung (Latent Semantic Indexing, LSI) bekanntes Verfahren, wie es in der US-Patentschrift 4 839 853 beschrieben wird, kann zur Vorbearbeitung des Stammtextes und insbesondere zur Faktorzerlegung der Dokumentbegriffmatrix A als USV verwendet werden, wobei U die lineare Projektion vom Begriffsraum auf den so genannten LSI- oder Konzeptraum liefert. Hierfür reichen einige wenige hundert LSI-Dimensionen „k“ aus.
Bei der LSI-Suche wird jedoch die Matrix U nicht verwendet, während die vorliegende Erfindung die Matrix U wie folgt verwendet. Jeder Begriff wird im LSI-Raum abgebildet, indem jedes Dokument durch eine Folge k-dimensionaler Vektoren dargestellt wird. Die Abfrage selbst wird in eine kurze Folge solcher Vektoren umgewandelt. Dann werden die Dokumente durchsucht, und die Logik versucht die Abfragevektoren mit einem kleinen Fenster von Vektoren in den Dokumenten in Übereinstimmung zu bringen. Wenn eine wenig aufwendige (d.h. „gute“) Übereinstimmung gefunden wird, erhalten nahe liegende Erwähnungen, d.h. Hyperlinks, eine starke Bewertung. Der Aufwand kann mittels einer Minimalaufwand-Vergleichsstrategie ermittelt werden, bei der sich die Grenzkosten zum Ermitteln der Übereinstimmung zwischen den Vektoren, die den Begriffen t₁ und t₂ entsprechen, aus dem Abstand zwischen ihren Projektionen in U ergeben. Zum Beispiel kann die Abfrage „auto makers“ ohne großen Aufwand mit der Textpassage „companies making cars“ in Übereinstimmung gebracht werden, indem Erwähnungen berücksichtigt werden, die solchen ähnlichen Passagen näher kommen.
Im Gegensatz zum LSI-Verfahren wird bei der vorliegenden Erfindung für jedes Dokument eine Folge von LSI-Vektoren gespeichert. Mit anderen Worten, im Gegensatz zum LSI-Verfahren berücksichtigt die vorliegende Erfindung die Übereinstimmung von LSI-Vektorfolgen und das Gewicht benachbarter Erwähnungen.
Wenn gewünscht, kann der Prozess in Kasten 98 dem Benutzer Suchbegriffe vorschlagen. Um diese vorzuschlagenden Begriffe zu ermitteln, sortiert die Logik die Begriffe mit Überständen am linken Vektor (d.h. in der ersten Spalte von „U“) der in Kasten 96 ermittelten SVD in absteigender Reihenfolge. Die „k“ obersten Begriffe in der sortierten Liste werden dann in Kasten 98 zurückgegeben, wobei „k“ ein vorgegebener ganzzahliger Wert, z.B. fünf, ist.

Claims

Computer (12) mit einer Datenspeichervorrichtung, welche ein durch einen Computer verwendbares Medium (19, 22) enthält, welches wiederum ein durch einen Computer verwendbares Codemittel zum Festlegen der Rangfolge von Dokumenten in einer Gruppe von Dokumenten als Reaktion auf eine Abfrage hat, wobei das durch den Computer verwendbare Codierungsmittel Folgendes aufweist: ein computerlesbares Codemittel zum Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; ein computerlesbares Codemittel (30) zum Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; ein computerlesbares Codemittel (28) zum Empfangen einer Abfrage, die einen oder mehrere Abfragebegriffe enthält; und ein computerlesbares Codemittel (40, 42, 44, 46, 48) zur Ermittlung, wie oft sich mindestens einer der Abfragebegriffe in dem ersten Dokument innerhalb des lexikalischen Abstands des Bezugs auf das zweite Dokument befindet, um die Rangfolge mehrerer Dokumente anhand der Häufigkeit des Vorkommens der Abfragebegriffe innerhalb lexikalischer Abstände von Bezügen in den Dokumenten festzulegen.
Computer (12) nach Anspruch 1, bei dem über ein Weitverkehrs-Computernetzwerk auf die Dokumente zugegriffen werden kann und der Bezug eine einheitliche Ressourcenliste (URL) enthält.
Computer (12) nach Anspruch 2, bei dem der lexikalische Abstand anhand der Abfrage festgelegt wird.
Computer (12) nach Anspruch 2, der ferner Folgendes umfasst: ein computerlesbares Codemittel (52) zum Empfangen einer Gruppe „U“ von Dokumenten; ein computerlesbares Codemittel (70) zum Definieren mindestens eines Testdokuments „u“ in der Gruppe „U“ als Nachbardokumente „N(u)“ in der Gruppe „U“, welche mindestens einen Bezug auf das Testdokument „u“ enthalten; ein computerlesbares Codemittel (76, 78) zum Ermitteln für mindestens einen Dokumentbegriff in mindestens einem Nachbardokument „N(u)“, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs im Nachbardokument „N(u)“ zum Testdokument „u“ befindet; und ein computerlesbares Codemittel (80) zum Ausgeben eines Signals als Reaktion auf das Mittel zum Ermitteln, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs befindet.
Computer (12) nach Anspruch 4, bei dem das Mittel (80) zum Ausgeben eines Signals einen dem mindestens einen Dokumentbegriff zugeordneten Zähler um eins erhöht, wenn sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs zum Testdokument „u“ befindet.
Computer (12) nach Anspruch 2, der ferner Folgendes umfasst: ein computerlesbares Codemittel (52) zum Empfangen einer Gruppe „U“ von Dokumenten als Reaktion auf eine Abfrage, die einen oder mehrere Abfragebegriffe enthält, wobei jedes Dokument einen oder mehrere Dokumentbegriffe enthält; und ein computerlesbares Codemittel (60, 62) zum Definieren eines Zusammenhangs zwischen mindestens einem ersten Dokument und mindestens einem Dokumentbegriff, wenn sich sowohl der Dokumentbegriff als auch ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in dem mindestens einen Dokument befindet.
Computer (12) nach Anspruch 6, bei dem der Zusammenhang einem Gewicht zugeordnet wird und das Gewicht darauf beruht, wie oft der Dokumentbegriff und ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in der Gruppe „U“ von Dokumenten vorkommen.
Verfahren zum Festlegen der Rangfolge von Dokumenten in einer Gruppe von Dokumenten als Reaktion auf eine Abfrage, wobei das Verfahren die folgenden Schritte umfasst: Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument; Empfangen (30) eines lexikalischen Abstands, wobei der lexikalische Abstand eine Anzahl von Dokumentbegriffen definiert; Empfangen (28) einer Abfrage, welche einen oder mehrere Abfragebegriffe enthält; und Ermitteln (40, 42, 44, 46, 48), wie oft mindestens einer der Abfragebegriffe im ersten Dokument innerhalb des lexikalischen Abstands des Bezugs zum zweiten Dokument vorkommt, um die Rangfolge (50) mehrerer Dokumente anhand der Häufigkeit des Vorkommens von Abfragebegriffen innerhalb des lexikalischen Abstands von Bezügen in den Dokumenten festzulegen.
Verfahren nach Anspruch 8, bei dem über ein Weitverkehrs-Computernetzwerk auf die Dokumente zugegriffen werden kann und der Bezug eine einheitliche Ressourcenliste (URL) enthält.
Verfahren nach Anspruch 9, bei dem der lexikalische Abstand anhand einer Abfrage festgelegt wird.
Verfahren nach Anspruch 9, bei dem das Verfahren ferner folgende Schritte umfasst: Empfangen (52) einer Gruppe „U“ von Dokumenten; Definieren (70) von Dokumenten in der Gruppe „U“ als Nachbardokumente „N(u)“ des mindestens einen Testdokuments „u“ in der Gruppe „U“, wobei diese Dokumente in der Gruppe „U“ mindestens einen Bezug auf das Testdokument „u“ enthalten; Ermitteln (76, 78) für den mindestens einen Dokumentbegriff in mindestens einem Nachbardokument „N(u)“, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs im Nachbardokument „N(u)“ zum Testdokument „u“ befindet; und Ausgeben (80) eines Signals als Reaktion auf das Mittel zum Ermitteln, ob sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs befindet.
Verfahren nach Anspruch 11, bei dem der Schritt zum Ausgeben (80) einen Zähler um eins höher setzt, welcher dem mindestens einen Dokumentbegriff zugeordnet ist, wenn sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines Bezugs zum Testdokument „u“ befindet.
Verfahren nach Anspruch 9, welches ferner Folgendes umfasst: ein computerlesbares Codemittel (52) zum Empfangen einer Gruppe „U“ von Dokumenten als Reaktion auf eine Abfrage, welche einen oder mehrere Abfragebegriffe enthält, wobei jedes Dokument einen oder mehrere Dokumentbegriffe enthält; und ein computerlesbares Codemittel (60, 62) zum Definieren eines Zusammenhangs zwischen mindestens einem ersten Dokument und mindestens einem Dokumentbegriff, wenn sich sowohl der Dokumentbegriff als auch ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffes in dem mindestens einen der Dokumente befinden.
Verfahren nach Anspruch 13, bei dem der Zusammenhang zu einem Gewicht hergestellt wird und das Gewicht darauf basiert, wie oft der Dokumentbegriff und ein Bezug auf das erste Dokument innerhalb eines vorgegebenen Abstands eines Abfragebegriffs in der Gruppe „U“ von Dokumenten vorkommen.
Computerprogramm, das in einer Speichervorrichtung gespeichert ist, welches durch eine digitale Verarbeitungsvorrichtung (12) gelesen werden kann, zum Ausführen von Computerprogrammanweisungen zum Durchführen der Schritte des Verfahrens nach einem der Ansprüche 8 bis 14.