-
GEBIET DER
ERFINDUNG
-
Die
vorliegende Erfindung betrifft allgemein das Abrufen von Daten und
insbesondere verfahren und eine Vorrichtung zum leistungsfähigen und
wirkungsvollen Abrufen von Hypertextdokumenten, z.B. aus dem World
Wide Web.
-
HINTERGRUND
DER ERFINDUNG
-
Das
als Internet bekannte Computer-Weitverkehrsnetz und insbesondere
der als World Wide Web bekannte Teil des Internet ermöglicht Benutzern den
Zugriff auf große
Datenmengen. Aus diesem Grund stehen den Benutzern zur Filterung
der Informationen aus dem Internet verschiedene Suchmaschinen durch
Eingabe von Abfragen zur Verfügung, wobei
sich die Suchmaschinen verschiedener Schemata bedienen, um als Antwort
auf die Abfragen Listen mit Websites auszugeben. Bei diesen Websites handelt
es sich im Allgemeinen um Dokumente in einem Computerspeicher, auf
welche ein Benutzer zugreifen kann, um Informationen über das
Thema der betreffenden Website zu erlangen.
-
Üblicherweise
verwenden Internetsuchmaschinen ähnlich
wie die meisten Computersuchverfahren eine Art Schlüsselwort-Suchstrategie, bei
welcher der Begriff oder die Begriffe einer durch den Benutzer eingegebenen
Abfrage auf bestimmte Weise mit Begriffen in Internetdokumenten
verglichen werden, um dann eine Liste der zugehörigen Websites an den abfragenden
Benutzer auszugeben. Die meisten Abfragen sind jedoch nur ein bis
drei Wörter lang
und damit normalerweise sehr weit gefasst. Das bedeutet, dass dieses
eine oder diese mehreren Wörter
in einer großen
Anzahl Websites enthalten sein können
und der Benutzer dann Hunderte und vielleicht sogar Tausende Dokumente
durchsuchen muss, wenn die Suchmaschine alle möglichen Kandidaten ausgibt.
-
Außerdem kann
es geschehen, dass als Antwort auf eine Abfrage diejenigen Websites,
die am besten zur Abfrage passen, gar nicht ausgegeben werden. Das
passiert besonders dann, wenn in der Abfrage Begriffe verwendet
werden, die in den zur der Abfrage am besten passenden Websites
nicht vorkommen. Zum Beispiel kommt der Begriff „Browser“ in den Websites für zwei der
aktuell verbreitetsten Browser überhaupt
nicht vor. Stattdessen decken die Websites das Thema mit anderen
Wörtern
ab und nicht mit dem Wort „Browser“. Folglich
erhält
ein Benutzer diese Websites nicht, wenn er das Wort „Browser“ in eine
Suchmaschine eingibt, die sich einer einfachen Schlüsselwort-Suchstrategie
bedient.
-
In
der vorliegenden Erfindung wird jedoch berücksichtigt, dass die Internetbenutzer
unbewusst einen kooperativen Beitrag leisten, wenn sie nach Internetdokumenten
suchen, sie durchlesen, durchsuchen und ihre Qualität bewerten.
Dieser Beitrag äußert sich
großenteils
in der Zusammenstellung der Webseiten insofern, als normalerweise
viele oder gar die meisten Webseiten andere als qualitativ hochwertig
eingeschätzte
Seiten beschreiben oder auf sie zeigen.
-
Eine
Webseite zeigt insbesondere mittels Hyperlinks auf andere Webseiten,
wobei es sich bei den Hyperlinks um Bezüge innerhalb eines ersten Dokuments
(d.h. in einer ersten Webseite) auf ein anderes Dokument (d.h. andere
Webseiten) handelt. Ein Hyperlink bietet einem Benutzer die Möglichkeit, durch „Anklicken“ des Hyperlinks
mittels einer Computermaus oder einer anderen Zeige- und Auswahlvorrichtung
unmittelbar auf eine andere Webseite zuzugreifen. Gemäß der vorliegenden
Erfindung kann man durch das Aufrufen von Webseiten eine Vielfalt von
Begriffen erschließen,
deren Zuordnung zu den aufgerufenen Webseiten gebräuchlich
ist, obwohl die Begriffe in den aufgerufenen Webseiten selbst nicht verwendet
werden. Folglich kann man die Abfrageergebnisse bei der Suche im
Internet verbessern, wenn man diese Begriffe verwendet. Die vorliegende
Erfindung geht ferner davon aus, dass man die vorliegenden Prinzipien
der wirksamen Verteilung von Merkmalen (in Form von Begriffen) über einen
Verweis auf ein Dokument (wie zum Beispiel über einen Hyperlink) nicht
nur auf das World Wide Web, sondern auf alle Arten verknüpfter Dokumente
wie zum Beispiel Patente, wissenschaftliche Veröffentlichungen, Artikel, Bücher, E-Mails
usw. anwenden kann.
-
Deshalb
besteht eine Aufgabe der vorliegenden Erfindung darin, ein Verfahren
und ein System zum Verteilen von Merkmalen über Hyperlinks bereitzustellen.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein
Verfahren und ein System zum Festlegen der Rangfolge von Dokumenten
in einer Gruppe von Dokumenten als Reaktion auf eine Abfrage bereitzustellen.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein
Verfahren und ein System zum Auffinden von Schlüsselwörtern in einer Gruppe von Dokumenten bereitzustellen. Noch
eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein
Verfahren und ein System zum Auffinden von Verknüpfungen zwischen Dokumentbegriffen
und Abfragethemen, welche durch einen oder mehrere Abfragebegriffe
repräsentiert
werden, in Dokumenten in einem Computerspeicher bereitzustellen.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein
Verfahren und ein System zur Internetsuche bereitzustellen, welche
benutzerfreundlich und kostengünstig
sind.
-
In
WO 9749048 A werden ein System und ein Verfahren zum Aufrufen von
Hypertextdokumenten beschrieben, bei dem Hypertextdokumente, auf die
in aufgerufenen Dokumenten verwiesen wird, mittels derjenigen Begriffe
indiziert und in eine Rangfolge gebracht werden, die in den auf
die Hypertextdokumente verweisenden Hyperlinks innerhalb der aufgerufenen
Dokumente enthalten sind.
-
In
EP 0 809 197 A wird
ein System zur Suche nach Hypertextdokumenten beschrieben, bei dem ein
Stammdokument und ein weiteres Dokument innerhalb einer Gruppe von
aufgerufenen Dokumenten einander zugeordnet werden, wenn ein Hyperlink
im Stammdokument auf das andere Dokument verweist und beide Dokumente
in der Suchabfrage dasselbe Schlüsselwort
enthalten. Die Häufigkeit
des Vorkommens jedes zugeordneten Dokuments wird berechnet und dient
zur Festlegung der Rangfolge der Gruppe der aufgerufenen Dokumente.
-
BESCHREIBUNG
DER ERFINDUNG
-
Die
Erfindung besteht in einem Universalcomputer, der entsprechend den
in der Erfindung beschriebenen Schritten so programmiert ist, dass
Dokumente in einer Dokumentengruppe als Reaktion auf eine Abfrage
in einer Rangfolge angeordnet werden. Die Erfindung kann auch als
Herstellungsartikel – etwa
als Maschinenkomponente – realisiert
werden, der durch eine Datenverarbeitungseinheit verwendet wird
und ein Programm aus Anweisungen selbst realisiert, die durch die
Datenverarbeitungseinheit ausgeführt
werden, um in Dokumenten im Computerspeicher Verknüpfungen
zwischen Dokumentbegriffen und Abfragethemen aufzufinden. Die vorliegende
Erfindung wird in einer kritischen Maschinenkomponente realisiert,
welche die Datenverarbeitungseinheit veranlasst, die in der Erfindung
beschriebenen Schritte auszuführen.
-
Gemäß der vorliegenden
Erfindung beinhaltet der Computer ein computerlesbares Codemittel zum
Erkennen eines Bezugs auf ein zweites Dokument in einem ersten Dokument.
Das computerlesbare Codemittel empfängt einen lexikalischen Abstand,
der eine Anzahl von Dokumentbegriffen definiert. Ferner enthält der Computer
ein computerlesbares Codemittel zum Empfangen einer einen oder mehrere
Abfragebegriffe enthaltenden Abfrage sowie ein computerlesbares
Codemittel zum Ermitteln, wie oft mindestens einer der Abfragebegriffe
im ersten Dokument innerhalb des lexikalischen Abstands zum zweiten
Dokument vorkommt, um die Rangfolge der zugehörigen Dokumente festzulegen.
-
Bei
einer Ausführungsart
kann man über
ein Weitverkehrs-Computernetz
auf die Dokumente zugreifen, bei dem die Bezüge in URLs (unified resource
locators, einheitliche Ressourcenadresse) bestehen. Der lexikalische
Abstand kann ausgehend von der Abfrage festgelegt werden.
-
Vorzugsweise
enthält
der Computer auch ein computerlesbares Codemittel zum Festlegen
der Rangfolge mehrerer Dokumente ausgehend davon, wie oft Abfragebegriffe
jeweils innerhalb von lexikalischen Abständen von Bezügen in den
Dokumenten vorkommen. Außerdem
enthält
der Computer ein computerlesbares Codemittel zum Empfangen einer Dokumentengruppe „U“. Das computerlesbare
Codemittel dient zum Definieren von Dokumenten in der Dokumentengruppe „U“, die mindestens
einen Bezug auf das Testdokument „u“ enthalten, als Nachbardokumente „N(u)“ bezüglich mindestens
eines Testdokuments „u“ in der
Gruppe „U“. Außerdem ermittelt das
computerlesbare Codemittel bezüglich
mindestens eines Dokumentbegriffs in mindestens einem Nachbardokument „N(u)“, ob sich
dieser mindestens eine Dokumentbegriff innerhalb eines vorgegebenen Abstands
(d.h. innerhalb einer vorgegeben Anzahl von Begriffen) eines Bezugs
im Nachbardokument „N(u)“ auf das
Testdokument „u“ befindet.
Das computerlesbare Codemittel der vorliegenden Erfindung gibt dann
als Reaktion auf das Mittel zum Ermitteln, ob sich der mindestens
eine Dokumentbegriff innerhalb eines vorgegebenen Abstands eines
Bezugs befindet, ein Signal aus. Das Ausgabemittel setzt einen dem
mindestens einen Dokumentbegriff zugehörigen Zähler um eins höher, wenn
sich der mindestens eine Dokumentbegriff innerhalb eines vorgegebenen
Abstands eines Bezugs auf das Testdokument „u“ befindet.
-
Zusätzlich zu
der oben beschriebenen Logik kann der Computer auch ein computerlesbares
Codemittel zum Empfangen einer Dokumentengruppe „U“ als Reaktion auf eine einen
oder mehrere Abfragebegriffe enthaltende Abfrage enthalten, wobei
jedes Dokument einen oder mehrere Dokumentbegriffe enthält. Es wird
ein computerlesbares Codemittel zum Definieren einer Korrelation
zwischen mindestens einem ersten Dokument und mindestens einem ersten
Dokumentbegriff bereitgestellt, wenn sich sowohl der erste Dokumentbegriff
als auch ein Bezug auf das erste Dokument innerhalb eines vorgegebenen
Abstands eines Abfragebegriffs befinden. Die Korrelation kann mit
einem Gewicht verknüpft
werden, wobei das Gewicht darauf beruht, wie oft sich der erste
Dokumentbegriff und ein Bezug auf das erste Dokument innerhalb eines
vorgegebenen Abstands eines Abfragebegriffs in der Dokumentengruppe „U“ befinden.
-
Gemäß einem
weiteren Aspekt umfasst eine Computerprogrammvorrichtung eine Computer-Programmspeichereinheit,
die durch eine Datenverarbeitungseinheit gelesen werden kann; und
ein Programmmittel in der Programmspeichereinheit, wobei das Programmmittel
durch die Datenverarbeitungseinheit ausführbare Instruktionen beinhaltet,
mittels derer Verfahrenschritte zum Auffinden von Schlüsselwörtern in
einer Dokumentengruppe ausgeführt
werden, und wobei das Verfahren folgende Schritte umfasst: Erkennen
eines Bezugs auf ein zweites Dokument in einem ersten Dokument;
Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand
eine Anzahl von Dokumentbegriffen definiert; Empfangen einer einen
oder mehrere Abfragebegriffe enthaltenden Abfrage; und Ermittlung,
wie oft sich mindestens einer der Abfragebegriffe in dem ersten Dokument
innerhalb des lexikalischen Abstands des Bezugs auf das zweite Dokument
befindet, um die Rangfolge der diesbezüglichen Dokumente festzulegen.
-
Die
Erfindung stellt des Weiteren ein Verfahren zum Festlegen der Rangfolge
von Dokumenten in einer Dokumentengruppe als Reaktion auf eine Abfrage
bereit, wobei das Verfahren die folgenden Schritte umfasst: Erkennen
eines Bezugs auf ein zweites Dokument in einem ersten Dokument;
Empfangen eines lexikalischen Abstands, wobei der lexikalische Abstand
eine Anzahl von Dokumentbegriffen definiert; Empfangen einer einen
oder mehrere Abfragebegriffe enthaltenden Abfrage; und Ermittlung,
wie oft sich mindestens einer der Abfragebegriffe in dem ersten
Dokument innerhalb des lexikalischen Abstands des Bezugs auf das
zweite Dokument befindet, um die Rangfolge der diesbezüglichen Dokumente
festzulegen.
-
Im
Folgenden wird die Erfindung lediglich anhand eines Beispiels und
unter Bezug auf die beiliegenden Zeichnungen beschrieben, in denen:
-
1 eine
schematische Darstellung des verwendeten Computersystems zum Verbreiten
von Dokumentmerkmalen über
Hyperlinks ist;
-
2 eine
schematische Ansicht eines Computerprogrammprodukts ist;
-
3 ein
Ablaufdiagramm der Logik zum Anlegen einer Liste von Websites ist,
die als Reaktion auf eine Abfrage ermittelt wurden;
-
4 ein
Ablaufdiagramm der Logik zum Ausgeben „qualitativ hochwertiger“ Seiten
aus einer als Reaktion auf eine Abfrage erzeugten Liste von Seiten
ist;
-
5 ein
Ablaufdiagramm ist, welches die Logik zum Auffinden deskriptiver
Begriffe (in der Beschreibung auch als Merkmale bezeichnet) über Hyperlinks
darstellt; und
-
6 ein
Ablaufdiagramm ist, welches die Logik zum Auffinden von Verknüpfungen
zwischen Dokumentbegriffen und Abfragethemen, die durch einen oder
mehrere Abfragebegriffe dargestellt werden, in Dokumenten im Computerspeicher
darstellt.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
1 zeigt
ein mit der Bezugsnummer 10 bezeichnetes System zum Auffinden
von deskriptiven Begriffen über
Hyperlinks. Bei der gezeigten bestimmten Architektur ist im System 10 eine
Datenverarbeitungseinheit wie zum Beispiel ein Computer 12 enthalten.
Bei einer vorgesehenen Ausführungsart kann
es sich bei dem Computer 12 um einen von International
Business Machines Corporation (IBM), Armonk, New York, hergestellten
Personal Computer oder um einen anderen Computer handeln, einschließlich solcher
unter Warenzeichen wie beispielsweise AS/400 vertriebener Computer
und der zugehörigen
IBM Netzwerkrechner. Beim Computer 12 kann es sich jedoch
auch um einen UNIX-Rechner, um einen OS/2-Server, einen Windows
NT-Server oder um
eine IBM RS/6000 250-Workstation mit 128 MB Hauptspeicher und dem
Betriebssystem AIX 3.2.5 oder um einen IBM Laptoprechner handeln. (UNIX
ist ein Warenzeichen von Open Group, AS/400, OS/2, RS/6000 und AIX
sind Warenzeichen von International Business Machines Corporation und
Windows NT ist ein Warenzeichen von Microsoft Corp.).
-
Der
Computer 12 greift auf eine Internet-Suchmaschine 14 zu.
Bei einer Ausführungsart handelt
es sich bei der Suchmaschine 14 um ein Produkt von Alta
Vista, jedoch können
auch andere Suchmaschinen verwendet werden. Die Suchmaschine 14 empfängt Abfragen
vom Computer 12 und gibt als Reaktion auf die Abfragen
an den Computer 12 eine Liste im Computer gespeicherter
Dokumente und insbesondere eine Liste von Websites 16 aus, mit
denen der Computer 12 über
den als World Wide Web 18 bekannten Teil des Internets
in Verbindung treten kann.
-
Außerdem hat
der Computer 12 ein Merkmalverbreitungsmodul 19,
welches durch einen Prozessor im Computer 12 als Folge
von computerlesbaren Anweisungen ausgeführt werden kann. Diese Anweisungen
können
zum Beispiel im Arbeitsspeicher (RAM, random access memory) des
Computers 12 gespeichert sein. Die beiliegenden Ablaufdiagramme
stellen die Struktur der Programmanweisungen dar, welche durch das
in der Computerprogrammsoftware realisierte Modul 19 der
vorliegenden Erfindung ausgeführt
werden. Dem Fachmann ist klar, dass die Ablaufdiagramme die Struktur
von Logikelementen wie zum Beispiel von Codeelementen in einem Computerprogramm
oder von elektronischen Logikschaltkreisen darstellen, die eine
Funktion gemäß der vorliegenden
Erfindung ausführen.
Es ist klar, dass die Erfindung in ihrer wesentlichen Ausführungsart
durch eine Maschinenkomponente realisiert wird, bei der die Logikelemente
so angeordnet sind, dass eine Datenverarbeitungseinheit (das heißt, ein
Computer) angewiesen wird, eine den dargestellten Schritten entsprechende
Folge von Funktionsschritten auszuführen.
-
Mit
anderen Worten, das Modul 19 kann ein Computerprogramm
sein, welches durch einen Prozessor im Computer 12 als
Folge durch einen Computer ausführbarer
Anweisungen ausgeführt
wird.
-
Alternativ
können
die Anweisungen in einer Datenspeichereinheit mit einem computerlesbaren Medium
wie zum Beispiel in einer Computerdiskette 20 gemäß 2 gespeichert
sein. In der Diskette 20 kann ein computerlesbares Medium
enthalten sein, in welchem die computerlesbaren Programmcodeelemente
A bis D elektronisch gespeichert sind. Die Anweisungen können jedoch
auch in einem DASD-Speicher, auf einem Magnetband, einer herkömmlichen
Festplatte, in einem elektronischen Nur-Lese-Speicher, einer optischen
Speichereinheit oder einer anderen geeigneten Datenspeichereinheit gespeichert
sein. Bei einer anschaulichen Ausführungsart der Erfindung können die
durch den Computer ausführbaren
Anweisungen aus Zeilen eines kompilierten Codes bestehen, der mit
der Programmiersprache C++ oder HTML (Hypertext Markup Language)
kompatibel ist.
-
1 zeigt
ferner, dass das System 10 in der Technik bekannte Peripherieeinheiten
einschließlich einer
Eingabeeinheit wie zum Beispiel einer Computertastatur 24 und/oder
einer Computermaus 25 enthält. Außer den dargestellten Eingabeeinheiten
können
jedoch auch weitere Eingabeeinheiten wie z.B. eine Rollkugel, ein
Tastenfeld, ein Berührungsbildschirm
oder eine Spracherkennungseinheit verwendet werden. Ferner wird
eine Ausgabeeinheit wie zum Beispiel ein Videomonitor 26 bereitgestellt.
Darüber
hinaus können
jedoch auch andere Ausgabeeinheiten wie zum Beispiel Drucker, andere
Computer usw. verwendet werden.
-
3 zeigt
die Logik der ersten Prozedur (im Folgenden als „Prozedur A“ bezeichnet),
welche durch das Modul 19 ausgeführt wird. Die Prozedur beginnt
in Kasten 28 mit dem Empfangen einer Benutzerabfrage, die
beispielsweise mittels der Tastatur 24 eingegeben wurde.
Die Benutzerabfrage besteht aus einem oder mehreren Abfragebegriffen,
wie zum Beispiel „high
mountains“.
-
In
Kasten 30 wird der lexikalische Abstand „1“ festgelegt.
Bei einer Ausführungsart
definiert der lexikalische Abstand „1“ ein aus einer ganzzahligen Anzahl
von Begriffen bestehendes Fenster, wie zum Beispiel „high mountains“. Der lexikalische
Abstand „1“ kann einen
festen Wert haben oder alternativ anhand der Anzahl der in der Abfrage
vorkommenden Begriffe festgelegt werden. Zum Beispiel kann der Wert
des lexikalischen Abstands „1“ umgekehrt
proportional zur Anzahl der Abfragebegriffe sein.
-
In
Kasten 32 wird die Abfrage zur Suchmaschine 14 gesendet.
Gemäß den der
Suchmaschine 14 zugrunde liegenden Prinzipien gibt diese
eine Liste mit Websites 16 zurück, welche die Abfragekriterien
erfüllen.
Die Liste wird in Form einer Ergebnismenge „R“ zurückgegeben und in Kasten 34 empfangen. Üblicherweise
wird die Ergebnismenge als Liste mit Websitenamen zurückgegeben,
die als URLs (Uniform resource locators, einheitliche Ressourcenadressen)
bezeichnet werden.
-
In
Kasten 36 wird die Ergebnismenge „R“ wie folgt durch die Logik
erweitert. Zuerst werden alle „s“ URLs,
in welchen Hyperlinks auf ein oder mehrere Elemente „r“ in der
Ergebnismenge „R“ vorkommen, zur
Ergebnismenge „R“ hinzugefügt. Auf
diese Weise wird in Kasten 36 ein Bezug in einem ersten
Dokument auf ein zweites Dokument erkannt.
-
Dann
werden in Kasten 38 alle „t“ URLs zur Ergebnismenge „R“ hinzugefügt, wobei
eine URL „t“ dadurch
gekennzeichnet ist, dass in der Ergebnismenge „R“ Hyperlinks von einem Element „r“ auf diese
URL vorkommen; die erweiterte Ergebnismenge wird dann mit „S“ bezeichnet.
Somit wird die Ergebnismenge „R“ in Kasten 36 und 38 zur
erweiterten Ergebnismenge „S“, indem
solche URLs hinzugefügt werden,
auf welche ein Hyperlink in einer URL in der Ergebnismenge „R“ verweist
oder welche mittels eines Hyperlinks auf eine URL in der Ergebnismenge „R“ verweisen.
-
Nach
Kasten 38 geht die Logik weiter zu Kasten 40,
wo für
jedes Dokument in der erweiterten Ergebnismenge „S“ eine „DO“-Schleife begonnen wird. Im Entscheidungsfeld 42 wird
ermittelt, ob sich einer der Abfragebegriffe innerhalb des lexikalischen Abstands
einer URL „u“ im betreffenden
Dokument befindet, d.h., ob sich ein Abfragebegriff im gerade geprüften Dokument
innerhalb des lexikalischen Abstands eines auf das u-te Dokument in der
erweiterten Ergebnismenge „S“ verweisenden
Hyperlinks befindet. Wenn dies der Fall ist, wird in Kasten 44 ein zum
u-ten Dokument in der erweiterten Ergebnismenge „S“ gehörender Zähler u um eins erhöht und dann
in Kasten 46 das nächste
Dokument aufgerufen. Auf diese Weise ermittelt die Logik, wie oft
einer der Abfragebegriffe in einem ersten Dokument innerhalb des
lexikalischen Abstands eines Bezugs auf das zweite Dokument vorkommt,
um daraufhin gemäß der folgenden
Beschreibung die Rangfolge der Dokumente festzulegen.
-
Wenn
das Prüfergebnis
im Entscheidungsfeld 42 negativ ist, geht die Logik sofort
weiter zu Kasten 46. Von Kasten 46 geht die Logik
weiter zum Entscheidungsfeld 48 und ermittelt, ob die „DO“-Schleife
beendet ist, und kehrt zum Entscheidungsfeld 42 zurück, wenn
dies nicht der Fall ist. Wenn die „DO“-Schleife jedoch beendet ist, kehrt der Prozess
zurück
zu Kasten 50 und gibt eine in abnehmender Reihenfolge der
Zählerwerte
geordnete Menge URLs zurück.
-
4 zeigt
eine Prozedur „B“ zum Neuordnen
der obersten „N“ URLs,
die von der Prozedur „A“ auf der
Grundlage der Wichtigkeit bestimmter darin enthaltener Begriffe
zurückgegeben
wurden. Zuerst wird in Kasten 52 eine Dokumentengruppe
empfangen. Bei dieser Gruppe kann es sich z.B. um die obersten „N“ (z.B. 20)
URLs handeln, die in Kasten 50 ausgegeben wurden. Für diese
Gruppe wird eine „DO“-Schleife
gestartet und in Kasten 54 eine Indexvariable „v“ gleich
der geprüften
URL gesetzt.
-
In
Kasten 56 werden alle (oder eine Teilmenge der) URLs „u“ ermittelt,
in denen auf die gerade geprüfte
URL „v“ verwiesen
wird (zum Beispiel, indem sie einen Hyperlink auf die gerade geprüfte URL „v“ enthalten).
Dann wird der gesamte Schlüsseltext in
den URLs abgerufen, der sich auf die Hyperlinks bezieht, welche
auf die gerade geprüfte
URL „v“ verweisen.
-
Unter „Schlüsseltext“ ist derjenige
Text zu verstehen, der direkt mit einem Hyperlink oder einem anderen
Bezug oder einer anderen Erwähnung
in einem Dokument verknüpft
ist. Zum Beispiel stellt in dem Text „One of the earliest high-energy
nuclear accelerators was built at <A HREF=“http://www.CERN.ch“>CERN, the European Laboratory
for Particle Physics</A> der Ausdruck “http://www.CERN.ch“ den Hyperlink
und der durch “<A>...<A>“ eingeschlossene
Text den Schlüsseltext dar.
Beim vorliegenden Beispiel mit einem lexikalischen Abstand von z.B.
fünf liegen
die Begriffe „nuclear
accelerators was built at“ innerhalb
des lexikalischen Abstands des Schlüsseltextes, während die Begriffe „One of
the earliest high-energy“ außerhalb des
lexikalischen Abstands des Schlüsseltextes
liegen.
-
Dann
wird in Kasten 60 für
jeden Abfragebegriff eine verschachtelte „DO“-Schleife gestartet. Anschließend wird
im Entscheidungsfeld 62 mittels eines aus einer Vielzahl
herkömmlicher
Statistikverfahren ermittelt, ob die Häufigkeit des gerade geprüften Abfragebegriffes
im gerade geprüften
Dokument größer als
die Häufigkeit
eines Bezugs in einer Bezugsgruppe des Schlüsseltextes ist.
-
Wenn
die Häufigkeit
des gerade geprüften Abfragebegriffes
im gerade geprüften
Dokument größer als
die Häufigkeit
des Bezugs ist, geht der Prozess weiter zu Kasten 64, um das gerade
geprüfte Dokument
als wichtig zu markieren. Wenn dies jedoch nicht der Fall ist, wird
das gerade geprüfte
Dokument nicht als wichtig markiert. In beiden Fällen kann jedes Dokument mit
einem Zähler
oder einem anderen Wert verknüpft
werden, der die Wichtigkeit des zuvor geprüften Dokuments anzeigt. Nach
Abschluss der oben erörterten „DO“-Schleifen
sind die „N“ obersten
URLs nach ihrer Wichtigkeit geordnet.
-
5 zeigt
die Logik einer Prozedur „C“ zum Auffinden
von deskriptiven Begriffen über
Hyperlinks. Zu Anfang wird in Kasten 68 eine Gruppe „U“ von URLs „u“ empfangen
und dann für
jede einzelne URL „u“ in der
Gruppe „U“ eine „DO“-Schleife
gestartet. In Kasten 70 wird die Gruppe N(u) der der gerade
geprüften
URL „u“ benachbarten
Dokumente ermittelt. Unter „benachbarten
Dokumenten“ ist
ein Dokument in der Gruppe „U“ von URLs
zu verstehen, welches einen auf das gerade geprüfte Dokument „u“ verweisenden
Hyperlink enthält.
Anders gesagt, unter der Gruppe N(u) benachbarter Dokumente kann
man diejenigen Dokumente verstehen, die auf das Dokument „u“ verweisen.
-
In
Kasten 72 wird für
jedes Element (d.h. für jeden
Dokumentbegriff) in der Gruppe N(u) benachbarter Dokumente eine
verschachtelte „DO“-Schleife gestartet.
In Kasten 74 wird jedem Begriff in der Gruppe N(u) benachbarter
Dokumente ein Zähler
zugewiesen. Dann wird eine zweifach verschachtelte „DO“-Schleife
gestartet. Im Entscheidungsfeld 76 wird dann ermittelt,
ob sich der gerade geprüfte
Begriff innerhalb eines vorgegebenen Abstands eines Bezugs (z.B.
Hyperlinks) auf das gerade geprüfte
Dokument „u“ befindet.
Bei diesem vorgegebenen Abstand kann es sich um den oben erörterten
lexikalischen Abstand handeln. Wenn sich der gerade geprüfte Begriff
innerhalb des vorgegebenen Abstands eines Bezugs auf das gerade
geprüfte
Dokument „u“ befindet,
wird der Zähler
des Begriffs in Kasten 78 um eins erhöht. Wenn dies nicht der Fall
ist, wird der Zähler
nicht erhöht.
Nachdem alle Begriffe aller benachbarten Dokumente in der Gruppe
N(u) benachbarter Dokumente, die allen Dokumenten „u“ in der
Dokumentengruppe „U“ benachbart
sind, wie oben beschrieben geprüft
worden sind, geht die Logik weiter zu Kasten 80, um die
Begriffe nach ihren jeweiligen Zählerwerten
zu sortieren und die sortierte Liste auszugeben.
-
Gemäß der vorliegenden
Erfindung wird am Ausgang von Kasten 80 eine geordnete
Liste von Begriffen in der Dokumentengruppe „U“ ausgegeben. Diese geordnete
Liste kann dazu verwendet werden, dem Benutzer weitere Abfragebegriffe
vorzuschlagen. Ferner kann sie in einem ständig aktualisierten Verknüpfungsthesaurus
verwendet werden. Außerdem
kann die von Kasten 80 ausgegebene Liste dazu verwendet
werden, bei zahlreichen Suchmaschinen in einem Nachverarbeitungsschritt
Gruppen von durch Hyperlinks verknüpften Dokumenten oder Gruppen
von Begriffen mit Anmerkungen zu versehen.
-
6 zeigt
die Logik einer Prozedur „D“ zum Auffinden
von Verknüpfungen
zwischen Dokumentbegriffen und Abfragethemen, die durch einen oder mehrere
Abfragebegriffe dargestellt werden, in Dokumenten in einem Computerspeicher.
Zuerst wird in Kasten 82 eine Abfrage „Q“ empfangen. Die Abfrage „Q“ besteht
aus einem oder mehreren Abfragebegriffen „q“.
-
In-Kasten 84 wird
die Abfrage an die Suchmaschine weitergeleitet, und als Reaktion
auf die Abfrage wird von der Suchmaschine eine Dokumentenliste empfangen.
In Kasten 86 wird ein zweiteiliger Graph G = ((T,U),E)
konstruiert, dessen Scheitelpunkte die in Kasten 84 zurückgegebenen
Begriffe (T) und Dokumente (U) darstellen, wobei T und U jeweils
einen Dokumentbegriffzweig bzw. einen URL-Zweig des zweiteiligen
Graphen darstellen und E die Grenzlinien zwischen den Zweigen darstellt.
-
In
Kasten 88 wird für
jedes Dokument eine „DO“-Schleife
gestartet. In Kasten 90 wird das Dokument auf URLs „u“ und Abfragebegriffe „q“ durchsucht.
In Kasten 92 wird für
jeden Dokumentbegriff „t“ und jede
URL „u“ innerhalb
eines vorgegebenen Abstands eines Abfragebegriffes „q“ eine „DO“-Schleife gestartet,
in welcher in Kasten 94 das Gewicht der Grenzlinie (t,u)E
um eins erhöht
wird. Wenn bei dieser Logik sowohl ein Dokumentbegriff als auch
ein Dokumentname oder eine Erwähnung
(in Form eines Hyperlinks) in einem Dokument innerhalb eines vorgegebenen
Abstands eines Abfragebegriffes gefunden werden, sendet die Logik
ein Signal, welches eine Verknüpfung
zwischen dem Dokumentbegriff und dem Abfragethema anzeigt.
-
Wenn
gewünscht,
kann die „DO“-Schleife auch
zu Kasten 96 weitergehen und dort eine Einzelwertzerlegung
(single value decomposition, SVD) einer durch die Grenzlinien E:ai,j definierten Matrix vornehmen, wobei ai,j das Gewicht der Grenzlinie vom i-ten
Begriff zur j-ten URL darstellt. Wie in der Technik bekannt, wird
durch die Einzelwertzerlegung in Kasten 96 eine Faktorzerlegung
A = U SV erreicht, wobei S eine die Einzelwerte von A enthaltende
Diagonalmatrix ist und U und V Orthogonalmatrizen zum Ausführen von
Orthogonaltransformationen sind. Ein in der Technik als Latente
Semantische Indizierung (Latent Semantic Indexing, LSI) bekanntes
Verfahren, wie es in der US-Patentschrift 4 839 853 beschrieben wird,
kann zur Vorbearbeitung des Stammtextes und insbesondere zur Faktorzerlegung
der Dokumentbegriffmatrix A als USV verwendet werden, wobei U die lineare
Projektion vom Begriffsraum auf den so genannten LSI- oder Konzeptraum
liefert. Hierfür
reichen einige wenige hundert LSI-Dimensionen „k“ aus.
-
Bei
der LSI-Suche wird jedoch die Matrix U nicht verwendet, während die
vorliegende Erfindung die Matrix U wie folgt verwendet. Jeder Begriff
wird im LSI-Raum abgebildet, indem jedes Dokument durch eine Folge
k-dimensionaler Vektoren dargestellt wird. Die Abfrage selbst wird
in eine kurze Folge solcher Vektoren umgewandelt. Dann werden die
Dokumente durchsucht, und die Logik versucht die Abfragevektoren
mit einem kleinen Fenster von Vektoren in den Dokumenten in Übereinstimmung
zu bringen. Wenn eine wenig aufwendige (d.h. „gute“) Übereinstimmung gefunden wird,
erhalten nahe liegende Erwähnungen,
d.h. Hyperlinks, eine starke Bewertung. Der Aufwand kann mittels
einer Minimalaufwand-Vergleichsstrategie ermittelt werden, bei der
sich die Grenzkosten zum Ermitteln der Übereinstimmung zwischen den
Vektoren, die den Begriffen t1 und t2 entsprechen, aus dem Abstand zwischen ihren
Projektionen in U ergeben. Zum Beispiel kann die Abfrage „auto makers“ ohne großen Aufwand
mit der Textpassage „companies
making cars“ in Übereinstimmung
gebracht werden, indem Erwähnungen
berücksichtigt
werden, die solchen ähnlichen
Passagen näher
kommen.
-
Im
Gegensatz zum LSI-Verfahren wird bei der vorliegenden Erfindung
für jedes
Dokument eine Folge von LSI-Vektoren gespeichert. Mit anderen Worten,
im Gegensatz zum LSI-Verfahren
berücksichtigt
die vorliegende Erfindung die Übereinstimmung
von LSI-Vektorfolgen und das Gewicht benachbarter Erwähnungen.
-
Wenn
gewünscht,
kann der Prozess in Kasten 98 dem Benutzer Suchbegriffe vorschlagen.
Um diese vorzuschlagenden Begriffe zu ermitteln, sortiert die Logik
die Begriffe mit Überständen am
linken Vektor (d.h. in der ersten Spalte von „U“) der in Kasten 96 ermittelten
SVD in absteigender Reihenfolge. Die „k“ obersten Begriffe in der
sortierten Liste werden dann in Kasten 98 zurückgegeben,
wobei „k“ ein vorgegebener
ganzzahliger Wert, z.B. fünf,
ist.