DE10029644A1 - Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine - Google Patents
Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels SuchmaschineInfo
- Publication number
- DE10029644A1 DE10029644A1 DE10029644A DE10029644A DE10029644A1 DE 10029644 A1 DE10029644 A1 DE 10029644A1 DE 10029644 A DE10029644 A DE 10029644A DE 10029644 A DE10029644 A DE 10029644A DE 10029644 A1 DE10029644 A1 DE 10029644A1
- Authority
- DE
- Germany
- Prior art keywords
- document
- documents
- phase
- query
- relevance value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Die Erfindung bezieht sich auf ein Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine, welches in drei Phasen abläuft. In der Aufbauphase liefert das Robotersystem Hypertext-Dokumente an den Indexserver. Der Indexserver analysiert den Inhalt der Dokumente nach drei unterschiedlichen Gesichtspunkten. In der Aktualisierungsphase werden Dokumente, deren Inhalte sich seit dem letzten Besuch verändert haben, zunächst aus dem Dokumentenindex entfernt. Die betreffenden Termeinträge werden aktualisiert. Sofern das veränderte Dokument weiterhin verfügbar ist, wird entsprechend den Arbeitsschritten der Aufbauphase in den Index eingefügt. In der Anfragephase werden in Abhängigkeit vom verwendeten Anfragetyp (einfache Anfrage, komplexe Anfrage, Boolsche Anfrage oder Phrasenanfrage) aus dem Index die Dokumente ermittelt, die auf die Anfrage zutreffen. Für jedes gefundene Dokument wird der eigentliche Relevanzwert aus den vorausberechneten Relevanzwertanteilen, der zum Anfragezeitpunkt vorliegenden Anzahl an Verweisen auf das Dokument und der Gesamtanzahl der Dokumente im Index zum Relevanzwert des Dokuments verrechnt.
Description
Konventionelle Suchmaschinen arbeiten in der Regel auf dem Prinzip der Volltextindexie
rung. Bei der Volltextindexierung wird pro Dokument die Häufigkeitsverteilung von Beg
riffen des Dokuments oder eines Teils des Dokuments in einem invertierten Index erfasst.
Dieser Index wird benutzt, um zum Anfragezeitpunkt die Dokumente zu bestimmen, in
denen die gesuchten Begriffe auftreten. Des weiteren wird an Hand einer system
spezifischen Relevanzbewertungsfunktion für jedes Dokument ein Relevanzwert ermittelt.
Auf der Basis der Relevanzwerte werden die Ergebnisdokumente anschließend sortiert aus
gegeben.
Wesentlich hierbei ist die Tatsache, dass zur Bewertung nur die Begriffe herangezogen
werden, die auch im Dokument auftreten.
Bei der Relevanzwertberechnung können bestimmte Elemente des Dokuments stärker ge
wichtet werden als der normale Textinhalt. Hierzu zählen:
- - Meta-Informationen, insbesondere werden Inhalts-beschreibende Stichworte ausge wertet
- - Titel und Überschriften
- - Die ersten Zeilen eines Dokuments
- - Anzahl der Verweise auf das Dokument
- - Ankertexte von Verweisen auf andere Dokumente
- - Abstand zwischen Begriffen
- - Phrasen
Die Ermittlung des Relevanzwertes erfolgt auf der Basis der relativen Häufigkeiten der
Begriffe mit Hilfe von Informations-theoretischen Methoden. Kurze Dokumente, in denen
die gesuchten Begriffe häufig auftreten, werden als relevanter bzgl. der angefragten Begrif
fe bewertet als längere Dokumente oder Dokumente, in denen die gesuchten Begriffe selte
ner auftreten. Entsprechend der informations-theoretischen Betrachtungsweise werden sel
tene Begriffe - bezogen auf den gesamten Dokumentenbestand - stärker gewichtet als Beg
riffe, die im gesamten Dokumentenbestand häufiger auftreten.
Verbunden mit diesem Ansatz sind folgende Probleme:
- - Reine Volltextindexierung wurde für kleine, kontrollierte Dokumentenmengen konzi piert, die nicht notwendigerweise als verknüpfter Hypertext ausgelegt sind. Eine Über nahme der Volltextindexierung für Hypertexte (wie z. B. das World-Wide-Web (WWW) oder Web-basierte Intranets) nutzt die in den - in Hypertexten verwendeten - Verweisen kodierte Information nicht aus.
- - Es können lediglich Begriffe gesucht werden, die in den Dokumenten selber auftreten, bzw. für die mit Hilfe eines Thesaurus synonyme Begriffe bestimmt werden können, die in den Dokumenten auftreten.
- - Das Vorkommen von Begriffen einer Anfrage in einem Dokument sagt in der Regel wenig bzgl. der Relevanz des Dokuments bezogen auf die Anfrage aus, da die Bedeu tung der Begriffe nicht erfasst wird und damit auch keine Aussagen über die Bedeutung des gesamten Dokuments möglich sind. Um dieses Defizit auszugleichen, wurden An sätze entwickelt, bei denen die Dokumentautoren die Bedeutung des Dokuments in Form von Meta-Beschreibungen annotieren und bei denen das Vorkommen der ge suchten Begriffe in den Meta-Beschreibungen stärker gewichtet wird und so zu einem höheren Relevanzwert führt.
- - Der Dokumentenautor wird nicht alle möglichen Bedeutungen des Dokuments erfassen und somit wird das Dokument nur für die vom Dokumentenautor erfassten Bedeutun gen als relevanter betrachtet werden als andere Dokumente.
- - Durch die höhere Gewichtung der Meta-Beschreibungen ist die Relevanzbewertung bei unkontrollierten Dokumentenmengen offen für Manipulationen - als Spamming be zeichnet -, da die Dokumentenautoren willkürliche Begriffe in den Meta- Beschreibungen verwenden können.
Ein bekanntes Verfahren zur Relevanzbewertung bei der Indexierung von Texten basiert
auf dem Lycos System. Bei dieser Lösung, die einer der ersten kommerziellen Suchma
schinen des WWW zugrunde liegt, wurden neben einer eingeschränkten Volltextindexie
rung, die lediglich die hundert "wichtigsten" Begriffe des Dokuments indexierte, zwei neue
Konzepte eingeführt. Erstens, wurden Begriffe die in speziell ausgezeichneten Dokument
teilen auftraten (wie z. B. Titel, Überschriften, den ersten 20 Zeilen des Dokuments) bei der
Relevanzbewertung stärker gewichtet als bei ihrem Auftreten in anderen Bestandteilen des
Dokuments. Zweitens, floss in die Relevanzbewertung eines Dokuments bzgl. der Suchan
frage zum erste Mal eine Information über die "Dokumentenumgebung" in Form der "An
zahl der externen Verweise auf das Dokument" - als Popularität bezeichnet - mit ein, so
dass Ergebnisdokumente, auf die sehr oft von anderen Dokumenten aus verwiesen wird, als
"relevanter" betrachtet werden als Dokumente, auf die seltener verwiesen wird (Mauldin
97).
Die "Anzahl der externen Verweise auf ein Dokument" kann als eine Form eines "citation
index" betrachtet werden, mit dem zwar in einigen Fällen die Qualität des Suchergebnisses
verbessert werden kann, welches aber nicht in allen Fällen funktioniert. So werden bei
spielsweise bei einer Suche mit Lycos nach den Begriffen "Deutsche Telekom" ältere Pres
severöffentlichungen als "populärer" betrachtet als die Homepage der Deutschen Telekom,
auf die mit großer Wahrscheinlichkeit weitaus öfter verwiesen werden dürfte. Insofern er
scheint die veröffentlichte Aussage über die Berücksichtigung der Popularität als fragwür
dig.
Darüber hinaus werden hierdurch Meta-Beschreibungen des Inhalts nur im Rahmen der
Methoden der eingesetzten eingeschränkten Volltextindexierung berücksichtigt.
Bekannt ist weiterhin ein mit Rankdex bezeichnetes Verfahren. Mit Rankdex wurde eine
erste experimentelle Implementierung (http://rankdex.gari.com/) einer neuen Relevanzbe
wertungsfunktion veröffentlicht, welche auf dem Prinzip des "Hyper Vektor Votings"
(HVV) basiert (Li 98). Bei dieser Bewertungsmethode werden sowohl die Popularität als
auch die "Texte - als Ankertexte bezeichnet -, die in externen Verweisen auf ein Dokument
verwendet werden" berücksichtigt, so dass "Dokumente, auf die häufig mit den gesuchten
Begriffen verwiesen wird" als relevanter betrachtet werden als "Dokumente, auf die selte
ner mit den gesuchten Begriffen verwiesen wird". Der Inhalt der Dokumente wird bei die
ser Methode - bis auf die Ankertexte nicht berücksichtigt.
Diesem Verfahren liegt die Beobachtung zu Grunde, dass Dokumentautoren, die auf ein
anderes Dokument verweisen, den Verweis in den meisten Fällen mit einer kurzen und sehr
prägnanten Beschreibung versehen, die den Inhalt des Dokuments, auf das verwiesen wird,
sehr gut beschreibt, so dass der verwendete Ankertext als Meta-Beschreibung betrachtet
werden kann. Wird beispielsweise ein Verweis mit den Begriffen "Deutsche Telekom" ver
sehen, so wird man durch den Verweis in den meisten Fällen auf die Homepage der Deut
schen Telekom verwiesen werden.
Die Meta-Beschreibungen der Ankertexte werden in der Regel von einer Vielzahl von Au
toren erzeugt, wobei diese durchaus auch alternative Begriffe in den Ankertexten verwen
den werden. So ist es beispielsweise möglich, dass auf die "Homepage" der Deutschen Te
lekom im WWW auch mit den Ankertexten "Homepage der Deutschen Telekom", "Deut
sche Telekom AG", "Telekom", "German Telekom" etc. verwiesen wird. All diese Anker
texte können als alternative Meta-Beschreibungen betrachtet werden.
Die Gefahr des Spammings ist zwar auch bei diesem Ansatz gegeben, da prinzipiell ein
Dokumentautor durch die gezielte Verwendung von bestimmten Ankertexten die Rele
vanzbewertungsfunktion manipulieren kann. Dennoch ist der Einfluss dieser Form des
Spammings auf die Relevanzbewertungsfunktion jedoch vergleichsweise gering, da sie
durch die Anzahl und Art der Ankertexte, die von anderen Autoren verwendet werden, ni
velliert wird.
Mit dieser Form der Relevanzbewertung ist es darüber hinaus möglich, auch Dokumente zu
finden, in denen die Suchbegriffe selber nicht auftreten, die aber mit den Suchbegriffen
beschrieben werden können. Des Weiteren können auch Dokumente in anderen Sprachen
gefunden werden, bzw. Dateien mit nicht-textuellem Inhalt, wie z. B. Bild-, Audio-, Video-,
oder Archivdateien oder ausführbare Programme.
Der Rankdex Ansatz ist jedoch dadurch beschränkt, dass er den eigentlichen Inhalt der Do
kumente nicht berücksichtigt.
Bei Rankdex handelt es sich um eine experimentelle Implementierung einer Suchmaschine,
die auf HVV basiert. Zu Testzwecken wurden bei diesem Experiment 19975.3 Millionen
Internetseiten gesammelt und ein Index von rund 100 MB aufgebaut. Durch einen Vergleich
mit anderen Suchmaschinen konnte nicht nur die Qualität der Ergebnisse unter Beweis ge
stellt werden, es konnten ebenfalls die Vorteile und die der bereits oben beschriebene
Nachteil identifiziert werden. Rankdex konnte bisher nicht inspiziert oder getestet werden,
da die publizierte URL http://rankdex.gari.com/ bisher nicht zugreifbar war.
Mit dem Ansatz von Google (Bryn & Page, 98) wurde eine Methode vorgestellt, mit der die
Nachteile reiner Volltextindexierung, der alleinigen Beurteilung der Popularität und der
Ankertexte behoben wurden.
Der mit Google vorgestellte Ansatz beruht darauf, dass alle zu verarbeitenden Dokumente
aus dem WWW geladen und lokal gespeichert werden. Aus diesen Dokumenten wird die
topologische Verweisstruktur extrahiert und ebenfalls gespeichert. Mit einer Bewertungs
funktion wird der "sogenannte PageRank" mit Hilfe eines in mehreren Durchläufen kon
vergierenden, iterativen Algorithmus berechnet. Der PageRank eines Dokuments errechnet
sich aus den PageRanks "aller Dokumente, die auf das Dokument verweisen" und betrach
tet lediglich die topologische Verweisstruktur und nicht den Inhalt der Dokumente. Da eine
Rückwärtsverfolgung von Verweisen im WWW nicht möglich ist, kommt dieser Ansatz
nicht umhin, alle Dokumente - resp. einen Großteil - zunächst zu laden und die topologi
sche Verweisstruktur lokal zu speichern, bevor mit der Berechnung des PageRanks begon
nen werden kann.
Bedingt durch die lokale Speicherung der Dokumente und der topologischen Verweis
struktur wird viel Speicherplatz benötigt.
Die Berechnung des PageRanks erfolgt dann selber in einem Stück, so dass der verwendete
Algorithmus als "kompilierend" bezeichnet werden kann. (Bryn & Page 98) schreiben "a
PageRank of 26 million web pages can be computed in a few hours". Zusammen mit einem
anderen Prozess - als Sorter bezeichnet -, der rund 24 Stunden für die Sortierung dieser
Datenmenge benötigt, benötigt der Aktualisierungsprozess von 26 Mio. Dokumente des
Indexes demnach weit mehr als 24 Stunden. Wie dies zu der zuletzt geschätzten Indexgröße
von rund 190 Mio. Dokumenten skaliert, und ob dies weiter optimiert wurde, ist unbekannt.
Zwar terminiert die Berechnung des PageRanks bei den Dokumenten, auf die von keinem
anderen Dokument aus verwiesen wird, so dass deren PageRank prinzipiell als konstant
betrachtet werden könnte. Das garantiert aber nicht, dass nicht irgendwann doch auf die
Dokumente verwiesen wird, so dass die Berechnung des PageRanks bei einer Aktualisie
rung auch für diese Dokumente immer von Neuem erfolgen muss.
Bedingt durch den kompilierenden Ansatz bei der PageRank Berechnung kann eine Aktua
lisierung des Indexes nur in zeitlich größeren Abständen erfolgen.
In die eigentliche Berechnung des Relevanzwerts der Suchergebnisse fließen neben dem
PageRank und den Standardmaßen des Information Retrievals weitere Informationen ein,
wie z. B. das Vorkommen der Suchbegriffe im Titel, in Ankertexten, URLs oder speziell
ausgezeichneten Textteilen und - bei Mehrwortanfragen - die Nähe zwischen den Vor
kommen der einzelnen Begriffe. Wie diese Informationen miteinander verknüpft werden,
ist nicht bekannt.
Bei Google handelt es sich um eine Internetsuchmaschine, die aus einem Projekt der Stan
ford University hervorging, welches 1998 in der Gründung der Firma Google, Inc. mündete.
Aus der Zeit vor der Firmengründung sind detailliertere und publizierte Informationen
über Google bekannt.
Bei Google werden wie bei Rankdex Ankertexte gesondert bewertet. Hierbei liegt der Un
terschied der Verfahren, neben der gesonderten Bewertung anderer Textkomponenten, in
der Bewertungsfunktion. Zwar wurde für Google diese Bewertungsfunktion nicht im Detail
veröffentlicht, dennoch ist bekannt, dass sie neben dem Dokumentinhalt auch die Positio
nen der gesuchten Begriffe im Dokument, Formatierungsinformationen, Ankertexte und
den PageRank des Dokuments miteinander kombiniert.
Der PageRank eines Dokuments ist ein globaler Wert, der unabhängig vom Inhalt allein aus
der topologischen Struktur des WWWs bestimmt wird und als "Zitierungsgrad" interpre
tiert werden kann. Vereinfacht gesprochen erhalten Dokumente, auf die von "wichtigen"
Dokumenten verwiesen wird, einen höheren PageRank als Dokumente, auf die von "un
wichtigen" Dokumenten verwiesen wird. Je öfter auf ein Dokument verwiesen wird, desto
"wichtiger" wird es eingestuft.
Der PageRank kann allein aus der topologischen Struktur, der Anzahl der Verweise und
dem PageRank anderer Dokumente bestimmt werden. Zur Berechnung des PageRank eines
Dokuments wird der PageRank aller Dokumente verwendet, die auf das Dokument verwei
sen. Zur korrekten Berechnung des rekursiv definierten PageRanks eines Dokuments muss
somit der PageRank der auf sie verweisenden Dokumente bekannt sein.
Hieraus ergibt sich konsequenterweise der Schluss, dass bei einer Änderung des PageRanks
eines Dokuments nicht nur dessen PageRank aktualisiert werden muss, sondern auch der
PageRank aller von diesem Dokument aus erreichbaren Dokumente. Im schlimmsten Fall
muss bei der Änderung eines Dokuments der PageRank aller Dokumente des Index neu
berechnet werden.
Für Google wurde nicht beschrieben, wie die Bewertungsfunktion die einzelnen bewerteten
Informationen kombiniert. Insofern ist auch unklar, wie Informationen aus dem Ankertex
ten mit dem PageRank kombiniert werden. Den Publikationen über Google kann entnom
men werden, dass eine Änderung von Dokumenten zwar permanent in den Index aufgenommen
wird, die Berechnung des PageRanks und die Sortierung des Index jedoch in einer
Stapelverarbeitung (Batch-Lauf) erfolgt, die allein für die parallele Sortierung von 24 Mio.
Dokumenten auf vier Rechnern rund 24 Stunden benötigt. Hieraus ergibt sich die Folge
rung, dass ein Index-Update als Stapelverarbeitung durchgeführt wird, und somit Index
aktualisierungen nur in zeitlich größeren Abständen erfolgen.
Die Erfindung ist auf ein Relevanzbewertungsverfahren ausgerichtet, dass eine bessere und
aktuellere Indexierung von Hypertext-Dokumenten ermöglicht.
Grundlage des erfindungsgemäßen Verfahrens ist eine Suchmaschine, die nachfolgend mit
"TeleFinder" bezeichnet wird.
Die Suchmaschine TeleFinder besteht so wie die meisten bekannten Suchmaschinen, im
Wesentlichen aus zwei Komponenten, einem Robotersystem inklusive Datenbank und ei
nem Indexserver inklusive Benutzeroberfläche.
Das Robotersystem lädt ausgehend von Startadressen Dokumente, durchsucht sie auf bisher
unbekannte Dokumentadressen und übergibt die Dokumente dem Indexserver. Ausgehend
von den neuen, unbekannten Adressen werden die korrespondierenden Dokumente geladen
und der Zyklus erneut durchlaufen, bis alle erreichbaren Dokumente verarbeitet wurden.
Der Indexserver analysiert den Inhalt der Dokumente und baut einen invertierten Index auf,
welcher für die Anfragebearbeitung benutzt wird. Wie bei jeder anderen Suchmaschine
auch, wird die Qualität der Suchergebnisse durch die Inhalte der Dokumente, die Berück
sichtigung ausgewählter Strukturelemente und insbesondere auch durch die verwendete
Berechnungsfunktion bestimmt.
Das erfindungsgemäße Relevanzbewertungsverfahren für den Indexierungsvorgang des
TeleFinders basiert auf der Grundidee die aus dem "Hyper Vector Voting" (HVV) bekannte
Verfahrensweise der Ermittlung des Relevanzwertes eines Dokumentes anhand der Anker
texte von Verweisen, die auf das Dokument verweisen, mit der aus der konventionellen
Volltextindexierung bekannten Verfahrensweise, die auf der Indexierung von Suchbegriffen
aus dem eigentlichen Dokument basiert, zu kombinieren. Das erfindungsgemäße Ver
fahren bewirkt eine neue Qualität bei der Suche nach relevanten Dokumenten, da es die
positiven Eigenschaften des Hyper Vector Voting Verfahrens mit den positiven Eigen
schaften des Verfahrens der konventionellen Volltextindexierung in einem neuen Verfahren
vereinigt.
Gegenüber herkömmlicher Volltextindexierung fließen durch die besondere Berücksichti
gung und Gewichtung von Ankertexten (der Texte, mit denen die Verweise auf ein Doku
ment versehen werden) in die Gesamtbewertung auch Inhaltsbeschreibungen ein, die von
anderen Dokumentenautoren erstellt wurden. Die Ankertexte, die meist sehr prägnant und
präzise den Inhalt des referenzierten Dokuments beschreiben, bilden so eine Form von
Meta-Beschreibung, die bei der Bewertung berücksichtigt wird.
Zur Relevanzbewertung benutzt der TeleFinder ein Relevanzbewertungsverfahren, welches
durch Gewichtung unterschiedlicher Anteile der Funktion parametrisiert werden kann. Un
terschiedlich gewichtet werden kann so der Einfluß der folgenden Dokumentenbestandteile
auf den Gesamtrelevanzwert:
- - Titel
- - Überschriften unterschiedlicher Gliederungsebenen
- - Phrasen
- - Phrasen in Ankertexten
- - Texte in Verweisen auf das Dokument
- - Texte in Verweisen innerhalb des Dokuments
- - Dokumentadressen
Durch unterschiedliche Gewichtung dieser Elemente ist die Relevanzbewertungsfunktion
selber konfigurierbar.
Das erfindungsgemäße Relevanzbewertungsverfahren läuft in drei Phasen ab. Die drei
Phasen müssen dabei nicht notwendigerweise sequentiell ablaufen.
In der ersten Phase, die mit Aufbauphase bezeichnet wird, liefert das Robotersystem Hy
pertext-Dokumente an den Indexserver. Der Indexserver analysiert den Inhalt der Doku
mente nach drei unterschiedlichen Gesichtspunkten:
- 1. Werden Verweise in dem Dokument identifiziert, so wird für jede aus diesen Verwei sen bestimmbare Adresse ein neuer Dokumenteneintrag im Index angelegt, sofern ein solcher noch nicht existiert. Ansonsten wird der Dokumenteneintrag entsprechend aktu alisiert. Für die in den Verweisen verwendeten Begriffe der Ankertexte werden neue Termeinträge im Index angelegt, sofern diese noch nicht existieren. Ansonsten werden die entsprechenden Termeinträge aktualisiert. Für jeden Begriff des Ankertextes wird entsprechend einer Gewichtung ein partieller Relevanzwert vorausberechnet.
- 2. Werden speziell markierte Textinhalte (z. B durch die HTML Auszeichnungen Titel, H1, H2 oder H3 markiert) in dem Dokument identifiziert, wird für jeden Begriff, der in diesen markierten Textinhalten verwendet wird, ein neuer Termeintrag im Index ange legt, sofern dieser noch nicht existiert. Ansonsten werden die entsprechenden Termein träge aktualisiert. Für jeden identifizierten Begriff wird entsprechend der Gewichtung der Markierung ein partieller Relevanzwert vorausberechnet.
- 3. Für jeden anderen nicht-markierten Textinhalt wird ein neuer Termeintrag im Index angelegt, sofern dieser noch nicht existiert. Ansonsten wird der entsprechende Term eintrag aktualisiert. Für jeden dieser Begriffe wird ein partieller Relevanzwert voraus berechnet.
In der zweiten Phase, die als Aktualisierungsphase bezeichnet wird, werden Dokumente
deren Inhalte sich seit dem letzten Besuch verändert haben, zunächst aus dem Dokumen
tenindex entfernt. Die betreffenden Termeinträge werden aktualisiert. Sofern das veränderte
Dokument weiterhin verfügbar ist, wird es entsprechend den Arbeitsschritten der Aufbau
phase in den Index eingefügt.
Diese Verfahrensweise hat u. a. den Vorteil, dass ein Dokument - solange es sich nicht ver
ändert hat - nur einmal über das Netz von einem anderen Server geladen werden muss, und
dass es nicht lokal gespeichert werden muss. Darüber hinaus ermöglicht diese Verfahrens
weise auch Verweise auf Dokumente in den Index aufzunehmen, deren zugehörige Doku
mente selber noch nicht geladen und analysiert wurden.
Darüber hinaus wird durch die partielle Vorausberechnung der Relevanzwerte die Bestim
mung des Relevanzwerts zum Anfragezeitpunkt minimiert. Mit unterschiedlichen Gewich
tungswerten für Ankertexte in und auf Dokumente, für Phrasen und für unterschiedliche
Textmarkierungen, ist die Relevanzbewertungsfunktion parametrisierbar und somit flexibel
konfigurierbar.
Die dritte Phase wird mit Anfragephase bezeichnet.
In der Anfragephase werden in Abhängigkeit vom verwendeten Anfragetyp (einfache An
frage, komplexe Anfrage, Boot'sche Anfrage oder Phrasenanfrage) aus dem Index die Do
kumente ermittelt, die auf die Anfrage zutreffen. Für jedes gefundene Dokument wird der
eigentliche Relevanzwert aus den vorausberechneten Relevanzwertanteilen, der zum An
fragezeitpunkt vorliegenden Anzahl an Verweisen auf das Dokument und der Gesamtan
zahl der Dokumente im Index zum Relevanzwert des Dokuments verrechnet.
Im Gegensatz zu dem mit Google vorgestellten Ansatz handelt es sich bei der im TeleFin
der realisierten Lösung um ein inkrementelles Verfahren, bei dem aktualisierte Dokumente
direkt in den Index integriert werden und somit prinzipiell umgehend - nach einem als
"flushen" bezeichneten Speichern des Indexes - zur Suche bereitgestellt werden. Im Ver
gleich zu dem Google Ansatz kann dadurch eine weitaus höhere Aktualität des Indexes
garantiert werden. Durch die direkte inkrementelle Verarbeitung von neuen bzw. aktuali
sierten Dokumenten müssen keine lokalen Kopien der Dokumente gespeichert werden, so
dass der benötigte Plattenspeicherplatz drastisch reduziert werden kann.
Gegenüber dem Rankdex Verfahren verhält sich TeleFinder wie eine konventionelle Voll
textsuchmaschine, sofern die gesuchten Begriffe nicht in Ankertexten auftreten. Das liegt
darin begründet, dass auch der Inhalt der Dokumente indexiert wird.
Zwar wird im erfindungsgemäßen Relevanzbewertungsverfahren wie auch im Lycos-
Verfahren die Popularität der Ergebnisdokumente bewertet, jedoch geht die Bewertung
nach der erfindungsgemäßen Lösung weiter als beim Lycos-Verfahren, da neben der rei
nen Volltextindexierung, der Berücksichtigung spezieller Dokumentenbestandteile und der
Popularität, wie bei Rankdex und Google auch die Ankertexte berücksichtigt werden.
Die Relevanzbewertungsfunktion ist darüber hinaus parametrisiert, so dass die einzelnen
bei der Bewertung berücksichtigten Bestandteile unterschiedlich gewichtet und die Bewer
tungsfunktion insgesamt beeinflusst werden kann
Claims (1)
1. Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten
mittels Suchmaschine, bei dem Hypertext-Dokumente in der Indexierungskompo
nente der Suchmaschine ausgewertet werden, dadurch gekennzeichnet,
dass es in eine Aufbauphase, eine Aktualisierungsphase und eine Anfragephase un
terteilt ist,
dass in der Aufbauphase die Hypertext-Dokumente in der Indexierungskomponente gleichzeitig auf das Vorhandensein von Verweisen, speziell markierten und nicht markierten Textinhalten durchsucht werden, wobei
dass die Termeinträge zu diesen Dokumenten aktualisiert werden, und dass die ge änderten Dokumente sofern sie weiterhin verfügbar sind, noch einmal entsprechend der Aufbauphase in der Indexierungskomponente erfasst werden, und
dass in der Anfragephase auf die Anfrage eines Nutzers in Abhängigkeit vom Ab fragetyp, wie einfache Frage, komplexe Frage, Boot'sche Anfrage bzw. Phrasenan frage aus der Indexierungskomponente Angaben zu relevanten Dokumenten er mittelt werden, wobei für jedes ermittelte Dokument der eigentliche Relevanzwert aus den vorausberechneten Relevanzwertanteilen, der zum Anfragezeitpunkt vor liegenden Anzahl an Verweisen auf das ermittelte Dokument und der Gesamtzahl der Dokumente in der Indexierungskomponente berechnet wird, und dass die ent sprechend ihrer Relevanzbewertung geordneten Angaben zu den Dokumenten zu sammen mit Zusatzinformationen an den Nutzer ausgegeben werden.
dass in der Aufbauphase die Hypertext-Dokumente in der Indexierungskomponente gleichzeitig auf das Vorhandensein von Verweisen, speziell markierten und nicht markierten Textinhalten durchsucht werden, wobei
- a) bei der Identifizierung von Verweisen, für jede aus diesen Verweisen bestimmbare Adresse ein neuer Dokumenteneintrag in der Indexierungskomponente angelegt bzw. ein bereits vorhandener Dokumenteneintrag aktualisiert wird, dass für die in den Verweisen verwendeten Begriffe der Ankertexte ebenfalls ein neuer Termeintrag in der Indexierungskomponente angelegt wird bzw. ein bereits vorhandener Termein trag aktualisiert wird, und dass für jeden Begriff des Ankertextes ein partieller Rele vanzwert vorausberechnet wird,
- b) bei der Identifizierung von speziell markierten Textinhalten, für jede ermittelte Markierung ein neuer Termeintrag in der Indexierungskomponente angelegt bzw. ein bereits angelegter Termeintrag aktualisiert wird, dass für jeden markierten Begriff ein partieller Relevanzwert vorausberechnet wird, und
- c) bei der Identifizierung von nicht-markierten Textinformationen in einem auszu wertenden Dokument ein neuer Termeintrag in der Indexierungskomponente ange legt bzw. ein bereits zu der Textinformation vorhandener Termeintrag aktualisiert wird, und dass für jeden Termeintrag ein partieller Relevanzwert vorausberechnet wird,
dass die Termeinträge zu diesen Dokumenten aktualisiert werden, und dass die ge änderten Dokumente sofern sie weiterhin verfügbar sind, noch einmal entsprechend der Aufbauphase in der Indexierungskomponente erfasst werden, und
dass in der Anfragephase auf die Anfrage eines Nutzers in Abhängigkeit vom Ab fragetyp, wie einfache Frage, komplexe Frage, Boot'sche Anfrage bzw. Phrasenan frage aus der Indexierungskomponente Angaben zu relevanten Dokumenten er mittelt werden, wobei für jedes ermittelte Dokument der eigentliche Relevanzwert aus den vorausberechneten Relevanzwertanteilen, der zum Anfragezeitpunkt vor liegenden Anzahl an Verweisen auf das ermittelte Dokument und der Gesamtzahl der Dokumente in der Indexierungskomponente berechnet wird, und dass die ent sprechend ihrer Relevanzbewertung geordneten Angaben zu den Dokumenten zu sammen mit Zusatzinformationen an den Nutzer ausgegeben werden.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10029644A DE10029644B4 (de) | 2000-06-16 | 2000-06-16 | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10029644A DE10029644B4 (de) | 2000-06-16 | 2000-06-16 | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10029644A1 true DE10029644A1 (de) | 2002-01-17 |
DE10029644B4 DE10029644B4 (de) | 2008-02-07 |
Family
ID=7645925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10029644A Expired - Fee Related DE10029644B4 (de) | 2000-06-16 | 2000-06-16 | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10029644B4 (de) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1587009A2 (de) * | 2004-04-15 | 2005-10-19 | Microsoft Corporation | Propagierung von Inhalt zum verbesserten Auffinden von Dokumenten |
EP1643383A1 (de) * | 2004-09-30 | 2006-04-05 | Microsoft Corporation | Vorrichtung und Verfahren zur Berücksichtigung von Ankertext beim Ordnen von Suchergebnissen |
US7194466B2 (en) | 2003-05-01 | 2007-03-20 | Microsoft Corporation | Object clustering using inter-layer links |
US7228301B2 (en) | 2003-06-27 | 2007-06-05 | Microsoft Corporation | Method for normalizing document metadata to improve search results using an alias relationship directory service |
WO2007064420A1 (en) | 2005-12-02 | 2007-06-07 | Microsoft Corporation | Content matching |
US7231395B2 (en) | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US7260568B2 (en) | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
US7289985B2 (en) | 2004-04-15 | 2007-10-30 | Microsoft Corporation | Enhanced document retrieval |
US7366705B2 (en) | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
US7689585B2 (en) | 2004-04-15 | 2010-03-30 | Microsoft Corporation | Reinforced clustering of multi-type data objects for search term suggestion |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7792833B2 (en) | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
US7827181B2 (en) | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US8260786B2 (en) | 2002-05-24 | 2012-09-04 | Yahoo! Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
WO2021032824A1 (de) | 2019-08-20 | 2021-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19651788A1 (de) * | 1996-12-12 | 1998-06-25 | Wilfried Prof Dr Ing Krug | Verfahren zur Datenermittlung und -aufbereitung in Informationsnetzwerken |
DE19729911A1 (de) * | 1997-07-04 | 1999-01-07 | Siemens Ag | System zur Verbesserung der Organisation von Daten einer Dokumentation |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
EP0631245B1 (de) * | 1993-06-21 | 2000-03-01 | Xerox Corporation | Verfahren zur Verarbeitung mehrerer elektronisch gespeicherte Dokumente |
DE19842320A1 (de) * | 1998-09-16 | 2000-03-23 | Ibm | Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten |
EP0838056B1 (de) * | 1995-07-13 | 2000-05-03 | Cabletron Systems, Inc. | Verfahren , vorrichtung und elektronisches speichermedium zum verwalten von anforderungen an mehrere server und zum kollationieren der antworten |
-
2000
- 2000-06-16 DE DE10029644A patent/DE10029644B4/de not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0631245B1 (de) * | 1993-06-21 | 2000-03-01 | Xerox Corporation | Verfahren zur Verarbeitung mehrerer elektronisch gespeicherte Dokumente |
EP0838056B1 (de) * | 1995-07-13 | 2000-05-03 | Cabletron Systems, Inc. | Verfahren , vorrichtung und elektronisches speichermedium zum verwalten von anforderungen an mehrere server und zum kollationieren der antworten |
DE19651788A1 (de) * | 1996-12-12 | 1998-06-25 | Wilfried Prof Dr Ing Krug | Verfahren zur Datenermittlung und -aufbereitung in Informationsnetzwerken |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
DE19729911A1 (de) * | 1997-07-04 | 1999-01-07 | Siemens Ag | System zur Verbesserung der Organisation von Daten einer Dokumentation |
DE19842320A1 (de) * | 1998-09-16 | 2000-03-23 | Ibm | Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7231395B2 (en) | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US8260786B2 (en) | 2002-05-24 | 2012-09-04 | Yahoo! Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US7792818B2 (en) | 2002-05-24 | 2010-09-07 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US7194466B2 (en) | 2003-05-01 | 2007-03-20 | Microsoft Corporation | Object clustering using inter-layer links |
US7228301B2 (en) | 2003-06-27 | 2007-06-05 | Microsoft Corporation | Method for normalizing document metadata to improve search results using an alias relationship directory service |
US7260568B2 (en) | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
EP1587009A3 (de) * | 2004-04-15 | 2006-08-16 | Microsoft Corporation | Propagierung von Inhalt zum verbesserten Auffinden von Dokumenten |
EP1587009A2 (de) * | 2004-04-15 | 2005-10-19 | Microsoft Corporation | Propagierung von Inhalt zum verbesserten Auffinden von Dokumenten |
US7289985B2 (en) | 2004-04-15 | 2007-10-30 | Microsoft Corporation | Enhanced document retrieval |
US7305389B2 (en) | 2004-04-15 | 2007-12-04 | Microsoft Corporation | Content propagation for enhanced document retrieval |
US7366705B2 (en) | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
US7689585B2 (en) | 2004-04-15 | 2010-03-30 | Microsoft Corporation | Reinforced clustering of multi-type data objects for search term suggestion |
US8843486B2 (en) | 2004-09-27 | 2014-09-23 | Microsoft Corporation | System and method for scoping searches using index keys |
EP1643383A1 (de) * | 2004-09-30 | 2006-04-05 | Microsoft Corporation | Vorrichtung und Verfahren zur Berücksichtigung von Ankertext beim Ordnen von Suchergebnissen |
US8082246B2 (en) | 2004-09-30 | 2011-12-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7739277B2 (en) | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
US7827181B2 (en) | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7792833B2 (en) | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
EP1955195A4 (de) * | 2005-12-02 | 2012-04-04 | Microsoft Corp | Inhaltsabstimmung |
WO2007064420A1 (en) | 2005-12-02 | 2007-06-07 | Microsoft Corporation | Content matching |
EP1955195A1 (de) * | 2005-12-02 | 2008-08-13 | Microsoft Corporation | Inhaltsabstimmung |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
WO2021032824A1 (de) | 2019-08-20 | 2021-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente |
Also Published As
Publication number | Publication date |
---|---|
DE10029644B4 (de) | 2008-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10029644A1 (de) | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine | |
DE69330633T2 (de) | Verfahren und Apparat zum Vergleichen von semantischen Mustern für das Wiederauffinden von Texten | |
DE69900854T2 (de) | Ein suchsystem und verfahren zum zurückholen von daten und die anwendung in einem suchgerät | |
DE69804495T2 (de) | Informationsmanagement und wiedergewinnung von schlüsselbegriffen | |
DE69624985T2 (de) | Verfahren und Gerät, um Suchantworten in einem rechnergestützten Dokumentwiederauffindungssystem zu generieren | |
DE69820343T2 (de) | Linguistisches Suchsystem | |
DE69911842T2 (de) | Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium | |
DE69931256T2 (de) | Verfahren und system zum zurückholen einer elektronischen akte | |
DE69712411T2 (de) | Verfahren und System um Datenstrukturen zu vereinigen | |
DE69229204T2 (de) | Iteratives Verfahren zum Suchen von Satzteilen und Informationsauffindungssystem, welches dieses benützt | |
DE69431640T2 (de) | Ein Verfahren und System zur Informationswiederauffindung | |
DE60029732T2 (de) | Phrasenübersetzungsverfahren und -system | |
DE69930690T2 (de) | Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium | |
DE69917250T2 (de) | Merkmalübertragung über hyperlinks | |
DE69811066T2 (de) | Datenzusammenfassungsgerät. | |
DE3788750T2 (de) | Schätzeinrichtung des Indexschlüsselbereiches. | |
JP4944406B2 (ja) | フレーズに基づく文書説明の生成方法 | |
DE102005051617B4 (de) | Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken | |
JP2006048683A (ja) | 情報検索システムにおけるフレーズ識別方法 | |
JP2011175670A (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
DE69733294T2 (de) | Einrichtung und Verfahren zum Zugriff auf eine Datenbank | |
DE112012006749T5 (de) | Suchmethode | |
EP1412875B1 (de) | Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit | |
WO1999048027A1 (de) | Datenverarbeitungssystem und verfahren zum automatisierten erstellen von inhaltsangaben von textdokumenten | |
DE60000299T2 (de) | Verfahren und anordnung zur unterstützung elektronischer text-recherchen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: DEUTSCHE TELEKOM AG, 53113 BONN, DE NEOFONIE TECHN |
|
8110 | Request for examination paragraph 44 | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |