-
Die
Erfindung betrifft das Gebiet des Informationsabrufs und konkreter
das Anzeigen der Ergebnisse einer Suchabfrage. Sie ist insbesondere auf
die Suche im Internet, in Intranets, in Mails, Archiven, Dateien,
Datenbanken oder dergleichen anwendbar.
-
In
der gesamten vorliegenden Schrift bezeichnen die Wörter „Seite" oder „Internetseite" eine Anzahl von
Dokumenten, die durch Links verbunden sind, mit einem bestimmten
Einsprungspunkt.
-
Eine „Webseite" oder HTML-Seite
wird einem Endnutzer in einem Browser (wie z. B. der, der von der
Microsoft Corporation unter dem Handelsnamen Internet Explorer bereitgestellt
wird, oder der, der von der Netscape Corporation unter dem Handelsnamen
Navigator bereitgestellt wird) als eine einzelne Seite angezeigt;
auf diese Seite greift der Nutzer dank einer bestimmten URL (Universal
Resource Locator) zu. Die Seite kann jedoch aus mehreren Frames
bestehen; in diesem Fall wird dem Nutzer eine Zusammenstellung verschiedener
Dateien angezeigt:
eine Datei beschreibt die verschiedenen
Frames der Site und ihren Speicherort,
eine Datei pro Frame
umfasst den HTML-Inhalt des Frames.
-
Eine
Webseite kann auch eine Anzahl von Links zu verschiedenen Dokumenttypen
umfassen, in Form von in die Seite eingebetteten Links. Die Links
können
den Nutzer zu HTML-Seiten, Audio- oder Videodateien oder zu anderen
verlinkten Dateien führen.
-
Zur
Suchen und Abfragen von Informationen im Internet gibt es eine Anzahl
von Suchwerkzeugen oder -maschinen. Google sieht ein Suchwerkzeug zum
Suchen von HTML-Dateien oder Textdokumenten (im PDF-, Microsoft-Word-
oder RTF-Format) vor, die im Internet verfügbar sind. Die Ergebnisse werden
dem Nutzer als eine Liste von Webseiten geliefert. Jedes Ergebnis
ist als eine URL angezeigt, mit einem Auszug des Dokuments, auf
das über
die URL zugegriffen wird. Der Auszug ist ein Ausschnitt eines Satzes
oder aus Satzteilen des Dokuments. Besteht eine Webseite aus Frames,
so handelt es sich bei dem dem Nutzer gelieferten Ergebnis um die
URL des Frames zusammen mit einem Auszug des Frames. Jeder Frame
wird somit von der Suchmaschine einzeln gesucht und behandelt.
-
Google
bietet ferner ein gesondertes Suchwerkzeug zum Suchen von Bildern
an. Geparste Dokumente sind Bilddateien in Bildformaten. Die Ergebnisse
werden als eine Zusammenstellung von Bildern mit Informationen zur
Größe des Bildes
und zur URL der Webseite, die das Bild enthält, angezeigt. Das Auswählen eines
Bildes liefert zwei Frames, wobei der obere Frame das Bild enthält und der
untere Frame die Webseite enthält,
die das Bild umfasst.
-
Fast
Search & Transfer
ASA (FAST) betreibt eine Suchmaschine unter dem Namen „All the
Web". Ein besonderer
Bereich der Suchmaschine ermöglicht
die Suche nach Audiodateien. Für
jedes Ergebnis zeigt die Maschine eine Gruppe von Merkmalen der
Audiodatei an, wie etwa die Größe und das
Datum; der Direktzugriff auf die Audiodatei ist möglich. Es
ist außerdem
möglich,
basierend auf der verkürzten
URL der Datei den Host zu durchsuchen, der die Datei enthält. Dabei
gibtes keinen Verweis zu der Webseite, die eigentlich die Datei
enthält.
-
Die
Alta Vista Company sieht separate Suchmaschinen zum Suchen von Text-,
Audio- oder Videodateien vor. Als Antwort auf eine Abfrage der Audio-MP3-Suchmaschine
wird dem Nutzer eine Liste von Ergebnissen bereitgestellt. Für jedes
Ergebnis werden der Name der MP3-Datei, Informationen über die
MP3-Datei, wie etwa die Größe, sowie
die URL der Seite, die den Link zum MP3-Dokument enthält, bereitgestellt.
Es ist auch möglich,
eine Liste der auf der gleichen Seite verfügbaren Medien anzuzeigen. Die
Anzeige für
ein Ergebnis der Suche in der französischen Maschine mit dem Suchwort „Monteverdi" lautet wie folgt:
Fichier
et nom Monteverdi – Laudate.mp3
Fichier
et infos • Mono • 6 min 9
sec
Page et URL http://webcampus3.stthomas.edu/jm...1567 643CE.htm
Plus
de médias
en provenance de cette Page • Plus d'infos
-
Kelkoo
betreibt eine Einkaufseite, auf welcher der Nutzer nach Produkten
suchen kann. Die Ergebnisse werden als eine URL und Merkmale des entsprechenden
Produkts angezeigt, die der durch die URL referenzierten Webseite
entnommen sind.
-
AOL
zeigt für
bestimmte Suchläufe
ein Widget (bannerähnliche
Anzeige) an, das aus einer URL, einem Auszug der Webseite und Links
zu anderen Seiten besteht. Tatsächlich
ist das Widget eine vorberechnete Antwort und entspricht nicht den
von der Suchmaschine gelieferten Ergebnissen.
-
Es
bleibt ein Bedarf an einer Lösung
bestehen, die dem Nutzer einer Suchmaschine ermöglicht, die von der Suchmaschine
gelieferten Ergebnisse effektiv zu durchsuchen. Zusätzlich oder
alternativ besteht ein Bedarf an einer Lösung, die eine effizientere Kontextsuche
von Webseiten gestattet, unabhängig vom
Typ der gesuchten Dokumente oder Dateien.
-
VG.
Harmandas u. a., Image retrieval by hypertext links, Proceedings
of the 20th annual international ACM SIGIR
conference an Research and Development in Information retrieval,
Seiten 296–203, Philadelphia
PA, USA, 1997, legen ein Modell zum Abfragen von Bildern aus einer
großen
Zusammenstellung im World Wide Web vor. Es werden Links zur Berechnung
der Darstellungen für
nichttextlichen Knoten verwendet, die das direkte Abrufen dieser Knoten
durch Textabfragen gestattet.
-
Die
Erfindung ist in Anspruch 1 definiert. Zusätzliche mögliche Merkmale erscheinen
in den angefügten
Ansprüchen.
-
Eine
Suchmaschine, die die Erfindung verkörpert, wird nun lediglich beispielhaft
und anhand der beigefügten
Zeichnungen beschrieben. Es zeigen:
-
1 eine
schematische Ansicht einer Webseite,
-
2 eine
schematische Ansicht der verschiedenen Dokumente, die die Seite
von 1 bilden,
-
3 eine
Anzeige der Ergebnisse, die in einer Ausführungsform der Erfindung von
einer Suchmaschine geliefert werden,
-
4 ein
Flussdiagramm eines Prozesses gemäß einer zweiten Ausführungsform
der Erfindung.
-
1 ist
eine schematische Ansicht einer Webseite, wie sie einem Nutzer in
einem Browser nach dem Stand der Technik angezeigt wird. Die Seite
wird dem Nutzer als ein einzelnes Dokument angezeigt und vom Nutzer
als ein einzelnes logisches Dokument behandelt. Tatsächlich jedoch
besteht die Seite aus einer Anzahl physischer Dateien, wie in 2 dargestellt.
-
Im
vorgesehenen Beispiel umfasst die Seite zwei Frames 2 und 4,
das heißt
einen Titel-Frame und einen zweiten Frame. Somit wird, wie in 2 dargestellt,
ein erstes physisches Dokument 30 bereitgestellt, welches
beschreibt, dass es zwei Frames gibt sowie die jeweilige Position
der zwei Frames und ihren Speicherort. Der Titel-Frame enthält ein Bild 18 und
einige Textinformationen 20. Der Titel-Frame besteht somit
tatsächlich
aus einem zweiten physischen Dokument 32, das die HTML-Codierung
der Textinformationen 20 und eine Referenz zu einem dritten
Dokument 34 enthält,
welches das Bild 18 enthält. Das Dokument 32 kann
zum Beispiel ein Dokument im JPEG- oder TIFF-Format sein.
-
Der
zweite Frame 4 enthält
verschiedene Textelemente 6, 12, 16,
ein Bild 8 sowie zwei Audiolinks 10, 14.
Der zweite Frame wird aus einem vierten Dokument 36 gebildet,
welches die HTML-Codierung des Textes 6, 12, 16 enthält; das
vierte Dokument verweist auf die Dokumente 38, 40 und 42,
die das Bild 8 beziehungsweise die Audioinformationen 10, 14 enthalten.
Im Beispiel der 2 liegt das Bilddokument 38 im
JPEG-Format vor und der Ton ist in MP3-Dateien formatiert. Diese
enthalten neben dem Ton zusätzliche
Attribute oder Informationen, z. B. die Größe der Datei, die Dauer und
die Anzahl der Audiotitel und dergleichen.
-
Somit
kann, wie in 2 gezeigt, eine einzelne Seite
wie die in 1, tatsächlich einer Anzahl physischer
Dokumente entsprechen, die in mehreren Referenzebenen organisiert
sind. Im Beispiel der 2 bestehen drei Referenzebenen
zwischen den verschiedenen Dokumenten. Diese sind in 2 durch
Pfeile zwischen den Dokumenten schematisch dargestellt.
-
In
einer Ausführungsform
sieht die Erfindung vor, diese Referenzen zu berücksichtigen, wenn dem Nutzer
die Ergebnisse einer Suche angezeigt werden. In Gegenwart eines
referenzierenden Dokuments, das eine Referenz zu einem referenzierten Dokument
enthält,
liefert die Suchmaschine dem Nutzer nicht nur die Informationen
oder Attribute des referenzierenden Dokuments, sondern zeigt auch
Informationen und Attribute des referenzierten Dokuments an. Dies
ermöglicht
es dem Nutzer der Suchmaschine, das referenzierte Dokument und das
referenzierende Dokument im Kontext zu durchsuchen – das heißt innerhalb
des logischen Dokuments –, ohne
diese Dokumente auswählen
und anzeigen zu müssen.
-
3 ist
eine Anzeige von Ergebnissen, die in dieser ersten Ausführungsform
der Erfindung von einer Suchmaschine geliefert werden. Um der Erklärung willen
sei angenommen, dass die Suche eine Audiosuche mit Hilfe des Suchwortes "Poulenc" ist. In der Seite
der 1 lokalisiert die Suchmaschine zwei Tonwerke dieses
Urhebers, die in den Dokumenten 40 und 42 verkörpert sind.
Die Ergebnisse werden dem Nutzer angezeigt als eine Kombination aus
Informationen oder Attributen des referenzierenden Dokuments – Dokument 36,
das den Frame 4 darstellt, – und Informationen und Attributen
des referenzierten Dokuments – Dokumente 40 und 42.
Außerdem
kann die URL der Seite angezeigt werden. Insbesondere veranschaulicht 3:
die
URL 50 der Seite,
einen Auszug 52, der dem
zweiten Frame entnommen ist, mit dem Suchwort „Poulenc",
den Namen 54 des ersten
lokalisierten Tonwerks mit einem Link 58 zu diesem Werk,
Informationen 56 über dieses
erste Werk, wie etwa die Größe des entsprechenden
Dokuments, die Dauer des Werks, die Interpreten und dergleichen,
den
Namen 60 und einen Link 62 zum zweiten Werk und
Informationen 64,
die sich auf das zweite Werk beziehen.
-
Die
Anzeige der 3 ermöglicht dem Nutzer der Suchmaschine
eine vollständige
Ansicht nicht nur eines physischen Dokuments, sondern eines gesamten
logischen Dokuments, das aus mehreren physischen Dokumenten gebildet
ist. Im Beispiel kann der Nutzer auf den ersten Blick verstehen,
dass die Seite – das
referenzierende Dokument – zwei
verschiedene Werke von Poulenc enthält – die referenzierten Dokumente.
Er kann direkt eines der referenzierten Dokumente im Kontext konsultieren,
indem er einfach den Link zum referenzierten Dokument auswählt, ohne
das referenzierende Dokument durchsuchen zu müssen. Außerdem werden dem Nutzer, da die
Anzeige einen gewissen Inhalt des referenzierenden Dokuments zeigt,
nicht nur Informationen geliefert, die das gesuchte physische Dokument – das MP3-Dokument – betreffen,
sondern auch Informationen, die den Kontext der logischen Seite,
in der das Dokument von der Suchmaschine gefunden wurde, betreffen.
Dies ermöglicht
dem Nutzer eine leichte und effiziente Auswahl der relevanten Ergebnisse aus
einer Liste von Ergebnissen.
-
Im
Vergleich dazu liefert bei den oben beschriebenen Lösungen nach
dem Stand der Technik die Anzeige von Ergebnissen dem Nutzer nur
Informationen, die das referenzierte Dokument betreffen, ohne eine
Angabe bezüglich
des Inhalts des referenzierenden Dokuments. Um die Relevanz eines
Ergebnisses zu prüfen,
muss der Nutzer auf das referenzierende Dokument zugreifen – durch
Auswählen des
Links zum referenzierenden Dokument – und dieses Dokument lesen.
Erstens erfordert dies die Auswahl des Links zum referenzierenden
Dokument und das Warten, bis dieses Dokument angezeigt wird. Zweitens
erfordert dies das Lesen eines Teils des referenzierenden Dokuments,
um den relevanten Bereich zu erkennen. Im Falle eines langen referenzierenden
Dokuments ist die relevante Information möglicherweise nicht auf den
ersten Blick ersichtlich, der Nutzer müsste im referenzierenden Dokument
blättern
oder suchen, um den relevanten Teil des Dokuments zu finden.
-
Die
Anzeige der 3 ermöglicht es somit dem Nutzer,
relevante Ergebnisse in einer von der Suchmaschine ausgegebenen
Liste effektiv auszuwählen.
Außerdem
können,
wie im Beispiel der 2, verschiedene physische Dokumente
gleichzeitig angezeigt werden. Im Beispiel von 3 werden
zwei verschiedene Tonwerke angezeigt. Diese gehören zum gleichen logischen
Dokument, da sie durch die gleiche HTML-Seite oder das gleiche referenzierende
Dokument referenziert werden. Somit werden dem Nutzer Inhaltsinformationen 52 vom
gemeinsamen referenzierenden Dokument und Informationen, die beide
referenzierten Dokumente betreffen, geliefert. Wie erläutert, kann
der Nutzer die Relevanz der lokalisierten physischen Dokumente auf
der Basis des Inhalts des referenzierenden Dokuments bewerten. Außerdem kann
der Nutzer leicht und direkt verstehen, dass das referenzierende
Dokument tatsächlich
auf zwei Seiten verweist.
-
Im
Vergleich dazu werden bei Lösungen nach
dem Stand der Technik Ergebnisse, die von der gleichen Webseite – vom gleichen
logischen Dokument – stammen,
als getrennte Ergebnisse angezeigt. In der oben erläuterten
Altavista-Audio-MP3-Suchmachine
kann der Nutzer erkennen, dass einige Ergebnisse von der gleichen
Webseite stammen, z. B. indem er erkennt, dass die Ergebnisse auf
die gleiche URL verweisen. Das Vergleichen der URLs ist jedoch eine
mühsame
Arbeit. Der Nutzer kann auch die Seite „Alle Medien von dieser Seite" öffnen, doch ist dies eine separate
Seite, die nur die Medien auflistet. Zusätzliches Durchsuchen ist erforderlich;
selbst wenn die separate Seite geöffnet wird, werden dem Nutzer
keine Inhalte des referenzierenden Dokuments geliefert und er kann
die Relevanz der Ergebnisse nicht leicht erkennen.
-
3 zeigt
eine Anwendung der Erfindung auf das Anzeigen von HTML-Seiten. Die
Erfindung kann für
andere Anwendungen genutzt werden. Auf einer Einkaufsseite können dem
Nutzer für
ein bestimmtes Ergebnis verschiedene Elemente aus unterschiedlichen
physischen Dokumenten, z. B. eine Abbildung des Produkts, eine Kurzbeschreibung
des Produkts, sein Preis usw., angezeigt werden. Diese Elemente
können
dem Nutzer zusammen angezeigt werden, obwohl sie tatsächlich von
verschiedenen physischen Dokumenten stammen. Die Erfindung kann
auch auf Ordner angewandt werden, die verschiedene Dokumente referenzieren
(Texte, Bilder, Arbeitsblätter,
Datenbanken oder dergleichen). In diesem Fall kann der Inhalt des
referenzierenden Dokuments – der
Ordner – einen
Auszug aus dem Ordnerinhalt enthalten, während die Informationen, die die
referenzierten Dokumente betreffen, einen Auszug aus dem referenzierten
Dokument oder seinen Speicherort umfassen kann. Ein anderes Beispiel
ist die Anwendung der Erfindung zum Suchen in E-Mails. Das referenzierende
Dokument ist in diesem Fall eine E-Mail. Die referenzierten Dokumente sind die
Anhänge
der E-Mails, z. B. VCF-Dateien,
Textdateien, Bilder oder dergleichen. Wird die Erfindung in einem
Intranet angewandt, wie dem, das von Lotus Notes unter dem Handelsnamen
Notes bereitgestellt wird, wird die Suche in den Mitteilungen und
ihren Anhängen
ausgeführt.
Das referenzierende Dokument ist in diesem Fall eine Mitteilung,
während
das referenzierte Dokument die Anhänge der Mitteilung sind. Für die Suche
in Datenbanken können
einige Felder in den Einträgen
der Datenbank Verweisobjekte sein. Das referenzierende Dokument
ist der Eintrag oder das Feld des Eintrags, während das referenzierte Dokument
das referenzierte Objekt ist.
-
Die
angezeigten Informationen können
in den verschiedenen Dokumenten wie unten in Bezug auf die zweite
Ausführungsform
der Erfindung beschrieben ausgewählt
werden. Nach dem Lokalisieren des relevanten physischen Dokuments
kann auch das referenzierende Dokument betrachtet und ein Teil des
Inhalts dieses referenzierenden Dokuments entnommen werden. Alternativ
kann, wenn das referenzierende Dokument als erstes lokalisiert wird,
ein Teil dieses Dokuments entnommen werden, das/die referenzierte(n)
Dokument(e) lokalisiert werden und die Informationen oder Attribute
des/der referenzierten Dokuments/e angereigt werden. Das angezeigte
referenzierte Dokument kann alle in den referenzierenden Dokumenten
referenzierten Dokumente umfassen; es kann auch nur eine Untermenge der
referenzierten Dokumente anzeigt werden, je nach dem Typ des referenzierten
Dokuments und/oder der Position der Verwese im referenzierenden
Dokument. Zum Auswählen
von referenzierten Dokumenten können
ein Umgebungskriterium und/oder ein Relevanzkriterium verwendet
werden. Ein Umgebungskriterium kann durch Messen eines Abstandes
zwischen den gesuchten Begriffen und den Links zu den referenzierten
Dokumenten im referenzierenden Dokument ausgeführt werden. Die Relevanz der
referenzierten Dokumente kann wie auf dem Fachgebiet der Suchmaschinen üblich bewertet werden.
-
Referenzierte
Dokumente können
auch sortiert werden. Wieder können
verschiedene Kriterien zum Sortieren der Dokumente angewandt werden, einschließlich der
Umgebung oder der Relevanz.
-
Der
Inhalt des referenzierenden Dokuments kann wie im Beispiel der 3 Zitate
von Texten umfassen, die im referenzierenden Dokument enthaltenen
sind. Dies ist die einfachste Ausführungsform. Es kann auch ein
aus dem referenzierenden Dokument entnommenes Bild oder ein Logo
angezeigt werden.
-
Die
Informationen oder Attribute des referenzierten Dokuments können umfassen:
den
Namen des referenzierten Dokuments,
die URL des referenzierten
Dokuments,
einen Teil des Inhalts des referenzierten Dokuments, wie
etwa Zitate des Textes, ein verkleinertes Bild, in einer MP3-Audiodatei
gespeicherte Merkmale (Größe, Urheber,
Formate, Download-Zeit, Datum usw.).
-
Im
Beispiel der 3 wird das Ergebnis als referenzierendes
Dokument angezeigt, mit Informationen, die die referenzierten Dokumente
betreffend. Dies ermöglicht
es dem Nutzer, andere referenzierte Dokumente leicht zu erkennen,
ohne das referenzierende Dokument durchsuchen zu müssen. Ebenso ist
vorstellbar, Informationen, die das referenzierte Dokument betreffen,
zusammen mit einem gewissen Inhalt des referenzierten Dokuments
anzuzeigen; dies ist insofern weniger vorteilhaft, als der Nutzer
die Beziehung zwischen den verschiedenen Dokumenten, die in einem
einzelnen referenzierenden Dokument referenziert sind, weniger leicht
erkennen würde.
-
In
einer weiteren Ausführungsform
der Erfindung wird die Suche nicht nur in physischen Dokumenten
ausgeführt,
sondern auch in logischen Dokumenten; mit anderen Worten berücksichtigt
die Suchmaschine nicht nur separate physische Dokumente, sondern
auch Verweise zwischen den Dokumenten. Die Ergebnisse der Suche
sind deshalb mit großer Wahrscheinlichkeit
relevanter.
-
Zum
Beispiel berücksichtigt
die Suche nach Audiodokumenten nicht nur Informationen, die in den Audiodateien
gespeichert sind, sondern auch Informationen, die in den HTML-Seiten
enthalten sind, in denen diese Audiodateien referenziert sind. Im
Beispiel der 1 kann eine herkömmliche
Suchmaschine, die mit einer Suche mit Hilfe des Suchworts „Poulenc" konfrontiert wird,
die Dokumente 10 und 14 als separate Ergebnisse
liefern, basierend auf der Tatsache, dass die begrenzte Textinformation,
die in diesen MP3-Dokumenten gespeichert ist, mit großer Wahrscheinlichkeit
den Namen des Komponisten der Musik enthält. Eine Suche mit den Suchwörtern „Poulenc" und „française" kann Dokument 14 nicht
als Ergebnis liefern, sofern nicht der Name „Suite française" innerhalb der MP3-Datei
gespeichert ist. Diese Ausführungsform
der Erfindung kann nicht nur auf Audiodateien angewandt werden,
sondern auch auf alle anderen Beispiele, die in Bezug auf die erste Ausführungsform
beschrieben wurden.
-
Gemäß dieser
Ausführungsform
der Erfindung sucht die Suchmaschine nicht nur die MP3-Dokumente – die referenzierten
Dokumente –,
sondern auch das Dokument 36 – das referenzierende Dokument,
das die HTML-Codierung für
den zweiten Frame 4 enthält. Folglich liefert die Suchmaschine
ein Ergebnis, wenn eines der Suchwörter nur im referenzierenden
Dokument erscheint, während
das andere im referenzierten Dokument erscheint. Die zweite Ausführungsform
der Erfindung ermöglicht
es somit, mehr Dokumente zu finden als Suchmaschinen nach dem Stand
der Technik. Außerdem
kann die Tatsache, dass die Suche nicht nur in den referenzierten Dokumenten
durchgeführt
wird, sondern auch in den referenzierenden Dokumenten, beim Einordnen (Ranking)
der Ergebnisse nach ihrer Relevanz helfen. Dies verbessert auch
die Leistungsfähigkeit
der Suchmaschine gegenüber
Lösungen
nach dem Stand der Technik.
-
Die
zweite Ausführungsform
der Erfindung kann wie folgt ausgeführt werden. Der Prozess beginnt
mit dem Bilden eines Indexes von Dokumenten. Der Index wird auf
an sich bekannte Weise gebildet. Statt Dokumente jedoch separat
zu betrachten, werden in dieser Ausführungsform referenzierende
Dokumente und referenzierte Dokumente als ein einzelnes Dokument
betrachtet. Somit werden sie zusammen indiziert, als ob sie ein
einzelnes Gesamtdokument bildeten. Dies kann durch das Bereitstellen
einer Indextabelle von Gesamtdokumenten erfolgen, wobei jedem Gesamtdokument
in der Tabelle die verschiedenen physischen Dokumente, die zusammen das
Gesamtdokument bilden, zugeordnet sind.
-
Im
Beispiel der 1 und 2 würde der Index
berücksichtigen,
dass die beiden Frames 2 und 4 sowie die verschiedenen
in diesen Frames referenzierten Dokumente ein einzelnes Dokument
bilden. Anders ausgedrückt
würden
die Dokumente 30, 32, 34, 36, 38, 40 und 42 als
ein einzelnes Gesamtdokument oder logisches Dokument betrachtet.
In der Tabelle der Gesamtdokumente wären den einzelnen logischen
Dokumenten die physischen Dokumente 30, 32, 34, 36, 38, 40 und 42 zugeordnet.
-
Es
können
verschiedene Verfahren verwendet werden, um zu erkennen, dass physische
Dokumente zugeordnet oder zusammengeführt werden sollen. Die folgenden
Verfahren können
verwendet werden, insbesondere für
HTML-Dokumente.
Erstens können
Frames erkannt werden; dies macht es möglich, die verschiedenen Frames
zusammenzuführen,
die eine bestimmte HTML-Seite bilden. Im Beispiel der 1 und 2 kann
erkannt werden, dass Dokumente 30 eine Seite bilden, die
zwei Frames 2 und 4 umfasst. Folglich würden die
Dokumente 30, 32 und 36 zu einem einzelnen
Dokument zusammengeführt.
Dies gewährleistet,
dass beide Frames zum Zweck der Suche als ein einzelnes Dokument
betrachtet werden. Zweitens können
Dokumente je nach ihren Typen oder Formaten zusammengeführt werden.
Um eine Audio- oder Videosuche zu ermöglichen, kann zum Beispiel
ein Audio- oder Videodokument mit einem HTML-Dokument zusammengeführt werden,
das einen Link zum Audio- oder Videodokument enthält. Im Beispiel
der 1 und 2 würden die Dokumente 34 und 38 mit
den Dokumenten 32 beziehungsweise 36 zusammengeführt. Gemäß diesem
zweiten Verfahren wird das referenzierende Dokument mit dem referenzierten
Dokument zusammengeführt.
Drittens können
Dokumente auf der Basis von in den Dokumenten vorhandenen Verweisen
zusammengeführt
werden. Im Fall eines physischen Dokuments kann das Dokument durchsucht werden,
um Verweise zu lokalisieren, und das referenzierende Dokument mit
den Dokumenten zusammenführen,
die es referenziert. Im Beispiel der 1 und 2 würde Dokument 32 mit
Dokument 34 zusammengeführt.
Das Dokument 36 würde
mit den Dokumenten 38, 40 und 42 zusammengeführt. Es kann
eine Kombination dieser Verfahren verwendet werden.
-
Die
Gesamtdokumente können
dann indiziert werden. Zur Indizierung solch eines Gesamtdokuments
werden die physischen Dokumente, die das Gesamtdokument bilden,
auf Indexbegriffe durchsucht. Im Beispiel der Dokumente 36, 38, 40 und 42 können die
Indexbegriffe im HTML-Inhalt des Dokuments 36 gefunden
werden; sie können
Daten umfassen, die in den Dokumenten 38, 40 und 42 gefunden
wurden, wie etwa den Namen des Dokuments, Textinformationen, die
den Dokumenten entnommen wurden, oder dergleichen. Die in den verschiedenen physischen
Dokumenten gefundenen Indexbegriffe werden dem Gesamtdokument in
der Indextabelle zugeordnet. Dies bedeutet, dass, wenn ein Eintrag
in der Indextabelle einem physischen Dokument zugeordnet ist, er
auch den anderen Dokumenten, die das Gesamtdokument bilden, zugeordnet
ist.
-
Sobald
der Index des Gesamtdokuments gebildet ist, kann die Suchmaschine
auf herkömmliche Weise
mit dem Index der Gesamtdokumente arbeiten. Eine Abfrage wird dann
eine Liste von Gesamtdokumenten liefern. Die Tabelle der Gesamtdokumente
wird ausgelesen um zu ermitteln, welche physischen Dokumente jedem
Gesamtdokument entsprechen. Die Suchmaschine zeigt dann die physischen
Dokumente an, wie z. B. in der oben erläuterten ersten Ausführungsform
oder in einigen alternativen Anzeigelösungen vorgesehen. Die referenzierenden
Dokumente können
insbesondere als Suchergebnisse angezeigt werden, wie in 3 erläutert. Anderenfalls
können
auch die referenzierten Dokumente angezeigt werden. Zum Beispiel
kann in einer Bildsuchmaschine das Bilddokument 34 als
Ergebnis angezeigt werden, basierend auf den Suchwörtern, die
im referenzierenden Dokument 32 lokalisiert wurden. Wie
in 3 kann dem Nutzer ein Auszug aus dem Text des
Dokuments 32 geliefert werden, der ihm hilft, die Relevanz
des Ergebnisses zu bewerten.
-
4 ist
ein Flussdiagramm eines Verfahrens zum Ausführen der zweiten Ausführungsform der
Erfindung. In Schritt 70 werden logische Dokumente erkannt.
Somit werden physische Dokumente zu logischen Dokumenten zusammengeführt. In Schritt 72 werden
logische Dokumente oder Gesamtdokumente indiziert, wodurch ein invertierter
Index von Gesamtdokumenten erstellt wird. Schritt 74 ist ein
Schritt der Suche mit dem invertierten Index; er erstellt eine Liste
von Gesamtdokumenten. In Schritt 76 werden für jedes
bei der Suche lokalisiertes Gesamtdokument entsprechende physische
Dokumente lokalisiert. Die Ergebnisse – physische Dokumente – werden
in Schritt 78 angezeigt. In diesem Schritt kann die anhand
der 3 beschriebene Lösung verwendet werden. In diesem
Schritt können,
wie oben erläutert,
die angezeigten Ergebnisse ausgewählt und/oder sortiert werden.
-
In 4 wird
angenommen, dass alle indizierten Dokumente Gesamtdokumente sind;
es ist jedoch auch ebenfalls möglich,
die invertierte Indextabelle mit Hilfe einer Kombination aus Gesamtdokumenten
und physischen Dokumenten zu erstellen. Das kann insbesondere dann
geschehen, wenn einige physische Dokumente nicht referenziert sind
oder nicht andere Dokumente referenzieren. Somit kann das Verfahren
der 4 in Kombination mit herkömmlichen Verfahren verwendet
werden.
-
Die
Erfindung ist nicht auf die anhand der Zeichnungen beschriebenen
Beispiele und Ausführungsformen
beschränkt.
Insbesondere können
beide Ausführungsformen
der Erfindung in Kombination oder separat verwendet werden. So kann
das Beispiel der 3 zur Anzeige von Ergebnissen
verwendet werden, die von herkömmlichen
Suchmaschinen geliefert werden. Zum Anzeigen der Ergebnisse einer
Suchmaschine gemäß der zweiten
Ausführungsform
kann ein herkömmliches
Verfahren verwendet werden. 2 zeigt
ein Beispiel, in dem zwei referenzierte Dokumente angezeigt werden;
wie erläutert
können
jedoch auch mehr als zwei referenzierte Dokumente angezeigt werden.