DE60315948T2 - Methode zur Indexierung und Recherche einer Sammlung von Internet Dokumenten - Google Patents

Methode zur Indexierung und Recherche einer Sammlung von Internet Dokumenten Download PDF

Info

Publication number
DE60315948T2
DE60315948T2 DE60315948T DE60315948T DE60315948T2 DE 60315948 T2 DE60315948 T2 DE 60315948T2 DE 60315948 T DE60315948 T DE 60315948T DE 60315948 T DE60315948 T DE 60315948T DE 60315948 T2 DE60315948 T2 DE 60315948T2
Authority
DE
Germany
Prior art keywords
document
documents
referencing
referenced
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60315948T
Other languages
English (en)
Other versions
DE60315948D1 (de
Inventor
Francois Bourdoncle
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exalead SA
Original Assignee
Exalead SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=32799152&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60315948(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Exalead SA filed Critical Exalead SA
Publication of DE60315948D1 publication Critical patent/DE60315948D1/de
Application granted granted Critical
Publication of DE60315948T2 publication Critical patent/DE60315948T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Peptides Or Proteins (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Die Erfindung betrifft das Gebiet des Informationsabrufs und konkreter das Anzeigen der Ergebnisse einer Suchabfrage. Sie ist insbesondere auf die Suche im Internet, in Intranets, in Mails, Archiven, Dateien, Datenbanken oder dergleichen anwendbar.
  • In der gesamten vorliegenden Schrift bezeichnen die Wörter „Seite" oder „Internetseite" eine Anzahl von Dokumenten, die durch Links verbunden sind, mit einem bestimmten Einsprungspunkt.
  • Eine „Webseite" oder HTML-Seite wird einem Endnutzer in einem Browser (wie z. B. der, der von der Microsoft Corporation unter dem Handelsnamen Internet Explorer bereitgestellt wird, oder der, der von der Netscape Corporation unter dem Handelsnamen Navigator bereitgestellt wird) als eine einzelne Seite angezeigt; auf diese Seite greift der Nutzer dank einer bestimmten URL (Universal Resource Locator) zu. Die Seite kann jedoch aus mehreren Frames bestehen; in diesem Fall wird dem Nutzer eine Zusammenstellung verschiedener Dateien angezeigt:
    eine Datei beschreibt die verschiedenen Frames der Site und ihren Speicherort,
    eine Datei pro Frame umfasst den HTML-Inhalt des Frames.
  • Eine Webseite kann auch eine Anzahl von Links zu verschiedenen Dokumenttypen umfassen, in Form von in die Seite eingebetteten Links. Die Links können den Nutzer zu HTML-Seiten, Audio- oder Videodateien oder zu anderen verlinkten Dateien führen.
  • Zur Suchen und Abfragen von Informationen im Internet gibt es eine Anzahl von Suchwerkzeugen oder -maschinen. Google sieht ein Suchwerkzeug zum Suchen von HTML-Dateien oder Textdokumenten (im PDF-, Microsoft-Word- oder RTF-Format) vor, die im Internet verfügbar sind. Die Ergebnisse werden dem Nutzer als eine Liste von Webseiten geliefert. Jedes Ergebnis ist als eine URL angezeigt, mit einem Auszug des Dokuments, auf das über die URL zugegriffen wird. Der Auszug ist ein Ausschnitt eines Satzes oder aus Satzteilen des Dokuments. Besteht eine Webseite aus Frames, so handelt es sich bei dem dem Nutzer gelieferten Ergebnis um die URL des Frames zusammen mit einem Auszug des Frames. Jeder Frame wird somit von der Suchmaschine einzeln gesucht und behandelt.
  • Google bietet ferner ein gesondertes Suchwerkzeug zum Suchen von Bildern an. Geparste Dokumente sind Bilddateien in Bildformaten. Die Ergebnisse werden als eine Zusammenstellung von Bildern mit Informationen zur Größe des Bildes und zur URL der Webseite, die das Bild enthält, angezeigt. Das Auswählen eines Bildes liefert zwei Frames, wobei der obere Frame das Bild enthält und der untere Frame die Webseite enthält, die das Bild umfasst.
  • Fast Search & Transfer ASA (FAST) betreibt eine Suchmaschine unter dem Namen „All the Web". Ein besonderer Bereich der Suchmaschine ermöglicht die Suche nach Audiodateien. Für jedes Ergebnis zeigt die Maschine eine Gruppe von Merkmalen der Audiodatei an, wie etwa die Größe und das Datum; der Direktzugriff auf die Audiodatei ist möglich. Es ist außerdem möglich, basierend auf der verkürzten URL der Datei den Host zu durchsuchen, der die Datei enthält. Dabei gibtes keinen Verweis zu der Webseite, die eigentlich die Datei enthält.
  • Die Alta Vista Company sieht separate Suchmaschinen zum Suchen von Text-, Audio- oder Videodateien vor. Als Antwort auf eine Abfrage der Audio-MP3-Suchmaschine wird dem Nutzer eine Liste von Ergebnissen bereitgestellt. Für jedes Ergebnis werden der Name der MP3-Datei, Informationen über die MP3-Datei, wie etwa die Größe, sowie die URL der Seite, die den Link zum MP3-Dokument enthält, bereitgestellt. Es ist auch möglich, eine Liste der auf der gleichen Seite verfügbaren Medien anzuzeigen. Die Anzeige für ein Ergebnis der Suche in der französischen Maschine mit dem Suchwort „Monteverdi" lautet wie folgt:
    Fichier et nom Monteverdi – Laudate.mp3
    Fichier et infos • Mono • 6 min 9 sec
    Page et URL http://webcampus3.stthomas.edu/jm...1567 643CE.htm
    Plus de médias en provenance de cette Page • Plus d'infos
  • Kelkoo betreibt eine Einkaufseite, auf welcher der Nutzer nach Produkten suchen kann. Die Ergebnisse werden als eine URL und Merkmale des entsprechenden Produkts angezeigt, die der durch die URL referenzierten Webseite entnommen sind.
  • AOL zeigt für bestimmte Suchläufe ein Widget (bannerähnliche Anzeige) an, das aus einer URL, einem Auszug der Webseite und Links zu anderen Seiten besteht. Tatsächlich ist das Widget eine vorberechnete Antwort und entspricht nicht den von der Suchmaschine gelieferten Ergebnissen.
  • Es bleibt ein Bedarf an einer Lösung bestehen, die dem Nutzer einer Suchmaschine ermöglicht, die von der Suchmaschine gelieferten Ergebnisse effektiv zu durchsuchen. Zusätzlich oder alternativ besteht ein Bedarf an einer Lösung, die eine effizientere Kontextsuche von Webseiten gestattet, unabhängig vom Typ der gesuchten Dokumente oder Dateien.
  • VG. Harmandas u. a., Image retrieval by hypertext links, Proceedings of the 20th annual international ACM SIGIR conference an Research and Development in Information retrieval, Seiten 296–203, Philadelphia PA, USA, 1997, legen ein Modell zum Abfragen von Bildern aus einer großen Zusammenstellung im World Wide Web vor. Es werden Links zur Berechnung der Darstellungen für nichttextlichen Knoten verwendet, die das direkte Abrufen dieser Knoten durch Textabfragen gestattet.
  • Die Erfindung ist in Anspruch 1 definiert. Zusätzliche mögliche Merkmale erscheinen in den angefügten Ansprüchen.
  • Eine Suchmaschine, die die Erfindung verkörpert, wird nun lediglich beispielhaft und anhand der beigefügten Zeichnungen beschrieben. Es zeigen:
  • 1 eine schematische Ansicht einer Webseite,
  • 2 eine schematische Ansicht der verschiedenen Dokumente, die die Seite von 1 bilden,
  • 3 eine Anzeige der Ergebnisse, die in einer Ausführungsform der Erfindung von einer Suchmaschine geliefert werden,
  • 4 ein Flussdiagramm eines Prozesses gemäß einer zweiten Ausführungsform der Erfindung.
  • 1 ist eine schematische Ansicht einer Webseite, wie sie einem Nutzer in einem Browser nach dem Stand der Technik angezeigt wird. Die Seite wird dem Nutzer als ein einzelnes Dokument angezeigt und vom Nutzer als ein einzelnes logisches Dokument behandelt. Tatsächlich jedoch besteht die Seite aus einer Anzahl physischer Dateien, wie in 2 dargestellt.
  • Im vorgesehenen Beispiel umfasst die Seite zwei Frames 2 und 4, das heißt einen Titel-Frame und einen zweiten Frame. Somit wird, wie in 2 dargestellt, ein erstes physisches Dokument 30 bereitgestellt, welches beschreibt, dass es zwei Frames gibt sowie die jeweilige Position der zwei Frames und ihren Speicherort. Der Titel-Frame enthält ein Bild 18 und einige Textinformationen 20. Der Titel-Frame besteht somit tatsächlich aus einem zweiten physischen Dokument 32, das die HTML-Codierung der Textinformationen 20 und eine Referenz zu einem dritten Dokument 34 enthält, welches das Bild 18 enthält. Das Dokument 32 kann zum Beispiel ein Dokument im JPEG- oder TIFF-Format sein.
  • Der zweite Frame 4 enthält verschiedene Textelemente 6, 12, 16, ein Bild 8 sowie zwei Audiolinks 10, 14. Der zweite Frame wird aus einem vierten Dokument 36 gebildet, welches die HTML-Codierung des Textes 6, 12, 16 enthält; das vierte Dokument verweist auf die Dokumente 38, 40 und 42, die das Bild 8 beziehungsweise die Audioinformationen 10, 14 enthalten. Im Beispiel der 2 liegt das Bilddokument 38 im JPEG-Format vor und der Ton ist in MP3-Dateien formatiert. Diese enthalten neben dem Ton zusätzliche Attribute oder Informationen, z. B. die Größe der Datei, die Dauer und die Anzahl der Audiotitel und dergleichen.
  • Somit kann, wie in 2 gezeigt, eine einzelne Seite wie die in 1, tatsächlich einer Anzahl physischer Dokumente entsprechen, die in mehreren Referenzebenen organisiert sind. Im Beispiel der 2 bestehen drei Referenzebenen zwischen den verschiedenen Dokumenten. Diese sind in 2 durch Pfeile zwischen den Dokumenten schematisch dargestellt.
  • In einer Ausführungsform sieht die Erfindung vor, diese Referenzen zu berücksichtigen, wenn dem Nutzer die Ergebnisse einer Suche angezeigt werden. In Gegenwart eines referenzierenden Dokuments, das eine Referenz zu einem referenzierten Dokument enthält, liefert die Suchmaschine dem Nutzer nicht nur die Informationen oder Attribute des referenzierenden Dokuments, sondern zeigt auch Informationen und Attribute des referenzierten Dokuments an. Dies ermöglicht es dem Nutzer der Suchmaschine, das referenzierte Dokument und das referenzierende Dokument im Kontext zu durchsuchen – das heißt innerhalb des logischen Dokuments –, ohne diese Dokumente auswählen und anzeigen zu müssen.
  • 3 ist eine Anzeige von Ergebnissen, die in dieser ersten Ausführungsform der Erfindung von einer Suchmaschine geliefert werden. Um der Erklärung willen sei angenommen, dass die Suche eine Audiosuche mit Hilfe des Suchwortes "Poulenc" ist. In der Seite der 1 lokalisiert die Suchmaschine zwei Tonwerke dieses Urhebers, die in den Dokumenten 40 und 42 verkörpert sind. Die Ergebnisse werden dem Nutzer angezeigt als eine Kombination aus Informationen oder Attributen des referenzierenden Dokuments – Dokument 36, das den Frame 4 darstellt, – und Informationen und Attributen des referenzierten Dokuments – Dokumente 40 und 42. Außerdem kann die URL der Seite angezeigt werden. Insbesondere veranschaulicht 3:
    die URL 50 der Seite,
    einen Auszug 52, der dem zweiten Frame entnommen ist, mit dem Suchwort „Poulenc",
    den Namen 54 des ersten lokalisierten Tonwerks mit einem Link 58 zu diesem Werk,
    Informationen 56 über dieses erste Werk, wie etwa die Größe des entsprechenden Dokuments, die Dauer des Werks, die Interpreten und dergleichen,
    den Namen 60 und einen Link 62 zum zweiten Werk und
    Informationen 64, die sich auf das zweite Werk beziehen.
  • Die Anzeige der 3 ermöglicht dem Nutzer der Suchmaschine eine vollständige Ansicht nicht nur eines physischen Dokuments, sondern eines gesamten logischen Dokuments, das aus mehreren physischen Dokumenten gebildet ist. Im Beispiel kann der Nutzer auf den ersten Blick verstehen, dass die Seite – das referenzierende Dokument – zwei verschiedene Werke von Poulenc enthält – die referenzierten Dokumente. Er kann direkt eines der referenzierten Dokumente im Kontext konsultieren, indem er einfach den Link zum referenzierten Dokument auswählt, ohne das referenzierende Dokument durchsuchen zu müssen. Außerdem werden dem Nutzer, da die Anzeige einen gewissen Inhalt des referenzierenden Dokuments zeigt, nicht nur Informationen geliefert, die das gesuchte physische Dokument – das MP3-Dokument – betreffen, sondern auch Informationen, die den Kontext der logischen Seite, in der das Dokument von der Suchmaschine gefunden wurde, betreffen. Dies ermöglicht dem Nutzer eine leichte und effiziente Auswahl der relevanten Ergebnisse aus einer Liste von Ergebnissen.
  • Im Vergleich dazu liefert bei den oben beschriebenen Lösungen nach dem Stand der Technik die Anzeige von Ergebnissen dem Nutzer nur Informationen, die das referenzierte Dokument betreffen, ohne eine Angabe bezüglich des Inhalts des referenzierenden Dokuments. Um die Relevanz eines Ergebnisses zu prüfen, muss der Nutzer auf das referenzierende Dokument zugreifen – durch Auswählen des Links zum referenzierenden Dokument – und dieses Dokument lesen. Erstens erfordert dies die Auswahl des Links zum referenzierenden Dokument und das Warten, bis dieses Dokument angezeigt wird. Zweitens erfordert dies das Lesen eines Teils des referenzierenden Dokuments, um den relevanten Bereich zu erkennen. Im Falle eines langen referenzierenden Dokuments ist die relevante Information möglicherweise nicht auf den ersten Blick ersichtlich, der Nutzer müsste im referenzierenden Dokument blättern oder suchen, um den relevanten Teil des Dokuments zu finden.
  • Die Anzeige der 3 ermöglicht es somit dem Nutzer, relevante Ergebnisse in einer von der Suchmaschine ausgegebenen Liste effektiv auszuwählen. Außerdem können, wie im Beispiel der 2, verschiedene physische Dokumente gleichzeitig angezeigt werden. Im Beispiel von 3 werden zwei verschiedene Tonwerke angezeigt. Diese gehören zum gleichen logischen Dokument, da sie durch die gleiche HTML-Seite oder das gleiche referenzierende Dokument referenziert werden. Somit werden dem Nutzer Inhaltsinformationen 52 vom gemeinsamen referenzierenden Dokument und Informationen, die beide referenzierten Dokumente betreffen, geliefert. Wie erläutert, kann der Nutzer die Relevanz der lokalisierten physischen Dokumente auf der Basis des Inhalts des referenzierenden Dokuments bewerten. Außerdem kann der Nutzer leicht und direkt verstehen, dass das referenzierende Dokument tatsächlich auf zwei Seiten verweist.
  • Im Vergleich dazu werden bei Lösungen nach dem Stand der Technik Ergebnisse, die von der gleichen Webseite – vom gleichen logischen Dokument – stammen, als getrennte Ergebnisse angezeigt. In der oben erläuterten Altavista-Audio-MP3-Suchmachine kann der Nutzer erkennen, dass einige Ergebnisse von der gleichen Webseite stammen, z. B. indem er erkennt, dass die Ergebnisse auf die gleiche URL verweisen. Das Vergleichen der URLs ist jedoch eine mühsame Arbeit. Der Nutzer kann auch die Seite „Alle Medien von dieser Seite" öffnen, doch ist dies eine separate Seite, die nur die Medien auflistet. Zusätzliches Durchsuchen ist erforderlich; selbst wenn die separate Seite geöffnet wird, werden dem Nutzer keine Inhalte des referenzierenden Dokuments geliefert und er kann die Relevanz der Ergebnisse nicht leicht erkennen.
  • 3 zeigt eine Anwendung der Erfindung auf das Anzeigen von HTML-Seiten. Die Erfindung kann für andere Anwendungen genutzt werden. Auf einer Einkaufsseite können dem Nutzer für ein bestimmtes Ergebnis verschiedene Elemente aus unterschiedlichen physischen Dokumenten, z. B. eine Abbildung des Produkts, eine Kurzbeschreibung des Produkts, sein Preis usw., angezeigt werden. Diese Elemente können dem Nutzer zusammen angezeigt werden, obwohl sie tatsächlich von verschiedenen physischen Dokumenten stammen. Die Erfindung kann auch auf Ordner angewandt werden, die verschiedene Dokumente referenzieren (Texte, Bilder, Arbeitsblätter, Datenbanken oder dergleichen). In diesem Fall kann der Inhalt des referenzierenden Dokuments – der Ordner – einen Auszug aus dem Ordnerinhalt enthalten, während die Informationen, die die referenzierten Dokumente betreffen, einen Auszug aus dem referenzierten Dokument oder seinen Speicherort umfassen kann. Ein anderes Beispiel ist die Anwendung der Erfindung zum Suchen in E-Mails. Das referenzierende Dokument ist in diesem Fall eine E-Mail. Die referenzierten Dokumente sind die Anhänge der E-Mails, z. B. VCF-Dateien, Textdateien, Bilder oder dergleichen. Wird die Erfindung in einem Intranet angewandt, wie dem, das von Lotus Notes unter dem Handelsnamen Notes bereitgestellt wird, wird die Suche in den Mitteilungen und ihren Anhängen ausgeführt. Das referenzierende Dokument ist in diesem Fall eine Mitteilung, während das referenzierte Dokument die Anhänge der Mitteilung sind. Für die Suche in Datenbanken können einige Felder in den Einträgen der Datenbank Verweisobjekte sein. Das referenzierende Dokument ist der Eintrag oder das Feld des Eintrags, während das referenzierte Dokument das referenzierte Objekt ist.
  • Die angezeigten Informationen können in den verschiedenen Dokumenten wie unten in Bezug auf die zweite Ausführungsform der Erfindung beschrieben ausgewählt werden. Nach dem Lokalisieren des relevanten physischen Dokuments kann auch das referenzierende Dokument betrachtet und ein Teil des Inhalts dieses referenzierenden Dokuments entnommen werden. Alternativ kann, wenn das referenzierende Dokument als erstes lokalisiert wird, ein Teil dieses Dokuments entnommen werden, das/die referenzierte(n) Dokument(e) lokalisiert werden und die Informationen oder Attribute des/der referenzierten Dokuments/e angereigt werden. Das angezeigte referenzierte Dokument kann alle in den referenzierenden Dokumenten referenzierten Dokumente umfassen; es kann auch nur eine Untermenge der referenzierten Dokumente anzeigt werden, je nach dem Typ des referenzierten Dokuments und/oder der Position der Verwese im referenzierenden Dokument. Zum Auswählen von referenzierten Dokumenten können ein Umgebungskriterium und/oder ein Relevanzkriterium verwendet werden. Ein Umgebungskriterium kann durch Messen eines Abstandes zwischen den gesuchten Begriffen und den Links zu den referenzierten Dokumenten im referenzierenden Dokument ausgeführt werden. Die Relevanz der referenzierten Dokumente kann wie auf dem Fachgebiet der Suchmaschinen üblich bewertet werden.
  • Referenzierte Dokumente können auch sortiert werden. Wieder können verschiedene Kriterien zum Sortieren der Dokumente angewandt werden, einschließlich der Umgebung oder der Relevanz.
  • Der Inhalt des referenzierenden Dokuments kann wie im Beispiel der 3 Zitate von Texten umfassen, die im referenzierenden Dokument enthaltenen sind. Dies ist die einfachste Ausführungsform. Es kann auch ein aus dem referenzierenden Dokument entnommenes Bild oder ein Logo angezeigt werden.
  • Die Informationen oder Attribute des referenzierten Dokuments können umfassen:
    den Namen des referenzierten Dokuments,
    die URL des referenzierten Dokuments,
    einen Teil des Inhalts des referenzierten Dokuments, wie etwa Zitate des Textes, ein verkleinertes Bild, in einer MP3-Audiodatei gespeicherte Merkmale (Größe, Urheber, Formate, Download-Zeit, Datum usw.).
  • Im Beispiel der 3 wird das Ergebnis als referenzierendes Dokument angezeigt, mit Informationen, die die referenzierten Dokumente betreffend. Dies ermöglicht es dem Nutzer, andere referenzierte Dokumente leicht zu erkennen, ohne das referenzierende Dokument durchsuchen zu müssen. Ebenso ist vorstellbar, Informationen, die das referenzierte Dokument betreffen, zusammen mit einem gewissen Inhalt des referenzierten Dokuments anzuzeigen; dies ist insofern weniger vorteilhaft, als der Nutzer die Beziehung zwischen den verschiedenen Dokumenten, die in einem einzelnen referenzierenden Dokument referenziert sind, weniger leicht erkennen würde.
  • In einer weiteren Ausführungsform der Erfindung wird die Suche nicht nur in physischen Dokumenten ausgeführt, sondern auch in logischen Dokumenten; mit anderen Worten berücksichtigt die Suchmaschine nicht nur separate physische Dokumente, sondern auch Verweise zwischen den Dokumenten. Die Ergebnisse der Suche sind deshalb mit großer Wahrscheinlichkeit relevanter.
  • Zum Beispiel berücksichtigt die Suche nach Audiodokumenten nicht nur Informationen, die in den Audiodateien gespeichert sind, sondern auch Informationen, die in den HTML-Seiten enthalten sind, in denen diese Audiodateien referenziert sind. Im Beispiel der 1 kann eine herkömmliche Suchmaschine, die mit einer Suche mit Hilfe des Suchworts „Poulenc" konfrontiert wird, die Dokumente 10 und 14 als separate Ergebnisse liefern, basierend auf der Tatsache, dass die begrenzte Textinformation, die in diesen MP3-Dokumenten gespeichert ist, mit großer Wahrscheinlichkeit den Namen des Komponisten der Musik enthält. Eine Suche mit den Suchwörtern „Poulenc" und „française" kann Dokument 14 nicht als Ergebnis liefern, sofern nicht der Name „Suite française" innerhalb der MP3-Datei gespeichert ist. Diese Ausführungsform der Erfindung kann nicht nur auf Audiodateien angewandt werden, sondern auch auf alle anderen Beispiele, die in Bezug auf die erste Ausführungsform beschrieben wurden.
  • Gemäß dieser Ausführungsform der Erfindung sucht die Suchmaschine nicht nur die MP3-Dokumente – die referenzierten Dokumente –, sondern auch das Dokument 36 – das referenzierende Dokument, das die HTML-Codierung für den zweiten Frame 4 enthält. Folglich liefert die Suchmaschine ein Ergebnis, wenn eines der Suchwörter nur im referenzierenden Dokument erscheint, während das andere im referenzierten Dokument erscheint. Die zweite Ausführungsform der Erfindung ermöglicht es somit, mehr Dokumente zu finden als Suchmaschinen nach dem Stand der Technik. Außerdem kann die Tatsache, dass die Suche nicht nur in den referenzierten Dokumenten durchgeführt wird, sondern auch in den referenzierenden Dokumenten, beim Einordnen (Ranking) der Ergebnisse nach ihrer Relevanz helfen. Dies verbessert auch die Leistungsfähigkeit der Suchmaschine gegenüber Lösungen nach dem Stand der Technik.
  • Die zweite Ausführungsform der Erfindung kann wie folgt ausgeführt werden. Der Prozess beginnt mit dem Bilden eines Indexes von Dokumenten. Der Index wird auf an sich bekannte Weise gebildet. Statt Dokumente jedoch separat zu betrachten, werden in dieser Ausführungsform referenzierende Dokumente und referenzierte Dokumente als ein einzelnes Dokument betrachtet. Somit werden sie zusammen indiziert, als ob sie ein einzelnes Gesamtdokument bildeten. Dies kann durch das Bereitstellen einer Indextabelle von Gesamtdokumenten erfolgen, wobei jedem Gesamtdokument in der Tabelle die verschiedenen physischen Dokumente, die zusammen das Gesamtdokument bilden, zugeordnet sind.
  • Im Beispiel der 1 und 2 würde der Index berücksichtigen, dass die beiden Frames 2 und 4 sowie die verschiedenen in diesen Frames referenzierten Dokumente ein einzelnes Dokument bilden. Anders ausgedrückt würden die Dokumente 30, 32, 34, 36, 38, 40 und 42 als ein einzelnes Gesamtdokument oder logisches Dokument betrachtet. In der Tabelle der Gesamtdokumente wären den einzelnen logischen Dokumenten die physischen Dokumente 30, 32, 34, 36, 38, 40 und 42 zugeordnet.
  • Es können verschiedene Verfahren verwendet werden, um zu erkennen, dass physische Dokumente zugeordnet oder zusammengeführt werden sollen. Die folgenden Verfahren können verwendet werden, insbesondere für HTML-Dokumente. Erstens können Frames erkannt werden; dies macht es möglich, die verschiedenen Frames zusammenzuführen, die eine bestimmte HTML-Seite bilden. Im Beispiel der 1 und 2 kann erkannt werden, dass Dokumente 30 eine Seite bilden, die zwei Frames 2 und 4 umfasst. Folglich würden die Dokumente 30, 32 und 36 zu einem einzelnen Dokument zusammengeführt. Dies gewährleistet, dass beide Frames zum Zweck der Suche als ein einzelnes Dokument betrachtet werden. Zweitens können Dokumente je nach ihren Typen oder Formaten zusammengeführt werden. Um eine Audio- oder Videosuche zu ermöglichen, kann zum Beispiel ein Audio- oder Videodokument mit einem HTML-Dokument zusammengeführt werden, das einen Link zum Audio- oder Videodokument enthält. Im Beispiel der 1 und 2 würden die Dokumente 34 und 38 mit den Dokumenten 32 beziehungsweise 36 zusammengeführt. Gemäß diesem zweiten Verfahren wird das referenzierende Dokument mit dem referenzierten Dokument zusammengeführt. Drittens können Dokumente auf der Basis von in den Dokumenten vorhandenen Verweisen zusammengeführt werden. Im Fall eines physischen Dokuments kann das Dokument durchsucht werden, um Verweise zu lokalisieren, und das referenzierende Dokument mit den Dokumenten zusammenführen, die es referenziert. Im Beispiel der 1 und 2 würde Dokument 32 mit Dokument 34 zusammengeführt. Das Dokument 36 würde mit den Dokumenten 38, 40 und 42 zusammengeführt. Es kann eine Kombination dieser Verfahren verwendet werden.
  • Die Gesamtdokumente können dann indiziert werden. Zur Indizierung solch eines Gesamtdokuments werden die physischen Dokumente, die das Gesamtdokument bilden, auf Indexbegriffe durchsucht. Im Beispiel der Dokumente 36, 38, 40 und 42 können die Indexbegriffe im HTML-Inhalt des Dokuments 36 gefunden werden; sie können Daten umfassen, die in den Dokumenten 38, 40 und 42 gefunden wurden, wie etwa den Namen des Dokuments, Textinformationen, die den Dokumenten entnommen wurden, oder dergleichen. Die in den verschiedenen physischen Dokumenten gefundenen Indexbegriffe werden dem Gesamtdokument in der Indextabelle zugeordnet. Dies bedeutet, dass, wenn ein Eintrag in der Indextabelle einem physischen Dokument zugeordnet ist, er auch den anderen Dokumenten, die das Gesamtdokument bilden, zugeordnet ist.
  • Sobald der Index des Gesamtdokuments gebildet ist, kann die Suchmaschine auf herkömmliche Weise mit dem Index der Gesamtdokumente arbeiten. Eine Abfrage wird dann eine Liste von Gesamtdokumenten liefern. Die Tabelle der Gesamtdokumente wird ausgelesen um zu ermitteln, welche physischen Dokumente jedem Gesamtdokument entsprechen. Die Suchmaschine zeigt dann die physischen Dokumente an, wie z. B. in der oben erläuterten ersten Ausführungsform oder in einigen alternativen Anzeigelösungen vorgesehen. Die referenzierenden Dokumente können insbesondere als Suchergebnisse angezeigt werden, wie in 3 erläutert. Anderenfalls können auch die referenzierten Dokumente angezeigt werden. Zum Beispiel kann in einer Bildsuchmaschine das Bilddokument 34 als Ergebnis angezeigt werden, basierend auf den Suchwörtern, die im referenzierenden Dokument 32 lokalisiert wurden. Wie in 3 kann dem Nutzer ein Auszug aus dem Text des Dokuments 32 geliefert werden, der ihm hilft, die Relevanz des Ergebnisses zu bewerten.
  • 4 ist ein Flussdiagramm eines Verfahrens zum Ausführen der zweiten Ausführungsform der Erfindung. In Schritt 70 werden logische Dokumente erkannt. Somit werden physische Dokumente zu logischen Dokumenten zusammengeführt. In Schritt 72 werden logische Dokumente oder Gesamtdokumente indiziert, wodurch ein invertierter Index von Gesamtdokumenten erstellt wird. Schritt 74 ist ein Schritt der Suche mit dem invertierten Index; er erstellt eine Liste von Gesamtdokumenten. In Schritt 76 werden für jedes bei der Suche lokalisiertes Gesamtdokument entsprechende physische Dokumente lokalisiert. Die Ergebnisse – physische Dokumente – werden in Schritt 78 angezeigt. In diesem Schritt kann die anhand der 3 beschriebene Lösung verwendet werden. In diesem Schritt können, wie oben erläutert, die angezeigten Ergebnisse ausgewählt und/oder sortiert werden.
  • In 4 wird angenommen, dass alle indizierten Dokumente Gesamtdokumente sind; es ist jedoch auch ebenfalls möglich, die invertierte Indextabelle mit Hilfe einer Kombination aus Gesamtdokumenten und physischen Dokumenten zu erstellen. Das kann insbesondere dann geschehen, wenn einige physische Dokumente nicht referenziert sind oder nicht andere Dokumente referenzieren. Somit kann das Verfahren der 4 in Kombination mit herkömmlichen Verfahren verwendet werden.
  • Die Erfindung ist nicht auf die anhand der Zeichnungen beschriebenen Beispiele und Ausführungsformen beschränkt. Insbesondere können beide Ausführungsformen der Erfindung in Kombination oder separat verwendet werden. So kann das Beispiel der 3 zur Anzeige von Ergebnissen verwendet werden, die von herkömmlichen Suchmaschinen geliefert werden. Zum Anzeigen der Ergebnisse einer Suchmaschine gemäß der zweiten Ausführungsform kann ein herkömmliches Verfahren verwendet werden. 2 zeigt ein Beispiel, in dem zwei referenzierte Dokumente angezeigt werden; wie erläutert können jedoch auch mehr als zwei referenzierte Dokumente angezeigt werden.

Claims (8)

  1. Computerimplementiertes Verfahren zum Suchen in einer Zusammenstellung von Internet- oder HTML-Dokumenten (30, 32, 34, 36, 38, 40, 42), wobei die Zusammenstellung referenzierende Dokumente und referenzierte Dokumente umfasst, die in den referenzierenden Dokumenten mit Hilfe von Links wie z. B. Universal Resource Locators referenziert werden, wobei die referenzierenden und referenzierten Dokumente Indexbegriffe enthalten, wobei das Verfahren umfasst: – für ein referenzierendes Dokument der Zusammenstellung: – Erkennen von Dokumenten, die in dem referenzierenden Dokument referenziert werden; und – Zusammenführen (70) des referenzierenden Dokuments (32) mit Dokumenten (34), die es referenziert, um so ein Gesamtdokument zu bilden, wobei das gebildete Gesamtdokument ein einzelnes logisches Dokument ist, das den Dokumenten zugeordnet wird, die das Gesamtdokument bilden; – Indizieren des Gesamtdokuments anhand von Indexbegriffen, die in den referenzierenden und den referenzierten Dokumenten enthalten sind, die das Gesamtdokument bilden, um einen Index zu bilden, wobei ein Eintrag in der Indextabelle den referenzierenden und referenzierten Dokumenten zugeordnet wird, die das Gesamtdokument bilden; – Suchen (74) in den Gesamtdokumenten durch Arbeiten mit dem Index; und – Bereitstellen (74) eines Gesamtdokuments als Ergebnis.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Erkennens referenzierter Dokumente umfasst: – Durchsuchen der referenzierenden Dokumente, um Referenzen oder Links zu Dokumenten zu lokalisieren, die in dem referenzierenden Dokument referenziert werden.
  3. Verfahren nach Anspruch 1 oder 2, ferner umfassen den Schritt von Darstellen eines Gesamtdokuments mit – einem Inhalt (52) des referenzierenden Dokuments (36); und – einer Information oder einem Attribut (54, 56, 58, 60, 62, 64) des referenzierten Dokuments (40, 42).
  4. Verfahren nach Anspruch 3, wobei die Information oder das Attribut einen Link zu dem referenzierten Dokument umfassen.
  5. Verfahren nach Anspruch 3, wobei das Verfahren als Ergebnis die Anzeige umfasst von – einem Inhalt (52) des referenzierenden Dokuments (36); – einer Information oder einem Attribut (54, 56, 58) eines ersten Dokuments (40), das in dem referenzierenden Dokument referenziert wird; und – einer Information oder einem Attribut (60, 62, 64) eines zweiten Dokuments (42), das in dem referenzierenden Dokument referenziert wird.
  6. Verfahren nach Anspruch 3, wobei die Zusammenstellung ein referenzierendes Dokument und mindestens zwei referenzierte Dokumente umfasst, die in dem referenzierenden Dokument referenziert werden, und wobei das Verfahren ferner einen Schritt des Auswählens einer Untermenge der referenzierten Dokumente umfasst.
  7. Verfahren nach Anspruch 3, wobei die Zusammenstellung ein referenzierendes Dokument und mindestens zwei referenzierte Dokumente umfasst, die in dem referenzierenden Dokument referenziert werden, und wobei das Verfahren ferner einen Schritt des Sortierens der referenzierten Dokumente umfasst.
  8. Suchmaschine mit Programmkodemitteln zum Ausführen der Stufen des Verfahrens nach einem der Ansprüche 1 bis 7.
DE60315948T 2003-03-27 2003-03-27 Methode zur Indexierung und Recherche einer Sammlung von Internet Dokumenten Expired - Lifetime DE60315948T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP03290781A EP1462952B1 (de) 2003-03-27 2003-03-27 Methode zur Indexierung und Recherche einer Sammlung von Internet Dokumenten

Publications (2)

Publication Number Publication Date
DE60315948D1 DE60315948D1 (de) 2007-10-11
DE60315948T2 true DE60315948T2 (de) 2008-06-26

Family

ID=32799152

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60315948T Expired - Lifetime DE60315948T2 (de) 2003-03-27 2003-03-27 Methode zur Indexierung und Recherche einer Sammlung von Internet Dokumenten

Country Status (4)

Country Link
US (1) US20040210567A1 (de)
EP (1) EP1462952B1 (de)
AT (1) ATE371902T1 (de)
DE (1) DE60315948T2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160170979A9 (en) * 2004-06-28 2016-06-16 David Schoenbach Method and System to Generate and Deliver Auto-Assembled Presentations Based on Queries of Multimedia Collections
US7933338B1 (en) 2004-11-10 2011-04-26 Google Inc. Ranking video articles
US8606781B2 (en) * 2005-04-29 2013-12-10 Palo Alto Research Center Incorporated Systems and methods for personalized search
US20070294265A1 (en) * 2006-06-06 2007-12-20 Anthony Scott Askew Identification of content downloaded from the internet and its source location
US9047379B2 (en) 2006-06-12 2015-06-02 Zalag Corporation Methods and apparatuses for searching content
US8140511B2 (en) * 2006-06-12 2012-03-20 Zalag Corporation Methods and apparatuses for searching content
US7987169B2 (en) 2006-06-12 2011-07-26 Zalag Corporation Methods and apparatuses for searching content
US8489574B2 (en) 2006-06-12 2013-07-16 Zalag Corporation Methods and apparatuses for searching content
WO2007146951A2 (en) * 2006-06-12 2007-12-21 Zalag Corporation Methods and apparatus for searching content
US8090722B2 (en) * 2007-03-21 2012-01-03 Oracle International Corporation Searching related documents
US9015140B2 (en) * 2010-12-30 2015-04-21 Yahoo! Inc. System and method for providing contextual actions on a search results page
AU2011202182B1 (en) 2011-05-11 2011-10-13 Frequency Ip Holdings, Llc Creation and presentation of selective digital content feeds
KR101444883B1 (ko) * 2014-01-27 2014-09-26 주식회사 기가코리아 숫자 url 서비스 제공 방법
US10055433B2 (en) * 2014-09-18 2018-08-21 Microsoft Technology Licensing, Llc Referenced content indexing
US10776376B1 (en) * 2014-12-05 2020-09-15 Veritas Technologies Llc Systems and methods for displaying search results
US20220027419A1 (en) * 2018-12-28 2022-01-27 Shenzhen Sekorm Component Network Co., Ltd Smart search and recommendation method for content, storage medium, and terminal

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6732086B2 (en) * 1999-09-07 2004-05-04 International Business Machines Corporation Method for listing search results when performing a search in a network
US6643641B1 (en) * 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
ATE288108T1 (de) * 2000-08-18 2005-02-15 Exalead Suchwerkzeug und prozess zum suchen unter benutzung von kategorien und schlüsselwörtern
US20020091679A1 (en) * 2001-01-09 2002-07-11 Wright James E. System for searching collections of linked objects
US20020184337A1 (en) * 2001-05-21 2002-12-05 Anders Hyldahl Method and computer system for constructing references to virtual data

Also Published As

Publication number Publication date
US20040210567A1 (en) 2004-10-21
DE60315948D1 (de) 2007-10-11
EP1462952A1 (de) 2004-09-29
ATE371902T1 (de) 2007-09-15
EP1462952B1 (de) 2007-08-29

Similar Documents

Publication Publication Date Title
DE60315948T2 (de) Methode zur Indexierung und Recherche einer Sammlung von Internet Dokumenten
EP1311989B1 (de) Verfahren zur automatischen recherche
DE69917250T2 (de) Merkmalübertragung über hyperlinks
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE69622350T2 (de) Ein Geschichtsanzeigegerät
DE69426714T2 (de) Dokumentverarbeitungsverfahren und Gerät
DE69833839T2 (de) Ein Verfahren und System um ähnliche Dokumente vorzuschlagen
DE60213409T2 (de) Erstellung von strukturierten daten aus unformatiertem text
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE69725258T2 (de) System und Verfahren zur Wiederauffindung von Dokumenten in mehreren Sprachen
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE19859180A1 (de) Automatisches adaptives Dokumenten-Hilfesystem
DE202012013725U1 (de) Kontextsensible Suche
DE102012221251A1 (de) Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern
EP1276056A1 (de) Verfahren zum Verwalten einer Datenbank
DE60037681T2 (de) Verfahren zum automatischen und gesicherten suchen von daten mit hilfe eines datenübertragungsnetzwerks
DE602004003230T2 (de) System und Verfahren in einer Datentabelle zur Erzeugung von rekursiven skalierbaren Vorlageninstanzen
US20090083312A1 (en) Document composition system and method
DE10057634C2 (de) Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
WO2011044865A1 (de) Verfahren zum bestimmen einer ähnlichkeit von objekten
US8799326B2 (en) System for managing electronically stored information
DE10025219A1 (de) Verfahren, Computerprogrammprodukt und Vorrichtung zum automatischen Verknüpfen von Datensätzen aus zumindest einer Datenquelle sowie System zum Abrufen von verknüpften Datensätzen aus zumindest einer Datenquelle
AU3747200A (en) Computerized research system and methods for processing and displaying scientific, technical, academic, and professional information

Legal Events

Date Code Title Description
8363 Opposition against the patent