FR2807537A1 - Moteur de recherche de ressources hypermedia et procede d'indexation associe - Google Patents

Moteur de recherche de ressources hypermedia et procede d'indexation associe Download PDF

Info

Publication number
FR2807537A1
FR2807537A1 FR0004419A FR0004419A FR2807537A1 FR 2807537 A1 FR2807537 A1 FR 2807537A1 FR 0004419 A FR0004419 A FR 0004419A FR 0004419 A FR0004419 A FR 0004419A FR 2807537 A1 FR2807537 A1 FR 2807537A1
Authority
FR
France
Prior art keywords
resources
resource
main
indexing
dependent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0004419A
Other languages
English (en)
Other versions
FR2807537B1 (fr
Inventor
Michel Plu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0004419A priority Critical patent/FR2807537B1/fr
Priority to PL35971601A priority patent/PL359716A1/xx
Priority to AU2001248451A priority patent/AU2001248451A1/en
Priority to US10/240,720 priority patent/US20030187833A1/en
Priority to PCT/FR2001/000998 priority patent/WO2001077890A1/fr
Priority to EP01921462A priority patent/EP1269355A1/fr
Publication of FR2807537A1 publication Critical patent/FR2807537A1/fr
Application granted granted Critical
Publication of FR2807537B1 publication Critical patent/FR2807537B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Ce moteur de recherche comporte d'une part un module d'indexation de ressources accessibles sur un réseau informatique pour la création et la mise à jour d'une base d'indexation, d'autre part un module de recherche de ressources sur le réseau adapté pour interroger la base d'indexation à partir d'une requête formulée par un utilisateur et pour fournir, en réponse, l'adresse universelle URL des ressources correspondant à la requête, le module d'indexation comportant des moyens de collecte de ressources principales, des moyens d'extraction de ressources dépendantes à partir des ressources principales et des moyens d'indexation des ressources pour en extraire des descripteurs.En outre, le module d'indexation comporte des moyens d'association de chaque ressource dépendante à au plus une ressource principale en fonction des liens de type hypertexte entre ces ressources dépendantes et la ressource principale.

Description

La présente invention concerne un moteur de recherche comportant d'une part un module d'indexation de ressources accessibles sur un reseau informatique pour la création et la mise à jour d'une base d'indexation, d'autre part un module de recherche de ressources sur le réseau adapté pour interroger la base d'indexation à partir d'une requête formulée par un utilisateur pour fournir, en réponse, l'adresse universelle URL des ressources correspondant à la requête, le module d'indexation comportant des moyens de collecte de ressources principales, des moyens d'extraction de ressources dépendantes à partir des ressources principales et des moyens d'indexation des ressources pour en extraire des descripteurs. II existe aujourd'hui de tels moteurs de recherche. Parmi, ceux ' les moteurs de recherche pleine page, fonctionnent selon le principe suivant - à partir d'une liste initiale d'adresses universelles URL, par exemple definies manuellement, le module d'indexation collecte automatiquement les ressources accessibles à ces adresses ; - moyens d'indexation extraient de chacune de ces ressources un index en associant un ensemble de mots caractérisant son contenu - moyens d'extraction extraient de chaque ressource précédemment indexée l'ensemble des adresses universelles URL liens hypertextes 'elles contiennent permettant ainsi d'ajouter de nouvelles adresses URL a la liste initiale.
Ainsi, le processus peut être réitéré pour obtenir au final un très grand nombre de ressources indexées.
De plus, cette boucle est exécutée périodiquement afin de mettre à jour la base d'indexation en fonction de l'évolution du contenu des ressources de la liste initiale, ainsi que de l'apparition de nouveaux liens.
En réponse à une requête formulée par un utilisateur, le moteur de recherche renvoie les adresses universelles URL des ressources correspondant à la requête, en les ordonnant à partir d'un système de comptage de mots dans la base d'indexation. II retourne alors, le plus souvent, des milliers de réponses pour une requête. De plus, l'ordre de présentation de ces réponses ne résout pas toujours le problème de la recherche dans ces trop nombreuses ressources. En effet, cet ordre ne correspond pas aux besoins de l'utilisateur, tels l'usage ressources recherchées, la qualité d'information désirée ou tout autre critere personnel de l'utilisateur.
autre problème lié à ce type de moteurs de recherche est que réponses fournies donnent un accès direct aux contenus de ressources dont l'appréciation par l'utilisateur dépend parfois de la lecture antérieure d'autres ressources.
L'invention vise à remédier aux inconvénients des moteurs de recherche classiques en créant un moteur de recherche donnant l'accès à de nombreuses ressources tout en améliorant la qualité des réponses fournies, notamment fonction des besoins de l'utilisateur.
L'invention a donc pour objet un moteur de recherche du type précite, caractérisé en ce que le module d'indexation comportent en outre des moyens d'association de chaque ressource dépendante à au plus une ressource principale en fonction des liens de type hypertexte entre ces ressources dépendantes et la ressource principale.
la sorte, des ressources principales d'une première base d'information sont collectées et indexées. Celle-ci est complétée par un grand nombre ressources identifiées à partir des liens hypertextes présents dans les ressources principales.
moteur de recherche selon l'invention peut aussi comporter une plusieurs caractéristiques suivantes - le module d'indexation comporte des moyens de transfert d'une copie des descripteurs des ressources principales aux ressources dépendantes qui leur sont associées ; - le module de recherche comporte des moyens de filtrage d'une ressource indexée par le module d'indexation, par traitement combiné des descripteurs extraits de cette ressource et des descripteurs transférés à cette ressource ; - le module de recherche est adapté pour fournir, en réponse à une requête, l'adresse universelle URL d'une ressource dépendante correspondant à la requête, associée au lien hypertexte de la ressource principale associée à cette ressource dépendante ; - les moyens d'association comportent des moyens de sélection d'au plus une ressource principale parmi un ensemble de ressources principales susceptibles d'être associées à une ressource dépendante, minimisation d'une distance calculée entre la ressource dépendante et chaque ressource principale ; et - la distance entre deux ressources est une fonction decroissante du nombre de répertoires communs entre les adresses universelles des deux ressources.
L'invention a également pour objet un procédé indexation de ressources accessibles sur un réseau informatique pour la création la mise à jour d'une base d'indexation comprenant les étapes suivantes - collecte de ressources principales ; - indexation des ressources principales ; - extraction de ressources dépendantes à partir ressources principales ; caractérisé en ce qu'il comporte en outre les étapes suivantes - association de chaque ressource dépendante à plus une ressource principale en fonction des liens hypertextes entre ressources dépendantes et la ressource principale ; et - transfert d'une copie des descripteurs des ressources principales aux ressources dépendantes qui leur sont associées.
Le procédé d'indexation selon l'invention peut en outre comporter une étape d'exclusion, de la base d'indexation, de toute ressource dépendante non associée à une ressource principale.
L'invention sera mieux comprise à l'aide de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés sur lesquels - la figure 1 est un schéma illustrant la structure générale d'un moteur de recherche selon l'invention ; - la figure 2 est un schéma illustrant le fonctionnement d'un moteur de recherche selon l'invention ; et - la figure 3 est un organigramme détaillant le fonctionnement de moyens d'association d'une ressource dépendante à au plus une ressource principale, d'un moteur de recherche selon l'invention.
moteur de recherche selon l'invention représenté à la figure 1 comporte serveur 2 connecté, par le réseau Internet, d'une part à une base de données 4 constituée par la Toile d'Araignée Mondiale, classiquement appelée le Web, d'autre part à un terminal d'accès 6 d'un utilisateur en quête de ressources disponibles sur le Web.
serveur 2 comprend une base de données 8 d'annuaires. Un annuaire comporte un ensemble restreint d'adresses universelles URL de ressources principales correspondant chacune à la première page d'un document multimédia. Ces ressources principales sont associées à des descripteurs externes, par exemple enregistrés manuellement par des documentalistes éventuellement assistés par des outils informatiques. Ces descripteurs externes correspondent à un classement dans une nomenclature de thèmes, à un titre, à une présentation textuelle des ressources principales, de façon plus générale à des informations précisant le contexte des documents considéres.
serveur 2 comprend également une base d'indexation 1 comportant l'ensemble des descripteurs des ressources accessibles par I moteur de recherche. Elle comprend notamment les descripteurs externes ressources principales, tels que décrits précédemment.
serveur 2 comprend également un module d'indexation 12, comportant des moyens d'indexation automatique de ressources. Ceux-ci sont capables d'extraire des descripteurs externes en analysant contenu des ressources, de façon classique. Ce module inclut aussi un procédé d'association de ressources dépendantes à une ressource principale et de transfert des descripteurs externes d'une ressource principale à ses ressources dépendantes. Le fonctionnement de ce module sera détaillé dans la suite, lors de la description de la figure 2. module d'indexation est donc connecté en entrée à base de données d'annuaires ainsi qu'au Web 4, afin d'accéder à des ressources et, en sortie, a la base d'indexation 10, pour la fourniture de descripteurs.
serveur 2 comprend enfin un module de recherche 1 connecté d'une à la base d'indexation 10, d'autre part au terminal d'acces 6 pour la fourniture à un utilisateur, de ressources pertinentes en réponse à une requête de celui-ci.
fonctionnement du moteur de recherche, dont la structure a été décrite precédemment, est représenté à la figure 2.
module d'indexation 12 procède à l'enregistrement de descripteurs dans la base d'indexation 10, en plusieurs étapes.
cours d'une première étape 16 de collecte, le module d'indexation 12 accède aux ressources principales accessibles sur le Web 4, en recevant en entrée leurs adresses universelles URL, stockées dans la base de données 8 d'annuaires.
cours d'une deuxième étape 18 d'extraction, les moyens d'extraction extraient chaque ressource principale l'ensemble des adresses universelles URL liens hypertextes qu'elles contiennent. De nouvelles ressources, dépendantes, sont ainsi récupérées dont on peut extraire de nouveau les adresses universelles URL des liens hypertextes qu'elles contiennent elles- mêmes. procédé récursif d'extraction de ressources dépendantes à partir d'un premier ensemble de ressources principales est connu de l'état de la technique. it premier ensemble, appelé classiquement germe, est ici extrait de la base données d'annuaires 8.
Au cours d'une troisième étape 20 d'association, des moyens d'extraction associent chaque ressource dépendante à au plus une ressource principale. Cette association est fonction du nombre, du type ou de tout attribut des liens hypertextes qu'il faut suivre pour atteindre la ressource dépendante à partir l'adresse universelle URL de la ressource principale. A l'issue de cette étape, ressources dépendantes non associées à une ressource principale sont éliminées. Le procédé sera détaillé lors de la description de la figure 3. cours d'une quatrième étape 22 de transfert, des moyens de transfert copient descripteurs externes de chaque ressource principale et les transfèrent a toutes les ressources dépendantes qui lui sont associées.
Enfin, au cours d'une cinquième étape 24 d'indexation, les moyens d'indexation extraient des descripteurs de façon automatique pour chaque ressource. Lors de cette étape, le module d'indexation 12 enregistre dans la base d'indexation 10 les descripteurs relatifs à chaque ressource, ceux-ci comprenant les descripteurs extraits automatiquement ainsi que les descripteurs externes transférés par copie à une ressource dépendante à partir de la ressource principale associée à cette ressource dépendante, ou directement extraits la base de données 8 d'annuaire pour une ressource principale.
procédé décrit précédemment, de la première à la cinquième étape, est réitére régulièrement afin de tenir à jour la base d'indexation en fonction de l'évolution des ressources principales de la base de données d'annuaires, ainsi que de l'evolution des liens hypertextes qu'elles contiennent.
Lorsque la base d'indexation est à jour, l'utilisateur accède à un formulaire de requête défini par le module de recherche 14. Ce formulaire de requête prend la forme d'une page de présentation HTML. II permet à l'utilisateur d'entrer au moins un mot-clé et de préciser contexte de sa recherche en sélectionnant des valeurs d'un certain nombre de descripteurs parmi liste proposée. Les descripteurs de la liste proposee correspondent à au moins partie des descripteurs externes stockés dans base de données 8 d'annuaires et décrivant les ressources principales. Ils permettent par exemple de préciser un domaine de recherche, la tranche d'âge de l'utilisateur, etc. Ces précisions permettent au module de recherche de filtrer les ressources correspondant aux mots clés de la requête.
réponses sont donc constituées des ressources principales et dépendantes ayant des descripteurs extraits correspondant mots clés et des valeurs descripteurs externes correspondant à celles sélectionnées par l'utilisateur. Parmi les réponses, chaque ressource dépendante, retournée par le module recherche à l'utilisateur, est accompagnée d'un lien hypertexte vers la ressource principale associée à cette ressource dépendante.
procédé d'association d'une ressource dépendante à au plus une ressource principale, parmi un ensemble de N ressources principales, est conforme à l'organigramme représenté à la figure 3.
étape d'initialisation 100 initialise un indice i à 1 et un compteur L à zéro.
Ensuite, une étape 102 d'analyse identifie un chemin, c'est-à-dire une suite liens hypertextes, qu'il faut suivre pour atteindre la ressource dépendante à partir de l'adresse universelle URL de la i-ème ressource principale, Ensuite, une série de p étapes, 104,, ..., 104p, constitue un ensemble de règles portant sur les chemins identifiés à l'étape 102, et plus particulièrement, sur le nombre de liens, leur type et leurs attributs.
Sept types de liens sont définis de façon classique - les liens de structure de présentation, tels les cadres, les tableaux les éléments inclus ; les liens transversaux, entre deux fichiers de meme répertoire ; les liens parallèles, pour des fichiers situés dans des répertoires différents -même situés dans un même répertoire ; - les liens externes, entre des fichiers situés dans des sites différents ; - les liens plus profonds, lorsque le fichier de la ressource dépendante est situé dans un sous-répertoire du répertoire du fichier de la ressource principale; - les liens supérieurs, lorsque le fichier de la ressource principale est situé dans un sous-répertoire du répertoire du fichi de la ressource dépendante ; et - les liens menus, pour des liens inclus dans ressource pour laquelle nombre de liens inclus divisé par la taille de la ressource mesurée en octets supérieur à un seuil prédéterminé. attributs sont associés de façon classique aux ancres des liens et connus l'état de la technique.
moins l'une des règles n'est pas vérifiée, alors le procedé est reporté a étape 108. Si toutes les règles sont vérifiées, alors i-ème ressource principale est temporairement associée à la ressource dépendante et le procède est reporté à une étape 106. Une règle est par exemple nombre de liens inférieur ou égal à 4 , aucun lien n'est de type externe , L'etape 106 incrémente la valeur du compteur L d'une unité, sorte que L donne le nombre de ressources principales associées à la ressource dépendante, et reporte le procédé à l'étape 108.
L'etape 108 de bouclage teste la valeur de l'indice i. Si cet indice est inférieur strictement à N, alors le procédé passe à une étape 110, sinon, est-à- dire si i égal à N, le procédé passe à une étape 112.
L'etape 110 incrémente la valeur de l'indice i d'une unité et reporte le procédé à l'étape 102.
L'etape 112 teste la valeur du compteur L. Si L est égal à 0, alors le procédé reporté à une étape 114. Sinon, le procédé est reporté à étape 116 ultérieure.
L'etape 114 d'exclusion retire la ressource dépendante de la base d'indexation et termine le procédé d'association pour la ressource dépendante considérée.
L'étape 116 est également une étape de test sur la valeur de L. Si L est strictement supérieur à 1, alors le procédé est reporté à une étape 118, sinon il est reporte à une étape 120.
L'etape 118 sélectionne, parmi les ressources principales temporairement associées à la ressource dépendante, celle qui minimise une distance rapport à la ressource dépendante. Cette distance est une fonction décroissante du nombre de répertoires communs entre les adresses universelles URL de deux ressources. Le procédé est ensuite reporté à l'étape 120 si ressource principale est sélectionnée. Si plusieurs ressources principales minimisent la distance, le procédé est reporté à l'étape 114. L'étape 120 de fin de procédé valide l'association entre la ressource dépendante et l'unique ressource principale sélectionnée.
II apparaît clairement qu'un moteur de recherche selon l'invention remédie aux inconvénients des moteurs de recherche classiques.
En effet, une indexation intelligente de ressources principales, adaptée pour prendre en compte le contexte d'une requête lancee par un utilisateur, permet leur classement en grandes catégories et un filtrage de qualité des réponses à requête. De plus, cette indexation accompagnée de l'association très grand nombre de ressources dépendantes à chacune de ces ressources principales, ce qui permet d'améliorer quantité tout en conservant qualité des réponses fournies.
Un autre avantage de ce moteur de recherche la possibilité qu'il offre de présenter à un utilisateur une ressource répondant aux critères de sa requête, accompagnée d'une ressource principale plus génerale, explicitant son contexte.

Claims (8)

<B><U>REVENDICATIONS</U></B>
1. Moteur de recherche comportant un serveur (2) comprenant une base de donnees (8) d'annuaires, une base d'indexation (10), un module (12) d'indexation ressources (4) accessibles sur un réseau informatique pour création et mise à jour de la base d'indexation (10), et un module (14) recherche ressources sur le réseau connecté d'une part à la base d'indexation (10), d'autre part à un terminal d'accès (6) et adapté pour interroger la base d'indexation (10) à partir d'une requête formulée par un utilisateur et pour fournir, en réponse, l'adresse universelle URL des ressources correspondant ' la requête, le module d'indexation (12) comportant des moyens (16) de collecte de ressources principales, à partir de la base de données (8) d'annuaires, des moyens (18) d'extraction de ressources dépendantes à partir des ressources principales et des moyens (24) d'indexation des ressources (4) pour en extraire des descripteurs, caractérisé en ce que le module d'indexation (12) comporte en outre des moyens (20) d'association de chaque ressource dépendante à au plus une ressource principale en fonction des liens de type hypertexte entre ces ressources dépendantes et la ressource principale.
2. Moteur de recherche selon la revendication 1, caractérisé en ce le module d'indexation comporte des moyens (22) de transfert d'une copie descripteurs ressources principales aux ressources dépendantes qui leur sont associées.
3. Moteur de recherche selon la revendication 2, caractérisé en ce que le module de recherche (14) comporte des moyens de filtrage d'une ressource indexée par le module d'indexation, par traitement combiné des descripteurs extraits de cette ressource et des descripteurs transférés à cette ressource.
4. Moteur de recherche selon l'une des revendications 1 à caractérisé en ce que le module de recherche (14) est adapté pour fournir, réponse à une requête, l'adresse universelle URL d'une ressource dépendante correspondant à la requête, associée au lien hypertexte de la ressource principale associée à cette ressource dépendante.
5. Moteur de recherche selon l'une des revendications 1 à caractérisé en ce que les moyens d'association (22) comportent des moyens sélection d'au plus une ressource principale parmi un ensemble de ressources principales susceptibles d'être associées à une ressource dépendante, par minimisation d'une distance calculée entre la ressource dépendante et chaque ressource principale.
6. Moteur de recherche selon la revendication 5, caractérisé en ce que distance entre deux ressources est une fonction décroissante du nombre de repertoires communs entre les adresses universelles URL des deux ressources.
7. Procédé d'indexation de ressources accessibles sur un réseau informatique pour la création et la mise à jour d'une base d'indexation (10), comprenant les étapes suivantes - collecte de ressources principales accessibles sur le reseau, à partir d'une base de données (8) d'annuaires ; - extraction de ressources dépendantes à partir ressources principales ; - indexation des ressources principales et dépendantes, extraction de descripteurs associés à ces ressources ; - enregistrement des descripteurs relatifs à chaque ressource dans une base d'indexation (10) ; caractérisé en ce qu'il comporte en outre les étapes suivantes - association de chaque ressource dépendante à plus une ressource principale en fonction des liens hypertextes entre ressources dépendantes et la ressource principale ; et - transfert d'une copie des descripteurs des ressources principales aux ressources dépendantes qui leur sont associées.
8. Procédé d'indexation selon la revendication 7, caractérisé en ce qu'il comporte en outre une étape d'exclusion, de la base d'indexation, de toute ressource dépendante non associée à une ressource principale.
FR0004419A 2000-04-06 2000-04-06 Moteur de recherche de ressources hypermedia et procede d'indexation associe Expired - Fee Related FR2807537B1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR0004419A FR2807537B1 (fr) 2000-04-06 2000-04-06 Moteur de recherche de ressources hypermedia et procede d'indexation associe
PL35971601A PL359716A1 (en) 2000-04-06 2001-04-03 Hypermedia resource search engine and related indexing method
AU2001248451A AU2001248451A1 (en) 2000-04-06 2001-04-03 Hypermedia resource search engine and related indexing method
US10/240,720 US20030187833A1 (en) 2000-04-06 2001-04-03 Hypermedia resource search engine and related indexing method
PCT/FR2001/000998 WO2001077890A1 (fr) 2000-04-06 2001-04-03 Moteur de recherche de ressources hypermedia et procede d'indexation associe
EP01921462A EP1269355A1 (fr) 2000-04-06 2001-04-03 Moteur de recherche de ressources hypermedia et procede d'indexation associe

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0004419A FR2807537B1 (fr) 2000-04-06 2000-04-06 Moteur de recherche de ressources hypermedia et procede d'indexation associe

Publications (2)

Publication Number Publication Date
FR2807537A1 true FR2807537A1 (fr) 2001-10-12
FR2807537B1 FR2807537B1 (fr) 2003-10-17

Family

ID=8848953

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0004419A Expired - Fee Related FR2807537B1 (fr) 2000-04-06 2000-04-06 Moteur de recherche de ressources hypermedia et procede d'indexation associe

Country Status (6)

Country Link
US (1) US20030187833A1 (fr)
EP (1) EP1269355A1 (fr)
AU (1) AU2001248451A1 (fr)
FR (1) FR2807537B1 (fr)
PL (1) PL359716A1 (fr)
WO (1) WO2001077890A1 (fr)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8296304B2 (en) 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7293005B2 (en) 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US7424467B2 (en) 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US8417693B2 (en) 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
CN103164435B (zh) * 2011-12-13 2016-03-09 北大方正集团有限公司 一种网络数据的采集方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0817107A2 (fr) * 1996-07-01 1998-01-07 Sun Microsystems, Inc. Méthode et appareil de présentation d'information concernant chacun d'une pluralité d'hyperliens
GB2328297A (en) * 1997-08-13 1999-02-17 Ibm Hyperlinked index entries have adjustable text according to context
WO2000008572A1 (fr) * 1998-08-06 2000-02-17 Global Information Research And Technologies, Llc Systeme de recherche et d'hebergement d'index

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPQ131399A0 (en) * 1999-06-30 1999-07-22 Silverbrook Research Pty Ltd A method and apparatus (NPAGE02)
US5841978A (en) * 1993-11-18 1998-11-24 Digimarc Corporation Network linking method using steganographically embedded data objects
US6772139B1 (en) * 1998-10-05 2004-08-03 Smith, Iii Julius O. Method and apparatus for facilitating use of hypertext links on the world wide web
US6490577B1 (en) * 1999-04-01 2002-12-03 Polyvista, Inc. Search engine with user activity memory
US7099898B1 (en) * 1999-08-12 2006-08-29 International Business Machines Corporation Data access system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0817107A2 (fr) * 1996-07-01 1998-01-07 Sun Microsystems, Inc. Méthode et appareil de présentation d'information concernant chacun d'une pluralité d'hyperliens
GB2328297A (en) * 1997-08-13 1999-02-17 Ibm Hyperlinked index entries have adjustable text according to context
WO2000008572A1 (fr) * 1998-08-06 2000-02-17 Global Information Research And Technologies, Llc Systeme de recherche et d'hebergement d'index

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARDO A ET AL: "A regional distributed WWW search and indexing service -- the DESIRE way", COMPUTER NETWORKS AND ISDN SYSTEMS,NL,NORTH HOLLAND PUBLISHING. AMSTERDAM, vol. 30, no. 1-7, 1 April 1998 (1998-04-01), pages 173 - 183, XP004121429, ISSN: 0169-7552 *

Also Published As

Publication number Publication date
PL359716A1 (en) 2004-09-06
EP1269355A1 (fr) 2003-01-02
FR2807537B1 (fr) 2003-10-17
US20030187833A1 (en) 2003-10-02
AU2001248451A1 (en) 2001-10-23
WO2001077890A1 (fr) 2001-10-18

Similar Documents

Publication Publication Date Title
JP4722051B2 (ja) 傾向分析を用いる検索クエリ処理のためのシステムおよび方法
US9947025B2 (en) Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the internet
US6904560B1 (en) Identifying key images in a document in correspondence to document text
CN100405371C (zh) 一种提取新词的方法和系统
JP3673487B2 (ja) 階層的統計分析のシステム及び方法
CN101246499B (zh) 网络信息搜索方法及系统
US20050027691A1 (en) System and method for providing a user interface with search query broadening
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
US20080189591A1 (en) Method and system for generating a media presentation
CN1389811A (zh) 搜索引擎的智能化搜索方法
US8751494B2 (en) Constructing album data using discrete track data from multiple sources
KR20130097290A (ko) 사용자의 관심주제를 기반으로 인터넷 문서를 제공하는 장치 및 그 방법
KR20080024712A (ko) 사용자의 검색 히스토리를 이용한 모바일 정보 검색 방법,분류 방법 및 정보 검색 시스템
KR20030016037A (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
US20150294005A1 (en) Method and device for acquiring information
JP4875911B2 (ja) コンテンツ特定方法及び装置
FR2807537A1 (fr) Moteur de recherche de ressources hypermedia et procede d&#39;indexation associe
KR20040017824A (ko) 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
KR20030069640A (ko) 계층적 및 개념적 클러스터링에 의한 정보검색 시스템 및그 방법
FR3006472A1 (fr) Procede de recherche dans une base de donnees
KR20010105983A (ko) 인터넷 서비스 제공방법
EP1334444A1 (fr) Procede de recherche, de selection et de representation cartographique de pages web
CN111241313A (zh) 支持图像录入的检索方法和装置
WO2013117872A1 (fr) Procede d&#39;identification d&#39;un ensemble de phrases d&#39;un document numerique, procede de generation d&#39;un document numerique, dispositif associe
WO2004088542A1 (fr) Procede de gestion de sites web enregistres dans un moteur de recherche et systeme associe

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20081231