FR2807537A1

FR2807537A1 - Moteur de recherche de ressources hypermedia et procede d'indexation associe

Info

Publication number: FR2807537A1
Application number: FR0004419A
Authority: FR
Inventors: Michel Plu
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2000-04-06
Filing date: 2000-04-06
Publication date: 2001-10-12
Anticipated expiration: 2020-04-06
Also published as: PL359716A1; EP1269355A1; FR2807537B1; US20030187833A1; AU2001248451A1; WO2001077890A1

Abstract

Ce moteur de recherche comporte d'une part un module d'indexation de ressources accessibles sur un réseau informatique pour la création et la mise à jour d'une base d'indexation, d'autre part un module de recherche de ressources sur le réseau adapté pour interroger la base d'indexation à partir d'une requête formulée par un utilisateur et pour fournir, en réponse, l'adresse universelle URL des ressources correspondant à la requête, le module d'indexation comportant des moyens de collecte de ressources principales, des moyens d'extraction de ressources dépendantes à partir des ressources principales et des moyens d'indexation des ressources pour en extraire des descripteurs.En outre, le module d'indexation comporte des moyens d'association de chaque ressource dépendante à au plus une ressource principale en fonction des liens de type hypertexte entre ces ressources dépendantes et la ressource principale.

Description

La présente invention concerne un moteur de recherche comportant d'une part un module d'indexation de ressources accessibles sur un reseau informatique pour la création et la mise à jour d'une base d'indexation, d'autre part un module de recherche de ressources sur le réseau adapté pour interroger la base d'indexation à partir d'une requête formulée par un utilisateur pour fournir, en réponse, l'adresse universelle URL des ressources correspondant à la requête, le module d'indexation comportant des moyens de collecte de ressources principales, des moyens d'extraction de ressources dépendantes à partir des ressources principales et des moyens d'indexation des ressources pour en extraire des descripteurs. II existe aujourd'hui de tels moteurs de recherche. Parmi, ceux ' les moteurs de recherche pleine page, fonctionnent selon le principe suivant - à partir d'une liste initiale d'adresses universelles URL, par exemple definies manuellement, le module d'indexation collecte automatiquement les ressources accessibles à ces adresses ; - moyens d'indexation extraient de chacune de ces ressources un index en associant un ensemble de mots caractérisant son contenu - moyens d'extraction extraient de chaque ressource précédemment indexée l'ensemble des adresses universelles URL liens hypertextes 'elles contiennent permettant ainsi d'ajouter de nouvelles adresses URL a la liste initiale.

Ainsi, le processus peut être réitéré pour obtenir au final un très grand nombre de ressources indexées.

De plus, cette boucle est exécutée périodiquement afin de mettre à jour la base d'indexation en fonction de l'évolution du contenu des ressources de la liste initiale, ainsi que de l'apparition de nouveaux liens.

En réponse à une requête formulée par un utilisateur, le moteur de recherche renvoie les adresses universelles URL des ressources correspondant à la requête, en les ordonnant à partir d'un système de comptage de mots dans la base d'indexation. II retourne alors, le plus souvent, des milliers de réponses pour une requête. De plus, l'ordre de présentation de ces réponses ne résout pas toujours le problème de la recherche dans ces trop nombreuses ressources. En effet, cet ordre ne correspond pas aux besoins de l'utilisateur, tels l'usage ressources recherchées, la qualité d'information désirée ou tout autre critere personnel de l'utilisateur.

autre problème lié à ce type de moteurs de recherche est que réponses fournies donnent un accès direct aux contenus de ressources dont l'appréciation par l'utilisateur dépend parfois de la lecture antérieure d'autres ressources.

L'invention vise à remédier aux inconvénients des moteurs de recherche classiques en créant un moteur de recherche donnant l'accès à de nombreuses ressources tout en améliorant la qualité des réponses fournies, notamment fonction des besoins de l'utilisateur.

L'invention a donc pour objet un moteur de recherche du type précite, caractérisé en ce que le module d'indexation comportent en outre des moyens d'association de chaque ressource dépendante à au plus une ressource principale en fonction des liens de type hypertexte entre ces ressources dépendantes et la ressource principale.

la sorte, des ressources principales d'une première base d'information sont collectées et indexées. Celle-ci est complétée par un grand nombre ressources identifiées à partir des liens hypertextes présents dans les ressources principales.

moteur de recherche selon l'invention peut aussi comporter une plusieurs caractéristiques suivantes - le module d'indexation comporte des moyens de transfert d'une copie des descripteurs des ressources principales aux ressources dépendantes qui leur sont associées ; - le module de recherche comporte des moyens de filtrage d'une ressource indexée par le module d'indexation, par traitement combiné des descripteurs extraits de cette ressource et des descripteurs transférés à cette ressource ; - le module de recherche est adapté pour fournir, en réponse à une requête, l'adresse universelle URL d'une ressource dépendante correspondant à la requête, associée au lien hypertexte de la ressource principale associée à cette ressource dépendante ; - les moyens d'association comportent des moyens de sélection d'au plus une ressource principale parmi un ensemble de ressources principales susceptibles d'être associées à une ressource dépendante, minimisation d'une distance calculée entre la ressource dépendante et chaque ressource principale ; et - la distance entre deux ressources est une fonction decroissante du nombre de répertoires communs entre les adresses universelles des deux ressources.

L'invention a également pour objet un procédé indexation de ressources accessibles sur un réseau informatique pour la création la mise à jour d'une base d'indexation comprenant les étapes suivantes - collecte de ressources principales ; - indexation des ressources principales ; - extraction de ressources dépendantes à partir ressources principales ; caractérisé en ce qu'il comporte en outre les étapes suivantes - association de chaque ressource dépendante à plus une ressource principale en fonction des liens hypertextes entre ressources dépendantes et la ressource principale ; et - transfert d'une copie des descripteurs des ressources principales aux ressources dépendantes qui leur sont associées.

Le procédé d'indexation selon l'invention peut en outre comporter une étape d'exclusion, de la base d'indexation, de toute ressource dépendante non associée à une ressource principale.

L'invention sera mieux comprise à l'aide de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés sur lesquels - la figure 1 est un schéma illustrant la structure générale d'un moteur de recherche selon l'invention ; - la figure 2 est un schéma illustrant le fonctionnement d'un moteur de recherche selon l'invention ; et - la figure 3 est un organigramme détaillant le fonctionnement de moyens d'association d'une ressource dépendante à au plus une ressource principale, d'un moteur de recherche selon l'invention.

moteur de recherche selon l'invention représenté à la figure 1 comporte serveur 2 connecté, par le réseau Internet, d'une part à une base de données 4 constituée par la Toile d'Araignée Mondiale, classiquement appelée le Web, d'autre part à un terminal d'accès 6 d'un utilisateur en quête de ressources disponibles sur le Web.

serveur 2 comprend une base de données 8 d'annuaires. Un annuaire comporte un ensemble restreint d'adresses universelles URL de ressources principales correspondant chacune à la première page d'un document multimédia. Ces ressources principales sont associées à des descripteurs externes, par exemple enregistrés manuellement par des documentalistes éventuellement assistés par des outils informatiques. Ces descripteurs externes correspondent à un classement dans une nomenclature de thèmes, à un titre, à une présentation textuelle des ressources principales, de façon plus générale à des informations précisant le contexte des documents considéres.

serveur 2 comprend également une base d'indexation 1 comportant l'ensemble des descripteurs des ressources accessibles par I moteur de recherche. Elle comprend notamment les descripteurs externes ressources principales, tels que décrits précédemment.

serveur 2 comprend également un module d'indexation 12, comportant des moyens d'indexation automatique de ressources. Ceux-ci sont capables d'extraire des descripteurs externes en analysant contenu des ressources, de façon classique. Ce module inclut aussi un procédé d'association de ressources dépendantes à une ressource principale et de transfert des descripteurs externes d'une ressource principale à ses ressources dépendantes. Le fonctionnement de ce module sera détaillé dans la suite, lors de la description de la figure 2. module d'indexation est donc connecté en entrée à base de données d'annuaires ainsi qu'au Web 4, afin d'accéder à des ressources et, en sortie, a la base d'indexation 10, pour la fourniture de descripteurs.

serveur 2 comprend enfin un module de recherche 1 connecté d'une à la base d'indexation 10, d'autre part au terminal d'acces 6 pour la fourniture à un utilisateur, de ressources pertinentes en réponse à une requête de celui-ci.

fonctionnement du moteur de recherche, dont la structure a été décrite precédemment, est représenté à la figure 2.

module d'indexation 12 procède à l'enregistrement de descripteurs dans la base d'indexation 10, en plusieurs étapes.

cours d'une première étape 16 de collecte, le module d'indexation 12 accède aux ressources principales accessibles sur le Web 4, en recevant en entrée leurs adresses universelles URL, stockées dans la base de données 8 d'annuaires.

cours d'une deuxième étape 18 d'extraction, les moyens d'extraction extraient chaque ressource principale l'ensemble des adresses universelles URL liens hypertextes qu'elles contiennent. De nouvelles ressources, dépendantes, sont ainsi récupérées dont on peut extraire de nouveau les adresses universelles URL des liens hypertextes qu'elles contiennent elles- mêmes. procédé récursif d'extraction de ressources dépendantes à partir d'un premier ensemble de ressources principales est connu de l'état de la technique. it premier ensemble, appelé classiquement germe, est ici extrait de la base données d'annuaires 8.

Au cours d'une troisième étape 20 d'association, des moyens d'extraction associent chaque ressource dépendante à au plus une ressource principale. Cette association est fonction du nombre, du type ou de tout attribut des liens hypertextes qu'il faut suivre pour atteindre la ressource dépendante à partir l'adresse universelle URL de la ressource principale. A l'issue de cette étape, ressources dépendantes non associées à une ressource principale sont éliminées. Le procédé sera détaillé lors de la description de la figure 3. cours d'une quatrième étape 22 de transfert, des moyens de transfert copient descripteurs externes de chaque ressource principale et les transfèrent a toutes les ressources dépendantes qui lui sont associées.

Enfin, au cours d'une cinquième étape 24 d'indexation, les moyens d'indexation extraient des descripteurs de façon automatique pour chaque ressource. Lors de cette étape, le module d'indexation 12 enregistre dans la base d'indexation 10 les descripteurs relatifs à chaque ressource, ceux-ci comprenant les descripteurs extraits automatiquement ainsi que les descripteurs externes transférés par copie à une ressource dépendante à partir de la ressource principale associée à cette ressource dépendante, ou directement extraits la base de données 8 d'annuaire pour une ressource principale.

procédé décrit précédemment, de la première à la cinquième étape, est réitére régulièrement afin de tenir à jour la base d'indexation en fonction de l'évolution des ressources principales de la base de données d'annuaires, ainsi que de l'evolution des liens hypertextes qu'elles contiennent.

Lorsque la base d'indexation est à jour, l'utilisateur accède à un formulaire de requête défini par le module de recherche 14. Ce formulaire de requête prend la forme d'une page de présentation HTML. II permet à l'utilisateur d'entrer au moins un mot-clé et de préciser contexte de sa recherche en sélectionnant des valeurs d'un certain nombre de descripteurs parmi liste proposée. Les descripteurs de la liste proposee correspondent à au moins partie des descripteurs externes stockés dans base de données 8 d'annuaires et décrivant les ressources principales. Ils permettent par exemple de préciser un domaine de recherche, la tranche d'âge de l'utilisateur, etc. Ces précisions permettent au module de recherche de filtrer les ressources correspondant aux mots clés de la requête.

réponses sont donc constituées des ressources principales et dépendantes ayant des descripteurs extraits correspondant mots clés et des valeurs descripteurs externes correspondant à celles sélectionnées par l'utilisateur. Parmi les réponses, chaque ressource dépendante, retournée par le module recherche à l'utilisateur, est accompagnée d'un lien hypertexte vers la ressource principale associée à cette ressource dépendante.

procédé d'association d'une ressource dépendante à au plus une ressource principale, parmi un ensemble de N ressources principales, est conforme à l'organigramme représenté à la figure 3.

étape d'initialisation 100 initialise un indice i à 1 et un compteur L à zéro.

Ensuite, une étape 102 d'analyse identifie un chemin, c'est-à-dire une suite liens hypertextes, qu'il faut suivre pour atteindre la ressource dépendante à partir de l'adresse universelle URL de la i-ème ressource principale, Ensuite, une série de p étapes, 104,, ..., 104p, constitue un ensemble de règles portant sur les chemins identifiés à l'étape 102, et plus particulièrement, sur le nombre de liens, leur type et leurs attributs.

Sept types de liens sont définis de façon classique - les liens de structure de présentation, tels les cadres, les tableaux les éléments inclus ; les liens transversaux, entre deux fichiers de meme répertoire ; les liens parallèles, pour des fichiers situés dans des répertoires différents -même situés dans un même répertoire ; - les liens externes, entre des fichiers situés dans des sites différents ; - les liens plus profonds, lorsque le fichier de la ressource dépendante est situé dans un sous-répertoire du répertoire du fichier de la ressource principale; - les liens supérieurs, lorsque le fichier de la ressource principale est situé dans un sous-répertoire du répertoire du fichi de la ressource dépendante ; et - les liens menus, pour des liens inclus dans ressource pour laquelle nombre de liens inclus divisé par la taille de la ressource mesurée en octets supérieur à un seuil prédéterminé. attributs sont associés de façon classique aux ancres des liens et connus l'état de la technique.

moins l'une des règles n'est pas vérifiée, alors le procedé est reporté a étape 108. Si toutes les règles sont vérifiées, alors i-ème ressource principale est temporairement associée à la ressource dépendante et le procède est reporté à une étape 106. Une règle est par exemple nombre de liens inférieur ou égal à 4 , aucun lien n'est de type externe , L'etape 106 incrémente la valeur du compteur L d'une unité, sorte que L donne le nombre de ressources principales associées à la ressource dépendante, et reporte le procédé à l'étape 108.

L'etape 108 de bouclage teste la valeur de l'indice i. Si cet indice est inférieur strictement à N, alors le procédé passe à une étape 110, sinon, est-à- dire si i égal à N, le procédé passe à une étape 112.

L'etape 110 incrémente la valeur de l'indice i d'une unité et reporte le procédé à l'étape 102.

L'etape 112 teste la valeur du compteur L. Si L est égal à 0, alors le procédé reporté à une étape 114. Sinon, le procédé est reporté à étape 116 ultérieure.

L'etape 114 d'exclusion retire la ressource dépendante de la base d'indexation et termine le procédé d'association pour la ressource dépendante considérée.

L'étape 116 est également une étape de test sur la valeur de L. Si L est strictement supérieur à 1, alors le procédé est reporté à une étape 118, sinon il est reporte à une étape 120.

L'etape 118 sélectionne, parmi les ressources principales temporairement associées à la ressource dépendante, celle qui minimise une distance rapport à la ressource dépendante. Cette distance est une fonction décroissante du nombre de répertoires communs entre les adresses universelles URL de deux ressources. Le procédé est ensuite reporté à l'étape 120 si ressource principale est sélectionnée. Si plusieurs ressources principales minimisent la distance, le procédé est reporté à l'étape 114. L'étape 120 de fin de procédé valide l'association entre la ressource dépendante et l'unique ressource principale sélectionnée.

II apparaît clairement qu'un moteur de recherche selon l'invention remédie aux inconvénients des moteurs de recherche classiques.

En effet, une indexation intelligente de ressources principales, adaptée pour prendre en compte le contexte d'une requête lancee par un utilisateur, permet leur classement en grandes catégories et un filtrage de qualité des réponses à requête. De plus, cette indexation accompagnée de l'association très grand nombre de ressources dépendantes à chacune de ces ressources principales, ce qui permet d'améliorer quantité tout en conservant qualité des réponses fournies.

Un autre avantage de ce moteur de recherche la possibilité qu'il offre de présenter à un utilisateur une ressource répondant aux critères de sa requête, accompagnée d'une ressource principale plus génerale, explicitant son contexte.

Claims

<B><U>REVENDICATIONS</U></B>

1. Moteur de recherche comportant un serveur (2) comprenant une base de donnees (8) d'annuaires, une base d'indexation (10), un module (12) d'indexation ressources (4) accessibles sur un réseau informatique pour création et mise à jour de la base d'indexation (10), et un module (14) recherche ressources sur le réseau connecté d'une part à la base d'indexation (10), d'autre part à un terminal d'accès (6) et adapté pour interroger la base d'indexation (10) à partir d'une requête formulée par un utilisateur et pour fournir, en réponse, l'adresse universelle URL des ressources correspondant ' la requête, le module d'indexation (12) comportant des moyens (16) de collecte de ressources principales, à partir de la base de données (8) d'annuaires, des moyens (18) d'extraction de ressources dépendantes à partir des ressources principales et des moyens (24) d'indexation des ressources (4) pour en extraire des descripteurs, caractérisé en ce que le module d'indexation (12) comporte en outre des moyens (20) d'association de chaque ressource dépendante à au plus une ressource principale en fonction des liens de type hypertexte entre ces ressources dépendantes et la ressource principale.

2. Moteur de recherche selon la revendication 1, caractérisé en ce le module d'indexation comporte des moyens (22) de transfert d'une copie descripteurs ressources principales aux ressources dépendantes qui leur sont associées.

3. Moteur de recherche selon la revendication 2, caractérisé en ce que le module de recherche (14) comporte des moyens de filtrage d'une ressource indexée par le module d'indexation, par traitement combiné des descripteurs extraits de cette ressource et des descripteurs transférés à cette ressource.

4. Moteur de recherche selon l'une des revendications 1 à caractérisé en ce que le module de recherche (14) est adapté pour fournir, réponse à une requête, l'adresse universelle URL d'une ressource dépendante correspondant à la requête, associée au lien hypertexte de la ressource principale associée à cette ressource dépendante.

5. Moteur de recherche selon l'une des revendications 1 à caractérisé en ce que les moyens d'association (22) comportent des moyens sélection d'au plus une ressource principale parmi un ensemble de ressources principales susceptibles d'être associées à une ressource dépendante, par minimisation d'une distance calculée entre la ressource dépendante et chaque ressource principale.

6. Moteur de recherche selon la revendication 5, caractérisé en ce que distance entre deux ressources est une fonction décroissante du nombre de repertoires communs entre les adresses universelles URL des deux ressources.

7. Procédé d'indexation de ressources accessibles sur un réseau informatique pour la création et la mise à jour d'une base d'indexation (10), comprenant les étapes suivantes - collecte de ressources principales accessibles sur le reseau, à partir d'une base de données (8) d'annuaires ; - extraction de ressources dépendantes à partir ressources principales ; - indexation des ressources principales et dépendantes, extraction de descripteurs associés à ces ressources ; - enregistrement des descripteurs relatifs à chaque ressource dans une base d'indexation (10) ; caractérisé en ce qu'il comporte en outre les étapes suivantes - association de chaque ressource dépendante à plus une ressource principale en fonction des liens hypertextes entre ressources dépendantes et la ressource principale ; et - transfert d'une copie des descripteurs des ressources principales aux ressources dépendantes qui leur sont associées.

8. Procédé d'indexation selon la revendication 7, caractérisé en ce qu'il comporte en outre une étape d'exclusion, de la base d'indexation, de toute ressource dépendante non associée à une ressource principale.