CA2610517A1 - Process for analysis and processing of requests applied to a search engine - Google Patents

Process for analysis and processing of requests applied to a search engine Download PDF

Info

Publication number
CA2610517A1
CA2610517A1 CA 2610517 CA2610517A CA2610517A1 CA 2610517 A1 CA2610517 A1 CA 2610517A1 CA 2610517 CA2610517 CA 2610517 CA 2610517 A CA2610517 A CA 2610517A CA 2610517 A1 CA2610517 A1 CA 2610517A1
Authority
CA
Canada
Prior art keywords
word
index
words
result
additional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
CA 2610517
Other languages
French (fr)
Inventor
Roland Moreno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovatron SA
Original Assignee
Innovatron SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/598,229 external-priority patent/US20080113801A1/en
Application filed by Innovatron SA filed Critical Innovatron SA
Publication of CA2610517A1 publication Critical patent/CA2610517A1/en
Abandoned legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Le système comprend : un site (40) interfacé à un moteur de recherche ; des moyens (10, 20) pour produire des mots de vocabulaire ; des moyens (42) pour soumettre a u moteur des requêtes contenant chacune un mot ou un groupe de mots ; et des moyens pour recevoir un résultat représentatif des occurrences du mot, ou de l'associati on de mots, dans des pages web indexées par le moteur. Le procédé comprend : (a) la détermination d'un mot de départ et la soumission d'une requête; (b) la réception d'un résultat initial; (c) la génération d'un mot additionnel et la soumission d'une requête ; (d) la réception du résultat, inférieur au résultat initial, correspondant à la requête formulée à l'étape c) ; (e) la réitération N-1 fois des étapes c) et d) avec un mot additionnel différent, donnant N résultats respectifs ; et (f) le classement de ces N résultats.The system includes: a site (40) interfaced to a search engine; means (10, 20) for generating vocabulary words; means (42) for submitting to the engine queries each containing a word or group of words; and means for receiving a result representative of the occurrences of the word, or the association of words, in web pages indexed by the engine. The method includes: (a) determining a start word and submitting a query; (b) receipt of an initial result; (c) the generation of an additional word and the submission of a request; (d) receiving the result, lower than the initial result, corresponding to the request formulated in step c); (e) repeating N-1 times steps c) and d) with a different additional word, giving N respective results; and (f) the ranking of these N results.

Description

Procédé d'analyse et de traitement des requêtes appliquées à un moteur de recherche Domaine technique L'invention concerne un procédé d'analyse et de traitement de requêtes appliquées à un moteur de recherche.

Plus précisément, elle vise à améliorer les performances de ces moteurs de recherche de manière à assurer de façon plus efficace et économe (en termes de ressources informatiques) l'extraction des informations recherchées.

Technique antérieure Le développement récent des applications liées à l'utilisation d'Internet a rendu populaire l'usage des moteurs de recherche tels que Google (marque déposée de Google Inc.) ou Exalead (marque déposée d'Exalead SA) pour la recherche d'informations, grâce à la capacité de ces moteurs de recherche d'indexer le contenu de plusieurs milliards de pages accessibles à la consultation sur toutes sortes de sites Internet.

Ces moteurs de recherche (ci-après "moteurs") sont mis en ceuvre en leur adressant une requête contenant un mot ou une "phrase", c'est-à-dire plusieurs mots (en l'absence d'opérateur particulier tels que AND, OR, etc. les mots sont censés être reliés par un ET
logique).

Le moteur répond à cette requête en l'espace d'une fraction de seconde, fournissant une valeur numérique (intitulée "Résultats") représentative des occurrences ("hits") de pages contenant ce mot (ou les mots de la phrase) parmi l'ensemble des pages indexées par le moteur, ainsi qu'une liste des sites Internet pertinents correspondants.

Le nombre d'occurences (ci-après "résultat") proposé en retour par le moteur dépend grandement du choix des mots qui constituent la demande. Pour certains mots, il peut atteindre des dizaines, voire des centaines de milliers ou millions, tandis que pour d'autres il se réduit à un très petit nombre (quelques dizaines, voir unités). Si l'utilisateur soumet
Method of analysis and treatment queries applied to a search engine Technical area The invention relates to a method for analyzing and processing requests applied to a search engine.

More specifically, it aims to improve the performance of these engines.
research of in a more efficient and economical way (in terms of resources the extraction of the information sought.

Prior art The recent development of applications related to the use of the Internet has made popular the use of search engines such as Google (trademark of Google Inc.) or Exalead (registered trademark of Exalead SA) for the search for information, thanks to to the ability of these search engines to index the content of several billion pages accessible to consultation on all kinds of websites.

These search engines (hereinafter "engines") are implemented in their addressing a a query containing a word or a "sentence", ie several words (in the absence particular operator such as AND, OR, etc. the words are supposed to be connected by an AND
logic).

The engine responds to this request in a fraction of a second, providing a numeric value (called "Results") representative of occurrences ("hits") of pages containing this word (or the words of the sentence) among all pages indexed by the search engine and a list of relevant Internet sites.

The number of occurrences (hereinafter "result") proposed in return by the engine depends greatly from the choice of words that constitute the request. For some words, he can reach tens or even hundreds of thousands or millions, while than for others it is reduced to a very small number (a few tens, see units). Yes the user submits

-2-des termes très généraux, le résultat sera extrêmement élevé ; si, à
l'inverse, il utilise une désignation très précise, le résultat sera beaucoup plus réduit.

Les premières générations de moteurs de recherche opéraient en analysant les pages indexées sur un critère de concordance exacte, littérale, du mot fourni avec la requête.

Ceci conduisait les utilisateurs à souvent procéder par tâtonnements, en multipliant les requêtes, modifiant les termes soumis au moteur de recherche, en ajoutant ou retranchant certains termes, etc. et ceci de façon totalement empirique et sans aucune certitude que les modifications apportées puissent contribuer à faire réellement converger le moteur vers l'objet de la recherche. De plus, l'expérience montre que les utilisateurs évaluent mal le pouvoir discriminant des mots à l'égard des moteurs de recherche informatiques dans le processus de recherche propre à celui-ci, conduisant à des résultats erratiques, mal maitrisés.

Outre le risque d'omettre des réponses pertinentes, il en résulte du point de vue technique une multiplication inutile du nombre de requêtes, avec une augmentation corrélative du trafic sur le réseau et, au niveau du moteur, un accroissement important des ressources nécessaires pour traiter de façon satisfaisante et dans des délais raisonnables le flux des requêtes.

Or la diffusion de plus en plus large d'internet et de l'utilisation des moteurs de recherche par le grand public, ainsi que la concentration des requêtes sur un nombre de plus en plus réduit de moteurs considérés comme les plus performants, laissent présager une augmentation considérable des ressources informatiques qui seront nécessaires à ces moteurs de recherche dans les années à venir.

Ces ressources informatiques concernent tant la puissance de calcul nécessaire au traitement de la requête proprement dite, que la gestion des files d'attente, dont la complexité et les besoins en capacité de stockage augmentent en fonction du trafic incident.

Les développements actuels s'orientent vers une recherche fondée non plus sur l'identité
exacte d'un mot, ni même sur des variantes de celui-ci (singulier/pluriel, forme déclinée, variante d'écriture, etc.), mais sur des mots apparentés, c'est-à-dire appartenant au même
-2-very general terms, the result will be extremely high; if, at the opposite, it uses a very precise designation, the result will be much smaller.

The first generations of search engines operated by analyzing the pages indexed on a criterion of exact concordance, literal, of the word supplied with the request.

This led users to often trial and error multiplying queries, modifying the terms submitted to the search engine, adding or subtracting certain terms, etc. and this in a totally empirical way and without any certainty that the modifications made can help to really converge the engine towards the subject of the search. In addition, experience shows that users badly evaluate the discriminative power of words with regard to computer search engines in the research process specific to this one, leading to results erratic, badly mastered.

In addition to the risk of omitting relevant answers, the result is technical view unnecessary multiplication of the number of requests, with an increase correlative traffic on the network and, at the level of the engine, a significant increase in resources necessary to deal satisfactorily and in a timely manner reasonable the flow of queries.

However, the increasing diffusion of the Internet and the use of search engine by the general public, as well as the concentration of requests on a number of more and more reduced number of engines considered as the most efficient, suggest a considerable increase in computing resources that will be needed to these search engines in the coming years.

These computing resources concern both the computing power needed at processing of the request itself, that queue management, whose complexity and storage capacity needs increase according to the traffic incident.

Current developments are moving towards research no longer based on identity the exact word, or even variants of it (singular / plural, form declined, writing variant, etc.), but on related words, that is to say belonging to the same

-3-champ sémantique que le mot initial, de manière à augmenter le potentiel de recherche et permettre une convergence plus rapide vers l'objet de la requête.

Un tel algorithme est proposé sous le nom de Google Sets (marque déposée de Google Inc.), qui est un logiciel prédictif permettant de générer des mots (noms communs ou noms propres), par exemple une liste de quinze mots, à partir de seulement deux ou trois mots donnés par un utilisateur, la liste fournie étant censée appartenir au même champ sémantique que les mots donnés par l'utilisateur. Par exemple, l'utilisateur tape le nom de deux ou trois états américains, et le générateur produit une liste d'états de ce pays. Il peut de la même façon générer des noms de présidents des États-Unis, de société, etc. à partir de deux ou trois exemples qui lui sont donnés. Le logiciel sait ainsi parfaitement discriminer {Johnson Pfizer} qui donnera une liste de firmes pharmaceutiques, d'avec {Johnson Washington} qui donnera des noms de présidents des États-Unis.

Le WO-A-2004/031916 (Google Inc.) décrit un algorithme de ce type, pour la sélection de clusters de mots en relation conceptuelle avec un ou plusieurs mots constituant les paramètres d'entrée de l'algorithme. Les clusters sont choisis à partir d'un modèle probabiliste complexe, de manière à caractériser, du point de vue sémantique, le document dont sont extraits les mots initiaux.

Mais cet algorithme est essentiellement un générateur de mots ou de clusters de mots apparentés ; il ne vise par à évaluer la simple proximité sémantique, par rapport à un mot initial, d'un mot donné provenant d'une source extérieure.

Sommaire de l'invention Il existe donc le besoin d'un outil capable d'évaluer la pertinence sémantique d'un mot donné (ci-après "mot additionnel") ou d'une famille de mots considérés collectivement, par rapport à un autre mot donné (ci-après "mot de départ") représentatif du champ sémantique général objet de la recherche.

L'invention propose un outil, qui puisse être utilisé avec des mots (mots de départ et/ou mots additionnels) produits par un opérateur ou automatiquement par un générateur de mots, ou bien choisis et soumis par un utilisateur. Ces mots constitueront les paramètres
-3-semantic field than the initial word, so as to increase the potential of research and allow faster convergence to the subject of the request.

Such an algorithm is proposed under the name of Google Sets (registered trademark of Google Inc.), which is a predictive software for generating words (names common or nouns), for example a list of fifteen words, starting from only two or three words given by a user, the list provided being deemed to belong to the same field semantics as the words given by the user. For example, the user type the name of two or three American states, and the generator produces a list of states of this country. he can in the same way generate names of presidents of the United States, of society, etc. from two or three examples given to him. The software knows well perfectly discriminate {Johnson Pfizer} who will give a list of pharmaceutical companies, of with {Johnson Washington} who will give the names of presidents of the United States.

WO-A-2004/031916 (Google Inc.) describes an algorithm of this type, for the selection of clusters of words in conceptual relation with one or more words constituting input parameters of the algorithm. Clusters are chosen from a model probabilistic complex, so as to characterize, from a semantic point of view, the document from which the initial words are extracted.

But this algorithm is essentially a generator of words or clusters of words related; it does not aim at assessing simple semantic proximity, for report to a word initial, of a given word from an external source.

Summary of the invention There is therefore a need for a tool capable of evaluating semantic relevance of a word given (hereinafter "additional word") or a family of words considered collectively, by relation to another given word (hereinafter "starting word") representative of the field general semantic object of research.

The invention proposes a tool that can be used with words (words of departure and / or additional words) produced by an operator or automatically by a generator of words, or chosen and submitted by a user. These words will constitute the settings

-4-d'entrée de l'algorithme mis en oeuvre par le procédé de l'invention - qui n'a pas pour but de produire des mots, mais d'en évaluer la pertinence relative du point de vue sémantique.
L'invention a également pour but de proposer un tel procédé qui permette d'améliorer de manière non empirique le processus de traitement des requêtes d'interrogation appliquées à un moteur de recherche, avec notamment pour résultats : la diminution du temps de traitement et, corrélativement, l'accélération de la réponse finale à
l'utilisateur ; la réduction du nombre global des requêtes, permettant une optimisation de la gestion des files d'attente et des ressources de stockage associées ; une réduction globale du trafic, dont une meilleure fluidité de celui-ci.

De plus, outre ces améliorations matérielles et quantitatives directement attachées au fonctionnement du moteur de recherche et au réseau, l'utilisateur bénéficiera incidemment d'une amélioration de la qualité de la recherche, le procédé de l'invention étant en mesure de lui proposer une nouvelle heuristique de navigation remplaçant la méthode actuelle, empirique et incertaine dans ses résultats.

Ces améliorations pourront notamment bénéficier aux personnes utilisant des bases de données documentaires, dans des applications telles que la gestion de pièces détachées, de documents d'archives, etc. et notamment, selon une caractéristique particulière de l'invention, par une optimisation de l'accès aux références les plus sollicités.

Incidemment, le procédé de l'invention pourra même être utilisé à des fins pédagogiques ou ludiques, par exemple pour amener un utilisateur, confronté à un mot de départ donné, à rechercher les mots additionnels les plus pertinents du point de vue de leur distance sémantique. Le procédé sera utilisé pour retourner à l'utilisateur, pour chacun des mots additionnels soumis, une quantification de leur pertinence par rapport au mot de départ. Le procédé peut être également mis en oeuvre entre plusieurs utilisateurs, par exemple pour confronter leurs aptitudes respectives à la recherche de mots pertinents.

Le système comprend : un site (40) interfacé à un moteur de recherche ; des moyens (10, 20) pour produire des mots de vocabulaire ; des moyens (42) pour soumettre au moteur des requêtes contenant chacune un mot ou un groupe de mots ; et des moyens pour recevoir un résultat représentatif des occurrences du mot, ou de l'association de mots, dans des pages web indexées par le moteur. Le procédé comprend : (a) la détermination
-4-input of the algorithm implemented by the method of the invention - which has not not for purpose to produce words, but to assess the relative relevance of the point of view semantics.
Another object of the invention is to propose such a method which enables to improve non-empirically the process of handling query queries applied to a search engine, with the following results in particular:
time to treatment and, correlatively, the acceleration of the final response to the user ; the reduction the overall number of requests, allowing optimization of the management of queues waiting and associated storage resources; an overall reduction traffic, including a better fluidity of it.

Moreover, besides these material and quantitative improvements directly attached to the search engine and network operation, the user will benefit incidentally of an improvement of the quality of research, the method of the invention being able to propose a new navigation heuristic replacing the method current, empirical and uncertain in its results.

These improvements will notably benefit people using bases of documentary data, in applications such as parts management spare, archival documents, etc. and in particular, according to a characteristic particular of the invention, by optimizing access to the most solicited.

Incidentally, the process of the invention may even be used for teaching or fun, for example to bring a user, confronted with a word of given departure, search for the most relevant additional words from the point of view of their distance semantics. The process will be used to return to the user, for each of the words submitted, a quantification of their relevance to the word departure. The method can also be implemented between several users, for example example for compare their respective abilities in search of relevant words.

The system includes: a site (40) interfaced to a search engine; of the means (10, 20) to produce vocabulary words; means (42) for submitting to engine queries each containing a word or a group of words; and means for receive a result representative of the occurrences of the word, or association of words, in web pages indexed by the engine. The method comprises: (a) determination

-5-d'un mot de départ et la soumission d'une requête; (b) la réception d'un résultat initial; (c) la génération d'un mot additionnel et la soumission d'une requête ; (d) la réception du résultat, inférieur au résultat initial, correspondant à la requête formulée à
l'étape c) ; (e) la réitération N-1 fois des étapes c) et d) avec un mot additionnel différent, donnant N
résultats respectifs ; et (f) le classement de ces N résultats.

Le système informatique comprend : un site (40) interfacé à un moteur de recherche ; des moyens (10, 20) pour produire des mots de vocabulaire ; des moyens (42) pour soumettre au moteur de recherche des requêtes contenant chacune un mot ou un groupe de mots ;
et des moyens pour recevoir en réponse un résultat représentatif des occurrences du mot, ou de l'association de mots, dans un ensemble de pages web indexées par le moteur de recherche. Le procédé comprend : (a) la détermination d'un mot de départ et la soumission d'une requête contenant ce mot ; (b) la réception d'un résultat initial correspondant à ce mot de départ ;(c) la génération d'un mot additionnel et la soumission d'une requête incluant le mot de départ et le mot additionnel ;(d) la réception du résultat, inférieur au résultat initial, correspondant à la requête formulée à l'étape c) ; (e) la réitération N-1 fois des étapes c) et d) avec à chaque fois un mot additionnel différent, donnant ainsi N résultats respectifs ; et (f) le classement de ces N
résultats. Après l'étape f), on prévoit en outre une étape (g) d'attribution, selon une règle fonction des N résultats, d'un indice d'apparentement à la fois global, attribué à la famille des N mots additionnels générés, et relatif, attribué en considération du mot de départ. Cet indice peut notamment être comparé à un seuil, de préférence un seuil variable, paramétrable par l'utilisateur, dont le franchissement provoque, ou non, la production d'un indicateur booléen.

Brève description des figures Fig. 1 est une représentation schématique, par blocs, d'un système informatique susceptible de mettre en oeuvre le procédé de l'invention.

Description détaillée d'une réalisation de l'invention Sur la figure 1, la référence 10 désigne des terminaux informatiques, avec pour chacun un micro-ordinateur 12 relié par une interface 14 à un réseau de télécommunication 16, qui peut être le réseau téléphonique câblé (en mode commuté ou en mode ADSL), un réseau
-5-a word of departure and the submission of a request; (b) the receipt of initial result; (vs) the generation of an additional word and the submission of a request; (d) the receipt of result, lower than the initial result, corresponding to the request made to step c); (e) the reiteration N-1 times of steps c) and d) with a different additional word, giving N
respective results; and (f) the ranking of these N results.

The computer system comprises: a site (40) interfaced to a search engine research ; of the means (10, 20) for generating vocabulary words; means (42) for submit the search engine queries each containing a word or a group of words;
and means for receiving in response a result representative of the occurrences of the word, or association of words, in a set of web pages indexed by the engine of research. The method comprises: (a) determining a start word and submitting a query containing that word; (b) the receipt of a result initial corresponding to this starting word, (c) the generation of an additional word and the submission a request including the word of departure and the additional word; (d) the receipt of the result, less than the initial result, corresponding to the request formulated at step vs) ; (e) the reiteration N-1 times of steps c) and d) with each time an additional word different, thus giving N respective results; and (f) the ranking of these N
results. After the stage f), there is further provided a step (g) of assignment, according to a rule according to N results, a global index of affiliation attributed to the family of N words additional generated, and relative, assigned in consideration of the starting word. This index can include be compared to a threshold, preferably a variable threshold, parameterizable by the user, whose crossing does or does not result in the production of an indicator Boolean.

Brief description of the figures Fig. 1 is a schematic representation, in blocks, of a system computer science capable of implementing the method of the invention.

Detailed description of an embodiment of the invention In FIG. 1, reference numeral 10 denotes computer terminals, with for each one a microcomputer 12 connected by an interface 14 to a network of telecommunication 16, which may be the wired telephone network (in switched mode or in ADSL mode), a network

-6-de télédistribution par câble, ou encore une connexion Internet via un serveur commun à
plusieurs postes.

Le système peut également comprendre un certain nombre de terminaux téléphoniques cellulaires 20, reliés par un lien de commutation hertzien à une interface 30 du type commutateur de téléphonie mobile. Les terminaux téléphoniques 20 sont dotés de fonctions leur permettant d'échanger des données numériques, notamment textuelles, avec l'interface 30 selon diverses technologies bien connues telles que SMS, WAP, GPRS, UMTS, etc. L'utilisateur saisit au clavier des données qui seront envoyées à
l'interface 30, et reçoit de cette dernière des messages qui seront affichés sur l'écran du téléphone.

Le système comporte également un site informatique central 40, typiquement un site Internet. Fonctionnellement, ce site 40 comprend une unité 42 formant moteur de recherche (ou couplée à un moteur de recherche distant), associée à une unité
44 de formatage, avec deux sous-unités 46 et 48 capables de formater les messages en fonction du type de terminal utilisé. Plus précisément, la sous-unité 46 formate les messages afin qu'ils puissent être reçus et affichés par les micro-ordinateurs 12 par exemple sous la forme de pages web affichables par un navigateur, puis les envoie au réseau 16 par la liaison 50. La sous-unité 48 réalise au contraire un formatage adapté à un affichage sur des téléphones mobiles, par exemple sous la forme de pages WAP envoyées à
l'interface 30 via la liaison 52. L'interface 30 est également reliée à l'unité 42 via une liaison 54 permettant de transférer à cette dernière les données reçues des terminaux téléphoniques 20 connectés au réseau. Il convient de noter que le contenu des messages formatés par les unités 46 et 48, c'est-à-dire le contenu des messages échangés respectivement avec les terminaux informatiques 10 et téléphoniques 20, est identique ; seule change la mise en page selon que les informations doivent être affichés par l'un ou l'autre type de terminal.

On notera que l'invention peut être mise en oruvre par d'autres systèmes informatiques que celui que l'on vient de présenter, qui n'a aucun caractère limitatif.

En particulier, le procédé de l'invention peut être implémenté soit par un dispositif dédié, soit intégré à une application préexistante telle qu'un navigateur ou un tableur par un
-6-cable television, or an Internet connection via a server common to several positions.

The system may also include a number of terminals phone 20, connected by a microwave switching link to an interface 30 like mobile phone switch. The telephone terminals 20 are equipped with functions enabling them to exchange digital data, in particular textual, with the interface 30 according to various well-known technologies such as SMS, WAP, GPRS, UMTS, etc. The user enters on the keyboard data that will be sent to the interface 30, and receives from the latter messages that will be displayed on the screen of phone.

The system also includes a central computer site 40, typically a site Internet. Functionally, this site 40 comprises a unit 42 forming an engine of search (or coupled to a remote search engine), associated with a unit 44 from formatting, with two subunits 46 and 48 capable of formatting the messages in function the type of terminal used. Specifically, subunit 46 formats the messages so that they can be received and displayed by the microcomputers 12 by example under the form web pages viewable by a browser, then sends them to the network 16 over there 50. The subunit 48 instead performs a formatting adapted to a posting on mobile phones, for example in the form of WAP pages sent to the interface 30 via the link 52. The interface 30 is also connected to the unit 42 via a link 54 transferring data received from the terminals to the latter phone 20 connected to the network. It should be noted that the content of messages formatted by units 46 and 48, that is the content of the messages exchanged respectively with the computer terminals 10 and telephone 20, is identical; alone change the setting on page depending on whether the information should be displayed by one or the other type of terminal.

It should be noted that the invention can be implemented by other systems IT
than the one just presented, which has no limiting character.

In particular, the method of the invention can be implemented either by a dedicated device, integrated into a pre-existing application such as a browser or spreadsheet by a

-7-module logiciel ou des macro-instructions exécutant sous forme d'une fonction spécifique les étapes de procédé que l'on décrira plus bas. Les formules et macro-instructions d'un tableur tel qu'Excel (marque déposée de Microsoft Inc.) animées par un macro-langage tel que QuicKeys (marque déposée de CE Software Inc.) conviennent en particulier à
l'exécution des divers calculs et classements exposés plus bas, ainsi qu'à la présentation des résultats et à l'introduction par l'utilisateur des divers paramètres et données.

Pour la simplicité et la clarté de l'exposé, la description qui va suivre sera faite dans l'hypothèse où les différents termes analysés sont des mots choisis par des personnes (utilisateurs), qui entrent ces mots par exemple sur le clavier de leur ordinateur ou de leur téléphone mobile pour transmission au site central, et reçoivent du site central les résultats du traitement, qu'ils exploitent eux-mêmes aux fins qui leur sont propres.
Mais l'invention est tout aussi bien applicable à des configurations où les termes sont produits par des algorithmes générateurs de mots, comme dans le cas du WO-A-2004/031916 précité, qui peut délivrer automatiquement des clusters de mots conceptuellement apparentés par application d'un modèle probabiliste.

De même, l'invention est applicable à des situations où les résultats délivrés par le procédé de l'invention sont réutilisés dans un traitement automatique, par exemple pour optimiser la recherche de groupes de mots appartenant à un même champ sémantique, pour comparer la pertinence relative de divers groupes de mots, améliorer la convergence d'une recherche, etc.

En d'autres termes, le procédé de l'invention peut être mis en oeuvre, en tout ou partie, avec un "utilisateur" qui n'est pas nécessairement une personne physique, c'est-à-dire que ce procédé peut être interfacé aussi bien en amont (introduction des paramètres) qu'en aval (exploitation des résultats) avec un dispositif distinct assurant un traitement automatique de tout ou partie des données.

De façon générale, le point de départ de l'invention repose sur la constatation de ce qu'un moteur fournit non seulement des renvois vers toutes les pages contenant un mot donné, mais fournit également une autre information, elle-même de très grande valeur, à savoir le nombre de pages où est apparu le mot. Cette information est celle qui apparaît généralement sous l'intitulé "Résultats" renvoyé par les moteurs.
-7-software module or macro-instructions running as a function specific the process steps that will be described below. Formulas and macro-instructions from a spreadsheet software such as Excel (trademark of Microsoft Inc.) animated by a macro-language QuicKeys (registered trademark of CE Software Inc.) are particularly suitable for execution of the various calculations and classifications set out below, as well as presentation results and the introduction by the user of the various parameters and data.

For the simplicity and clarity of the presentation, the following description will be made in the hypothesis where the different terms analyzed are words chosen by people (users), who enter these words for example on the keyboard of their computer or their mobile phone for transmission to the central site, and receive from the central results treatment, which they themselves exploit for their own purposes.
But the invention is equally applicable to configurations where the terms are produced by word generating algorithms, as in the case of WO-A-2004/031916 above, which can automatically deliver clusters of conceptually related words by application of a probabilistic model.

Similarly, the invention is applicable to situations where the results delivered speak method of the invention are reused in an automatic processing, by example for optimize the search for groups of words belonging to the same field semantics, to compare the relative relevance of various groups of words, to improve the convergence research, etc.

In other words, the method of the invention can be implemented, in any case or part, with a "user" who is not necessarily a natural person, which means this process can be interfaced both upstream (introduction of parameters) downstream (exploitation of the results) with a separate device ensuring a treatment automatic all or part of the data.

In general, the starting point of the invention lies in the finding out what a engine not only provides referrals to all pages containing a given word, but also provides other information, itself of great value, to know the number of pages where the word appeared. This information is the one that appears usually under the heading "Results" returned by the engines.

-8-Par exemple {condensateur} donne un résultat de 1 140 000 occurences (par convention, les accolades utilisées dans le texte de la présente description indiquent le terme, ou la série de termes, soumis au moteur). Ce résultat est meilleur que celui de {multiplexeur}
(188 000), mais bien inférieur à celui de {resistance} (2 020 000).

Une fonction plus fine des moteurs consiste à chercher des occurrences non plus d'un mot unique, mais de deux, trois ou plusieurs mots réunis en une "phrase" dans la même requête. Par exemple {resistance inductance} renvoie 104 000 occurrences. D'où
l'on peut déduire que parmi les 2 020 000 pages qui contenaient {resistance}, seulement environ une sur vingt contenait également le mot {inductance}.

C'est cette propriété des moteurs que le procédé de la présente invention va spécifiquement exploiter.

Essentiellement, l'idée de base du procédé de l'invention consiste, après avoir sélectionné
un premier mot (le "mot de départ"), à trouver un autre mot (le "mot additionnel") qui produira le résultat le plus élevé.

Ainsi, le mot de départ {transport} révèle environ 48 000 000 occurrences. Il s'agit dès lors pour l'utilisateur de chercher un mot additionnel qui, combiné avec {transport} produira le nombre d'occurrences le plus élevé possible. Par exemple, {cocotier} est une mauvaise sélection : le moteur ne trouve qu'environ 2 300 occurrences pour la phrase {transport cocotier}.
-8-For example {capacitor} gives a result of 1,140,000 occurrences (by convention the braces used in the text of this description indicate the term, or the series of terms, submitted to the engine). This result is better than that of {Multiplexer}
(188,000), but much lower than {resistance} (2,020,000).

A finer function of the engines is to look for non more than one word unique, but two, three or more words together in a "sentence" in the even request. For example {resistance inductance} returns 104,000 occurrences. From where one can deduce that among the 2,020,000 pages that contained {resistance}, only about one in twenty also contained the word {inductance}.

It is this property of the motors that the process of the present invention is specifically exploit.

Essentially, the basic idea of the process of the invention consists, after have selected a first word (the "starting word"), to find another word (the "word"
additional ") which will produce the highest result.

Thus, the starting word {transport} reveals about 48,000,000 occurrences. he is therefore for the user to search for an additional word that, combined with {transport} will produce the number of occurrences as high as possible. For example, {coconut palm} is a bad selection: the engine finds only about 2,300 occurrences for the phrase {transport coconut tree}.

-9-Tandis que {avion}, {metro} et surtout {train} fournissent des résultats plus élevés, tel qu'indiqué dans le tableau 1:

Mots Résultat transport 48 000 000 transport avion 585 000 transport metro 1 250 000 transport train 2 800 000 transport voyage 1 140 000 transport voiture 611 000 Tableau 1. Résultats pour certains mots additionnels combinés avec {transport}

On observe que c'est {train} le "meilleur" mot, en ce que son résultat est supérieur à ceux de {metro} et {voiture}.

Mais en cherchant un peu plus dans ce qu'il estime être le champ lexical de {transport}
l'utilisateur découvre qu'il est possible de faire mieux que {train} , tel qu'indiqué dans le tableau 2:

Mots Résultat Transport bus 3 400 000 Tableau 2. Résultats pour mot {bus} combiné avec {transport}

Soit pour {bus} un résultat supérieur à celui de {train} C'est donc finalement {bus} qui est le "meilleur" mot - du moins pour ces six tentatives.

On assimilera au cas d'un mot additionnel constitué d'un terme unique celui d'un mot composé se présentant sous forme d'une combinaison de termes, par exemple {"chemin de fer"} dans l'exemple ci-dessus (les guillemets entre des accolades correspondant ici à
la syntaxe utilisée pour interroger les moteurs, c'est-à-dire que le moteur cherchera les occurrences de la chaîne indissociable de mots mise entre guillemets).
-9 While {plane}, {metro} and especially {train} provide more results high, such as shown in Table 1:

Words Result transport 48 million aircraft transport 585 000 subway transport 1,250,000 transport train 2,800,000 transportation travel 1,140,000 car transport 611 000 Table 1. Results for some additional words combined with {transport}

We observe that it is {train} the "best" word, in that its result is superior to those from {metro} and {car}.

But by looking a little more in what he considers to be the lexical field of {transport}
the user discovers that it is possible to do better than {train}, such as indicated in the table 2:

Words Result Bus transport 3 400 000 Table 2. Results for word {bus} combined with {transport}

Or for {bus} a result superior to that of {train} It is thus finally {bus} which is the "best" word - at least for these six attempts.

In the case of an additional word consisting of a single term of a word compound in the form of a combination of terms, for example {"path of iron "} in the example above (quotation marks between braces corresponding here to the syntax used to query the engines, ie the engine will search for occurrences of the inseparable string of words enclosed in quotation marks).

-10-Avantageusement, le procédé prévoit, avant de fournir le résultat de la phrase contenant le mot additionnel sélectionné, de vérifier le résultat du mot additionnel considéré isolément, et de refuser ce mot additionnel si celui-ci présente, seul, un résultat supérieur au mot de départ. Ceci permet d'éviter que le procédé ne soit biaisé par la sélection comme mot additionnel d'un terme peu significatif tel qu'un article ou un adverbe, etc., qui donneraient (souvent) un résultat élevé.

Le déroulement du procédé peut être notamment exprimé par l'organigramme simplifié en métalangage du tableau 3, qui n'est donné qu'à titre illustratif (MD désigne le mot de départ, MA le mot additionnel).

Le résultat pourra être présenté soit en nombre d'occurrences de la combinaison {(mot de départ) (mot additionnel)}, soit sous forme d'un ratio entre ce dernier résultat et le résultat du mot de départ pris isolément.

input (MD) get result (MD) compteur = 0 while not STOP

input (MA) test result (MA) < result (MD) get result (MD & MA) if result (MA) > Highest then Highest = result (MA) compteur = compteur + 1 if compteur > 10 then END
wend Tableau 3. Déroulement du procédé en métalanguage
-10-Advantageously, the method provides, before providing the result of the sentence containing the additional word selected, to check the result of the additional word considered in isolation, and to refuse this additional word if it presents, alone, a result superior to the word departure. This avoids the process being biased by the selection as a word addition of an insignificant term such as an article or an adverb, etc., who would give (often) a high result.

The course of the process can be expressed in particular by the flowchart simplified in metalanguage of Table 3, which is given for illustrative purposes only (MD stands for the word of departure, MA the additional word).

The result can be presented either in number of occurrences of the combination {(word of (additional word)}, or in the form of a ratio between the latter result and result the starting word taken in isolation.

input (MD) get result (MD) counter = 0 while not STOP

input (MA) test result (MA) <result (MD) get result (MD & MA) if result (MA)> Highest then Highest = result (MA) counter = counter + 1 if counter> 10 then END
wend Table 3. Flow of the metalanguage process

- 11 -Ainsi, dans l'exemple suivant du tableau 4 correspondant à des requêtes dans le domaine des composants-clef de l'engineering électronique (le ratio précité étant multiplié par 100 pour en améliorer la lisibilité) :

Mot(s) Résultat Ratio*100 engineering 1 100 000 100 engineering memoire 595 000 54,0909 engineering registre 159 000 14,4545 engineering relais 150 000 13,6364 engineering compteur 71 100 6,4636 engineering buffer 54 700 4,9727 engineering integrateur 54 300 4,9364 engineering decodeur 44 200 4,0182 engineering blindage 41 400 3,7636 engineering multiplexeur 15 500 1,4091 engineering schottky 936 0,0851 Tableau 4. Exemple de requêtes dans le domaine de l'engineering électronique Pour un ratio inférieur à 10/00 (résultat inférieur à 0,1), le mot additionnel est considéré
comme "hors sujet", non pertinent, qui ne sera pas considéré comme appartenant au champ sémantique du mot de départ.

Cette propriété peut être en particulier utilisée dans une variante visant à
rechercher les mots dont la distance sémantique relative est la plus élevée, par exemple pour isoler certains mots dont on veut établir avec certitude - et de façon automatisée -que leur probabilité est infime d'appartenir au même champs sémantique que le mot de départ. En d'autres termes, le procédé n'est plus basé, dans ce cas, sur le "sens" des mots, mais au contraire sur le "contresens".
- 11 -So, in the following example of Table 4 corresponding to queries in the domain key components of electronic engineering (the aforementioned ratio being multiplied by 100 to improve readability):

Word (s) Result Ratio * 100 engineering 1,100,000 100 engineering memory 595,000 54,0909 engineering register 159,000 14,4545 engineering relay 150 000 13.6364 engineering meter 71 100 6,4636 engineering buffer 54 700 4.9727 engineering integrator 54 300 4,9364 engineering decoder 44 200 4.0182 engineering shielding 41 400 3.7636 engineering multiplexer 15 500 1.4091 engineering schottky 936 0.0851 Table 4. Example of requests in the field of electronic engineering For a ratio less than 10/00 (result less than 0.1), the additional word is considered as "irrelevant", irrelevant, which will not be considered as belonging at semantic field of the starting word.

This property can in particular be used in a variant aimed at search for words whose relative semantic distance is the highest, for example for isolate certain words that we want to establish with certainty - and in an automated way -that their probability is very small to belong to the same semantic field as the word departure. In other words, the process is no longer based, in this case, on the "meaning" of words but at contrary on the "misinterpretation".

-12-Dans une autre variante encore, au lieu d'initier le procédé avec un mot de départ constitué d'un terme isolé (par exemple {engineering}), on peut prendre comme mot de départ une combinaison de mots (par exemple {engineering mémoire}).

Il est ainsi possible, après une première exécution du procédé commencé avec un mot de départ isolé, de retenir l'une des combinaisons {mot-de-départ, mot-additionnel) qui a été
soumise au moteur de recherche, et de réexécuter l'algorithme avec cette combinaison de mots particulière comme nouveau mot de départ.

On pourra éventuellement appliquer une pondération pour tenir compte du nombre de tentatives, en appliquant une minoration d'autant plus forte que le nombre de tentatives est élevé. Inversement, une bonification pourra être appliquée si le "meilleur"
mot est trouvé à
la première tentative.

Dans une forme particulière de mise en oeuvre, pour un mot de départ donné
(par exemple {transport}) le site central sélectionne une pluralité de mots (par exemple {bus}, {train} et {metro}) et présente ces mots à l'utilisateur, sans indication de résultat et dans un ordre quelconque, en lui demandant de choisir parmi ces mots celui qui, pense-t-il, donne le résultat le plus élevé - ou, en variante, qui donne les deux meilleurs, ou encore les trois meilleurs, c'est-à-dire que dans ce dernier cas le procédé revient à classer les mots par résultat décroissant. On peut également demander à l'utilisateur de sélectionner ou classer trois, quatre ou cinq mots parmi dix ou vingt qui lui sont proposés.

Les réponses peuvent être pondérées par une majoration d'autant plus importante que la sélection et/ou le classement sont pertinents, et inversement.

Selon un autre aspect, l'invention peut être appliquée à l'analyse non plus d'une succession de mots considérés isolément, mais d'un ensemble de mots considérés collectivement. Il est en effet difficile d'évaluer intuitivement, a fortiori de quantifier, la pertinence globale d'un groupe de mots, et de distinguer un groupe de mots proches de sens, d'un groupe de mots loin du sens (le "sens" étant défini par le mot de départ) Il s'agit alors d'estimer, par rapport à un mot de départ donné, la pertinence relative, globale, de deux (ou plus) listes de n mots (par exemple n = 10 mots), c'est-à-dire de déterminer celle qui est la plus riche sur le plan sémantique.
-12-In yet another variant, instead of initiating the process with a word of departure consisting of an isolated term (eg {engineering}), one can take as word of starting a combination of words (eg {memory engineering}).

It is thus possible, after a first execution of the process started with a word from isolated departure, to retain one of the combinations (word-of-departure, word additional) which has been submitted to the search engine, and rerun the algorithm with this combination of particular words as new starting word.

A weighting may be applied to take into account the number of attempts, by applying a reduction which is all the greater as the number of attempts is Student. Conversely, a bonus may be applied if the "best"
word is found at the first attempt.

In a particular form of implementation, for a given starting word (for example {transport}) the central site selects a plurality of words (e.g.
{bus}, {train} and {metro}) and presents these words to the user, without indication of result and in one order anybody, asking him to choose among those words the one who, he thinks, give the highest result - or, alternatively, which gives the two best, or still the three better, that is to say that in the latter case the process amounts to classifying the words by decreasing result. We can also ask the user to select or classify three, four or five words among ten or twenty that are proposed to him.

Answers can be weighted by a markup even more important that the selection and / or ranking are relevant, and vice versa.

In another aspect, the invention can be applied to the analysis either a succession of words considered in isolation, but of a set of words considered collectively. It is indeed difficult to evaluate intuitively, let alone to quantify, global relevance of a group of words, and to distinguish a group of words close to sense, of a group of words far from meaning (the "meaning" being defined by the word departure) It is then necessary to estimate, with respect to a given starting word, the relevance relative overall, of two (or more) lists of n words (for example n = 10 words), that is, say of determine the one that is the richest semantically.

-13-Pour ce faire, un "indice d'apparentement" est calculé pour chaque liste, qui est un indice représentatif de sa pertinence propre par rapport au mot de départ. Cet indice d'apparentement permettra ensuite de comparer entre elles diverses listes et, d'autre part, d'éliminer ou de retenir une liste donnée en comparant l'indice à un seuil donné, seuil qui pourra être lui-même paramétrable en fonction du degré d'exigence requis pour la discrimination.

On va donner un exemple de mise en oruvre de cette technique, en référence aux Tableaux 5 et 6 ci-après. Dans cet exemple, le mot de départ est électronique.
A partir de ce mot de départ le moteur de recherche donne un résultat de 9 200 000 occurrences.

La première étape consiste à établir deux listes de mots additionnels, par exemple deux listes de dix mots (voir Tableau 5 pour la première liste et Tableau 6 pour la deuxième liste).

Dans l'exemple du Tableau 5, la première liste comprend les mots : mémoire, relais, registre, ... multiplexeur, Zener. De même, la deuxième liste du Tableau 6 comprend les mots comparateur, porte, résistance ... transformateur, condensateur.

L'étape suivante consiste à classer les différents mots additionnels de chaque liste, par résultat décroissant. Les deux listes sont présentées de cette manière, le résultat étant exprimé en pourcentage relatif (18,67 %, 13,02 %, ...) par rapport au résultat du mot de départ (100 %).
-13-To do this, a "match index" is calculated for each list, which is a clue representative of its relevance to the original word. This index of comparison will then make it possible to compare various lists on the other hand, eliminate or retain a given list by comparing the index to a threshold given, which threshold may itself be parameterized according to the degree of requirement required to the discrimination.

We will give an example of the implementation of this technique, with reference to Tables 5 and 6 below. In this example, the starting word is electronic.
From this starting word the search engine gives a result of 9,200,000 occurrences.

The first step is to establish two lists of additional words, for example two lists of ten words (see Table 5 for the first list and Table 6 for the second listing).

In the example in Table 5, the first list includes the words: memory, relay, register, ... multiplexer, Zener. Similarly, the second list in Table 6 includes words comparator, gate, resistor ... transformer, capacitor.

The next step is to rank the different additional words of each list, by decreasing result. Both lists are presented in this way, the result being expressed as a relative percentage (18.67%, 13.02%, ...) compared to the result of the word departure (100%).

-14-Mot de départ Mot additionnel % relatif Résultats electronique 100,0000 9 210 000 electronique memoire 18,6754 1 720 000 electronique relais 13,0293 1 200 000 electronique registre 12,5950 1 160 000 electronique compteur 11,8350 1 090 000 electronique decodeur 7,2096 664 000 electronique integrateur 4,1151 379 000 electronique blindage 2,6602 245 000 electronique buffer 1,6830 155 000 electronique multiplexeur 0,9522 87 700 electronique zener 0,5364 49 400 Moyenne des 10 mots : 7,329 Indice d'apparentement (Max/Moy) 2,55 Si le seuil est de 2,5, indice d'apparentement trop élevé donc liste non pertinente Tableau 5. Première liste de dix mots pour l'exemple -14-Start word Additional word% relative Results electronic 100.0000 9 210 000 electronic memory 18,6754 1,720,000 relay electronics 13,0293 1,200,000 electronic register 12,5950 1,160,000 electronic meter 11,8350 1,090,000 electronic decoder 7,2096 664,000 electronics integrator 4,1151 379,000 electronic shielding 2,6602 245,000 electronic buffer 1.6830 155 000 multiplexer electronics 0,9522 87,700 electronic zener 0.5364 49 400 Average of 10 words: 7,329 Related index (Max / Avg) 2.55 If the threshold is 2.5, then the index of relationship is too high relevant Table 5. First list of ten words for the example

-15-Mot de départ Mot additionnel % relatif Résultats electronique 100,0000 9 210 000 electronique comparateur 19,0011 1 750 000 electronique porte 17,5896 1 620 000 electronique resistance 13,8979 1 280 000 electronique ampli 13,4636 1 240 000 electronique self 11,4007 1 050 000 electronique diode 7,4593 687 000 electronique décodeur 7,2096 664 000 electronique radiateur 5,5809 514 000 electronique transformateur 5,1574 475 000 electronique condensateur 4,8317 445 000 Moyenne des 10 mots : 10,559 Indice d'apparentement (Max/Moy) 1,80 Si le seuil est de 2,5, indice d'apparentement sous le seuil donc liste pertinente Tableau 6. Deuxième liste de dix mots pour l'exemple -15-Start word Additional word% relative Results electronic 100.0000 9 210 000 electronic comparator 19,0011 1,750,000 electronic door 17,5896 1,620,000 electronic resistance 13,8979 1,280,000 electronic amp 13,4636 1,240,000 electronic self 11.4007 1 050 000 electronic diode 7,4593 687,000 electronic decoder 7,2096 664,000 electronics radiator 5,5809 514,000 electronic transformer 5,1574 475,000 electronic capacitor 4,8317 445,000 Average of 10 words: 10,559 Index of Relation (Max / Avg) 1.80 If the threshold is 2.5, index of relatedness below the threshold so list relevant Table 6. Second list of ten words for the example

-16-L'étape suivante consiste à calculer la moyenne des dix mots (ou des dix meilleurs mots, si un plus grand nombre de mots ont été testés), soit 7,329 % pour la première liste et 10,559 % pour la deuxième liste. Cette moyenne pourrait être retenue comme indice d'apparentement, pour évaluer la pertinence de la première liste (moyenne :
10,559) par rapport à la deuxième liste (moyenne : 7,329).

L'expérience montre toutefois que, en pratique, ce critère n'optimise pas toujours l'évaluation de la pertinence relative pour cette liste.

L'invention propose d'améliorer encore la discrimination en appliquant une pondération.
Cette pondération peut être notamment fonction du résultat le plus élevé
obtenu pour les différents mots de la liste, c'est-à-dire en fonction du résultat du "meilleur" mot additionnel.

L'indice d'apparentement peut être à cet effet défini comme étant le quotient du résultat obtenu avec le meilleur mot additionnel de la liste (MAc) par la moyenne de tous les mots de cette même liste (MOY).

Dans l'exemple des deux listes des Tableaux 5 et 6, pour la première liste l'indice d'apparentement ainsi calculé vaut : 18,6754 = 7,329 = 2,55, tandis que pour la deuxième liste il vaut : 19,0011 = 10,559 = 1,80.

L'indice ainsi calculé est un nombre supérieur à l'unité, et la pertinence de la liste sera d'autant plus élevée que la valeur de cet indice sera faible (proche de l'unité), et vice versa. On notera que, si l'indice était calculé de la manière inverse, c'est-à-dire MOY/MAX, sa valeur serait comprise entre 0 et 1, une pertinence élevée étant reflétée par une valeur élevée, proche de l'unité.

Dans tous les cas, une valeur proche de l'unité indique une pertinence forte, révélatrice de mots présentant tous des scores élevés, proches du score maximal.

Avantageusement, l'indice d'apparentement est comparé à un seuil donné, fixé
en fonction de la sélectivité recherchée : un seuil proche de l'unité correspondra à une exigence élevée sur le critère de pertinence, tandis qu'un seuil plus élevé permettra de considérer comme pertinentes un plus grand nombre de listes.
-16-The next step is to calculate the average of the ten words (or ten best words, if more words were tested), or 7.329% for the first list and 10,559% for the second list. This average could be retained as index related to the relevance of the first list (average:
10,559) by report to the second list (average: 7.329).

Experience shows, however, that in practice this criterion does not optimize always Relative relevance assessment for this list.

The invention proposes to further improve discrimination by applying a weighting.
This weighting may in particular be a function of the highest result obtained for different words from the list, that is to say according to the result of the "better" additional word.

The index of relationship can be defined for this purpose as the quotient result obtained with the best additional word of the list (MAc) by the average of all the words of this same list (MOY).

In the example of the two lists in Tables 5 and 6, for the first list index thus calculated is: 18.6754 = 7.329 = 2.55, while for the second list it is worth: 19,0011 = 10,559 = 1,80.

The index thus calculated is a number greater than unity, and the relevance of the list will be even higher than the value of this index will be low (close to unity), and vice versa. Note that if the index was calculated in the opposite way, that is, say MOY / MAX, its value would be between 0 and 1, high relevance being reflected by a value high, close to the unit.

In all cases, a value close to unity indicates a strong relevance, revealing words all with high scores, close to the maximum score.

Advantageously, the index of comparison is compared with a given threshold, fixed according to selectivity sought: a threshold close to unity will correspond to a requirement high on the criterion of relevance, while a higher threshold to consider as relevant a larger number of lists.

-17-Avec l'exemple des Tableaux 5 et 6, on voit ainsi que si l'on fixe le seuil à
2,5, la première liste sera considérée comme insuffisamment pertinente (son indice d'apparentement vaut 2,55), tandis que la deuxième liste sera nettement plus pertinente (indice d'apparentement : 1,80).

Le seuil est très avantageusement paramétrable par l'utilisateur, par exemple via une interface graphique comprenant des flèches ou un curseur de potentiomètre linéaire.

Le fait que le critère de pertinence soit ou non vérifié, c'est-à-dire la position de l'indice d'apparentement de chaque liste par rapport au seuil, peut être affiché sur cette même interface de façon immédiatement perceptible sous forme d'un indicateur booléen, par exemple un changement de couleur ou l'affichage d'un message "PERTINENT" dans une cellule.

Si l'on prend l'exemple des Tableaux 5 et 6, le réglage du seuil à 2,5 provoque l'affichage du message "PERTINENT" pour la seconde liste, et pour cette liste seulement, car l'indice d'apparentement de la première liste (2,55) est trop élevé par rapport au seuil (2,5) de sorte que cette première liste est considérée comme non pertinente.

Si l'utilisateur modifie le seuil, par exemple en l'augmentant de 2,5 à 2,6, alors il verra s'afficher le message "PERTINENT" pour la première liste également.
Inversement s'il abaisse le seuil, par exemple de 2,5 à 1,7, le message "PERTINENT" disparaîtra pour les deux listes.

Un tel affichage interactif offre à l'utilisateur la possibilité de réagir directement grâce à la perception immédiate du résultat atteint, variable selon le réglage du seuil, ce qui permet une mise en oeuvre particulièrement efficace du procédé de l'invention.

La pondération de l'indice d'apparentement peut également tenir compte, dans une variante plus élaborée, de l'écart entre le résultat du mot de départ et la moyenne correspondante des différents mots de la liste.

Une telle pondération permet notamment de prendre en compte le fait que, pour un mot de départ donnant un résultat initial faible (dans l'absolu), il sera aisé de trouver des mots additionnels donnant des résultats proches (en valeur relative) de ce résultat initial,
-17-With the example of Tables 5 and 6, we see that if we set the threshold at 2.5, the first list will be considered as insufficiently relevant (its index relatedness is 2.55), while the second list will be much more relevant (index relatedness: 1.80).

The threshold is very advantageously parameterizable by the user, for example via a graphical interface including arrows or potentiometer slider linear.

Whether or not the relevance test is verified, that is, the position of the index of each list compared to the threshold, can be displayed on this same interface immediately noticeable in the form of an indicator Boolean, by example, a change of color or the display of a "RELEVANT" message in a cell.

If we take the example of Tables 5 and 6, setting the threshold at 2.5 causes the display the "RELEVANT" message for the second list, and for this list only, because the index related to the first list (2.55) is too high compared to threshold (2.5) of so that this first list is considered irrelevant.

If the user modifies the threshold, for example by increasing it from 2.5 to 2.6, then he will see display the "RELEVANT" message for the first list as well.
Conversely if lower the threshold, for example from 2.5 to 1.7, the message "RELEVANT" will disappear for the two lists.

Such an interactive display offers the user the opportunity to react directly thanks to the immediate perception of the result achieved, variable depending on the threshold setting, allowing a particularly efficient implementation of the method of the invention.

The weighting of the index of relationship may also take into account, in a more elaborate variant, of the difference between the result of the starting word and the average corresponding of the different words of the list.

Such weighting makes it possible, in particular, to take into account the fact that, for a word from departure giving a low initial result (in absolute terms), it will be easy to find words additions giving close results (in relative value) of this result initial,

-18-conduisant à un indice relativement favorable, dû au faible écart-type des mots additionnels. En revanche, pour un mot de départ donnant un résultat initial élevé, il sera difficile de trouver des mots additionnels donnant des résultats proches de ce résultat initial, conduisant donc à un indice relativement médiocre. La prise en compte de l'écart entre, d'une part, le résultat du mot de départ et, d'autre part, la moyenne des résultats des mots additionnels reflètera cette difficulté accrue et permettra de donner une valeur d'indice pondéré plus significative.

Il est également possible de prendre en compte le nombre de mots de la liste, considéré
comme une variable et non plus comme un paramètre figé au départ. Dans ce cas, l'indice d'apparentement sera pondéré de manière à apparaître d'autant meilleur que le nombre de mots de la liste est élevé : il est en effet plus facile de trouver une liste pertinente courte qu'une liste longue, car la probabilité augmente alors de rencontrer des termes peu pertinents, susceptibles de faire chuter la moyenne. Cette difficulté accrue est prise en compte si l'indice est pondéré par le nombre de mots additionnels de la liste.

Un indice de ce type est par exemple calculé à partir de la formule :
INDICE = [(MAX/MOY)] * N, dans laquelle MAx étant le résultat obtenu avec le meilleur mot additionnel, MOY étant la moyenne des résultats de tous les mots de la liste, N étant le nombre des mots de la liste.

De façon générale, il existe de nombreuses manières d'opérer les diverses pondérations que l'on vient d'exposer.
-18-leading to a relatively favorable index, due to the low standard deviation of words additional. On the other hand, for a starting word giving an initial result high he will difficult to find additional words giving results close to this result thus leading to a relatively poor index. Taking into account of the gap between, on the one hand, the result of the starting word and, on the other hand, the average results additional words will reflect this increased difficulty and will give a value weighted index.

It is also possible to take into account the number of words in the list, considered as a variable and no longer as a fixed parameter at the beginning. In that case, index related will be weighted so as to appear even better than the number of words in the list is high: it is indeed easier to find a short relevant list than a long list, because the probability then increases of meeting little terms relevant, likely to reduce the average. This increased difficulty is taken into count if the index is weighted by the number of additional words in the list.

An index of this type is for example calculated from the formula:
INDEX = [(MAX / MOY)] * N, in which MAx is the result obtained with the best additional word, MOY being the average of the results of all the words in the list, Where N is the number of words in the list.

In general, there are many ways to operate the various weights that we have just exposed.

-19-A titre d'exemple non limitatif, on peut calculer un indice d'apparentement à
partir de la formule généralisée suivante :

INDICE = [1/(MDD- MAX)] * [1/(MDD- MOY)] * N, dans laquelle MDD étant le résultat du mot de départ, MAX étant le résultat obtenu avec le meilleur mot additionnel, MOY étant la moyenne des résultats de tous les mots de la liste, N étant le nombre des mots de la liste.

Dans cet indice :

le facteur [1 /(MDD - MAx)] est représentatif de la qualité des divers mots additionnels trouvés ; il reflète la difficulté qu'il y a d'établir une liste pertinente lorsque le "meilleur"
mot additionnel présente un résultat élevé ;

le facteur [1 /(MDD - MOY)] est représentatif de la constance des résultats des divers mots additionnels ; il reflète la faible dispersion de ces mots autour de la moyenne ;

le facteur N, correspondant à la longueur de la liste, reflète le caractère plus ou moins prolixe du processus de génération des mots additionnels.

Cet indice pondéré permettra de classer entre elles plusieurs listes de mots, de la plus significative à la moins significative, c'est-à-dire de la plus riche à la moins riche sur le plan sémantique.

De très nombreuses variantes de calcul de cet indice peuvent être bien entendu envisagées, par exemple en partant de la médiane au lieu de la moyenne, en introduisant des non-linéarités par des élévations à une puissance entière ou fractionnaire de certains termes, par l'application de seuils ou de plafonnements, etc., de manière à
optimiser la pertinence de l'indice en fonction des résultats des expérimentations pratiques.
-19-By way of non-limiting example, it is possible to calculate an index of from the following generalized formula:

INDEX = [1 / (MDD- MAX)] * [1 / (MDD- MOY)] * N, where MDD is the result of the word of departure, MAX being the result obtained with the best additional word, MOY being the average of the results of all the words in the list, Where N is the number of words in the list.

In this index:

the factor [1 / (MDD - MAx)] is representative of the quality of the various words additional found ; it reflects the difficulty of establishing a relevant list when the "best"
additional word has a high result;

the factor [1 / (MDD - MOY)] is representative of the consistency of the results various additional words; it reflects the low dispersion of these words around the average ;

the factor N, corresponding to the length of the list, reflects the character more or less prolix process of generating additional words.

This weighted index will allow to classify several lists of words, from the most significant to the least significant, that is, from the richest to the less rich on the map semantics.

Numerous variants of calculation of this index can be of course considered, for example starting from the median instead of the average, in introducing from nonlinearities by elevations to full or fractional power from some terms, by the application of thresholds or capping, etc., so as to optimize the relevance of the index according to the results of the experiments practice.

-20--20-

Claims (18)

1. Un procédé d'analyse et de traitement des requêtes appliquées à un moteur de recherche, ce procédé étant mis en oeuvre par un système informatique comprenant ledit moteur de recherche, des moyens pour produire des mots de vocabulaire, des moyens pour soumettre au moteur de recherche des requêtes contenant chacune un mot, ou une pluralité de mots associés groupés en une phrase, et des moyens pour recevoir en réponse à chacune de ces requêtes un résultat numérique représentatif des occurrences du mot, ou de la phrase, dans un ensemble de pages web indexées par le moteur de recherche, ce procédé étant caractérisé en ce qu'il comprend la séquence d'étapes successives de :

a) détermination d'un mot de départ et soumission d'une requête contenant ce mot de départ ;

b) réception d'un résultat initial correspondant à cette requête contenant le mot de départ;
c) génération d'un mot additionnel et soumission d'une requête contenant une phrase incluant le mot de départ et le mot additionnel généré, distingués par un séparateur ;

d) réception du résultat, inférieur au résultat initial, correspondant à la requête formulée à
l'étape c) ;

e) réitération N-1 fois des étapes c) et d) avec à chaque fois un mot additionnel différent, donnant ainsi N résultats respectifs correspondant aux N mots additionnels successivement générés ; et f) classement des N résultats ainsi obtenus.
1. A method for analyzing and processing requests applied to an engine of research, this method being implemented by a computer system including said search engine, means to produce vocabulary words, means to submit to the search engine queries each containing a word, or a plurality of associated words grouped in one sentence, and means for receiving in response to each of these queries a numerical result representative of occurrences the word, or phrase, in a set of web pages indexed by the engine of search, this method being characterized in that it comprises the sequence steps successive of:

a) determination of a starting word and submission of a request containing that word of departure ;

b) receiving an initial result corresponding to this request containing the word of departure;
(c) generation of an additional word and submission of a request containing a phrasing including the word of departure and the additional word generated, distinguished by a separator;

(d) receipt of the result, lower than the initial result, corresponding to the request made to step c);

e) reiteration N-1 times of steps c) and d) with each time a word additional, thus giving N respective results corresponding to the additional N words successively generated; and f) ranking of the N results thus obtained.
2. Le procédé de la revendication 1, comprenant en outre, après l'étape f), une étape de :
g) attribution d'un indice d'apparentement selon une règle fonction desdits N
résultats, cet indice d'apparentement étant un indice global attribué à la famille des N
mots additionnels générés, cet indice d'apparentement étant également un indice relatif, attribué en considération du mot de départ.
2. The method of claim 1, further comprising, after step f), a step of:
g) assignment of a relationship index according to a rule according to said N
results, this index of relatedness being a global index attributed to the family of N
words generated, this index of relatedness being also an index relative, attributed in consideration of the word of departure.
3. Le procédé de la revendication 2, dans lequel ledit indice d'apparentement est un indice fonction de la moyenne (MOY) des résultats des mots additionnels. 3. The method of claim 2, wherein said index of relatedness is a clue Mean function (MOY) of the results of the additional words. 4. Le procédé de la revendication 2, dans lequel ledit indice d'apparentement est un indice pondéré par la valeur (MAX) du résultat correspondant au mot additionnel donnant le résultat le plus élevé. 4. The method of claim 2, wherein said index of relatedness is a clue weighted by the value (MAX) of the result corresponding to the additional word giving the highest result. 5. Le procédé de la revendication 2, dans lequel ledit indice d'apparentement est un indice pondéré par la valeur (MDD) du résultat correspondant au mot de départ. 5. The method of claim 2, wherein said index of relatedness is a clue weighted by the value (MDD) of the result corresponding to the original word. 6. Le procédé de la revendication 2, dans lequel ledit indice d'apparentement est un indice pondéré par le nombre N de mots additionnels. The method of claim 2, wherein said index of relatedness is a clue weighted by the number N of additional words. 7. Le procédé de la revendication 3, dans lequel ledit indice d'apparentement est un indice pondéré par la valeur (MAX) du résultat correspondant au mot additionnel donnant le résultat le plus élevé et dans lequel ledit indice d'apparentement est un indice fonction du quotient (MAX/MOY) du résultat (MAX) correspondant au mot additionnel donnant le résultat le plus élevé par la moyenne (MOY) des résultats des mots additionnels. 7. The method of claim 3, wherein said index of relatedness is a clue weighted by the value (MAX) of the result corresponding to the additional word giving the highest result and in which said index of relationship is a index of the quotient (MAX / AVERAGE) of the result (MAX) corresponding to the additional word giving the result the highest by the mean (MOY) of the results of the additional words. 8. Le procédé de la revendication 3, dans lequel ledit indice d'apparentement est un indice pondéré par la valeur (MDD) du résultat correspondant au mot de départ et dans lequel ledit indice d'apparentement est un indice fonction de la différence (MDD -MOY) entre la valeur (MDD) du résultat correspondant au mot de départ et la moyenne (MOY) des résultats des mots additionnels. The method of claim 3, wherein said index of relatedness is a clue weighted by the value (MDD) of the result corresponding to the starting word and which said index of relatedness is an index depending on the difference (MDD -MOY) between value (MDD) of the result corresponding to the starting word and the mean (MOY) of the additional word results. 9. Le procédé de la revendication 4, dans lequel ledit indice d'apparentement est un indice pondéré par la valeur (MDD) du résultat correspondant au mot de départ et dans lequel ledit indice d'apparentement est un indice fonction de la différence (MDD -MOY) entre la valeur (MDD) du résultat correspondant au mot de départ et la valeur (MAX) du résultat correspondant au mot additionnel donnant le résultat le plus élevé. 9. The method of claim 4, wherein said index of relatedness is a clue weighted by the value (MDD) of the result corresponding to the starting word and which said index of relatedness is an index depending on the difference (MDD -MOY) between value (MDD) of the result corresponding to the start word and the value (MAX) of the result corresponding to the additional word giving the highest result. 10. Le procédé de la revendication 3, dans lequel ledit indice d'apparentement est un indice pondéré par la valeur (MAX) du résultat correspondant au mot additionnel donnant le résultat le plus élevé ;

dans lequel ledit indice d'apparentement est un indice pondéré par la valeur (MDD) du résultat correspondant au mot de départ ;

dans lequel ledit indice d'apparentement est un indice pondéré par le nombre N
de mots additionnels ; et dans lequel ledit indice d'apparentement est un indice fonction de l'expression :
[1 /(MDD - MAX)] * [1 /(MDD - MOY)] * N, où MDD étant le résultat du mot de départ, MAX étant le résultat obtenu avec le meilleur mot additionnel, MOY étant la moyenne des résultats de tous les mots de la liste, N étant le nombre des mots de la liste.
10. The process of claim 3, wherein said relatedness index is a value-weighted index (MAX) result corresponding to the additional word giving the highest result;

wherein said relatedness index is a value-weighted index (MDD) result corresponding to the word of departure;

wherein said index of match is a number-weighted index of words additional; and wherein said index of relatedness is a function index of the expression:
[1 / (MDD - MAX)] * [1 / (MDD - MOY)] * N, where MDD is the result of the starting word, MAX being the result obtained with the best word additional, MOY being the average of the results of all the words in the list, N being the number of words in the list.
11. Le procédé de la revendication 2, comprenant en outre, après l'étape g), une étape :

h) comparaison de l'indice d'apparentement à un seuil donné, et production d'un indicateur booléen dont la valeur reflète le franchissement, ou non, de ce seuil.
The method of claim 2, further comprising, after step g), a step :

h) comparison of the index of relationship to a given threshold, and production a Boolean indicator whose value reflects the crossing or not of this threshold.
12. Le procédé de la revendication 1, dans lequel le système informatique comprend en outre :

au moins un terminal (10, 20), apte à présenter des données à un utilisateur et à
permettre à cet utilisateur de fournir des données au système, ce terminal comprenant lesdits moyens pour soumettre des requêtes au moteur de recherche et pour recevoir en réponse un résultat numérique, et un site central (40) couplé au terminal ou à chacun des terminaux, et au moteur de recherche.
The method of claim 1, wherein the computer system includes in outraged :

at least one terminal (10, 20) capable of presenting data to a user and allow this user to provide data to the system, this terminal comprising said means for submitting queries to the search engine and for to receive in response a numerical result, and a central site (40) coupled to the terminal or to each of the terminals, and to engine of research.
13. Le procédé de la revendication 12, dans lequel l'étape a) de détermination du mot de départ est une étape de sélection d'un mot par un utilisateur dans un ensemble de mots prédéfini. The method of claim 12, wherein step a) of determining of the word departure is a step of selecting a word by a user in a set of words predefined. 14. Le procédé de la revendication 12, dans lequel l'étape a) de détermination du mot de départ est une étape de sélection d'un mot par le site central parmi un ensemble de mots prédéfini. The method of claim 12, wherein step a) of determining of the word departure is a step of selecting a word by the central site among a set of words predefined. 15. Le procédé de la revendication 12, dans lequel le système est mis en oeuvre par une pluralité d'utilisateurs et lesdits mots additionnels générés à l'étape c) sont des mots fournis par les utilisateurs au système, chaque utilisateur fournissant au moins un mot additionnel respectif. 15. The method of claim 12, wherein the system is implemented works by a plurality of users and said additional words generated in step c) are words provided by users to the system, each user providing the less a word additional amount. 16. Le procédé de la revendication 12, dans lequel, le mot de départ et les mots additionnels étant générés par le système, le procédé comprend en outre, après l'étape f), les étapes suivantes :

i) par le site central, présentation à l'utilisateur des N mots additionnels, dans un ordre quelconque ;

j) par l'utilisateur, établissement d'un classement estimé de M mots choisis parmi les N
mots additionnels présentés, avec M <= N, et communication de ce classement estimé
au site central ; et k) attribution d'un score de pertinence, fonction de la proximité entre le classement estimé communiqué par l'utilisateur, et le classement réel déterminé à l'étape f).
16. The method of claim 12, wherein, the starting word and the words additional additions being generated by the system, the method further comprises, after step f), the following steps:

i) by the central site, presentation to the user of the N additional words, in one order any;

j) by the user, establishing an estimated ranking of M words selected among the N
additional words presented, with M <= N, and communication of that estimated ranking at the central site; and (k) attribution of a relevance score, as a function of the proximity between the ranking estimated release by the user, and the actual ranking determined at step f).
17. Le procédé de la revendication 12, dans lequel ledit terminal est un téléphone cellulaire (20), et ledit site central (40) est un site distant relié par des moyens de télécommunication (30, 52, 54) à une pluralité desdits terminaux. 17. The method of claim 12, wherein said terminal is a phone cell (20), and said central site (40) is a remote site connected by means of telecommunication (30, 52, 54) to a plurality of said terminals. 18. Le procédé de la revendication 12, dans lequel ledit terminal est un ordinateur personnel (10), et ledit site central (40) est un site distant relié par des moyens de télécommunication (14, 16, 50) à une pluralité desdits terminaux. 18. The method of claim 12, wherein said terminal is a computer (10), and said central site (40) is a remote site connected by means of telecommunication (14, 16, 50) to a plurality of said terminals.
CA 2610517 2006-11-13 2007-11-13 Process for analysis and processing of requests applied to a search engine Abandoned CA2610517A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US11/598,229 2006-11-13
US11/598,229 US20080113801A1 (en) 2006-11-13 2006-11-13 Game based on combinations of words and implemented by computer means
EP07290334.7 2007-03-03
EP07290334A EP1921550A1 (en) 2006-11-13 2007-03-20 Method of analysing and processing requests applied to a search engine

Publications (1)

Publication Number Publication Date
CA2610517A1 true CA2610517A1 (en) 2008-05-13

Family

ID=39400573

Family Applications (1)

Application Number Title Priority Date Filing Date
CA 2610517 Abandoned CA2610517A1 (en) 2006-11-13 2007-11-13 Process for analysis and processing of requests applied to a search engine

Country Status (2)

Country Link
AU (1) AU2007231745A1 (en)
CA (1) CA2610517A1 (en)

Also Published As

Publication number Publication date
AU2007231745A1 (en) 2008-05-29

Similar Documents

Publication Publication Date Title
US9870405B2 (en) System and method for evaluating results of a search query in a network environment
US10395216B2 (en) Computer-based method and system of analyzing, editing and improving content
US9449271B2 (en) Classifying resources using a deep network
Nigam et al. Towards a robust metric of opinion
TWI491217B (en) Method to increase content relevance using insights obtained from user activity updates
US7966316B2 (en) Question type-sensitive answer summarization
US9454586B2 (en) System and method for customizing analytics based on users media affiliation status
EP1921550A1 (en) Method of analysing and processing requests applied to a search engine
US20070255702A1 (en) Search Engine
US20120158989A1 (en) System and method for providing argument maps based on activity in a network environment
US20120042020A1 (en) Micro-blog message filtering
KR20160055930A (en) Systems and methods for actively composing content for use in continuous social communication
US11769064B2 (en) Onboarding of entity data
US8359225B1 (en) Trust-based video content evaluation
US20130151538A1 (en) Entity summarization and comparison
CN103023753A (en) Method, client-side and system for interactive content correlation output in instant messaging interaction
US11651039B1 (en) System, method, and user interface for a search engine based on multi-document summarization
WO2021257178A1 (en) Provide knowledge answers for knowledge-intention queries
US20120284248A9 (en) System and method for metadata transfer among search entities
US12038958B1 (en) System, method, and user interface for a search engine based on multi-document summarization
US7693907B1 (en) Selection for a mobile device using weighted virtual titles
EP4235438A2 (en) Assessing applications for delivery via an application delivery server
CA2610517A1 (en) Process for analysis and processing of requests applied to a search engine
Moschopoulos et al. Toward the automatic extraction of policy networks using web links and documents
US20200402195A1 (en) Methods and Systems Using Bets to Describe and Label Information

Legal Events

Date Code Title Description
FZDE Dead