FR2970795A1

FR2970795A1 - Method for filtering of synonyms in electronic document database in information system for searching information in e.g. Internet, involves performing reduction of number of synonyms of keyword based on score value of semantic proximity

Info

Publication number: FR2970795A1
Application number: FR1150584A
Authority: FR
Inventors: Martin Grosjean; Didier Bourigault
Original assignee: SYNOMIA
Current assignee: SYNOMIA
Priority date: 2011-01-25
Filing date: 2011-01-25
Publication date: 2012-07-27

Abstract

The method involves determining (9) synonyms of a keyword e.g. French keyword, and performing (11) a contextual analysis of the keyword and each of its synonyms in an electronic document database. A distribution of contextual keyword and contextual distribution each of its synonyms in the database are compared (12). A semantic score of proximity of the synonyms is provided as a function of equivalent distribution between contextual keyword and synonym. A reduction of the number of synonyms of the keyword is performed (13) based on score value of semantic proximity of each synonym. Independent claims are also included for the following: (1) an utilization of a synonym base (2) a synonym filtering system.

Description

-1 « Procédé de filtrage de synonymes» -1 "Method of filtering synonyms"

Domaine technique La présente invention concerne un procédé de filtrage de synonymes. Technical Field The present invention relates to a method for filtering synonyms.

Elle concerne aussi un système mettant en oeuvre ce dispositif. Le domaine de l'invention est plus particulièrement celui de l'expansion synonymique contextuelle. It also relates to a system implementing this device. The field of the invention is more particularly that of contextual synonymic expansion.

Etat de la technique antérieure La recherche d'informations dans des bases documentaires électroniques de très grande taille est une application répandue non seulement sur l'Internet, mais aussi au sein des entreprises qui possèdent d'énormes gisements de données textuelles non structurées auxquels il leur est vital de pouvoir accéder de façon rapide et précise. PRIOR ART The search for information in very large electronic document bases is a widespread application not only on the Internet, but also in companies that have enormous deposits of unstructured textual data to which they are exposed. It is vital to be able to access quickly and accurately.

La technique la plus répandue dans les systèmes de recherche est celle des mots-clés. Le système indexe chacun des documents de la base par l'ensemble des mots qu'il contient. Au moment d'une requête de mots clefs, grâce à un index inversé construit lors de l'indexation, il extrait tous les documents de la base qui contiennent les mots de la requête de l'utilisateur. Cette technique, inventée par Salton dans les années 50, s'est popularisée avec le développement de l'Internet et le succès des moteurs de recherche sur le Web. L'un de ses principaux problèmes ou défauts est le manque de rappel ou « silence » : le moteur de recherche ne ramène que les documents qui contiennent les mots de la requête de l'utilisateur. Il est toujours possible que des documents répondant au besoin de l'utilisateur ne soient pas ramenés par le système, car ne contenant pas les mots de la requête, mais d'autres mots sémantiquement équivalents. Cette difficulté est directement liée à des propriétés connue du langage naturel, la paraphrase et la synonymie : une même idée peut être formulée de multiples façons, impliquant des mots différents. Dans le contexte des systèmes de recherche, le silence naît de l'inadéquation entre les mots choisis par l'utilisateur pour exprimer son besoin d'information, et 2970795 -2 ceux utilisés dans les documents de la base pour véhiculer cette même information. The most common technique in search systems is that of keywords. The system indexes each of the documents in the database by the set of words it contains. At the time of a query of keywords, thanks to an inverted index built during the indexing, it extracts all the documents of the base which contain the words of the request of the user. This technique, invented by Salton in the 1950s, became popular with the development of the Internet and the success of search engines on the Web. One of its main problems or shortcomings is the lack of recall or "silence": the search engine only returns documents that contain the words of the user's query. It is always possible that documents that meet the needs of the user are not brought back by the system because they do not contain the words of the request, but other semantically equivalent words. This difficulty is directly related to known properties of natural language, paraphrase and synonymy: the same idea can be formulated in many ways, involving different words. In the context of research systems, silence arises from the inadequacy between the words chosen by the user to express his need for information, and those used in the documents of the database to convey this same information.

Une solution à ce problème est le recours aux thésaurus spécialisés. 5 Pour un domaine donné, ces thésaurus consignent entre autres des relations de synonymie entre les termes du domaine. Ces relations peuvent être exploitées par un système de recherche pour faire de l'expansion automatique de requête : le système ajoute à la requête de l'utilisateur les synonymes des mots de la requête qu'il trouve dans le thesaurus. Cette 10 solution n'est viable que quand on dispose d'un thésaurus complet et maintenu à jour, couvrant le domaine de la base documentaire, ce qui est une situation rarissime, étant donné les coûts de construction et maintenance des thesaurus spécialisés. Il est donc encore possible de rater des synonymes pertinents avec un tel thésaurus, et la problématique du 15 « silence » n'est donc pas correctement résolue. Le recours aux thésaurus spécialisés n'est donc pas la panacée. One solution to this problem is the use of specialized thesauri. For a given domain, these thesauri record, among other things, synonymic relations between the terms of the domain. These relationships can be exploited by a search system to make automatic query expansion: the system adds to the user's query the synonyms of the query words found in the thesaurus. This solution is viable only when a complete and up-to-date thesaurus is available, covering the field of the document base, which is a very rare situation, given the construction and maintenance costs of specialized thesauri. It is therefore still possible to miss relevant synonyms with such a thesaurus, and the problem of "silence" is therefore not properly solved. The use of specialized thesauri is therefore not a panacea.

Depuis quelques années, on cherche à résoudre le problème du « silence » en exploitant des ressources lexicales génériques, non 20 spécialisées, éventuellement librement disponibles, et en particulier la base de données WordNet. WordNet est une base de données lexicales construite pour la langue anglaise par des lexicographes de l'Université de Princeton, dans laquelle les mots sont groupés par sens ou « synsets ». Chaque mot est associé à autant de « synsets » (un synset étant un 25 ensemble de mots synonymes) qu'il a de sens différents. Il est tentant de chercher à exploiter de telles bases de données générales. Mais on ne peut le faire de façon automatique en exploitant les données telles quelles, car une expansion d'une requête utilisateur avec tous les synonymes de la base lexicale quel que soit le domaine de la base 30 documentaire générerait un niveau de bruit absolument rédhibitoire. Ainsi, avec une telle ressource lexicale générique, apparaît un problème technique opposé : la recherche de mots clefs dans une base de données via le système d'informations va inclure trop de synonymes, notamment des 2970795 -3 synonymes qui ne sont pas pertinents par rapport au domaine de la base de données ou de la recherche. In recent years, the problem of "silence" has been solved by exploiting generic, non-specialized, possibly freely available lexical resources, and in particular the WordNet database. WordNet is a lexical database built for the English language by lexicographers of Princeton University, in which words are grouped by meaning or 'synsets'. Each word is associated with so many "synsets" (a synset being a set of synonymous words) that it has different meanings. It is tempting to try to exploit such general databases. But it can not be done automatically by exploiting the data as it is, because an expansion of a user query with all the synonyms of the lexical base whatever the field of the documentary database would generate an absolutely unacceptable noise level. Thus, with such a generic lexical resource, there appears an opposite technical problem: the search for key words in a database via the information system will include too many synonyms, especially 2970795 -3 synonyms that are irrelevant to to the domain of the database or research.

Le problème technique à la base de l'invention est donc le suivant : 5 comment sélectionner automatiquement, dans un système d'informations en vue d'une recherche dans une base documentaire, et parmi tous les synonymes potentiels de chaque mot de la requête de la recherche, uniquement les synonymes avec lesquels il est pertinent d'étendre la requête, c'est-à-dire ceux qui ont réellement le même sens que le mot de la 10 requête dans la base documentaire ? The technical problem underlying the invention is therefore the following: how to automatically select, in an information system for a search in a document database, and among all the potential synonyms of each word of the request for search, only the synonyms with which it is relevant to extend the request, that is to say those which really have the same meaning as the word of the query in the document base?

Exposé de l'invention Cet objectif est atteint avec un procédé de filtrage de synonymes dans une base documentaire, comprenant pour chaque mot clef parmi 15 au moins un mot clef: o une détermination de synonymes du mot clef, o une analyse contextuelle du mot clef et de chacun de ses synonymes dans la base documentaire, donnant une distribution contextuelle du mot clef et une distribution contextuelle pour 20 chacun de ses synonymes dans la base documentaire, o une comparaison de la distribution contextuelle du mot clef et de la distribution contextuelle de chacun de ses synonymes dans la base documentaire comprenant, pour chaque synonyme du mot clef, une affectation d'un score de proximité sémantique du 25 synonyme, ce score étant une fonction d'équivalences de distribution contextuelle entre le mot clef et ce synonyme, o une réduction du nombre des synonymes du mot clef, en fonction de la valeur du score de proximité sémantique de chaque synonyme. 30 L'analyse contextuelle du mot clef ou d'un synonyme du mot clef peut comprendre une analyse syntaxique de phrases de la base documentaire dans lesquelles respectivement le mot clef ou synonyme se trouve, pour déterminer un contexte syntaxique respectivement du mot clef ou synonyme dans chacune de ces phrases. L'analyse syntaxique peut 2970795 -4 comprendre une analyse syntaxique de toutes les phrases de la base documentaire. Pour chaque mot clef et pour chacun de ses synonymes, l'analyse syntaxique peut comprendre une détermination de contextes syntaxiques du mot clef ou synonyme dans la base documentaire (de 5 préférence de tous les contextes syntaxiques du mot clef ou synonyme dans la base documentaire). L'analyse syntaxique peut associer, de préférence à chaque nouvelle occurrence d'un mot clef ou d'un de ses synonymes dans la base documentaire, un ou plusieurs contexte(s) syntaxique(s), de préférence autant de contexte syntaxique que de mots avec lequel ce mot 10 clef ou synonyme est en relation de dépendance syntaxique pour cette occurrence. Chaque contexte syntaxique est de préférence défini par : o l'autre mot avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique, en tant que gouverneur ou en tant que dépendant, et 15 0 l'étiquette syntaxique de cet autre mot avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique, et/ou o la relation de dépendance syntaxique entre ce mot clef ou synonyme et cet autre mot. L'analyse syntaxique peut déterminer, pour chaque mot clef et pour 20 chacun de ses synonymes, une fréquence de cooccurrence de chacun de leurs contextes syntaxiques déterminés. Le procédé selon l'invention peut comprendre, avant l'affectation du score de proximité, une élimination des contextes syntaxiques dont la fréquence de cooccurrence est inférieure à un certain seuil de cooccurrence. 25 L'affectation d'un score de proximité sémantique d'un synonyme du mot clef peut comprendre une mesure quantitative de proximité sémantique entre ce mot clef et ce synonyme (mesure de Jacquard ou autre). La réduction du nombre des synonymes du mot clef, en fonction de la valeur du score de proximité sémantique de chaque synonyme, peut 30 comprendre une élimination des synonymes dont le score de proximité sémantique est inférieur à un certain seuil de proximité sémantique. Le procédé selon l'invention peut comprendre une construction d'une base de synonymes associant chaque mot clef avec ses synonymes après la ou les réduction(s) du nombre de synonymes. La base de synonymes peut 2970795 -5 être construite en prenant chaque mot de la base documentaire comme mot clef. Le procédé selon l'invention peut comprendre une entrée d'une requête d'au moins un mot clef, et pour chaque mot clef de la requête, une 5 recherche dans la base documentaire du mot clef et de synonymes auquel le mot clef est associé dans la base de synonymes. L'entrée de la requête est de préférence postérieure à la réduction en fonction de la valeur du score de proximité sémantique. L'entrée de la requête est de préférence postérieure à une construction d'une base de synonymes construite en 10 mettant en oeuvre le procédé selon l'invention pour chaque mot de la base documentaire. L'entrée peut comprendre une entrée d'une requête d'au moins deux mots clef, en en ce que l'utilisation comprend, avant la recherche, une réduction supplémentaire du nombre de synonymes de chaque mot clef de la requête en fonction d'un ou plusieurs autres mots 15 clefs de la requête. La réduction du nombre de synonymes du mot clef en fonction d'un ou plusieurs autres mots clefs de la requête peut comprendre, pour un couple de deux mots clefs comprenant un premier mot clef et un deuxième mot clef, le premier mot clef étant dans la base documentaire en relation de dépendance syntaxique avec le deuxième mot clef, ou le 20 deuxième mot clef étant dans la base documentaire en relation de dépendance syntaxique avec le premier mot clef, une élimination des synonymes du premier mot clef qui ne sont pas dans la base documentaire en relation de dépendance syntaxique avec le deuxième mot clef, et une élimination des synonymes du deuxième mot clef qui ne sont pas dans la 25 base documentaire en relation de dépendance syntaxique avec le premier mot clef. DISCLOSURE OF THE INVENTION This objective is achieved with a method for filtering synonyms in a document base, comprising for each key word among at least one keyword: o a determination of synonyms of the keyword, o a contextual analysis of the key word and each of its synonyms in the document database, giving a contextual distribution of the keyword and a contextual distribution for each of its synonyms in the document base, where a comparison of the contextual distribution of the keyword and the contextual distribution of each its synonyms in the documentary database comprising, for each synonym of the keyword, an assignment of a semantic proximity score of the synonym, this score being a function of contextual distribution equivalences between the key word and this synonym, o a reduction of the number of synonyms of the keyword, according to the value of the semantic proximity score of each synonym. 30 The contextual analysis of the keyword or of a synonym of the keyword can include a syntactic analysis of sentences of the document base in which respectively the key word or synonym is found, to determine a syntactic context respectively of the keyword or synonym in each of these sentences. The parsing can include parsing of all the sentences of the document base. For each keyword and for each of its synonyms, the parsing may include a syntactic context determination of the keyword or synonym in the document base (preferably all syntactic contexts of the keyword or synonym in the document base) . The syntactic analysis can associate, preferably with each new occurrence of a key word or one of its synonyms in the documentary base, one or more syntactic context (s), preferably as much of syntactic context as of words with which this key or synonym word is in syntactic dependency relation for this occurrence. Each syntactic context is preferably defined by: the other word with which this key word or synonym is in syntactic dependency relation, as governor or as dependent, and the syntactic label of this other word with which this key word or synonym is in syntactic dependency relation, and / or o the syntactic dependency relation between this key word or synonym and this other word. The syntactic analysis can determine, for each key word and for each of its synonyms, a frequency of co-occurrence of each of their determined syntactic contexts. The method according to the invention may comprise, before the assignment of the proximity score, an elimination of syntactic contexts whose co-occurrence frequency is below a certain threshold of co-occurrence. Assigning a semantic proximity score of a keyword synonym may include a quantitative measure of semantic proximity between that key word and that synonym (Jacquard measure or otherwise). Reducing the number of keyword synonyms, depending on the value of the semantic proximity score of each synonym, may include an elimination of synonyms whose semantic proximity score is below a certain threshold of semantic proximity. The method according to the invention may comprise a construction of a base of synonyms associating each key word with its synonyms after the reduction (s) of the number of synonyms. The synonym database can be constructed by taking each word from the document base as a key word. The method according to the invention may comprise an entry of a request for at least one keyword, and for each keyword of the request, a search in the document base of the keyword and of synonyms to which the key word is associated in the synonym database. The input of the request is preferably subsequent to the reduction as a function of the value of the semantic proximity score. The entry of the request is preferably subsequent to a construction of a synonym database constructed by implementing the method according to the invention for each word of the document base. The input may comprise an input of a query of at least two keywords, in that the use comprises, before the search, a further reduction of the number of synonyms of each keyword of the query as a function of one or more other key words of the request. Reducing the number of keyword synonyms based on one or more other keywords of the query may include, for a pair of two keywords comprising a first keyword and a second keyword, the first keyword being in the document base in syntactic dependency relation with the second keyword, or the second key word being in the document base in syntactic dependency relation with the first key word, an elimination of the synonyms of the first keyword which are not in the base documentary in syntactic dependency relationship with the second keyword, and an elimination of synonyms of the second keyword that are not in the document base in syntactic dependency relationship with the first keyword.

Suivant encore un autre aspect de l'invention, il est proposé une utilisation d'une base de synonymes construite selon le procédé selon 30 l'invention, caractérisée en ce qu'elle comprend une entrée d'une requête d'au moins un mot clef, et pour chaque mot clef de la requête, une recherche dans la base documentaire du mot clef et de synonymes auquel le mot clef est associé dans la base de synonymes. 2970795 -6 L'entrée peut comprendre une entrée d'une requête d'au moins deux mots clef, et l'utilisation selon l'invention peut comprendre, avant la recherche, une réduction supplémentaire du nombre de synonymes de chaque mot clef de la requête en fonction d'un ou plusieurs autres mots 5 clefs de la requête. La réduction du nombre de synonymes du mot clef en fonction d'un ou plusieurs autres mots clefs de la requête peut comprendre, pour un couple de deux mots clefs comprenant un premier mot clef et un deuxième mot clef, le premier mot clef étant dans la base documentaire en relation de 10 dépendance syntaxique avec le deuxième mot clef, ou le deuxième mot clef étant dans la base documentaire en relation de dépendance syntaxique avec le premier mot clef, une élimination des synonymes du premier mot clef qui ne sont pas dans la base documentaire en relation de dépendance syntaxique avec le deuxième mot clef, et une élimination des synonymes du 15 deuxième mot clef qui ne sont pas dans la base documentaire en relation de dépendance syntaxique avec le premier mot clef. According to yet another aspect of the invention, there is provided a use of a synonym database constructed according to the method according to the invention, characterized in that it comprises an input of a query of at least one word key, and for each key word of the request, a search in the document base of the keyword and of synonyms to which the key word is associated in the base of synonyms. The input may comprise an input of a query of at least two keywords, and the use according to the invention may comprise, before the search, a further reduction of the number of synonyms of each keyword of the query based on one or more other key words of the query. Reducing the number of keyword synonyms based on one or more other keywords of the query may include, for a pair of two keywords comprising a first keyword and a second keyword, the first keyword being in the document base in syntactic dependency relation with the second key word, or the second key word being in the document base in syntactic dependency relation with the first key word, an elimination of the synonyms of the first key word which are not in the base documentary in syntactic dependency relationship with the second keyword, and an elimination of synonyms of the second keyword that are not in the document base in syntactic dependency relationship with the first keyword.

Suivant encore un autre aspect de l'invention, il est proposé un système de filtrage de synonymes dans une base documentaire, 20 comprenant pour chaque mot clef parmi au moins un mot clef: o des moyens pour déterminer des synonymes du mot clef, o des moyens d'analyse contextuelle du mot clef et de chacun de ses synonymes dans la base documentaire, agencés pour donner une distribution contextuelle du mot clef et une distribution 25 contextuelle pour chacun de ses synonymes dans la base documentaire, o des moyens pour comparer la distribution contextuelle du mot clef et de la distribution contextuelle de chacun de ses synonymes dans la base documentaire comprenant, pour chaque synonyme 30 du mot clef, des moyens pour affecter un score de proximité sémantique du synonyme, ce score étant une fonction d'équivalences de distribution contextuelle entre le mot clef et ce synonyme, 2970795 -7 o des moyens pour réduire le nombre des synonymes du mot clef, en fonction de la valeur du score de proximité sémantique de chaque synonyme. Les moyens d'analyse contextuelle du mot clef ou d'un synonyme du 5 mot clef peuvent comprendre des moyens d'analyse syntaxique de phrases de la base documentaire dans lesquelles respectivement le mot clef ou synonyme se trouve, agencés pour déterminer un contexte syntaxique respectivement du mot clef ou synonyme dans chacune de ces phrases. Les moyens d'analyse syntaxique sont de préférence agencés pour une analyse 10 syntaxique de toutes les phrases de la base documentaire. Pour chaque mot clef et pour chacun de ses synonymes, les moyens d'analyse syntaxique peuvent comprendre des moyens pour déterminer des contextes syntaxiques du mot clef ou synonyme dans la base documentaire (de préférence tous les contextes syntaxiques du mot clef ou synonyme dans la 15 base documentaire). Les moyens d'analyse syntaxique peuvent être agencés pour associer, de préférence à chaque nouvelle occurrence d'un mot clef ou d'un de ses synonymes dans la base documentaire, un ou plusieurs contexte(s) syntaxique(s), de préférence autant de contexte syntaxique que de mots avec lequel ce mot clef ou synonyme est en 20 relation de dépendance syntaxique pour cette occurrence. Chaque contexte syntaxique est de préférence défini par : o l'autre mot avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique, en tant que gouverneur ou en tant que dépendant, et 25 0 l'étiquette syntaxique de cet autre mot avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique, et/ou o la relation de dépendance syntaxique entre ce mot clef ou synonyme et cet autre mot. Les moyens d'analyse syntaxique peuvent être agencés pour 30 déterminer, pour chaque mot clef et pour chacun de ses synonymes, une fréquence de cooccurrence de chacun de leurs contextes syntaxiques déterminés. Le système selon l'invention peut comprendre des moyens pour, avant l'affectation du score de proximité, éliminer des contextes 2970795 -8 syntaxiques dont la fréquence de cooccurrence est inférieure à un certain seuil de cooccurrence. Les moyens pour affecter un score de proximité sémantique d'un synonyme du mot clef peuvent comprendre des moyens pour effectuer une 5 mesure quantitative de proximité sémantique entre ce mot clef et ce synonyme (mesure de Jacquard ou autre). Les moyens pour réduire le nombre des synonymes du mot clef, en fonction de la valeur du score de proximité sémantique de chaque synonyme, peuvent comprendre des moyens pour éliminer des synonymes 10 dont le score de proximité sémantique est inférieur à un certain seuil de proximité sémantique. Le système selon l'invention peut comprendre des moyens pour construire une base de synonymes associant chaque mot clef avec ses synonymes après la ou les réduction(s) du nombre de synonymes. Les 15 moyens pour construire la base de synonymes peuvent être agencés pour construire la base de synonymes en prenant chaque mot de la base documentaire comme mot clef. Le système selon l'invention peut comprendre des moyens pour recevoir une entrée d'une requête d'au moins un mot clef, et pour chaque 20 mot clef de la requête, des moyens pour effectuer dans la base documentaire une recherche du mot clef et de synonymes auquel le mot clef est associé dans la base de synonymes. L'entrée peut comprendre une entrée d'une requête d'au moins deux mots clef, en en ce qu'il comprend des moyens pour, avant la recherche, réduire le nombre de synonymes de 25 chaque mot clef de la requête en fonction d'un ou plusieurs autres mots clefs de la requête. Les moyens pour réduire le nombre de synonymes du mot clef en fonction d'un ou plusieurs autres mots clefs de la requête peuvent être agencés, pour un couple de deux mots clefs comprenant un premier mot clef et un deuxième mot clef, le premier mot clef étant dans la 30 base documentaire en relation de dépendance syntaxique avec le deuxième mot clef, ou le deuxième mot clef étant dans la base documentaire en relation de dépendance syntaxique avec le premier mot clef, effectuer une élimination des synonymes du premier mot clef qui ne sont pas dans la base documentaire en relation de dépendance syntaxique avec le deuxième mot 2970795 -9- clef, et une élimination des synonymes du deuxième mot clef qui ne sont pas dans la base documentaire en relation de dépendance syntaxique avec le premier mot clef. According to yet another aspect of the invention, there is provided a system for filtering synonyms in a document base, comprising for each keyword among at least one keyword: means for determining synonyms of the keyword; contextual analysis means of the keyword and of each of its synonyms in the document base, arranged to give a contextual distribution of the keyword and a contextual distribution for each of its synonyms in the document base, o means for comparing the distribution contextual of the keyword and the contextual distribution of each of its synonyms in the document base comprising, for each synonym 30 of the keyword, means for assigning a semantic proximity score of the synonym, this score being a distribution equivalence function contextual between the keyword and this synonym, 2970795 -7 o means to reduce the number of synonyms of the keyword, depending on the value of the sco re of semantic proximity of each synonym. The contextual analysis means of the keyword or of a keyword synonym can comprise means of parsing sentences of the document base in which respectively the key word or synonym is located, arranged to determine a syntactic context respectively of the key word or synonym in each of these sentences. The parsing means are preferably arranged for parsing all the sentences of the document base. For each keyword and for each of its synonyms, the parsing means may comprise means for determining syntactic contexts of the keyword or synonym in the document base (preferably all the syntactic contexts of the keyword or synonym in the 15 document database). The means for parsing can be arranged to associate, preferably with each new occurrence of a key word or one of its synonyms in the document base, one or more syntactic context (s), preferably as many syntactic context only words with which this keyword or synonym is in syntactic dependency relation for this occurrence. Each syntactic context is preferably defined by: the other word with which this keyword or synonym is in syntactic dependency relation, as governor or as dependent, and the syntactic tag of that other word with which this key word or synonym is in syntactic dependency relation, and / or o the syntactic dependency relation between this key word or synonym and this other word. The means of parsing can be arranged to determine, for each keyword and for each of its synonyms, a frequency of co-occurrence of each of their particular syntactic contexts. The system according to the invention may comprise means for eliminating syntactic contexts whose frequency of co-occurrence is lower than a certain threshold of co-occurrence before the proximity score is assigned. Means for assigning a semantic proximity score of a keyword synonym may include means for performing a quantitative measure of semantic proximity between that key word and that synonym (Jacquard measure or otherwise). The means for reducing the number of synonyms of the keyword, depending on the value of the semantic proximity score of each synonym, may include means for eliminating synonyms whose semantic proximity score is below a certain threshold of semantic proximity. . The system according to the invention may comprise means for constructing a synonym database associating each keyword with its synonyms after the reduction (s) of the number of synonyms. The means for constructing the synonym database can be arranged to build the synonym database by taking each word of the document base as a key word. The system according to the invention may comprise means for receiving an entry from a request for at least one keyword, and for each key word of the request, means for performing in the document database a search for the keyword and of synonyms to which the keyword is associated in the synonym database. The input may comprise an input of a query of at least two keywords, in that it comprises means for, before the search, reducing the number of synonyms of each keyword of the query as a function of one or more other keywords of the query. The means for reducing the number of synonyms of the keyword according to one or more other key words of the request can be arranged, for a couple of two keywords comprising a first key word and a second key word, the first key word being in the document base in syntactic dependency relation with the second key word, or the second key word being in the document base in syntactic dependency relation with the first key word, performing an elimination of the synonyms of the first keyword which are not not in the document base in syntactic dependency relation with the second key word, and an elimination of the synonyms of the second key word which are not in the document base in syntactic dependency relation with the first key word.

Description des figures et modes de réalisation D'autres avantages et particularités de l'invention apparaîtront à la lecture de la description détaillée de mises en oeuvre et de modes de réalisation nullement limitatifs, et des dessins annexés suivants : - la figure 1 illustre un système d'information selon l'invention dans lequel on implémente le procédé selon l'invention, et - la figure 2 est un organigramme illustrant des étapes d'un procédé selon l'invention. DESCRIPTION OF THE FIGURES AND EMBODIMENTS Other advantages and particularities of the invention will appear on reading the detailed description of implementations and non-limiting embodiments, and the following appended drawings: FIG. of information according to the invention in which the method according to the invention is implemented, and - Figure 2 is a flowchart illustrating steps of a method according to the invention.

Dans ce document, l'ensemble des mots écrits en Italique sont en 15 langue française. Si ce document venait à être traduit, ces mots en Italique ne seraient pas nécessairement traduits car les exemples de mise en oeuvre sont des exemples dans des bases de données regroupant des mots en français, et pour lesquels (et c'est là un sujet de l'invention) il peut exister plusieurs dizaines de synonymes différents et donc de traductions 20 différentes. In this document, all the words written in italics are in French. If this document were to be translated, these words in Italic would not necessarily be translated because the examples of implementation are examples in databases grouping words in French, and for which (and this is a subject of the invention) there may exist several dozens of different synonyms and therefore different translations.

On va donc décrire, en référence aux figures 1 et 2, un exemple de procédé de filtrage de synonymes selon l'invention, basé sur une analyse distributionnelle du contenu d'un corpus (ou base documentaire) pour un 25 système d'expansion synonymique contextuel, et mis en oeuvre dans un système d'information. Thus, with reference to FIGS. 1 and 2, an example of a method for filtering synonyms according to the invention, based on a distributional analysis of the content of a corpus (or document base) for a synonymic expansion system, will be described with reference to FIGS. contextual, and implemented in an information system.

Le procédé d'expansion et de filtrage de synonymes en vue d'une recherche dans une base documentaire selon invention est mis en oeuvre 30 dans le système 1 représenté sur la figure 1. Ce système mettant en oeuvre le procédé d'invention comprend uniquement des moyens techniques, notamment des moyens informatiques et électroniques (ordinateurs, moyens de connexion à un réseau ou à Internet, bases de données, etc.. ). 5 10 2970795 -10 Le système 1 comprend une base documentaire 2. Cette base documentaire 2 est une base de données informatique, c'est-à-dire qu'elle comprend des moyens de stockage informatique (tels qu'un disque dur d'un ordinateur ou d'un serveur), et stocke un ou de préférence plusieurs 5 documents informatisés. Cette base documentaire 2 stocke par exemple le contenu de : - une ou de préférence un ensemble de pages Internet, et/ou - un ou de préférence un ensemble de fichiers informatiques texte (.txt, .doc, etc...) ou hypertexte (.html, etc...) , dans lesquels l'analyseur 4 10 peut lire et analyser des mots (éventuellement après une étape de reconnaissance de caractères) tel un fichier texte ou un fichier « Portable Document Forma » (.pdf). Le système 1 comprend une base lexicale 3. La base lexicale 3 est une base de données informatique (c'est-à-dire qu'elle comprend des moyens 15 de stockage informatique tels que précédemment énoncés) qui rassemble des informations de type sémantique entre mots, en particulier des relations de synonymie. Par exemple, la base lexicale peut comprendre la base de données WordNet, ou une ontologie, ou un dictionnaire, ou un thesaurus, etc... Le procédé d'expansion synonymique selon l'invention 20 exploite une base lexicale (ontologie, dictionnaire, thésaurus, etc.) qui rassemble des informations de type sémantique entre mots, en particulier des relations de synonymie. Il permet de sélectionner automatiquement pour tous les mots de la base documentaire 2 ceux de leurs synonymes potentiels, figurant dans la base lexicale 3, qui leur sont effectivement 25 sémantiquement équivalents au vu du contenu de la base documentaire 2. Le système 1 comprend un analyseur 4, constitué de moyens électroniques et/ou informatiques. Cet analyseur comprend typiquement une unité centrale d'un ordinateur et/ou une carte électronique analogique et/ou numérique. 30 La base documentaire 2 est connectée à l'analyseur 4, typiquement via le réseau Internet 5. L'analyseur 4 travaille typiquement sur la base documentaire 2 (analyse, lecture, comparaison, etc..) via cette liaison internet. Dans une variante du procédé selon l'invention, l'analyseur 4 travaille sur une copie de la base documentaire 2, importée et copiée via la 2970795 -11 liaison internet, et stockée localement sur le même site géographique que l'analyseur 4 ; cette copie de la base documentaire 2 est idéalement convertie dans un format exploitable par l'analyseur 4, typiquement en format ASCII. 5 La base lexicale 3 est connectée à l'analyseur 4, typiquement via le réseau Internet 5. L'analyseur 4 travaille typiquement sur la base lexicale 3 (analyse, lecture, comparaison, etc..) via cette liaison internet. Dans une variante du procédé selon l'invention, l'analyseur 4 travaille sur une copie de la base lexicale 3, importée et copiée via la liaison internet, et stockée 10 localement sur le même site géographique que l'analyseur 4 ; cette copie de la base lexicale 3 est idéalement convertie dans un format exploitable par l'analyseur 4, typiquement en format ASCII. L'objectif du mode de réalisation de procédé selon l'invention qui va être décrit est de créer une base de synonymes 6 qui rassemble, pour des 15 « mots clefs », des relations de synonymie en fonction du « contexte » de la base documentaire 2, ces relations de synonymies étant optimisées par rapport à la base documentaire 2, c'est-à-dire étant personnalisées aux termes et au(x) domaine(s) de la base documentaire 2. Cela permet par exemple d'optimiser une recherche sur un site 20 internet (en tant que base documentaire 2) via une boite de dialogue « rechercher sur ce site » intégrée au site internet. Dans cet exemple de procédé selon l'invention, les mots clefs pour lesquels on va chercher à définir ces relations de synonymies sont sélectionnés de la manière suivante : une lecture de la base documentaire 2 25 (par l'analyseur 4) identifie l'ensemble des mots présents dans la base documentaire 2 (étape 8 d'identification). Les mots clefs pour lesquels on va chercher à définir ces relations de synonymies comprennent certains ou de préférence l'ensemble des mots relevés et identifiés dans la base documentaire 2. Ces mots clefs sont stockés dans une mémoire accessible à 30 l'analyseur 4. Par mémoire, on entend dans ce document typiquement un disque dur d'un ordinateur ou d'un serveur. 2970795 -12 Première contextualisation dite « contextualisation globale » Le procédé selon l'invention comprend tout d'abord, pour chaque mot clef identifié, une contextualisation globale, qui sélectionne des synonymes pertinents du mot clef sur l'ensemble de la base documentaire 2. 5 Ainsi, pour chaque mot clef identifié, le procédé selon l'invention comprend les étapes A) à E) successives suivantes: A) une détermination 9 (par l'analyseur 4) de synonymes du mot clef. Cette détermination comprend une recherche de synonymes du mot clef dans la base lexicale 3 rassemblant des relations de synonymie entre mots. 10 Typiquement, l'analyseur 4 consulte la base lexicale 3 et en extrait le ou les synonymes du mot clef. Ainsi, on détermine un ensemble de synonymes pour le mot clef, cet ensemble de synonymes étant stocké dans une mémoire accessible à l'analyseur 4. Cet ensemble de synonymes comprend de préférence plusieurs synonymes au moins pour certains mots clefs, mais 15 pour certains autres mots clefs peut ne comprendre aucun ou qu'un seul synonyme; puis, B) une première réduction 10 (par l'analyseur 4) du nombre des synonymes du mot clef en un premier sous ensemble de synonymes, en fonction de ceux présents dans la base documentaire, de préférence en ne 20 conservant que ceux présents dans la base documentaire ; pour cela, l'analyseur 4 lit le contenu de la base documentaire 2, et confronte l'ensemble de synonymes déterminés à l'étape A) avec les mots contenus dans la base documentaire 2. L'analyseur 4 élimine, parmi les synonymes du mot clef déterminés à l'étape A), les mots qui ne sont pas présents dans 25 la base documentaire 2. Ce premier sous ensemble de synonymes est stocké dans une mémoire accessible à l'analyseur 4. C) une analyse contextuelle 11 du mot clef et de chacun de ses synonymes dans la base documentaire, donnant une distribution contextuelle du mot clef et une distribution contextuelle pour chacun de ses 30 synonymes du premier sous ensemble dans la base documentaire. Cette analyse contextuelle est effectuée par l'analyseur 4 qui lit et analyse le contenu de la base documentaire 2. L'analyse contextuelle ou syntaxique peut par exemple être mise en oeuvre selon un procédé tel que décrit dans le document FR 2 825 496 B1, ou peut par exemple être mis en oeuvre par 2970795 -13 l'analyseur syntaxique « SYNTEX » (décrit sur la page web http://w3.erss.univ-tlse2fr/membres/bourigault/) ou par l'analyseur syntaxique « Minipar » développé par Dekang Lin (http:webdocs.cs.ualberta.cai-lindek/minipar.htm) ou par l'analyseur 5 syntaxique « Stanford Parser » développé par l'université de Stanford ( ?=____! p ). L'analyse contextuelle du mot clef ou d'un synonyme du mot clef comprend une analyse syntaxique de toutes les phrases des documents de la base documentaire 2 dans lesquelles respectivement le mot clef ou synonyme se trouve, pour 10 déterminer un contexte syntaxique respectivement du mot clef ou synonyme dans chacune de ces phrases, c'est-à-dire sur chacune de ses occurrences dans la base documentaire. On (i.e. l'analyseur 4) détermine tous les contextes syntaxiques du mot clef ou synonyme dans la base documentaire 2. L'analyse syntaxique associe, à chaque nouvelle 15 occurrence d'un mot clef ou d'un de ses synonymes dans la base documentaire, autant de contexte syntaxique que de mots avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique pour cette occurrence. Chaque contexte syntaxique est défini par : ^ l'autre mot avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique, en tant que gouverneur ou en tant que dépendant, et - l'étiquette syntaxique de cet autre mot avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique, et/ou - la relation de dépendance syntaxique entre ce mot clef ou synonyme et cet autre mot. Deux mots sont ici en relation de dépendance syntaxique quand un de ces mots est le « gouverneur » (aussi appelé « recteur ») de l'autre de ces mots qui est alors le « dépendant » (aussi appelé « mot régi »). Dans une phrase ou occurrence, un mot peut être le gouverneur de un ou 30 plusieurs(s) dépendants, mais ne peut être le dépendant que d'un unique gouverneur. Autrement dit, un mot dans une phrase peut n'avoir qu'un seul gouverneur syntaxique, mais il peut avoir un ou plusieurs dépendants syntaxiques. 20 25 2970795 -14 Pour mettre en oeuvre le procédé selon l'invention, on effectue ainsi une analyse syntaxique de toutes les phrases des documents de la base documentaire 2. Pour chaque phrase, l'analyseur syntaxique donne pour chaque contexte syntaxique de ce mot clef ou synonyme : 5 - l'autre mot avec lequel ce mot clef ou synonyme est en relation de dépendance syntaxique (son gouverneur ou son dépendant), c'est-à-dire le mot dont il dépend grammaticalement ; - sa catégorie ou étiquette grammaticale (Nom, Verbe, Adjectif, etc) ; et 10 - la relation de dépendance syntaxique (Sujet, Complément d'objet direct, Complément d'objet indirect, etc.). Par exemple, dans la phrase « Le chat gris joue avec la baise » (« le chat gris joue avec la balle »): - « chat» (« chat »), en tant que « dépendant », est un Nom qui dépend du 15 verbe (étiquette syntaxique du gouverneur) « jouer» (« jouer ») (qui est le gouverneur) par la relation de dépendance syntaxique Sujet - « gris» (« gris ») , en tant que « dépendant », est un Adjectif qui dépend du nom (étiquette syntaxique du gouverneur) « chat» (« chat ») (qui est le gouverneur) par la relation de dépendance syntaxique Modifieur 20 -« baise » (« balle ») , en tant que « dépendant », est un Nom qui dépend du verbe (étiquette syntaxique du gouverneur) « jouer» (« jouer ») (qui est le gouverneur) par la relation de dépendance syntaxique complément d'objet indirect introduit par la préposition « Avec » (« avec »). On extrait ensuite pour chaque mot des phrases analysées le ou les 25 contextes syntaxiques dans lesquels il se trouve, à partir de toutes les relations syntaxiques dans lesquelles il est impliqué, soit comme gouverneur, soit comme dépendant. Par exemple, le mot « chat» (« chat »): - est sujet du verbe « jouer» (« jouer »); on note ce contexte syntaxique 30 de « chat» (« chat ») ainsi : « N jouer» - a pour épithète l'adjectif « gris » (« gris »); on note ce contexte syntaxique de « chat» (« chat ») ainsi : « N gris » De même, les contextes des autres mots de la phrase sont : - pour l'adjectif « gris » (« gris ») : « chat N » 2970795 -15- - pour le nom « balle » (« balle »): « jouer avec N » - pour le verbe « jouer» (« jouer »): « chat N » et « N avec balle » On note qu'un contexte syntaxique d'un mot (mot clef ou synonyme) est défini par le gouverneur syntaxique de ce mot, et non par ce mot. Ainsi, 5 deux mots différents peuvent partager un même contexte syntaxique, c'est-à-dire être présent dans la base documentaire avec une même relation de dépendance avec un même gouverneur syntaxique qui a la même étiquette syntaxique. Par exemple, dans un texte comprenant les phrases « Le chat gris joue avec la balle » (« le chat gris joue avec la balle ») et « Le chien 10 gris joue avec la balle » (« le chien gris joue avec la balle »), les mots « chat» (« chat ») et « chien » (« chien ») partagent les contextes syntaxiques « N jouer» et « N gris» définis ci-dessus. The method for expanding and filtering synonyms for searching a document base according to the invention is implemented in the system 1 shown in FIG. 1. This system implementing the method of the invention comprises only technical means, including computer and electronic means (computers, means of connection to a network or the Internet, databases, etc.). The system 1 comprises a document base 2. This document base 2 is a computer database, that is to say that it comprises computer storage means (such as a hard disk). a computer or server), and stores one or preferably several computerized documents. This document base 2 stores for example the contents of: - one or preferably a set of Internet pages, and / or - one or preferably a set of computer files text (.txt, .doc, etc ...) or hypertext (.html, etc ...), in which the analyzer 4 10 can read and analyze words (possibly after a character recognition step) such as a text file or a "Portable Document Forma" file (.pdf). The system 1 comprises a lexical base 3. The lexical base 3 is a computer database (that is to say it includes computer storage means as previously stated) which collects semantic type information between words, especially synonymy relations. For example, the lexical database may comprise the WordNet database, or an ontology, or a dictionary, or a thesaurus, etc. The synonymic expansion method according to the invention uses a lexical basis (ontology, dictionary, thesaurus, etc.) which gathers semantic information between words, in particular synonymy relations. It makes it possible to automatically select for all the words of the document base 2 those of their potential synonyms, appearing in the lexical database 3, which are actually semantically equivalent to them in view of the contents of the documentary database 2. The system 1 comprises an analyzer 4, consisting of electronic and / or computer means. This analyzer typically comprises a central unit of a computer and / or an analog and / or digital electronic card. The document base 2 is connected to the analyzer 4, typically via the Internet network 5. The analyzer 4 typically works on the document base 2 (analysis, reading, comparison, etc.) via this internet connection. In a variant of the method according to the invention, the analyzer 4 works on a copy of the database 2, imported and copied via the 2970795 -11 internet link, and stored locally on the same geographical site as the analyzer 4; this copy of the document base 2 is ideally converted into a format usable by the analyzer 4, typically in ASCII format. The lexical base 3 is connected to the analyzer 4, typically via the Internet network 5. The analyzer 4 typically works on the lexical basis 3 (analysis, reading, comparison, etc.) via this internet link. In a variant of the method according to the invention, the analyzer 4 works on a copy of the lexical database 3, imported and copied via the internet link, and stored locally on the same geographical site as the analyzer 4; this copy of the lexical database 3 is ideally converted into a format usable by the analyzer 4, typically in ASCII format. The objective of the embodiment of the method according to the invention which will be described is to create a synonym basis 6 which gathers, for "key words", synonymy relations according to the "context" of the document base. 2, these synonymy relations being optimized relative to the document base 2, that is to say being personalized to the terms and the field (s) of the documentary base 2. This allows for example to optimize a research on a site 20 internet (as documentary base 2) via a dialog box "search on this site" integrated into the website. In this exemplary method according to the invention, the key words for which we will seek to define these synonymy relations are selected as follows: a reading of the document base 2 (by the analyzer 4) identifies the set words present in the documentary database 2 (identification step 8). The key words for which we will seek to define these synonymy relationships include some or preferably all of the words identified and identified in the document base 2. These keywords are stored in a memory accessible to the analyzer 4. By memory, in this document typically means a hard disk of a computer or a server. The first method according to the invention comprises, for each identified key word, a global contextualization, which selects relevant synonyms of the key word over the entire document base 2. Thus, for each identified key word, the method according to the invention comprises the following successive steps A) to E): A) a determination 9 (by the analyzer 4) of synonyms of the key word. This determination includes a search for synonyms of the keyword in the lexical database 3 gathering synonymy relations between words. Typically, the analyzer 4 consults the lexical database 3 and extracts the synonym (s) of the keyword. Thus, a set of synonyms for the keyword is determined, this set of synonyms being stored in a memory accessible to the analyzer 4. This set of synonyms preferably comprises several synonyms at least for certain keywords, but for some others keywords may include no or only one synonym; then, B) a first reduction (by the analyzer 4) of the number of synonyms of the keyword in a first subset of synonyms, based on those present in the document base, preferably keeping only those present in the the documentary base; for this, the analyzer 4 reads the contents of the database 2, and confronts the set of synonyms determined in step A) with the words contained in the document base 2. The analyzer 4 eliminates, among the synonyms of the key word determined in step A), the words that are not present in the document base 2. This first subset of synonyms is stored in a memory accessible to the analyzer 4. C) a contextual analysis 11 of the word key and each of its synonyms in the document base, giving a contextual distribution of the keyword and a contextual distribution for each of its 30 synonyms of the first subset in the document base. This contextual analysis is performed by the analyzer 4 which reads and analyzes the contents of the documentary database 2. The contextual or syntactical analysis may for example be implemented according to a method as described in the document FR 2 825 496 B1. or can for example be implemented by 2970795 -13 the parser "SYNTEX" (described on the web page http://w3.erss.univ-tlse2fr/membres/bourigault/) or by the parser "Minipar Developed by Dekang Lin (http: webdocs.cs.ualberta.cai-lindek / minipar.htm) or the Stanford Parser parser developed by Stanford University (? = ____! P). The contextual analysis of the keyword or a synonym of the keyword includes a parsing of all the sentences of the documents of the document base 2 in which respectively the key word or synonym is found, to determine a syntactic context respectively of the word key or synonym in each of these sentences, that is to say on each of its occurrences in the documentary database. On (ie parser 4) determines all the syntactic contexts of the keyword or synonym in the document base 2. The syntactic analysis associates, with each new occurrence of a key word or one of its synonyms in the database documentary, as much of syntactic context as of words with which this key word or synonym is in relation of syntactic dependency for this occurrence. Each syntactic context is defined by: ^ the other word with which this key word or synonym is in syntactic dependency relation, as governor or as dependent, and - the syntactic label of that other word with which this word key or synonym is in syntactic dependency relation, and / or - the syntactic dependency relation between this key word or synonym and this other word. Two words are here in syntactic dependency relation when one of these words is the "governor" (also called "rector") of the other of these words which is then the "dependent" (also called "governed word"). In a sentence or occurrence, a word may be the governor of one or more dependents, but may be the dependent only of a single governor. In other words, a word in a sentence may have only one syntactic governor, but it may have one or more syntactic dependents. In order to implement the method according to the invention, a syntax analysis of all the sentences of the documents of the documentary database 2 is carried out. For each sentence, the parser gives for each syntactic context of this word. key or synonym: 5 - the other word with which this key word or synonym is in relation of syntactic dependence (its governor or its dependent), that is to say the word on which it depends grammatically; - its category or grammatical label (Name, Verb, Adjective, etc.); and 10 - the syntactic dependency relation (Subject, Direct Object Complement, Indirect Object Complement, etc.). For example, in the sentence "The gray cat plays with the fuck" ("the gray cat plays with the ball"): - "cat" ("cat"), as "dependent", is a name that depends on the 15 verb (governor etiquette) "play" (who is the governor) by the syntactic dependency relationship Subject - "gray" ("gray"), as "dependent", is a Adjective that depends on the name (governor etiquette) "cat" (which is the governor) by the syntactic dependency relationship Modifier 20 - "fuck" ("ball"), as "dependent", is a Name that depends on the verb (governor's etiquette) "play" ("play") (which is the governor) by the syntactic dependency relationship indirect object complement introduced by the preposition "With" ("with"). Then, for each word, we extract the analyzed sentences or syntactic contexts in which it is found, from all the syntactic relations in which it is involved, either as governor or as dependent. For example, the word "cat" ("cat"): - is subject to the verb "to play" ("to play"); we note this syntactic context 30 of "cat" ("cat") thus: "N play" - has for epithet the adjective "gray" ("gray"); we note this syntactic context of "cat" ("cat") as well as: "N gray" Similarly, the contexts of the other words of the sentence are: - for the adjective "gray" ("gray"): "cat N 2970795 -15- - for the name "ball" ("ball"): "play with N" - for the verb "play" ("play"): "cat N" and "N with ball" It is noted that a syntactic context of a word (keyword or synonym) is defined by the syntactic governor of that word, and not by that word. Thus, two different words can share the same syntactic context, that is to say, be present in the documentary base with the same dependency relation with the same syntactic governor that has the same syntactic label. For example, in a text with the phrases "The gray cat plays with the ball" ("the gray cat plays with the ball") and "The gray dog 10 plays with the ball" ("the gray dog plays with the ball") ), the words "cat" and "dog" share the syntactic contexts "N play" and "N gray" defined above.

En outre, l'analyse syntaxique détermine, pour chaque mot clef et pour 15 chacun de ses synonymes, une fréquence de cooccurrence de chacun de leurs contextes syntaxiques déterminés. Une fréquence de cooccurrence d'un mot (mot clef ou synonyme) est un nombre entier. Une fréquence de cooccurrence d'un contexte syntaxique d'un mot clef ou d'un synonyme est le nombre de fois où, dans la base documentaire 2, ce mot clef ou ce 20 synonyme apparaît avec ce contexte syntaxique. Une détermination d'une fréquence de cooccurrence est donc une simple opération de comptage. A la fin de ce traitement, on dispose pour chaque mot du corpus de son profil de distribution syntaxique, c'est-à-dire de la liste de ses contextes syntaxiques, avec pour chacun d'eux une fréquence de cooccurrence (i.e. le 25 nombre de fois que le mot est apparu dans le contexte). On peut à ce stade utiliser cette fréquence de cooccurrence pour filtrer les contextes syntaxiques en éliminant ceux pour lesquels la fréquence est inférieure à un certain seuil. Avant l'affectation du score de proximité (étape D)), on élimine les contextes syntaxiques dont la fréquence de cooccurrence 30 est inférieure à un certain seuil de cooccurrence. Ce seuil de cooccurrence est de préférence inférieur à dix, typiquement compris entre les valeurs 1, 2, 3, 4, et 5, de manière plus préférentielle entre les valeurs 2, 3, 4, et 5 (la valeur 1 ne produisant pas d'élimination). 2970795 -16 Tous les contextes syntaxiques déterminés (et non éliminés) sont stockés dans une mémoire accessible à l'analyseur 4. D) pour chaque synonyme du mot clef, une comparaison 12 par l'analyseur 4 de la distribution contextuelle du mot clef et de la distribution contextuelle 5 de ce synonyme dans la base documentaire 2 comprenant, pour chaque synonyme du mot clef, une affectation d'un score de proximité sémantique du synonyme, ce score étant une fonction d'équivalences de distribution contextuelle entre le mot clef et ce synonyme. Tous les scores de proximité sont stockés dans une mémoire accessible à l'analyseur 4. Ainsi, on 10 sélectionne parmi les couples synonymes (Mot clef / synonyme) d'un dictionnaire général (base lexicale 3) ceux qui sont sémantiquement valides pour un corpus de documents donné (base documentaire 2). Le procédé selon l'invention consiste donc en partie à analyser la distribution syntaxique de tous les mots du corpus (le corpus étant la base 15 documentaire 2), puis de comparer deux à deux les distributions des couples de mots (Mot clef / synonyme) présents dans le dictionnaire de synonymes (le dictionnaire de synonymes étant la base lexicale 3) et de leur affecter un score de proximité sémantique d'autant plus élevé que les 2 mots ont des distributions syntaxiques équivalentes. Les couples de 20 synonymes (Mot clef / synonyme) dont le score de proximité est inférieur à un certain seuil sont éliminés. Ce principe s'appuie sur l'hypothèse théorique suivante : dans un corpus de textes (base documentaire 2) appartenant à un domaine de spécialité, les mots qui apparaissent dans les mêmes contextes syntaxiques ont une forte parenté sémantique. 25 L'affectation d'un score de proximité sémantique d'un synonyme du mot clef comprend une mesure de Jacquard entre ce mot clef et ce synonyme. Ainsi, à partir de ces profils distributionnels, on calcule pour chaque couple de synonymes candidats (Mot clef / synonyme) du dictionnaire de synonymes (base lexicale 3) une proximité sémantique en comparant les profils de 30 deux mots du couple. Différentes mesures peuvent être utilisées, qui exploitent toutes le même principe : deux mots sont d'autant plus proches qu'ils partagent beaucoup de contextes syntaxiques et qu'ils ont peu de contextes syntaxiques en propre. La mesure typique pour opérationnaliser ce principe est la mesure du Jaccard : soit (mots, mot2) un couple de 2970795 -17 synonymes du dictionnaire, tel que mot,. et mot2 sont présents dans la base documentaire ; soit ni le nombre de contextes syntaxiques de mot,., n2 le nombre de contextes syntaxiques de mot2 ; soit a le nombre de contextes syntaxiques partagés par mot,. et mot2r le coefficient de proximité de 5 Jaccard prox se calcule ainsi: prox(mot,., mot2)= a / (n,.+n2-a) Ce coefficient est un nombre réel compris entre 0 et 1. Les couples de synonymes retenus pour l'expansion synonymique seront (cf étape E)) ceux dont le coefficient de proximité distributionnelle dépasse un certain seuil. Ce 10 seuil est typiquement inférieur à 0,2 , plus précisément compris entre 0,05 et 0,1 , de préférence sensiblement égal ou inférieur à 0,1 . Grâce à ce filtrage distributionnel, on dispose des ressources adéquates (les synonymes filtrés) pour mettre en oeuvre un procédé d'expansion synonymique automatique qui fonctionne même pour les 15 requêtes à un seul mot. L'invention possède donc un avantage technique important par rapport à des procédés connus tels que décrits dans le document EP1875336 qui nécessitent nécessairement des requêtes à au moins deux mots clefs pour effectuer une recherche. Les synonymes proposés par le système d'expansion automatique selon l'invention ont été 20 préalablement validés sémantiquement par une analyse distributionnelle du contenu de la base documentaire. E) une deuxième réduction 13 du nombre des synonymes du mot clef, par l'analyseur 4, en un deuxième sous ensemble de synonymes par rapport au premier sous ensemble, en fonction de la valeur du score de proximité 25 sémantique de chaque synonyme. La réduction du nombre des synonymes du mot clef, en fonction de la valeur du score de proximité sémantique de chaque synonyme, comprend une élimination des synonymes dont le score de proximité sémantique est inférieur à un certain seuil de proximité sémantique. Ce deuxième sous ensemble de synonymes est stocké dans 30 une mémoire accessible à l'analyseur 4. In addition, the syntactic analysis determines, for each keyword and for each of its synonyms, a frequency of co-occurrence of each of their particular syntactic contexts. A frequency of co-occurrence of a word (keyword or synonym) is an integer. A frequency of co-occurrence of a syntactic context of a keyword or synonym is the number of times in documentary database 2 this keyword or synonym appears with this syntactic context. A determination of a co-occurrence frequency is therefore a simple counting operation. At the end of this treatment, we have for each word of the corpus of its syntactic distribution profile, that is to say of the list of its syntactic contexts, with for each of them a frequency of co-occurrence (ie the 25 number of times the word appeared in the context). At this stage, we can use this co-occurrence frequency to filter syntactic contexts by eliminating those for which the frequency is below a certain threshold. Before the assignment of the proximity score (step D)), the syntactic contexts whose co-occurrence frequency 30 is lower than a certain co-occurrence threshold are eliminated. This co-occurrence threshold is preferably less than ten, typically between the values 1, 2, 3, 4, and 5, more preferably between the values 2, 3, 4, and 5 (the value 1 does not produce 'elimination). 2970795 -16 All the syntactic contexts determined (and not eliminated) are stored in a memory accessible to the analyzer 4. D) for each synonym of the keyword, a comparison 12 by the analyzer 4 of the contextual distribution of the keyword and of the contextual distribution 5 of this synonym in the document base 2 comprising, for each synonym of the keyword, an assignment of a semantic proximity score of the synonym, this score being a function of contextual distribution equivalences between the key word and this synonym. All the proximity scores are stored in a memory accessible to the analyzer 4. Thus, one selects from among the synonyms couples (key word / synonym) of a general dictionary (lexical base 3) those which are semantically valid for a corpus given documents (documentary basis 2). The method according to the invention therefore consists in part of analyzing the syntactic distribution of all the words of the corpus (the corpus being the documentary base 2), then of comparing two by two the distributions of the pairs of words (key word / synonym) present in the thesaurus (the thesaurus being the lexical base 3) and assign them a semantic proximity score that is all the higher as the 2 words have equivalent syntactic distributions. Couples of 20 synonyms (keyword / synonym) whose proximity score is below a certain threshold are eliminated. This principle is based on the following theoretical hypothesis: in a corpus of texts (documentary base 2) belonging to a field of specialty, the words that appear in the same syntactic contexts have a strong semantic kinship. Assigning a semantic proximity score of a keyword synonym includes a Jacquard measure between that keyword and this synonym. Thus, from these distributional profiles, for each pair of candidate synonyms (keyword / synonym) of the thesaurus (lexical base 3), a semantic proximity is calculated by comparing the profiles of two words of the couple. Different measures can be used, all of which use the same principle: two words are all the closer because they share many syntactic contexts and they have few syntactic contexts. The typical measure to operationalize this principle is the Jaccard measure: either (words, word2) a pair of 2970795 -17 synonyms of the dictionary, such as word ,. and word2 are present in the document base; either neither the number of syntactic contexts of word,., n2 the number of syntactic contexts of word2; either to the number of syntactic contexts shared by word ,. and word2r the proximity coefficient of Jaccard prox is calculated as follows: prox (word,., word2) = a / (n,. + n2-a) This coefficient is a real number between 0 and 1. The pairs of synonyms selected for the synonymic expansion will be (cf step E) those whose distributional proximity coefficient exceeds a certain threshold. This threshold is typically less than 0.2, more precisely between 0.05 and 0.1, preferably substantially equal to or less than 0.1. Thanks to this distributional filtering, adequate resources (filtered synonyms) are available to implement an automatic synonymic expansion method that works even for single-word queries. The invention therefore has a significant technical advantage over known methods as described in EP1875336 which necessarily require requests for at least two keywords to perform a search. The synonyms proposed by the automatic expansion system according to the invention have been previously validated semantically by a distributional analysis of the contents of the document base. E) a second reduction 13 in the number of synonyms of the keyword, by the analyzer 4, into a second subset of synonyms with respect to the first subset, as a function of the value of the semantic proximity score of each synonym. The reduction of the number of synonyms of the keyword, according to the value of the semantic proximity score of each synonym, includes an elimination of the synonyms whose semantic proximity score is lower than a certain threshold of semantic proximity. This second subset of synonyms is stored in a memory accessible to the analyzer 4.

Construction de la base de synonymes Après ces étapes A) à E) mises en oeuvre pour chacun des mots clefs, le procédé selon l'invention comprend une construction 14, par l'analyseur 2970795 -18- 4, d'une base de synonymes 6 associant chaque mot clef avec ses synonymes après réduction du nombre de synonymes en fonction de ceux présents dans la base documentaire et en fonction de la valeur du score de proximité sémantique de chaque synonyme. 5 La base de synonymes 6 est une base de données informatique qui comprend des moyens de stockage informatique tels que précédemment énoncés. Ces moyens de stockage sont connectés à l'analyseur 4. Ces moyens de stockage existent avant la création de la base de synonymes 6, mais la base de synonymes n'est créée qu'une fois que l'analyseur 4 stocke 10 dans ces moyens de stockage les données associant chaque mot clef avec ses synonymes après réduction du nombre de synonymes en fonction de ceux présents dans la base documentaire et en fonction de la valeur du score de proximité sémantique de chaque synonyme, c'est-à-dire stocke pour chaque mot clef son deuxième sous ensemble de synonymes. Pour 15 chaque mot clef, on stocke ainsi chaque couple formé par ce mot clef et un de ses synonymes après les réductions 10 et 13. On stocke en outre pour chacun de ces couples les informations utiles associées, telles que les contextes syntaxiques partagés. La base de synonymes est construite en prenant chaque mot de la 20 base documentaire comme mot clef. Une fois construite, la base de synonymes 6 est connectée à l'analyseur 4, typiquement via un réseau local, ou éventuellement via le réseau Internet. Construction of the synonym database After these steps A) to E) implemented for each of the key words, the method according to the invention comprises a construct 14, by the analyzer 2970795 -18- 4, of a synonyms database. 6 associating each key word with its synonyms after reducing the number of synonyms according to those present in the document base and according to the value of the semantic proximity score of each synonym. The synonym database 6 is a computer database that includes computer storage means as previously stated. These storage means are connected to the analyzer 4. These storage means exist before the creation of the synonym database 6, but the synonym database is only created once the analyzer 4 stores 10 in these means. storing the data associating each keyword with its synonyms after reduction of the number of synonyms according to those present in the document base and according to the value of the semantic proximity score of each synonym, that is to say stores for each key word its second subset of synonyms. For each key word, each pair formed by this keyword and one of its synonyms after reductions 10 and 13 is stored. In addition, each of these pairs is stored with associated useful information, such as shared syntactic contexts. The synonym database is constructed by taking each word of the document base as the key word. Once built, the synonym database 6 is connected to the analyzer 4, typically via a local area network, or possibly via the Internet.

25 Requête, Deuxième contextualisation (dite « contextualisation locale ») et Recherche Après la construction de la base de synonymes 6, on peut utiliser cette base de synonymes 6 pour effectuer une recherche par mots clefs au sein de la base documentaire 2. 30 Dans ce but, le procédé selon l'invention comprend alors une entrée 15 d'une requête d'au moins un des mots clef. L'entrée de la requête est donc postérieure à la réduction 13 en fonction de la valeur du score de proximité sémantique et à la réduction 10 du nombre de synonymes en fonction de ceux présents dans la base documentaire. L'entrée de la requête 2970795 -19 est postérieure à la construction de la base de synonymes 6. L'entrée de la requête se fait sur un poste 7. Le poste 7 est constitué de moyens électroniques et/ou informatiques, et comprend notamment des moyens de saisies pour saisir la requête. Ce poste 7 comprend typiquement une unité 5 centrale d'un ordinateur, un écran, et comme moyens de saisie un clavier d'ordinateur. La base documentaire 2 est connectée au poste 7, typiquement via le réseau Internet 5, par exemple par l'intermédiaire d'un serveur 18 qui analyse et exploite la base documentaire 2. La base de synonymes 6 est connectée au poste 7, typiquement via le réseau Internet, 10 par exemple par l'intermédiaire d'un serveur 19. Les serveurs 18 et 19 sont, de manière préférentielle confondus. De manière plus spécifique, l'entrée comprend de préférence une entrée d'une requête d'au moins deux mots clef. Le procédé selon l'invention comprend alors avant la recherche, une réduction 16 15 supplémentaire (ou contextualisation locale) du nombre de synonymes de chaque mot clef de la requête en fonction d'un ou plusieurs autres mots clefs de la requête en un troisième sous ensemble de synonymes par rapport au deuxième sous ensemble. Cette réduction 16 supplémentaire est mise en oeuvre par un serveur de moteur de recherche connecté au poste 7 20 et à la base documentaire 2, et qui reçoit les mots clefs de la part du poste 7 et consulte la base documentaire 2 et la base de synonymes 6, ce serveur étant typiquement le serveur 18. Ce troisième sous ensemble est de préférence stocké dans le serveur de moteur de recherche, et/ou le serveur 18, mais peut aussi être stocké localement au niveau du poste 7 ou à 25 distance dans la base 6 ou ailleurs. La réduction du nombre de synonymes du mot clef en fonction d'un ou plusieurs autres mots clefs de la requête comprend, pour un couple de deux mots clefs comprenant un premier mot clef et un deuxième mot clef, le premier mot clef étant dans la base documentaire en relation de dépendance syntaxique avec le deuxième mot 30 clef, ou le deuxième mot clef étant dans la base documentaire en relation de dépendance syntaxique avec le premier mot clef, une élimination des synonymes du premier mot clef qui ne sont pas dans la base documentaire en relation de dépendance syntaxique avec le deuxième mot clef, et une élimination des synonymes du deuxième mot clef qui ne sont pas dans la 2970795 -20 base documentaire en relation de dépendance syntaxique avec le premier mot clef. Ensuite, la recherche est lancée dans la base documentaire 2 (étape de lancement 17), typiquement par le serveur de moteur de recherche. 5 Dans une première variante, pour chaque mot clef de la requête, la recherche comprend une recherche du mot clef et de synonymes auquel le mot clef est associé dans la base de synonymes, plus exactement : - une recherche du mot clef et de chaque synonyme auquel le mot clef est associé dans la base de synonymes, si la requête ne 10 comprend qu'un seul mot clef et qu'aucune réduction supplémentaire du nombre de synonymes en fonction d'un ou plusieurs autres mots clefs de la requête n'a été effectuée, ou - une recherche du mot clef et d'uniquement certains synonymes auquel le mot clef est associé dans la base de synonymes c'est-à- 15 dire de chaque synonyme auquel le mot clef est associé dans la base de synonymes moins les synonymes éliminés par la réduction supplémentaire du nombre de synonymes en fonction d'un ou plusieurs autres mots clefs de la requête. Dans une deuxième variante, pour chaque mot clef de la requête, la 20 recherche comprend une recherche d'uniquement ce mot clef, et une proposition à l'utilisateur du poste 7 (par un affichage sur l'écran du poste 7) de synonymes auquel le mot clef est associé dans la base de synonymes, plus exactement : - une proposition de chaque synonyme auquel le mot clef est 25 associé dans la base de synonymes, si la requête ne comprend qu'un seul mot clef et qu'aucune réduction supplémentaire du nombre de synonymes en fonction d'un ou plusieurs autres mots clefs de la requête n'a été effectuée, ou - une proposition d'uniquement certains synonymes auquel le mot 30 clef est associé dans la base de synonymes c'est-à-dire de chaque synonyme auquel le mot clef est associé dans la base de synonymes moins les synonymes éliminés par la réduction supplémentaire du nombre de synonymes en fonction d'un ou plusieurs autres mots clefs de la requête. 2970795 -21 La recherche de ces mots clef ou synonymes est typiquement mis en oeuvre par un serveur de moteur de recherche intermédiaire entre la base 2 et le poste 7. 25 Query, Second contextualization (called "local contextualization") and Search After the construction of the synonym database 6, we can use this base of synonyms 6 to perform a search by keywords within the document base 2. 30 In this purpose, the method according to the invention then comprises an entry 15 of a request for at least one of the key words. The entry of the request is therefore subsequent to the reduction 13 as a function of the value of the semantic proximity score and the reduction of the number of synonyms according to those present in the document base. The entry of the request 2970795 -19 is subsequent to the construction of the synonym database 6. The entry of the request is done on a station 7. The station 7 consists of electronic and / or computer means, and includes in particular input means for entering the query. This station 7 typically comprises a central unit of a computer, a screen, and as input means a computer keyboard. The document base 2 is connected to the station 7, typically via the Internet network 5, for example via a server 18 which analyzes and exploits the document base 2. The synonym database 6 is connected to the station 7, typically via the Internet network, 10 for example via a server 19. The servers 18 and 19 are preferentially confused. More specifically, the entry preferably comprises an entry of a request for at least two keywords. The method according to the invention then comprises, before the search, an additional reduction (or local contextualization) of the number of synonyms of each keyword of the request as a function of one or more other key words of the request in a third sub. set of synonyms with respect to the second subset. This additional reduction 16 is implemented by a search engine server connected to the station 7 20 and the document base 2, and which receives the keywords from the station 7 and consults the document base 2 and the synonyms database. 6, this server being typically the server 18. This third subset is preferably stored in the search engine server, and / or the server 18, but can also be stored locally at the station 7 or remote in the base 6 or elsewhere. Reducing the number of synonyms of the keyword based on one or more other keywords of the query includes, for a pair of two keywords comprising a first keyword and a second keyword, the first key word being in the base documentary in syntactic dependency relationship with the second key word, or the second key word being in the document base in syntactic dependency relation with the first key word, an elimination of the synonyms of the first key word that are not in the document base in relation of syntactic dependence with the second key word, and an elimination of the synonyms of the second key word which are not in the documentary base in relation of syntactic dependency with the first key word. Then, the search is started in the documentary database 2 (launching step 17), typically by the search engine server. In a first variant, for each key word of the request, the search includes a search for the key word and synonyms to which the key word is associated in the synonym database, more precisely: a search for the key word and each synonym the keyword is associated in the synonym database, if the query comprises only one keyword and no further reduction of the number of synonyms based on one or more other keywords of the query has has been performed, or - a search for the keyword and only certain synonyms to which the key word is associated in the synonym database, that is to say each synonym with which the key word is associated in the synonym database less the synonyms eliminated by the additional reduction of the number of synonyms according to one or more other key words of the request. In a second variant, for each key word of the request, the search comprises a search for only this keyword, and a proposition to the user of station 7 (by a display on the screen of station 7) of synonyms. to which the key word is associated in the synonym database, more exactly: a proposition of each synonym to which the key word is associated in the thesaurus, if the query comprises only one key word and no reduction additional number of synonyms based on one or more other keywords of the query has been made, or - a proposition of only certain synonyms to which the key word is associated in the synonym database that is to say of each synonym to which the key word is associated in the base of synonyms minus the synonyms eliminated by the additional reduction of the number of synonyms according to one or more other key words of the request. The search for these keywords or synonyms is typically implemented by a search engine server intermediate between the base 2 and the station 7.

5 Le procédé selon l'invention propose donc un double processus de contextualisation : une première contextualisation globale sur l'ensemble de la base documentaire 2, qui permet de sélectionner les synonymes pertinents sémantiquement équivalents, une seconde contextualisation locale (pour les requêtes à plusieurs mots) qui sélectionne le cas échéant un 10 sous-ensemble de synonymes en fonction des autres mots de la requête. Le procédé selon l'invention n'entraîne pas de détérioration des temps de réponse du système au requêtage, car toutes les expansions synonymiques potentielles, pour les requêtes à un ou plusieurs mots, sont calculées au moment de l'indexation. La charge de calcul se situe donc off- 15 fine, avant la mise en oeuvre effective du service de recherche auprès d'utilisateurs. Le procédé selon l'invention conduit à construire au moment de l'indexation une base de plusieurs milliers ou dizaines de milliers de couples de requêtes synonymiques. Cette base est construite par une analyse distributionnelle sur l'ensemble des documents de la base. 20 Exemples Par exemple, considérons comme base documentaire l'ensemble des pages du site Internet du Ministère de l'Economie et des Finances (Minefi). Le mot « abattement », présent dans ces pages, est associé à 85 25 synonymes potentiels déterminés (étape 9) d'après la base lexicale 3 des synonymes (voir tous les mots listés dans le tableau 1). 62 de ces synonymes sont présents dans les pages du site (ce qui correspond au nombre de synonymes après l'étape 10 de réduction qui élimine les 23 mots barrés dans le tableau 1). Le procédé selon l'invention permet de 30 sélectionner (par l'étape de réduction supplémentaire 13) parmi ces 62 mots, les 5 (marqués en gras dans le tableau 1) qui sont effectivement synonymes de « abattement» sur le site du Minefi après l'étape 13 de réduction: « déduction », « dégrèvement », « diminution », « exonération » et « réduction ». En effet, sur le site du Minefi : 2970795 -22- - Le coefficient de proximité entre « abattement» et « exonération » est de 0,21. Les contextes partagés par ces 2 mots sont : « N de impôt », « N de cotisation », « N de charge », « N fiscal », « N de tva », « N de salaire », « mesure de N », « mécanisme de N », « montant de N », « taux de N ». 5 Le mot « abattement» a d'autres synonymes retenus : « déduction », « dégrèvement », « diminution », « réduction » - Le coefficient de proximité entre « abattement» et « souci » est inférieur à 0,01. Le couple (abattement , souci) est dans le dictionnaire de synonymes, mais ces deux mots ne partagent quasiment aucun contexte 10 syntaxique. Ils ne sont pas retenus comme synonymes l'un de l'autre. Sur le site du Minefi, « abattement» n'a pas le sens psychologique qu'il peut avoir dans d'autres contextes. On note que le mot « souci » a d'autres synonymes qui sont retenus par un procédé selon l'invention: « crainte », « difficulté », « inconvénient », « inquiétude », « préoccupation ». Les 15 contextes partagés par « souci » et « difficulté » sont : « N majeur », « N de pouvoir », « N financier », « N de entreprise », « N économique », « N de santé », « principal N », « double N ». On voit donc que le procédé de filtrage sélectionne les synonymes potentiels d'un mot en fonction du degré de similitude de leur distribution syntaxique, et donc de leur sens, dans la 20 base documentaire. Une requête constituée du mot « abattement» sera automatiquement expansée avec ces 5 synonymes, et avec aucun autre. The method according to the invention thus proposes a double contextualization process: a first global contextualization on the whole of the documentary base 2, which makes it possible to select the semantically equivalent relevant synonyms, a second local contextualization (for the requests with several words ) which selects, if necessary, a subset of synonyms based on the other words of the request. The method according to the invention does not lead to a deterioration of the response times of the system to the query, because all the potential synonymic expansions, for the requests with one or more words, are calculated at the time of the indexing. The computational load is thus off-line, before the actual implementation of the search service to users. The method according to the invention leads to constructing at the time of indexing a base of several thousand or tens of thousands of pairs of synonymic requests. This base is built by a distributional analysis on all the documents of the database. 20 Examples For example, consider as a documentary base all pages of the website of the Ministry of Economy and Finance (Minefi). The word "abatement", present in these pages, is associated with 85 25 potential synonyms determined (step 9) according to the lexical basis 3 of the synonyms (see all the words listed in table 1). 62 of these synonyms are present in the pages of the site (which corresponds to the number of synonyms after the reduction step which eliminates the 23 strikethrough words in Table 1). The method according to the invention makes it possible to select (by the additional reduction step 13) from among these 62 words, the 5 (marked in bold in table 1) which are effectively synonymous with "abatement" on the Minefi site after Step 13 Reduction: "Deduction", "Reduction", "Reduction", "Exemption" and "Reduction". Indeed, on the Minefi site: 2970795 -22- - The proximity coefficient between "abatement" and "exemption" is 0.21. The contexts shared by these two words are: "N of tax", "N of contribution", "N of charge", "N tax", "N de vat", "N of salary", "measure of N", "Mechanism of N", "amount of N", "rate of N". 5 The word "abatement" has other synonyms retained: "deduction", "abatement", "decrease", "reduction" - The proximity coefficient between "abatement" and "worry" is less than 0.01. The couple (abatement, worry) is in the thesaurus, but these two words share almost no syntactic context. They are not kept as synonyms of each other. On the Minefi site, "depression" does not have the psychological meaning that it can have in other contexts. It is noted that the word "concern" has other synonyms that are retained by a method according to the invention: "fear", "difficulty", "inconvenience", "worry", "concern". The 15 contexts shared by "worry" and "difficulty" are: "N major", "N of power", "N financial", "N of business", "N economic", "N of health", "N principal" ", Double N". It is thus seen that the filtering method selects the potential synonyms of a word according to the degree of similarity of their syntactic distribution, and hence of their meaning, in the document base. A query consisting of the word "abatement" will be automatically expanded with these 5 synonyms, and with no other.

25 30 2970795 -23- abaissement, Vie, abrutissement, accablement, affaiblissement, affaissement, affliction, ahan, amoindrissement, m^" ^^^men , anéantissement, apathie, asthénie, atonie, baisse, bourdon, cafard, chagrin, consternation, contrariété, deuil, diminution, douleur, décadence, léehi°^m^^ , déclin, découragement, eléeFépituele, déduction, dégoût, dégrèvement, dépression, dépérissement, désespoir, désoeuvrement, embarras, , ennui, essoufflement, exonération, exténuation, faiblesse, faim, fatigue, fourbure, harassement, "tee, inanition, indifférence, indignation, i~`lelenee, inertie, insensibilité, langueur, lassitude, mollesse, morosité, mélancolie, nausce, neurasthénie, nostalgie, oppression, peine, prostration, retranchement, réduction, fépugnanee, répulsion, révolte, somnolence, souci, souffrance, soustraction, spleen, stupeur, stupéfaction, surmenage, torpeur, ,t, tracas, tristesse, eee f en , épuisement, étonnement, Tableau 1 25 30 2970795 -23- lowering, life, stunner, depressing, weakening, sagging, affliction, ahan, lessening, m ^ ^^^ men, annihilation, apathy, asthenia, atony, decline, drone, cockroach, grief, dismay, annoyance, mourning, decrease, pain, decadence, léhi ° ^ m ^^, decline, discouragement, eleaSpituele, deduction, disgust, relief, depression, withering, despair, idleness, embarrassment,, trouble, breathlessness, exoneration, exhaustion, weakness, hunger, fatigue, laminitis, harassment, "tee, inanition, indifference, indignation, i ~` lelenee, inertia, insensibility, languor, lassitude, softness, gloom, melancholy, nausea, neurasthenia, nostalgia, oppression, pain, prostration, entrenchment, reduction, fugugnanee, repulsion, revolt, drowsiness, worry, suffering, subtraction, spleen, stupor, amazement, overwork, torpor, t, hassle, sadness, eee f in, exhaustion, astonishment, Table 1

L'un des effets de ce filtrage qui sélectionne les synonymes potentiels d'un mot en fonction du degré de similitude de leur distribution syntaxique est 5 qu'un même mot peut se voir associé à des synonymes différents selon la base documentaire considérée. On donne des exemples dans le tableau 2. Mot Synonymes du mot Synonymes du mot sur le site Internet du Journal sur le site du « Minefi » Français « Libération » ficelle méthode, recette, procédé cordage, corde courtier trader intermédiaire, vendeur jouissance satisfaction, bonheur, plaisir propriété, acquisition mortier bombe, canon pâte, colle, béton, ciment terminal aéroport console net internet réel Tableau 2. 2970795 -24 Le procédé selon l'invention permet aussi de filtrer les synonymes ainsi sélectionnés en fonction des autres mots de la requête. Par exemple, sur le site Internet du journal « Libération », le procédé selon l'invention sélectionne (étapes 10 et 13) pour le mot air 8 synonymes parmi les 92 5 synonymes potentiels qui sont recensés dans le dictionnaire de synonymes : « refrain », « mélodie », « chanson », « allure », « visage », « mine », « ambiance », « atmosphère ». On constate que ces synonymes correspondent à des sens différents du mot « air ». La requête constituée du seul mot « air» sera automatiquement expansée avec ces 8 synonymes. 10 Par contre : - la requête constituée des mots « air» et « traditionnel» sera automatiquement expansée avec seulement les synonymes « refrain», « mélodie», « chanson» après l'étape 16 de contextualisation locale (contextes partagés par « air », « refrain », « mélodie », et « chanson » : 15 « petit N », « N pop », « vieux N », « N traditionnel », « N populaire »); - la requête constituée des mots « air» et « soucieux» sera automatiquement expansée avec seulement les synonymes « allure», « visage », « mine » après l'étape 16 de contextualisation locale (contextes partagés par « air » et « allure », « visage », « mine » : « beau N », « N de 20 homme», «, de adolescent», «- soucieux», «, juvénile», «, sympa »); - la requête constituée des mots « air» et « confiné» sera automatiquement expansée avec seulement les synonymes « ambiance», « atmosphère» après l'étape 16 de contextualisation locale (contextes 25 partagés par « air» et « ambiance », « atmosphère » : « N détendu », «, confiné», « N étrange», « N irrespirable », « N cool », « N de campagne », « N morose »). Si la requête est « air populaire », on pourra étendre la recherche avec « refrain populaire» car « populaire» est un contexte partagé par 30 « air » et « refrain », mais pas avec « visage populaire ». Cette méthode d'expansion contextuelle pour les requêtes à plusieurs mots ne pénalise pas les temps de réponse au requêtage puisque toutes les données ont été précalculées au moment de l'indexation, et qu'une simple 2970795 -25 structure de données optimisée permet d'accéder très rapidement à ces données à chaque requête. One of the effects of this filtering which selects the potential synonyms of a word according to the degree of similarity of their syntactic distribution is that the same word can be associated with different synonyms depending on the document base considered. Examples are given in Table 2. Word Synonyms of the word Synonyms of the word on the Journal's website on the site of the "Minefi" French "Liberation" string method, recipe, method stringing, rope broker trader intermediary, seller enjoyment satisfaction, happiness, pleasure property, acquisition mortar bomb, cannon paste, glue, concrete, cement terminal airport console net real internet Table 2. 2970795 -24 The method according to the invention also makes it possible to filter the synonyms thus selected according to the other words of the request. For example, on the website of the newspaper "Liberation", the method according to the invention selects (steps 10 and 13) for the word air 8 synonyms among the 92 5 potential synonyms that are listed in the thesaurus: "refrain" , "Melody", "song", "pace", "face", "mine", "atmosphere", "atmosphere". It can be seen that these synonyms correspond to different meanings of the word "air". The query consisting of the single word "air" will be automatically expanded with these 8 synonyms. 10 On the other hand: - the query consisting of the words "air" and "traditional" will be automatically expanded with only the synonyms "chorus", "melody", "song" after step 16 of local contextualization (contexts shared by "air" , "Chorus", "melody", and "song": 15 "little N", "N pop", "old N", "traditional N", "popular N"); - the query consisting of the words "air" and "anxious" will be automatically expanded with only the synonyms "pace", "face", "mine" after step 16 of local contextualization (contexts shared by "air" and "pace" , "Face", "mine": "handsome N", "N of 20 man", ", adolescent", "- anxious", ", juvenile", ", nice"); - the query consisting of the words "air" and "confined" will be automatically expanded with only the synonyms "atmosphere", "atmosphere" after step 16 of local contextualization (contexts 25 shared by "air" and "atmosphere", "atmosphere "N relaxed," "confined," "N strange," "N unbreathable," "N cool," "N of campaign," "N morose." If the query is "popular", we can extend the search with "popular refrain" because "popular" is a context shared by 30 "air" and "chorus", but not with "popular face". This contextual expansion method for multi-word queries does not penalize query response times since all data was pre-computed at indexing time, and a simple 2970795 -25 optimized data structure makes it possible to very quickly access this data for each request.

Bien sûr, l'invention n'est pas limitée aux exemples qui viennent 5 d'être décrits et de nombreux aménagements peuvent être apportés à ces exemples sans sortir du cadre de l'invention. En particulier, dans des variantes du procédé ou système selon l'invention venant d'être décrit : - au lieu d'être commune à tous les mots clefs pour l'étape 9 comme dans 10 le mode de réalisation venant d'être décrit, la base lexicale 3 peut regrouper plusieurs bases différentes, éventuellement distantes entre elles ; et/ou - l'analyse contextuelle peut être plus une analyse contextuelle plus générale qu'une une analyse syntaxique, et peut par exemple comprendre une recherche de contextes dans lequel un mot clef et un de ses synonymes 15 se retrouvent plus généralement au sein d'une même phrase ou d'un même paragraphe (ou d'une même page, chapitre, etc...) des documents de la base documentaire 2 ; et/ou - le score de proximité n'est pas forcément un coefficient de proximité de Jaccard, mais peut aussi être une distance euclidienne, une métrique de 20 cosinus, une information mutuelle, etc... - le score de proximité n'est pas forcément quantitatif (telle une mesure de Jacquard) mais peut être simplement qualitatif : par exemple dans l'ordre décroissant de proximité « très proche », « proche », « medium », « éloigné », « très éloigné » etc... et le seuil correspond à tout ce qui est 25 plus proche que « medium » par exemple ; et/ou - l'entrée de la requête peut être antérieure à la réduction 13 en fonction de la valeur du score de proximité sémantique et/ou à la réduction 10 du nombre de synonymes en fonction de ceux présents dans la base documentaire ; et/ou 30 - au lieu d'être distant via une liaison Internet 5 ou une autre liaison distante, le poste 7 peut être localisé sur un même site géographique que la base documentaire 2 et/ou la base de synonymes 6, par exemple sur un site d'un client exploitant sa propre base documentaire 2 personnelle (par exemple une base documentaire regroupant des publications scientifiques, 2970795 -26 des publications de brevets, des notes et comptes rendus privés, etc...). Dans ce cas, le poste 7 est connecté à la base documentaire 2 et/ou la base de synonymes 6 par un réseau local. Of course, the invention is not limited to the examples which have just been described and numerous adjustments can be made to these examples without departing from the scope of the invention. In particular, in variants of the method or system according to the invention just described: - instead of being common to all the key words for step 9 as in the embodiment just described, the lexical base 3 can group several different bases, possibly distant from each other; and / or the contextual analysis may be more a contextual analysis more general than a syntactical analysis, and may for example include a search of contexts in which a key word and one of its synonyms are more generally found within a contextual analysis. the same sentence or the same paragraph (or the same page, chapter, etc.) of documents in documentary database 2; and / or - the proximity score is not necessarily a Jaccard proximity coefficient, but can also be a Euclidean distance, a cosine metric, a mutual information, etc ... - the proximity score is not not necessarily quantitative (such as a Jacquard measure) but can be simply qualitative: for example in the decreasing order of proximity "very close", "close", "medium", "distant", "very far" etc ... and the threshold corresponds to anything that is closer than "medium" for example; and / or the entry of the request may be prior to the reduction depending on the value of the semantic proximity score and / or the reduction in the number of synonyms according to those present in the document base; and / or 30 - instead of being remote via an Internet link 5 or another remote link, the station 7 can be located on the same geographical site as the document base 2 and / or the synonym database 6, for example on a site of a client using its own personal documentary 2 database (for example a database containing scientific publications, 2970795 -26 patent publications, private notes and reports, etc.). In this case, the station 7 is connected to the document base 2 and / or the synonym database 6 via a local area network.

Claims

REVENDICATIONS1. A method for filtering synonyms in a document base (2), comprising for each keyword among at least one keyword: o a determination (9) of synonyms of the keyword, o a contextual analysis (11) of the keyword and of each of its synonyms in the document database, giving a contextual distribution of the keyword and a contextual distribution for each of its synonyms in the document base, where a comparison (12) of the contextual distribution of the keyword and the contextual distribution of each of its synonyms in the document base comprising, for each synonym of the keyword, an assignment of a semantic proximity score of the synonym, this score being a function of contextual distribution equivalences between the key word and this synonym, o a reduction ( 13) of the number of synonyms of the keyword, according to the value of the semantic proximity score of each synonym.

2. Method according to claim 1, characterized in that the contextual analysis (11) of the keyword or a synonym of the keyword includes a syntactic analysis of sentences of the document base in which respectively the key word or synonym is located , to determine a syntactic context respectively of the keyword or synonym in each of these sentences.

3. Method according to claim 2, characterized in that the parsing (11) comprises a parsing of all the sentences of the document base.

4. Method according to claim 2 or 3, characterized in that for each key word and for each of its synonyms, the analysis 2970795 -28 syntactic (11) comprises a determination of all the syntactic contexts of the keyword or synonym in the document database.

5. Method according to any one of claims 2 to 4, characterized in that the syntactic analysis (11) associates with each new occurrence of a key word or one of its synonyms in the document base, as many syntactic context that of words with which this keyword or synonym is in syntactic dependency relation for this occurrence, each syntactic context being defined by: o the other word with which this keyword or synonym is in syntactic dependency relation, in as a governor or as an addict, and where the syntactic tag of that other word with which this keyword or synonym is in syntactic dependency relation, and / or the syntactic dependency relation between that key word or synonym and this other word.

6. Method according to any one of claims 2 to 5, characterized in that the parsing (11) determines, for each keyword and for each of its synonyms, a frequency of co-occurrence of each of their syntactic contexts determined .

7. Method according to claim 6, characterized in that it comprises, prior to the assignment of the proximity score, an elimination of syntactic contexts whose frequency of co-occurrence is below a certain threshold of co-occurrence.

8. A method according to any one of the preceding claims, characterized in that the assignment of a semantic proximity score of a synonym of the keyword includes a quantitative measure of semantic proximity between this key word and this synonym. 2970795 -29-

9. Method according to any one of the preceding claims, characterized in that the reduction (13) of the number of synonyms of the keyword, as a function of the value of the semantic proximity score of each synonym, comprises an elimination of the synonyms of which 5 the semantic proximity score is less than a certain threshold of semantic proximity.

10. Method according to any one of the preceding claims, characterized in that it comprises a construction (14) of a base of synonyms (6) associating each keyword with its synonyms after reduction of the number of synonyms.

11. A method according to claim 10, characterized in that the synonym database (6) is constructed by taking each word of the document base as a key word.

12. Use of a synonym database (6) constructed according to any one of claims 10 or 11, characterized in that it comprises an entry (15) of a request for at least one keyword, and for each keyword of the request, a search in the document base of the keyword and of synonyms to which the key word is associated in the base of synonyms. 25

13. Use according to claim 12, characterized in that the input comprises an input of a query of at least two keywords, in that the use comprises, before the search, an additional reduction (16) of the number of synonyms of each keyword of the request based on one or more other keywords of the request.

14. Use according to claim 13, characterized in that the reduction (16) of the number of synonyms of the keyword based on one or more other key words of the query comprises, for a 2970795 -30 couple of two keywords including a first key word and a second key word, the first key word being in the document base in syntactic dependency relation with the second key word, or the second key word being in the document base in syntactic dependency relation with the first word key, an elimination of the synonyms of the first key word which are not in the document base in syntactic dependency relation with the second key word, and an elimination of the synonyms of the second key word which are not in the documentary base in relation to syntactic dependency with the first keyword.

15. A system for filtering synonyms in a document base, comprising for each keyword among at least one keyword: o means (3) for determining synonyms of the keyword, o means (4) for contextual analysis of the key word and of each of its synonyms in the document base (2), arranged to give a contextual distribution of the keyword and a contextual distribution for each of its synonyms in the document base, o means (4) for comparing the distribution contextual of the keyword and the contextual distribution of each of its synonyms in the document base comprising, for each synonym 25 of the keyword, means for assigning a semantic proximity score of the synonym, this score being a distribution equivalence function contextual context between the key word and this synonym, o means (4) for reducing the number of synonyms of the key word, as a function of the value of the semantic proximity score of each synonym.