FR2906049A1

FR2906049A1 - Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel

Info

Publication number: FR2906049A1
Application number: FR0653814A
Authority: FR
Inventors: Philippe Larvet
Original assignee: Alcatel SA
Current assignee: Alcatel Lucent SAS
Priority date: 2006-09-19
Filing date: 2006-09-19
Publication date: 2008-03-21
Also published as: CN101149732A; CN100576201C; JP2010503937A; US20080071521A1; KR101416682B1; WO2008034802A1; JP5366810B2; US8417512B2; EP1903454A1; KR20090069275A

Abstract

L'invention a trait à un procédé, mis en oeuvre par ordinateur, de développement d'une ontologie (70) d'un texte (10) en langage naturel, comprenant des étapes :- de réception de données textuelles du texte (10) ;- d'extraction de la syntaxe et des mots significatifs (20) du texte via une analyse grammaticale (S100) des données reçues ;- pour chacun d'une partie, au moins, des mots significatifs (20) du texte : de recherche (5200) d'une définition (40) de ce mot (20) au moyen d'au moins un dictionnaire (30, 35) électronique, d'extraction de la syntaxe et des mots significatifs de cette définition et de création (S300) d'un graphe (50) lexical élémentaire de cette définition basé sur la syntaxe et des mots significatifs de cette définition ; et- de fusion (S400) d'au moins deux des graphes (50) lexicaux élémentaires créés, en fonction de la syntaxe du texte, de sorte à créer au moins un graphe (60) sémantique du texte.L'invention concerne encore un produit de programme d'ordinateur ainsi qu'un système informatique comprenant des moyens de code, adaptés à mettre en oeuvre les étapes du procédé selon l'invention.

Description

1 La présente invention concerne les ontologies en général. Elle a plus

particulièrement trait à un procédé, mis en oeuvre par ordinateur, de développement d'une ontologie d'un texte en langage naturel. Dans la présente description, les termes suivants sont employés avec le sens 5 indiqué, sauf mention particulière : - Ontologie : une ontologie est un ensemble structuré de concepts organisés, par exemple dans un graphe dont les relations peuvent être des relations sémantiques ou de composition et d'héritage (au sens objet). Un objectif d'une ontologie est de modéliser un ensemble de connaissances dans un domaine donné. 10 - OWL est un langage d'ontologie Web conçu pour des applications qui doivent non seulement présenter aux utilisateurs des informations mais également en traiter le contenu. OWL est un "dialecte" XML basé sur une syntaxe RDF (pour Resource Description Framework, qui désigne un modèle de graphe pour décrire des méta données et permettre un certain traitement automatique de ces méta données). OWL 15 fournit des moyens pour définir des ontologies Web structurées. Le langage OWL offre aux machines de plus grandes capacités d'interprétation du contenu Web que celles permises habituellement, par exemple par XML, grâce à un vocabulaire supplémentaire et une sémantique formelle. OWL se compose de trois sous langages offrant une expressivité croissante : OWL Lite (ou OWL, OWL DL et OWL Full. OWL-S (S valant 20 pour sémantique) est orienté "sémantique", il n'existe encore qu'à l'état de proposition et n'est pas standardisé. - service Web désigne une application accessible sur l'INTERNET, via une interface standard, qui peut interagir dynamiquement avec des applications ou d'autres services web en utilisant des protocoles de communication, par exemple basés sur le 25 XML, et ce, indépendamment du système d'exploitation et des langages de programmation utilisés. Au plan de ses interfaces proprement dites, un service web comprend des opérations de traitement qui fournissent des résultats à partir de données d'entrée, ou "paramètres d'entrée". Pour utiliser un service web, on appelle une de ses opérations en lui fournissant les données d'entrée attendues, et on récupère le résultat 30 de sortie. - UML (Unified Modeling Language, que l'on peut traduire par langage de modélisation unifié) : désigne une notation (plutôt qu'un langage) de modélisation par objets , permettant de déterminer et de présenter les composants d'un système objet lors 2906049 2 de son développement, ainsi que, le cas échéant, d'en générer la documentation. UML est actuellement la norme OMG. Il résulte de la fusion des travaux de Jim Rumbaugh, Grady Booch et Ivar Jacobson et connaît de nombreuses évolutions. - Web sémantique désigne une extension du World Wide Web permettant de publier, de consulter et surtout d'automatiser le traitement de connaissances formalisées, c'est-à-dire que les documents traités par le Web sémantique contiennent non pas des textes en langage naturel mais des informations formalisées pour être traitées automatiquement. - XML (pour eXtensible Markup Language) : une évolution du langage SGML, laquelle permet notamment aux concepteurs de documents HTML de définir leurs propres marqueurs, dans le but de personnaliser la structure des données. Les technologies modernes de télécommunication, en particulier l'Internet, permettent à des utilisateurs d'accéder rapidement à une variété de services. Dans ce domaine, le Web sémantique est en pleine expansion, notamment en ce qui concerne les applications de développement de services à l'aide de services existants, selon une approche sémantique. A cet égard, de plus en plus de services web sont munis d'une ontologie ou, plus généralement, d'une description sémantique. Dans ce contexte, le présent inventeur s'est fixé comme objectif de trouver une solution au problème suivant : élaborer automatiquement une description sémantique (par exemple via un graphe sémantique ou, en d'autres termes, une ontologie) d'un texte en langage naturel. Ce texte pourrait par exemple correspondre à une requête utilisateur écrite en langage naturel. Disposer d'une description sémantique d'une telle requête permettrait par exemple de faciliter la recherche d'un service web correspondant à cette requête.

Il n'existe actuellement pas de solution automatique à ce problème. On connaît une solution manuelle, laquelle consiste à établir "manuellement" des descriptions sémantiques en utilisant un outil sémantique tel que Protégé ou MindManager, ou même un outil de modélisation UML tel que Rational Rose raisonnable, Softeam Objecteering, IBM-Rational XDE ou Microsoft UML Visio. En effet, par sa construction propre, UML peut couvrir tous éléments conceptuels requis pour une description sémantique : héritage, relations d'agrégation ou d'association, attributs, stéréotypes, données élémentaires et valeurs étiquetées, contraintes, etc.).

2906049 3 Cependant, une telle solution n'est pas satisfaisante, avant tout parce qu'elle est entièrement manuelle. Elle est par conséquent longue à mettre en oeuvre et propice aux erreurs. Par ailleurs, cette solution est subjective : le résultat dépend de l'utilisateur. II en découle un manque d'uniformité dans les descriptions obtenues.

5 Il existe donc un besoin pour une solution permettant d'élaborer automatiquement (c'est-à-dire informatiquement) une description sémantique d'un texte en langage naturel à partir de données textuelle correspondant à ce texte. A cette fin, L'invention propose procédé, mis en oeuvre par ordinateur, de développement d'une ontologie d'un texte en langage naturel, comprenant des étapes : 10 - de réception de données textuelles du texte ; -d'extraction de la syntaxe et des mots significatifs du texte via une analyse grammaticale des données reçues ; - pour chacun d'une partie, au moins, des mots significatifs du texte : de recherche d'une définition de ce mot au moyen d'au moins un dictionnaire électronique, 15 d'extraction de la syntaxe et des mots significatifs de cette définition et de création d'un graphe lexical élémentaire de cette définition basé sur la syntaxe et des mots significatifs de cette définition ; et - de fusion d'au moins deux des graphes lexicaux élémentaires créés, en fonction de la syntaxe du texte, de sorte à créer au moins un graphe sémantique du 20 texte. Dans des modes de réalisation préférés, le procédé selon l'invention comprend une ou plusieurs des caractéristiques suivantes : - Le procédé selon l'invention comprend en outre une étape, avant l'étape de fusion, d'extraction de relations entre les mots significatifs du texte basée sur la 25 syntaxe et les mots significatifs du texte extraits, l'étape de fusion étant basée sur ces relations entre mots significatifs du texte ; -la première étape d'extraction comprend en outre l'extraction via l'analyse grammaticale d'une structure grammaticale du texte, ladite structure comprenant un ou plusieurs groupes grammaticaux ; et l'étape de fusion est en 30 outre basée sur des groupes grammaticaux extraits, de sorte à créer au moins un graphe sémantique pour chacun desdits un ou plusieurs groupes grammaticaux extraits ; 2906049 4 - le procédé selon l'invention comprend en outre une étape, pour chaque mot significatif du texte, de recherche de synonymes de ce mot et d'une définition de ces synonymes au moyen dudit au moins un dictionnaire et l'étape de fusion est en outre effectuée en fonction des définitions des synonymes ; 5 - le procédé selon l'invention comprend en outre une étape, avant l'étape de fusion, de classement des synonymes trouvés pour chaque mot significatif en fonction des définitions de ce mot significatif et de ses synonymes ; et l'étape de fusion est en outre effectuée en fonction d'un résultat du classement des synonymes ; 10 - le procédé selon l'invention comprend en outre une étape d'élimination de composantes non liées audit au moins un graphe sémantique créé ; - chacune des étapes, hormis l'étape de réception des données textuelles, sont effectuées au vol, suite à l'étape de réception des données textuelles ; - ledit au moins un graphe sémantique est formalisé dans un langage basé sur 15 XML, tel que le langage OWL ou RDF ; et - le les données textuelles correspondent à un texte d'une requête de service. L'invention propose également un L'invention concerne en outre un procédé de recherche d'un service web comprenant les étapes de réception dudit au moins un graphe sémantique créé selon le procédé de développement d'une ontologie selon 20 l'invention ; et de recherche d'un service web en fonction dudit au moins un graphe sémantique reçu. L'invention concerne encore un produit de programme d'ordinateur ainsi qu'un système informatique comprenant des moyens de code, adaptés à mettre en oeuvre les étapes du procédé selon l'invention.

25 D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description détaillée qui suit des modes de réalisation de l'invention, donnés à titre d'exemple uniquement et en références à des exemples, ainsi qu'aux dessins annexés, qui montrent: - Figure 1 : un ordinogramme illustrant des étapes et composantes du procédé 30 selon un mode de réalisation de l'invention ; - Figure 2 : un tableau illustrant une analyse grammaticale opérée sur le texte d'une requête utilisateur en langage naturel ; 2906049 5 - Figure 3 : un ensemble de graphes lexicaux élémentaires obtenus à partir des mots significatifs extraits grâce à l'analyse grammaticale illustrée dans le tableau de la figure 2 ; et -Figure 4 : les graphes de la figure 3, tels qu'obtenus après des étapes de 5 fusion de graphes lexicaux élémentaires et d'élimination de composantes non liées aux graphes. L'idée à la base de l'invention est de développer une ontologie (c'est-à-dire une description sémantique) directement à partir de données textuelles d'un texte, en employant, d'une part, les informations produites par un analyseur grammatical et, 10 d'autre part, des éléments trouvés dans un ou plusieurs dictionnaires, tels que des synonymes et des définitions. Plus en détails, le procédé selon l'invention comprend une première étape de réception de données textuelles du texte. En sont alors extraits la syntaxe et les mots significatifs via une analyse grammaticale des données reçues. Ensuite, il est recherché une définition de chaque mot significatif au moyen d'un 15 dictionnaire électronique et la syntaxe et les mots significatifs en sont extraits. Un graphe lexical élémentaire de cette définition est alors créé, sur la base de la syntaxe et des mots significatifs de cette définition. Il est alors procédé à une fusion des graphes lexicaux élémentaires correspondant aux mots significatifs du texte. Cette fusion est effectuée en fonction de la syntaxe du texte initial, de sorte à créer au moins un graphe sémantique 20 du texte. La solution que préconise l'invention est systématique et permet ainsi de remédier aux inconvénients liés au développement "manuel" d'une ontologie d'un texte en langage naturel. Ce procédé est de préférence implémenté dans un outil informatique intégré , par exemple un assistant ou une application comprenant plusieurs modules logiciels 25 couplés, chacun de ces modules étant assigné à une tâche donnée. La figure 1 montre un ordinogramme illustrant des étapes et composantes du procédé selon un mode de réalisation de l'invention. En référence à cette figure, des données 10 textuelles correspondant au texte en langage naturel sont tout d'abord reçues. Ce texte est par exemple celui d'une requête 30 qu'un utilisateur émet depuis un PC, un assistant numérique personnel ou un téléphone portable (par exemple par SMS). A l'étape S100, il est procédé à l'extraction de la syntaxe (non représentée sur la figure 1) et des mots significatifs 20 du texte via une analyse grammaticale des données 2906049 6 reçues 10. Cette analyse grammaticale comprend l'analyse de la fonction formelle des mots dans le texte, indépendamment du sens (qui concerne la sémantique; ceci sera décrit après). Cette étape peut être réalisée au moyen d'un analyseur grammatical. De tels outils sont disponibles dans le commerce.

5 Cette étape est exemplifiée sur la figure 2, laquelle présente un tableau regroupant les différents aspects d'une analyse grammaticale type, opérée sur le texte 10 en langage naturel. La requête comprend le texte "Je veux obtenir une traduction française des nouvelles de CNN". A l'issue de l'analyse, seuls les mots significatifs sont retenus, c'est-à-dire "Je", "Veux", "Français" (forme "canonique" de "française"), 10 "Traduction", etc. Ceux-ci sont reportés dans la première colonne du tableau en partant de la gauche. Les articles et mots de liaison tels que "une", "des", "de" sont écartés. Dans la colonne suivante, les mots significatifs sont caractérisés (pronom personnel, verbe, etc.). Les deux dernières colonnes mettent en exergue des relations entre les mots significatifs. Par exemple, "Je" est sujet de (du verbe) "Veux".

15 En se référant de nouveau à la figure 1, le procédé comprend en outre une étape de recherche S200 d'une définition 40 de chaque mot M significatif extrait (on désigne par M un mot significatif du texte initial). Cette étape nécessite un dictionnaire 30 électronique, typiquement un dictionnaire lexical, duquel sont extraites les définitions. Ensuite, sont extraits la syntaxe et les mots significatifs m de cette définition, 20 lesquels fondent les concepts 40 de cette définition. Il convient de distinguer les mots significatifs ni, lesquels apparaissent dans la définition d'un mot significatif M, du mot M lui-même. L'extraction de la syntaxe et des mots significatifs des définitions permet d'objectiver les concepts 40 de ces définitions. Ceci permettra en outre, au besoin, une comparaison significative entre définitions, laquelle permettra à son tour d'établir des 25 relations entre mots significatifs M du texte initial. Cette étape a pour conséquence une première valorisation, au plan sémantique, du texte initial. A l'étape S300, un graphe 50 lexical élémentaire est créé pour chaque définition, c'est-à-dire pour chaque mot significatif M du texte d'origine et ce, sur la base de la syntaxe et des mots significatifs m de chaque définition. Cependant, certains mots, 30 reliés de manière triviale au sens de la requête (par exemple "Je" et "Veux" dans l'exemple de la figure 2) sont de préférence écartés. Plus généralement, tous les mots "signifiants" sont conservés : substantifs, verbes, adjectifs, à l'exception des expressions caractérisant la requête, telles que "je voudrais", "je souhaite(rais) avoir", "il me 2906049 7 fau(drai)t", etc. On construit donc un graphe élémentaire pour chaque mot M retenu mais ce graphe comprend typiquement des mots significatifs m de la définition de ce mot M. En quelque sorte, ce graphe dit "élémentaire" représente donc une "micro-ontologie" du mot M.

5 De préférence, le procédé comprend en outre une étape de recherche de synonymes 45 de chaque mot significatif M du texte initial, ainsi que la recherche d'une définition de ces synonymes. La recherche de synonymes peut par exemple prendre la forme d'une recherche systématique de synonymes de mots de la définition d'un mot significatif M. Pour ce faire, cette recherche peut utiliser un dictionnaire distinct 35 du 10 dictionnaire de définitions 30. Cependant, une même base de données pourrait être utilisée, laquelle regrouperait à la fois des définitions et des synonymes de mots. Typiquement, la définition des synonymes est objectivée de la même manière que celle des mots M significatifs du texte initial. En outre, les synonymes d'un mot sont de préférence classés, en fonction des 15 définitions respectives de ce mot et de ses synonymes. Typiquement, seuls les "principaux" synonymes sont retenus, en fonction du résultat du classement. Par "principaux" synonymes, entend par exemple ceux dont les concepts de la définition sont majoritairement les mêmes que ceux du mot significatif de référence. Un graphe élémentaire peut ainsi inclure des synonymes du mot significatif M 20 de référence. La figure 3 montre des graphes lexicaux élémentaires obtenus à partir des mots significatifs M extraits grâce à l'analyse grammaticale décrite précédemment (voir le tableau de la figure 2). En référence à cette figure, des graphes élémentaires sont représentés pour les mots "Français", "Traduction", "CNN" et "Nouvelles". Le sujet et le 25 verbe ont été écartés à ce stade, leur analyse ayant révélé le sens de la requête de l'utilisateur. Ainsi, seule une partie des mots significatifs du texte initial peut effectivement faire l'objet d'une création d'un graphe élémentaire. Les graphes font apparaître des relations issues de l'extraction des définitions. Sur la figure, un mot entouré d'un trait plein est un mot significatif du texte initial. Un 30 trait pointillé désigne une relation d'héritage (ou vu autrement, de classe à sous-classe), au sens objet. Par exemple, "Français" hérite de "Langue", de même que "CNN" hérite de "Nom propre". Des tirets signalent un synonyme, tandis qu'un trait pointillé-tireté désigne un autre type de relation, par exemple : "Texte" est lié à "Source" ou "Destination" par 2906049 8 une relation du type " est écrit avec ". Par ailleurs, "Source" et "Destination" peuvent être marqués par une contrainte impliquant que "Source" et "Destination" doivent nécessairement différer. Ceci peut être obtenu au moyen d'une simple étiquette externe. Mais ne telle étiquette n'est pas systématiquement générée, cela dépend de la richesse 5 de la définition qui est utilisée. A ce stade, on ne dispose encore que de graphes élémentaires, constituant autant de "micro-ontologies". L'ontologie finale du texte provient d'une fusion de ces "micro-ontologies", laquelle va être décrite maintenant, en se référant de nouveau à la figure 1.

10 Le procédé selon l'invention comprend en outre une étape de fusion S400 d'au moins deux des graphes 50 lexicaux élémentaires créés, c'est-à-dire que des fusions sont systématiquement recherchées pour des paires de graphes élémentaires. Cette fusion est opérée, le cas échéant, en fonction de la syntaxe du texte et des mots significatifs extraits (par l'analyse grammaticale), de sorte à créer au moins un 15 graphe 60 sémantique du texte initial. Ce graphe sémantique sous-tend l'ontologie recherchée. Comme dit précédemment, l'analyse grammaticale révèle la syntaxe et des mots significatifs du texte initial et dégage ainsi l'existence de relations entre mots significatifs de ce texte. Ainsi et dit autrement, la fusion est opérée au moins sur la base 20 d'existence de relations dégagées entre les mots significatifs du texte initial. Il convient néanmoins de noter que l'étape de fusion peut être explicitement basée sur ces relations, c'est-à-dire en tenant compte du sens des relations au-delà du seul fait qu'il en existe. Ceci permet par exemple d'orienter plus facilement les composantes (c'est-à-dire les mots en tant que concepts) du graphe fusionné.

25 De préférence, l'analyse grammaticale (étape S100) comprend en outre une extraction d'une structure grammaticale du texte initial et, entre autres choses, d'un ou plusieurs groupes grammaticaux (on entend par "groupe grammatical" un sous-ensemble de mots d'une phrase liés entre eux par une relation grammaticale simple, du type complément de nom ('nouvelles de CNN'), attribut, épithète ('traduction française'), 30 etc.). Dans l'exemple précédent, ces groupes sont: - "je veux" (groupe 1); - "traduction française" (groupe 2); -"nouvelles de CNN" (groupe 3).

2906049 9 On cherchera alors à opérer la fusion (étape S400) sur la base des groupes grammaticaux extraits, de sorte à créer au moins un graphe sémantique 60 pour chacun de ces groupes grammaticaux. On obtient alors au moins un graphe lexical par groupe. Ceci est d'autant plus avantageux qu'un groupe grammatical reflète 5 généralement un concept cohérent, dont les objets se complètent ou se lient. La structure grammaticale extraite peut en outre comprendre des informations liées aux phrases, aux propositions, etc. En particulier, les liens entre les groupes grammaticaux vont permettre d'étager la progression de la fusion. Ainsi, les informations relatives à la structure grammaticale aident à construire la fusion.

10 De même, la présence de synonymes et de leurs définitions peut influer sur la fusion, dans la mesure où ceux-ci permettent de mettre en exergue des relations entre mots de graphes lexicaux différents. Ces relations aident alors à construire la fusion entre ces graphes. Dans un mode de réalisation, la fusion est opérée d'une manière très simple, 15 en prenant en compte à la fois la structure grammaticale de la requête et la valeur de termes voisins (au plan sémantique) entre graphes lexicaux élémentaires différents. En ce qui concerne la structure grammaticale, on entend ici plus précisément la structure des groupes grammaticaux. En ce qui concerne la valeur des termes voisins au plan sémantique, le degré de "voisinage" dépend des relations qu'ils peuvent avoir entre eux 20 (i.e. les relations liant des mots de graphes lexicaux élémentaires différents. Il convient de noter que ces graphes élémentaires sont bien ici ceux fabriqués avec des mots composant un groupe grammatical donné. Dans l'exemple discuté plus haut, pour le groupe 1 "traduction française" : sont pris en compte à la fois sa structure grammaticale (les deux mots sont liés entre eux par une relation nom-épithète) et les relations existant 25 entre les termes des deux graphes lexicaux élémentaires, par exemple "langue", du côté "français" et "langue" relié à "texte" du côté "traduction" (cf. figure 3). Il convient de noter que certaines des étapes (S100 - S400) décrites plus haut peuvent être entrelacées, pour des raisons de performances algorithmiques. Par exemple, après réception de la requête, les étapes d'extraction de la syntaxe et des mots 30 significatifs 20 du texte, de recherche de leurs définitions et d'analyse de ces définitions S200 peuvent être partiellement concomitantes. De même, dès qu'une recherche pour un mot a abouti, la construction du graphe élémentaire correspondant peut commencer, sans attendre l'aboutissement de l'analyse de chacun des mots. Dans le même ordre 2906049 lo d'idées, une recherche de fusion peut être effectuée dès que deux graphes sont disponibles. Ces étapes ne sont donc pas nécessairement effectuées l'une après l'autre. En outre, les étapes S100 - S400 peuvent, dans un mode de réalisation, être effectuées au vol (tout en étant éventuellement entrelacées), suite à l'étape de réception 5 des données textuelles, par exemple en réponse à une requête 10 utilisateur. Ceci permet notamment de satisfaire une requête émanant d'un utilisateur. Typiquement, celui-ci formule sa requête, puis une ontologie de la requête (c'est-à-dire comprenant au moins un graphe 60 sémantique) est élaborée et un service web correspondant est recherché.

10 De préférence également, le procédé comprend une étape d'élimination S500 de composantes non liées aux graphes 60 sémantiques créés. Ceci permet d'éliminer des parties inutiles des graphes et, donc, de simplifier in fine le traitement. On obtient alors les graphes sémantiques 70 finaux. En revenant à l'exemple précédent et en référence à la figure 4. Il apparaît 15 notamment que les graphes relatifs à "Français" et "Traduction" ont été fusionnés. En effet, on se souvient que le tableau de la figure 1 montrait l'existence d'une relation grammaticale entre "Français" et "Traduction". La syntaxe et les mots significatifs du texte initial comportaient donc des éléments nécessaires à la fusion ultérieure des graphes relatifs aux mots "Français" et "Traduction". Plus précisément, les relations particulières 20 entre, d'une part, les mots "Français" et "Traduction" ("Français" était épithète de "Traduction") et, d'autre part, entre "Traduction", "Texte" et "Langue Destination" (celle-ci étant de nature sémantique) ont permis d'opérer un branchement sémantique entre "Français" et "Langue Destination", rattaché à "Traduction" par le biais du mot/concept "Langue". A cet égard, il convient de noter que la définition suivante de "traduction" a été 25 utilisée dans cet exemple : version d'un texte dans une langue différente (langue destination) de celle où il a été écrit (langue d'origine) ). De même, une fusion a pu être réalisée entre les concepts relatifs à "Nouvelles" et "CNN". Des termes non liés tels que "Internet forum" ou "Acronyme" ont en outre été 30 éliminés. Notons encore que l'existence de relations entre mots ou concepts ne conduit pas nécessairement à une fusion. Par exemple, en dépit de l'existence d'une relation 2906049 11 entre "Nouvelles" et "Traduction", les deux graphes présents dans la figure 4 n'ont pas été liés. A cet égard, il peut être avantageux de ne pas chercher à trop élargir (au plan sémantique) chaque concept en vue de les fusionner tous. En effet, ceci conduirait à un 5 graphe final unique trop ciblé, trop personnalisé. Or, il y a peu de chances qu'un service Web corresponde à une requête trop ciblée. Il vaut donc mieux viser la découverte de plusieurs services Web, chacun correspondant à un graphe issu de la requête. Ceci dépend évidemment de la finalité recherchée : dans d'autres applications, on pourra chercher à fusionner un maximum de graphes. Le niveau de granularité des graphes 10 finaux peut être ajusté et corrigé avec l'expérience. Dans l'exemple précédent, une relation (dans la requête d'origine) entre "Nouvelles" et "Traduction" aurait éventuellement pu être découverte, mais on préfère ne pas créer ce lien, qui rendrait le graphe final trop personnalisé. Les graphes 70 sémantiques finalement obtenus peuvent être formalisés 15 simplement, par exemple dans un langage basé sur XML, tel que le langage OWL ou RDF. Le procédé, décrit ci-dessus, permet ainsi d'obtenir une description sémantique cohérente et systématique. Bien entendu, on conçoit que le procédé fonctionne d'autant mieux que la requête initiale 10 est bien formulée et claire. En particulier, celle-ci pourra 20 avantageusement prendre la forme sujet-verbe-complément et, éventuellement, être agrémentée de compléments substantifs clairs.

Claims

REVENDICATIONS

1. Procédé, mis en oeuvre par ordinateur, de développement d'une ontologie (70) d'un texte (10) en langage naturel, comprenant des étapes : - de réception de données textuelles du texte (10) ; - d'extraction de la syntaxe et des mots significatifs (20) du texte via une analyse grammaticale (S100) des données reçues ; - pour chacun d'une partie, au moins, des mots significatifs (20) du texte : de recherche (S200) d'une définition (40) de ce mot (20) au moyen d'au moins un dictionnaire (30, 35) électronique, d'extraction de la syntaxe et des mots significatifs de cette définition et de création (S300) d'un graphe (50) lexical élémentaire de cette définition basé sur la syntaxe et des mots significatifs de cette définition ; et - de fusion (S400) d'au moins deux des graphes (50) lexicaux élémentaires créés, en fonction de la syntaxe du texte, de sorte à créer au moins un graphe (60) sémantique du texte.

2. Le procédé selon la revendication 1, comprenant en outre une étape, avant l'étape de fusion (S400), d'extraction de relations entre les mots significatifs du texte basée sur la syntaxe et les mots significatifs du texte extraits, l'étape de fusion étant basée sur ces relations entre mots significatifs du texte.

3. Le procédé selon la revendication 1 ou 2, dans lequel : - la première étape d'extraction comprend en outre l'extraction via l'analyse (S100) grammaticale d'une structure grammaticale du texte, ladite structure comprenant un ou plusieurs groupes grammaticaux ; et - l'étape de fusion (S400) est en outre basée sur des groupes grammaticaux extraits, de sorte à créer au moins un graphe sémantique (60) pour chacun desdits un ou plusieurs groupes grammaticaux extraits.

4. Le procédé selon la revendication 1, 2 ou 3, comprenant en outre une étape, pour chaque mot significatif du texte, de recherche de synonymes (45) de ce 30 mot et d'une définition de ces synonymes au moyen dudit au moins un 12 2906049 13 dictionnaire (35); et - l'étape de fusion (S400) est en outre effectuée en fonction des définitions des synonymes.

5. Le procédé selon la revendication 4, comprenant en outre une étape, avant 5 l'étape de fusion, de - classement des synonymes trouvés pour chaque mot significatif en fonction des définitions de ce mot significatif et de ses synonymes ; et clans lequel : l'étape de fusion est en outre effectuée en fonction d'un résultat du classement 10 des synonymes.

6. Le procédé selon l'une quelconque des revendications 1 à 5, comprenant en outre une étape : - d'élimination (S500) de composantes non liées audit au moins un graphe (60) sémantique créé. 15

7. Le procédé selon l'une quelconque des revendications 1 à 6, dans lequel chacune des étapes (S100 - S400), hormis l'étape de réception des données textuelles, sont effectuées au vol, suite à l'étape de réception des données textuelles.

8. Le procédé selon l'une quelconque des revendications 1 à 7, dans lequel ledit 20 au moins un graphe (70) sémantique est formalisé dans un langage basé sur XML, tel que le langage OWL ou RDF.

9. Procédé selon l'une quelconque des revendications 1 à 8, dans lequel les données textuelles correspondent à un texte d'une requête (10) de service.

10. Procédé de recherche d'un service web comprenant les étapes : 25 - de réception dudit au moins un graphe (60) sémantique créé selon le procédé de la revendication 9 ; et 2906049 14 - de recherche d'un service web en fonction dudit au moins un graphe sémantique reçu.

11. Produit de programme d'ordinateur adapté à mettre en oeuvre les étapes du procédé selon l'une quelconque des revendications 1 à 10. 5

12. Système informatique comprenant des moyens de code adaptés à mettre en oeuvre les étapes du procédé selon l'une quelconque des revendications 1 à 10.