FR2865055A1

FR2865055A1 - Base de connaissance ontologique et procede d'extraction d'informations a partir d'une requete en langage naturel.

Info

Publication number: FR2865055A1
Application number: FR0400241A
Authority: FR
Inventors: Louis Chevallier; Anahide Tchertchian
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2004-01-12
Filing date: 2004-01-12
Publication date: 2005-07-15
Also published as: WO2005073908A1

Abstract

La présente invention concerne une base de connaissances relative à un domaine prédéterminé de connaissances, cette base de connaissances comprenant au moins une base d'ontologie (12) constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques et une base d'instances (14) relatives aux concepts.Cette base de connaissances comprend en outre une base de connaissances (11) relative au domaine de connaissances comprenant au moins une base d'unités lexicales du type constructeur d'interrogation constituée de mots-clefs représentatifs de types de questions et de motifs syntaxiques, les mots-clefs représentatifs de types de question étant associés à un ensemble prédéterminé de classes de structures syntaxiques d'interrogation et à un ensemble prédéterminé de concepts et de rôles objets d'interrogation.Application à tout type de langage naturel.

Description

La présente invention concerne une base de connaissances relative à un

domaine prédéterminé et un procédé d'extraction de données de celle-ci interrogée par une requête en langage naturel.

Plus particulièrement, la présente invention concerne une base de connaissances relative à un domaine prédéterminé de connaissances, cette base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques et une base d'instances relatives aux concepts.

Plus particulièrement, la présente invention concerne un procédé d'extraction de données d'une base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes, une base d'instances relatives aux concepts et vérifiant les contraintes, et une base de mots-clefs relatifs au domaine et représentatifs de type de questions parmi un ensemble de type de questions à réponse valide et/ou de structures syntaxiques.

Il existe dans l'état de la technique des procédés d'interrogation de bases de données textuelles. Dans le cas d'une base de données textuelles constituée des documents partagés sur le réseau Internet, les procédés d'interrogation consistent généralement à estimer la pertinence d'un document en se fondant sur le nombre de mots partagés entre la requête formulée par l'utilisateur et le document.

Le problème posé par ce type de procédé est dû au fait de considérer les mots uniquement comme des objets sensiblement indépendants les uns des autres, et les documents partagés sur le réseau Internet comme des suites de mots. De ce fait, le nombre de documents fournis en réponse est généralement très important et, de manière typique, l'utilisateur espère trouver l'information qui l'intéresse en réalisant lui-même le tri parmi les réponses renvoyées.

De manière classique, d'autres procédés tels que les procédés d'analyse de requêtes en langage naturel, réalisent une analyse syntaxique de la manière la plus exacte possible afin de lever des ambiguïtés dans le texte de la requête, par exemple des homonymies et/ou des synonymies, et/ou d'extraire des relations entre les mots de la requête pour permettre d'éliminer des documents non pertinents.

Toutefois, ces procédés de l'état de la technique ne réalisent une analyse de la requête que du point de vue purement syntaxique et n'accèdent pas au sens sémantique de celle-ci. La liste des réponses renvoyées est généralement très importante, comprend de nombreux documents hors sujet et ces dernières peuvent échouer à révéler des documents importants du seul fait que ceux-ci ne sont pas présentés sous une bonne forme.

Lorsque le domaine de connaissances relatif aux données est fermé, par exemple lorsqu'il porte sur un ensemble fini de données portant sur des vins, ou des musées, ou un sport, etc, il est possible de construire une modélisation sémantique du domaine, c'est-à-dire de définir un ensemble fini de concepts, un ensemble de relations sémantiques portant sur ceuxci, ou ontologie du domaine, et un ensemble fini d'instances relatives aux concepts.

II existe des procédés d'interrogation de telles bases de connaissances, ci-après désignées par bases ontologiques de connaissances , qui se fondent sur une analyse sémantique préliminaire des éléments de la question en fonction des relations sémantiques de la base de connaissances. Toutefois ce type de procédé consiste tout d'abord de manière classique à réaliser une analyse syntaxique précise et à rejeter des requêtes non formulées de façon satisfaisante du point de vue de la syntaxe utilisée, mais parfaitement valable du point de vue sémantique adopté dans la base ontologique connaissances.

Ainsi, lorsqu'un procédé réalise un filtrage préliminaire des requêtes en langage naturel par analyse syntaxique, il manque de souplesse, et oblige de fait l'utilisateur à formuler sa requête sous la bonne forme, ce qui restreint a priori le domaine des réponses possibles.

D'autres procédés connus consistent à corréler la requête à des questions préalablement enregistrées dans la base de connaissances associées à des réponses prédéterminées mémorisées dans la base de connaissances. Si une requête sémantiquement valide ne peut être corrélée à l'une de ces questions, ces procédés échouent à renvoyer une quelconque réponse.

Le but de la présente invention est de résoudre les problèmes susmentionnés.

Elle a pour objet un procédé d'extraction de données d'une base ontologique de connaissances qui, notamment, détermine un ensemble complet de relations structurellement viables dans l'ontologie à partir de la requête en langage naturel et qui détermine les réponses valides de la requête en éliminant les requêtes non sémantiquement supportées par la base ontologique de connaissances. Ainsi la probabilité d'échec de fourniture d'une réponse pertinente à la requête et la probabilité de fourniture d'une réponse non pertinente sont faibles puisque la pertinence d'une réponse est étudiée du point de vue de l'ontologie formalisée de la base de connaissances et ne dépend pas en pratique de la forme sous laquelle la requête est en définitive formulée selon les critères du langage naturel utilisé.

En particulier, un autre objet de la présente invention est la mise en oeuvre d'un procédé d'extraction de données et d'informations supportées par ces données d'une base de connaissances spécifique à un domaine quelconque, grâce à un mécanisme simulant un raisonnement logique, processus de recherche décision, totalement indépendant du domaine considéré et de l'information recherchée.

Un autre objet de la présente invention est la mise en oeuvre d'un procédé d'extraction de données d'une base de connaissance sensiblement indépendant de la langue naturelle utilisée pour formuler la requête, pour des langues naturelles de syntaxe équivalente.

A cet effet, la présente invention a pour objet un procédé d'extraction de données d'une base de connaissances relative à un domaine interrogée par une requête en langage naturel, la base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes, une base d'instances relatives aux concepts, et une base de mots-clefs relatifs au domaine et représentatifs de types de questions parmi un ensemble de type de questions et/ou de structures syntaxiques. II est remarquable en ce qu'il comprend au moins les étapes: - d'analyse lexicale de la requête en langage naturel consistant à identifier les unités lexicales signifiantes de la requête et à étiqueter chacune des unités lexicales par au moins un concept, un rôle, une instance ou un mot-clef de la base de connaissances afin de générer au moins une requête étiquetée constituée d'unités lexicales étiquetées; d'analyse syntaxique de chacune de la au moins une requête étiquetée comprenant les étapes: - de création d'unités sémantiques élémentaires constituées d'au moins deux unités lexicales étiquetées, chacune de ces unités lexicales étant étiquetée par un concept ou un rôle ou une instance, les concepts, rôles et instances associés à chacune de ces unités sémantiques élémentaires vérifiant ensemble une configuration de n-uplet d'un ensemble prédéterminé de configurations de n-uplet; et - d'identification de cible consistant à identifier au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot- clef représentatif d'un type de question afin de déterminer au moins une contrainte cible d'interrogation vérifiant une question parmi l'ensemble de types de question; - d'analyse sémantique de chaque requête étiquetée comprenant au moins les étapes: - de validation de chacune des unités sémantiques élémentaires en fonction des contraintes de la base de connaissances, afin d'obtenir un ensemble d'unités sémantiques élémentaires validées; de validation des contraintes cibles d'interrogation en fonction des unités sémantiques élémentaires validées associées et/ou des contraintes de la base de connaissances, afin d'obtenir un ensemble de cibles d'interrogation validées; et d'extraction de données consistant à extraire de la base de connaissances les instances de la base d'instances vérifiant les unités sémantiques élémentaires validées par l'intermédiaire des contraintes cibles validées.

L'invention a également pour objet une base de connaissances relative à un domaine prédéterminé de connaissances, cette base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques et une base d'instances relatives aux concepts, caractérisée en ce qu'elle comprend en outre une base de connaissances relative au domaine de connaissances comprenant au moins une base d'unités lexicales du type constructeur d'interrogation constituée de mots-clefs représentatifs de types de questions et de motifs syntaxiques, les mots-clefs représentatifs de types de question étant associés à un ensemble prédéterminé de classes de structures syntaxiques d'interrogation et à un ensemble prédéterminé de concepts et de rôles objets d'interrogation.

La présente invention sera mieux comprise à la lecture de la description qui va suivre, uniquement donnée à titre d'exemple, et faite en 15 relation aux dessins annexés dans lesquels: - la figure 1 est un diagramme schématique de la structure d'une base de connaissances selon l'invention associée à des moyens d'interrogation; et -la figure 2 est un organigramme des étapes du procédé selon 20 l'invention.

Il va tout d'abord être décrit, en relation avec la figure 1, de façon schématique la structure d'une base de connaissances selon l'invention.

La base de connaissances 8 selon l'invention comprend une base de connaissances classique relative à un domaine de connaissances prédéterminé, référencée par le numéro 10, et une base de connaissances relative au domaine de l'interrogation, référencée par le numéro 11.

La base de connaissances relative au domaine de connaissances 10 est une modélisation sémantique de celui-ci, réalisée en se fondant sur une logique de description prédéterminée supportant au moins la définition (désignée par le symbole), la négation (désignée par le symbole -,), la subsomption (désignée par le symbole c), la disjonction (désignée par le symbole u), la conjonction (désignée par le symbole n), la quantification universelle (désignée par le symbole V) et la quantification existentielle (désignée par le symbole 3).

Cette base ontologique de connaissances 10 comprend de manière classique une base d'ontologie 12, ou T-box , et une base d'instances 14, ou A-box . La base d'ontologie 12 comprend une base de données de concepts 16 et une base de données de rôles 18, et la base d'instances 14 comprend une base de données d'instances 20 relatives aux concepts de la base de données de concepts 12.

Chaque concept, rôle et instance est référencé de manière unique dans la base de données, par exemple par un nombre, et associé de manière unique, dans un but de formalisation dans une langue naturelle prédéterminée, à au moins une unité lexicale prédéterminée d'une base de données d'unités lexicales 21.

De manière classique, les concepts et les rôles sont soumis à un ensemble prédéterminé de contraintes sémantiques formulées conformément à la logique de description qui est mise en oeuvre par un noyau logique 22 ayant notamment pour fonction de garantir l'intégrité de la base de connaissances 10 vis-à-vis de la logique de description.

Ces contraintes sémantiques portant sur les concepts et les rôles des bases de données de concepts 16 et de rôles 18 sont par exemple stockées dans une base de données de contraintes d'ontologie 23 et consistent au moins en des contraintes de définition de concepts en fonction de concepts atomiques, de définition de rôles en fonction de rôles atomiques, de subsomption entre concepts et de subsomption entre rôles, le terme atomique caractérisant les concepts et les rôles élémentaires utilisés pour la définition des autres concepts et rôles de la base de connaissances 10.

Un type supplémentaire de contraintes sémantiques porte à la fois sur les concepts et les rôles. De manière classique, un rôle est une relation sémantique binaire entre un domaine de départ, désigné domain , et un domaine d'arrivée, désigné range dans le domaine technique de la construction des bases de connaissances. Le domaine de départ et le domaine d'arrivée sont formalisés par des expressions logiques, supportées par la logique de description, portant sur les concepts de la base de données de concepts.

Les instances de la base de données d'instances 20 sont également soumises à un ensemble prédéterminé de contraintes, stocké par exemple dans une base de données de contraintes d'assertion 26 de la base d'instance 14, contraintes telles que, notamment, des assertions sur des concepts, c'est-à-dire l'appartenance d'une instance à un concept, et des assertions sur des rôles, permettant de relier entre elles des instances de la base de données d'instances.

La base de connaissances 10 comprend également une base de données 24 de synonymes raccordées à la base de données d'unités lexicales 21. La base de données 24 est constituée d'un ensemble prédéterminé de synonymes des unités lexicales utilisées pour formaliser les concepts, les rôles et les instances des bases de données 16, 18 et 20 de concepts, de rôles et d'instances.

D'une manière avantageuse, la base de connaissances 10 relative au domaine de connaissances prédéterminé est raccordée à la base de connaissances 11, ci-après désignée par base de connaissances interrogative qui modélise, en se fondant sur la logique de description prédéterminée, le domaine de l'interrogation. La base de connaissances interrogative 11 comprend une base de données d'unités lexicales clefs relatives à l'interrogation 30, ci-après désignée lexique. Ces unités lexicales clefs sont constituées d'un ensemble prédéterminé de constructeurs et de marqueurs.

Les constructeurs sont constitués de mots-clefs et de motifs syntaxiques représentatifs de types de questions. Typiquement, pour une langue comme le français par exemple, les mots-clefs sont les pronoms interrogatifs, qui , que , quoi , lequel , laquelle , etc..., et les adverbes interrogatifs quand , où , combien , etc..., et les locutions interrogatives contre qui , avec quoi , etc.... Les motifs syntaxiques sont quant à eux des motifs spécifiques au domaine de l'interrogation comme estce-que , y-a-t-il , est-il , etc et sont utilisés pour identifier le type de question soumis par une requête formulée en langage naturel, par un utilisateur de la base de connaissances 8, comme cela sera expliqué plus en détail par la suite.

Les marqueurs sont constitués de mots-clefs associés à des relations syntaxiques et porteurs de sens vis-à-vis de la sémantique. De façon typique, les mots-clefs marqueurs sont constitués de prépositions comme devant , derrière , en , dans , etc..., et de locutions prépositives comme au-dessus , longtemps après , etc...

De façon classique, les constructeurs et les marqueurs sont utilisés pour uniquement révéler la structure syntaxique d'une requête interrogative et attribuer à chaque mot de celle-ci un rôle syntaxique pour lever des ambiguïtés d'ordre homonymique ou synonymique ou identifier une relation syntaxique, analogue à celle de la requête, dans un texte entrant dans la constitution d'une base de données textuelles.

Conformément à un premier mode de réalisation de la base de connaissances interrogative 11, chaque mot-clef constructeur et marqueur du lexique 30 est associé à au moins un concept et/ou un rôle atomique universel d'une base de données de concepts 32 et d'une base de données de rôles 34 respectivement, le terme universel associé à un concept ou à un rôle qualifiant le fait sémantique que ce concept ou ce rôle est sensiblement nécessairement utilisé pour la modélisation d'un domaine quelconque de connaissances. Parmi les concepts universels, il est possible de citer les concepts de lieu, de date, de personne, d'objet et d'événement, ce dernier désignant un objet associé à l'un quelconque des quatre concepts précédents.

De manière typique, les mots-clefs constructeurs sont associés à des concepts atomiques objets d'interrogation. Ainsi le pronom interrogatif qui est associé au concept atomique de Personne , quoi au concept atomique de Chose , où au concept atomique de Lieu , quand au concept atomique de Date , combien au concept atomique de Quantité .

Certains mots-clefs sont associés à plusieurs concepts atomiques, comme par exemple le mot-clef marqueur à qui est associé aux concepts atomiques de Lieu et de Date . Certains mots-clefs peuvent également être associés à des rôles atomiques, comme par exemple, le motclef marqueur à ou le mot-clef constructeur quand qui sont associés au rôle atomique de a_eu_Lieu à , désignant l'occurrence d'un concept et/ou une instance en un lieu ou à une date.

Les concepts et les rôles de la base de connaissances 11 sont soumis à un ensemble prédéterminé de contraintes sémantiques, par exemple stocké dans une base de données de contraintes 36. Les contraintes sémantiques stockées dans la base de données de contraintes 36 portent notamment sur la subsomption de concepts et de rôles de la base de connaissances relative au domaine 10 par des concepts et des rôles de la base de connaissances interrogative 11, si les concepts et rôles de la base de connaissances relative au domaine de connaissances n'ont pas été définis par rapport aux concepts atomiques universels sus-mentionnés.

On rappelle ici que la notion de subsomption recouvre dans une classification hiérarchique d'informations structurée appartenant à une base de connaissances, l'action logique consistant à reporter une des informations, classée dans une catégorie donnée, dans une catégorie plus générale.

Un autre mode de réalisation de la base de connaissances interrogative 11 consiste à associer directement les mots-clefs du lexique 30 aux concepts, rôles et instances de la base de connaissances, sans utiliser les concepts et les rôles atomiques universels, ce qui permet de dédier la base de connaissances interrogative spécifiquement à la base de connaissances relative au domaine de connaissances. Ce mode de mise en oeuvre présente l'avantage d'accélérer l'extraction de données de la base de connaissances 10.

De manière classique, les bases de connaissances se fondent sur les concepts atomiques universels précédemment décrits pour modéliser le domaine de connaissances de sorte qu'il n'est pas nécessaire de définir les contraintes de subsomption entre des concepts et des rôles de la base de connaissances 10 et des concepts et des rôles de la base de connaissances interrogative 11. De manière avantageuse, la base de connaissances interrogative 11 est alors indépendante de la base de connaissances relative au domaine et adaptée à toutes les bases de connaissances relative à un domaine spécifique modélisé selon les concepts et rôles atomiques universels.

Par ailleurs, chacun des mots-clefs constructeurs, qui sont représentatifs de types de questions, est associé à au moins une classe de structures syntaxiques d'interrogation parmi un ensemble prédéterminé de classes de structures syntaxiques d'interrogation auxquelles est susceptible d'appartenir une requête en langage naturel. L'ensemble prédéterminé de classes de structures syntaxiques d'interrogation, par exemple stocké dans une base de données de structures syntaxiques d'interrogation 38, comprend au moins les classes de structures syntaxiques d'interrogation du type à réponse: - binaire , c'est-à-dire une structure d'interrogation conjecturant, selon un premier aspect, sur l'existence d'une relation sémantique contenue dans la requête en langage naturel. Il s'agit typiquement des structures syntaxiques d'interrogation à réponse qualitative du type oui ou non , comme par exemple la structure de la requête Agassi a- t-il joué à Rolland Garros ? , et des structures syntaxiques d'interrogation à réponse quantitative, comme par exemple la structure de la requête Combien de matchs Agassi a-t-il joué à Rolland Garros ? dont le processus d'extraction de réponse associé consiste à renvoyer le nombre de fois où la relation sémantique entre Agassi, a joué et Rolland Garros est vérifiée; - énumérative , c'est-à-dire une structure d'interrogation conjecturant une réponse constituée d'au moins une instance d'un concept objet de l'interrogation, impliqué et identifié dans une relation sémantique avec un rôle et un concept ou une instance de la requête en langage naturel; et - relationnelle , c'est-à-dire une structure d'interrogation conjecturant une réponse constituée d'au moins une instance de concept satisfaisant à une contrainte sémantique entre un concept ou une instance et un rôle dont le domaine de départ subsume ce concept ou cette instance et dont le domaine d'arrivée subsume les instances de la réponse.

De façon typique, les mots-clefs qui , que , quoi , quand et où sont associés aux structures syntaxiques d'interrogation à réponse du type énumérative et relationnelle , le mot-clef combien est associé à la structure syntaxique d'interrogation à réponse du type binaire .

De manière avantageuse, la base de données de structures syntaxiques d'interrogation 38 comprend en outre, pour chaque classe, un ensemble prédéterminé de structures syntaxiques d'interrogation syntaxiquement équivalentes. Ces ensembles sont par exemple utilisés lors de d'une étape d'identification de la classe de structures syntaxiques d'interrogation à laquelle appartient la requête en langage naturel.

De manière spécifique, les unités lexicales du lexique 30 sont formalisées par des unités lexicales se fondant sur une langue naturelle prédéterminée pour les besoins d'interrogation de la base de connaissances relative au domaine de connaissances 10.

Cependant, comme il est possible de le constater, la structure et le contenu des bases de connaissances 10 et 11, hormis les bases de données d'unités lexicales 21, de synonymes 24 et le lexique 30, ainsi que le processus d'extraction décrit ci-après, sont indépendants de la langue naturelle utilisée.

En effet, l'ensemble des concepts, rôles et instances est référencé par un référant universel, un nombre arbitraire par exemple, et logiquement reliés selon les règles de la logique de description du domaine de la base de connaissances, indépendamment de toute relation à un langage naturel.

De manière avantageuse les bases de données d'unités lexicales 21, de synonymes 24 et le lexique 30 sont amovibles et interchangeables avec des bases de données d'unités lexicales, de synonymes et un lexique formulés dans une autre langue naturelle, de sorte que la base de connaissances relative au domaine de connaissances 10 peut être interrogée dans une autre langue naturelle sans que cela ne modifie ni la structure, ni l'agencement de données, ni le contenu des autres éléments des bases de connaissances 10 et 11, ni même, en définitive, le procédé objet de l'invention.

Enfin, la base de connaissances relative au domaine de connaissances 10 et la base de connaissances interrogative 11 sont raccordées à un module 40 d'interrogation propres à interroger la base de connaissances 10 en mettant en oeuvre le procédé objet de l'invention.

On comprend bien sûr que le nombre et la définition des concepts, rôles, instances, mots-clefs, contraintes, structures syntaxiques des bases de connaissances 10 et 11 dépendent du degré souhaité de finesse de modélisation des domaines de connaissance et interrogatif, de sorte que la taille et la complexité de chacune des bases 10 et 11 est fonction du degré de finesse précité.

A des fins uniques d'illustration, on décrit une base de connaissances relative au domaine du tennis. Bien entendu, la structure de la base de connaissances et le procédé d'extraction de données selon l'invention sont totalement indépendants non seulement du type de données traitées, mais également de la nature de l'information supportée par celles-ci.

On rappelle ici que les unités lexicales précitées peuvent être choisies arbitrairement, niais que celles-ci présentent pour l'utilisateur une valeur sémantiquement signifiante biunivoque en langage naturel. On comprend par exemple que le concept Joueur de_Tennis peut être remplacé par toute valeur différente équivalente, par exemple Joueur/de/Tennis ou Joueur de Tennis .

La base de connaissances donnée en exemple relative au domaine du tennis se fonde sur les concepts atomiques universels, de Personnes , Date , Lieu , Objet et Evènement .

Pour le domaine du tennis, il est également possible de définir les concepts Homme , Joueur de_Tennis , Joueur de_Tennis_Homme , Paire_Joueurs_de_Tennis , Tournois , Match , Vainqueur , 3 a_Gagné.Tournoi , etc....

Des rôles possibles sont a_eu_Lieu_à , a_eu_Lieu_le , a_Battu , a_Gagné , a_pour_Joueur , a_Joué_à , etc. Des instances possibles sont Agassi Rolland_Garros , Paris , Rolland Garros 2003 .

Par exemple, une contrainte sémantique de définition est la définition du concept Vainqueur selon la relation: Vainqueur Joueur de_Tennis n 3 a_Gagné. Tournoi . Une contrainte sémantique de subsomption de concept est par exemple la subsomption Joueur de_ Tennis_ Homme Joueur de Tennis c Personne .

Par exemple, une contrainte sémantique de définition du domaine de départ et d'arrivée d'un rôle est une contrainte sur le rôle a_Joué_à est: a Joué à (AND Personne (OR Joueur de Tennis Paire Joueurs_de_Tennis )) où "AND" et "OR" représentent les opérateurs logiques ET et OU respectivement.

Par exemple, une contrainte sémantique d'assertion sur un concept est l'appartenance de l'instance Agassi au concept Joueur_de Tennis_Homme . Une assertion sur un rôle est par exemple la relation entre l'instance Agassi et l'instance Rolland_Garros_1999 reliées par le rôle a Gagné .

Le procédé objet de l'invention est maintenant décrit, en relation avec la figure 2.

Le procédé consiste tout d'abord à réaliser une analyse lexicale d'une requête en langage naturel formulée par un utilisateur afin d'identifier des unités lexicales associées à des concepts, des rôles, des instantes et des mots-clefs de la base de connaissances.

A cet effet, dans une étape 52, le procédé identifie et élimine les mots non porteurs de sens compris dans un ensemble prédéterminé de mots, comme les articles définis et indéfinis, les conjonctions de subordination, etc.

Le procédé consiste ensuite à tester, dans une étape 54, si les mots restants de la requête, c'est-à-dire les mots porteurs de sens, sont supportés par les bases de connaissances 10 et 11, c'est-à-dire existent dans celles-ci. Dans l'affirmative la requête en langage naturel est, par définition, dite cohérente avec la base de connaissances. Si, aucontraire, le résultat de ce test est négatif, la requête de l'utilisateur est rejetée.

Si le résultat du test est positif, une étape 56 d'identification des concepts, rôles, instances, mots-clefs contenus dans la requête en langage naturel est alors déclenchée. Le procédé consiste à déterminer l'ensemble des combinaisons possibles de concepts, rôles, instances et mots-clefs de la base de connaissances compris dans la requête, par exemple en mettant en oeuvre un algorithme de recherche à arbre de décision qui parcourt la base de connaissances 8 à la recherche d'unités lexicales de la requête qui sont associées à des concepts, des rôles, des instances et des mots-clefs de la base de connaissances 8.

Le procédé génère ainsi un ensemble de requêtes étiquetées constituées d'unités lexicales en fonction des mots porteurs de sens de la requête en langage naturel, chacune des unités lexicales étant étiquetée par un concept, un rôle, une instance ou un mot-clef de la base de connaissance. Par la suite, un concept, un rôle, une instance ou un mot-clef associé à une unité lexicale est désigné par le terme d' étiquette de l'unité lexicale.

Par exemple, en considérant la requête en langage naturel combien de joueurs gauchers Agassi a-t-il battus à Paris ? , plusieurs requêtes étiquetées d'unités lexicales étiquetées sont possibles en fonction des mots signifiants de la requête, comme illustré par le tableau 1. La première ligne du tableau 1 répertorie les mots signifiants de la requête en langage naturel, le mot de n'étant pas porteur de sens. La suite du tableau 1 répertorie et classe des unités lexicales possibles déduites par l'algorithme de recherche à arbre de décision en concepts, en rôles, instances et mots-clefs associés.

Requête combien joueurs gauchers Agassi a-t-il battu à Paris Concept, Mots-clefs de Concept: Instance du Rôle:a Mot-clef Instance rôle, question: Joueur concept: Joueur Battu de du concept: instance, Combien Gaucher de Tennis syntaxe: Lieu Homme à mot-clef j J Unité combien joueurs Agassi a-t-il à Paris lexicale gauchers battus Concept, Mots- Concept: I Concept: Instance du! Rôle:a Mot-clef Instance! rôle, clefs de Joueur Gaucher concept: Battu de du concept: instance, question: de Joueur de syntaxe: Lieu mot-clef Combien Tennis Tennis à Homme Unité combien joueurs gauchers Agassi a-t-il Paris à lexicale battus - - - - 1- - 1- -Concept, Mots-clefs Concept: Instance du Rôle:a Mot-clef 1 Instance du rôle, de Joueur concept: Joueur Battu de concept:Joueur instance, question: Gaucher de Tennis syntaxe: de Tennis mot- clef Combien Homme à Homme Unité combien joueurs Agassi a-t-il à Paris lexicale gauchers battus

Tableau 1

Bien entendu, d'autres possibilités sont également utilisables.

L'exemple développé ci-dessus illustre le fait que pour une requête en langage naturel, plusieurs combinaisons d'unités lexicales étiquetées, ou requêtes étiquetées, sont possibles.

Dans un premier mode de mise en oeuvre du procédé selon l'invention, certaines combinaisons peuvent être éliminées en fonction des mots-clefs marqueurs. Par exemple, le mot-clef marqueur à est associé à et suivi d'un concept de lieu ou de date, de sorte que les requêtes étiquetées comprenant l'unité lexicale Paris étiquetée par l'instance Paris_Roger du concept Joueur de Tennis_Homme et correspondant au joueur de tennis nommé Roger Paris peut être éliminée car le concept Joueur de Tennis_Homme n'est ni le concept Date , ni le concept Lieu et n'est subsumé par aucun de ceux-ci. Le nombre de requêtes étiquetées utilisées dans les étapes suivantes du procédé est alors réduit, ce qui diminue par conséquent le temps de calcul associé à la mise en oeuvre du procédé selon l'invention.

Dans un second mode de réalisation, toutes les requêtes étiquetées sont gardées, ce qui est particulièrement avantageux lorsque l'utilisateur a commis une faute de syntaxe dans la requête en langage naturel par exemple. De manière générale, le procédé selon l'invention est particulièrement souple vis-à-vis de ce type de fautes, ce qui permet, par exemple, à un utilisateur étranger, dont la langue véhiculaire n'est pas la langue utilisée pour formaliser la base de connaissances, de pouvoir interroger celle-ci en commettant certaines fautes spécifiques sans que cela ne porte atteinte à la pertinence des réponses établies grâce au procédé selon l'invention, ainsi qu'il sera décrit ci-après.

En effet, le rejet ou l'acceptation d'une requête se fonde uniquement sur l'ontologie de la base de connaissances relative au domaine de connaissances 10.

Pour la mise en oeuvre d'un processus d'analyse syntaxique, le procédé objet de l'invention consiste ensuite, dans une étape 58, à effectuer un tri parmi les requêtes étiquetées. Différentes formes prédéterminées de requêtes étiquetées sont reconnues par le procédé objet de l'invention qui identifie la structure de chaque requête étiquetée et élimine celles dont la structure n'est pas supportée par la logique de description utilisée par la base de connaissances. De manière typique, une requête étiquetée comprenant deux unités lexicales étiquetées par un rôle et adjacentes est éliminée car non conforme à la logique de description.

L'étape 60 suivante représentée en figure 2 consiste, pour chaque requête étiquetée, à générer un ensemble d'unités sémantiques élémentaires constituées d'au moins deux unités lexicales étiquetées vérifiant une configuration de triplet d'un ensemble prédéterminé de configurations de triplet.

Le processus mis en oeuvre dans l'étape 60 détermine un ensemble de relations syntaxiques entre les unités lexicales étiquetées, c'est-à-dire un ensemble de relations qui sont formellement justes du point de vue de la logique de description utilisée dans la base de connaissances, sans que soit pour le moment porté un jugement sur leur signification sémantique, c'est-à-dire en définitive de leur existence comme contrainte sémantique codée dans la base de connaissances 10.

Plus particulièrement, le processus détermine, pour chaque requête étiquetée, un ensemble d'unités sémantiques élémentaires d'au moins deux unités lexicales. Une première forme d'unité sémantique élémentaire est un triplet d'unités lexicales distinctes constitué de deux premières unités lexicales étiquetées par un concept et/ou une instance et d'une seconde unité lexicale étiquetée par un rôle qui relie les étiquettes des deux premières unités lexicales, c'est-à-dire un triplet d'unités lexicales dont les étiquettes vérifient ensemble une configuration du type {concept, rôle,concept}, {concept,rôle,instance}, {instance,rôle,concept}, {instance,rôle,instance} .

Une seconde forme d'unité sémantique élémentaire est un couple d'unités lexicales distinctes étiquetées par un concept ou une instance qui sont susceptibles d'être reliées par un rôle non identifié N, les étiquettes des unités lexicales et le rôle non identifié N vérifiant ensemble une configuration du type triplet d'unité lexicale {concept,rôle,concept}, {concept,rôle,instance}, {instance,rôle,concept}, {instance,rôle,instance}. II est particulièrement avantageux de considérer de tels couples d'unités lexicales. En effet une première unité lexicale étiquetée par un concept ou une instance est susceptible d'être reliée à une seconde unité lexicale étiquetée par un concept ou une instance par un rôle implicite, donc non identifié, contenu dans la requête en langage naturel.

Par exemple, lorsque l'on considère la requête qui a joué en finale contre Agassi à Paris ? , le rôle a_Joué_contre est explicitement apparent de par l'unité lexicale a joué contre . Toutefois, il existe un rôle implicite contenu dans la requête, à savoir le rôle a Lieu à , entre l'unité lexicale finale étiquetée par l'instance Finale du concept Match et l'unité lexicale Paris étiquetée par l'instance Paris du concept Lieu .

La recherche d'une relation sémantique implicitement incluse dans la requête en langage naturel, par l'introduction de l'indéterminisme associé au rôle non encore identifié constitue de manière typique, un type spécifique d'extraction de signification sémantique dans la requête.

Ce processus est particulièrement avantageux, car d'une manière générale, l'utilisateur formulateur de requête réalise des raccourcis sémantiques qu'il est nécessaire d'identifier pour extraire le véritable objet de la requête.

Dans l'exemple décrit ci-dessus, une requête sémantiquement bien formulée est effectivement qui a joué au moins un match final du Tournois de Paris contre Agassi ? et est généralement inconsciemment raccourcie en qui a joué en finale contre Agassi à Paris ? .

L'étape 62 suivante du procédé consiste, pour chaque requête étiquetée, à identifier, au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot-clef représentatif d'un type de questions.

Le processus 62 identifie tout d'abord à quelle classe de structures syntaxiques d'interrogation appartient la requête en langage naturel, et par conséquent également les requêtes étiquetées. Cette identification est réalisée en fonction des mots-clefs constructeurs et des motifs syntaxiques constructeurs du lexique 30 contenus dans la requête en langage naturel et des structures syntaxiques d'interrogation équivalentes de la base de données de structures syntaxiques 38.

Ensuite, le processus 64 identifie au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot-clef représentatif d'un type de questions Plus particulièrement, lorsque la requête étiquetée appartient à la classe des structures syntaxiques d'interrogation à réponse: - binaire: la contrainte logique interrogative est une contrainte d'existence des unités sémantiques élémentaires et de façon supplémentaire, lorsque la réponse attendue est quantitative, une contrainte sur le nombre de fois où l'existence des unités sémantiques élémentaires est vérifiée dans la base de connaissances relative au domaine de connaissances 10; - énumérative: la contrainte logique porte sur au moins un concept cible, qui est sélectionné comme étant celui qui est associé à l'unité lexicale étiquetée par le mot-clef constructeur ou un des concepts de la base de connaissances relative au domaine 10 subsumé par celui-ci. Par exemple, l'unité lexicale étiquetée par un mot-clef constructeur de la requête qui a gagné Rolland Garros en 1990 ? et le mot qui qui est associé au concept Personne . Le concept personne constitue donc un concept cible. Par ailleurs, le concept joueur-de-tennis est subsumé par le concept Personne et constitue donc également un concept cible possible.

- relationnelle: le procédé détermine au moins un triplet de contrainte cible du type {Cl, R, Cind} où CI désigne un concept C ou une instance I, R un rôle et Cind un concept cible d'interrogation égal au concept associé au mot-clef constructeur ou un concept subsumé par celui-ci. Le concept C et l'instance I, réalisation d'un concept C', sont un concept ou une instance étiquette d'une unité lexicale de la requête, ou bien un concept ou une instance d'un concept subsumant une étiquette d'une unité lexicale de la requête. Le rôle R est un rôle étiquetant une unité lexicale ou subsumant l'étiquette d'une unité lexicale.

A la suite du processus d'analyse syntaxiques exécuté par la mise en oeuvre des étapes 60, 62 et 64 du procédé selon l'invention, un ensemble de relations, c'est-à-dire des triplets, des couples et des contraintes cibles, ont été générées pour chaque requête étiquetée.

Le procédé selon l'invention consiste ensuite à analyser sémantiquement chaque requête étiquetée, à partir des étapes 66 et 68 représentées en figure 2.

L'étape 66 suivante du procédé est une étape de validation, pour chaque requête étiquetée, de chacune des unités sémantiques élémentaires en fonction des contraintes de la base de connaissances, afin d'obtenir un ensemble d'unités sémantiques élémentaires validées dans la base de connaissances. Le processus de l'étape 66 réalise la validation d'une unité sémantique élémentaire différemment selon qu'il s'agit d'un triplet ou d'un couple.

Lorsque l'unité sémantique est un triplet, par exemple (PULCI, ULR, SULCI) , où PUL et SULCI désignent respectivement la première et seconde unité lexicale étiquetée par un concept ou une instance, et ULR désigne l'unité lexicale étiquetée par un rôle, le triplet est validé si chacun des couples (PULCI, ULR) et (ULR, SULCI) est valide dans la base de connaissances 10.

Plus particulièrement, R désignant l'étiquette de ULR: - si PULCI est étiquetée par un concept C, le couple (PULCI, ULR) est validé si le concept C est subsumé par le domaine de départ de R; - si PULCI est étiqueté par une instance I, le couple (PULCI, ULR) est validé si au moins un concept C de la base de connaissances, dont I est une instance, est subsumé par le domaine de départ de R; - si SULCI est étiquetée par un concept C, le couple (ULR, SULCI) est validé si le concept C est subsumé par le domaine d'arrivée de R; et - si SULCI est étiqueté par une instance I, le couple (ULR, SULCI) est validé si au moins un concept C de la base de connaissances, dont I est une instance, est subsumé par le domaine d'arrivée de R. Si aucun des couples (PULCI, ULR) et (ULR, SULCI) n'est valide alors l'unité sémantique élémentaire correspondante (PULCI, ULR, SULCI) est éliminée.

Si le couple (ULR, SULCI) est valide et le couple (PULCI, ULR) est non valide, le processus 66: - génère et valide un triplet (DDULR, ULR, SULCI), où DDULR est le 10 domaine de départ du rôle R; et - détermine s'il existe un rôle R1 de la base de connaissances tel que le triplet (PULCI, RI, DDULR) est valide et valide un tel triplet si le rôle R1 existe.

Si le couple (PULCI, ULR) est valide et le couple (ULR, SULCI) est non valide, le procédé : - génère et valide un triplet (PULCI,R,DAULR), où DAULR est le domaine d'arrivée du rôle R; et - détermine s'il existe un rôle R2 de la base de connaissances tel que le triplet (DAULR,R2,SULCI) est valide et valide un tel triplet si le rôle R2 existe.

Lorsque l'unité sémantique élémentaire est un couple, par exemple (PULCI, SULCI), où PULCI et SULCI désignent respectivement la première et la seconde unité lexicale étiquetée par un concept ou une instance, le processus 66 valide le couple s'il existe un rôle R de la base de connaissances tel que le triplet (PULCI, R, SULCI) est valide.

Plus particulièrement: -si PULCI et SULCI sont étiquetées par des concepts C et C' respectivement, le processus 66 parcourt une première fois la base de données de rôle et sélectionne, s'il existe, un rôle R dont le domaine de départ est le concept C et le domaine d'arrivée est le concept C'. Le processus 66 remplace alors le couple (PULCI, SULCI) par le triplet (PULCI,R,SULCI) et valide celui-ci.

Si un tel rôle R n'existe pas, le processus 66 parcourt une seconde fois la base de données de rôle et sélectionne, s'il existe, un rôle R' tel que son domaine de départ subsume le concept C et son domaine d'arrivée subsume le concept C'. Le processus 66 remplace alors le couple (PULCI, SULCI) par le triplet (PULCI, R', SULCI) et valide celui-ci.

Enfin si un tel rôle R' n'existe pas, le couple (PULCI, SULCI) est alors éliminé.

- si PULCI ou SULCI est étiquetée par une instance I, le procédé réitère le processus décrit ci-dessus en considérant à la place de l'unité lexicale d'étiquette I, le concept C dont I est l'instance la plus spécifique. Si un rôle R tel que décrit ci-dessus existe, le procédé remplace le couple (PULCI, SULCI) par le triplet (PULCI,R,SULCI) et valide ce triplet. Si un tel rôle R n'existe pas et si un rôle R' tel que décrit ci-dessus existe, le procédé remplace le couple (PULCI, SULCI) par le triplet (PULCI,R',SULCI), valide ce triplet. II élimine le couple (PULCI, SULCI) si un tel rôle R' n'existe pas.

La formation de triplets non explicitement contenus dans la requête en langage naturel constitue de manière typique un type d'extraction de signification sémantique dans la requête et permet, par l'introduction de cet indéterminisme sémantique, d'identifier les raccourcis sémantiques formulés par l'utilisateur.

Un mode de réalisation supplémentaire du procédé selon l'invention consiste, par ailleurs, à réaliser un enchaînement de triplets valides à partir d'un triplet invalide. Par exemple, en considérant le triplet généré (PULCI, ULR, DAULR) décrit ci-dessus, un triplet (DAULR, R', C') est généré et validé, où R' désigne un rôle de la base d'ontologie dont le domaine de départ est DAULR et le domaine d'arrivée C'.

II est alors encore possible de réitérer le processus pour C'. De manière préférentielle, l'itération précitée est limitée avantageusement à deux étapes successives de génération de triplets.

D'une manière analogue, un enchaînement symétrique à celui décrit cidessus est réalisé pour le triplet généré (DDULR, ULR, SULCI) décrit précédemment en générant et validant un nouveau triplet (C', R', DDULR) à partir du domaine de départ DDULR du rôle R. Dans un autre mode de réalisation, l'identification des cibles d'interrogation, notamment pour les structures syntaxiques d'interrogation à réponse énumérative et relationnelle, est réalisé de manière simultanée à l'étape de validation des triplets. Les contraintes cibles associées à la structure syntaxique à réponse relationnelle, sont sélectionnées parmi les triplets validés qui contiennent un concept associé au mot-clef constructeur ou un concept subsumé par ce concept.

Dans ce mode de réalisation, l'analyse syntaxique et sémantique sont réalisées de manière simultanée en supposant l'existence d'au moins une relation sémantique implicitement contenue dans la requête en langage naturel.

Si aucune unité sémantique élémentaire de la requête étiquetée n'a été validée, le processus 66 rejette cette requête, car celle-ci est non conforme à la base de connaissances. Si aucune requête étiquetée ne présente d'unité sémantique élémentaire validée, le processus 66 rejette la requête formulée par l'utilisateur car celle-ci est non conforme à la base de connaissances.

L'étape 68 suivante du processus d'analyse sémantique est une étape de validation, pour chaque requête étiquetée, des contraintes cibles d'interrogation en fonction des unités sémantiques élémentaires validées etlou des contraintes de la base de connaissances, afin d'obtenir un ensemble de cibles d'interrogation validées. Le processus 68 valide les contraintes cibles en fonction de leur type: - si une contrainte cible est une contrainte associée à une structure syntaxique d'interrogation à réponse binaire, celle-ci est automatiquement validée car elle porte sur l'existence des triplets; - si une contrainte cible est une contrainte associée à une structure syntaxique d'interrogation à réponse énumérative, elle est validée si le concept qu'elle met en jeu est présent dans les unités sémantiques validées, sinon elle est éliminée; et - si une contrainte cible est une contrainte associée à une structure syntaxique d'interrogation à réponse relationnelle, elle est validée si la relation qu'elle met en jeu est valide et que ses éléments sont présents dans les unités sémantiques validées, sinon la contrainte cible est éliminée.

Si aucune contrainte cible n'a été validée pour la requête étiquetée, le processus 68 rejette cette requête car celle-ci est non conforme à la base de connaissances. Si aucune requête étiquetée ne présente de contrainte cible validée, le processus 68 rejette la requête formulée par l'utilisateur car celle-ci est non conforme à la base de connaissances.

Lorsque les unités sémantiques élémentaires et les contraintes cibles ont été validées, le procédé objet de l'invention procède ensuite à l'extraction des données support des informations recherchées de la base de connaissances 10.

Dans une étape 70, le processus extrait, pour chaque requête étiquetée, les instances conformes aux unités sémantiques élémentaires validées et forme une liste d'instances extraites initialement vide.

Plus particulièrement, en désignant les étiquettes des unités sémantiques élémentaires validées par C et C' pour deux concepts, R pour un rôle, I et I' pour deux instances, le processus 70 extrait les instances conformes en considérant successivement: - les unités sémantiques élémentaires validées d'étiquettes (I,R,I') du type {instance,rôle,instance} : les instances I et I' sont ajoutées à la fin de la liste d'instances extraites; - les unités sémantiques élémentaires validées d'étiquettes (I,R,C) du type {instance,rôle,concept} : les instances de C sont ajoutées à la fin de la liste d'instances extraites; - les unités sémantiques élémentaires validées d'étiquettes (C,R,I) du type {concept,rôle,instance}, les instances de C sont ajoutées à la fin de la liste d'instances extraites; et - les unités sémantiques élémentaires validées d'étiquettes (C,R,C') du type {concept,rôle,concept} : les instances de C et de C' sont ajoutées à la fin de la liste d'instances extraites, toute instance commune à c et C' étant ajoutée une seule fois à la fin de la liste.

Comme on pourra le constater, une instance peut apparaître plusieurs fois dans la liste d'instances extraites. L'étape 72 suivante du procédé réalise, pour chaque requête étiquetée, un premier filtrage et génère une liste d'instances extraites validées. Toute instance I d'un concept C qui n'est pas présente autant de fois dans la liste d'instances extraites que le concept C n'est présent dans les unités sémantiques élémentaires validées est considérée comme incorrecte et éliminée, sinon elle est ajoutée à la liste d'instances extraites validées.

Le processus extrait ensuite, dans une étape 74, la réponse à la requête formulée par l'utilisateur. Le processus 74 renvoie comme réponse les instances de la liste d'instances validées qui satisfont aux contraintes cibles.

Si les triplets validés n'ont permis d'extraire aucune instance, ou si les contraintes cibles ne renvoient aucune instance, cela signifie que la réponse à la requête formulée par l'utilisateur n'est pas présente dans la base de connaissances. En effet, des contraintes cibles et des unités sémantiques élémentaires ayant été validées, cela signifie que la requête formulée par l'utilisateur à un sens dans la base de connaissances. Une telle situation peut par exemple correspondre à une requête erronée, dans laquelle la question en langage naturel de savoir si un joueur de tennis féminin a gagné le tournoi masculin, lexicalement et syntaxiquement correcte, ne peut comporter de réponse sémantique conforme, sauf à prévoir une compétition toute catégorie de genres confondus.

Enfin, dans une étape 76, le procédé réalise une classification des instances de la liste d'instances validées.

De façon typique le procédé trie par ordre chronologique ou par ordre alphabétique les instances.

Dans un autre mode de réalisation, le procédé renvoie comme réponse un nombre prédéterminé d'instances validées, par exemple les dix plus récentes.

Dans un autre mode de réalisation, le procédé renvoie le nombre d'instances validées.

On a ainsi décrit un procédé et un système d'extraction de données support d'informations se fondant sur la création de triplets ou de couples d'unités lexicales à partir d'une requête. II est également possible de créer des unités sémantiques de dimension supérieure, pour prendre en compte par exemple des relations sémantiques portant sur plus de trois éléments. Les étapes associées du procédé se déduisent alors simplement de celles-décrites ci-dessus.

Claims

REVENDICATIONS

1. Base de connaissances (8) relative à un domaine prédéterminé de connaissances, cette base de connaissances comprenant au moins une base d'ontologie (12) constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes sémantiques et une base d'instances (14) relatives aux concepts, caractérisée en ce qu'elle comprend en outre une base de connaissances (11) relative au domaine de connaissances comprenant au moins une base d'unités lexicales (90) du type constructeur d'interrogation constituée de mots-clefs représentatifs de types de questions et de motifs syntaxiques, les mots-clefs représentatifs de types de question étant associés à un ensemble prédéterminé de classes de structures syntaxiques d'interrogation et à un ensemble prédéterminé de concepts et de rôles objets d'interrogation.

2. Base de connaissance selon la revendication 1, caractérisé en ce que les concepts et les rôles objets d'interrogation sont des concepts et des rôles de la base de connaissances relative au domaine de connaissances.

3. Base de connaissance selon la revendication 1, caractérisée en ce que les concepts et les rôle objets d'interrogation sont des concepts et des rôles universels subsumant un ensemble prédéterminé de concepts et de rôles de la base de connaissances relative au domaine.

4. Base de connaissances selon l'une quelconque des revendications précédentes, caractérisée en ce que la base d'unités lexicales (30) comprend en outre un ensemble prédéterminé d'unités lexicales du type marqueur de syntaxe, les unités lexicales du type marqueur de syntaxe étant associées à un ensemble prédéterminé de concept et de rôles universels subsumant des concepts et des rôles de la base de connaissances relative au domaine de connaissance.

5. Base de connaissances selon l'une quelconque des revendications précédentes, caractérisée en ce que la base d'unités lexicales (30) comprend en outre un ensemble prédéterminé d'unités lexicales du type marqueur de syntaxe, les unités lexicales du type marqueur de syntaxe étant associés à des concepts et des rôles de la base de connaissances relatives au domaine de connaissances.

6. Procédé d'extraction de données d'une base de connaissances relative à un domaine interrogée par une requête en langage naturel, la base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes, une base d'instances relatives aux concepts, et une base de mots-clefs relatifs au domaine et représentatifs de types de questions parmi un ensemble de type de questions et/ou de structures syntaxiques, caractérisé en ce qu'il comprend au moins les étapes: - d'analyse lexicale (52,54,56) de la requête en langage naturel consistant à identifier les unités lexicales signifiantes de la requête et à étiqueter chacune des unités lexicales par au moins un concept, un rôle, une instance ou un mot-clef de la base de connaissances afin de générer au moins une requête étiquetée constituée d'unités lexicales étiquetées; - d'analyse syntaxique (58,60,62,64) de chacune de la au moins une requête étiquetée comprenant les étapes: - de création (60) d'unités sémantiques élémentaires constituées d'au moins deux unités lexicales étiquetées, chacune de ces unités lexicales étant étiquetée par un concept ou un rôle ou une instance, les concepts, rôles et instances associés à chacune de ces unités sémantiques élémentaires vérifiant ensemble une configuration de n-uplet d'un ensemble prédéterminé de configurations de n-uplet; et - d'identification (62) de contraintes cibles consistant à identifier au moins une relation syntaxique entre les unités lexicales étiquetées par un concept ou un rôle ou une instance et les unités lexicales étiquetées par un mot-clef représentatif d'un type de question afin de déterminer au moins une contrainte cible d'interrogation vérifiant une question parmi l'ensemble de types de question; - d'analyse sémantique (66,68) de chaque requête étiquetée comprenant au moins les étapes de validation (68) de chacune des unités sémantiques élémentaires en fonction des contraintes de la base de connaissances, afin d'obtenir un ensemble d'unités sémantiques élémentaires validées; - de validation (68) des contraintes cibles d'interrogation en fonction des unités sémantiques élémentaires validées associées et/ou des contraintes de la base de connaissances, afin d'obtenir un ensemble de cibles d'interrogation validées; et d'extraction de données (70,72,74,76) consistant à extraire de la base de connaissances les instances de la base d'instances vérifiant les unités sémantiques élémentaires validées par l'intermédiaire des contraintes cible d'interrogation validées.

7. Procédé selon la revendication 6, caractérisé en ce que l'étape d'analyse syntaxique et l'étape d'analyse sémantique sont réalisées simultanément en se fondant sur l'existence d'une relation sémantique implicitement contenue dans la requête en langage naturel.

8. Procédé selon la revendication 6, caractérisé en ce que l'ensemble prédéterminé de configurations de n-uplet est un ensemble prédéterminé de configurations de triplet.

9. Procédé selon la revendication 8, caractérisé en ce que l'étape (60) de création d'unités sémantiques élémentaires consiste à créer un ensemble d'unités sémantiques élémentaires syntaxiquement valides de deux ou trois unités lexicales étiquetées distinctes, les unités sémantiques à deux unités lexicales étiquetées consistant en deux unités lexicales distinctes étiquetées par un concept ou une instance et les unités sémantiques à trois unités lexicales étiquetées consistant en deux unités lexicales distinctes étiquetées par un concept ou une instance et une unité lexicale étiquetées par un rôle, et en ce que chaque unité sémantique élémentaire créée vérifie l'une quelconque des configurations de triplet parmi l'ensemble des configurations de triplet {concept,rôle, concept}, {concept,rôle,instance}, {instance,rôle,concept}, {instance, rôle,instance}.

10. Procédé selon la revendication 9, caractérisé en ce que l'étape (66) de validation de chacune des unités sémantiques élémentaires de l'étape d'analyse sémantique consiste: - à valider une unité sémantique élémentaire (PULCI, ULR, SULCI) à trois unités lexicales étiquetées, où PUL et SULCI désignent respectivement la première et seconde unité lexicale étiquetée par un concept ou une instance de l'unité sémantique élémentaire, et ULR désigne l'unité lexicale étiquetée par un rôle de l'unité sémantique élémentaire, si le premier couple d'unités lexicales (PULCI, ULR) et le second couple d'unités lexicales (ULR, SULCI) issus de l'unité sémantique élémentaire vérifient chacun une contrainte de la base de connaissances, et - à valider une unité sémantique élémentaire réduite (PULCI, SULCI) à deux unités lexicales étiquetées, où PULCI et SULCI désignent respectivement la première et seconde unité lexicale étiquetée par un concept ou une instance de l'unité sémantique élémentaire, s'il existe au moins un rôle R de la base de connaissances tel que les couples (PULCI, R) et (R,SULCI) vérifient chacun une contrainte de la base de connaissances, - à remplacer l'unité sémantique élémentaire réduite, si elle est validée, par une unité sémantique élémentaire reconstruite à trois unités (PULCI, Rmin,SULCI), où Rmin désigne un rôle minimal de la base de connaissances pour l'unité sémantique élémentaire réduite (PULCI, SULCI).

11. Procédé selon la revendication 10, caractérisé en ce que l'étape (66) de validation de chacune des unités sémantiques élémentaires consiste en outre: - lorsque uniquement le premier couple (PULCI, ULR) de l'unité sémantique élémentaire à trois unités lexicales étiquetées ne vérifie aucune contrainte de la base de connaissances: - à déterminer et valider une unité sémantique élémentaire reconstruite à trois unités (DDRULR, ULR, SULCI) formée par le domaine de départ de l'unité lexicale étiquetée par un rôle DDRULR, l'unité lexicale étiquetée par un rôle ULR et la seconde unité lexicale étiquetée par un concept ou une instance SULCI de l'unité sémantique élémentaire, et à déterminer et valider, si elle existe, une unité sémantique élémentaire (PULCI, R1, DDRULR) où R1 désigne un rôle de la base de connaissances tel que les couples (PULCI, R1) et (R1, DDRULR) vérifient chacun une contrainte de la base de connaissances, et - lorsque uniquement le second couple (ULR, SULCI) de l'unité sémantique élémentaire à trois unités lexicales étiquetées ne vérifie aucune contrainte de la base de connaissances: - à déterminer et valider une unité sémantique élémentaire (PULCI, ULR, DAULR) formée par le domaine d'arrivée de l'unité lexicale étiquetée par un rôle DAULR, l'unité lexicale étiquetée par un rôle ULR et la première unité lexicale étiquetée par un concept ou une instance PULCI de l'unité sémantique élémentaire, et à déterminer et valider, si elle existe, une unité sémantique élémentaire (DAULR, R2, SULCI) où R2 désigne un rôle de la base de connaissances tel que les couples (DAULR, R2) et (R2, SULCI) vérifient chacun une contrainte de la base de connaissances.

12. Procédé selon la revendication 11, caractérisé en ce que l'étape de validation (60) de chacune des unités sémantiques élémentaires consiste en outre à réaliser un enchaînement d'au moins un triplet valide à partir du triplet (PULCI, ULR, DAULR) et un enchaînement d'au moins un triplet valide à partir du triplet (DDULR, ULR, SULCI).

13. Procédé selon la revendication 6, caractérisé en ce que l'étape (62) d'identification de cible de l'étape d'analyse syntaxique comprend les étapes: - d'identification d'une structure syntaxique de question de la requête étiquetée parmi un ensemble prédéterminé de structures syntaxiques de question; et - d'identification d'au moins une contrainte logique cible d'interrogation à laquelle est soumise la structure syntaxique de question identifiée en fonction des unités lexicales étiquetées par un mot-clef représentatif de type de question.

14. Procédé selon la revendication 13, caractérisé en ce que l'étape (68) de validation des contraintes cibles de l'étape d'analyse sémantique consiste à valider une contrainte cible d'interrogation lorsqu'elle existe dans la base de connaissances et que les concepts et/ou instances qu'elle met en jeu sont présents dans les unités sémantiques élémentaires validées, une contrainte cible validée définissant alors une contrainte que doit vérifier toute réponse valide de la requête étiquetée.

15. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que le procédé l'étape d'extraction (70,72,74,76) consiste en outre à éliminer les instances extraites un nombre de fois inférieur au nombre de fois que leur concept associé est présent dans les unités sémantiques validées associées, et à sélectionner parmi les instances non éliminées les instances vérifiant au moins une des contraintes cibles d'interrogation associées aux unités sémantiques élémentaires validées dont elles sont extraites.

16. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que, pour exécuter l'étape d'extraction (70,72,74,76) de données, il consiste en outre à renvoyer, comme réponse finale à la requête en langage naturel, le résultat d'un comptage et/ou d'un triage prédéterminé et/ou d'une sélection prédéterminée d'instances spécifique comme réponse à la requête en langage naturel.

17. Système (40) d'extraction de données d'une base de connaissances relative à un domaine interrogée par une requête en langage naturel, la base de connaissances comprenant au moins une base d'ontologie constituée de concepts et de rôles formalisés soumis à un ensemble de contraintes, une base d'instances relatives aux concepts, et une base de mots-clefs relatifs au domaine et représentatifs de types de questions parmi un ensemble de type de questions et/ou de structures syntaxiques, caractérisé en ce qu'il est adapté pour mettre en oeuvre le procédé conforme à l'une quelconque des revendications 6 à 16.