FR2878050A1 - Systeme et procede de dialogue pour la recherche d'informations dans un ensemble de ressources textuelles - Google Patents
Systeme et procede de dialogue pour la recherche d'informations dans un ensemble de ressources textuelles Download PDFInfo
- Publication number
- FR2878050A1 FR2878050A1 FR0412151A FR0412151A FR2878050A1 FR 2878050 A1 FR2878050 A1 FR 2878050A1 FR 0412151 A FR0412151 A FR 0412151A FR 0412151 A FR0412151 A FR 0412151A FR 2878050 A1 FR2878050 A1 FR 2878050A1
- Authority
- FR
- France
- Prior art keywords
- search
- user
- knowledge
- knowledge base
- focus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
La présente invention concerne un système de dialogue pour la recherche d'informations par un utilisateur dans un ensemble (4) de ressources textuelles comportant :- des moyens (1) d'interface homme-machine aptes à permettre à l'utilisateur de formuler sa recherche au cours d'un dialogue entre l'utilisateur et le système, connectés à- des moyens (2) d'analyse des informations fournies par l'utilisateur via les moyens d'interface aptes à détecter le focus de la recherche et ses propriétés.Ce système comporte en outre des moyens (3) de construction automatique d'une base de connaissances relative au focus de la recherche à partir de l'ensemble (4) des ressources textuelles, et des moyens (5) de génération d'une réponse à la recherche à partir des connaissances structurées dans la base de connaissances.
Description
La présente invention concerne un système, et un procédé, de dialogue pour
la recherche d'informations par un utilisateur dans un ensemble de ressources textuelles. Ce système comporte des moyens d'interface hommemachine aptes à permettre à l'utilisateur de formuler sa recherche au cours d'un
dialogue entre l'utilisateur et le système.
Parmi les différentes techniques de recherche d'informations dans un ensemble de ressources textuelles par un utilisateur, dans un environnement interactif, deux modes sont privilégiés: Le premier mode de recherche utilise des mots-clés. Il a été popularisé par des moteurs de recherche sur Internet comme Google (marque déposée de Google, Inc). Il est basé sur l'indexation des objets de connaissance (par exemple des documents Web) à partir de mots clés cités. En général, les documents trouvés sont ordonnés selon leur pertinence par rapport aux mots clés cités ou à une combinaison booléenne de ceux-ci.
Le second mode utilise un principe de questions-réponses pour permettre l'accès à l'information en temps réel. L'utilisateur pose sa requête sous la forme d'une question en langage naturel. Le système analyse alors cette question puis recherche dans ses bases documentaires les documents les plus pertinents. La pertinence d'un document est fonction de la similarité entre les mots de la question et ceux du document. Puis, chaque document pertinent trouvé est analysé dans le but d'en extraire la réponse précise à la question posée, au moyen de patrons d'extraction. L'ensemble des réponses potentielles extraites est alors ordonné et restitué à l'utilisateur, chaque réponse pouvant être accompagnée d'un poids exprimant la pertinence de la réponse par rapport à la question. L'utilisateur dispose alors d'un ensemble d'extraits de documents susceptibles de contenir la réponse à la question. Le brevet US 5 884 302 de Ho, par exemple, décrit un tel système.
Ces modes de recherche ont l'inconvénient de ne pas permettre un dialogue entre l'utilisateur et le système dans le sens où le système n'est pas capable de proposer des alternatives en cas d'échec, ou de proposer des compléments d'informations. On peut, en particulier, constater que ces systèmes n'utilisent pas l'historique des requêtes de l'utilisateur pour contextualiser la question et donc, ainsi, améliorer la pertinence de la réponse.
Le brevet FR 2 787 902 de la demanderesse décrit un modèle d'agent rationnel dialoguant fondé sur une théorie de l'interaction, qui utilise l'historique du dialogue pour contextualiser la réponse et améliorer ainsi la pertinence de la réponse. Cet agent dialoguant est basé sur une base de connaissances.
De manière classique, on appelle base de connaissances un ensemble structuré de données dans lequel les données sont regroupées par classes et sous-classes, celles-ci étant reliées entre elles par des relations sémantiques. Par exemple, dans une base de connaissances, une classe être humain est définie ainsi qu'une classe date . Entre ces deux classes, il est possible de définir une relation Date de Naissance telle qu'une entité, ou instance, de la classe être humain est reliée à une instance de la classe date, correspondant donc à la date de naissance de cette entité. Le regroupement par classes et sous-classes est tel que, par exemple, si objet boursier est une classe alors les sous-classes possibles sont action , indice et devise , le dollar américain et l'euro étant alors des instances de la sous-classe devise .
L'utilisation de l'agent rationnel dialoguant du brevet précité nécessite donc une structuration préalable de données sous forme d'une base de connaissances.
Or il est bien connu que la création d'une base de connaissances est une tâche lourde et complexe.
Le but de l'invention est donc l'utilisation d'un agent rationnel dialoguant pour la recherche d'informations dans un ensemble de documents textuels non structurés.
L'objet de l'invention est un système de dialogue pour la recherche d'informations par un utilisateur dans un ensemble de ressources textuelles comportant: - des moyens d'interface homme-machine aptes à permettre à l'utilisateur de formuler sa recherche au cours d'un dialogue entre l'utilisateur et le 30 système, connectés à - des moyens d'analyse des informations fournies par l'utilisateur via les moyens d'interface aptes à détecter le focus de la recherche et ses propriétés, caractérisé en ce qu'il comporte en outre: - des moyens de construction automatique d'une base de connaissances relative au focus de la recherche à partir de l'ensemble des ressources textuelles, et - des moyens de génération d'une réponse à la recherche à partir des 5 connaissances structurées dans la base de connaissances, connectés aux moyens d'interface aptes à communiquer la réponse à l'utilisateur.
Suivant des modes particuliers de réalisation, le système comporte une ou plusieurs des caractéristiques suivantes: - les moyens d'interface sont aptes à permettre à l'utilisateur de 10 demander au système d'autres informations connexes au focus détecté et à fournir ces informations si elles sont présentes dans la base en mode online ou en mode offline par l'intermédiaire des moyens de génération ou à faire compléter par les moyens de construction automatique la construction automâtique de la base de connaissances si nécessaire pour pouvoir les fournir 15 ensuite; - les moyens de génération d'une réponse sont aptes à compléter proactivement la réponse par des suggestions extraites de la base de connaissances; - les moyens d'analyse comportent des outils d'analyse linguistiques; 20 et les moyens de construction d'une base de connaissances comportent des moyens de construction d'un corpus de documents.
Un autre objet de l'invention est un procédé de dialogue pour la recherche d'informations par un utilisateur d'un système d'accès à un ensemble 25 de ressources textuelles comportant les étapes de: - saisie par l'utilisateur d'une recherche d'informations sur des moyens d'interface homme-machine, puis - analyse de la recherche saisie pour détecter le focus de celle-ci, puis, - construction automatique d'une base de connaissances relative au focus de la recherche à partir de l'ensemble des ressources textuelles, génération d'une réponse à la recherche à partir des connaissances structurées dans la base de connaissances.
Suivant d'autres caractéristiques de ce procédé : - si la réponse à la recherche n'est pas générable à partir des connaissances structurées dans la base de connaissances alors le procédé retourne à l'étape de construction automatique de la base de connaissances en modifiant les critères de construction de celle-ci; - un cycle de questions/réponses s'engage avec l'utilisateur à partir des connaissances structurées dans la base de connaissances; et - la construction automatique d'une base de connaissances comporte une étape de construction d'un corpus de documents par des outils de recherche d'informations.
Un autre objet de l'invention est un produit logiciel enregistré sur un support de mémorisation pour la mise en oeuvre par un ordinateur faisant office d'équipement dédié du système et du procédé de dialogue précédents.
L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple, et faite en référence aux dessins en annexe dans lesquels: - la figure 1 est un schéma synoptique d'un mode de réalisation du système selon l'invention; - la figure 2 est un schéma synoptique d'un mode de réalisation des moyens de création d'une base de connaissances; - la figure 3 est un schéma représentant une hiérarchie de classes et de leurs modèles de connaissances; - la figure 4 est un deuxième mode de réalisation du système selon l'invention.
Un système d'aide à la recherche d'informations par un utilisateur dans un ensemble de ressources textuelles comporte, figure 1, classiquement des moyens 1 d'interface homme-machine permettant d'une part à l'utilisateur de poser sa question ainsi que de préciser celle-ci au fur et à mesure de l'avancement du dialogue et permettant, d'autre part, au système de présenter les réponses trouvées ainsi que, si nécessaire, de poser des questions permettant de préciser l'objet de la recherche.
Classiquement, cette interface homme-machine comprend un clavier de saisie et un écran de visualisation. Elle peut aussi intégrer d'autres modalités telles qu'un module de reconnaissance vocale capable de reconnaître les phrases prononcées par l'utilisateur et un module de synthèse vocale capable de vocaliser les phrases en retour du système.
Quel que soit le mode d'entrée des informations provenant de l'utilisateur, ces moyens 1 d'interface sont connectés à des moyens 2 d'analyse des informations fournies par l'utilisateur permettant de détecter le focus de la recherche.
Le focus correspond à l'entité sur laquelle le locuteur demande une information. Il est déterminé par l'analyse syntaxique et sémantique de la phrase.
Par exemple, l'algorithme de recherche du focus cherche dans les termes de la phrase les noms propres. Si la phrase contient plusieurs noms propres, le premier est sélectionné. Si la phrase ne contient pas de nom propre, un nom commun est sélectionné pour être le focus. La validation de cette sélection est faite par une demande de confirmation auprès de l'utilisateur.
Le focus se traduit concrètement par une entité nommée comme, par exemple, le nom d'une personne, d'un lieu, ... ou une entité numérique comme une date, ou par un type commun d'entité comme, par exemple, une sorte de fleur, d'objet,... II se différencie d'un mot-clé dans la mesure où le focus peut ne pas apparaître en tant que tel dans la phrase. Par exemple, au milieu d'un dialogue, la question quel est l'âge de cette personne ? a comme focus Mr Dupont qui est la personne référencée par le cette et donc connue par une phrase précédente de ce dialogue.
Ce focus est alors utilisé par des moyens 3 de construction automatique d'une base de connaissances relative à ce focus à partir de l'ensemble des ressources textuelles.
Cet ensemble de ressources textuelles est représenté figure 1 sous forme d'une zone de stockage 4. Celle-ci peut être interne ou externe au système. En effet, cet ensemble peut être constitué par tous les documents accessibles via le réseau Internet.
Il doit être noté que les documents sont de format varié mais que, au titre de la description qui va suivre, ils sont accessibles au système sous une forme textuelle. Ainsi, les documents multimédias éventuels comportent un champ textuel informatif sur le contenu comme il est bien connu de l'état de la technique.
Ces moyens 3 de création d'une base de connaissances sont connectés à des moyens 5 de génération d'une réponse à la recherche à partir des connaissances structurées dans la base de connaissances et cette réponse est alors communiquée à l'utilisateur par les moyens 1 d'interface hommemachine.
Un système 3 de construction automatique, figure 2, à partir d'un corpus de documents, d'une base de connaissances portant sur un focus déterminé, comporte - des moyens 6 de stockage d'un ensemble de classes, chaque classe 10 étant associée à un modèle de connaissances et chaque modèle de connaissances à un ensemble de patrons d'extraction, et - des moyens 7 de sélection d'au moins une classe d'appartenance du focus, connectés à - des moyens 8 de chargement de la au moins une classe 15 d'appartenance et des modèles et patrons associés, connectés à - des moyens 9 d'application des patrons d'extraction chargés sur le corpus de documents apte à instancier les modèles de connaissances chargés pour générer la base de connaissances.
Ces moyens 3 de création d'une base de connaissances vont maintenant être décrits plus en détail. Ils comportent des moyens de stockage 6 d'un ensemble de classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances étant associé à un ensemble de patrons d'extraction.
On appelle classes, les éléments d'une typologie regroupant des individus ayant des caractéristiques communes: on obtient ainsi une typologie de classes d'individus.
Cette notion s'appuie sur la constatation, aujourd'hui classique, qu'il est possible de créer des classifications d'éléments individuels en fonction de diverses caractéristiques. Cette taxinomie permet ainsi de définir une arborescence ou typologie, figure 3. Au niveau le plus général I, une classe de base est définie. Suivant les domaines, il est ainsi possible de créer une classe 10 être humain , monument ou autre. Au niveau Il suivant, les sous-classes définissent des sous- ensembles d'individus plus précis. Par exemple, dépendant de la classe être humain 10, une classe artiste 12 et une classe scientifique 13 sont définies. De même, à partir des classes définies au niveau Il, il est possible de définir des sous-classes de niveau III et ainsi de suite. Dans notre exemple, la sous-classe 14, dépendant de la classe 12 artiste , représente, par exemple, les chanteurs .
Comme indiqué ci-dessus, ce qui caractérise une classe donnée, outre son nom, c'est l'ensemble des propriétés de cette classe qui sont ici regroupées sous forme d'un modèle de connaissances, c'est-à-dire d'un ensemble de relations entre concepts communes à tous les individus appartenant à cette classe. Par exemple, pour la classe 10 être humain , il existe une relation né le pour tous les individus de cette classe mettant en relation cet individu avec un concept date .
Les sous-classes héritent du modèle de connaissances de leur classe-mère dans le sens où les relations du modèle de connaissances de la classemère s'appliquent aux instances des sous-classes considérées. De plus, les sous-classes possèdent des caractéristiques / relations qui leur sont propres et qui enrichissent donc le modèle de connaissances. Ceci est illustré sur la figure 3 avec le modèle de connaissances 16 de la classe 12 artiste qui se décompose en un modèle 16A identique au modèle de connaissances 15 de la classe-mère 10 et une extension 16B spécifique à cette classe 12.
Pour reprendre l'exemple ci-dessus, un artiste de classe artiste est un être humain et possède donc une relation né le , mais il a de plus des caractéristiques particulières comme, par exemple, des relations a créé avec son oeuvre artistique.
Chaque modèle de connaissances de chaque classe possède également des patrons d'extraction 17, 18, 19, 20 ou, plus exactement, chaque relation de chaque modèle de connaissances possède au moins un patron d'extraction dont la structure et le rôle sont explicités ci-après.
On rappelle que dans le modèle de connaissances associé à une classe, on dispose d'un ensemble d'entités c; et de relations sémantiques ri entre ces classes. A chaque triplet T=(c;1,r;,ci2) correspond un ensemble de patrons d'extraction dans lesquels c11 ou ci2 est instancié par le focus et rj est instanciée.
Un patron d'extraction est alors une expression régulière qui, appliquée à une phrase en langage naturel, permet d'extraire un ou plusieurs termes de cette phrase par ancrage d'un ou plusieurs termes et/ou leur catégorie syntaxique, voire sémantique, définis explicitement. Le(s) terme(s) à extraire est(sont) identifié(s) par un marqueur spécifique.
En se référant de nouveau à la figure 2, le système automatique de création de bases de connaissances comporte donc en 6 cet ensemble de 5 classes, chaque classe étant associée à un modèle de connaissances et chaque modèle de connaissances à un ensemble de patrons d'extractions.
Les moyens de construction automatique 3 comportent donc également des moyens de sélection 7 aptes à sélectionner les classes d'appartenance du focus.
Cette sélection est effectuée au moyen d'outils de traitement symboliques et statistiques de la langue. Afin de découvrir à quelle classe de la typologie le focus appartient, un algorithme de recherche d'hyperonymes est appliqué. On appelle hyperonyme un mot représentant une catégorie générale d'objets ou de classes (terme générique) par rapport à un autre mot qui lui est subordonné car désignant un objet ou une classe particulière de cette catégorie (terme spécifique) et cela, dans le cadre d'une relation hiérarchique orientée du générique vers le spécifique.
Cet algorithme de recherche d'hyperonymes consiste dans un premier temps à utiliser un moteur de recherche, par exemple sur le Web, pour trouver des documents contenant le focus employé dans des expressions susceptibles de fournir des hyperonymes du focus. Puis, dans un second temps, chaque document est traité par un analyseur syntaxique et un ensemble de patrons d'extraction, conçus manuellement au préalable et stockés dans les moyens de stockage 6, est appliqué. On obtient ainsi un ensemble de candidats hyperonymes qui sont alors filtrés sur la base de critères statistiques. Les candidats retenus permettent ainsi d'affecter au focus l'une des classes de la typologie.
Les moyens de construction automatiques 3 comportent également des moyens 8 de chargement en mémoire du modèle de connaissances qui correspond à la classe identifiée. Pour mémoire, il est rappelé que ce modèle de connaissances comporte le(s) modèle(s) des classes-mères complété(s) par les caractéristiques / relations spécifiques de cette classe.
Ces moyens 8 de chargement chargent également les patrons d'extraction associés à ce modèle de connaissances afin de permettre l'instanciation du modèle de connaissances en une base de connaissances portant sur le focus.
Les moyens de construction automatiques 3 comportent alors des moyens d'application 9 des patrons d'extraction chargés sur le corpus de documents aptes à instancier les modèles de connaissances chargés pour générer la base de connaissances.
Autrement dit, ces moyens 9 permettent d'obtenir, pour chaque triplet T=(c;i,rr,ci2) du modèle de connaissances, un ensemble d'instances de Les moyens 5 de génération d'une réponse recherchent donc la réponse à la question posée dans la base de connaissances ainsi construite en utilisant des méthodes classiques de parcours de bases de connaissances telles que, par exemple, les moteurs d'inférence. La réponse étant trouvée, elle est alors générée pour être compréhensible par l'utilisateur. Un exemple d'une telle génération est donné dans le brevet 2 787 902.
Il peut cependant arriver des situations où les moyens 5 de génération ne trouvent pas de réponse pertinente. Le système adopte alors une attitude proactive. La proactivité consiste à poursuivre le dialogue avec l'utilisateur sur un sujet avant même que l'utilisateur ait posé une question sur ce sujet. Elle peut prendre plusieurs formes. Par exemple, elle peut prendre la forme d'une surinformation, par laquelle le système fournit à l'utilisateur des suggestions en lien avec les questions précédentes. La proactivité peut aussi prendre la forme d'une interaction conversationnelle, par laquelle le système poursuit le dialogue sur des sujets de conversation courants tels que le temps, la vie de l'utilisateur, etc. Le procédé utilise alors avantageusement la création dynamique de la base de connaissances en transmettant à l'utilisateur une réponse d'attente, et, en parallèle, en enrichissant sa base de connaissances par l'utilisation d'un corpus 4 de documents élargi, c'està-dire en relâchant les critères de sélection des documents destinés à être incorporés au corpus.
De plus, les moyens 5 de génération d'une réponse sont capables d'élargir la réponse en proposant des suggestions à l'utilisateur. Cette technique de surinformation est utilisable quand une information détectée dans la base de connaissances est utilisée pour compléter une réponse trouvée par une question supplémentaire.
Par exemple, à la question Quelle est la hauteur de la Tour Eiffel ? , les moyens 5 de génération donnent la réponse la Tour Eiffel mesure 300 mètres de haut et ajoutent la question Voulez-vous savoir de quoi elle est faite ? .
Dans cet exemple, en supposant que le système ne connaisse pas la réponse et lance donc un enrichissement de la base de connaissances comme indiqué ci-dessus, le texte généré par les moyens 5 pourrait être je ne connais pas la hauteur de la Tour Eiffel, mais je vais la rechercher et vous en informerai dès que j'ai trouvé la réponse. Pendant ce temps, voulez-vous savoir de quoi est faite la Tour Eiffel ? .
On conçoit que, pour que cette surinformation soit pertinente, il est nécessaire que le système utilise des techniques permettant de trier l'information pertinente de l'ensemble des informations contenues dans la base de connaissances.
Plusieurs techniques de sélection sont utilisées, seules ou en combinaison.
Une première catégorie de technique de sélection utilise des méthodes statistiques de détection, pour un terme donné, des termes qui lui sont fréquemment associés. Ces méthodes sont bien connues de l'état de l'art, par exemple, Contextual Word Similarity and Estimation from Sparse Data , I. Dagan, S. Marcus et S. Markovitch, Proceeding of ACL' 93, p. 164171. Pour un concept de la base de connaissances, on recherche donc les cooccurrences des termes permettant de verbaliser le concept. Pour cela, on sélectionne dans les ressources linguistiques du système de dialogue, les termes qui permettent de verbaliser le concept en question (par exemple, au concept oeuvre musicale , peut correspondre la verbalisation chanson ). Puis, les techniques classiques de recherche de cooccurrences sont appliquées pour le terme verbalisant le concept (dans l'exemple, chanson ) à un corpus de documents (par exemple, un échantillon de documents du Web), ce qui permet d'extraire un ou des termes cooccurrent(s) (dans notre exemple, spectacle ). Les concepts associés aux termes cooccurrents et présents dans la base de connaissances sont donc sélectionnés comme des éléments de surinformation pertinents pour le concept de départ.
D'autres méthodes de recherche de cooccurrences se limitent aux concepts et ressources linguistiques présents dans les bases du système de dialogue. Elles recherchent alors, dans celles-ci, pour le concept en question, les autres concepts qui sont le plus souvent en occurrence avec lui. Pour cela, elles sélectionnent dans les ressources linguistiques les termes verbalisant le concept de départ, puis calculent la probabilité de cooccurrence de chacune des ressources sélectionnées avec les ressources verbalisant les autres concepts disponibles. Des paires (concept-départ, concept-potentiellement-associé) sont ainsi créées.
Si plusieurs concepts associés sont détectés, le profil de l'utilisateur peut permettre de choisir le plus pertinent d'entre eux en fonction des préférences déclarées par l'utilisateur.
Dans une variante du système, il est prévu des règles logiques de déclenchement de concepts associés pour enrichir la réponse ou suggérer des extensions.
Par exemple, une règle peut indiquer: - si la question de l'utilisateur porte sur une information textuelle, et - si une information multimédia correspondant à cette information est disponible dans les bases, alors le système doit proposer à l'utilisateur cette information supplémentaire.
Une variante du système va maintenant être décrite en référence à la figure 4. Les objets portant des références identiques sur les figures 1, 2 et 4 correspondent aux mêmes objets ou à des objets ayant des fonctions identiques ou similaires.
Dans cette variante du système, ces moyens 5 de génération de la réponse comportent également des moyens 20 d'accès à des documents multimédias permettant ainsi d'enrichir la réponse proposée, ou de répondre directement à la question si celle-ci porte sur une ressource multimédia (par exemple, je voudrais écouter une chanson d'Elvis Presley ).
Ainsi, par exemple, si l'objet de la recherche est un chanteur, les moyens 5 de génération de la réponse pourront proposer à l'utilisateur d'écouter une ou des chansons de ce chanteur en rapport avec la recherche.
Ces moyens 20 d'accès peuvent correspondre à des données directement disponibles à partir de la base de connaissances, c'est-à-dire que les connaissances présentes dans la base de connaissances sont reliées explicitement à des données multimédias présentes dans une base de données annexe. Ils peuvent aussi correspondre à des moteurs de recherche dédiés, par exemple Google Images (marque déposée par Google Inc.) pour les ressources graphiques.
Le système d'aide ainsi décrit permet avantageusement d'améliorer la pertinence des réponses à une recherche d'informations à partir d'un ensemble 10 de données textuelles non structurées préalablement.
Claims (10)
1. Système de dialogue pour la recherche d'informations par un utilisateur dans un ensemble de ressources textuelles comportant: - des moyens (1) d'interface homme-machine aptes à permettre à l'utilisateur de formuler sa recherche au cours d'un dialogue entre l'utilisateur et le système, connectés à - des moyens (2) d'analyse des informations fournies par l'utilisateur via les moyens d'interface aptes à détecter le focus de la recherche et ses propriétés, caractérisé en ce qu'il comporte en outre: des moyens (3) de construction automatique d'une base de connaissances relative au focus de la recherche à partir de l'ensemble (4) des ressources textuelles, et - des moyens (5) de génération d'une réponse à la recherche à partir des connaissances structurées dans la base de connaissances connectés aux moyens (1) d'interface aptes à ,communiquer la réponse à l'utilisateur.
2. Système de dialogue selon la revendication 1, caractérisé en ce que les moyens (1) d'interface sont aptes à permettre à l'utilisateur de demander au système d'autres informations connexes au focus détecté et à fournir ces informations si elles sont présentes dans la base par l'intermédiaire des moyens (5) de génération ou à faire compléter par les moyens (3) de construction automatique la construction automatique de la base de connaissances si nécessaire pour pouvoir les fournir ensuite.
3. Système de dialogue selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens (5) de génération d'une réponse sont aptes à compléter proactivement la réponse par des suggestions extraites de la base de connaissances.
4. Système de dialogue selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens (2) d'analyse comportent des outils d'analyse linguistiques.
5. Système de dialogue selon l'une quelconque des revendications précédentes, caractérisé en ce que les moyens (3) de construction d'une base de connaissances comportent des moyens de construction d'un corpus de documents.
6. Procédé de dialogue pour la recherche d'informations par un utilisateur d'un système d'accès à un ensemble de ressources textuelles comportant les étapes de: - saisie par l'utilisateur d'une recherche d'informations sur des moyens 5 d'interface homme-machine, puis - analyse de la recherche saisie pour détecter le focus de celle-ci, puis, - construction automatique d'une base de connaissances relative au focus de la recherche à partir de l'ensemble des ressources textuelles, - génération d'une réponse à la recherche à partir des connaissances structurées dans la base de connaissances.
7. Procédé de dialogue selon la revendication 6, caractérisé en ce que si la réponse à la recherche n'est pas générable à partir des connaissances structurées dans la base de connaissances alors la procédé retourne à l'étape de construction automatique de la base de connaissances en modifiant les critères de construction de celle-ci.
8. Procédé de dialogue selon la revendication 6 ou 7, caractérisé en ce que un cycle de questions/réponses s'engage avec l'utilisateur à partir des connaissances structurées dans la base de connaissances.
9. Procédé de dialogue selon la revendication 6, 7 ou 8, caractérisé en ce que la construction automatique d'une base de connaissances comporte une étape de construction d'un corpus de documents par des outils de recherche d'informations.
10. Produit logiciel enregistré sur un support de mémorisation pour la mise en oeuvre par un ordinateur faisant office d'équipement dédié du système et 25 du procédé de dialogue selon les revendications 1 à 5, respectivement 6 à 9.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0412151A FR2878050B1 (fr) | 2004-11-16 | 2004-11-16 | Systeme et procede de dialogue pour la recherche d'informations dans un ensemble de ressources textuelles |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0412151A FR2878050B1 (fr) | 2004-11-16 | 2004-11-16 | Systeme et procede de dialogue pour la recherche d'informations dans un ensemble de ressources textuelles |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2878050A1 true FR2878050A1 (fr) | 2006-05-19 |
FR2878050B1 FR2878050B1 (fr) | 2008-04-18 |
Family
ID=34955387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0412151A Expired - Fee Related FR2878050B1 (fr) | 2004-11-16 | 2004-11-16 | Systeme et procede de dialogue pour la recherche d'informations dans un ensemble de ressources textuelles |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2878050B1 (fr) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263335B1 (en) * | 1996-02-09 | 2001-07-17 | Textwise Llc | Information extraction system and method using concept-relation-concept (CRC) triples |
-
2004
- 2004-11-16 FR FR0412151A patent/FR2878050B1/fr not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263335B1 (en) * | 1996-02-09 | 2001-07-17 | Textwise Llc | Information extraction system and method using concept-relation-concept (CRC) triples |
Non-Patent Citations (3)
Title |
---|
ATTARDI G ET AL: "The PISAB question answering system", TEXT RETRIEVAL CONFERENCE. PROCEEDINGS, 13 November 2000 (2000-11-13), pages 621 - 626, XP002246949 * |
GAI-TAI HUANG ET AL: "A system for chinese question answering", WEB INTELLIGENCE, 2003. WI 2003. PROCEEDINGS. IEEE/WIC INTERNATIONAL CONFERENCE ON OCT. 13-17, 2003, PISCATAWAY, NJ, USA,IEEE, 13 October 2003 (2003-10-13), pages 458 - 461, XP010663039, ISBN: 0-7695-1932-6 * |
PASCA M A ET AL ASSOCIATION FOR COMPUTING MACHINERY: "HIGH PERFORMANCE QUESTION/ANSWERING", SIGIR 2001. PROCEEDINGS OF THE 24TH. ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL. NEW ORLEANS, LA, SEPT. 9-13, 2001, ANNUAL INTERNATIONAL ACM-SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATI, vol. CONF. 24, 9 September 2001 (2001-09-09), pages 366 - 374, XP001111407, ISBN: 1-58113-331-6 * |
Also Published As
Publication number | Publication date |
---|---|
FR2878050B1 (fr) | 2008-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12007939B1 (en) | Method and apparatus for determining search result demographics | |
EP1364316A2 (fr) | Dispositif d'extraction d'informations d'un texte a base de connaissances | |
JP2005182280A (ja) | 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム | |
EP1880314A1 (fr) | Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique | |
WO2019217150A1 (fr) | Système de recherche pour assurer la recherche de solutions en texte libre à des problèmes | |
CN100583086C (zh) | 对话控制系统和对话控制方法 | |
CN115701612A (zh) | 用于检测主题发散数字视频的机器学习模型 | |
Arbaaeen et al. | Natural language processing based question answering techniques: A survey | |
Feldman | The answer machine | |
Moon et al. | A fuzzy-based multimedia content retrieval method using mood tags and their synonyms in social networks | |
EP4300326A1 (fr) | Procédé d'appariement d'un ensemble à évaluer et d'une liste de référence, moteur d'appariement et programme d'ordinateur correspondants | |
JP3996125B2 (ja) | 文章生成装置及び生成方法 | |
KR20210020337A (ko) | 도식을 이용한 아이디에이션 플랫폼 장치 및 방법 | |
EP3248111A1 (fr) | Procédé de lemmatisation, dispositif et programme correspondant | |
FR2939537A1 (fr) | Systeme de recherche d'information visuelle | |
FR2878050A1 (fr) | Systeme et procede de dialogue pour la recherche d'informations dans un ensemble de ressources textuelles | |
Ayaz et al. | Novel Mania: A semantic search engine for Urdu | |
Hattimare et al. | Maruna Bot: An extensible retrieval-focused framework for task-oriented dialogues | |
Litvin et al. | Development of natural language dialogue software systems | |
WO2006032735A1 (fr) | Systeme et procede automatique de recherche d'informations dans une base de connaissances | |
KR102649622B1 (ko) | 브랜드 평판 분석 서비스를 제공하기 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 | |
EP2812814A1 (fr) | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe | |
FR3096157A1 (fr) | procédé d’indexation multidimensionnelle de contenus textuels | |
WO2006035144A2 (fr) | Systeme et procede de construction automatique de bases de connaissance | |
WO2007088254A1 (fr) | Systeme d'information structure, relationnel et incremental |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20130731 |