WO2006013233A1 - Method and device for automatic processing of a language - Google Patents

Method and device for automatic processing of a language Download PDF

Info

Publication number
WO2006013233A1
WO2006013233A1 PCT/FR2004/001692 FR2004001692W WO2006013233A1 WO 2006013233 A1 WO2006013233 A1 WO 2006013233A1 FR 2004001692 W FR2004001692 W FR 2004001692W WO 2006013233 A1 WO2006013233 A1 WO 2006013233A1
Authority
WO
WIPO (PCT)
Prior art keywords
syntactic
node
nodes
concepts
text
Prior art date
Application number
PCT/FR2004/001692
Other languages
French (fr)
Inventor
Johannes Heinecke
Alain Cozannet
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to PCT/FR2004/001692 priority Critical patent/WO2006013233A1/en
Publication of WO2006013233A1 publication Critical patent/WO2006013233A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Definitions

  • the invention relates to the parsing of a language within the framework of the TALN (Automatic Processing of Natural Language).
  • TALN Automatic Processing of Natural Language
  • the automatic processing of a language is conventionally used to allow a computer to understand texts or requests formulated by users either in a written way, or vocally, in order to launch different services.
  • the automatic processing of written or vocal textual information conventionally uses a deep syntactic analysis followed by a generation of a semantic representation of the content of the text. Such a representation can then be the basis of an automatic translation into another language, the elaboration of a summary or an automatic classification of the text, etc.
  • lexicons multiply lexical entries, according to more or less relevant criteria of meaning in order to take into account as many possible meanings as possible.
  • the object of the invention is to provide a method and a device for analyzing a language making it possible to attribute to an utterance the meaning or meanings that it conveys, in the context in which it is located.
  • the invention proposes, according to a first aspect, a method of automatically processing a language by parsing a written text or utterance and semantic analysis of said text to deduce the meaning.
  • simultaneous parsing and semantic analysis are carried out simultaneously.
  • ontological rules are thus used during the linguistic analysis of a text in order to verify or to falsify a syntactic relation immediately after its creation, that is to say after the application of morpho-syntactic rules.
  • the meanings of linguistic structures that contradict an ontological model can then be deleted.
  • a syntactic tree is created consisting of a set of nodes each formed of a word or a phrase and each associated with a syntactic category and a dependency function connecting two nodes of said tree.
  • the text is semantically analyzed to validate the elaboration of a branch of the tree between two nodes linked by a syntactic function.
  • an ontology is used which defines the concepts associated with each node and the roles linking these concepts, and one validates a branch of the syntax tree linking two nodes when a role allows a link between the concepts associated with the nodes.
  • an ontological representation of the text is developed by associating with each node of each pair of nodes linked by a
  • a syntactic function is a set of variables comprising a concept translating the meaning of the node and an ontological formula linking said nodes, so as to elaborate the set of ontological formulas or representations linking the nodes of the text.
  • automatic language processing comprises the steps of: associating, at each node, at least one concept translating the meaning of the node by interrogating a first database;
  • the concept of the main node is replaced by the combination of the concepts of the linked nodes.
  • the subject of the invention is also a device for automatically processing a language for implementing a method as defined above, comprising a processing module associated with a first database in which an ontology is stored.
  • this device further comprises a morphological analyzer associated with a third database in which a lexicon is stored.
  • FIG. 1 is a block diagram of a device for automatically processing a language according to the invention
  • Figures 2 to 5 illustrate the development of a formula or ontological relationship between nodes
  • FIG. 6 is a flowchart illustrating the main phases of the method according to the invention.
  • Fig. 7 is a diagram illustrating an example of an ontology.
  • FIGS. 8 to 11 are diagrams illustrating an example of elaboration of an ontological representation of a text.
  • FIG. 1 shows a block diagram of a device for automatic processing of a language according to the invention, designated by the general reference numeral 10.
  • automatic processing of a language is meant, in the context of the present description, the syntactic and semantic analysis of a sentence or a text.
  • This device 10 is intended to develop, from a text to be analyzed, written or stated, a syntax tree using ontological knowledge.
  • the device 10 essentially comprises a morphological analyzer 12 receiving, as input, a TX text to be analyzed and a processing module 14 ensuring the actual analysis of the nodes, that is to say the words or phrases of the text TX to elaborate the syntax tree.
  • the morphological analyzer 12 is associated with a database in which a lexicon is stored in order to carry out a preliminary analysis of the TX text in order to perform a lexical search, a search of the forms of the nodes, and an identification of the fixed af
  • the processing module 14 is, in turn, connected to a first ON database in which are stored concepts and ontological relations which define the ontology, and to a second database RS in which are stored syntax rules for associating each node with a syntactic category and a syntactic dependency function between two nodes.
  • the processing implemented by the processing module is constituted by a conventional type of analysis, within the reach of a person skilled in the art. It will not be described in detail later.
  • each node is associated with a quintuple Q formed by a set of attributes I 1 , C, I 2 , R, and F, such that each five quintuple Q is represented by the formula:
  • I 2 is another identifier associated with the concept C in the attributes F and R, if they are indicated; - R designates a role, ie a link or notion of access to the concept C of the head node; and
  • - F is an ontological formula linked to the node.
  • a concept defines the meaning attached to a node. For example, as described later with reference to an exemplary implementation of the invention, a "go" node may be attached to the concept
  • a role defines access to a leading node.
  • an "airplane" dependent node may be linked to a “flying" head node by the "transport means” role.
  • the roles between the nodes are deduced from the ontology. For example, if a node A is a category of prepositions and B a nominal group, the role is either named from the lexical information on the preposition deduced from the parsing, or developed from the concept related to the dependent node.
  • Figures 2 to 5 illustrate different scenarios.
  • the continuous lines correspond to known elements, the discontinuous traits corresponding to elements or notions to discover.
  • the nodes and the roles linking these nodes are constituted only by continuous lines, it is a question of validating a hypothesis.
  • ontology modeling in the ON database is performed in such a way as to satisfy these conditions of use.
  • This modeling deals in particular with the definition of roles in order to specify whether they form a specific entity, constrained by domains and co-domains and also to specify whether to create a new instance of a role when this role is specified within a concept.
  • the knowledge associated with words whose meaning is associated with roles which is the case of prepositions, can be written as a list of pairs of pairs "name of the role-co-domain" or possibly be determinable. If multiple couples are allowed, both the role name and the subdomain must be written in the ontological object, which adds an interpretive rule to the object. Indeed, if the concept and role are determined, then the concept must be interpreted as the co-domain of the determined role.
  • the ontological analysis implemented by the processing module 14 during the parsing consists in particular of finding a role from two end nodes, under the constraint expressed by the introduced syntactic link, or to check the compatibility concepts of head and dependent nodes and a corresponding role with the ontological rules.
  • This method begins with a first step 16 during which the morphological analyzer 12 proceeds to a reading of the database LX and during which the processing module 14 reads the databases RS and ON.
  • the morphological analyzer 12 proceeds to the morphological analysis of the TX text. It is essentially to carry out a lexical search, to identify the forms, affixes, ...
  • the processing module 14 proceeds to attach one or more concepts C or R roles every word in the sentence.
  • the RS syntax rules are applied to the sentence to establish a syntactic relationship between two words or nodes.
  • step 24 If there is no other concept combination (step 24), and no concept combination is validated, the syntactic relationship is rejected (step 26). The procedure then returns to the previous phase. On the contrary, if there are other concept combinations, we consider a concept or the partial ontological formula of the main node and the secondary node (step 28). In the next step 30, it is checked whether the syntactic relation is validated by the ontology provided by using the concepts C of the words or ontological representations R already constructed of the nodes.
  • step 32 it is determined whether the main node still has a simple concept or role. If this is the case, we replace this concept by the combination of the concept of the main node with the concept, the role or the partial ontological formula of the dependent node (step 34). In the opposite case, that is to say if the main node is already associated with a partial ontological formula, we add the concept or partial ontological formula of the dependent node to the partial ontological formula of the main node (step 36).
  • step 38 it is checked whether there are other non validated syntactic relationships so as to continue processing with other syntactic-ontological rules. If there is no other rule that applies, then the sentence can not be further analyzed. The representation of the sentence is then delivered (step 40).
  • the morphological analyzer 12 has previously provided the following information:
  • the TX text is processed by the processing module 14.
  • the RS database provides a set of syntactical rules while the ON database provides the concepts, roles, and ontological relationships of the concepts for each node.
  • FIG. 7 An example of ontology usable for the treatment of the sentence in French "I would like to go from Paris to Madrid tomorrow".
  • the ontology represented in this figure has been extremely simplified, for the sake of clarity.
  • dotted relationships between two C concepts indicate that concepts are missing between two represented concepts.
  • a dependent concept can be related to a head concept when this dependent concept specifies a generic notion associated with the head concept. They can also be linked by a role R.
  • this concept of head can be related to the concepts “travel by car”, “journey by train”, “fly”, to the extent that these concepts constitute precisions of the concept generic "displacement”.
  • the concepts "place of arrival” and “place of departure” can be related to the concept of "displacement” by the roles “arrive from” and “share from”, respectively.
  • the ontological representation is generated, the syntactic relationships that can not be validated by the ontology being immediately deleted. For example, while parsing would allow associating a person behind the preposition "de” to indicate possession, a syntactic branch thus created would be immediately deleted as no corresponding path exists in the ontology that provides for that the concept of "displacement” can only be associated with "place of departure” or "place of arrival” concepts by roles R “arrives from” and "part of” respectively.
  • the syntactic analysis defines that the syntactic relation "subject” links the node “I” (secondary node) and the node “would” (head node).
  • the concepts C associated with these nodes are respectively “speaker” and "will”.
  • the ontological validation is positive (step 22), that is to say that one can combine the two concepts to associate with the node “would want” a partial ontological formula which contains the ontological formulas "will (w)", " speaker (s) "and an additional role f (w, s) indicating who is the subject of the verb" want ".
  • Figure 11 shows the result of the entire process.
  • the role “belongs” is not validated because the concept “go” and its more generic concepts do not have such a role in RS ontology.
  • the syntactic relation between the modal verb "would” and the adverb "tomorrow” is also suppressed because the ontology has no role linking the concept "will” and the concept “tomorrow” or more generic concepts than “tomorrow”. ".

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The invention concerns a method for automatically processing a language which consists in a syntactic analysis of a written text and a semantic analysis of the text to derive its meaning. The syntactic and semantic analyses are performed simultaneously.

Description

Procédé et dispositif de traitement automatique d'un langage Method and device for automatically processing a language
L'invention concerne l' analyse syntaxique d'un langage dans le cadre du TALN (Traitement Automatique de Langue Naturelle). Le traitement automatique d'un langage est classiquement utilisé pour permettre à un ordinateur de comprendre des textes ou des requêtes formulées par des utilisateurs soit de manière écrite, soit vocalement, afin de lancer différents services.The invention relates to the parsing of a language within the framework of the TALN (Automatic Processing of Natural Language). The automatic processing of a language is conventionally used to allow a computer to understand texts or requests formulated by users either in a written way, or vocally, in order to launch different services.
Une telle analyse, qui permet la compréhension d'une information textuelle ou vocale sont généralement nécessaires afin d' abréger des documents longs sans perdre des informations importantes, de reformuler ou paraphraser un texte, de traduire automatiquement un texte ou de chercher des réponses adéquates à une question précise, comme c' est par exemple le cas dans les moteurs de recherche.Such an analysis, which allows the comprehension of textual or vocal information, is generally necessary in order to shorten long documents without losing important information, to rephrase or paraphrase a text, to automatically translate a text or to search for adequate answers to a specific question, as is the case, for example, in search engines.
Le traitement automatique d'une information textuelle écrite ou vocale utilise classiquement une analyse syntaxique profonde suivie d'une génération d'une représentation sémantique du contenu du texte. Une telle représentation peut être alors la base d' une traduction automatique dans une autre langue, de l' élaboration d'un résumé ou d'une classification automatique du texte, ...The automatic processing of written or vocal textual information conventionally uses a deep syntactic analysis followed by a generation of a semantic representation of the content of the text. Such a representation can then be the basis of an automatic translation into another language, the elaboration of a summary or an automatic classification of the text, etc.
Dans l' état de la technique, au cours de l' analyse syntaxique du texte, aucune information sémantique n' est accessible autre que des informations de sémantique lexicale liées au sens des mots du texte. En effet, les outils de traduction automatique, autres que ceux qui sont basés sur l'utilisation de théories statistiques, sont basés sur une analyse syntaxique pour en déduire la structure syntaxique du texte, suivie d' une analyse sémantique ou ontologique afin de déterminer la structure sémantique du texte. Il est alors procédé à l' élaboration d'une représentation pivot indépendante de la langue source et de la langue cible. A partir de cette représentation, il est procédé à l' élaboration d'une représentation sémantique en tenant compte de la langue cible, puis d' une structure syntaxique afin de générer les formes lexicales nécessaires du texte traduit.In the state of the art, during the parsing of the text, no semantic information is accessible other than lexical semantic information related to the meaning of the words of the text. Indeed, machine translation tools, other than those based on the use of statistical theories, are based on a syntactic analysis to deduce the syntactic structure of the text, followed by a semantic or ontological analysis to determine the semantic structure of the text. It is then proceeded to the development of a pivot representation independent of the source language and the target language. From this representation, a semantic representation is developed taking into account the target language, then a syntactic structure to generate the necessary lexical forms of the translated text.
Les informations de la sémantique lexicale ne suffisent jamais à éviter la génération d' arbres syntaxiques sémantiquement incorrects. En effet, la présence d'homonymes dans un texte analysé engendre l'élaboration d' arbres syntaxiques en un nombre correspondant au nombre de significations de chaque terme, alors qu' un seul de ces arbres correspond à la signification exacte du texte. Ainsi, l'utilisation d'un lexique de très grande capacité ou le souhait de couvrir un domaine très large ou ambigu risque d' engendrer un très grand nombre de résultats incohérents.The information in lexical semantics is never sufficient to avoid the generation of semantically incorrect syntactic trees. Indeed, the presence of homonyms in an analyzed text generates the development of syntactic trees in a number corresponding to the number of meanings of each term, whereas only one of these trees corresponds to the exact meaning of the text. Thus, the use of a lexicon of very high capacity or the desire to cover a very wide or ambiguous domain risks generating a very large number of inconsistent results.
Ainsi, les techniques de traitement automatique de langage selon lesquelles on procède à une analyse syntaxique suivie par une construction sémantique afin de générer une représentation ontologiquement correcte du contenu d'un texte présentent un certain nombre d' inconvénients.Thus, the automatic language processing techniques according to which a syntax analysis followed by a semantic construction is carried out in order to generate an ontologically correct representation of the content of a text have a certain number of disadvantages.
Tout d' abord, la recherche d'une exhaustivité conduit à conserver des possibilités de faible représentativité. L'utilisation de méthodes de pondération ou de lexiques spécialisés permet de réduire cet inconvénient, mais sans s' attaquer à leurs causes.First, the search for completeness leads to the preservation of possibilities of low representativeness. The use of weighting methods or specialized lexicons makes it possible to reduce this disadvantage, but without addressing their causes.
Par ailleurs, les lexiques démultiplient les entrées lexicales, en fonction de critères de signification plus ou moins pertinents afin de prendre en compte le plus de significations possibles.Moreover, lexicons multiply lexical entries, according to more or less relevant criteria of meaning in order to take into account as many possible meanings as possible.
Au vu de ce qui précède, le but de l'invention est de fournir un procédé et un dispositif d' analyse d'un langage permettant d' attribuer à un énoncé le ou les sens qu'il véhicule, dans le contexte dans lequel il se situe.In view of the foregoing, the object of the invention is to provide a method and a device for analyzing a language making it possible to attribute to an utterance the meaning or meanings that it conveys, in the context in which it is located.
Dans ce but, l' invention propose, selon un premier aspect, un procédé de traitement automatique d'un langage par analyse syntaxique d'un texte écrit ou énoncé et analyse sémantique dudit texte pour en déduire le sens. Selon l'invention, on procède simultanément à l' analyse syntaxique et à l' analyse sémantique.For this purpose, the invention proposes, according to a first aspect, a method of automatically processing a language by parsing a written text or utterance and semantic analysis of said text to deduce the meaning. According to the invention, simultaneous parsing and semantic analysis are carried out simultaneously.
L' analyse syntaxique et l' analyse sémantique simultanées permettent de valider une analyse syntaxique incohérente, c'est-à-dire asémantique ou en conflit avec des règles ontologiques de base. Ces règles ontologiques sont ainsi utilisées au cours de l' analyse linguistique d' un texte afin de vérifier ou de falsifier une relation syntaxique immédiatement après sa création, c' est-à-dire après l' application de règles morpho-syntaxiques. Les sens de structures linguistiques qui contredisent un modèle ontologique peuvent alors être supprimées.Simultaneous parsing and semantic analysis make it possible to validate an inconsistent syntactic analysis, that is to say, asemantic or in conflict with basic ontological rules. These ontological rules are thus used during the linguistic analysis of a text in order to verify or to falsify a syntactic relation immediately after its creation, that is to say after the application of morpho-syntactic rules. The meanings of linguistic structures that contradict an ontological model can then be deleted.
Grâce à l' élimination des relations syntaxiques qui n' ont pu être vérifiées ontologiquement, il est possible de baisser les ambiguïtés très tôt au cours d'un traitement de texte. Cette diminution des données va en conséquence fortement augmenter la vitesse du traitement des textes.By eliminating syntactic relationships that could not be verified ontologically, it is possible to lower ambiguities very early in a word processor. This decrease in data will consequently greatly increase the speed of text processing.
Selon une autre caractéristique du procédé selon l' invention, au cours de l' analyse syntaxique, on élabore un arbre syntaxique constitué d'un ensemble de nœuds formé chacun d'un mot ou d'une locution et associés chacun à une catégorie syntaxique et à une fonction syntaxique de dépendance reliant deux nœuds dudit arbre. En outre, au cours de l' élaboration de l' arbre syntaxique, on procède à l' analyse sémantique du texte pour valider l' élaboration d' une branche de l' arbre entre deux nœuds liés par une fonction syntaxique. Selon une autre caractéristique du procédé, au cours de l' analyse sémantique, on utilise une ontologie qui définit les concepts associés à chaque nœud et des rôles liant ces concepts, et l'on valide une branche de l' arbre syntaxique liant deux nœuds lorsqu'un rôle autorise une liaison entre les concepts associés aux nœuds. Dans un mode de mise en œuvre, au cours de l' analyse sémantique, on élabore une représentation ontologique du texte en associant à chaque nœud de chaque paire de nœuds liés par une fonction syntaxique un ensemble de variables comprenant un concept traduisant la signification du nœud et une formule ontologique liant lesdits nœuds, de manière à élaborer l' ensemble des formules ou représentations ontologiques liant les nœuds du texte. On peut en outre combiner les formules ontologiques entre les nœuds liés par une fonction syntaxique de manière à élaborer une formule ontologique globale pour le texte.According to another characteristic of the method according to the invention, during the parsing, a syntactic tree is created consisting of a set of nodes each formed of a word or a phrase and each associated with a syntactic category and a dependency function connecting two nodes of said tree. In addition, during the development of the syntax tree, the text is semantically analyzed to validate the elaboration of a branch of the tree between two nodes linked by a syntactic function. According to another characteristic of the method, during the semantic analysis, an ontology is used which defines the concepts associated with each node and the roles linking these concepts, and one validates a branch of the syntax tree linking two nodes when a role allows a link between the concepts associated with the nodes. In an implementation mode, during the semantic analysis, an ontological representation of the text is developed by associating with each node of each pair of nodes linked by a A syntactic function is a set of variables comprising a concept translating the meaning of the node and an ontological formula linking said nodes, so as to elaborate the set of ontological formulas or representations linking the nodes of the text. We can also combine the ontological formulas between the nodes linked by a syntactic function so as to elaborate a global ontological formula for the text.
Dans un mode de mise en œuvre particulier, le traitement automatique du langage comprend les étapes consistant à : - associer, à chaque nœud, au moins un concept traduisant le sens du nœud par interrogation d'une première base de données ;In a particular embodiment, automatic language processing comprises the steps of: associating, at each node, at least one concept translating the meaning of the node by interrogating a first database;
- interroger une deuxième base de données dans laquelle sont stockées des règles syntaxiques pour établir une relation syntaxique liant un nœud principal et un nœud secondaire ; etinterrogating a second database in which syntactic rules are stored for establishing a syntactic relation linking a main node and a secondary node; and
- tenter de combiner les concepts du nœud principal et du nœud secondaire, la relation syntaxique étant validée si l'étape au cours de laquelle on tente de combiner les concepts a abouti.- try to combine the concepts of the main node and the secondary node, the syntactic relationship being validated if the step in which one tries to combine the concepts succeeded.
De préférence, après validation de la relation syntaxique, on remplace le concept du nœud principal par la combinaison des concepts des nœuds liés.Preferably, after validation of the syntactic relationship, the concept of the main node is replaced by the combination of the concepts of the linked nodes.
De même, après validation de la relation syntaxique, on peut rajouter le concept du nœud secondaire à une formule ontologique du nœud principal.Similarly, after validation of the syntactic relationship, we can add the concept of the secondary node to an ontological formula of the main node.
Selon encore une autre caractéristique du procédé selon l' invention, on prévoit en outre une étape d' analyse morphologique de chaque nœud du texte pour en déterminer sa forme en consultant une troisième base de données dans laquelle est stocké un lexique des nœuds. L' invention a également pour objet un dispositif de traitement automatique d'un langage pour la mise en œuvre d'un procédé tel que défini ci-dessus, comprenant un module de traitement associé à une première base de données dans laquelle est stockée une ontologie qui définit des concepts associés à chaque nœud et des rôles liant ces concepts et une deuxième base de données (RS) dans laquelle sont stockées des règles syntaxiques, le module de traitement comprenant des moyens pour élaborer un arbre syntaxique comprenant un ensemble de branches liants deux nœuds formés chacun d' un mot ou d'une locution et associés chacun à une catégorie syntaxique et à une fonction syntaxique de dépendance reliant les deux nœuds de la branche qui sont extraites de la deuxième base de données, chaque branche de l' arbre étant validée lorsqu'un rôle autorise une liaison entre les concepts associés aux nœuds. Selon une autre caractéristique de l'invention, ce dispositif comporte en outre un analyseur morphologique associé à une troisième base de données dans laquelle est stocké un lexique.According to yet another characteristic of the method according to the invention, provision is furthermore made for a step of morphological analysis of each node of the text to determine its shape by consulting a third database in which a lexicon of the nodes is stored. The subject of the invention is also a device for automatically processing a language for implementing a method as defined above, comprising a processing module associated with a first database in which an ontology is stored. which defines concepts associated with each node and roles linking these concepts and a second database (RS) in which syntactic rules are stored, the processing module comprising means for constructing a syntax tree comprising a set of binding branches two nodes each formed of a word or phrase and each associated with a syntactic category and a syntactic function of dependency connecting the two nodes of the branch that are extracted from the second database, each branch of the tree being validated when a role allows a link between the concepts associated with the nodes. According to another characteristic of the invention, this device further comprises a morphological analyzer associated with a third database in which a lexicon is stored.
D' autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés sur lesquels :Other objects, features and advantages of the invention will become apparent on reading the following description, given solely by way of nonlimiting example, and with reference to the appended drawings in which:
- la figure 1 est un schéma synoptique d'un dispositif de traitement automatique d'un langage conforme à l'invention ; - les figures 2 à 5 illustrent l'élaboration d'une formule ou relation ontologique entre des nœuds ;FIG. 1 is a block diagram of a device for automatically processing a language according to the invention; - Figures 2 to 5 illustrate the development of a formula or ontological relationship between nodes;
- la figure 6 est un organigramme illustrant les principales phases du procédé selon l'invention ; la figure 7 est un schéma illustrant un exemple d'une ontologie ; etFIG. 6 is a flowchart illustrating the main phases of the method according to the invention; Fig. 7 is a diagram illustrating an example of an ontology; and
- les figures 8 à 11 sont des schémas illustrant un exemple d'élaboration d'une représentation ontologique d'un texte. Sur la figure 1, on a représenté un schéma synoptique d'un dispositif de traitement automatique d' un langage conforme à l'invention, désigné par la référence numérique générale 10. Par traitement automatique d'un langage, on entend, dans le cadre de la présente description, l' analyse syntaxique et sémantique d'une phrase ou d'un texte.FIGS. 8 to 11 are diagrams illustrating an example of elaboration of an ontological representation of a text. FIG. 1 shows a block diagram of a device for automatic processing of a language according to the invention, designated by the general reference numeral 10. By automatic processing of a language, is meant, in the context of the present description, the syntactic and semantic analysis of a sentence or a text.
Ce dispositif 10 est destiné à élaborer, à partir d'un texte à analyser, écrit ou énoncé, un arbre syntaxique utilisant des connaissances ontologiques. Comme on le voit sur cette figure, le dispositif 10 comporte essentiellement un analyseur morphologique 12 recevant, en entrée, un texte TX à analyser et un module de traitement 14 assurant l' analyse proprement dite des nœuds, c' est-à-dire des mots ou locutions du texte TX afin d'élaborer l' arbre syntaxique. L' analyseur morphologique 12 est associé à une base de données dans laquelle est stocké un lexique pour procéder à une analyse préalable du texte TX afin de réaliser à une recherche lexicale, à une recherche des formes des nœuds, à une identification des af fixes,... Le module de traitement 14 est, quant à lui, raccordé à une première base de données ON dans laquelle sont stockées concepts et des relations ontologiques qui définissent l' ontologie, et à une deuxième base de données RS dans laquelle sont stockées des règles syntaxiques permettant d' associer à chaque nœud une catégorie syntaxique et une fonction syntaxique de dépendance entre deux nœuds.This device 10 is intended to develop, from a text to be analyzed, written or stated, a syntax tree using ontological knowledge. As can be seen in this figure, the device 10 essentially comprises a morphological analyzer 12 receiving, as input, a TX text to be analyzed and a processing module 14 ensuring the actual analysis of the nodes, that is to say the words or phrases of the text TX to elaborate the syntax tree. The morphological analyzer 12 is associated with a database in which a lexicon is stored in order to carry out a preliminary analysis of the TX text in order to perform a lexical search, a search of the forms of the nodes, and an identification of the fixed af The processing module 14 is, in turn, connected to a first ON database in which are stored concepts and ontological relations which define the ontology, and to a second database RS in which are stored syntax rules for associating each node with a syntactic category and a syntactic dependency function between two nodes.
En ce qui concerne l' analyse syntaxique du texte, le traitement mis en œuvre par le module de traitement est constitué par une analyse de type classique, à la portée d' un homme du métier. Elle ne sera donc pas décrite en détail par la suite.With regard to the syntax analysis of the text, the processing implemented by the processing module is constituted by a conventional type of analysis, within the reach of a person skilled in the art. It will not be described in detail later.
On notera cependant qu'elle consiste à interroger la base de données RS afin d' établir une relation syntaxique entre les nœuds du texte, deux à deux, les règles ontologiques étant alors appliquées pour valider chaque branche d'une structure arborescente ainsi créée.It should be noted, however, that it consists of interrogating the database RS in order to establish a syntactic relationship between the nodes of the text, two by two, the ontological rules then being applied to validate each branch of a tree structure thus created.
Il s' agit alors de valider une hypothèse H consistant en une dépendance syntaxique entre deux nœuds constituée par une fonction syntaxique orientée liant un nœud de tête et un nœud dépendant.It is then a question of validating a hypothesis H consisting of a syntactic dependence between two nodes consisting of a directed syntactic function linking a head node and a dependent node.
Pour ce faire, à chaque nœud est associé un quintuple Q formé par un ensemble d' attributs I1, C, I2, R, et F, tel que chaque quintuple Q soit représenté par la formule :To do this, each node is associated with a quintuple Q formed by a set of attributes I 1 , C, I 2 , R, and F, such that each five quintuple Q is represented by the formula:
Q(I1, C, I2, R, F) Dans laquelle :Q (I 1 , C, I 2 , R, F) in which:
- I1 désigne un identifiant du quintuple ;- I 1 designates an identifier of the quintuple;
C est un concept lié au nœud de tête ;It is a concept related to the head node;
I2 est un autre identifiant associé au concept C dans les attributs F et R, s'ils sont renseignés ; - R désigne un rôle, c' est-à-dire un lien ou une notion d' accès au concept C du nœud de tête ; etI 2 is another identifier associated with the concept C in the attributes F and R, if they are indicated; - R designates a role, ie a link or notion of access to the concept C of the head node; and
- F est une formule ontologique liée au nœud.- F is an ontological formula linked to the node.
Un concept définit le sens attaché à un nœud. Par exemple, comme décrit par la suite en référence à un exemple de mise en œuvre de l'invention, à un nœud « aller » peut être attaché le conceptA concept defines the meaning attached to a node. For example, as described later with reference to an exemplary implementation of the invention, a "go" node may be attached to the concept
« déplacement » ou « déplacement en avion », en fonction du pas du traitement mis en œuvre."Displacement" or "flight", depending on the pace of treatment.
Un rôle définit l' accès à un nœud de tête. Ainsi, par exemple un nœud dépendant « avion » peut être lié à un nœud de tête « voler » par le rôle « moyen de transport ».A role defines access to a leading node. Thus, for example, an "airplane" dependent node may be linked to a "flying" head node by the "transport means" role.
Les rôles entre les nœuds sont déduits de l' ontologie. Par exemple, si un nœud A est une catégorie de prépositions et B un groupe nominal, le rôle est soit nommé à partir des informations lexicales sur la préposition déduite de l' analyse syntaxique, soit élaboré à partir du concept lié au nœud dépendant.The roles between the nodes are deduced from the ontology. For example, if a node A is a category of prepositions and B a nominal group, the role is either named from the lexical information on the preposition deduced from the parsing, or developed from the concept related to the dependent node.
Les figures 2 à 5 illustrent différents cas de figure. Sur ces figures, les traits continus correspondent à des éléments connus, les traits discontinus correspondant à des élément ou notions à découvrir. Lorsque les nœuds et les rôles liant ces nœuds ne sont constitués que par des traits continus, il s' agit de valider une hypothèse.Figures 2 to 5 illustrate different scenarios. In these figures, the continuous lines correspond to known elements, the discontinuous traits corresponding to elements or notions to discover. When the nodes and the roles linking these nodes are constituted only by continuous lines, it is a question of validating a hypothesis.
Sur les figures 2 à 5, les cercles symbolisent des concepts ou des formules ontologiques, les flèches représentant un rôle ayant le concept comme cible. Ces quatre cas de figure résument la communication avec les moyens d' élaboration de l' arbre syntaxique. Il convient de noter que, dans certains cas, l'orientation du rôle n' est pas connue. Par exemple, sur la figure 2, il convient de chercher à relier deux concepts C par un rôle R à découvrir. En référence à la figure 3, il peut également s' agir de relier deux concepts par un rôle connu et donc de valider une hypothèse. Il peut encore s' agir d' attribuer un rôle R à un concept connu (figure 4) ou, comme visible sur la figure 5, de chercher pour deux ensembles rôle-concept connus, un concept acceptant ces rôles et des co-domaines ou cibles (« range » en langue anglaise) compatibles avec les concepts.In Figures 2 to 5, the circles symbolize ontological concepts or formulas, the arrows representing a role having the concept as a target. These four cases summarize the communication with the means of elaboration of the syntax tree. It should be noted that in some cases the role orientation is not known. For example, in Figure 2, we should try to connect two concepts C by a role R to discover. With reference to FIG. 3, it may also be to link two concepts by a known role and thus to validate a hypothesis. It may still be necessary to assign a role R to a known concept (FIG. 4) or, as shown in FIG. 5, to search for two known role-concept sets, a concept accepting these roles and co-domains or targets ("range" in English) compatible with the concepts.
On notera que la modélisation de l' ontologie dans la base ON est réalisée de manière à satisfaire ces conditions d'usage. Cette modélisation porte en particulier sur la définition des rôles afin de spécifier notamment s'ils forment une entité spécifique, contrainte par domaines et co-domaines et également afin de spécifier si l' on doit créer une nouvelle instance d'un rôle lorsque ce rôle est spécifié au sein d'un concept. Du point de vue lexical, la connaissance associée à des mots dont le sens est associé à des rôles, ce qui est le cas des prépositions, peut s' écrire comme une liste de couples de paires « nom du rôle-co- domaine » ou éventuellement être déterminable. Si plusieurs couples sont permis, il faut pouvoir inscrire à la fois le nom du rôle et le sous- domaine dans l' objet ontologique, ce qui ajoute une règle d'interprétation sur l' objet. En effet, si le concept et le rôle sont déterminés, alors le concept doit être interprété comme le co-domaine du rôle déterminé.It should be noted that ontology modeling in the ON database is performed in such a way as to satisfy these conditions of use. This modeling deals in particular with the definition of roles in order to specify whether they form a specific entity, constrained by domains and co-domains and also to specify whether to create a new instance of a role when this role is specified within a concept. From the lexical point of view, the knowledge associated with words whose meaning is associated with roles, which is the case of prepositions, can be written as a list of pairs of pairs "name of the role-co-domain" or possibly be determinable. If multiple couples are allowed, both the role name and the subdomain must be written in the ontological object, which adds an interpretive rule to the object. Indeed, if the concept and role are determined, then the concept must be interpreted as the co-domain of the determined role.
L' analyse ontologique mise en œuvre par le module de traitement 14 lors de l' analyse syntaxique consiste notamment soit à retrouver un rôle à partir de deux nœuds d' extrémités, sous la contrainte exprimée par le lien syntaxique introduit, soit à vérifier la compatibilité des concepts de nœuds de tête et dépendant et d'un rôle correspondant avec les règles ontologiques.The ontological analysis implemented by the processing module 14 during the parsing consists in particular of finding a role from two end nodes, under the constraint expressed by the introduced syntactic link, or to check the compatibility concepts of head and dependent nodes and a corresponding role with the ontological rules.
On va maintenant décrire en référence à la figure 6, un exemple de mise en œuvre d'un procédé selon l'invention.An example embodiment of a method according to the invention will now be described with reference to FIG.
Ce procédé débute par une première étape 16 au cours de laquelle l' analyseur morphologique 12 procède à une lecture de la base de données LX et au cours de laquelle le module de traitement 14 lit les bases de données RS et ON. Lors de l'étape 18 suivante, l' analyseur morphologique 12 procède à l' analyse morphologique du texte TX. Il s' agit essentiellement d' effectuer une recherche lexicale, d' identifier les formes, les affixes, ... Au cours de cette étape 18, le module de traitement 14 procède au rattachement d'un ou de plusieurs concepts C ou rôles R à chaque mot de la phrase.This method begins with a first step 16 during which the morphological analyzer 12 proceeds to a reading of the database LX and during which the processing module 14 reads the databases RS and ON. In the next step 18, the morphological analyzer 12 proceeds to the morphological analysis of the TX text. It is essentially to carry out a lexical search, to identify the forms, affixes, ... During this step 18, the processing module 14 proceeds to attach one or more concepts C or R roles every word in the sentence.
Lors de l' étape 20 suivante, les règles syntaxiques RS sont appliquées à la phrase afin d' établir une relation syntaxique entre deux mots ou nœuds.In the next step 20, the RS syntax rules are applied to the sentence to establish a syntactic relationship between two words or nodes.
Pour chaque relation syntaxique établie entre un nœud principal et un nœud secondaire, on essaye de valider la relation syntaxique en combinant chaque concept du nœud principal et chaque concept du nœud secondaire ou, pour un pas ultérieur, une formule ou représentation ontologique partielle (étape 22).For each syntactic relation established between a main node and a secondary node, we try to validate the syntactic relation by combining each concept of the main node and each concept of the secondary node or, for a subsequent step, a partial ontological formula or representation (step 22 ).
S'il n'existe pas d' autre combinaison de concept (étape 24), et si aucune combinaison de concept n' est validée, on rejette la relation syntaxique (étape 26) . La procédure retourne alors à la phase 20 précédente. Au contraire, s'il existe d' autres combinaisons de concept, on considère un concept ou la formule ontologique partielle du nœud principal et du nœud secondaire (étape 28). Lors de l'étape 30 suivante, on vérifie si la relation syntaxique est validée par l' ontologie fournie en utilisant les concepts C des mots ou des représentations ontologiques R déjà construites des nœuds.If there is no other concept combination (step 24), and no concept combination is validated, the syntactic relationship is rejected (step 26). The procedure then returns to the previous phase. On the contrary, if there are other concept combinations, we consider a concept or the partial ontological formula of the main node and the secondary node (step 28). In the next step 30, it is checked whether the syntactic relation is validated by the ontology provided by using the concepts C of the words or ontological representations R already constructed of the nodes.
Après validation, lors de l'étape 32 suivante, on détermine si le nœud principal a toujours un concept ou un rôle simple. Si tel est le cas, on remplace ce concept par la combinaison du concept du nœud principal avec le concept, le rôle ou la formule ontologique partielle du nœud dépendant (étape 34). Dans le cas contraire, c'est-à-dire si le nœud principal est déjà associé à une formule ontologique partielle, on rajoute le concept ou la formule ontologique partielle du nœud dépendant à la formule ontologique partielle du nœud principal (étape 36) .After validation, in the next step 32, it is determined whether the main node still has a simple concept or role. If this is the case, we replace this concept by the combination of the concept of the main node with the concept, the role or the partial ontological formula of the dependent node (step 34). In the opposite case, that is to say if the main node is already associated with a partial ontological formula, we add the concept or partial ontological formula of the dependent node to the partial ontological formula of the main node (step 36).
Lors de l'étape 38 suivante, on vérifie s'il y a d' autres relation syntaxiques non validées de manière à continuer le traitement avec d' autres règles syntaxico-ontologiques. S'il n'y a pas d' autre règle qui s' applique, la phrase ne peut alors être davantage analysée. La représentation de la phrase est alors délivrée (étape 40).In the next step 38, it is checked whether there are other non validated syntactic relationships so as to continue processing with other syntactic-ontological rules. If there is no other rule that applies, then the sentence can not be further analyzed. The representation of the sentence is then delivered (step 40).
A titre d'exemple, on va maintenant décrire succinctement le traitement mis en œuvre au sein du module de traitement 14 lors de l' analyse de la phrase en langue française « Je voudrais aller de Paris à Madrid demain ». Comme on le conçoit, cette phrase présente une ambiguïté : en effet, l' adverbe « demain » peut s' appliquer soit au verbe « vouloir » soit au verbe « aller ».For example, we will now briefly describe the processing implemented within the processing module 14 during the analysis of the sentence in French "I would like to go from Paris to Madrid tomorrow". As we understand it, this sentence presents an ambiguity: indeed, the adverb "tomorrow" can be applied either to the verb "will" or to the verb "to go".
L' analyseur morphologique 12 a préalablement fourni les informations suivantes :The morphological analyzer 12 has previously provided the following information:
mot forme concepts/rôles je pronom, lère pers. du singulier locuteur voudrais verbe modal, lère pers. du singulier vouloir aller verbe, infinitif aller, voler de préposition départ de, appartient, objet, à préposition arrive de, est à, reçoit, appartientword form concepts / roles I pronoun, 1st person of the singular speaker would like verb modal, l era pers. singular wanting to go verb, infinitive to go, to fly from preposition departure from, to belong, object, to preposition arrives from, to, to, receives, belongs
Paris nom propre ParisParis proper name Paris
Madrid nom propre Madrid demain adverbe demainMadrid proper name Madrid tomorrow adverb tomorrow
Après analyse morphologique, le texte TX est traité par le module de traitement 14. La base de données RS fournit un ensemble de règles syntaxiques tandis que la base de données ON fournit les concepts, les rôles et les relations ontologiques des concepts pour chaque nœud.After morphological analysis, the TX text is processed by the processing module 14. The RS database provides a set of syntactical rules while the ON database provides the concepts, roles, and ontological relationships of the concepts for each node.
On a représenté sur la figure 7 un exemple d' ontologie utilisable pour le traitement de la phrase en langue française « Je voudrais aller de Paris à Madrid demain ». Comme on le conçoit, l' ontologie représentée sur cette figure a été extrêmement simplifiée, par souci de clarté. En particulier, des relations en pointillés entre deux concepts C indiquent que des concepts manquent entre deux concepts représentés. Sur cette figure sont représentés un ensemble de concepts C ainsi que les rôles liant deux concepts. Un concept dépendant peut être relié à un concept de tête lorsque ce concept dépendant spécifie une notion générique associée au concept de tête. Ils peuvent également être reliés par un rôle R.There is shown in Figure 7 an example of ontology usable for the treatment of the sentence in French "I would like to go from Paris to Madrid tomorrow". As it is conceived, the ontology represented in this figure has been extremely simplified, for the sake of clarity. In particular, dotted relationships between two C concepts indicate that concepts are missing between two represented concepts. In this figure are represented a set of concepts C as well as the roles linking two concepts. A dependent concept can be related to a head concept when this dependent concept specifies a generic notion associated with the head concept. They can also be linked by a role R.
Par exemple, en ce qui concerne le concept « déplacement », ce concept de tête peut être relié à des concepts « voyage par automobile », « voyage par train », « voler », dans la mesure où ces concepts constituent des précisions du concept générique « déplacement » .For example, with regard to the concept of "displacement", this concept of head can be related to the concepts "travel by car", "journey by train", "fly", to the extent that these concepts constitute precisions of the concept generic "displacement".
De même, les concepts « lieu d' arrivée » et « lieu de départ » peuvent être reliés au concept « déplacement » par les rôles « arrive de » et « part de », respectivement. Comme indiqué précédemment, au cours de la création de l' arbre syntaxique par le module de traitement 14, la représentation ontologique est générée, les relations syntaxiques qui ne peuvent pas être validées par l'ontologie étant immédiatement supprimées. Par exemple, alors que l' analyse syntaxique autoriserait d' associer une personne derrière la préposition « de » pour indiquer la possession, une branche syntaxique ainsi créée serait immédiatement supprimée dans la mesure où aucun chemin correspondant n'existe dans l' ontologie qui prévoit que le concept « déplacement » ne peut être associé qu' à des concepts « lieu de départ » ou « lieu d' arrivée » par des rôles R « arrive de » et « part de », respectivement.Similarly, the concepts "place of arrival" and "place of departure" can be related to the concept of "displacement" by the roles "arrive from" and "share from", respectively. As indicated above, during the creation of the syntax tree by the processing module 14, the ontological representation is generated, the syntactic relationships that can not be validated by the ontology being immediately deleted. For example, while parsing would allow associating a person behind the preposition "de" to indicate possession, a syntactic branch thus created would be immediately deleted as no corresponding path exists in the ontology that provides for that the concept of "displacement" can only be associated with "place of departure" or "place of arrival" concepts by roles R "arrives from" and "part of" respectively.
On a représenté sur la figure 8 quelques quintuples Q utilisés lors de l'élaboration de l' ontologie.There are shown in Figure 8 some Q quintupples used in the elaboration of the ontology.
En se référant maintenant à la figure 9, l' analyse syntaxique définit que la relation syntaxique « sujet » lie le nœud « je » (nœud secondaire) et le nœud « voudrais » (nœud de tête). Les concepts C associés à ces nœuds sont respectivement « locuteur » et « vouloir ». La validation ontologique est positive (étape 22), c' est-à-dire que l'on peut combiner les deux concepts pour associer au nœud « voudrait » une formule ontologique partielle qui contient les formules ontologique « vouloir(w) », « locuteur (s) » et un rôle additionnel f (w,s) indiquant qui est le sujet du verbe « vouloir ».Referring now to Figure 9, the syntactic analysis defines that the syntactic relation "subject" links the node "I" (secondary node) and the node "would" (head node). The concepts C associated with these nodes are respectively "speaker" and "will". The ontological validation is positive (step 22), that is to say that one can combine the two concepts to associate with the node "would want" a partial ontological formula which contains the ontological formulas "will (w)", " speaker (s) "and an additional role f (w, s) indicating who is the subject of the verb" want ".
Par la suite, les relations syntaxiques entre « aller » et « de », « à » et « demain », « de » et « Paris » et « à » et « Madrid » sont établies et combinées afin d' obtenir une formule ontologique partielle.Thereafter, the syntactic relations between "go" and "de", "à" and "tomorrow", "de" and "Paris" and "à" and "Madrid" are established and combined in order to obtain an ontological formula partial.
Comme on le voit sur la figure 9, les rôles « appartient » du nœud « de » et « est_à » du nœud « à » ne sont pas retenus parce que l' ontologie ne permet pas un rôle « appartient » ou un rôle « est_à », à partir des concepts « voler » ou « aller ».Une relation syntaxique entre les mots « voudrait » et « aller » est alors établie. Les nœuds n'ont plus une liste de concepts mais déjà une formule ontologique partielle. Après validation de cette relation syntaxique, les formules ontologiques sont combinées comme indiqué précédemment en référence à la figure 6 (étape 36).As can be seen in Figure 9, the roles "belongs" to the node "de" and "est_à" of the node "à" are not retained because the ontology does not allow a role "belongs" or a role "est_à". "From the concepts" fly "or" go ". A syntactic relationship between the words" would "and" go "is then established. Nodes no longer have a list of concepts but already a partial ontological formula. After validation of this syntactic relationship, the formulas ontological are combined as indicated above with reference to Figure 6 (step 36).
Lorsque des relations syntaxiques validées ont pu être établies entre tous les mots du texte, on obtient une formule ontologique complète (figure 10).When validated syntactic relations have been established between all the words of the text, we obtain a complete ontological formula (figure 10).
Il est possible de créer des arbres syntaxiques supplémentaires si les règles syntaxiques le permettent, ce qui entraînerait la génération d' autres formules ontologiques. Dans l' exemple représenté, la grammaire et le lexique sont très réduits et ne permettent pas d' autre solution.It is possible to create additional syntactic trees if the syntactic rules permit, which would lead to the generation of other ontological formulas. In the example shown, the grammar and the lexicon are very small and do not allow any other solution.
On a représenté sur la figure 11 le résultat du processus entier. Comme on le voit sur cette figure, le rôle « appartient » n'est pas validé car le concept « aller » et ses concepts plus génériques n'ont pas un tel rôle dans l'ontologie RS. La relation syntaxique entre le verbe modal « voudrait » et l' adverbe « demain » est également supprimée car l' ontologie n' a pas de rôle liant le concept « vouloir » et le concept « demain » ou les concepts plus génériques que « demain ». Figure 11 shows the result of the entire process. As we see in this figure, the role "belongs" is not validated because the concept "go" and its more generic concepts do not have such a role in RS ontology. The syntactic relation between the modal verb "would" and the adverb "tomorrow" is also suppressed because the ontology has no role linking the concept "will" and the concept "tomorrow" or more generic concepts than "tomorrow". ".

Claims

REVENDICATIONS
1. Procédé de traitement automatique d'un langage par analyse syntaxique d' un texte écrit ou énoncé et analyse sémantique dudit texte pour en déduire le sens, caractérisé en ce que l' analyse syntaxique et l' analyse sémantique sont effectuées simultanément.1. A method of automatically processing a language by parsing a written text or utterance and semantic analysis of said text to deduce the meaning, characterized in that the parsing and the semantic analysis are performed simultaneously.
2. Procédé selon la revendication 1, caractérisé en ce qu' au cours de l' analyse syntaxique, on élabore un arbre syntaxique constitué d'un ensemble de nœuds formés chacun d'un mot ou d'une locution et associés chacun à une catégorie syntaxique et à une fonction syntaxique de dépendance reliant deux nœuds dudit arbre, et en ce qu' au cours de l' élaboration de l' arbre syntaxique, on procède à l' analyse sémantique du texte pour valider l' élaboration d' une branche de l' arbre entre deux nœuds liés par une fonction syntaxique.2. Method according to claim 1, characterized in that during the parsing, a syntactic tree is formed consisting of a set of nodes each formed of a word or a phrase and each associated with a category. syntax and a syntactic function of dependency linking two nodes of said tree, and in that during the development of the syntax tree, the text is semantically analyzed to validate the development of a branch of the tree between two nodes linked by a syntactic function.
3. Procédé selon la revendication 2, caractérisé en ce qu' au cours de l' analyse sémantique, on utilise une ontologie qui définit les concepts associés à chaque nœud et des rôles liant ces concepts, et l' on valide une branche de l' arbre syntaxique liant deux nœuds lorsqu'un rôle autorise une liaison entre les concepts associés aux nœuds. 3. Method according to claim 2, characterized in that during the semantic analysis, an ontology is used which defines the concepts associated with each node and the roles linking these concepts, and one branch of the node is validated. syntactic tree linking two nodes when a role allows a link between the concepts associated with the nodes.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu' au cours de l' analyse sémantique, on élabore une représentation ontologique du texte en associant à chaque nœud de chaque paire de nœuds liés par une fonction syntaxique un ensemble de variables comprenant un concept traduisant la signification du nœud et une formule ontologique liant lesdits nœuds, de manière à élaborer l' ensemble des formules ontologiques liant les nœuds du texte.4. Method according to any one of claims 1 to 3, characterized in that during the semantic analysis, an ontological representation of the text is developed by associating with each node of each pair of nodes linked by a syntactic function a set of variables including a concept translating the meaning of the node and an ontological formula linking said nodes, so as to elaborate the set of ontological formulas linking the nodes of the text.
5. Procédé selon la revendication 4, caractérisé en ce que l' on combine les formules ontologiques entre les nœuds liés par une fonction syntaxique de manière à élaborer une formule ontologique globale pour le texte. 5. Method according to claim 4, characterized in that the ontological formulas are combined between the nodes linked by a syntactic function so as to formulate a global ontological formula for the text.
6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comporte les étapes consistant à :6. Method according to any one of claims 1 to 5, characterized in that it comprises the steps of:
- associer à chaque nœud au moins un concept (C) traduisant le sens du nœud par interrogation d'une première base de données (ON) ;associating with each node at least one concept (C) translating the direction of the node by interrogating a first database (ON);
- interroger une deuxième base de données (RS) dans laquelle sont stockées des règles syntaxiques pour établir une relation syntaxique liant un nœud principal et un nœud secondaire ; etinterrogating a second database (RS) in which syntactic rules are stored for establishing a syntactic relation linking a main node and a secondary node; and
- tenter de combiner les concepts du nœud principal et du nœud secondaire, la relation syntaxique étant validée si l'étape au cours de laquelle on tente de combiner les concepts a abouti.- try to combine the concepts of the main node and the secondary node, the syntactic relationship being validated if the step in which one tries to combine the concepts succeeded.
7. Procédé selon la revendication 6, caractérisé en ce qu' après validation de la relation syntaxique on remplace le concept du nœud principal par la combinaison des concepts des nœuds liés.7. Method according to claim 6, characterized in that after validation of the syntactic relationship the concept of the main node is replaced by the combination of the concepts of the linked nodes.
8. Procédé selon la revendication 6, caractérisé en ce qu' après validation de la relation syntaxique on rajoute le concept du nœud secondaire à une formule ontologique du nœud principal.8. Method according to claim 6, characterized in that after validation of the syntactic relationship we add the concept of the secondary node to an ontological formula of the main node.
9. Procédé selon l'une quelconque des revendications 6 à 8, caractérisé en ce qu'il comporte en outre une étape d' analyse morphologique de chaque nœud du texte pour en déterminer sa forme en consultant une troisième base de données dans laquelle est stocké un lexique des nœuds.9. Method according to any one of claims 6 to 8, characterized in that it further comprises a step of morphological analysis of each node of the text to determine its shape by consulting a third database in which is stored a lexicon of nodes.
10. Dispositif de traitement automatique d'un langage, pour la mise en œuvre d'un procédé selon l'une quelconque des revendications10. Device for automatically processing a language, for implementing a method according to any one of the claims
1 à 8, caractérisé en ce qu'il comprend un module de traitement (14) associé à une première base de données (ON) dans laquelle est stockée une ontologie qui définit des concepts associés à chaque nœud et des rôles liant ces concepts et une deuxième base de données (RS) dans laquelle sont stockées des règles syntaxiques, le module de traitement comprenant des moyens pour élaborer un arbre syntaxique comprenant un ensemble de branches liants deux nœuds formés chacun d'un mot ou d'une locution et associés chacun à une catégorie syntaxique et à une fonction syntaxique de dépendance reliant les deux nœuds de la branche qui sont extraites de la deuxième base de données, chaque branche de l'arbre étant validée lorsqu'un rôle autorise une liaison entre les concepts associés aux nœuds.1 to 8, characterized in that it comprises a processing module (14) associated with a first database (ON) in which is stored an ontology which defines concepts associated with each node and roles linking these concepts and a second database (RS) in which syntactic rules are stored, the processing module comprising means for developing a syntax tree comprising a set of branches linking two nodes each formed of a word or a phrase and each associated with a syntactic category and at a a dependency function connecting the two nodes of the branch that are extracted from the second database, each branch of the tree being validated when a role allows a link between the concepts associated with the nodes.
11. Dispositif selon la revendication 10, caractérisé en ce qu'il comporte en outre un analyseur morphologique (12) associé à une troisième base de données (LX) dans laquelle est stocké un lexique. 11. Device according to claim 10, characterized in that it further comprises a morphological analyzer (12) associated with a third database (LX) in which is stored a lexicon.
PCT/FR2004/001692 2004-07-01 2004-07-01 Method and device for automatic processing of a language WO2006013233A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/FR2004/001692 WO2006013233A1 (en) 2004-07-01 2004-07-01 Method and device for automatic processing of a language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FR2004/001692 WO2006013233A1 (en) 2004-07-01 2004-07-01 Method and device for automatic processing of a language

Publications (1)

Publication Number Publication Date
WO2006013233A1 true WO2006013233A1 (en) 2006-02-09

Family

ID=34958621

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/001692 WO2006013233A1 (en) 2004-07-01 2004-07-01 Method and device for automatic processing of a language

Country Status (1)

Country Link
WO (1) WO2006013233A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2906049A1 (en) * 2006-09-19 2008-03-21 Alcatel Sa COMPUTER-IMPLEMENTED METHOD OF DEVELOPING ONTOLOGY FROM NATURAL LANGUAGE TEXT

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002035376A2 (en) * 2000-10-27 2002-05-02 Science Applications International Corporation Ontology-based parser for natural language processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002035376A2 (en) * 2000-10-27 2002-05-02 Science Applications International Corporation Ontology-based parser for natural language processing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAY-VARNIER C ET AL: "MODULES SYNTAXIQUES DES SYSTEMES D'ANALYSE DU FRANCAIS", TECHNIQUE ET SCIENCE INFORMATIQUES, L'AFCET, PARIS, FR, vol. 10, no. 6, January 1991 (1991-01-01), pages 403 - 425, XP000329148, ISSN: 0752-4072 *
IBRAHIM M H ET AL: "TARO: an interactive, object-oriented tool for building natural language systems", TOOLS FOR ARTIFICIAL INTELLIGENCE, 1989. ARCHITECTURES, LANGUAGES AND ALGORITHMS, IEEE INTERNATIONAL WORKSHOP ON FAIRFAX, VA, USA 23-25 OCT. 1989, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 23 October 1989 (1989-10-23), pages 108 - 113, XP010017412, ISBN: 0-8186-1984-8 *
KISE K ET AL: "A METHOD OF POST-PROCESSING FOR CHARACTER RECOGNITION BASED ON SYNTACTIC AND SEMANTIC ANALYSIS OF SENTENCES", SYSTEMS & COMPUTERS IN JAPAN, SCRIPTA TECHNICA JOURNALS. NEW YORK, US, vol. 27, no. 9, 1 August 1996 (1996-08-01), pages 94 - 107, XP000627484, ISSN: 0882-1666 *
LYTINEN S L: "Dynamically combining syntax and semantics in natural language processing", PROCEEDINGS AAAI-86: FIFTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE, 11 August 1986 (1986-08-11), PHILADELPHIA, PA, US, pages 574 - 578, XP008043272, ISBN: 0-934613-13-3 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2906049A1 (en) * 2006-09-19 2008-03-21 Alcatel Sa COMPUTER-IMPLEMENTED METHOD OF DEVELOPING ONTOLOGY FROM NATURAL LANGUAGE TEXT
EP1903454A1 (en) * 2006-09-19 2008-03-26 Alcatel Lucent Method, used by computers, for developing an ontology from a text in natural language
WO2008034802A1 (en) * 2006-09-19 2008-03-27 Alcatel Lucent Method, used by computers, for developing an ontology from a text in natural language
KR101416682B1 (en) * 2006-09-19 2014-07-08 알까뗄 루슨트 Method, used by computers, for developing an ontology from a text in natural language

Similar Documents

Publication Publication Date Title
US8346756B2 (en) Calculating valence of expressions within documents for searching a document index
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US11468050B2 (en) Learning user synonyms from sequenced query sessions
FR2876815A1 (en) CRITICAL ANALYSIS OF THE ORDER OF CLIENT PRONTS IN FRENCH
US20210133394A1 (en) Experiential parser
Gupta Automatic stemming of words for Punjabi language
Loáiciga Pronominal anaphora and verbal tenses in machine translation
Gelbukh Computational Linguistics and Intelligent Text Processing: 13th International Conference, CICLing 2012, New Delhi, India, March 11-17, 2012, Proceedings
WO2016116459A1 (en) Lemmatisation method, and corresponding device and program
WO2006013233A1 (en) Method and device for automatic processing of a language
KR101755437B1 (en) Method for machine-translating Korean into other languages by using Lexico Semantic Pattern
Kaur et al. Effective question answering techniques and their evaluation metrics
Ghosh et al. Clause identification and classification in bengali
KR101117298B1 (en) System and method for parsing korean semantic based on ontology
Kaka-Khan English to Kurdish Rule-based Machine Translation System
EP1376395A2 (en) Method and apparatus for determining an abbreviated form of a term
Mille et al. Multilingual summarization in practice: the case of patent claims
KR101117790B1 (en) System and Method for Morpheme analysis Using Combination Information of a Part of Speech
Gelbukh Unsupervised learning for syntactic disambiguation
US11500867B2 (en) Identification of multiple foci for topic summaries in a question answering system
Torjmen et al. A NooJ Tunisian Dialect Translator
Narayan et al. Pre-Neural Approaches

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase