EP1880314A1 - Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique - Google Patents

Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique

Info

Publication number
EP1880314A1
EP1880314A1 EP06764601A EP06764601A EP1880314A1 EP 1880314 A1 EP1880314 A1 EP 1880314A1 EP 06764601 A EP06764601 A EP 06764601A EP 06764601 A EP06764601 A EP 06764601A EP 1880314 A1 EP1880314 A1 EP 1880314A1
Authority
EP
European Patent Office
Prior art keywords
tree
semantic
verbal
structural
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP06764601A
Other languages
German (de)
English (en)
Inventor
Kabire Fidaali
Hermann Prignitz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LA SOCIETE HUMAN KNOWLEDGE
Original Assignee
Kabire Fidaali
Hermann Prignitz
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kabire Fidaali, Hermann Prignitz filed Critical Kabire Fidaali
Publication of EP1880314A1 publication Critical patent/EP1880314A1/fr
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Definitions

  • the invention relates to the field of automated document analysis and the use of the results of such analyzes.
  • document is meant here a set of data representing known or recognizable characters. It may in particular be a text consisting of an ordered sequence of verbal entities, such as words, groups of words, numbers or alphanumeric groups.
  • analysis is understood to mean any type of verification intended to determine whether a document has a meaning, possibly taking into account its context.
  • the term "use of the results" is understood to mean any operation or method that can be applied to an analyzed document, for example with a view to a translation, possibly simultaneous, or with a view to filtering information (for example as part of an e-mail management), or for orthographic and / or grammatical correction, or for transcription of a voice dictation, or for the generation of texts (such as abstracts), or for search, by means of a search engine, of textual information accessible in private or public network servers (such as the Internet).
  • the purpose of the invention is therefore to improve the situation, and in particular to allow the correct interpretation of a document by an automatic evaluation of the role played by each of the verbal entities (or words). which compose this document (such as a text) on the syntactic, semantic and contextual levels. It proposes for this purpose a device for semantic analysis of documents, including a structural and semantic database and a document interpreter to determine if a document makes sense using the database.
  • an n-ary tree manager responsible for constituting a structural n-ary tree from a decomposition of a document to be analyzed into an ordered sequence of verbal entities and of structural and / or semantic constraints, the tree a structural n-ary comprising a root node, formed of a primary governing verbal entity, and structures formed of a subordinate subordinate verbal entity and attached either directly or indirectly to the root node by a link provided with at least one connecting characteristic, a secondary subordinate verbal entity that may in turn become a governing verbal entity, - a semantic tree manager responsible for determining, at least from the n-ary structural tree and the database, categorizing entities of type object and act type activated by certain nodes of the n-ary tree, in order to construct a semantic tree with principal nodes consisting of object and act categorizing entities and linked by semantic relations arising from the n-ary tree's connectional characteristics and associated with attributes that are a function of the characteristics of the other nodes of the n-ary tree. area
  • the semantic tree manager is responsible for transforming each n-ary (structural) tree into a semantic tree, firstly, by extracting from it categorizing entities, a second part , creating semantic links between categorizing entities extracted from the interpretation of the structural links that connect the verbal entities that activated these categorizing entities, and thirdly, by assigning to each categorizing entity extracted a list of minus an attribute according to a model (or pattern) defined by a lexicon.
  • semantic constraints specific to each structural class that is to say semantic compatibility relationships that exploit the generic semantic features, and / or lexical functions, and / or
  • a constraint is a regulated link defining a connectional characteristic.
  • object-type categorizing entity an abstraction obtained (essentially) by categorization of objects from the real world (such as a table, a star or a rose) or abstract notions that function as metaphors for objects real (as for example feelings), generally referenced by nouns (the reciprocal is not necessarily true).
  • categorizing entity of the act type an abstraction obtained (essentially) by categorization of actions of the real world (such as for example going or moving) or of abstract notions that function as metaphors of real actions (such as thinking or loving) that can be referenced either (preferentially) by verbs or substantives (in this case the construction of the semantic tree requires an additional step of applying a lexical function to transform the substantive structure into a verbal structure (this lexical function being part of the definition of the substantive concerned) - as an example we can quote the transformation of the expression "the displacement of the table” into the expression “move the table”), or by any other structural category according to a process specific to the language in question.
  • a document has at least one meaning since it has been possible to constitute a semantic tree from its verbal entities.
  • the device according to the invention may comprise other characteristics that can be taken separately or in combination, and in particular:
  • its document interpreter can comprise a binary tree manager responsible for constituting a structural binary tree from the decomposition of a document into an ordered sequence of verbal entities and structural and / or semantic constraints, this structural binary tree comprising sheets, each associated with a verbal entity of the suite and constituting one of the two child nodes attached to a father node, and a root node, constituting a father node and associated with all or part of the verbal entities of the suite.
  • the n-ary tree manager is responsible for building each n-ary tree from a structural binary tree;
  • - its document interpreter can include a decomposition module responsible for decomposing each set of data defining a document to be analyzed into an ordered sequence of verbal entities;
  • its document interpreter may comprise a semantic analyzer responsible for determining the semantic compatibility relationships between main object-type nodes and / or act-type main nodes of at least one semantic tree;
  • its semantic analyzer can be responsible for determining relationships between the main nodes of at least one semantic tree among spatial, temporal, causal, anaphoric and cataphoric relationships; its semantic analyzer may be responsible for performing a diagnosis relating to the analysis of a document, and for delivering a message representative of the result of this diagnosis.
  • This diagnostic message specifies the nature of the problems encountered during the analysis of the document.
  • the invention also proposes a method of semantic analysis of documents consisting of:
  • the n-ary structural tree comprising a root node formed of a primary governing verbal entity and structures formed of a secondary subordinate verbal entity and attached either directly or indirectly to the root node by a link provided with at least one connectional characteristic, a secondary subordinate verbal entity that may in turn become a governing verbal entity, - to be determined, at least from the structural n-ary tree and from data stored in a structural and semantic database, categorizing entities of object type and act type activated by certain nodes of the n-ary tree, in order to construct a semantic tree provided with principal nodes consisting of object and act categorizing entities and linked by semantic relations resulting from the n-ary tree's connectional characteristics and associated with attributes that are functionally related other nodes of the n-ary tree and their respective links.
  • the method according to the invention may comprise other characteristics that can be taken separately or in combination, and in particular:
  • a structural binary tree can be constituted from the decomposition of a document into an ordered sequence of verbal entities and structural and / or semantic constraints, the binary structural tree comprising sheets, each associated with a verbal entity of the suite and constituting one of the two child nodes attached to a father node, and a root node, constituting a father node and associated with all or part of the verbal entities of the suite.
  • each n-ary tree is constituted from a structural binary tree;
  • each set of data defining a document to be analyzed can be broken down into an ordered sequence of verbal entities
  • semantic compatibility relationships between principal nodes of the object type and / or principal nodes of the act type of at least one semantic tree can be determined
  • the analyzed document has a meaning in determining relations between principal nodes of at least one semantic tree, chosen from spatial, temporal, causal, anaphoric, and cataphoric relationships; after having constituted a semantic tree, it is possible to perform a diagnosis relating to the analysis of a document and then to deliver a message representative of the result of the diagnosis.
  • This diagnostic message specifies the nature of the problems encountered during the analysis of the document.
  • It can for example include information representative of the difficulties encountered during the analysis of a document, and / or the different possibilities of interpretation of a sentence, and / or at least one unknown word, and / or or at least one grammar fault, and / or at least one construction defect, and / or at least one sense, and / or list of unresolved ambiguities.
  • FIG. 1 very schematically and functionally illustrates an exemplary embodiment of a device for semantic analysis of documents according to the invention
  • FIG. 2 schematically illustrates the main steps of an exemplary algorithm for decomposing a document into verbal entities
  • FIG. 3 schematically illustrates the main steps of an exemplary algorithm for constructing a structural binary tree from a document decomposition into verbal entities
  • FIG. 4 schematically illustrates the main steps of an exemplary algorithm for constructing a structural n-ary tree from a structural binary tree
  • FIG. 5 is a non-limiting tree diagram illustrating schematically relations between different types, subtypes and sub-types of categorizing entities
  • FIG. 6 schematically illustrates the main steps of an exemplary algorithm for constructing a semantic tree from a structural n-ary tree
  • FIG. 7 schematically illustrates an example of a binary tree. structural
  • FIG. 8 schematically illustrates an example of a n-ary structural tree resulting from the structural binary tree of FIG. 7,
  • FIG. 9 schematically illustrates an example of a semantic tree resulting from the n-ary structural tree of FIG. 8;
  • FIG. 10 schematically illustrates causal and anaphoric relations in another semantic tree example;
  • FIGS. 11A and 11B respectively diagrammatically illustrate another example of a n-ary structural tree and the associated semantic tree in the case of a chronological management;
  • FIG. 12 schematically illustrates a temporal relation between two examples;
  • semantic tree FIG. 13 schematically illustrates temporal and anaphoric relations between two other semantic tree examples,
  • FIG. 14 schematically illustrates semantic compatibility relationships between verbal entities of another semantic tree example
  • FIG. 15 schematically illustrates the principal relationships between nodes associated with substantives (NO) and associated nodes. adjectives (NA), and the main concepts attached to it (especially metrics), and
  • FIG. 16 schematically illustrates the main relationships between categorizing entities object and act, and the main concepts attached thereto.
  • the object of the invention is, in particular, to structure the meaning of the information contained in a document to be analyzed, in particular by means of a model for automatically removing at least a part of the inherent ambiguities and polysemias. natural language documents.
  • the device D is dedicated to the automatic removal of ambiguities and polysemies of text type documents.
  • Such a device D can for example be installed in a computer or application server (s) which it uses certain resources, including calculation (CPU).
  • An analysis device D according to the invention comprises at least one BD structural and semantic database and an ID document interpreter.
  • the database BD also called lexicon (or referential-lexicon), includes words (or verbal entities) to which are assigned syntactic and semantic properties as well as composition rules (or links). Properties and links (or rules) are data used to construct categorizing (or conceptual) entities of the act and object type.
  • categorizing entities have been given previously. Moreover, here we mean by "property” an abstraction obtained by categorization of notions of a defining nature, based on sets of values, generally referenced by nouns (such as color or size). A value is by definition an abstraction directly referenced by an adjective and necessarily linked to a property. Values can usually be associated with quantitative ("objective") and / or qualitative (“subjective”) scales, as will be discussed later in the introduction of the notion of metrics.
  • Words are classified into structural classes of verbs, nouns, adjectives, adverbs and structuring words. All these classes can be subdivided for example into subclasses, sub-subclasses, and so on (as will be seen later with reference to Figure 15 where the NO A , NO U and the like are subclasses of the class of substantives).
  • a categorizing entity is responsible for freely generating ambiguous meaning by association with other categorizing entities, under the control of properties that limit their freedom to respect a controlled syntactic and semantic structure.
  • the links are responsible for controlling the properties through pragmatic overdeterminations (weak or strong pragmatic constraints), either from the document (text) itself, or from the general context.
  • weak pragmatic constraints we mean here the fact that no general reference framework in an open context can exhaust all the possibilities of interpretation of a textual message.
  • Links provide flexibility to the process of ambiguity (or disambiguation) by enabling or disabling certain property rules as needed, for example by privileging semantics over syntax when an ungrammatical sentence is clearly meaningful. Their role in disambiguation is essential.
  • the database BD can be subdivided into a general database BD1 and a specialized database BD2.
  • the generalist database BD1 also called the general lexicon, has inputs, typically several tens of thousands (for example 80 000) which define inflected forms (typically several hundreds of thousands, and more than 300 000 for example), provided with data reflecting weak pragmatic constraints intervening notably in the disambiguation of the intrinsic meaning of a text that preserves its general polysemy.
  • the specialized BD2 database also known as the specialized lexicon, contains data reflecting linguistic features of a specific context (strong pragmatic constraints) that make it possible to limit the general polysemy of the messages in order to extract one or more locally interpreted meaning that is relevant. The more the context definition is detailed, the more the final interpretation is simple to achieve.
  • the semantic properties are organized according to a taxonomy and distributed on the axes of three multidimensional primary repositories - the material real, the intentional and the contextual. They are independent of the classical syntaxes which only slightly integrate the semantic parameters. Therefore they are not specific to a particular language.
  • Each multidimensional primary repository has axes of decomposition of semantic properties and a logic of own composition.
  • the logics associated with the three primary repositories are of the modal type.
  • Categorizing entities are dynamic objects in a six-dimensional linguistic universe with algebra in multimodal logic.
  • a set of compatibility rules between properties govern the interactions between categorizing entities.
  • the document interpreter ID is responsible for determining whether a document has meaning using the database BD and processing functions implementing a mathematical model which will be discussed later. It comprises at least one GAN n-ary tree manager and a semantic tree manager GAS, as well as possibly an AS semantic analyzer.
  • the n-ary tree manager GAN is responsible for building, using its processing functions and the database BD, a structural n-ary tree from a decomposition of a document to be analyzed. an ordered sequence of verbal entities (or words, or groups of words, or alphanumeric groups) and structural and / or semantic constraints chosen and defined in the database BD.
  • the ordered sequences of verbal entities are for example provided by a document decomposition module MD which, as in the example illustrated in FIG. 1, can be part of the device D. But this does not matter. is not required. Indeed, when the device D does not include a document decomposition module MD, the suites can be directly provided by an external equipment.
  • the document decomposition module MD is responsible, when it exists, for breaking down each set of data, which defines a document (such as a text) into an ordered sequence of verbal entities to be analyzed.
  • a document such as a text
  • the language and its syntax structure are not identified. The latter if it is not given, is identified in the next step. However, it may be considered at this stage to determine separators specific to a given language, as for example for Chinese.
  • Each n-ary structural tree which is constructed by the n-ary tree manager GAN, includes a root node that is associated with a so-called primary verbal verb entity and structures that are formed of a so-called secondary subordinate verbal entity. and attached either directly or indirectly to the root node by a link provided with at least one connection feature.
  • the establishment of a link (identified by its (or its) connective characteristic (s)) in a binary structural tree is done by applying the structural and / or semantic constraints provided by the associated connection potentials.
  • the elementary data from the database (or lexicon) BD1 or BD2 of the two verbal entities concerned.
  • Some secondary subordinate verbal entities may in turn become governing verbal entities.
  • Each structural n-ary tree can be constructed from a binary tree, itself constructed from an ordered sequence of verbal entities, possibly provided by the decomposition module MD.
  • the document interpreter ID comprises, as illustrated in FIG. 1, a structural binary tree manager.
  • the latter is responsible for recomposing each ordered sequence of verbal entities that it receives into a structural binary tree. More precisely, as will be seen below, two adjacent nodes come into composition to form a new node, knowing that initially only leaves are available.
  • a structural binary tree comprises a root node which represents the set of verbal entities of a sentence (or portion of sentence) to be processed, and which constitutes a parent node for two child nodes resulting from its binary decomposition. According to the number of verbal entities that a child node comprises, it constitutes either a leaf of the binary tree, or a father node decomposable in its turn, in a binary way, into two child nodes.
  • the binary decomposition of the root node gives two child nodes that can in turn be fathers nodes that can be binary decomposed and so on until each leaf of the tree binary be occupied by a verbal entity (word) of the (portion of) sentence being processed.
  • This binary decomposition is done according to structural and / or semantic constraints stored in the database BD.
  • the user of the device D does not intervene at this stage. His intervention is eventually reduced to the definition of local rules to override certain general rules (such as prohibiting the application of rules of agreement in gender).
  • the GAB binary tree manager and / or the GAN n-ary tree manager may have a function of identifying the lexical units (or verbal entities) specific to the language used to write (or dictate) a document, to highlight lexical ambiguities.
  • the semantic tree manager GAS is responsible for determining object and act type categorizing entities from the structural n-ary tree and data stored in the database BD.
  • an object-type categorizing entity is an abstraction obtained (essentially) by categorization of real-world objects or abstract notions that function as metaphors for real objects, generally referenced by nouns.
  • a categorizing entity of the act type is an abstraction obtained (essentially) by categorization of real-world actions or abstract notions that function as metaphors for real actions that can be referenced either (preferentially) by verbs, or by substantives (in this case the construction of the semantic tree requires an additional step of applying a lexical function to transform the substantival structure into a verbal structure).
  • the semantic tree manager GAS can, in certain situations, use the information contained in one or more other n-ary trees corresponding to other sentences of the same document to constitute a semantic tree. . This is particularly the case in the presence of ambiguities of the anaphor or cataphor type.
  • Each semantic tree is made up of main nodes that are each associated with at least one categorizing entity of the object type or of the act type, which is activated by certain nodes of the n-ary tree, and which are linked by semantic relations originating from connective features of the n-ary tree and associated attributes that are a function of the characteristics of the other nodes of the n-ary tree and their respective links.
  • the semantic analyzer AS is responsible for determining the semantic compatibility relationships between the main object-type nodes and / or the act-type main nodes of at least one semantic tree. Semantic compatibility relationships exploit semantic features. For example, only a "human”, which is an object-type categorizing entity, can "think", which is an act-type categorizing entity.
  • the semantic analyzer AS is a document analysis diagnostic tool. It can for example specify what difficulties were encountered during the analysis of a document (or sentence) and / or different possibilities of interpreting a sentence and / or unknown words and / or grammatical errors (for example, disregarded rules of agreement) and / or construction defects and / or nonsense (eg unsatisfied semantic compatibility rules) and / or ambiguities that could not be resolved.
  • the diagnostics it is for example possible to classify messages, or to solve a problematic situation (by application of a local rule or by identification of a lack of information preventing complete comprehension of a message), or why a message is considered "incomprehensible”.
  • automated actions may be undertaken.
  • the various elements composing the document interpreter ID use processing functions that implement a mathematical model.
  • the latter is based on several algorithms that intervene on the links that are provided with at least one connectional characteristic and that are established between structures formed of a subordinate subordinate verbal entity and a root node. More precisely, these algorithms exploit the properties of the entries of the database BD, previously transformed into categorizing entities whose data and links constitute the properties.
  • the categorizing entities constitute varieties distributed along axes grouped into three different primary reference frames. Varieties can interact and combine via lexical, syntactic, semantic, and pragmatic composition rules in a six-dimensional linguistic universe.
  • Groups can be likened to syntagms with syntactic and semantic properties. They inherit new availability of composition of a higher order which authorize the creation of secondary or supergroup linguistic graphs which correspond roughly to informative sentences possibly embellished with a diagnosis, for example in the form of a classification in "comprehensible information "," Questionable information ",
  • the mathematical model makes the data freely interact with each other under the sole control of the compatibility rules of their respective properties.
  • hypotheses are explored and reduced, for example by means of a method of reduction of hypotheses inspired by the modal system called "S4" of
  • Compatibility rules are first and second level, they allow to lift as soon as possible the different types of ambiguities of first level that can appear in an ordered sequence of verbal entities (or sentence).
  • the super group can then be related to the original sentence (or document) for the exploitation of the structured information it contains. For example, we can compare a super group with super reference groups (defining pre-parameterized filters, possibly derived from an analysis of questions - in natural language - posed by users or by other texts). You can also perform operations on groups of super groups, such as distance calculations or consistency checks. One or more super groups can also be used to extract specific information, such as summaries. One or more super groups can still be used to generate new messages.
  • the decomposition module MD receives a document to be analyzed. This is for example a text in natural language.
  • the decomposition module MD determines (reads) the first character of the document.
  • the decomposition module MD performs a test to determine if the character read is the last of the document.
  • the decomposition module MD performs a new test in a step 30 to determine whether the character read is a separator. If it is not the case, in a step 40 the decomposition module MD adds this character to the word that is being composed, then it returns to step 10 in order to restart the steps of the algorithm with the character following document. On the other hand, if the character being read is not a separator, the decomposition module MD performs a new test in a step 50 to determine if the character read is the last one. of a word being composed. If you!
  • a step 60 the decomposition module MD identifies the word that has just been composed, then it stores the word in a buffer before returning to step 10 in order to restart the steps of the algorithm with the next character of the document.
  • the decomposition module MD creates, in a step 55, a level which materializes a hyphen, then moves on to step 60.
  • the separators are either word separators (which actually leads to step 60), or separators of text units of different logical levels, nested within each other, such as segments, sentences, paragraphs. , or chapters.
  • This sample algorithm is applied to each character of a document up to the last.
  • This decomposition algorithm thus provides an ordered sequence of verbal entities consisting respectively of words, groups of words, numbers or alphanumeric groups, generally separated by separators, and whose meaning must be analyzed.
  • the implementation of the document decomposition algorithm can be done by means of a transducer, for example constructed in the form of a finite state machine which optimizes both the required memory space and the performances.
  • the meaning analysis of an ordered sequence of verbal entities preferably begins with the constitution of a structural binary tree for each sentence of the document.
  • the entire ordered sequence of verbal entities is used to construct a binary tree.
  • each portion of the ordered sequence of verbal entities, which corresponds to a sentence is used to construct a binary tree.
  • the bitmap manager GAB receives an ordered sequence of verbal entities.
  • This suite is for example provided by the document decomposition module MD which implements a decomposition algorithm of the type described above. But, this is not mandatory. In fact, when the device D does not include a document decomposition module MD, the sequences can be directly supplied to the bitmap manager GAB by an external device.
  • the bitmap manager GAB initializes the structural binary tree to be built.
  • bitmap manager GAB for example sets to zero (0) the value of a parent node counter i of the structural binary tree.
  • the bitmap manager GAB for example sets to zero (0) the value of a parent node counter i of the structural binary tree.
  • each other father node (i> 0) of the binary tree represents the result of a part of the binary decomposition of verbal entities that occupy their own father node.
  • the binary decomposition of the root node gives two child nodes which can in turn be fathers nodes that can be binary decomposed and so on until each leaf of the binary tree is occupied by an entity verbal (word) of the processed sentence.
  • the binary decomposition is done according to structural and / or semantic constraints stored in the database BD.
  • bit matrix manager GAB starts the analysis of the parent node i pointed at zeroing (0) the value of a child node counter j of the structural binary tree. Then, he proceeds to a decomposition of the verbal entities of the father node i pointed in two parts j and j '(not represented).
  • bitmap manager GAB performs a test to determine whether the pointed part j, resulting from the decomposition of the pointed node i, satisfies one or more chosen structural and / or semantic constraints. If it is not the case, it proceeds to step 140. In the opposite case, in a step 135 the bitmap manager GAB defines a new (connection) node within the binary tree in order to assign it to the pointed part j, then he proceed to step 140. This new node j is then a child node of the parent node i pointed.
  • step 140 the GAB binary tree manager performs a test to determine if the dotted portion that has just been processed is the last part resulting from the decomposition of the parent node pointed to. If it is not the case, in a step 150, the bitmap manager GAB increments the index counter j by one unit, then returns to perform step 130. On the other hand, if the indicated part j that has just been processed is the last part resulting from the decomposition of the parent node i pointed, then the bitmap manager GAB performs another test in a step 160 to determine if there are other nodes i to treat. If it is not the case, in a step 170, the bitmap manager GAB increments the index counter i by one unit, then returns to perform step 120.
  • bitmap manager GAB performs another test in a step 180 to determine if the last iteration performed in step 135 did not create new nodes and thus new connection possibilities that it is necessary to explore. If this is not the case, the binary structural tree is constituted and the bit-tree construction algorithm ends in C. On the other hand, if an iteration must be performed, the bit-tree manager GAB returns to perform Step 110.
  • An example of a structural binary tree corresponding to the phrase "The small ice breeze" is illustrated in Figure 7. In this example, the root node corresponds to the entire sentence "The small ice breeze".
  • a first child node of the root node includes the words "The little breeze", while the second child node of the root node includes the words "the ice”).
  • the first child node (“The little breeze") is then a father node for its two child nodes associated respectively with the words “breeze” and "The little one”.
  • the child node associated with the word “breeze” is a leaf of the binary tree that can no longer be decomposed.
  • the child node associated with the words "La petite” is then a father node for its two child nodes associated respectively with the words "La” and “petite”.
  • the child nodes associated respectively with the words "La” and “petite” are leaves of the binary tree that can no longer be decomposed.
  • the second child node (“the ice”) is a father node for its two son nodes respectively associated with the words “la” and “glace”.
  • the child nodes associated respectively with the words “la” and “glace” are leaves of the binary tree which can no longer be decomposed.
  • n-ary tree a tree in which the decomposition of a father node leads to any number of child nodes, this number may vary from one father node to another.
  • FIG. 4 Reference is made to FIG. 4 to describe the main steps of an exemplary algorithm for constituting a structural n-ary tree.
  • This algorithm is implemented by the n-ary tree manager GAN of the device D according to the invention.
  • the n-ary tree manager GAN is fed in binary trees by the bit matrix manager GAB of the device D. But this is not mandatory . Indeed, it can be envisaged that the n-ary tree manager GAN is fed with binary trees by external equipment, or that it is arranged to directly construct an n-ary tree from an ordered sequence. of verbal entities, and therefore without having to build a binary tree beforehand.
  • the n-ary tree manager GAN receives the description of a binary tree, for example provided by the structural binary tree constitution algorithm described above.
  • the n-ary tree manager GAN initializes the n-ary structural tree to be constructed. It creates a first node C (current) in the n-ary tree which becomes its root node, and sets a node index counter i of the associated binary tree to zero. It is important to note that each node of an n-ary tree is associated with a single verbal entity (or word) coming from a leaf of the binary tree, unlike the binary tree which has intermediate nodes associated with several entities. verbal (or words).
  • n-ary tree manager GAN takes a node of index i in the binary tree, then in a step 220 it performs a test to determine if this index node i is a leaf of the binary tree.
  • the GAN n-ary tree manager performs a test in a step 230 for determining whether the index node i is of the governing type (R) or of the subordinate type (S).
  • the n-ary tree manager GAN associates with the current node C the index leaf node i of the binary tree, and this current node C is then considered the father of at least one child node of the n-ary tree. It is indeed recalled that each father node of a binary tree systematically corresponds to a parent child node and a subordinate child node. Consequently, the two leaf nodes of each father intermediate node of a binary tree can be linked to one another to form within the associated n-ary tree a structure in which the governing child node is attached. to the corresponding subordinate child node by a link that can be associated with the connectional characteristics of their parent node.
  • the root node of the n-ary tree can only be a leaf node governing which is attached, directly and indirectly, to the root node of the associated binary tree by one or more intermediate nodes of exclusively governing type. In other words, this root node comes from an exclusively governing lineage.
  • the n-ary tree manager GAN proceeds to a step 270.
  • the n-ary tree manager GAN thus connects (reassigns) the subordinate node (S) of index i to the corresponding governing node (R), by means of a link associated with the connectional characteristics of their node. dad. Then, the n-ary tree manager GAN proceeds to step 270.
  • the GAN n-ary tree manager begins by creating a new branch in the n-ary tree under construction, and then assigns the properties of the index node i to this branch B. Then, he connects (or attaches) the upper end (sup (B)) of the branch B to the current node C, and creates a new node N that connects (or attaches) to the lower end (inf (B)) of the branch B. Finally, the n-ary tree manager GAN replaces the current node C with the node N that it has just created, before going on to step 270.
  • the n-ary tree manager GAN performs a test to determine if the index node i being processed is the last node of the binary tree to be processed. If this is the case, then the n-ary structural tree is formed and the n-ary tree construction algorithm ends in D. On the other hand, if the index node i being processed is not not the last node of the binary tree to be processed, in a step 280 the n-ary tree manager GAN increments the value of the index i by one, then returns to perform step 210 with the next node of the binary tree. All the nodes of the binary tree are thus treated one after the other starting from the root node.
  • the root node of the n-ary tree is the verb "breeze" which is the only leaf node governing the binary tree from an exclusively governing line. In most cases, the root node of the n-ary tree is the main verb of the parsed sentence.
  • a first structure is composed of the nodes "La” and “petite” which are respectively leaf nodes governing and subordinate of the intermediate node associated with the verbal entities "La petite” in the binary tree.
  • the leaf node “La” is here governing, so it is attached to the root node “breeze”.
  • the "small" leaf node is here subordinated and attached to the associated governing node
  • a second structure is composed of the nodes "la” and "glace” which are respectively nodes subordinate leaves and governing node intermediate associated with verbal entities "ice” in the binary tree.
  • the leaf node “ice” being here governing, it is therefore attached to the root node “breeze”.
  • the leaf node “la” is here subordinated and attached to the associated governing node “ice” by a link associated with the connectional characteristics of their father node (“ice”) within the binary tree.
  • semantic tree a tree that only includes categorizing entities (object or act type) with their properties, necessary to understand the meaning of the sentence (or document), given its context .
  • Categorizing entities are the first level of decomposition of a taxonomy: ontology. All categorizing entities fall into one or other of their subtypes (or subclasses).
  • FIG. 5 shows a nonlimiting example of a tree diagram describing various types, subtypes and sub-sub-types of categorizing entities. More precisely, in this example categorizing entities of the "act” type group two subtypes (or subclasses) of categorizing entities called “event” and "defining", which group respectively two sub-sub-types (or sub-types). -sub-classes) categorizing entities called “action” and "event” on the one hand, and “definition” and “modalization” on the other hand. Categorizing entities of type "object” group two subtypes (or subclasses) of categorizing entities called “individual” and "place”.
  • FIG. 6 describes the main steps of an exemplary algorithm for constituting a semantic tree.
  • This algorithm is implemented by the semantic tree manager GAS of the device D according to the invention. It may be preceded by a possible application of a lexical function intended to normalize the structural n-ary tree in order to eliminate any "stylistic" peculiarities that may be detrimental to its semantic analysis.
  • the semantic tree manager GAS receives the description of an n-ary tree, for example provided by the structural n-ary tree construction algorithm described above.
  • the semantic tree manager GAS receives the description of an n-ary tree, for example provided by the structural n-ary tree construction algorithm described above.
  • the semantic tree manager receives the description of an n-ary tree, for example provided by the structural n-ary tree construction algorithm described above.
  • the semantic tree manager receives the description of an n-ary tree, for example provided by the structural n-ary tree construction algorithm described above.
  • the semantic tree manager receives the description of an n-ary tree, for example provided
  • GAS extracts from the structural n-ary tree the verbal entity subtended by a highest-ranking categorizing entity in the n-ary tree (usually associated with its root node) and which constitutes the root of the semantic tree .
  • the semantic tree manager GAS performs a test to determine if the verbal entity corresponds to an act.
  • the semantic tree manager GAS proceeds to a step 320. If this is not the case, the semantic tree manager GAS creates, in a step 315, a support verb defining an act, then it goes to step 320.
  • step 320 the semantic tree manager GAS initializes the semantic tree. Then, he inserts the act into a chronological list of acts, which may possibly already include other acts listed in the sentence being analyzed and / or in previous sentences of the document being analyzed.
  • This list is for example in the form of a table built as and when stored in a memory. Then, the semantic tree manager
  • GAS instantiates a semantic structure.
  • the lexicon provides a semantic tree pattern for the categorizing entity (object or act) whose
  • a pattern comprises, on the one hand, a semantic connection model (of the same nature as certain lexical functions) which makes it possible to transform the actantial schema of a verbal entity into a semantic (sub) tree, as shown schematically, at As an example, in Figures 8 and 9, and secondly, a list of properties (or attributes), as shown schematically in Figure 9.
  • a semantic connection model of the same nature as certain lexical functions
  • the semantic tree manager GAS extracts the next node from the n-ary tree, and in a step 340 it performs a test to determine if the verbal entity associated with this extracted node activates an object.
  • object In accordance with the definition given above, the word "object” must be here understood in its broadest and most common definition, extending it to abstract objects such as feelings and representations, and not in the specialized and restrictive definition it has in computer science.
  • the semantic tree manager GAS inserts this object in the semantic tree. Then, it inserts the object into a list (or universe) of objects, which may possibly already contain other objects listed in the sentence being analyzed and / or in previous sentences of the current document. analysis. This list is for example in the form of a table built as and when stored in a memory. Then, the semantic tree manager GAS instantiates the semantic structure (as indicated above). The semantic tree manager GAS then proceeds to a step 410.
  • step 360 the semantic tree manager GAS performs a new test to determine whether properties (or connectional features) are associated with this verbal entity.
  • the semantic tree manager GAS identifies a proprietary object. More specifically, a categorizing entity of the "property” type that does not operate autonomously (unless it is a meta-object), and which necessarily characterizes an object, has been identified. This object, which is called “owner”, is identified either directly through a connection (ordinary or anaphoric) that connects it to the property (as for example the expression “the color of the sky” or “its color” ), or (more rarely, when there is no apparent connection) by going through the list of objects instantiated by the analyzed text in search of an object that has the property in question (which can be a source of anomalies when there are none or if there are several possible).
  • a connection ordinary or anaphoric
  • the semantic tree manager GAS assigns a value to the object.
  • the value (s) associated with the property is (are) identified directly by searching among the subordinate nodes those who are in adjectival connection
  • the semantic tree manager GAS then proceeds to step 410. If the result of the test carried out in step 360 indicates that the verbal entity is not associated with a property, then in a step 380 the manager of semantic tree GAS performs a new test to determine if modalisation is possible. Modalization is carried by verbs such as power or will, on the one hand, and think (that) or believe (that), on the other hand. These verbs do not activate acts (unlike the verbs think or believe when used absolutely) but modify the interpretation of the act to which they are attached. Thus, the expression “I can go” does not have the same value as the expression "I'm going", but in both cases the semantic head is the verb "to go”. Similarly, the expression “Peter thinks we do not write enough” does not have the same value as the expression "we do not write enough", the semantic head being however the verb "to write” in both case.
  • the semantic tree manager GAS identifies a proprietary act in a step 390.
  • the procedure for identifying a proprietary act is similar to that of a proprietary object presented above (but applied to a act).
  • the semantic tree manager GAS assigns a modalization to the proprietary act.
  • the semantic tree manager GAS then proceeds to step 410.
  • step 400 the semantic tree manager GAS considers that there is an anomaly. We are then in the presence of a node that there is no way to attach to the semantic tree being created.
  • the semantic tree manager GAS then proceeds to step 410.
  • the semantic tree manager GAS performs a test for determine if the node of the n-ary tree that has just been analyzed is the last of the said n-ary tree. If this is the case, then the semantic tree is constituted and the semantic tree construction algorithm ends in E. On the other hand, if the node of the n-ary tree that has just been analyzed is not the last of said n-ary tree, then the semantic tree manager GAS returns to step 330 to begin analyzing the next node of the n-ary tree. All the nodes of the n-ary tree are thus analyzed one after the other.
  • the root node of the semantic tree is the verb "break” that comes from the word “breeze” of the n-ary tree of figure 8.
  • This word “breeze” has indeed two very different meanings : verb "to break” conjugated to the present (and thus act corresponding to the answer “now” to the question “when?", knowing that it remains to be determined if the word “now” concerns the time of the speech or if it is defined by the speech), and the noun “breeze” which designates a small fresh wind.
  • the word “petite” is an adjective attached because of its position on a subject of the verb "to break” which is here represented by the word “La” which is therefore an anaphorical pronoun denoting a common feminine noun introduced into a sentence previous.
  • “The” here is a determinant whose role is, on the one hand, to confirm the substantive status of the verbal entity that it accompanies (thus making it possible to substantiate, for example, adjectives or verbs), and on the other hand, to provide information as to the existence of the associated object.
  • the adjective “small” therefore constitutes a main node of the object type
  • This object node x is associated with two properties, one of a feminine gender (referenced F in FIG. 9) and one of size (referenced as small in FIG. 9).
  • the semantic tree illustrated in FIG. 9 is therefore the result of the ambiguity removal relative to the two branches attached to the word "breeze" of FIG. 8.
  • this semantic tree does not make it possible to remove the other ambiguity relating to the interpretation of the sentence, mentioned above.
  • additional analyzes of the contextual type must be performed by the semantic analyzer AS of the device D.
  • this other ambiguity can only be thrown by a cotexual analysis with respect to the sentences previous and / or following of the analyzed document, or contextual (that is to say pragmatic).
  • cotext which refers to the text surrounding a sentence being analyzed
  • context which refers to the environment (in the broad sense) in which a text is produced and / or received.
  • These complementary analyzes are mainly aimed at treating anaphoras and cataphors. They are done by determining within the tables (or lists) objects and actions words that do not have a semantic identity, such as pronouns. In other words, we search among the stored words those that can serve as anaphoremas.
  • the semantic tree on the left corresponds to the phrase "The customer has called”.
  • the main nodes of this semantic tree are "call” and "client”.
  • the word “to call” is the main verb and therefore the act, while the word “client” is a substantive subject of the verb "to call” and therefore an object.
  • the semantic tree on the right corresponds to the part of the sentence "he received his bill late”.
  • the main nodes of this semantic tree are "receive”, “he” and "invoice”.
  • the word “to receive” is the main verb and therefore the act, while the word “he” is a pronoun subject of the verb “to receive” and therefore an object, and the word “invoice” is a substantive direct object complement of the verb "to receive” and thus an object.
  • the separator ":” is here equivalent to "because", so that there is a causal relationship between the two parts of the sentence.
  • the anaphoric "he” can only refer to the client word. Indeed, in the list of instantiated objects of the analyzed document, only the word “client” fulfills the conditions of structural and semantic compatibility (masculine singular substantive, semantically compatible with the actant prime (or subject) of the verb "to receive” which is the word “he”). There is therefore an anaphoric relationship between the words "client” and "he”.
  • Figs. 11A and 11B are illustrated a structural n-ary tree and the associated semantic tree that correspond to the phrase "The invoice arrived after the due date”.
  • Ambiguities are here materialized in the structural n-ary tree by stylized T's placed at the level of the words “after” and “expiry”, and materializing a function of translation of the word of right by the word of left.
  • the word to the left of a stylized T is obligatorily a translative; it is a grammatical word which has the faculty to change the structural category the word which is to the right of the same stylized T. For example, in the phrase “I take the red” (speaking of a garment), the determinant “the” shifts "red” from its original category of adjective to substantive, implying that it There must be an object on the semantic plane compatible with the red color that answers the question asked.
  • FIG 12 In Figure 12 are illustrated two semantic trees corresponding to two parts of a sentence separated by the separator "," (comma). This sentence is "While X is A, Y is B". This example materializes the temporal relation between the two actions respectively carried out by X and Y. More precisely, the analysis of the two semantic trees and the tables of acts and objects, associated with the analyzed document, makes it possible to understand that the action A takes place in a time interval I and that the action B takes place in a time interval I 'which is included in I.
  • Figure 13 are illustrated two semantic trees corresponding to two parts of the same sentence. This sentence is "Peter lost the book I gave him".
  • a main node belonging to a semantic tree can be an act or an object derived from the structural classes verb and substantive.
  • some nodes of a structural n-ary tree may not respond to this constraint. This is particularly the case of the word "red” in the sentence "I take the red”.
  • the word "red” is here an adjective, it can not directly create a main node in the semantic tree. It can only be in principle a value of a property (the color) of an object substantive to which it relates.
  • a complementary analysis parallel to that allowing to solve the anaphors and cataphors, must therefore be carried out. This additional analysis consists in determining the objects, already listed in the object list of the document to be analyzed, the one or those having a property of the same type as that associated with the problem word. In the example, this property is the color.
  • the objects specified in the list are then applied to the semantic constraints are carried by the main verb, here the verb "to take".
  • the "red” value is then assigned to the "color” property of the compatible object which then constitutes a node allowed to be integrated into the semantic tree of the sentence to which it belongs.
  • Figure 13 is illustrated an n-ary tree corresponding to the phrase "Increase the volume of the base xx of yy Go". Ambiguities are here materialized in the structural n-ary tree by stylized Ts placed at the level of the words “base” and “Go” (for "Giga octet”).
  • a first semantic pre-analysis makes it possible to see that the semantically relevant words, that is to say that pertain to the modeled environment, are here "increase”, “volume”, “base”, “xx”, “Go” And yy.
  • Semantic compatibility relationships are for example governed by two types of compatibility rules called C- ⁇ x and C 2 .
  • Compatibility rules of type C / apply to two nodes that are in direct connection, that is to say whose connection (or attachment) does not include an intermediate node. This is for example the case of words
  • connection may, however, include
  • a first group concerns the compatibility based on the actancial / semantic schemas that the language allows to degrade by replacing an object node (NO), such as a substantive, by another object node compatible with the first in the context of metrics.
  • NO object node
  • An actancial scheme (or potential of connection) describes the set of connections (hence the collocation "potential of connection") that a verbal entity is likely to accept, as well as their conditions of realization.
  • Each potential connection is identified by a connectional characteristic, such as Examples are those referenced Act1, Act2 and Det in Figure 8.
  • each potential connection comprises a variable number of structural and / or semantic constraints (for example, the potential Act1 connection of a verb can only be provided by a noun compatible in number, kind and semantically).
  • a second group concerns metric-based compatibility, which privileges the connection of a node associated with a substantive (NO) to a node associated with an adjective (NA), including nodes associated with real nouns ( denoted NO 0 ) and the other nodes associated with unit nouns (denoted NO U ).
  • Compatibility rules of type C 2 apply to two nodes in indirect connection, that is to say whose connection (or attachment) passes through at least one other node. This is for example the case of the words "volume” and "Go”.
  • a metric is defined by the set of values it admits associated with a unit (as well as its multiples and subdivisions).
  • NA belongs to one or more metrics
  • P A the list of all the properties (independently of the objects they define) to which these metrics can be associated
  • NO is defined by a set of properties P 0 , each of which is linked to a metric.
  • Quantitative metrics are usually described intensionally, as a subset satisfying a condition, such as belonging to the set of positive integers or decimals.
  • Qualitative metrics are usually described in extension as a set of discrete values, such as color (red, green, yellow, blue, orange, ...) or beauty (beautiful, ugly, ... ).
  • Quantitative metrics are also distinguishable from qualitative metrics because they allow a relationship of order (values can be classified, which is not the case for pure qualitative metrics), and usually involve the notion of metrics. unit (except in the case of enumeration).
  • a special status must be provided for units and percentages.
  • the units answer the problem of enumeration (creating a category of the absolute), while the percentages make it possible to create relative scales independent of any unit.
  • an exact quantitative metric may correspond to a scale of intensity between -25 and +25
  • an approximate quantitative metric may be defined by discrete values of adjectives such as large, medium, and small.
  • the word “create” (act) is compatible with the word “base” (object) which is a real noun (NO 0 ) defined by properties such as identifier, volume, content, server, etc.
  • the word "empty” is an adjective (NA) that is governed by the word “base”, and must therefore be assigned as a value to one of the properties of the word “base” (NO °).
  • the property identifier has the particularity of not no precise metric, any word, existing or manufactured, that can be used. It follows that it is strongly discouraged to use the words of the current language as identifiers, which provides a first clue to remove the previous ambiguity. An unknown word placed in the right place in a structural tree is a suitable candidate. A second clue is provided by the absence of capital letters.
  • the analysis can be completed by reducing the word "empty" to a number.
  • the metric associated with the content property includes - at least - ⁇ empty, full ⁇ u [0, 100] ...
  • the word “will” is a verb [of complement] of information
  • the word “volume” is a property since the word “sound” refers to an object defined elsewhere (anaphoric connection)
  • the word “ Go comes under the very special category of units that are necessarily associated with a quantitative metric
  • the word” 3 is a numerical adjective (NA) that can belong to all quantitative metrics compatible with positive integers.
  • the word “3" can therefore be assigned as a value to the word "volume” provided that the intersection M VO ium ⁇ MG 0 OM 3 (where M x represents the set of all the metrics that can be associated with x) contains one and one only element. In the opposite case, there is either impossibility if the intersection is empty, or ambiguity if there are several solutions.
  • metrics can provide information. This is for example the case of the phrase "I want to increase my laptop by two hours".
  • FIG. 15 are schematically represented (and summarized) the principal relations between nodes associated with nouns (NO) and nodes associated with adjectives (NA), and the notions related thereto, in particular the metrics, the units, and the constraints (or rules) C1 used to prohibit all triplets (identifier, valuation, measure) that are not valid.
  • figure 16 are schematically represented (and summarized) the principal relations between the categorizing entities of object and act type, and the related notions, notably the circumstances, the modalisations, the properties, the values and the metrics.
  • the device for semantic analysis of documents D according to the invention can be realized in the form of electronic circuits, modules software (or computer), or a combination of circuits and software.
  • the semantic document analysis device D can be used in any application that needs a reliable separation of correctly analyzed texts or messages from those that are not, and an accurate diagnosis that is easy to use for texts or messages incorrectly analyzed.
  • a first application relates to the tools (or equipment) management of electronic mail (for example type email (or "e-mail")).
  • the device D can indeed be used to filter information by determining whether the message which contains this information satisfies a set of semantic criteria.
  • the device D will continue to react positively via its filter, which is irrelevant since the filter provides at least the information required by the super reference group.
  • the super reference groups can be created from the synthesis of the results of the analysis of a corpus of reference messages, which makes it possible to avoid the user responsible for designing the filters the learning of knowledge specific to the application; it is enough for him to have sufficient control of the natural language to be able to elaborate the corpus concerned. It is also possible to juxtapose several filters within a single device D or parallel device D, and couple this device (s) to an interface adapted to the routing, so as to constitute an email manager.
  • a second application concerns orthographic and / or grammatical tools (or equipment).
  • the device D can indeed make it possible, on the one hand, to identify the grammatical errors which generally result from a bad application of the rules of syntax, then to identify the rule not respected and to propose a correction, and on the other hand, to identify the unknown words by separating the proper nouns and the barbarisms, then proposing for these words which are compatible.
  • the device D actually makes it possible to answer the question "which are the words which, substituted for a faulty word, are likely to remove an ambiguity or an error? ".
  • a third application relates to voice dictation tools (or equipment).
  • the device can indeed make it possible to choose one of several solutions proposed by a voice recognition engine.
  • a fourth application concerns tools (or equipment) for generating text.
  • the device D can indeed collaborate with a text generator which is based, for example, on the theory called "Sense ⁇ ->Text" (or TST).
  • a fifth application relates to the tools (or equipment) for generating summaries.
  • the first is to create from scratch a new text that constitutes a digest of the original, with a variable "compression ratio" (but generally high).
  • the second is to extract, based on criteria defined by a user, relevant sections of an original text.
  • the device D can calculate thematic results if it is coupled to a hierarchy function and in the presence of linguistic markers.
  • a sixth application concerns search engines.
  • the search for textual information may consist of searching for either factual information, materialized by a question such as "what is the value of ...? ", Or texts relating to a theme or a predefined subject.
  • the device D can indeed ensure, in the case of the factual research, an adequate semantic indexing allowing to directly produce a response.
  • DBMS database management system
  • the device D can also make it possible, in the case of the search for themed texts, to make distance calculations from thematic results, and then to propose a list of relevant documents according to said calculations. This type of operation could be enriched by the implementation of an accuracy rate.
  • a seventh application concerns multilingual translators.
  • the device D can provide a semantic analysis of text, fast and reliable, to remove the ambiguities of translation. Only a use of the totality of the information present in a text can indeed guarantee a relevant translation, that is to say a translation respecting as much as possible the meaning conveyed by the original text.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Un dispositif (D), dédié à l'analyse sémantique de documents, comprend une base de données structurales et sémantiques (BD) et un interpréteur de document (ID) comportant i) un gestionnaire d'arbre n-aire (GAN) chargé de constituer un arbre n- aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, cet arbre n-aire structural comprenant un nœud racine associé à une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, et ii) un gestionnaire d'arbre sémantique (GAS) chargé de déterminer, à partir de l'arbre n-aire structural et de la base de données (BD), des entités catégorisantes de type objet et de type acte activées par certains nœuds de l'arbre n-aire, afin de construire un arbre sémantique muni de nœuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres nœuds de l'arbre n-aire et de leurs liens respectifs.

Description

DISPOSITIF ET PROCÉDÉ D'ANALYSE SÉMANTIQUE DE DOCUMENTS PAR CONSTITUTION D'ARBRES N-AIRE ET SÉMANTIQUE
L'invention concerne le domaine de l'analyse automatisée de documents ainsi que l'utilisation des résultats de telles analyses.
On entend ici par « document » un ensemble de données représentant des caractères connus ou reconnaissables. Il pourra notamment s'agir d'un texte constitué d'une suite ordonnée d'entités verbales, comme par exemple des mots, des groupes de mots, des chiffres ou des groupes alphanumériques. Par ailleurs, on entend ici par « analyse » tout type de vérification destinée à déterminer si un document possède un sens, compte tenu éventuellement de son contexte.
De plus, on entend ici par « utilisation des résultats » toute opération ou tout procédé pouvant être appliqué à un document analysé, par exemple en vue d'une traduction, éventuellement simultanée, ou en vue d'un filtrage d'information (par exemple dans le cadre d'une gestion de messagerie électronique), ou en vue d'une correction orthographique et/ou grammaticale, ou en vue d'une transcription d'une dictée vocale, ou en vue d'une génération de textes (tels que des résumés), ou encore en vue d'une recherche, au moyen d'un moteur de recherche, d'informations textuelles accessibles dans des serveurs de réseaux privés ou publics (tels qu'Internet).
De nombreuses applications permettent de traiter le langage naturel. Elles sont fondées sur différentes techniques, comme par exemple les analyseurs syntaxiques, les réseaux sémantiques ou les modèles bayésiens, parfois associés à des réseaux de neurones ou à de la logique modale floue.
Ces techniques offrent certains avantages par rapport aux moteurs de recherche de première génération, qui étaient limités par l'emploi de mots clés.
Cependant, dans certains domaines ces techniques s'avèrent insuffisantes, voire inopérantes, en matière de traitement du langage naturel, du fait qu'elles négligent une partie des informations qui sont contenues dans les documents à analyser.
Cela résulte essentiellement de la difficulté majeure que représente pour une machine le traitement automatique du langage naturel du fait de son ambiguïté et de sa polysémie. Le terme « ambiguïté » désigne un énoncé présentant plusieurs interprétations, et le terme « polysémie » désigne les mots qui ont plusieurs sens (la polysémie est une source d'ambiguïté parmi d'autres). En effet, il est extrêmement difficile, voire impossible, de modéliser le langage sans modéliser le sens. En outre, le sens n'étant rien sans sa compréhension, le traitement automatique devrait intégrer une modélisation des mécanismes de la compréhension humaine du sens. Or, on ne sait même pas si la compréhension humaine est modélisable. Aucune technique connue n'étant entièrement satisfaisante, l'invention a donc pour but d'améliorer la situation, et notamment de permettre l'interprétation correcte d'un document par une évaluation automatique du rôle joué par chacune des entités verbales (ou mots) qui composent ce document (tel qu'un texte) sur les plans syntaxique, sémantique et contextuel. Elle propose à cet effet un dispositif d'analyse sémantique de documents, comprenant une base de données structurales et sémantiques et un interpréteur de document chargé de déterminer si un document a un sens à l'aide de la base de données.
Ce dispositif d'analyse sémantique de documents se caractérise par le fait que son interpréteur de document comprend :
- un gestionnaire d'arbre n-aire chargé de constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre n-aire structural comprenant un nœud racine, formé d'une entité verbale régissante primaire, et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, - un gestionnaire d'arbre sémantique chargé de déterminer, au moins à partir de l'arbre n-aire structural et de la base de données, des entités catégorisantes de type objet et de type acte activées par certains nœuds de l'arbre n-aire, afin de construire un arbre sémantique muni de nœuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres nœuds de l'arbre n-aire et de leurs liens respectifs.
En d'autres termes, le gestionnaire d'arbre sémantique est chargé de transformer chaque arbre (structural) n-aire en un arbre sémantique, d'une première part, en extrayant de celui-ci des entités catégorisantes, d'une deuxième part, en créant des liens sémantiques entre entités catégorisantes extraites à partir de l'interprétation des liens structuraux qui relient les entités verbales qui ont activé ces entités catégorisantes, et d'une troisième part, en affectant à chaque entité catégorisante extraite une liste d'au moins un attribut selon un modèle (ou patron) défini par un lexique.
On entend ici par « lexique » une liste d'entrées (les entités verbales) définies chacune par :
- des caractéristiques structurales catégorisantes, par exemple verbe, substantif, etc., genre, nombre, etc., et/ou
- des contraintes structurales, c'est-à-dire des schémas actanciels (potentiels de connexion), et/ou - des caractéristiques sémantiques génériques, c'est-à-dire une décomposition sur les ontologies sous-jacentes, et/ou
- des contraintes sémantiques spécifiques à chaque classe structurale, c'est-à-dire des relations de compatibilité sémantique qui exploitent les caractéristiques sémantiques génériques, et/ou - des fonctions lexicales, et/ou
- des patrons (comportant chacun un modèle de connexion sémantique et une liste de propriétés (ou attributs)) servant de modèles lors de la construction des nœuds de l'arbre sémantique.
Par ailleurs, une contrainte est un lien régulé définissant une caractéristique connexionnelle.
On peut également, et éventuellement, affecter aux attributs des valeurs issues des nœuds de l'arbre n-aire n'ayant pas encore été exploités. On entend ici par « entité catégorisante de type objet » une abstraction obtenue (essentiellement) par catégorisation d'objets du monde réel (comme par exemple une table, une étoile ou une rosé) ou de notions abstraites qui fonctionnent comme des métaphores d'objets réels (comme par exemple des sentiments), généralement référencés par des substantifs (la réciproque n'étant pas nécessairement vraie).
Par ailleurs, on entend ici par « entité catégorisante de type acte » une abstraction obtenue (essentiellement) par catégorisation d'actions du monde réel (comme par exemple aller ou déplacer) ou de notions abstraites qui fonctionnent comme des métaphores d'actions réelles (comme par exemple penser ou aimer) pouvant être référencées soit (préférentiellement) par des verbes, soit par des substantifs (dans ce cas la construction de l'arbre sémantique nécessite une étape supplémentaire consistant à appliquer une fonction lexicale pour transformer la structure substantivale en une structure verbale (cette fonction lexicale faisant partie de la définition du substantif concerné) - à titre d'exemple on peut citer la transformation de l'expression « le déplacement de la table » en l'expression « déplacer la table »), soit par toute autre catégorie structurale selon un procédé propre à la langue considérée.
En outre, selon l'invention un document possède au moins un sens dès lors que l'on a pu constituer un arbre sémantique à partir de ses entités verbales.
Le dispositif selon l'invention peut comporter d'autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment :
- son interpréteur de document peut comprendre un gestionnaire d'arbre binaire chargé de constituer un arbre binaire structural à partir de la décomposition d'un document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, cet arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de la suite et constituant l'un des deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de la suite. Dans ce cas, le gestionnaire d'arbre n-aire est chargé de constituer chaque arbre n-aire à partir d'un arbre binaire structural ;
- son interpréteur de document peut comprendre un module de décomposition chargé de décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales ;
- son interpréteur de document peut comprendre un analyseur sémantique chargé de déterminer les relations de compatibilité sémantique entre noeuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique ;
- son analyseur sémantique peut être chargé de déterminer des relations entre nœuds principaux d'au moins un arbre sémantique parmi des relations spatiale, temporelle, causale, anaphorique et cataphorique ; - son analyseur sémantique peut être chargé d'effectuer un diagnostic relatif à l'analyse d'un document, et de délivrer un message représentatif du résultat de ce diagnostic. Ce message de diagnostic précise la nature des problèmes rencontrés pendant l'analyse du document. Il peut par exemple comprendre à cet effet des informations représentatives des difficultés rencontrées pendant l'analyse d'un document, et/ou des possibilités d'interprétations différentes d'une phrase (qui résultent de la présence d'ambiguïtés non encore résolues), et/ou d'au moins un mot inconnu, et/ou d'au moins une faute de grammaire, et/ou d'au moins un défaut de construction, et/ou d'au moins un non-sens, et/ou d'une liste d'ambiguïtés non résolues. L'invention propose également un procédé d'analyse sémantique de documents consistant :
- à constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre n-aire structural comprenant un nœud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, - à déterminer, au moins à partir de l'arbre n-aire structural et de données stockées dans une base de données structurales et sémantiques, des entités catégorisantes de type objet et de type acte activées par certains nœuds de l'arbre n-aire, afin de construire un arbre sémantique muni de nœuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres nœuds de l'arbre n-aire et de leurs liens respectifs.
Le procédé selon l'invention peut comporter d'autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment :
- avant de constituer un arbre n-aire, on peut constituer un arbre binaire structural à partir de la décomposition d'un document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de la suite et constituant l'un des deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de la suite. Dans ce cas, on constitue chaque arbre n-aire à partir d'un arbre binaire structural ;
- avant de constituer un arbre binaire ou un arbre n-aire, on peut décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales ;
- on peut déterminer les relations de compatibilité sémantique entre nœuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique ;
- on peut déterminer si le document analysé possède un sens en déterminant des relations entre nœuds principaux d'au moins un arbre sémantique, choisies parmi des relations spatiale, temporelle, causale, anaphorique, et cataphorique ; - après avoir constitué un arbre sémantique, on peut effectuer un diagnostic relatif à l'analyse d'un document, puis délivrer un message représentatif du résultat du diagnostic. Ce message de diagnostic précise la nature des problèmes rencontrés pendant l'analyse du document. Il peut par exemple comprendre à cet effet des informations représentatives des difficultés rencontrées pendant l'analyse d'un document, et/ou des possibilités d'interprétation différentes d'une phrase, et/ou d'au moins un mot inconnu, et/ou d'au moins une faute de grammaire, et/ou d'au moins un défaut de construction, et/ou d'au moins un non- sens, et/ou d'une liste d'ambiguïtés non résolues.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés, sur lesquels :
- la figure 1 illustre de façon très schématique et fonctionnelle un exemple de réalisation d'un dispositif d'analyse sémantique de documents selon l'invention,
- la figure 2 illustre de façon schématique les principales étapes d'un exemple d'algorithme de décomposition d'un document en entités verbales,
- la figure 3 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre binaire structural à partir d'une décomposition de document en entités verbales,
- la figure 4 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre n-aire structural à partir d'un arbre binaire structural,
- la figure 5 est un diagramme arborescent, non limitatif, illustrant schématiquement des relations entre différents types, sous-types et sous-sous- types d'entités catégorisantes,
- la figure 6 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre sémantique à partir d'un arbre n-aire structural, - la figure 7 illustre de façon schématique un exemple d'arbre binaire structural,
- la figure 8 illustre de façon schématique un exemple d'arbre n-aire structural résultant de l'arbre binaire structural de la figure 7,
- la figure 9 illustre de façon schématique un exemple d'arbre sémantique résultant de l'arbre n-aire structural de la figure 8, - la figure 10 illustre de façon schématique des relations causale et anaphorique dans un autre exemple d'arbre sémantique,
- les figures 11A et 11B illustrent de façon schématique respectivement un autre exemple d'arbre n-aire structural et l'arbre sémantique associé dans le cas d'une gestion chronologique, - la figure 12 illustre de façon schématique une relation temporelle entre deux exemples d'arbre sémantique, - la figure 13 illustre de façon schématique des relations temporelle et anaphorique entre deux autres exemples d'arbre sémantique,
- la figure 14 illustre de façon schématique des relations de compatibilité sémantique entre des entités verbales d'un autre exemple d'arbre sémantique, - la figure 15 illustre schématiquement les principales relations entre des nœuds associés à des substantifs (NO) et des nœuds associés à des adjectifs (NA), et les principales notions qui y sont rattachées (en particulier les métriques), et
- la figure 16 illustre schématiquement les principales relations entre des entités catégorisantes de type objet et acte, et les principales notions qui y sont rattachées.
Les dessins annexés pourront non seulement servir à compléter l'invention, mais aussi contribuer à sa définition, le cas échéant.
L'invention a notamment pour objet de permettre la structuration, par le sens, de l'information contenue dans un document à analyser, au moyen, notamment, d'un modèle de levée automatique d'une partie au moins des ambiguïtés et polysémies inhérentes aux documents en langage naturel.
On se réfère tout d'abord à la figure 1 pour décrire un exemple de réalisation d'un dispositif d'analyse sémantique de documents D, selon l'invention.
Dans ce qui suit, on considère à titre d'exemple non limitatif que le dispositif D est dédié à la levée automatique d'ambiguïtés et de polysémies de documents de type texte.
Un tel dispositif D peut par exemple être implanté dans un ordinateur ou un serveur d'application(s) dont il utilise certaines ressources, notamment de calcul (CPU). Un dispositif d'analyse D, selon l'invention, comporte au moins une base de données structurales et sémantiques BD et un interpréteur de document ID.
La base de données BD, également appelée lexique (ou référentiel- lexique), comprend des mots (ou entités verbales) auxquel(le)s sont affectées des propriétés syntaxiques et sémantiques ainsi que des règles de composition (ou liens). Les propriétés et liens (ou règles) constituent des données qui servent à construire des entités catégorisantes (ou conceptuelles) de type acte et objet.
Les définitions des entités catégorisantes ont été données précédemment. Par ailleurs, on entend ici par « propriété » une abstraction obtenue par catégorisation de notions à caractère définitoire, basées sur des ensembles de valeurs, généralement référencées par des substantifs (comme par exemple la couleur ou la taille). Une valeur est par définition une abstraction directement référencée par un adjectif et nécessairement liée à une propriété. Les valeurs peuvent généralement être associées à des échelles quantitatives (« objectives ») et/ou qualitatives (« subjectives »), comme on le verra plus loin lors de l'introduction de la notion de métrique.
Les mots sont classés au sein de classes structurales de verbes, de substantifs, d'adjectifs, d'adverbes et de mots structurants. Toutes ces classes peuvent se subdiviser par exemple en sous-classes, sous-sous-classes, et ainsi de suite (comme on le verra plus loin en référence à la figure 15 où les NOA, NOU et analogues sont des sous-classes de la classe des substantifs).
Une entité catégorisante est chargée d'engendrer librement du sens ambigu par association avec d'autres entités catégorisantes, sous le contrôle de propriétés qui limitent leur liberté au respect d'une structure syntaxique et sémantique contrôlée.
Les liens sont chargés de contrôler les propriétés à travers des surdéterminations pragmatiques (contraintes pragmatiques faibles ou fortes), soit issues du document (texte) lui même, soit issues du contexte général. Par « contraintes pragmatiques faibles » on entend ici le fait qu'aucun référentiel généraliste en contexte ouvert ne saurait épuiser toutes les possibilités d'interprétation d'un message textuel. Les liens offrent une souplesse au processus de levée d'ambiguïté (ou désambiguïsation) en activant ou en désactivant certaines règles des propriétés suivant les besoins, par exemple en privilégiant la sémantique sur la syntaxe quand une phrase agrammaticale présente manifestement un sens. Leur rôle dans la désambiguïsation est essentiel.
Comme cela est illustré sur la figure 1 , la base de données BD peut être subdivisée en une base de données généralistes BD1 et une base de données spécialisées BD2.
La base de données généralistes BD1 , également appelée lexique général, comporte des entrées, typiquement plusieurs dizaines de milliers (par exemple 80 000) qui définissent des formes fléchies (typiquement plusieurs centaines de milliers, et par exemple plus de 300 000), munies de données traduisant des contraintes pragmatiques faibles intervenant notamment dans la désambiguïsation du sens intrinsèque d'un texte qui préserve sa polysémie générale. La base de données spécialisées BD2, également appelée lexique spécialisé, comporte des données traduisant des particularités linguistiques d'un contexte précis (contraintes pragmatiques fortes) qui permettent de limiter la polysémie générale des messages pour en extraire un ou plusieurs sens interprétés localement pertinents. Plus la définition du contexte est détaillée, plus l'interprétation finale est simple à réaliser.
Les propriétés sémantiques sont organisées selon une taxinomie et distribuées sur les axes de trois référentiels primaires multidimensionnels - le réel matériel, l'intentionnel et le contextuel. Elles sont indépendantes des syntaxes classiques qui n'intègrent que faiblement les paramètres sémantiques. Par conséquent elles ne sont pas spécifiques à une langue particulière.
Chaque référentiel primaire multidimensionnel dispose d'axes de décomposition des propriétés sémantiques et d'une logique de composition propre. Les logiques associées aux trois référentiels primaires sont de type modal.
Le calcul des contributions à la désambiguïsation de chaque référentiel primaire se fait selon une évaluation d'une ou plusieurs résultantes qui fixent les paramètres de son influence sur le processus général de désambiguïsation. Si les axes intentionnels et contextuels se prêtent au calcul de telles résultantes, en revanche le réel matériel apporte dans la quasi totalité des langues connues, une contribution différenciée qu'il n'est pas toujours possible de réduire à une composante globale. On exploite ainsi les propriétés sémantiques portant sur le réel en préservant les quatre axes classiques d'un espace spatio-temporel à 4 dimensions.
Les entités catégorisantes sont des objets dynamiques d'un univers linguistique à six dimensions muni d'une algèbre en logique multimodale. Un ensemble de règles de compatibilité entre propriétés régissent les interactions entre entités catégorisantes.
L'interpréteur de document ID est chargé de déterminer si un document a un sens à l'aide de la base de données BD et de fonctions de traitement mettant en œuvre un modèle mathématique sur lequel on reviendra plus loin. Il comprend au moins un gestionnaire d'arbre n-aire GAN et un gestionnaire d'arbre sémantique GAS, ainsi qu'éventuellement un analyseur sémantique AS. Le gestionnaire d'arbre n-aire GAN est chargé de constituer, à l'aide de ses fonctions de traitement et de la base de données BD, un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales (ou mots, ou groupes de mots, ou encore groupes alphanumériques) et de contraintes structurales et/ou sémantiques choisies et définies dans la base de données BD.
Un texte (ou document) étant généralement constitué de phrases, on considère dans ce qui suit que chaque phrase constitue tout ou partie d'une suite ordonnée d'entités verbales.
Il est important de noter que les suites ordonnées d'entités verbales sont par exemple fournies par un module de décomposition de document MD qui, comme dans l'exemple illustré sur la figure 1 , peut faire partie du dispositif D. Mais, cela n'est pas obligatoire. En effet, lorsque le dispositif D ne comporte pas de module de décomposition de document MD, les suites peuvent lui être directement fournies par un équipement externe. Le module de décomposition de document MD est chargé, lorsqu'il existe, de décomposer chaque ensemble de données, qui définit un document (tel qu'un texte), en une suite ordonnée d'entités verbales à analyser. Dans la plupart des situations, après avoir décomposé un document en une suite ordonnée d'entités verbales on ne procède pas à l'identification de la langue et de sa structure syntaxique. Cette dernière si elle n'est pas donnée, est identifiée à l'étape suivante. Cependant, on peut envisager de déterminer, à ce stade, des séparateurs spécifiques à une langue donnée, comme par exemple pour le chinois.
Chaque arbre n-aire structural, qui est construit par le gestionnaire d'arbre n-aire GAN, comprend un nœud racine qui est associé à une entité verbale régissante dite primaire et à des structures qui sont formées d'une entité verbale subordonnée dite secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle. La mise en place d'un lien (identifié par sa (ou ses) caractéristique(s) connexionnelle(s)) dans un arbre structural binaire se fait par application des contraintes structurales et/ou sémantiques fournies par les potentiels de connexion qui sont associés aux données élémentaires (issues de la base de données (ou lexique) BD1 ou BD2) des deux entités verbales concernées.
Certaines entités verbales subordonnées secondaires peuvent devenir à leur tour des entités verbales régissantes.
Chaque arbre n-aire structural peut être construit à partir d'un arbre binaire, lui-même construit à partir d'une suite ordonnée d'entités verbales, éventuellement fournie par le module de décomposition MD.
Dans ce cas, l'interpréteur de document ID comprend, comme illustré sur la figure 1 , un gestionnaire d'arbre binaire structural. Ce dernier est chargé de recomposer chaque suite ordonnée d'entités verbales qu'il reçoit en un arbre binaire structural. Plus précisément, comme on le verra ci-après deux noeuds adjacents entrent en composition pour former un nouveau nœud, sachant qu'au départ on ne dispose que de feuilles.
Un arbre binaire structural comprend un nœud racine qui représente l'ensemble des entités verbales d'une phrase (ou portion de phrase) à traiter, et qui constitue un nœud père pour deux nœuds fils résultant de sa décomposition binaire. Selon le nombre d'entités verbales que comporte un nœud fils, il constitue soit une feuille de l'arbre binaire, soit un nœud père décomposable à son tour, de façon binaire, en deux nœuds fils.
En d'autres termes, la décomposition binaire du nœud racine donne deux nœuds fils qui peuvent à leur tour être des nœuds pères pouvant faire l'objet d'une décomposition binaire et ainsi de suite jusqu'à ce que chaque feuille de l'arbre binaire soit occupée par une entité verbale (mot) de la (portion de) phrase traitée.
Cette décomposition binaire se fait en fonction de contraintes structurales et/ou sémantiques stockées dans la base de données BD. Préférentiellement, l'utilisateur du dispositif D n'intervient pas à ce stade. Son intervention se réduit éventuellement à la définition de règles locales permettant d'outrepasser certaines règles générales (comme par exemple interdire l'application des règles d'accord en genre). Le gestionnaire d'arbre binaire GAB et/ou le gestionnaire d'arbre n-aire GAN peuvent disposer d'une fonction d'identification des unités lexicales (ou entités verbales) propres à la langue utilisée pour rédiger (ou dicter) un document, permettant de mettre en évidence des ambiguïtés lexicales. Le gestionnaire d'arbre sémantique GAS est chargé de déterminer des entités catégorisantes de type objet et de type acte à partir de l'arbre n-aire structural et des données stockées dans la base de données BD.
Il est ici rappelé qu'une entité catégorisante de type objet est une abstraction obtenue (essentiellement) par catégorisation d'objets du monde réel ou de notions abstraites qui fonctionnent comme des métaphores d'objets réels, généralement référencés par des substantifs. Par ailleurs, une entité catégorisante de type acte est une abstraction obtenue (essentiellement) par catégorisation d'actions du monde réel ou de notions abstraites qui fonctionnent comme des métaphores d'actions réelles pouvant être référencées soit (préférentiellement) par des verbes, soit par des substantifs (dans ce cas la construction de l'arbre sémantique nécessite une étape supplémentaire consistant à appliquer une fonction lexicale pour transformer la structure substantivale en une structure verbale).
Comme on le verra plus loin, le gestionnaire d'arbre sémantique GAS peut, dans certaines situations, se servir des informations contenues dans un ou plusieurs autres arbres n-aires correspondant à d'autres phrases d'un même document pour constituer un arbre sémantique. C'est notamment le cas en présence d'ambiguïtés de type anaphore ou cataphore.
Chaque arbre sémantique est constitué de nœuds principaux qui sont chacun associés à au moins une entité catégorisante de type objet ou de type acte, qui est activée par certains nœuds de l'arbre n-aire, et qui sont liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres nœuds de l'arbre n-aire et de leurs liens respectifs. L'analyseur sémantique AS est chargé de déterminer les relations de compatibilité sémantique entre les nœuds principaux de type objet et/ou les nœuds principaux de type acte d'au moins un arbre sémantique. Les relations de compatibilité sémantique exploitent les caractéristiques sémantiques. Par exemple, seul un « humain », qui est une entité catégorisante de type objet, peut « penser », qui est une entité catégorisante de type acte.
L'analyseur sémantique AS constitue un outil de diagnostic d'analyse de document. Il peut par exemple préciser quelles difficultés ont été rencontrées pendant l'analyse d'un document (ou d'une phrase) et/ou différentes possibilités d'interprétation d'une phrase et/ou des mots inconnus et/ou des fautes de grammaire (par exemple des règles d'accord non respectées) et/ou des défauts de construction et/ou des non-sens (par exemple des règles de compatibilité sémantique non respectées) et/ou des ambiguïtés qui n'ont pas pu être résolues.
Grâce aux diagnostics fournis, il est alors par exemple possible de classer des messages, ou de résoudre une situation problématique (par application d'une règle locale ou par identification d'un défaut d'information empêchant la compréhension complète d'un message), ou encore de savoir pourquoi un message est jugé « incompréhensible ». En outre, lorsque le diagnostic fourni est compréhensible et répertorié, des actions automatisées peuvent être entreprises.
Comme indiqué précédemment, les différents éléments composant l'interpréteur de document ID utilisent des fonctions de traitement qui mettent en œuvre un modèle mathématique. Ce dernier repose sur plusieurs algorithmes qui interviennent sur les liens qui sont pourvus d'au moins une caractéristique connexionnelle et qui sont établis entre des structures formées d'une entité verbale subordonnée secondaire et un nœud racine. Plus précisément, ces algorithmes exploitent les propriétés des entrées de la base de données BD, préalablement transformées en entités catégorisantes dont les données et les liens constituent les propriétés.
Comme évoqué précédemment, les entités catégorisantes constituent des variétés distribuées suivant des axes regroupés en trois référentiels primaires différents. Les variétés peuvent interagir et se combiner via des règles de composition lexicales, syntaxiques, sémantiques, et pragmatiques dans un univers linguistique à six dimensions.
Le traitement des ambiguïtés se fait transversalement, non pas successivement mais de façon interactive, en fonction des règles de compatibilité 55
15
de chaque entité catégorisante avec d'autres entités catégorisantes.
Les propensions de plusieurs entités catégorisantes à cohabiter ou à s'exclure, par activation ou désactivation de règles de compatibilité, dirigent la réalisation de graphes linguistiques primaires, sous la forme de groupes constituant des arbres structuraux (binaires ou n-aires).
Les groupes sont assimilables à des syntagmes disposant de propriétés syntaxiques et sémantiques. Ils héritent de nouvelles disponibilités de composition d'un ordre supérieur qui autorisent la création de graphes linguistiques secondaires ou super groupes qui correspondent grossièrement à des phrases informatives éventuellement agrémentées d'un diagnostic, par exemple sous la forme d'un classement en « information compréhensible », « information douteuse »,
« information absurde » ou « information hors contexte ».
Il est important de noter que les notions de « primaire » et de
« secondaire », relatives aux graphes linguistiques, ne sont là que pour mettre en évidence le caractère récursif de la construction. Elles traduisent une progression dans la complexité des associations réalisées.
Le modèle mathématique fait interagir librement les données entre elles sous le seul contrôle des règles de compatibilité de leurs propriétés respectives.
Diverses hypothèses sont explorées et se réduisent, par exemple au moyen d'une méthode de réduction d'hypothèses inspirée du système modal dit « S4 » de
Gerhard Gentzen.
Les règles de compatibilité sont de premier et de second niveau, elles permettent de lever dès que possible les différents types d'ambiguïtés de premier niveau qui peuvent apparaître dans une suite ordonnée d'entités verbales (ou phrase).
Une algèbre de compatibilité entre les différentes variétés d'entités catégorisantes permet de constituer des groupes de plusieurs entités catégorisantes syntaxiquement et sémantiquement compatibles. Cette algèbre de compatibilité est constituée des règles de compatibilité sémantique. Si il n'y a qu'un seul super groupe mathématiquement possible, la phrase est totalement désambiguïsée (et donc comprise). En revanche, si plusieurs super groupes sont mathématiquement possibles, la phrase demeure ambiguë (et donc non comprise).
Le super groupe peut ensuite être mis en relation avec la phrase (ou le document) originel(le) en vue de l'exploitation des informations structurées qu'il contient. Par exemple, on peut comparer un super groupe avec des super groupes de référence (définissant des filtres pré paramétrés, éventuellement issus d'une analyse de questions - en langage naturel - posées par des utilisateurs ou par d'autres textes). On peut également effectuer des opérations sur des ensembles de super groupes, comme par exemple des calculs de distance ou des contrôles de cohérence. On peut également utiliser un ou plusieurs super groupes pour extraire des informations spécifiques, comme par exemple des résumés. On peut encore utiliser un ou plusieurs super groupes pour générer de nouveaux messages.
On se réfère à la figure 2 pour décrire les principales étapes d'un exemple d'algorithme de décomposition d'un document en entités verbales. Cet algorithme est mis en œuvre par le module de décomposition MD du dispositif D selon l'invention. Il est important de noter que lorsque l'on utilise d'autres méthodes de décomposition que celle décrite ci-après, le module de décomposition MD est adapté en conséquence. Ainsi, il peut par exemple reposer sur l'utilisation de transducteurs. En A, le module de décomposition MD reçoit un document à analyser. Il s'agit par exemple d'un texte en langage naturel. Dans une étape 10, le module de décomposition MD détermine (lit) le premier caractère du document. Puis, dans une étape 20 le module de décomposition MD effectue un test afin de déterminer si le caractère lu est le dernier du document. Si tel est le cas, la décomposition du document prend fin en B. En revanche, si le caractère lu n'est pas le dernier du document, le module de décomposition MD effectue un nouveau test dans une étape 30 afin de déterminer si le caractère lu est un séparateur. Si ce n'est pas le cas, dans une étape 40 le module de décomposition MD ajoute ce caractère au mot qui est en cours de composition, puis il retourne à l'étape 10 afin de recommencer les étapes de l'algorithme avec le caractère suivant du document. En revanche, si le caractère lu n'est pas un séparateur, le module de décomposition MD effectue un nouveau test dans une étape 50 afin de déterminer si le caractère lu est le dernier d'un mot en cours de composition. Si te! est le cas, dans une étape 60 le module de décomposition MD identifie le mot qui vient d'être composé, puis il stocke le mot dans une mémoire tampon avant de retourner à l'étape 10 afin de recommencer les étapes de l'algorithme avec le caractère suivant du document. En revanche, si le caractère lu n'est pas le dernier d'un mot en cours de composition, le module de décomposition MD crée, dans une étape 55, un niveau qui matérialise un trait d'union, puis il passe à l'étape 60.
Les séparateurs sont soit des séparateurs de mots (ce qui conduit effectivement à l'étape 60), soit des séparateurs d'unités de textes de différents niveaux logiques, imbriquées les unes dans les autres, telles que des segments, des phrases, des paragraphes, ou des chapitres.
Cet exemple d'algorithme est ainsi appliqué à chaque caractère d'un document jusqu'au dernier. Cet algorithme de décomposition fournit ainsi une suite ordonnée d'entités verbales constituées respectivement de mots, groupes de mots, chiffres ou groupes alphanumériques, généralement séparés par des séparateurs, et dont le sens doit être analysé.
La mise en œuvre de l'algorithme de décomposition de document peut se faire au moyen d'un transducteur, par exemple construit sous la forme d'un automate à états finis qui optimise à la fois l'espace mémoire requis et les performances.
L'analyse de sens d'une suite ordonnée d'entités verbales commence de préférence par la constitution d'un arbre binaire structural pour chaque phrase du document. Lorsque le document ne comprend qu'une seule phrase, toute la suite ordonnée d'entités verbales sert à construire un arbre binaire. En revanche, lorsque le document comprend plusieurs phrases, chaque portion de la suite ordonnée d'entités verbales, qui correspond à une phrase, sert à construire un arbre binaire.
On se réfère à la figure 3 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre binaire structural. Cet algorithme est mis en œuvre par le gestionnaire d'arbre binaire GAB du dispositif D selon l'invention. En B, le gestionnaire d'arbre binaire GAB reçoit une suite ordonnée d'entités verbales. Cette suite est par exemple fournie par le module de décomposition de document MD qui met en œuvre un algorithme de décomposition du type de celui décrit ci-avant. Mais, cela n'est pas obligatoire. En effet, lorsque le dispositif D ne comporte pas de module de décomposition de document MD, les suites peuvent être directement fournies au gestionnaire d'arbre binaire GAB par un équipement externe. Dans une étape 100, le gestionnaire d'arbre binaire GAB procède à l'initialisation de l'arbre binaire structural à construire.
Puis, dans une étape 110 le gestionnaire d'arbre binaire GAB met par exemple à zéro (0) la valeur d'un compteur de nœud père i de l'arbre binaire structural. Il ne s'agit ici que d'un exemple de mise en œuvre. Par exemple, en présence d'un langage capable de gérer des listes, la gestion du compteur peut ne plus être assurée par le programmeur. On peut alors utiliser un algorithme de parcours de la structure physique qui a été utilisée pour implémenter la liste.
A l'exception du nœud racine (i=0) qui est constitué de l'ensemble des entités verbales de la phrase à traiter, chaque autre nœud père (i>0) de l'arborescence binaire représente le résultat d'une partie de la décomposition binaire des entités verbales qui occupent son propre nœud père. La décomposition binaire du nœud racine donne deux nœuds fils qui peuvent à leur tour être des nœuds pères pouvant faire l'objet d'une décomposition binaire et ainsi de suite jusqu'à ce que chaque feuille de l'arbre binaire soit occupée par une entité verbale (mot) de la phrase traitée.
La décomposition binaire se fait en fonction de contraintes structurales et/ou sémantiques stockées dans la base de données BD.
Dans une étape 120 le gestionnaire d'arbre binaire GAB commence l'analyse du nœud père i pointé en mettant à zéro (0) la valeur d'un compteur de nœud fils j de l'arbre binaire structural. Puis, il procède à une décomposition des entités verbales du nœud père i pointé en deux parties j et j' (non représenté).
Dans une étape 130 le gestionnaire d'arbre binaire GAB effectue un test pour déterminer si la partie j pointée, résultant de la décomposition du nœud père i pointé, satisfait à une ou plusieurs contraintes structurales et/ou sémantiques choisies. Si ce n'est pas le cas, il passe à l'étape 140. Dans le cas contraire, dans une étape 135 le gestionnaire d'arbre binaire GAB définit un nouveau nœud (de connexion) au sein de l'arbre binaire afin de l'attribuer à la partie j pointée, puis il passe à l'étape 140. Ce nouveau nœud j est alors un nœud fils du nœud père i pointé.
A l'étape 140, le gestionnaire d'arbre binaire GAB effectue un test pour déterminer si la partie j pointée qui vient d'être traitée est la dernière partie résultant de la décomposition du nœud père i pointé. Si ce n'est pas le cas, dans une étape 150 le gestionnaire d'arbre binaire GAB incrémente d'une unité le compteur d'indice j, puis il retourne effectuer l'étape 130. En revanche, si la partie j pointée qui vient d'être traitée est la dernière partie résultant de la décomposition du nœud père i pointé, alors le gestionnaire d'arbre binaire GAB effectue un autre test dans une étape 160 pour déterminer s'il y a d'autres nœuds i à traiter. Si ce n'est pas le cas, dans une étape 170 le gestionnaire d'arbre binaire GAB incrémente d'une unité le compteur d'indice i, puis il retourne effectuer l'étape 120. En revanche, si il n'y a plus de nœud i à traiter le gestionnaire d'arbre binaire GAB effectue un autre test dans une étape 180 pour déterminer si la dernière itération effectuée à l'étape 135 n'a pas créé de nouveaux nœuds et donc de nouvelles possibilités de connexion qu'il est nécessaire d'explorer. Si ce n'est pas le cas, l'arbre binaire structural est constitué et l'algorithme de construction d'arbre binaire prend fin en C. En revanche, si une itération doit être effectuée, le gestionnaire d'arbre binaire GAB retourne effectuer l'étape 110. Un exemple d'arbre binaire structural correspondant à la phrase « La petite brise la glace » est illustré sur la figure 7. Dans cet exemple, le nœud racine correspond à toute la phrase « La petite brise la glace ». Un premier nœud fils du nœud racine comprend les mots « La petite brise», tandis que le second nœud fils du nœud racine comprend les mots « la glace »). Le premier nœud fils (« La petite brise») est alors un nœud père pour ses deux nœuds fils associés respectivement aux mots « brise » et « La petite ». Le nœud fils associé au mot « brise » est une feuille de l'arborescence binaire qui ne peut plus être décomposée. Le nœud fils associé aux mots « La petite » est alors un nœud père pour ses deux nœuds fils associés respectivement aux mots « La » et « petite ». Les nœuds fils associés respectivement aux mots « La » et « petite » sont des feuilles de l'arborescence binaire qui ne peuvent plus être décomposées. De même, le second nœud fils (« la glace ») est un nœud père pour ses deux nœuds fils associés respectivement aux mots « la » et « glace ». Les noeuds fils associés respectivement aux mots « la » et « glace » sont des feuilles de l'arborescence binaire qui ne peuvent plus être décomposées.
Une fois un arbre binaire construit, l'analyse de sens d'une suite ordonnée d'entités verbales se poursuit par la constitution d'un arbre n-aire structural pour chaque phrase du document. On entend ici par « arbre n-aire » un arbre dans lequel la décomposition d'un nœud père aboutit à un nombre quelconque de nœuds fils, ce nombre pouvant varier d'un nœud père à l'autre.
On se réfère à la figure 4 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre n-aire structural. Cet algorithme est mis en œuvre par le gestionnaire d'arbre n-aire GAN du dispositif D selon l'invention.
Il est important de noter que dans l'exemple illustré sur la figure 1 , le gestionnaire d'arbre n-aire GAN est alimenté en arbres binaires par le gestionnaire d'arbre binaire GAB du dispositif D. Mais, cela n'est pas obligatoire. En effet, on peut envisager que le gestionnaire d'arbre n-aire GAN soit alimenté en arbres binaires par un équipement externe, ou bien qu'il soit agencé de manière à construire directement un arbre n-aire à partir d'une suite ordonnée d'entités verbales, et donc sans qu'il faille préalablement construire un arbre binaire.
En C, le gestionnaire d'arbre n-aire GAN reçoit la description d'un arbre binaire, par exemple fournie par l'algorithme de constitution d'arbre binaire structural décrit ci-avant. Dans une étape 200, le gestionnaire d'arbre n-aire GAN procède à l'initialisation de l'arbre n-aire structural à construire. Il crée un premier nœud C (courant) dans l'arbre n-aire qui devient son nœud racine, et met à zéro un compteur d'indice i de nœud de l'arbre binaire associé. II est important de noter que chaque nœud d'un arbre n-aire est associé à une unique entité verbale (ou mot) provenant d'une feuille de l'arbre binaire, contrairement audit arbre binaire qui comporte des nœuds intermédiaires associés à plusieurs entités verbales (ou mots).
Dans une étape 210 le gestionnaire d'arbre n-aire GAN prend un nœud d'indice i dans l'arbre binaire, puis dans une étape 220 il effectue un test pour déterminer si ce nœud d'indice i est une feuille de l'arbre binaire.
Si tel est le cas, le gestionnaire d'arbre n-aire GAN effectue un test dans une étape 230 pour déterminer si le nœud d'indice i est de type régissant (R) ou de type subordonné (S).
Si le nœud d'indice i est régissant (R), alors dans une étape 240 le gestionnaire d'arbre n-aire GAN associe au nœud courant C le nœud feuille d'indice i de l'arbre binaire, et ce nœud courant C est alors considéré comme le père d'au moins un nœud fils de l'arbre n-aire. Il est en effet rappelé qu'à chaque nœud père d'un arbre binaire correspond systématiquement un nœud fils régissant et un nœud fils subordonné. Par conséquent, les deux nœuds fils feuilles de chaque nœud intermédiaire père d'un arbre binaire peuvent être liés l'un à l'autre pour constituer au sein de l'arbre n-aire associé une structure dans laquelle le nœud fils régissant est rattaché au nœud fils subordonné correspondant par un lien qui peut être associé à des caractéristiques connexionnelles de leur nœud père. En raison de ce type de rattachement entre nœuds feuilles de l'arbre binaire, au sein de l'arbre n- aire associé, le nœud racine de l'arbre n-aire ne peut être qu'un nœud feuille régissant qui est rattaché, directement et indirectement, au nœud racine de l'arbre binaire associé par un ou des nœuds intermédiaires exclusivement de type régissant. En d'autres termes, ce nœud racine est issu d'une lignée exclusivement régissante.
Après cette étape 240, le gestionnaire d'arbre n-aire GAN passe à une étape 270.
En revanche, si le nœud d'indice i n'est pas de type régissant (R), c'est donc qu'il est de type subordonné (S). Par conséquent, il doit être rattaché par un lien (ou branche B) au nœud régissant (R) qui est rattaché à son propre nœud père au sein de l'arbre binaire. Dans une étape 250 le gestionnaire d'arbre n-aire GAN connecte (rattache) donc le nœud subordonné (S) d'indice i au nœud régissant (R) correspondant, au moyen d'un lien associé à des caractéristiques connexionnelles de leur nœud père. Puis, le gestionnaire d'arbre n-aire GAN passe à l'étape 270.
Si le résultat du test effectué à l'étape 220 indique que le nœud d'indice i n'est pas une feuille de l'arbre binaire, c'est donc qu'il s'agit de l'un de ses nœuds intermédiaires. Par conséquent, dans une étape 250 le gestionnaire d'arbre n-aire GAN commence par créer une nouvelle branche dans l'arbre n-aire en construction, puis il affecte les propriétés du nœud d'indice i à cette branche B. Ensuite, il connecte (ou rattache) l'extrémité supérieure (sup(B)) de la branche B au nœud courant C, et crée un nouveau nœud N qu'il connecte (ou rattache) à l'extrémité inférieure (inf(B)) de la branche B. Enfin, le gestionnaire d'arbre n-aire GAN remplace le nœud courant C par le nœud N qu'il vient de créer, avant de passer à l'étape 270.
A l'étape 270, le gestionnaire d'arbre n-aire GAN effectue un test pour déterminer si le nœud d'indice i en cours de traitement est le dernier nœud de l'arbre binaire à traiter. Si tel est le cas, alors l'arbre n-aire structural est constitué et l'algorithme de construction d'arbre n-aire prend fin en D. En revanche, si le nœud d'indice i en cours de traitement n'est pas le dernier nœud de l'arbre binaire à traiter, dans une étape 280 le gestionnaire d'arbre n-aire GAN incrémente d'une unité la valeur de l'indice i, puis il retourne effectuer l'étape 210 avec le nœud suivant de l'arbre binaire. Tous les nœuds de l'arbre binaire sont ainsi traités les uns après les autres en partant du nœud racine. Un exemple d'arbre n-aire structural, issu de l'arbre binaire structural de la figure 7 (lequel correspond à la phrase « La petite brise la glace »), est illustré sur la figure 8.
Dans cet exemple, comme cela a été matérialisé sur la figure 7, le nœud racine de l'arbre n-aire est le verbe « brise » qui est le seul nœud feuille régissant de l'arbre binaire issu d'une lignée exclusivement régissante. Dans la plupart des cas, le nœud racine de l'arbre n-aire est le verbe principal de la phrase analysée.
Deux structures de deux nœuds fils associés sont rattachées au nœud racine « brise ».
Une première structure est composée des nœuds « La » et « petite » qui sont respectivement des nœuds feuilles régissant et subordonné du nœud intermédiaire associé aux entités verbales « La petite » dans l'arbre binaire. Le nœud feuille « La » étant ici régissant, il est donc rattaché au nœud racine « brise ».
Le nœud feuille « petite » est ici subordonné et rattaché au nœud régissant associé
« La » par un lien associé à des caractéristiques connexionnelles de leur nœud père (« La petite ») au sein de l'arbre binaire.
Une seconde structure est composée des nœuds « la » et « glace » qui sont respectivement des nœuds feuilles subordonné et régissant du nœud intermédiaire associé aux entités verbales « la glace » dans l'arbre binaire. Le nœud feuille « glace » étant ici régissant, il est donc rattaché au nœud racine « brise ». Le nœud feuille « la » est ici subordonné et rattaché au nœud régissant associé « glace » par un lien associé à des caractéristiques connexionnelles de leur nœud père (« la glace ») au sein de l'arbre binaire.
Une fois un arbre n-aire construit, l'analyse de sens d'une suite ordonnée d'entités verbales se poursuit par la constitution d'un arbre sémantique pour chaque phrase du document. On entend ici par « arbre sémantique » un arbre qui ne comprend plus que des entités catégorisantes (de type objet ou acte) munies de leurs propriétés, nécessaires à la compréhension du sens de la phrase (ou du document), compte tenu de son contexte.
Les entités catégorisantes constituent le premier niveau de décomposition d'une taxonomie : l'ontologie. Toutes les entités catégorisantes entrent dans l'un ou l'autre de leurs sous-types (ou sous-classes). On a représenté sur la figure 5 un exemple non limitatif de diagramme arborescent décrivant différents types, sous-types et sous-sous-types d'entités catégorisantes. Plus précisément, dans cet exemple les entités catégorisantes de type « acte » regroupent deux sous-types (ou sous-classes) d'entités catégorisantes appelées « événementiel » et « définitoire », qui regroupent respectivement deux sous-sous-types (ou sous-sous-classes) d'entités catégorisantes appelées « action » et « événement » d'une part, et « définition » et « modalisation » d'autre part. Les entités catégorisantes de type « objet » regroupent deux sous-types (ou sous-classes) d'entités catégorisantes appelées « individu » et « lieu ».
Il est important de noter que la qualité des lexiques est fortement dépendante de la qualité de l'ontologie. Par ailleurs, les ontologies peuvent être construites de façon automatisée.
On se réfère à la figure 6 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre sémantique. Cet algorithme est mis en œuvre par le gestionnaire d'arbre sémantique GAS du dispositif D selon l'invention. II peut être précédé par une éventuelle application d'une fonction lexicale destinée à normaliser l'arbre n-aire structural afin de supprimer d'éventuelles particularités « stylistiques » susceptibles de nuire à son analyse sémantique. En D, le gestionnaire d'arbre sémantique GAS reçoit la description d'un arbre n-aire, par exemple fournie par l'algorithme de constitution d'arbre n-aire structural décrit ci-avant. Dans une étape 300, le gestionnaire d'arbre sémantique
GAS extrait de l'arbre n-aire structural l'entité verbale sous-tendue par une entité catégorisante la plus haut placée dans l'arbre n-aire (généralement associée à son nœud racine) et qui constitue la racine de l'arbre sémantique.
Puis, dans une étape 310, le gestionnaire d'arbre sémantique GAS effectue un test pour déterminer si l'entité verbale correspond à un acte.
Si l'entité verbale correspond à un acte, le gestionnaire d'arbre sémantique GAS passe à une étape 320. Si ce n'est pas le cas, le gestionnaire d'arbre sémantique GAS crée, dans une étape 315, un verbe support définissant un acte, puis il passe à l'étape 320.
A l'étape 320, le gestionnaire d'arbre sémantique GAS initialise l'arbre sémantique. Puis, il insère l'acte dans une liste chronologique d'actes, qui peut éventuellement déjà comporter d'autres actes répertoriés dans la phrase en cours d'analyse et/ou dans des phrases précédentes du document en cours d'analyse.
Cette liste se présente par exemple sous la forme d'une table construite au fur et à mesure et stockée dans une mémoire. Ensuite, le gestionnaire d'arbre sémantique
GAS instancie une structure sémantique. En d'autres termes, le lexique fournit un patron d'arbre sémantique pour l'entité catégorisante (objet ou acte) dont les
« cases » vont ensuite être remplies à l'aide des informations fournies par les autres nœuds de l'arbre structural.
Un patron comporte, d'une part, un modèle de connexion sémantique (de même nature que certaines fonctions lexicales) qui permet de transformer le schéma actanciel d'une entité verbale en (sous-)arbre sémantique, comme cela est représenté schématiquement, à titre d'exemple, sur les figures 8 et 9, et d'autre part, une liste de propriétés (ou attributs), comme cela est représenté schématiquement sur la figure 9.
Puis, dans une étape 330 le gestionnaire d'arbre sémantique GAS extrait le nœud suivant de l'arbre n-aire, et dans une étape 340 il effectue un test pour déterminer si l'entité verbale associée à ce nœud extrait active un objet.
Conformément à la définition donnée précédemment, le mot « objet » doit être ici compris dans sa définition la plus large et la plus courante, en l'étendant aux objets abstraits tels que les sentiments et les représentations, et non dans la définition spécialisée et restrictive qu'il a en informatique.
Si l'entité verbale active un objet, alors dans une étape 350 le gestionnaire d'arbre sémantique GAS insère cet objet dans l'arbre sémantique. Puis, il insère l'objet dans une liste (ou un univers) d'objets, qui peut éventuellement déjà comporter d'autres objets répertoriés dans la phrase en cours d'analyse et/ou dans des phrases précédentes du document en cours d'analyse. Cette liste se présente par exemple sous la forme d'une table construite au fur et à mesure et stockée dans une mémoire. Ensuite, le gestionnaire d'arbre sémantique GAS instancie la structure sémantique (comme indiqué ci-avant). Le gestionnaire d'arbre sémantique GAS passe ensuite à une étape 410.
Si le résultat du test effectué à l'étape 340 indique que l'entité verbale n'est pas un objet, alors dans une étape 360 le gestionnaire d'arbre sémantique GAS effectue un nouveau test pour déterminer si des propriétés (ou caractéristiques connexionnelles) sont associées à cette entité verbale.
Si tel est le cas, dans une étape 370 le gestionnaire d'arbre sémantique GAS identifie un objet propriétaire. Plus précisément, une entité catégorisante de type « propriété » qui n'a pas de fonctionnement autonome (à moins d'en faire un méta-objet), et qui caractérise nécessairement un objet, a été identifiée. Cet objet, qui est dit « propriétaire », est identifié soit directement par le biais d'une connexion (ordinaire ou anaphorique) qui le relie à la propriété (comme par exemple l'expression « la couleur du ciel » ou « sa couleur »), soit (plus rarement, lorsqu'il n'existe pas de connexion apparente) en parcourant la liste des objets instanciés par le texte analysé à la recherche d'un objet qui possède la propriété en question (ce qui peut être source d'anomalies lorsqu'il n'y en a pas ou s'il y en a plusieurs possibles).
Puis, le gestionnaire d'arbre sémantique GAS affecte une valeur à l'objet.
La (les) valeur(s) associée(s) à la propriété est (sont) identifiée(s) directement en recherchant parmi les nœuds subordonnés ceux qui sont en connexion adjectivale
(comme par exemple l'expression « de couleur bleue ») quitte à affecter une valeur
« non connue » (ou NC) lorsque ce type de connexion n'existe pas, soit directement parce qu'elle est portée par l'entité verbale qui active la propriété (par exemple le mot « beauté » affecte d'autorité une valeur positive à une propriété que l'on appelle ici arbitrairement « esthétique »), soit indirectement lorsque le verbe régissant est un verbe définitoire (comme par exemple dans le cas de l'expression « sa couleur est rouge » ou « augmenter le volume de 100 Mo »).
Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410. Si le résultat du test effectué à l'étape 360 indique que l'entité verbale n'est pas associée à une propriété, alors dans une étape 380 le gestionnaire d'arbre sémantique GAS effectue un nouveau test pour déterminer si une modalisation est possible. La modalisation est portée par des verbes tels que pouvoir ou vouloir, d'une part, et penser (que) ou croire (que), d'autre part. Ces verbes n'activent pas des actes (contrairement aux verbes penser ou croire lorsqu'ils sont utilisés de manière absolue) mais modifient l'interprétation de l'acte auquel ils sont rattachés. Ainsi, l'expression « je peux y aller » n'a pas la même valeur que l'expression « j'y vais », mais dans les deux cas la tête sémantique est le verbe « aller ». De même, l'expression « Pierre pense que nous n'écrivons pas assez » n'a pas la même valeur que l'expression « nous n'écrivons pas assez », la tête sémantique étant cependant le verbe « écrire » dans les deux cas.
Si une modalisation est possible, le gestionnaire d'arbre sémantique GAS identifie un acte propriétaire dans une étape 390. La procédure d'identification d'un acte propriétaire est similaire à celle d'un objet propriétaire présentée ci-avant (mais appliquée à un acte).
Puis, le gestionnaire d'arbre sémantique GAS affecte une modalisation à l'acte propriétaire. Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410.
Si le résultat du test effectué à l'étape 390 indique qu'il n'y a pas de modalisation, alors dans une étape 400 le gestionnaire d'arbre sémantique GAS considère qu'il est en présence d'une anomalie. On est alors en présence d'un nœud qu'il n'y a aucun moyen de rattacher à l'arbre sémantique en cours de création.
Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410.
A l'étape 410 le gestionnaire d'arbre sémantique GAS effectue un test pour déterminer si le nœud de l'arbre n-aire qui vient d'être analysé est le dernier dudit arbre n-aire. Si tel est le cas, alors l'arbre sémantique est constitué et l'algorithme de construction d'arbre sémantique prend fin en E. En revanche, si le nœud de l'arbre n-aire qui vient d'être analysé n'est pas le dernier dudit arbre n-aire, alors le gestionnaire d'arbre sémantique GAS retourne à l'étape 330 pour commencer à analyser le nœud suivant de l'arbre n-aire. Tous les nœuds de l'arbre n-aire sont ainsi analysés les uns après les autres.
Un exemple d'arbre sémantique, issu de l'arbre n-aire structural de la figure 8 (lequel correspond à la phrase « La petite brise la glace »), est illustré sur la figure 9.
Dans cet exemple, le nœud racine de l'arbre sémantique est le verbe « briser » qui est issu du mot « brise » de l'arbre n-aire de la figure 8. Ce mot « brise » possède en effet deux significations très différentes : verbe « briser » conjugué au présent (et donc acte correspondant à la réponse « maintenant » à la question « quand ? », sachant qu'il reste à déterminer si le mot « maintenant » concerne le temps du discours ou s'il est défini par le discours), et le substantif « brise » qui désigne un petit vent frais.
L'analyse du contexte de la phrase « La petite brise la glace » indique par exemple que le mot « brise » est le verbe « briser ». Dans une autre interprétation de cet exemple de phrase, le verbe pourrait être le mot « glace », le sujet de ce verbe le mot « brise », l'adjectif rattaché au sujet « brise » le mot « petite » et le complément d'objet direct le mot « la » jouant le rôle d'un pronom anaphorique.
Si le verbe principal retenu est « briser », associé à la propriété temporelle qui décrit son temps (ici le présent - « maintenant »), il existe une incertitude quand à son sujet et son complément. En effet, sur la figure 8 le mot « brise » est rattaché à deux structures « La - petite » et « la - glace ». Il peut donc y avoir une première connexion (Act1) consistant à « La petite briser » et une seconde connexion (Act2) consistant à « briser la glace ». La première connexion est dite « prime actant » (ou sujet) tandis que la seconde connexion est dite « second actant » (ou objet). Ici, il ressort de la construction de la phrase que le mot « glace » est un complément d'objet direct du verbe « briser » puisqu'il répond à la question « quoi ? » posée au sujet de ce verbe. Le substantif « glace » est donc un nœud principal de type objet rattaché au verbe « briser » qui est un nœud principal de type acte.
Par ailleurs, le mot « petite » est un adjectif rattaché du fait de sa position à un sujet du verbe « briser » qui est ici représenté par le mot « La » qui est donc un pronom anaphorique désignant un nom commun féminin introduit dans une phrase précédente. « La » est ici un déterminant dont le rôle est, d'une part, de confirmer le statut de substantif de l'entité verbale qu'il accompagne (permettant ainsi de substantiver, par exemple, des adjectifs ou des verbes), et d'autre part, de fournir des informations quant à l'existence de l'objet associé. L'adjectif « petite » constitue donc un nœud principal de type objet
(référencé x sur la figure 9), puisqu'il répond à la question « qui ? ». Ce nœud objet x est associé à deux propriétés, une de genre féminin (référencée F sur la figure 9) et une de taille (référencée petit sur la figure 9).
L'arbre sémantique illustré sur la figure 9 est donc le résultat de la levée d'ambiguïté relative aux deux branches rattachées au mot « brise » de la figure 8.
Cependant, cet arbre sémantique ne permet pas de lever l'autre ambiguïté relative à l'interprétation de la phrase, évoquée ci-avant. Pour tenter de lever cette autre ambiguïté des analyses complémentaires de type contextuel doivent être effectuées par l'analyseur sémantique AS du dispositif D. Dans l'exemple de phrase présenté, cette autre ambiguïté ne peut être levée que par une analyse cotextuelle par rapport aux phrases précédentes et/ou suivantes du document analysé, ou contextuelle (c'est-à-dire d'ordre pragmatique). On fait ici la distinction entre la notion de « cotexte », qui désigne le texte entourant une phrase en cours d'analyse, et la notion de « contexte » qui fait référence à l'environnement (au sens large) dans lequel un texte est produit et/ou reçu.
Ces analyses complémentaires consistent plus précisément à tenter de déterminer des relations entre des mots appartenant à des phrases d'un même document, placés dans la liste des actes et/ou dans l'univers des objets. Ces relations peuvent être de plusieurs types, et notamment spatial, temporel, anaphorique, ou causal.
Ces analyses complémentaires ont essentiellement pour objet de traiter les anaphores et cataphores. Elles se font en déterminant au sein des tables (ou listes) d'objets et d'actes les mots qui ne présentent pas d'identité sémantique, comme par exemple les pronoms. En d'autres termes, on cherche parmi les mots stockés ceux qui peuvent servir d'anaphorèmes.
Il est important de noter que les objets et les actes sont organisés selon des classes sémantiques dans des ontologies auxquelles sont associés les métriques et les référentiels (spatial, temporel, etc.). Cela permet d'appliquer des fonctions de compatibilité sémantique de type RCS1, RCS2. Les fonctions de type RCS contraignent la construction d'un arbre structural.
Quelques exemples d'analyses complémentaires permettant de lever des ambiguïtés sont décrits ci-après.
Sur la figure 10 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une phrase séparées par le séparateur « : ». Cette phrase est « Le client a appelé : il a reçu sa facture en retard ».
L'arbre sémantique de gauche correspond à la partie de phrase « Le client a appelé ». Les nœuds principaux de cet arbre sémantique sont « appeler » et « client ». Le mot « appeler » est le verbe principal et donc l'acte, tandis que le mot « client » est un substantif sujet du verbe « appeler » et donc un objet.
L'arbre sémantique de droite correspond à la partie de phrase « il a reçu sa facture en retard ». Les nœuds principaux de cet arbre sémantique sont « recevoir », « il » et « facture ». Le mot « recevoir » est le verbe principal et donc l'acte, tandis que le mot « il » est un pronom sujet du verbe « recevoir » et donc un objet, et le mot « facture » est un substantif complément d'objet direct du verbe « recevoir » et donc un objet.
Le séparateur « : » est ici équivalent à « parce que », si bien qu'il existe une relation causale entre les deux parties de la phrase.
L'anaphorique « il » ne peut renvoyer qu'au mot client. En effet, dans la liste des objets instanciés du document analysé, seul le mot « client » remplit les conditions de compatibilité structurale et sémantique (substantif masculin singulier, sémantiquement compatible avec le prime actant (ou sujet) du verbe « recevoir » qu'est le mot « il »). Il existe donc une relation anaphorique entre les mots « client » et « il ».
De ces deux relations causale et anaphorique, on peut déduire le fait que le 55
30
client a appelé (à l'instant t) car il a reçu une facture à un instant t' (f = tF + δtR > t, où tF est la date de facturation et δtR le temps nécessaire à la création de la facture et à son acheminement). On peut alors représenter la levée d'ambiguïté en associant au verbe « appeler » une propriété relative au temps (t<tD) où tD désigne le temps du discours, et au verbe « recevoir » une propriété également relative au temps (t > tF + δtR).
Il est important de noter qu'une ambiguïté liée à une cataphore se traite de la même manière qu'une anaphore, à condition que la liste des objets instanciés ait été complètement établie pour l'ensemble du document. Sur les figures 11A et 11B se trouvent illustrés un arbre n-aire structural et l'arbre sémantique associé qui correspondent à la phrase « La facture est arrivée après la date d'échéance ».
Pour exploiter le sens de cette phrase, par exemple dans une application de type filtrage d'informations, on essaie d'y identifier un (ou plusieurs) acte(s)- type(s) compatible(s) sur le plan chronologique. La notion de « retard » (dans la réception de la facture) est une appréciation portée sur le respect de la date théorique de réalisation de l'acte observé, en lui comparant la date effective.
Les ambiguïtés sont ici matérialisées dans l'arbre n-aire structural par des T stylisés placés au niveau des mots « après » et « échéance », et matérialisant une fonction de translation du mot de droite par le mot de gauche. Le mot qui se trouve à gauche d'un T stylisé est obligatoirement un translatif ; c'est un mot grammatical qui a la faculté de faire changer de catégorie structurale le mot qui se trouve à droite du même T stylisé. Par exemple, dans l'expression « je prends le rouge » (en parlant d'un vêtement), le déterminant « le » fait passer « rouge » de sa catégorie originale d'adjectif à celle de substantif, sous-entendant qu'il doit exister au plan sémantique un objet compatible avec la couleur rouge qui réponde à la question posée.
Sur la figure 12 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une phrase séparées par le séparateur « , » (virgule). Cette phrase est « Pendant que X fait A, Y fait B ». Cet exemple matérialise la relation temporelle entre les deux actions respectivement effectuées par X et Y. Plus précisément, l'analyse des deux arbres sémantiques et des tables d'actes et d'objets, associées au document analysé, permet de comprendre que l'action A se déroule dans un intervalle de temps I et que l'action B se déroule dans un intervalle de temps I' qui est inclus dans I. Sur la figure 13 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une même phrase. Cette phrase est « Pierre a perdu le livre que je lui avais donné ». Cet exemple matérialise, d'une part, la relation temporelle entre les deux actions (« donner un livre » et « perdre le livre »), et d'autre part, la relation anaphorique entre les mots « Pierre » et « lui » et les mots « livre » et « que ».
Plus précisément, l'analyse des deux arbres sémantiques et des tables d'actes et d'objets, associées au document analysé, permet de comprendre que le mot « lui » ne peut que renvoyer au mot « Pierre », et que le mot « que » ne peut que renvoyer au mot « livre ». Puis, on déduit des temps respectifs associés aux deux verbes et des deux relations anaphoriques que l'action « donner un livre » s'est déroulée à un instant t=X et que l'action « perdre le livre » s'est déroulée à l'instant t≈X'≥X.
Sauf exception, constituant une anomalie (détectée à l'étape 400 de la figure 6), un nœud principal appartenant à un arbre sémantique ne peut être qu'un acte ou un objet issu des classes structurales verbe et substantif. Cependant, dans quelques cas très particuliers certains nœuds d'un arbre n-aire structural peuvent ne pas répondre à cette contrainte. C'est notamment le cas du mot « rouge » dans la phrase « Je prends le rouge ».
Le mot « rouge » étant ici un adjectif, il ne peut pas créer directement de nœud principal dans l'arbre sémantique. Il ne peut qu'être en principe une valeur d'une propriété (la couleur) d'un substantif objet auquel il se rapporte. Une analyse complémentaire, parallèle à celle permettant de résoudre les anaphores et cataphores, doit donc être effectuée. Cette analyse complémentaire consiste à déterminer les objets, déjà répertoriés dans la liste d'objets du document à analyser, celui ou ceux qui possèdent une propriété de même type que celle associée au mot posant problème. Dans l'exemple concerné, cette propriété est la couleur. On applique ensuite aux objets déterminés dans la liste les contraintes sémantiques qui sont portées par le verbe principal, ici le verbe « prendre ». La valeur « rouge » est alors affectée à la propriété « couleur » de l'objet compatible qui constitue alors un nœud autorisé à être intégré dans l'arbre sémantique de la phrase à laquelle il appartient. Le problème de la compatibilité sémantique évoqué ci-avant va être décrit maintenant plus en détail en référence aux figures 14 à 16.
Sur la figure 13 se trouve illustré un arbre n-aire correspondant à la phrase « Augmenter le volume de la base xx de yy Go ». Les ambiguïtés sont ici matérialisées dans l'arbre n-aire structural par des T stylisés placés au niveau des mots « base » et « Go » (pour « Giga octet »).
Une première pré-analyse sémantique permet de voir que les mots sémantiquement pertinents, c'est-à-dire qui relèvent de l'environnement modélisé, sont ici « augmenter », « volume », « base », « xx », « Go » et « yy ».
Les mots inconnus, comme « xx » ou « yy », sont, dans le doute, préférentiellement retenus lors du filtrage sémantique du document en cours d'analyse.
Les relations de compatibilité sémantique sont par exemple régies par deux types de règles de compatibilité appelées C-ιx et C2.
Les règles de compatibilité de type C/ s'appliquent à deux nœuds qui sont en connexion directe, c'est-à-dire dont la connexion (ou le rattachement) ne comporte pas de noeud intermédiaire. C'est par exemple le cas des mots
« augmenter » et « volume ». La connexion peut cependant inclure des translatifs
(T stylisés) comme par exemple dans le cas des mots « volume » et « base ».
Ces règles de compatibilité de type C/ se répartissent en deux groupes. Un premier groupe concerne la compatibilité basée sur les schémas actanciels / sémantiques que la langue permet de dégrader en remplaçant un nœud objet (NO), tel qu'un substantif, par un autre nœud objet compatible avec le premier dans le cadre de métriques.
Un schéma actanciel (ou potentiel de connexion) décrit l'ensemble des connexions (d'où la collocation « potentiel de connexion ») qu'une entité verbale est susceptible d'accepter, ainsi que leurs conditions de réalisation. Chaque connexion potentielle est identifiée par une caractéristique connexionnelle, comme par exemple celles référencées Act1 , Act2 et Dét sur la figure 8. De plus, chaque connexion potentielle comporte un nombre variable de contraintes structurales et/ou sémantiques (par exemple, la connexion potentielle Act1 d'un verbe ne peut être pourvue que par un substantif compatible en nombre, en genre et sémantiquement).
Un second groupe concerne la compatibilité basée sur les métriques, laquelle contraint de manière privilégiée la connexion d'un nœud associé à un substantif (NO) à un nœud associé à un adjectif (NA), y compris les noeuds associés à des substantifs véritables (notés NO0) et les autres nœuds associés à des substantifs unités (notés NOU).
Les règles de compatibilité de type C2 s'appliquent à deux nœuds en connexion indirecte, c'est-à-dire dont la connexion (ou le rattachement) traverse au moins un autre noeud. C'est par exemple le cas des mots « volume » et « Go ».
Ces règles de compatibilité de type C2 s'appuient sur les paramètres qui sont partie prenante dans l'interprétation subséquente qui est faite du document analysé. Ces règles font partie du patron d'arbre sémantique présenté ci-avant lors de la description de l'étape 320 de la figure 6.
La notion de métrique intervient lors de l'analyse complémentaire des relations de compatibilité sémantique entre un substantif et un adjectif qui lui est subordonné, que cet adjectif soit subordonné d'origine ou par translation (T stylisés).
Une métrique se définit par l'ensemble des valeurs qu'elle admet associée à une unité (ainsi que ses multiples et ses subdivisions).
Si l'on considère une connexion NO - NA dans laquelle, d'une part, NA appartient à une ou plusieurs métrique(s), il est possible d'établir la liste PA de toutes les propriétés (indépendamment des objets qu'elles définissent) auxquelles ces métriques peuvent être associées, et d'autre part, NO est défini par un ensemble de propriétés P0, chacune d'entre elles étant liée à une métrique. Alors, plusieurs cas peuvent se présenter : - soit card(PAnPo) = 0 et il y a incompatibilité entre le substantif (NO) et son adjectif (NA),
- soit card(PAnPo) = 1, et on affecte la valeur que constitue l'adjectif (NA) à la propriété du substantif qui est l'unique élément de l'intersection,
- soit encore card(PAπPo) > 1 , et il y a une ambiguïté, car l'intersection des deux ensembles contenant plusieurs éléments, on ne sait pas à quelle propriété du substantif on doit affecter la valeur que constitue l'adjectif. II existe deux types de métriques : les quantitatives et les qualitatives.
Les métriques quantitatives sont généralement décrites en intension, comme sous-ensemble satisfaisant à une condition, comme par exemple l'appartenance à l'ensemble des entiers positifs ou des décimaux. Les métriques qualitatives sont généralement décrites en extension sous la forme d'un ensemble de valeurs discrètes, comme par exemple la couleur (rouge, vert, jaune, bleu, orange, ...) ou la beauté (beau, laid,...).
Les métriques quantitatives se distinguent également des métriques qualitatives parce qu'elles admettent une relation d'ordre (les valeurs peuvent être classées, ce qui n'est pas le cas des métriques qualitatives pures), et qu'elles font généralement intervenir la notion d'unité (sauf lorsqu'il s'agit de dénombrement).
Un statut particulier doit être prévu pour les unités et les pourcentages. En effet, les unités répondent à la problématique du dénombrement (créant une catégorie de l'absolu), tandis que les pourcentages permettent de créer des échelles relatives indépendantes de toute unité. Par exemple, une métrique quantitative exacte peut correspondre à une échelle d'intensité comprises entre -25 et +25, et une métrique quantitative approximative peut être définie par des valeurs discrètes d'adjectifs tels que grand, moyen et petit.
Un exemple d'utilisation des métriques est donné ci-après dans le cas de la phrase « Créer une base vide ; son volume sera 3 Go ».
Le mot « créer » (acte) est compatible avec le mot « base » (objet) qui est un substantif véritable (NO0) défini par des propriétés telles que identifiant, volume, contenu, serveur, etc.
Le mot « vide » est un adjectif (NA) qui est régi par le mot « base », et qui doit donc être affecté comme valeur à l'une des propriétés du mot « base » (NO°).
Parmi les propriétés précitées seules les propriétés identifiant et contenu sont dotées d'une métrique compatible. La propriété identifiant a pour particularité de ne pas avoir de métrique précise, tout mot, existant ou fabriqué, pouvant être utilisé. Il s'ensuit qu'il est fortement déconseillé d'utiliser les mots du langage courant en tant qu'identifiants, ce qui fournit un premier indice pour lever l'ambiguïté précédente. Un mot inconnu placé au bon endroit dans un arbre structural est un candidat tout désigné. Un second indice est fourni par l'absence de majuscule.
Il résulte de ce qui précède que le mot « vide » ne peut être affecté qu'à la propriété contenu.
L'analyse peut être complétée en ramenant le mot « vide » à un nombre. En effet, la métrique associée à la propriété contenu comprend - au minimum - {vide, plein} u [0, 100]...
Par ailleurs, le mot « sera » est un verbe [de complément] d'information, le mot « volume » est une propriété étant donné que le mot « son » renvoit à un objet défini par ailleurs (connexion anaphorique), le mot « Go » relève de la catégorie très particulière des unités qui sont obligatoirement associées à une métrique quantitative, et le mot « 3 » est un adjectif (NA) de type nombre susceptible d'appartenir à toutes les métriques quantitatives compatibles avec les entiers positifs.
Le mot « 3 » peut donc être affecté comme valeur au mot « volume » à condition que l'intersection MVOiume π MG0 O M3 (où Mx représente l'ensemble de toutes les métriques associables à x) contienne un et un seul élément. Dans le cas contraire, il y a soit impossibilité si l'intersection est vide, soit ambiguïté si il existe plusieurs solutions.
Quand il y a incompatibilité entre un groupe (ou syntagme) substantival (SO) et un groupe (ou syntagme) adjectival (SA) a priori, les métriques peuvent fournir des renseignements. C'est par exemple le cas de la phrase « Je souhaite augmenter mon portable de deux heures ».
Dans cet exemple, il y a en effet une incompatibilité a priori entre le mot « augmenter », qui appelle un nœud associé à un substantif qui porte la valeur de l'adjectif associé (NOA) (et donc qui constitue une propriété), et le mot « portable », qui est un nœud associé à un substantif véritable (NO0) (et donc qui constitue un objet). Par contre, dans l'ensemble des propriétés (P) du mot « portable », il en existe qui sont compatibles avec le mot « augmenter ». Par exemple le mot « durée », est un substantif (NOA) qui porte la valeur de l'adjectif associé au mot « forfait », lui-même propriété du mot « portable », compatible également avec la métrique horaire.
D'autres situations créent des ambiguïtés. C'est par exemple le cas lorsque l'on connecte un groupe (ou syntagme) verbal (SI) et un substantif véritable NO° : « augmente la musique », « baisse la musique », ou « mesure la table ». Pour lever ce type d'ambiguïté on utilise une fonction qui, lorsqu'une incompatibilité apparaît lors de la vérification d'une compatibilité directe, refait un test de compatibilité entre le verbe et les propriétés du nœud de l'actant concerné. On considère ici comme actant un nœud faisant l'objet d'une connexion directe avec un verbe, laquelle est répertoriée dans le patron (ou schéma actanciel) de ce dernier.
Sur la figure 15 se trouvent schématiquement représentées (et résumées) les principales relations entre nœuds associés à des substantifs (NO) et nœuds associés à des adjectifs (NA), et les notions qui y sont rattachées, notamment les métriques, les unités, et les contraintes (ou règles) C1 servant à interdire tous les triplets (identifiant, valuation, mesure) qui ne sont pas valides.
Par ailleurs, sur la figure 16 se trouvent schématiquement représentées (et résumées) les principales relations entre les entités catégorisantes de type objet et acte, et les notions qui y sont rattachées, notamment les circonstances, les modalisations, les propriétés, les valeurs et les métriques.
Le dispositif d'analyse sémantique de documents D selon l'invention, et notamment son interpréteur de document ID et sa base de données BD, ainsi qu'éventuellement son module de décomposition MD, peuvent être réalisés sous la forme de circuits électroniques, de modules logiciels (ou informatiques), ou d'une combinaison de circuits et de logiciels.
Par ailleurs, le dispositif d'analyse sémantique de documents D peut être utilisé dans toute application ayant besoin d'une séparation fiable des textes ou messages correctement analysés de ceux qui ne le sont pas, et d'un diagnostic précis et facile à exploiter pour les textes ou messages incorrectement analysés. Une première application concerne les outils (ou équipements) de gestion de messagerie électronique (par exemple de type courriel (ou « e-mail »)). Le dispositif D peut en effet servir à filtrer de l'information en déterminant si le message qui contient cette information satisfait à un ensemble de critères sémantiques.
A cet effet, on peut par exemple organiser les critères sémantiques en un super groupe de référence définissant un filtre. On compare alors le super groupe résultant de l'analyse du message au super groupe de référence qui définit le filtre. Le message analysé est accepté si les deux super groupes sont compatibles.
Si le message fournit des informations surnuméraires, le dispositif D continuera à réagir positivement via son filtre, ce qui est sans importance dès lors que le filtre fournit au moins les informations exigées par le super groupe de référence. Les super groupes de référence peuvent être créés à partir de la synthèse des résultats de l'analyse d'un corpus de messages de référence, ce qui permet d'éviter à l'utilisateur chargé de concevoir les filtres l'apprentissage de connaissances spécifiques à l'application ; il lui suffit en effet d'avoir une maîtrise suffisante du langage naturel pour pouvoir élaborer le corpus concerné. On peut également juxtaposer plusieurs filtres au sein d'un seul dispositif D ou de dispositif D parallèles, et coupler ce(s) dispositifs) à une interface adaptée au routage, de manière à constituer un gestionnaire de courrier électronique.
Une deuxième application concerne les outils (ou équipements) de correction orthographique et/ou grammaticale. Le dispositif D peut en effet permettre, d'une part, de repérer les fautes grammaticales qui résultent généralement d'une mauvaise application des règles de syntaxe, puis d'identifier la règle non respectée et proposer une correction, et d'autre part, d'identifier les mots inconnus en séparant les noms propres et les barbarismes, puis en proposant pour ces derniers des mots qui soient compatibles. Le dispositif D permet effectivement de répondre à la question « quels sont les mots qui, substitués à un mot fautif, sont susceptibles de lever une ambiguïté ou une erreur ? ».
Une troisième application concerne les outils (ou équipements) de dictée vocale. Le dispositif peut en effet permettre de choisir une solution parmi plusieurs solutions proposées par un moteur de reconnaissance vocale. Une quatrième application concerne les outils (ou équipements) de génération de texte. Le dispositif D peut en effet collaborer avec un générateur de texte qui se fonde, par exemple, sur la théorie dite « Sens <-> Texte » (ou TST). Une cinquième application concerne les outils (ou équipements) de génération de résumés.
Il existe au moins deux manières de concevoir un résumé. La première consiste à créer de toutes pièces un nouveau texte qui constitue un condensé de l'original, avec un « taux de compression » variable (mais généralement élevé). La seconde consiste à extraire, en fonction de critères définis par un utilisateur, des sections pertinentes d'un texte original.
Le dispositif D peut calculer des résultantes thématiques s'il est couplé à une fonction de hiérarchisation et en présence de marqueurs linguistiques. Une sixième application concerne les moteurs de recherche. La recherche d'informations textuelles, que ce soit dans un réseau public, tel qu'Internet, ou dans un réseau privé d'entreprise(s), ou encore sur un disque dur d'un ordinateur personnel, peut consister à rechercher soit une information factuelle, matérialisée par une question de type « quelle est la valeur de ... ? », soit des textes relatifs à un thème ou un sujet prédéfini.
Le dispositif D peut en effet assurer, dans le cas de la recherche factuelle, une indexation sémantique adéquate permettant de produire directement une réponse. On peut par exemple injecter dans une base de données tout ou partie des informations déterminées par un dispositif D, puis utiliser ces informations dans n'importe quelle opération réalisée par un système de gestion de base de données (ou SGBD), et notamment l'indexation. En outre cela permettrait d'utiliser des requêtes exprimées en langage naturel, sans restriction quant à la langue utilisée (dans le cas d'une version multilingue).
Le dispositif D peut également permettre, dans le cas de la recherche de textes à thèmes, de faire des calculs de distance à partir de résultantes thématiques, puis de proposer une liste de documents pertinents en fonction desdits calculs. Ce type de fonctionnement pourrait être enrichi par l'implémentation d'un taux d'exactitude.
Cette application peut être étendue à l'administration des bases de documents en vue de leur enrichissement, étant donné que le dispositif D peut faciliter la constitution des index nécessaires au bon fonctionnement d'un moteur de recherches. Une septième application concerne les traducteurs multilingue. Le dispositif D peut fournir une analyse sémantique de texte, rapide et fiable, permettant de lever les ambiguïtés de traduction. Seule une utilisation de la totalité de l'information présente dans un texte peut en effet garantir une traduction pertinente, c'est à dire une traduction respectant autant que faire se peut le sens véhiculé par le texte original.
L'invention ne se limite pas aux modes de réalisation de dispositif d'analyse sémantique de documents décrits ci-avant, seulement à titre d'exemple, mais elle englobe toutes les variantes que pourra envisager l'homme de l'art dans le cadre des revendications ci-après.

Claims

REVENDICATIONS
1. Dispositif (D) d'analyse sémantique de documents, comprenant une base de données structurales et sémantiques (BD) et un interpréteur de document (ID) agencé pour déterminer si un document a un sens à l'aide de ladite base de données, caractérisé en ce que ledit interpréteur de document (ID) comprend :
- un gestionnaire d'arbre n-aire (GAN) agencé pour constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies et définies dans ladite base de données (BD), ledit arbre n-aire structural comprenant un nœud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement audit nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante,
- un gestionnaire d'arbre sémantique (GAS) agencé pour déterminer, au moins à partir dudit arbre n-aire structural et de la base de données (BD), des entités catégorisantes de type objet et de type acte activées par certains desdits nœuds de l'arbre n-aire, de manière à construire un arbre sémantique muni de nœuds principaux constitués desdites entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles dudit arbre n- aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres nœuds dudit arbre n-aire et de leurs liens respectifs.
2. Dispositif selon la revendication 1 , caractérisé en ce que ledit interpréteur de document (ID) comprend un gestionnaire d'arbre binaire (GAB) agencé pour constituer un arbre binaire structural à partir de ladite décomposition de document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies et définies dans ladite base de données (BD), ledit arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de ladite suite et constituant l'un de deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de ladite suite, et en ce que ledit gestionnaire d'arbre n-aire (GAN) est agencé pour constituer chaque arbre n-aire à partir d'un arbre binaire structural.
3. Dispositif selon l'une des revendications 1 et 2, caractérisé en ce que ledit interpréteur de document (ID) comprend un module de décomposition (MD) agencé pour décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales.
4. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que ledit interpréteur de document (ID) comprend un analyseur sémantique (AS) agencé pour déterminer lesdites relations de compatibilité sémantique entre nœuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique.
5. Dispositif selon la revendication 4, caractérisé en ce que ledit analyseur sémantique (AS) est agencé pour déterminer des relations entre nœuds principaux d'au moins un arbre sémantique, choisies dans un groupe comprenant une relation spatiale, temporelle, une relation causale, une relation anaphorique, et une relation cataphorique.
6. Dispositif selon l'une des revendications 4 et 5, caractérisé en ce que ledit analyseur sémantique (AS) est agencé pour effectuer un diagnostic relatif à l'analyse d'un document, et pour délivrer un message représentatif du résultat dudit diagnostic.
7. Dispositif selon la revendication 6, caractérisé en ce que ledit message de diagnostic comporte des informations choisies dans un groupe comprenant une liste de difficultés rencontrées pendant l'analyse d'un document, des possibilités d'interprétation différentes d'une phrase, au moins un mot inconnu, au moins une faute de grammaire, au moins un défaut de construction, au moins un non-sens, et une liste d'ambiguïtés non résolues.
8. Procédé d'analyse sémantique de documents, caractérisé en ce qu'il consiste :
- à constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies, ledit arbre n-aire structural comprenant un nœud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement audit nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante,
- à déterminer, au moins à partir dudit arbre n-aire structural et de données structurales et sémantiques, des entités catégorisantes de type objet et de type acte activées par certains desdits nœuds de l'arbre n-aire, de manière à construire un arbre sémantique muni de nœuds principaux constitués desdites entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles dudit arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres nœuds dudit arbre n- aire et de leurs liens respectifs.
9. Procédé selon la revendication 8, caractérisé en ce qu'avant de constituer un arbre n-aire on constitue un arbre binaire structural à partir de ladite décomposition de document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, ledit arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de ladite suite et constituant l'un de deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de ladite suite, et en ce que l'on constitue chaque arbre n-aire à partir d'un arbre binaire structural.
10. Procédé selon l'une des revendications 8 et 9, caractérisé en ce qu'avant de constituer un arbre binaire ou un arbre n-aire on décompose chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales.
11. Procédé selon l'une des revendications 8 à 10, caractérisé en ce que l'on détermine lesdites relations de compatibilité sémantique entre nœuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique.
12. Procédé selon l'une des revendications 8 à 11 , caractérisé en ce que l'on détermine si ledit document analysé possède un sens en déterminant des relations entre nœuds principaux d'au moins un arbre sémantique, choisies dans un groupe comprenant une relation spatiale, temporelle, une relation causale, une relation anaphorique, et une relation cataphorique.
13. Procédé selon l'une des revendications 8 à 12, caractérisé en ce qu'après avoir constitué un arbre sémantique, on effectue un diagnostic relatif à l'analyse d'un document, puis on délivre un message représentatif du résultat dudit diagnostic.
14. Procédé selon la revendication 13, caractérisé en ce que ledit message de diagnostic comporte des informations choisies dans un groupe comprenant une liste de difficultés rencontrées pendant l'analyse d'un document, des possibilités d'interprétation différentes d'une phrase, au moins un mot inconnu, au moins une faute de grammaire, au moins un défaut de construction, au moins un non-sens, et une liste d'ambiguïtés non résolues.
EP06764601A 2005-05-12 2006-05-11 Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique Ceased EP1880314A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0504765A FR2885712B1 (fr) 2005-05-12 2005-05-12 Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique
PCT/FR2006/001055 WO2006120352A1 (fr) 2005-05-12 2006-05-11 Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique

Publications (1)

Publication Number Publication Date
EP1880314A1 true EP1880314A1 (fr) 2008-01-23

Family

ID=35124726

Family Applications (1)

Application Number Title Priority Date Filing Date
EP06764601A Ceased EP1880314A1 (fr) 2005-05-12 2006-05-11 Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique

Country Status (4)

Country Link
US (1) US7856438B2 (fr)
EP (1) EP1880314A1 (fr)
FR (1) FR2885712B1 (fr)
WO (1) WO2006120352A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245708A (zh) * 2019-06-18 2019-09-17 山东浪潮人工智能研究院有限公司 一种基于gan网络的技术文档术语解释生成方法及装置

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395425B2 (en) * 2001-03-29 2008-07-01 Matsushita Electric Industrial Co., Ltd. Data protection system that protects data by encrypting the data
WO2010018473A2 (fr) * 2008-07-17 2010-02-18 Talisma Corporation Private Ltd. Procédé d'envoi d'une campagne sms (service de messages courts) à un destinataire associé par sélection du destinataire de base
US8527353B2 (en) * 2008-09-16 2013-09-03 Yahoo! Inc. Method and apparatus for administering a bidding language for online advertising
EP2359263A4 (fr) * 2008-12-19 2018-01-03 EntIT Software LLC Procédé et produit de programme informatique pour une sélection d'informations de document
CN101510221B (zh) * 2009-02-17 2012-05-30 北京大学 一种用于信息检索的查询语句分析方法与系统
US8880537B2 (en) 2009-10-19 2014-11-04 Gil Fuchs System and method for use of semantic understanding in storage, searching and providing of data or other content information
US9230258B2 (en) 2010-04-01 2016-01-05 International Business Machines Corporation Space and time for entity resolution
WO2011158066A1 (fr) * 2010-06-16 2011-12-22 Sony Ericsson Mobile Communications Ab Métadonnées sémantiques basées sur l'utilisateur pour des messages textuels
JP5849960B2 (ja) * 2010-10-21 2016-02-03 日本電気株式会社 含意判定装置、方法、およびプログラム
US9002859B1 (en) 2010-12-17 2015-04-07 Moonshadow Mobile, Inc. Systems and methods for high-speed searching and filtering of large datasets
CA2823839A1 (fr) * 2011-01-10 2012-07-19 Roy W. Ward Systemes et procedes de recherche et de filtrage a grande vitesse de grands ensembles de donnees
US9171054B1 (en) 2012-01-04 2015-10-27 Moonshadow Mobile, Inc. Systems and methods for high-speed searching and filtering of large datasets
US8990204B1 (en) 2012-01-17 2015-03-24 Roy W. Ward Processing and storage of spatial data
US10387780B2 (en) 2012-08-14 2019-08-20 International Business Machines Corporation Context accumulation based on properties of entity features
US9270451B2 (en) 2013-10-03 2016-02-23 Globalfoundries Inc. Privacy enhanced spatial analytics
CN104142917B (zh) * 2014-05-21 2018-05-01 北京师范大学 一种用于语言理解的层次语义树构建方法及系统
US10122805B2 (en) 2015-06-30 2018-11-06 International Business Machines Corporation Identification of collaborating and gathering entities
US10521411B2 (en) 2016-08-10 2019-12-31 Moonshadow Mobile, Inc. Systems, methods, and data structures for high-speed searching or filtering of large datasets
US10528665B2 (en) * 2017-01-11 2020-01-07 Satyanarayana Krishnamurthy System and method for natural language generation
CN108334497A (zh) * 2018-02-06 2018-07-27 北京航空航天大学 自动生成文本的方法和装置
CN109815490B (zh) * 2019-01-04 2023-11-14 平安科技(深圳)有限公司 文本分析方法、装置、设备及存储介质
CN110085290A (zh) * 2019-04-01 2019-08-02 东华大学 支持异构信息集成的乳腺钼靶报告语义树模型建立方法
CN110647662B (zh) * 2019-08-03 2022-10-14 电子科技大学 一种基于语义的多模态时空数据关联方法
CN110660128B (zh) * 2019-09-23 2023-08-11 云南电网有限责任公司电力科学研究院 一种基于生成对抗网络的三维语义场景重建方法
CN111709250B (zh) * 2020-06-11 2022-05-06 北京百度网讯科技有限公司 用于信息处理的方法、装置、电子设备和存储介质
US11194966B1 (en) * 2020-06-30 2021-12-07 International Business Machines Corporation Management of concepts and intents in conversational systems
CN111931503B (zh) * 2020-08-04 2024-01-26 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质
CN112492313B (zh) * 2020-11-22 2021-09-17 复旦大学 一种基于生成对抗网络的图片传输系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
IL142421A0 (en) * 2001-04-03 2002-03-10 Linguistic Agents Ltd Linguistic agent system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2006120352A1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245708A (zh) * 2019-06-18 2019-09-17 山东浪潮人工智能研究院有限公司 一种基于gan网络的技术文档术语解释生成方法及装置
CN110245708B (zh) * 2019-06-18 2021-05-18 浪潮集团有限公司 一种基于gan网络的技术文档术语解释生成方法及装置

Also Published As

Publication number Publication date
FR2885712B1 (fr) 2007-07-13
US7856438B2 (en) 2010-12-21
US20090077113A1 (en) 2009-03-19
WO2006120352A1 (fr) 2006-11-16
FR2885712A1 (fr) 2006-11-17

Similar Documents

Publication Publication Date Title
EP1880314A1 (fr) Dispositif et procede d&#39;analyse semantique de documents par constitution d&#39;arbres n-aire et semantique
Gardent et al. Creating training corpora for nlg micro-planning
US9633005B2 (en) Exhaustive automatic processing of textual information
Jescheniak et al. Word frequency effects in speech production: Retrieval of syntactic information and of phonological form.
EP1544746A2 (fr) Création de résumés normalisés en utilisant de modèles de domaines communs pour l&#39;analyse et la géneration de texte.
US9588958B2 (en) Cross-language text classification
JP6676110B2 (ja) 発話文生成装置とその方法とプログラム
WO2002067142A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
Ye Supporting component-based software development with active component repository systems
US20120010872A1 (en) Method and System for Semantic Searching
Mallery Semantic content analysis: a new methodology for the RELATUS natural language environment
WO2022134779A1 (fr) Procédé, appareil et dispositif d&#39;extraction de données associées à une action de personnage et support de stockage
Van Valin et al. Interfacing the lexicon and an ontology in a linking system
Hawkinson The Representation of Concepts in OWL.
RU2662699C2 (ru) Исчерпывающая автоматическая обработка текстовой информации
Gyawali Surface Realisation from Knowledge Bases
Aretoulaki COSY-MATS: A Hybrid Connectionist-Symbolic Approach To The Pragmatic Analysis of Texts For Their Automatic Summarisation
Sevilla et al. Enriched semantic graphs for extractive text summarization
Galitsky et al. Building chatbot thesaurus
Jenkins Designing Service-Oriented Chatbot Systems Using a Construction Grammar-Driven Natural Language Generation System
Zarri A structured metadata approach for dealing in an ‘intelligent’way with complex ‘narrative’information
Tomai A pragmatic approach to computational narrative understanding
FR3087555A1 (fr) Dispositif de traitement automatique de texte par ordinateur
Şerban Detection and integration of affective feedback into distributed interactive systems
Fliedner Linguistically informed question answering

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20071110

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20080414

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: LA SOCIETE HUMAN KNOWLEDGE

RIN1 Information on inventor provided before grant (corrected)

Inventor name: PRIGNITZ, HERMANN

Inventor name: FIDAALI, KABIRE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20160513