EP1880314A1

EP1880314A1 - Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique

Info

Publication number: EP1880314A1
Application number: EP06764601A
Authority: EP
Inventors: Kabire Fidaali; Hermann Prignitz
Original assignee: Kabire Fidaali; Hermann Prignitz
Current assignee: LA SOCIETE HUMAN KNOWLEDGE
Priority date: 2005-05-12
Filing date: 2006-05-11
Publication date: 2008-01-23
Also published as: FR2885712B1; US7856438B2; US20090077113A1; WO2006120352A1; FR2885712A1

Abstract

Un dispositif (D), dédié à l'analyse sémantique de documents, comprend une base de données structurales et sémantiques (BD) et un interpréteur de document (ID) comportant i) un gestionnaire d'arbre n-aire (GAN) chargé de constituer un arbre n- aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, cet arbre n-aire structural comprenant un nœud racine associé à une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, et ii) un gestionnaire d'arbre sémantique (GAS) chargé de déterminer, à partir de l'arbre n-aire structural et de la base de données (BD), des entités catégorisantes de type objet et de type acte activées par certains nœuds de l'arbre n-aire, afin de construire un arbre sémantique muni de nœuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres nœuds de l'arbre n-aire et de leurs liens respectifs.

Description

DISPOSITIF ET PROCÉDÉ D'ANALYSE SÉMANTIQUE DE DOCUMENTS PAR CONSTITUTION D'ARBRES N-AIRE ET SÉMANTIQUE

L'invention concerne le domaine de l'analyse automatisée de documents ainsi que l'utilisation des résultats de telles analyses.

On entend ici par « document » un ensemble de données représentant des caractères connus ou reconnaissables. Il pourra notamment s'agir d'un texte constitué d'une suite ordonnée d'entités verbales, comme par exemple des mots, des groupes de mots, des chiffres ou des groupes alphanumériques. Par ailleurs, on entend ici par « analyse » tout type de vérification destinée à déterminer si un document possède un sens, compte tenu éventuellement de son contexte.

De plus, on entend ici par « utilisation des résultats » toute opération ou tout procédé pouvant être appliqué à un document analysé, par exemple en vue d'une traduction, éventuellement simultanée, ou en vue d'un filtrage d'information (par exemple dans le cadre d'une gestion de messagerie électronique), ou en vue d'une correction orthographique et/ou grammaticale, ou en vue d'une transcription d'une dictée vocale, ou en vue d'une génération de textes (tels que des résumés), ou encore en vue d'une recherche, au moyen d'un moteur de recherche, d'informations textuelles accessibles dans des serveurs de réseaux privés ou publics (tels qu'Internet).

De nombreuses applications permettent de traiter le langage naturel. Elles sont fondées sur différentes techniques, comme par exemple les analyseurs syntaxiques, les réseaux sémantiques ou les modèles bayésiens, parfois associés à des réseaux de neurones ou à de la logique modale floue.

Ces techniques offrent certains avantages par rapport aux moteurs de recherche de première génération, qui étaient limités par l'emploi de mots clés.

Cependant, dans certains domaines ces techniques s'avèrent insuffisantes, voire inopérantes, en matière de traitement du langage naturel, du fait qu'elles négligent une partie des informations qui sont contenues dans les documents à analyser.

Cela résulte essentiellement de la difficulté majeure que représente pour une machine le traitement automatique du langage naturel du fait de son ambiguïté et de sa polysémie. Le terme « ambiguïté » désigne un énoncé présentant plusieurs interprétations, et le terme « polysémie » désigne les mots qui ont plusieurs sens (la polysémie est une source d'ambiguïté parmi d'autres). En effet, il est extrêmement difficile, voire impossible, de modéliser le langage sans modéliser le sens. En outre, le sens n'étant rien sans sa compréhension, le traitement automatique devrait intégrer une modélisation des mécanismes de la compréhension humaine du sens. Or, on ne sait même pas si la compréhension humaine est modélisable. Aucune technique connue n'étant entièrement satisfaisante, l'invention a donc pour but d'améliorer la situation, et notamment de permettre l'interprétation correcte d'un document par une évaluation automatique du rôle joué par chacune des entités verbales (ou mots) qui composent ce document (tel qu'un texte) sur les plans syntaxique, sémantique et contextuel. Elle propose à cet effet un dispositif d'analyse sémantique de documents, comprenant une base de données structurales et sémantiques et un interpréteur de document chargé de déterminer si un document a un sens à l'aide de la base de données.

Ce dispositif d'analyse sémantique de documents se caractérise par le fait que son interpréteur de document comprend :

- un gestionnaire d'arbre n-aire chargé de constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre n-aire structural comprenant un nœud racine, formé d'une entité verbale régissante primaire, et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, - un gestionnaire d'arbre sémantique chargé de déterminer, au moins à partir de l'arbre n-aire structural et de la base de données, des entités catégorisantes de type objet et de type acte activées par certains nœuds de l'arbre n-aire, afin de construire un arbre sémantique muni de nœuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres nœuds de l'arbre n-aire et de leurs liens respectifs.

En d'autres termes, le gestionnaire d'arbre sémantique est chargé de transformer chaque arbre (structural) n-aire en un arbre sémantique, d'une première part, en extrayant de celui-ci des entités catégorisantes, d'une deuxième part, en créant des liens sémantiques entre entités catégorisantes extraites à partir de l'interprétation des liens structuraux qui relient les entités verbales qui ont activé ces entités catégorisantes, et d'une troisième part, en affectant à chaque entité catégorisante extraite une liste d'au moins un attribut selon un modèle (ou patron) défini par un lexique.

On entend ici par « lexique » une liste d'entrées (les entités verbales) définies chacune par :

- des caractéristiques structurales catégorisantes, par exemple verbe, substantif, etc., genre, nombre, etc., et/ou

- des contraintes structurales, c'est-à-dire des schémas actanciels (potentiels de connexion), et/ou - des caractéristiques sémantiques génériques, c'est-à-dire une décomposition sur les ontologies sous-jacentes, et/ou

- des contraintes sémantiques spécifiques à chaque classe structurale, c'est-à-dire des relations de compatibilité sémantique qui exploitent les caractéristiques sémantiques génériques, et/ou - des fonctions lexicales, et/ou

- des patrons (comportant chacun un modèle de connexion sémantique et une liste de propriétés (ou attributs)) servant de modèles lors de la construction des nœuds de l'arbre sémantique.

Par ailleurs, une contrainte est un lien régulé définissant une caractéristique connexionnelle.

On peut également, et éventuellement, affecter aux attributs des valeurs issues des nœuds de l'arbre n-aire n'ayant pas encore été exploités. On entend ici par « entité catégorisante de type objet » une abstraction obtenue (essentiellement) par catégorisation d'objets du monde réel (comme par exemple une table, une étoile ou une rosé) ou de notions abstraites qui fonctionnent comme des métaphores d'objets réels (comme par exemple des sentiments), généralement référencés par des substantifs (la réciproque n'étant pas nécessairement vraie).

Par ailleurs, on entend ici par « entité catégorisante de type acte » une abstraction obtenue (essentiellement) par catégorisation d'actions du monde réel (comme par exemple aller ou déplacer) ou de notions abstraites qui fonctionnent comme des métaphores d'actions réelles (comme par exemple penser ou aimer) pouvant être référencées soit (préférentiellement) par des verbes, soit par des substantifs (dans ce cas la construction de l'arbre sémantique nécessite une étape supplémentaire consistant à appliquer une fonction lexicale pour transformer la structure substantivale en une structure verbale (cette fonction lexicale faisant partie de la définition du substantif concerné) - à titre d'exemple on peut citer la transformation de l'expression « le déplacement de la table » en l'expression « déplacer la table »), soit par toute autre catégorie structurale selon un procédé propre à la langue considérée.

En outre, selon l'invention un document possède au moins un sens dès lors que l'on a pu constituer un arbre sémantique à partir de ses entités verbales.

Le dispositif selon l'invention peut comporter d'autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment :

- son interpréteur de document peut comprendre un gestionnaire d'arbre binaire chargé de constituer un arbre binaire structural à partir de la décomposition d'un document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, cet arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de la suite et constituant l'un des deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de la suite. Dans ce cas, le gestionnaire d'arbre n-aire est chargé de constituer chaque arbre n-aire à partir d'un arbre binaire structural ;

- son interpréteur de document peut comprendre un module de décomposition chargé de décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales ;

- son interpréteur de document peut comprendre un analyseur sémantique chargé de déterminer les relations de compatibilité sémantique entre noeuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique ;

- son analyseur sémantique peut être chargé de déterminer des relations entre nœuds principaux d'au moins un arbre sémantique parmi des relations spatiale, temporelle, causale, anaphorique et cataphorique ; - son analyseur sémantique peut être chargé d'effectuer un diagnostic relatif à l'analyse d'un document, et de délivrer un message représentatif du résultat de ce diagnostic. Ce message de diagnostic précise la nature des problèmes rencontrés pendant l'analyse du document. Il peut par exemple comprendre à cet effet des informations représentatives des difficultés rencontrées pendant l'analyse d'un document, et/ou des possibilités d'interprétations différentes d'une phrase (qui résultent de la présence d'ambiguïtés non encore résolues), et/ou d'au moins un mot inconnu, et/ou d'au moins une faute de grammaire, et/ou d'au moins un défaut de construction, et/ou d'au moins un non-sens, et/ou d'une liste d'ambiguïtés non résolues. L'invention propose également un procédé d'analyse sémantique de documents consistant :

- à constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre n-aire structural comprenant un nœud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, - à déterminer, au moins à partir de l'arbre n-aire structural et de données stockées dans une base de données structurales et sémantiques, des entités catégorisantes de type objet et de type acte activées par certains nœuds de l'arbre n-aire, afin de construire un arbre sémantique muni de nœuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres nœuds de l'arbre n-aire et de leurs liens respectifs.

Le procédé selon l'invention peut comporter d'autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment :

- avant de constituer un arbre n-aire, on peut constituer un arbre binaire structural à partir de la décomposition d'un document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de la suite et constituant l'un des deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de la suite. Dans ce cas, on constitue chaque arbre n-aire à partir d'un arbre binaire structural ;

- avant de constituer un arbre binaire ou un arbre n-aire, on peut décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales ;

- on peut déterminer les relations de compatibilité sémantique entre nœuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique ;

- on peut déterminer si le document analysé possède un sens en déterminant des relations entre nœuds principaux d'au moins un arbre sémantique, choisies parmi des relations spatiale, temporelle, causale, anaphorique, et cataphorique ; - après avoir constitué un arbre sémantique, on peut effectuer un diagnostic relatif à l'analyse d'un document, puis délivrer un message représentatif du résultat du diagnostic. Ce message de diagnostic précise la nature des problèmes rencontrés pendant l'analyse du document. Il peut par exemple comprendre à cet effet des informations représentatives des difficultés rencontrées pendant l'analyse d'un document, et/ou des possibilités d'interprétation différentes d'une phrase, et/ou d'au moins un mot inconnu, et/ou d'au moins une faute de grammaire, et/ou d'au moins un défaut de construction, et/ou d'au moins un non- sens, et/ou d'une liste d'ambiguïtés non résolues.

D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés, sur lesquels :

- la figure 1 illustre de façon très schématique et fonctionnelle un exemple de réalisation d'un dispositif d'analyse sémantique de documents selon l'invention,

- la figure 2 illustre de façon schématique les principales étapes d'un exemple d'algorithme de décomposition d'un document en entités verbales,

- la figure 3 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre binaire structural à partir d'une décomposition de document en entités verbales,

- la figure 4 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre n-aire structural à partir d'un arbre binaire structural,

- la figure 5 est un diagramme arborescent, non limitatif, illustrant schématiquement des relations entre différents types, sous-types et sous-sous- types d'entités catégorisantes,

- la figure 6 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre sémantique à partir d'un arbre n-aire structural, - la figure 7 illustre de façon schématique un exemple d'arbre binaire structural,

- la figure 8 illustre de façon schématique un exemple d'arbre n-aire structural résultant de l'arbre binaire structural de la figure 7,

- la figure 9 illustre de façon schématique un exemple d'arbre sémantique résultant de l'arbre n-aire structural de la figure 8, - la figure 10 illustre de façon schématique des relations causale et anaphorique dans un autre exemple d'arbre sémantique,

- les figures 11A et 11B illustrent de façon schématique respectivement un autre exemple d'arbre n-aire structural et l'arbre sémantique associé dans le cas d'une gestion chronologique, - la figure 12 illustre de façon schématique une relation temporelle entre deux exemples d'arbre sémantique, - la figure 13 illustre de façon schématique des relations temporelle et anaphorique entre deux autres exemples d'arbre sémantique,

- la figure 14 illustre de façon schématique des relations de compatibilité sémantique entre des entités verbales d'un autre exemple d'arbre sémantique, - la figure 15 illustre schématiquement les principales relations entre des nœuds associés à des substantifs (NO) et des nœuds associés à des adjectifs (NA), et les principales notions qui y sont rattachées (en particulier les métriques), et

- la figure 16 illustre schématiquement les principales relations entre des entités catégorisantes de type objet et acte, et les principales notions qui y sont rattachées.

Les dessins annexés pourront non seulement servir à compléter l'invention, mais aussi contribuer à sa définition, le cas échéant.

L'invention a notamment pour objet de permettre la structuration, par le sens, de l'information contenue dans un document à analyser, au moyen, notamment, d'un modèle de levée automatique d'une partie au moins des ambiguïtés et polysémies inhérentes aux documents en langage naturel.

On se réfère tout d'abord à la figure 1 pour décrire un exemple de réalisation d'un dispositif d'analyse sémantique de documents D, selon l'invention.

Dans ce qui suit, on considère à titre d'exemple non limitatif que le dispositif D est dédié à la levée automatique d'ambiguïtés et de polysémies de documents de type texte.

Un tel dispositif D peut par exemple être implanté dans un ordinateur ou un serveur d'application(s) dont il utilise certaines ressources, notamment de calcul (CPU). Un dispositif d'analyse D, selon l'invention, comporte au moins une base de données structurales et sémantiques BD et un interpréteur de document ID.

La base de données BD, également appelée lexique (ou référentiel- lexique), comprend des mots (ou entités verbales) auxquel(le)s sont affectées des propriétés syntaxiques et sémantiques ainsi que des règles de composition (ou liens). Les propriétés et liens (ou règles) constituent des données qui servent à construire des entités catégorisantes (ou conceptuelles) de type acte et objet.

Les définitions des entités catégorisantes ont été données précédemment. Par ailleurs, on entend ici par « propriété » une abstraction obtenue par catégorisation de notions à caractère définitoire, basées sur des ensembles de valeurs, généralement référencées par des substantifs (comme par exemple la couleur ou la taille). Une valeur est par définition une abstraction directement référencée par un adjectif et nécessairement liée à une propriété. Les valeurs peuvent généralement être associées à des échelles quantitatives (« objectives ») et/ou qualitatives (« subjectives »), comme on le verra plus loin lors de l'introduction de la notion de métrique.

Les mots sont classés au sein de classes structurales de verbes, de substantifs, d'adjectifs, d'adverbes et de mots structurants. Toutes ces classes peuvent se subdiviser par exemple en sous-classes, sous-sous-classes, et ainsi de suite (comme on le verra plus loin en référence à la figure 15 où les NO^A, NO^U et analogues sont des sous-classes de la classe des substantifs).

Une entité catégorisante est chargée d'engendrer librement du sens ambigu par association avec d'autres entités catégorisantes, sous le contrôle de propriétés qui limitent leur liberté au respect d'une structure syntaxique et sémantique contrôlée.

Les liens sont chargés de contrôler les propriétés à travers des surdéterminations pragmatiques (contraintes pragmatiques faibles ou fortes), soit issues du document (texte) lui même, soit issues du contexte général. Par « contraintes pragmatiques faibles » on entend ici le fait qu'aucun référentiel généraliste en contexte ouvert ne saurait épuiser toutes les possibilités d'interprétation d'un message textuel. Les liens offrent une souplesse au processus de levée d'ambiguïté (ou désambiguïsation) en activant ou en désactivant certaines règles des propriétés suivant les besoins, par exemple en privilégiant la sémantique sur la syntaxe quand une phrase agrammaticale présente manifestement un sens. Leur rôle dans la désambiguïsation est essentiel.

Comme cela est illustré sur la figure 1 , la base de données BD peut être subdivisée en une base de données généralistes BD1 et une base de données spécialisées BD2.

La base de données généralistes BD1 , également appelée lexique général, comporte des entrées, typiquement plusieurs dizaines de milliers (par exemple 80 000) qui définissent des formes fléchies (typiquement plusieurs centaines de milliers, et par exemple plus de 300 000), munies de données traduisant des contraintes pragmatiques faibles intervenant notamment dans la désambiguïsation du sens intrinsèque d'un texte qui préserve sa polysémie générale. La base de données spécialisées BD2, également appelée lexique spécialisé, comporte des données traduisant des particularités linguistiques d'un contexte précis (contraintes pragmatiques fortes) qui permettent de limiter la polysémie générale des messages pour en extraire un ou plusieurs sens interprétés localement pertinents. Plus la définition du contexte est détaillée, plus l'interprétation finale est simple à réaliser.

Les propriétés sémantiques sont organisées selon une taxinomie et distribuées sur les axes de trois référentiels primaires multidimensionnels - le réel matériel, l'intentionnel et le contextuel. Elles sont indépendantes des syntaxes classiques qui n'intègrent que faiblement les paramètres sémantiques. Par conséquent elles ne sont pas spécifiques à une langue particulière.

Chaque référentiel primaire multidimensionnel dispose d'axes de décomposition des propriétés sémantiques et d'une logique de composition propre. Les logiques associées aux trois référentiels primaires sont de type modal.

Le calcul des contributions à la désambiguïsation de chaque référentiel primaire se fait selon une évaluation d'une ou plusieurs résultantes qui fixent les paramètres de son influence sur le processus général de désambiguïsation. Si les axes intentionnels et contextuels se prêtent au calcul de telles résultantes, en revanche le réel matériel apporte dans la quasi totalité des langues connues, une contribution différenciée qu'il n'est pas toujours possible de réduire à une composante globale. On exploite ainsi les propriétés sémantiques portant sur le réel en préservant les quatre axes classiques d'un espace spatio-temporel à 4 dimensions.

Les entités catégorisantes sont des objets dynamiques d'un univers linguistique à six dimensions muni d'une algèbre en logique multimodale. Un ensemble de règles de compatibilité entre propriétés régissent les interactions entre entités catégorisantes.

L'interpréteur de document ID est chargé de déterminer si un document a un sens à l'aide de la base de données BD et de fonctions de traitement mettant en œuvre un modèle mathématique sur lequel on reviendra plus loin. Il comprend au moins un gestionnaire d'arbre n-aire GAN et un gestionnaire d'arbre sémantique GAS, ainsi qu'éventuellement un analyseur sémantique AS. Le gestionnaire d'arbre n-aire GAN est chargé de constituer, à l'aide de ses fonctions de traitement et de la base de données BD, un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales (ou mots, ou groupes de mots, ou encore groupes alphanumériques) et de contraintes structurales et/ou sémantiques choisies et définies dans la base de données BD.

Un texte (ou document) étant généralement constitué de phrases, on considère dans ce qui suit que chaque phrase constitue tout ou partie d'une suite ordonnée d'entités verbales.

Il est important de noter que les suites ordonnées d'entités verbales sont par exemple fournies par un module de décomposition de document MD qui, comme dans l'exemple illustré sur la figure 1 , peut faire partie du dispositif D. Mais, cela n'est pas obligatoire. En effet, lorsque le dispositif D ne comporte pas de module de décomposition de document MD, les suites peuvent lui être directement fournies par un équipement externe. Le module de décomposition de document MD est chargé, lorsqu'il existe, de décomposer chaque ensemble de données, qui définit un document (tel qu'un texte), en une suite ordonnée d'entités verbales à analyser. Dans la plupart des situations, après avoir décomposé un document en une suite ordonnée d'entités verbales on ne procède pas à l'identification de la langue et de sa structure syntaxique. Cette dernière si elle n'est pas donnée, est identifiée à l'étape suivante. Cependant, on peut envisager de déterminer, à ce stade, des séparateurs spécifiques à une langue donnée, comme par exemple pour le chinois.

Chaque arbre n-aire structural, qui est construit par le gestionnaire d'arbre n-aire GAN, comprend un nœud racine qui est associé à une entité verbale régissante dite primaire et à des structures qui sont formées d'une entité verbale subordonnée dite secondaire et rattachées soit directement soit indirectement au nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle. La mise en place d'un lien (identifié par sa (ou ses) caractéristique(s) connexionnelle(s)) dans un arbre structural binaire se fait par application des contraintes structurales et/ou sémantiques fournies par les potentiels de connexion qui sont associés aux données élémentaires (issues de la base de données (ou lexique) BD1 ou BD2) des deux entités verbales concernées.

Certaines entités verbales subordonnées secondaires peuvent devenir à leur tour des entités verbales régissantes.

Chaque arbre n-aire structural peut être construit à partir d'un arbre binaire, lui-même construit à partir d'une suite ordonnée d'entités verbales, éventuellement fournie par le module de décomposition MD.

Dans ce cas, l'interpréteur de document ID comprend, comme illustré sur la figure 1 , un gestionnaire d'arbre binaire structural. Ce dernier est chargé de recomposer chaque suite ordonnée d'entités verbales qu'il reçoit en un arbre binaire structural. Plus précisément, comme on le verra ci-après deux noeuds adjacents entrent en composition pour former un nouveau nœud, sachant qu'au départ on ne dispose que de feuilles.

Un arbre binaire structural comprend un nœud racine qui représente l'ensemble des entités verbales d'une phrase (ou portion de phrase) à traiter, et qui constitue un nœud père pour deux nœuds fils résultant de sa décomposition binaire. Selon le nombre d'entités verbales que comporte un nœud fils, il constitue soit une feuille de l'arbre binaire, soit un nœud père décomposable à son tour, de façon binaire, en deux nœuds fils.

En d'autres termes, la décomposition binaire du nœud racine donne deux nœuds fils qui peuvent à leur tour être des nœuds pères pouvant faire l'objet d'une décomposition binaire et ainsi de suite jusqu'à ce que chaque feuille de l'arbre binaire soit occupée par une entité verbale (mot) de la (portion de) phrase traitée.

Cette décomposition binaire se fait en fonction de contraintes structurales et/ou sémantiques stockées dans la base de données BD. Préférentiellement, l'utilisateur du dispositif D n'intervient pas à ce stade. Son intervention se réduit éventuellement à la définition de règles locales permettant d'outrepasser certaines règles générales (comme par exemple interdire l'application des règles d'accord en genre). Le gestionnaire d'arbre binaire GAB et/ou le gestionnaire d'arbre n-aire GAN peuvent disposer d'une fonction d'identification des unités lexicales (ou entités verbales) propres à la langue utilisée pour rédiger (ou dicter) un document, permettant de mettre en évidence des ambiguïtés lexicales. Le gestionnaire d'arbre sémantique GAS est chargé de déterminer des entités catégorisantes de type objet et de type acte à partir de l'arbre n-aire structural et des données stockées dans la base de données BD.

Il est ici rappelé qu'une entité catégorisante de type objet est une abstraction obtenue (essentiellement) par catégorisation d'objets du monde réel ou de notions abstraites qui fonctionnent comme des métaphores d'objets réels, généralement référencés par des substantifs. Par ailleurs, une entité catégorisante de type acte est une abstraction obtenue (essentiellement) par catégorisation d'actions du monde réel ou de notions abstraites qui fonctionnent comme des métaphores d'actions réelles pouvant être référencées soit (préférentiellement) par des verbes, soit par des substantifs (dans ce cas la construction de l'arbre sémantique nécessite une étape supplémentaire consistant à appliquer une fonction lexicale pour transformer la structure substantivale en une structure verbale).

Comme on le verra plus loin, le gestionnaire d'arbre sémantique GAS peut, dans certaines situations, se servir des informations contenues dans un ou plusieurs autres arbres n-aires correspondant à d'autres phrases d'un même document pour constituer un arbre sémantique. C'est notamment le cas en présence d'ambiguïtés de type anaphore ou cataphore.

Chaque arbre sémantique est constitué de nœuds principaux qui sont chacun associés à au moins une entité catégorisante de type objet ou de type acte, qui est activée par certains nœuds de l'arbre n-aire, et qui sont liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres nœuds de l'arbre n-aire et de leurs liens respectifs. L'analyseur sémantique AS est chargé de déterminer les relations de compatibilité sémantique entre les nœuds principaux de type objet et/ou les nœuds principaux de type acte d'au moins un arbre sémantique. Les relations de compatibilité sémantique exploitent les caractéristiques sémantiques. Par exemple, seul un « humain », qui est une entité catégorisante de type objet, peut « penser », qui est une entité catégorisante de type acte.

L'analyseur sémantique AS constitue un outil de diagnostic d'analyse de document. Il peut par exemple préciser quelles difficultés ont été rencontrées pendant l'analyse d'un document (ou d'une phrase) et/ou différentes possibilités d'interprétation d'une phrase et/ou des mots inconnus et/ou des fautes de grammaire (par exemple des règles d'accord non respectées) et/ou des défauts de construction et/ou des non-sens (par exemple des règles de compatibilité sémantique non respectées) et/ou des ambiguïtés qui n'ont pas pu être résolues.

Grâce aux diagnostics fournis, il est alors par exemple possible de classer des messages, ou de résoudre une situation problématique (par application d'une règle locale ou par identification d'un défaut d'information empêchant la compréhension complète d'un message), ou encore de savoir pourquoi un message est jugé « incompréhensible ». En outre, lorsque le diagnostic fourni est compréhensible et répertorié, des actions automatisées peuvent être entreprises.

Comme indiqué précédemment, les différents éléments composant l'interpréteur de document ID utilisent des fonctions de traitement qui mettent en œuvre un modèle mathématique. Ce dernier repose sur plusieurs algorithmes qui interviennent sur les liens qui sont pourvus d'au moins une caractéristique connexionnelle et qui sont établis entre des structures formées d'une entité verbale subordonnée secondaire et un nœud racine. Plus précisément, ces algorithmes exploitent les propriétés des entrées de la base de données BD, préalablement transformées en entités catégorisantes dont les données et les liens constituent les propriétés.

Comme évoqué précédemment, les entités catégorisantes constituent des variétés distribuées suivant des axes regroupés en trois référentiels primaires différents. Les variétés peuvent interagir et se combiner via des règles de composition lexicales, syntaxiques, sémantiques, et pragmatiques dans un univers linguistique à six dimensions.

Le traitement des ambiguïtés se fait transversalement, non pas successivement mais de façon interactive, en fonction des règles de compatibilité 55

15

de chaque entité catégorisante avec d'autres entités catégorisantes.

Les propensions de plusieurs entités catégorisantes à cohabiter ou à s'exclure, par activation ou désactivation de règles de compatibilité, dirigent la réalisation de graphes linguistiques primaires, sous la forme de groupes constituant des arbres structuraux (binaires ou n-aires).

Les groupes sont assimilables à des syntagmes disposant de propriétés syntaxiques et sémantiques. Ils héritent de nouvelles disponibilités de composition d'un ordre supérieur qui autorisent la création de graphes linguistiques secondaires ou super groupes qui correspondent grossièrement à des phrases informatives éventuellement agrémentées d'un diagnostic, par exemple sous la forme d'un classement en « information compréhensible », « information douteuse »,

« information absurde » ou « information hors contexte ».

Il est important de noter que les notions de « primaire » et de

« secondaire », relatives aux graphes linguistiques, ne sont là que pour mettre en évidence le caractère récursif de la construction. Elles traduisent une progression dans la complexité des associations réalisées.

Le modèle mathématique fait interagir librement les données entre elles sous le seul contrôle des règles de compatibilité de leurs propriétés respectives.

Diverses hypothèses sont explorées et se réduisent, par exemple au moyen d'une méthode de réduction d'hypothèses inspirée du système modal dit « S4 » de

Gerhard Gentzen.

Les règles de compatibilité sont de premier et de second niveau, elles permettent de lever dès que possible les différents types d'ambiguïtés de premier niveau qui peuvent apparaître dans une suite ordonnée d'entités verbales (ou phrase).

Une algèbre de compatibilité entre les différentes variétés d'entités catégorisantes permet de constituer des groupes de plusieurs entités catégorisantes syntaxiquement et sémantiquement compatibles. Cette algèbre de compatibilité est constituée des règles de compatibilité sémantique. Si il n'y a qu'un seul super groupe mathématiquement possible, la phrase est totalement désambiguïsée (et donc comprise). En revanche, si plusieurs super groupes sont mathématiquement possibles, la phrase demeure ambiguë (et donc non comprise).

Le super groupe peut ensuite être mis en relation avec la phrase (ou le document) originel(le) en vue de l'exploitation des informations structurées qu'il contient. Par exemple, on peut comparer un super groupe avec des super groupes de référence (définissant des filtres pré paramétrés, éventuellement issus d'une analyse de questions - en langage naturel - posées par des utilisateurs ou par d'autres textes). On peut également effectuer des opérations sur des ensembles de super groupes, comme par exemple des calculs de distance ou des contrôles de cohérence. On peut également utiliser un ou plusieurs super groupes pour extraire des informations spécifiques, comme par exemple des résumés. On peut encore utiliser un ou plusieurs super groupes pour générer de nouveaux messages.

On se réfère à la figure 2 pour décrire les principales étapes d'un exemple d'algorithme de décomposition d'un document en entités verbales. Cet algorithme est mis en œuvre par le module de décomposition MD du dispositif D selon l'invention. Il est important de noter que lorsque l'on utilise d'autres méthodes de décomposition que celle décrite ci-après, le module de décomposition MD est adapté en conséquence. Ainsi, il peut par exemple reposer sur l'utilisation de transducteurs. En A, le module de décomposition MD reçoit un document à analyser. Il s'agit par exemple d'un texte en langage naturel. Dans une étape 10, le module de décomposition MD détermine (lit) le premier caractère du document. Puis, dans une étape 20 le module de décomposition MD effectue un test afin de déterminer si le caractère lu est le dernier du document. Si tel est le cas, la décomposition du document prend fin en B. En revanche, si le caractère lu n'est pas le dernier du document, le module de décomposition MD effectue un nouveau test dans une étape 30 afin de déterminer si le caractère lu est un séparateur. Si ce n'est pas le cas, dans une étape 40 le module de décomposition MD ajoute ce caractère au mot qui est en cours de composition, puis il retourne à l'étape 10 afin de recommencer les étapes de l'algorithme avec le caractère suivant du document. En revanche, si le caractère lu n'est pas un séparateur, le module de décomposition MD effectue un nouveau test dans une étape 50 afin de déterminer si le caractère lu est le dernier d'un mot en cours de composition. Si te! est le cas, dans une étape 60 le module de décomposition MD identifie le mot qui vient d'être composé, puis il stocke le mot dans une mémoire tampon avant de retourner à l'étape 10 afin de recommencer les étapes de l'algorithme avec le caractère suivant du document. En revanche, si le caractère lu n'est pas le dernier d'un mot en cours de composition, le module de décomposition MD crée, dans une étape 55, un niveau qui matérialise un trait d'union, puis il passe à l'étape 60.

Les séparateurs sont soit des séparateurs de mots (ce qui conduit effectivement à l'étape 60), soit des séparateurs d'unités de textes de différents niveaux logiques, imbriquées les unes dans les autres, telles que des segments, des phrases, des paragraphes, ou des chapitres.

Cet exemple d'algorithme est ainsi appliqué à chaque caractère d'un document jusqu'au dernier. Cet algorithme de décomposition fournit ainsi une suite ordonnée d'entités verbales constituées respectivement de mots, groupes de mots, chiffres ou groupes alphanumériques, généralement séparés par des séparateurs, et dont le sens doit être analysé.

La mise en œuvre de l'algorithme de décomposition de document peut se faire au moyen d'un transducteur, par exemple construit sous la forme d'un automate à états finis qui optimise à la fois l'espace mémoire requis et les performances.

L'analyse de sens d'une suite ordonnée d'entités verbales commence de préférence par la constitution d'un arbre binaire structural pour chaque phrase du document. Lorsque le document ne comprend qu'une seule phrase, toute la suite ordonnée d'entités verbales sert à construire un arbre binaire. En revanche, lorsque le document comprend plusieurs phrases, chaque portion de la suite ordonnée d'entités verbales, qui correspond à une phrase, sert à construire un arbre binaire.

On se réfère à la figure 3 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre binaire structural. Cet algorithme est mis en œuvre par le gestionnaire d'arbre binaire GAB du dispositif D selon l'invention. En B, le gestionnaire d'arbre binaire GAB reçoit une suite ordonnée d'entités verbales. Cette suite est par exemple fournie par le module de décomposition de document MD qui met en œuvre un algorithme de décomposition du type de celui décrit ci-avant. Mais, cela n'est pas obligatoire. En effet, lorsque le dispositif D ne comporte pas de module de décomposition de document MD, les suites peuvent être directement fournies au gestionnaire d'arbre binaire GAB par un équipement externe. Dans une étape 100, le gestionnaire d'arbre binaire GAB procède à l'initialisation de l'arbre binaire structural à construire.

Puis, dans une étape 110 le gestionnaire d'arbre binaire GAB met par exemple à zéro (0) la valeur d'un compteur de nœud père i de l'arbre binaire structural. Il ne s'agit ici que d'un exemple de mise en œuvre. Par exemple, en présence d'un langage capable de gérer des listes, la gestion du compteur peut ne plus être assurée par le programmeur. On peut alors utiliser un algorithme de parcours de la structure physique qui a été utilisée pour implémenter la liste.

A l'exception du nœud racine (i=0) qui est constitué de l'ensemble des entités verbales de la phrase à traiter, chaque autre nœud père (i>0) de l'arborescence binaire représente le résultat d'une partie de la décomposition binaire des entités verbales qui occupent son propre nœud père. La décomposition binaire du nœud racine donne deux nœuds fils qui peuvent à leur tour être des nœuds pères pouvant faire l'objet d'une décomposition binaire et ainsi de suite jusqu'à ce que chaque feuille de l'arbre binaire soit occupée par une entité verbale (mot) de la phrase traitée.

La décomposition binaire se fait en fonction de contraintes structurales et/ou sémantiques stockées dans la base de données BD.

Dans une étape 120 le gestionnaire d'arbre binaire GAB commence l'analyse du nœud père i pointé en mettant à zéro (0) la valeur d'un compteur de nœud fils j de l'arbre binaire structural. Puis, il procède à une décomposition des entités verbales du nœud père i pointé en deux parties j et j' (non représenté).

Dans une étape 130 le gestionnaire d'arbre binaire GAB effectue un test pour déterminer si la partie j pointée, résultant de la décomposition du nœud père i pointé, satisfait à une ou plusieurs contraintes structurales et/ou sémantiques choisies. Si ce n'est pas le cas, il passe à l'étape 140. Dans le cas contraire, dans une étape 135 le gestionnaire d'arbre binaire GAB définit un nouveau nœud (de connexion) au sein de l'arbre binaire afin de l'attribuer à la partie j pointée, puis il passe à l'étape 140. Ce nouveau nœud j est alors un nœud fils du nœud père i pointé.

A l'étape 140, le gestionnaire d'arbre binaire GAB effectue un test pour déterminer si la partie j pointée qui vient d'être traitée est la dernière partie résultant de la décomposition du nœud père i pointé. Si ce n'est pas le cas, dans une étape 150 le gestionnaire d'arbre binaire GAB incrémente d'une unité le compteur d'indice j, puis il retourne effectuer l'étape 130. En revanche, si la partie j pointée qui vient d'être traitée est la dernière partie résultant de la décomposition du nœud père i pointé, alors le gestionnaire d'arbre binaire GAB effectue un autre test dans une étape 160 pour déterminer s'il y a d'autres nœuds i à traiter. Si ce n'est pas le cas, dans une étape 170 le gestionnaire d'arbre binaire GAB incrémente d'une unité le compteur d'indice i, puis il retourne effectuer l'étape 120. En revanche, si il n'y a plus de nœud i à traiter le gestionnaire d'arbre binaire GAB effectue un autre test dans une étape 180 pour déterminer si la dernière itération effectuée à l'étape 135 n'a pas créé de nouveaux nœuds et donc de nouvelles possibilités de connexion qu'il est nécessaire d'explorer. Si ce n'est pas le cas, l'arbre binaire structural est constitué et l'algorithme de construction d'arbre binaire prend fin en C. En revanche, si une itération doit être effectuée, le gestionnaire d'arbre binaire GAB retourne effectuer l'étape 110. Un exemple d'arbre binaire structural correspondant à la phrase « La petite brise la glace » est illustré sur la figure 7. Dans cet exemple, le nœud racine correspond à toute la phrase « La petite brise la glace ». Un premier nœud fils du nœud racine comprend les mots « La petite brise», tandis que le second nœud fils du nœud racine comprend les mots « la glace »). Le premier nœud fils (« La petite brise») est alors un nœud père pour ses deux nœuds fils associés respectivement aux mots « brise » et « La petite ». Le nœud fils associé au mot « brise » est une feuille de l'arborescence binaire qui ne peut plus être décomposée. Le nœud fils associé aux mots « La petite » est alors un nœud père pour ses deux nœuds fils associés respectivement aux mots « La » et « petite ». Les nœuds fils associés respectivement aux mots « La » et « petite » sont des feuilles de l'arborescence binaire qui ne peuvent plus être décomposées. De même, le second nœud fils (« la glace ») est un nœud père pour ses deux nœuds fils associés respectivement aux mots « la » et « glace ». Les noeuds fils associés respectivement aux mots « la » et « glace » sont des feuilles de l'arborescence binaire qui ne peuvent plus être décomposées.

Une fois un arbre binaire construit, l'analyse de sens d'une suite ordonnée d'entités verbales se poursuit par la constitution d'un arbre n-aire structural pour chaque phrase du document. On entend ici par « arbre n-aire » un arbre dans lequel la décomposition d'un nœud père aboutit à un nombre quelconque de nœuds fils, ce nombre pouvant varier d'un nœud père à l'autre.

On se réfère à la figure 4 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre n-aire structural. Cet algorithme est mis en œuvre par le gestionnaire d'arbre n-aire GAN du dispositif D selon l'invention.

Il est important de noter que dans l'exemple illustré sur la figure 1 , le gestionnaire d'arbre n-aire GAN est alimenté en arbres binaires par le gestionnaire d'arbre binaire GAB du dispositif D. Mais, cela n'est pas obligatoire. En effet, on peut envisager que le gestionnaire d'arbre n-aire GAN soit alimenté en arbres binaires par un équipement externe, ou bien qu'il soit agencé de manière à construire directement un arbre n-aire à partir d'une suite ordonnée d'entités verbales, et donc sans qu'il faille préalablement construire un arbre binaire.

En C, le gestionnaire d'arbre n-aire GAN reçoit la description d'un arbre binaire, par exemple fournie par l'algorithme de constitution d'arbre binaire structural décrit ci-avant. Dans une étape 200, le gestionnaire d'arbre n-aire GAN procède à l'initialisation de l'arbre n-aire structural à construire. Il crée un premier nœud C (courant) dans l'arbre n-aire qui devient son nœud racine, et met à zéro un compteur d'indice i de nœud de l'arbre binaire associé. II est important de noter que chaque nœud d'un arbre n-aire est associé à une unique entité verbale (ou mot) provenant d'une feuille de l'arbre binaire, contrairement audit arbre binaire qui comporte des nœuds intermédiaires associés à plusieurs entités verbales (ou mots).

Dans une étape 210 le gestionnaire d'arbre n-aire GAN prend un nœud d'indice i dans l'arbre binaire, puis dans une étape 220 il effectue un test pour déterminer si ce nœud d'indice i est une feuille de l'arbre binaire.

Si tel est le cas, le gestionnaire d'arbre n-aire GAN effectue un test dans une étape 230 pour déterminer si le nœud d'indice i est de type régissant (R) ou de type subordonné (S).

Si le nœud d'indice i est régissant (R), alors dans une étape 240 le gestionnaire d'arbre n-aire GAN associe au nœud courant C le nœud feuille d'indice i de l'arbre binaire, et ce nœud courant C est alors considéré comme le père d'au moins un nœud fils de l'arbre n-aire. Il est en effet rappelé qu'à chaque nœud père d'un arbre binaire correspond systématiquement un nœud fils régissant et un nœud fils subordonné. Par conséquent, les deux nœuds fils feuilles de chaque nœud intermédiaire père d'un arbre binaire peuvent être liés l'un à l'autre pour constituer au sein de l'arbre n-aire associé une structure dans laquelle le nœud fils régissant est rattaché au nœud fils subordonné correspondant par un lien qui peut être associé à des caractéristiques connexionnelles de leur nœud père. En raison de ce type de rattachement entre nœuds feuilles de l'arbre binaire, au sein de l'arbre n- aire associé, le nœud racine de l'arbre n-aire ne peut être qu'un nœud feuille régissant qui est rattaché, directement et indirectement, au nœud racine de l'arbre binaire associé par un ou des nœuds intermédiaires exclusivement de type régissant. En d'autres termes, ce nœud racine est issu d'une lignée exclusivement régissante.

Après cette étape 240, le gestionnaire d'arbre n-aire GAN passe à une étape 270.

En revanche, si le nœud d'indice i n'est pas de type régissant (R), c'est donc qu'il est de type subordonné (S). Par conséquent, il doit être rattaché par un lien (ou branche B) au nœud régissant (R) qui est rattaché à son propre nœud père au sein de l'arbre binaire. Dans une étape 250 le gestionnaire d'arbre n-aire GAN connecte (rattache) donc le nœud subordonné (S) d'indice i au nœud régissant (R) correspondant, au moyen d'un lien associé à des caractéristiques connexionnelles de leur nœud père. Puis, le gestionnaire d'arbre n-aire GAN passe à l'étape 270.

Si le résultat du test effectué à l'étape 220 indique que le nœud d'indice i n'est pas une feuille de l'arbre binaire, c'est donc qu'il s'agit de l'un de ses nœuds intermédiaires. Par conséquent, dans une étape 250 le gestionnaire d'arbre n-aire GAN commence par créer une nouvelle branche dans l'arbre n-aire en construction, puis il affecte les propriétés du nœud d'indice i à cette branche B. Ensuite, il connecte (ou rattache) l'extrémité supérieure (sup(B)) de la branche B au nœud courant C, et crée un nouveau nœud N qu'il connecte (ou rattache) à l'extrémité inférieure (inf(B)) de la branche B. Enfin, le gestionnaire d'arbre n-aire GAN remplace le nœud courant C par le nœud N qu'il vient de créer, avant de passer à l'étape 270.

A l'étape 270, le gestionnaire d'arbre n-aire GAN effectue un test pour déterminer si le nœud d'indice i en cours de traitement est le dernier nœud de l'arbre binaire à traiter. Si tel est le cas, alors l'arbre n-aire structural est constitué et l'algorithme de construction d'arbre n-aire prend fin en D. En revanche, si le nœud d'indice i en cours de traitement n'est pas le dernier nœud de l'arbre binaire à traiter, dans une étape 280 le gestionnaire d'arbre n-aire GAN incrémente d'une unité la valeur de l'indice i, puis il retourne effectuer l'étape 210 avec le nœud suivant de l'arbre binaire. Tous les nœuds de l'arbre binaire sont ainsi traités les uns après les autres en partant du nœud racine. Un exemple d'arbre n-aire structural, issu de l'arbre binaire structural de la figure 7 (lequel correspond à la phrase « La petite brise la glace »), est illustré sur la figure 8.

Dans cet exemple, comme cela a été matérialisé sur la figure 7, le nœud racine de l'arbre n-aire est le verbe « brise » qui est le seul nœud feuille régissant de l'arbre binaire issu d'une lignée exclusivement régissante. Dans la plupart des cas, le nœud racine de l'arbre n-aire est le verbe principal de la phrase analysée.

Deux structures de deux nœuds fils associés sont rattachées au nœud racine « brise ».

Une première structure est composée des nœuds « La » et « petite » qui sont respectivement des nœuds feuilles régissant et subordonné du nœud intermédiaire associé aux entités verbales « La petite » dans l'arbre binaire. Le nœud feuille « La » étant ici régissant, il est donc rattaché au nœud racine « brise ».

Le nœud feuille « petite » est ici subordonné et rattaché au nœud régissant associé

« La » par un lien associé à des caractéristiques connexionnelles de leur nœud père (« La petite ») au sein de l'arbre binaire.

Une seconde structure est composée des nœuds « la » et « glace » qui sont respectivement des nœuds feuilles subordonné et régissant du nœud intermédiaire associé aux entités verbales « la glace » dans l'arbre binaire. Le nœud feuille « glace » étant ici régissant, il est donc rattaché au nœud racine « brise ». Le nœud feuille « la » est ici subordonné et rattaché au nœud régissant associé « glace » par un lien associé à des caractéristiques connexionnelles de leur nœud père (« la glace ») au sein de l'arbre binaire.

Une fois un arbre n-aire construit, l'analyse de sens d'une suite ordonnée d'entités verbales se poursuit par la constitution d'un arbre sémantique pour chaque phrase du document. On entend ici par « arbre sémantique » un arbre qui ne comprend plus que des entités catégorisantes (de type objet ou acte) munies de leurs propriétés, nécessaires à la compréhension du sens de la phrase (ou du document), compte tenu de son contexte.

Les entités catégorisantes constituent le premier niveau de décomposition d'une taxonomie : l'ontologie. Toutes les entités catégorisantes entrent dans l'un ou l'autre de leurs sous-types (ou sous-classes). On a représenté sur la figure 5 un exemple non limitatif de diagramme arborescent décrivant différents types, sous-types et sous-sous-types d'entités catégorisantes. Plus précisément, dans cet exemple les entités catégorisantes de type « acte » regroupent deux sous-types (ou sous-classes) d'entités catégorisantes appelées « événementiel » et « définitoire », qui regroupent respectivement deux sous-sous-types (ou sous-sous-classes) d'entités catégorisantes appelées « action » et « événement » d'une part, et « définition » et « modalisation » d'autre part. Les entités catégorisantes de type « objet » regroupent deux sous-types (ou sous-classes) d'entités catégorisantes appelées « individu » et « lieu ».

Il est important de noter que la qualité des lexiques est fortement dépendante de la qualité de l'ontologie. Par ailleurs, les ontologies peuvent être construites de façon automatisée.

On se réfère à la figure 6 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre sémantique. Cet algorithme est mis en œuvre par le gestionnaire d'arbre sémantique GAS du dispositif D selon l'invention. II peut être précédé par une éventuelle application d'une fonction lexicale destinée à normaliser l'arbre n-aire structural afin de supprimer d'éventuelles particularités « stylistiques » susceptibles de nuire à son analyse sémantique. En D, le gestionnaire d'arbre sémantique GAS reçoit la description d'un arbre n-aire, par exemple fournie par l'algorithme de constitution d'arbre n-aire structural décrit ci-avant. Dans une étape 300, le gestionnaire d'arbre sémantique

GAS extrait de l'arbre n-aire structural l'entité verbale sous-tendue par une entité catégorisante la plus haut placée dans l'arbre n-aire (généralement associée à son nœud racine) et qui constitue la racine de l'arbre sémantique.

Puis, dans une étape 310, le gestionnaire d'arbre sémantique GAS effectue un test pour déterminer si l'entité verbale correspond à un acte.

Si l'entité verbale correspond à un acte, le gestionnaire d'arbre sémantique GAS passe à une étape 320. Si ce n'est pas le cas, le gestionnaire d'arbre sémantique GAS crée, dans une étape 315, un verbe support définissant un acte, puis il passe à l'étape 320.

A l'étape 320, le gestionnaire d'arbre sémantique GAS initialise l'arbre sémantique. Puis, il insère l'acte dans une liste chronologique d'actes, qui peut éventuellement déjà comporter d'autres actes répertoriés dans la phrase en cours d'analyse et/ou dans des phrases précédentes du document en cours d'analyse.

Cette liste se présente par exemple sous la forme d'une table construite au fur et à mesure et stockée dans une mémoire. Ensuite, le gestionnaire d'arbre sémantique

GAS instancie une structure sémantique. En d'autres termes, le lexique fournit un patron d'arbre sémantique pour l'entité catégorisante (objet ou acte) dont les

« cases » vont ensuite être remplies à l'aide des informations fournies par les autres nœuds de l'arbre structural.

Un patron comporte, d'une part, un modèle de connexion sémantique (de même nature que certaines fonctions lexicales) qui permet de transformer le schéma actanciel d'une entité verbale en (sous-)arbre sémantique, comme cela est représenté schématiquement, à titre d'exemple, sur les figures 8 et 9, et d'autre part, une liste de propriétés (ou attributs), comme cela est représenté schématiquement sur la figure 9.

Puis, dans une étape 330 le gestionnaire d'arbre sémantique GAS extrait le nœud suivant de l'arbre n-aire, et dans une étape 340 il effectue un test pour déterminer si l'entité verbale associée à ce nœud extrait active un objet.

Conformément à la définition donnée précédemment, le mot « objet » doit être ici compris dans sa définition la plus large et la plus courante, en l'étendant aux objets abstraits tels que les sentiments et les représentations, et non dans la définition spécialisée et restrictive qu'il a en informatique.

Si l'entité verbale active un objet, alors dans une étape 350 le gestionnaire d'arbre sémantique GAS insère cet objet dans l'arbre sémantique. Puis, il insère l'objet dans une liste (ou un univers) d'objets, qui peut éventuellement déjà comporter d'autres objets répertoriés dans la phrase en cours d'analyse et/ou dans des phrases précédentes du document en cours d'analyse. Cette liste se présente par exemple sous la forme d'une table construite au fur et à mesure et stockée dans une mémoire. Ensuite, le gestionnaire d'arbre sémantique GAS instancie la structure sémantique (comme indiqué ci-avant). Le gestionnaire d'arbre sémantique GAS passe ensuite à une étape 410.

Si le résultat du test effectué à l'étape 340 indique que l'entité verbale n'est pas un objet, alors dans une étape 360 le gestionnaire d'arbre sémantique GAS effectue un nouveau test pour déterminer si des propriétés (ou caractéristiques connexionnelles) sont associées à cette entité verbale.

Si tel est le cas, dans une étape 370 le gestionnaire d'arbre sémantique GAS identifie un objet propriétaire. Plus précisément, une entité catégorisante de type « propriété » qui n'a pas de fonctionnement autonome (à moins d'en faire un méta-objet), et qui caractérise nécessairement un objet, a été identifiée. Cet objet, qui est dit « propriétaire », est identifié soit directement par le biais d'une connexion (ordinaire ou anaphorique) qui le relie à la propriété (comme par exemple l'expression « la couleur du ciel » ou « sa couleur »), soit (plus rarement, lorsqu'il n'existe pas de connexion apparente) en parcourant la liste des objets instanciés par le texte analysé à la recherche d'un objet qui possède la propriété en question (ce qui peut être source d'anomalies lorsqu'il n'y en a pas ou s'il y en a plusieurs possibles).

Puis, le gestionnaire d'arbre sémantique GAS affecte une valeur à l'objet.

La (les) valeur(s) associée(s) à la propriété est (sont) identifiée(s) directement en recherchant parmi les nœuds subordonnés ceux qui sont en connexion adjectivale

(comme par exemple l'expression « de couleur bleue ») quitte à affecter une valeur

« non connue » (ou NC) lorsque ce type de connexion n'existe pas, soit directement parce qu'elle est portée par l'entité verbale qui active la propriété (par exemple le mot « beauté » affecte d'autorité une valeur positive à une propriété que l'on appelle ici arbitrairement « esthétique »), soit indirectement lorsque le verbe régissant est un verbe définitoire (comme par exemple dans le cas de l'expression « sa couleur est rouge » ou « augmenter le volume de 100 Mo »).

Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410. Si le résultat du test effectué à l'étape 360 indique que l'entité verbale n'est pas associée à une propriété, alors dans une étape 380 le gestionnaire d'arbre sémantique GAS effectue un nouveau test pour déterminer si une modalisation est possible. La modalisation est portée par des verbes tels que pouvoir ou vouloir, d'une part, et penser (que) ou croire (que), d'autre part. Ces verbes n'activent pas des actes (contrairement aux verbes penser ou croire lorsqu'ils sont utilisés de manière absolue) mais modifient l'interprétation de l'acte auquel ils sont rattachés. Ainsi, l'expression « je peux y aller » n'a pas la même valeur que l'expression « j'y vais », mais dans les deux cas la tête sémantique est le verbe « aller ». De même, l'expression « Pierre pense que nous n'écrivons pas assez » n'a pas la même valeur que l'expression « nous n'écrivons pas assez », la tête sémantique étant cependant le verbe « écrire » dans les deux cas.

Si une modalisation est possible, le gestionnaire d'arbre sémantique GAS identifie un acte propriétaire dans une étape 390. La procédure d'identification d'un acte propriétaire est similaire à celle d'un objet propriétaire présentée ci-avant (mais appliquée à un acte).

Puis, le gestionnaire d'arbre sémantique GAS affecte une modalisation à l'acte propriétaire. Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410.

Si le résultat du test effectué à l'étape 390 indique qu'il n'y a pas de modalisation, alors dans une étape 400 le gestionnaire d'arbre sémantique GAS considère qu'il est en présence d'une anomalie. On est alors en présence d'un nœud qu'il n'y a aucun moyen de rattacher à l'arbre sémantique en cours de création.

Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410.

A l'étape 410 le gestionnaire d'arbre sémantique GAS effectue un test pour déterminer si le nœud de l'arbre n-aire qui vient d'être analysé est le dernier dudit arbre n-aire. Si tel est le cas, alors l'arbre sémantique est constitué et l'algorithme de construction d'arbre sémantique prend fin en E. En revanche, si le nœud de l'arbre n-aire qui vient d'être analysé n'est pas le dernier dudit arbre n-aire, alors le gestionnaire d'arbre sémantique GAS retourne à l'étape 330 pour commencer à analyser le nœud suivant de l'arbre n-aire. Tous les nœuds de l'arbre n-aire sont ainsi analysés les uns après les autres.

Un exemple d'arbre sémantique, issu de l'arbre n-aire structural de la figure 8 (lequel correspond à la phrase « La petite brise la glace »), est illustré sur la figure 9.

Dans cet exemple, le nœud racine de l'arbre sémantique est le verbe « briser » qui est issu du mot « brise » de l'arbre n-aire de la figure 8. Ce mot « brise » possède en effet deux significations très différentes : verbe « briser » conjugué au présent (et donc acte correspondant à la réponse « maintenant » à la question « quand ? », sachant qu'il reste à déterminer si le mot « maintenant » concerne le temps du discours ou s'il est défini par le discours), et le substantif « brise » qui désigne un petit vent frais.

L'analyse du contexte de la phrase « La petite brise la glace » indique par exemple que le mot « brise » est le verbe « briser ». Dans une autre interprétation de cet exemple de phrase, le verbe pourrait être le mot « glace », le sujet de ce verbe le mot « brise », l'adjectif rattaché au sujet « brise » le mot « petite » et le complément d'objet direct le mot « la » jouant le rôle d'un pronom anaphorique.

Si le verbe principal retenu est « briser », associé à la propriété temporelle qui décrit son temps (ici le présent - « maintenant »), il existe une incertitude quand à son sujet et son complément. En effet, sur la figure 8 le mot « brise » est rattaché à deux structures « La - petite » et « la - glace ». Il peut donc y avoir une première connexion (Act1) consistant à « La petite briser » et une seconde connexion (Act2) consistant à « briser la glace ». La première connexion est dite « prime actant » (ou sujet) tandis que la seconde connexion est dite « second actant » (ou objet). Ici, il ressort de la construction de la phrase que le mot « glace » est un complément d'objet direct du verbe « briser » puisqu'il répond à la question « quoi ? » posée au sujet de ce verbe. Le substantif « glace » est donc un nœud principal de type objet rattaché au verbe « briser » qui est un nœud principal de type acte.

Par ailleurs, le mot « petite » est un adjectif rattaché du fait de sa position à un sujet du verbe « briser » qui est ici représenté par le mot « La » qui est donc un pronom anaphorique désignant un nom commun féminin introduit dans une phrase précédente. « La » est ici un déterminant dont le rôle est, d'une part, de confirmer le statut de substantif de l'entité verbale qu'il accompagne (permettant ainsi de substantiver, par exemple, des adjectifs ou des verbes), et d'autre part, de fournir des informations quant à l'existence de l'objet associé. L'adjectif « petite » constitue donc un nœud principal de type objet

(référencé x sur la figure 9), puisqu'il répond à la question « qui ? ». Ce nœud objet x est associé à deux propriétés, une de genre féminin (référencée F sur la figure 9) et une de taille (référencée petit sur la figure 9).

L'arbre sémantique illustré sur la figure 9 est donc le résultat de la levée d'ambiguïté relative aux deux branches rattachées au mot « brise » de la figure 8.

Cependant, cet arbre sémantique ne permet pas de lever l'autre ambiguïté relative à l'interprétation de la phrase, évoquée ci-avant. Pour tenter de lever cette autre ambiguïté des analyses complémentaires de type contextuel doivent être effectuées par l'analyseur sémantique AS du dispositif D. Dans l'exemple de phrase présenté, cette autre ambiguïté ne peut être levée que par une analyse cotextuelle par rapport aux phrases précédentes et/ou suivantes du document analysé, ou contextuelle (c'est-à-dire d'ordre pragmatique). On fait ici la distinction entre la notion de « cotexte », qui désigne le texte entourant une phrase en cours d'analyse, et la notion de « contexte » qui fait référence à l'environnement (au sens large) dans lequel un texte est produit et/ou reçu.

Ces analyses complémentaires consistent plus précisément à tenter de déterminer des relations entre des mots appartenant à des phrases d'un même document, placés dans la liste des actes et/ou dans l'univers des objets. Ces relations peuvent être de plusieurs types, et notamment spatial, temporel, anaphorique, ou causal.

Ces analyses complémentaires ont essentiellement pour objet de traiter les anaphores et cataphores. Elles se font en déterminant au sein des tables (ou listes) d'objets et d'actes les mots qui ne présentent pas d'identité sémantique, comme par exemple les pronoms. En d'autres termes, on cherche parmi les mots stockés ceux qui peuvent servir d'anaphorèmes.

Il est important de noter que les objets et les actes sont organisés selon des classes sémantiques dans des ontologies auxquelles sont associés les métriques et les référentiels (spatial, temporel, etc.). Cela permet d'appliquer des fonctions de compatibilité sémantique de type RCS1, RCS2. Les fonctions de type RCS contraignent la construction d'un arbre structural.

Quelques exemples d'analyses complémentaires permettant de lever des ambiguïtés sont décrits ci-après.

Sur la figure 10 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une phrase séparées par le séparateur « : ». Cette phrase est « Le client a appelé : il a reçu sa facture en retard ».

L'arbre sémantique de gauche correspond à la partie de phrase « Le client a appelé ». Les nœuds principaux de cet arbre sémantique sont « appeler » et « client ». Le mot « appeler » est le verbe principal et donc l'acte, tandis que le mot « client » est un substantif sujet du verbe « appeler » et donc un objet.

L'arbre sémantique de droite correspond à la partie de phrase « il a reçu sa facture en retard ». Les nœuds principaux de cet arbre sémantique sont « recevoir », « il » et « facture ». Le mot « recevoir » est le verbe principal et donc l'acte, tandis que le mot « il » est un pronom sujet du verbe « recevoir » et donc un objet, et le mot « facture » est un substantif complément d'objet direct du verbe « recevoir » et donc un objet.

Le séparateur « : » est ici équivalent à « parce que », si bien qu'il existe une relation causale entre les deux parties de la phrase.

L'anaphorique « il » ne peut renvoyer qu'au mot client. En effet, dans la liste des objets instanciés du document analysé, seul le mot « client » remplit les conditions de compatibilité structurale et sémantique (substantif masculin singulier, sémantiquement compatible avec le prime actant (ou sujet) du verbe « recevoir » qu'est le mot « il »). Il existe donc une relation anaphorique entre les mots « client » et « il ».

De ces deux relations causale et anaphorique, on peut déduire le fait que le 55

30

client a appelé (à l'instant t) car il a reçu une facture à un instant t' (f = tF + δtR > t, où t_F est la date de facturation et δtR le temps nécessaire à la création de la facture et à son acheminement). On peut alors représenter la levée d'ambiguïté en associant au verbe « appeler » une propriété relative au temps (t<t_D) où t_D désigne le temps du discours, et au verbe « recevoir » une propriété également relative au temps (t > t_F + δtR).

Il est important de noter qu'une ambiguïté liée à une cataphore se traite de la même manière qu'une anaphore, à condition que la liste des objets instanciés ait été complètement établie pour l'ensemble du document. Sur les figures 11A et 11B se trouvent illustrés un arbre n-aire structural et l'arbre sémantique associé qui correspondent à la phrase « La facture est arrivée après la date d'échéance ».

Pour exploiter le sens de cette phrase, par exemple dans une application de type filtrage d'informations, on essaie d'y identifier un (ou plusieurs) acte(s)- type(s) compatible(s) sur le plan chronologique. La notion de « retard » (dans la réception de la facture) est une appréciation portée sur le respect de la date théorique de réalisation de l'acte observé, en lui comparant la date effective.

Les ambiguïtés sont ici matérialisées dans l'arbre n-aire structural par des T stylisés placés au niveau des mots « après » et « échéance », et matérialisant une fonction de translation du mot de droite par le mot de gauche. Le mot qui se trouve à gauche d'un T stylisé est obligatoirement un translatif ; c'est un mot grammatical qui a la faculté de faire changer de catégorie structurale le mot qui se trouve à droite du même T stylisé. Par exemple, dans l'expression « je prends le rouge » (en parlant d'un vêtement), le déterminant « le » fait passer « rouge » de sa catégorie originale d'adjectif à celle de substantif, sous-entendant qu'il doit exister au plan sémantique un objet compatible avec la couleur rouge qui réponde à la question posée.

Sur la figure 12 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une phrase séparées par le séparateur « , » (virgule). Cette phrase est « Pendant que X fait A, Y fait B ». Cet exemple matérialise la relation temporelle entre les deux actions respectivement effectuées par X et Y. Plus précisément, l'analyse des deux arbres sémantiques et des tables d'actes et d'objets, associées au document analysé, permet de comprendre que l'action A se déroule dans un intervalle de temps I et que l'action B se déroule dans un intervalle de temps I' qui est inclus dans I. Sur la figure 13 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une même phrase. Cette phrase est « Pierre a perdu le livre que je lui avais donné ». Cet exemple matérialise, d'une part, la relation temporelle entre les deux actions (« donner un livre » et « perdre le livre »), et d'autre part, la relation anaphorique entre les mots « Pierre » et « lui » et les mots « livre » et « que ».

Plus précisément, l'analyse des deux arbres sémantiques et des tables d'actes et d'objets, associées au document analysé, permet de comprendre que le mot « lui » ne peut que renvoyer au mot « Pierre », et que le mot « que » ne peut que renvoyer au mot « livre ». Puis, on déduit des temps respectifs associés aux deux verbes et des deux relations anaphoriques que l'action « donner un livre » s'est déroulée à un instant t=X et que l'action « perdre le livre » s'est déroulée à l'instant t≈X'≥X.

Sauf exception, constituant une anomalie (détectée à l'étape 400 de la figure 6), un nœud principal appartenant à un arbre sémantique ne peut être qu'un acte ou un objet issu des classes structurales verbe et substantif. Cependant, dans quelques cas très particuliers certains nœuds d'un arbre n-aire structural peuvent ne pas répondre à cette contrainte. C'est notamment le cas du mot « rouge » dans la phrase « Je prends le rouge ».

Le mot « rouge » étant ici un adjectif, il ne peut pas créer directement de nœud principal dans l'arbre sémantique. Il ne peut qu'être en principe une valeur d'une propriété (la couleur) d'un substantif objet auquel il se rapporte. Une analyse complémentaire, parallèle à celle permettant de résoudre les anaphores et cataphores, doit donc être effectuée. Cette analyse complémentaire consiste à déterminer les objets, déjà répertoriés dans la liste d'objets du document à analyser, celui ou ceux qui possèdent une propriété de même type que celle associée au mot posant problème. Dans l'exemple concerné, cette propriété est la couleur. On applique ensuite aux objets déterminés dans la liste les contraintes sémantiques qui sont portées par le verbe principal, ici le verbe « prendre ». La valeur « rouge » est alors affectée à la propriété « couleur » de l'objet compatible qui constitue alors un nœud autorisé à être intégré dans l'arbre sémantique de la phrase à laquelle il appartient. Le problème de la compatibilité sémantique évoqué ci-avant va être décrit maintenant plus en détail en référence aux figures 14 à 16.

Sur la figure 13 se trouve illustré un arbre n-aire correspondant à la phrase « Augmenter le volume de la base xx de yy Go ». Les ambiguïtés sont ici matérialisées dans l'arbre n-aire structural par des T stylisés placés au niveau des mots « base » et « Go » (pour « Giga octet »).

Une première pré-analyse sémantique permet de voir que les mots sémantiquement pertinents, c'est-à-dire qui relèvent de l'environnement modélisé, sont ici « augmenter », « volume », « base », « xx », « Go » et « yy ».

Les mots inconnus, comme « xx » ou « yy », sont, dans le doute, préférentiellement retenus lors du filtrage sémantique du document en cours d'analyse.

Les relations de compatibilité sémantique sont par exemple régies par deux types de règles de compatibilité appelées C-ι^x et C₂.

Les règles de compatibilité de type C/ s'appliquent à deux nœuds qui sont en connexion directe, c'est-à-dire dont la connexion (ou le rattachement) ne comporte pas de noeud intermédiaire. C'est par exemple le cas des mots

« augmenter » et « volume ». La connexion peut cependant inclure des translatifs

(T stylisés) comme par exemple dans le cas des mots « volume » et « base ».

Ces règles de compatibilité de type C/ se répartissent en deux groupes. Un premier groupe concerne la compatibilité basée sur les schémas actanciels / sémantiques que la langue permet de dégrader en remplaçant un nœud objet (NO), tel qu'un substantif, par un autre nœud objet compatible avec le premier dans le cadre de métriques.

Un schéma actanciel (ou potentiel de connexion) décrit l'ensemble des connexions (d'où la collocation « potentiel de connexion ») qu'une entité verbale est susceptible d'accepter, ainsi que leurs conditions de réalisation. Chaque connexion potentielle est identifiée par une caractéristique connexionnelle, comme par exemple celles référencées Act1 , Act2 et Dét sur la figure 8. De plus, chaque connexion potentielle comporte un nombre variable de contraintes structurales et/ou sémantiques (par exemple, la connexion potentielle Act1 d'un verbe ne peut être pourvue que par un substantif compatible en nombre, en genre et sémantiquement).

Un second groupe concerne la compatibilité basée sur les métriques, laquelle contraint de manière privilégiée la connexion d'un nœud associé à un substantif (NO) à un nœud associé à un adjectif (NA), y compris les noeuds associés à des substantifs véritables (notés NO⁰) et les autres nœuds associés à des substantifs unités (notés NO^U).

Les règles de compatibilité de type C₂ s'appliquent à deux nœuds en connexion indirecte, c'est-à-dire dont la connexion (ou le rattachement) traverse au moins un autre noeud. C'est par exemple le cas des mots « volume » et « Go ».

Ces règles de compatibilité de type C₂ s'appuient sur les paramètres qui sont partie prenante dans l'interprétation subséquente qui est faite du document analysé. Ces règles font partie du patron d'arbre sémantique présenté ci-avant lors de la description de l'étape 320 de la figure 6.

La notion de métrique intervient lors de l'analyse complémentaire des relations de compatibilité sémantique entre un substantif et un adjectif qui lui est subordonné, que cet adjectif soit subordonné d'origine ou par translation (T stylisés).

Une métrique se définit par l'ensemble des valeurs qu'elle admet associée à une unité (ainsi que ses multiples et ses subdivisions).

Si l'on considère une connexion NO - NA dans laquelle, d'une part, NA appartient à une ou plusieurs métrique(s), il est possible d'établir la liste P_A de toutes les propriétés (indépendamment des objets qu'elles définissent) auxquelles ces métriques peuvent être associées, et d'autre part, NO est défini par un ensemble de propriétés P₀, chacune d'entre elles étant liée à une métrique. Alors, plusieurs cas peuvent se présenter : - soit card(PAnPo) = 0 et il y a incompatibilité entre le substantif (NO) et son adjectif (NA),

- soit card(PAnPo) = 1, et on affecte la valeur que constitue l'adjectif (NA) à la propriété du substantif qui est l'unique élément de l'intersection,

- soit encore card(PAπPo) > 1 , et il y a une ambiguïté, car l'intersection des deux ensembles contenant plusieurs éléments, on ne sait pas à quelle propriété du substantif on doit affecter la valeur que constitue l'adjectif. II existe deux types de métriques : les quantitatives et les qualitatives.

Les métriques quantitatives sont généralement décrites en intension, comme sous-ensemble satisfaisant à une condition, comme par exemple l'appartenance à l'ensemble des entiers positifs ou des décimaux. Les métriques qualitatives sont généralement décrites en extension sous la forme d'un ensemble de valeurs discrètes, comme par exemple la couleur (rouge, vert, jaune, bleu, orange, ...) ou la beauté (beau, laid,...).

Les métriques quantitatives se distinguent également des métriques qualitatives parce qu'elles admettent une relation d'ordre (les valeurs peuvent être classées, ce qui n'est pas le cas des métriques qualitatives pures), et qu'elles font généralement intervenir la notion d'unité (sauf lorsqu'il s'agit de dénombrement).

Un statut particulier doit être prévu pour les unités et les pourcentages. En effet, les unités répondent à la problématique du dénombrement (créant une catégorie de l'absolu), tandis que les pourcentages permettent de créer des échelles relatives indépendantes de toute unité. Par exemple, une métrique quantitative exacte peut correspondre à une échelle d'intensité comprises entre -25 et +25, et une métrique quantitative approximative peut être définie par des valeurs discrètes d'adjectifs tels que grand, moyen et petit.

Un exemple d'utilisation des métriques est donné ci-après dans le cas de la phrase « Créer une base vide ; son volume sera 3 Go ».

Le mot « créer » (acte) est compatible avec le mot « base » (objet) qui est un substantif véritable (NO⁰) défini par des propriétés telles que identifiant, volume, contenu, serveur, etc.

Le mot « vide » est un adjectif (NA) qui est régi par le mot « base », et qui doit donc être affecté comme valeur à l'une des propriétés du mot « base » (NO°).

Parmi les propriétés précitées seules les propriétés identifiant et contenu sont dotées d'une métrique compatible. La propriété identifiant a pour particularité de ne pas avoir de métrique précise, tout mot, existant ou fabriqué, pouvant être utilisé. Il s'ensuit qu'il est fortement déconseillé d'utiliser les mots du langage courant en tant qu'identifiants, ce qui fournit un premier indice pour lever l'ambiguïté précédente. Un mot inconnu placé au bon endroit dans un arbre structural est un candidat tout désigné. Un second indice est fourni par l'absence de majuscule.

Il résulte de ce qui précède que le mot « vide » ne peut être affecté qu'à la propriété contenu.

L'analyse peut être complétée en ramenant le mot « vide » à un nombre. En effet, la métrique associée à la propriété contenu comprend - au minimum - {vide, plein} u [0, 100]...

Par ailleurs, le mot « sera » est un verbe [de complément] d'information, le mot « volume » est une propriété étant donné que le mot « son » renvoit à un objet défini par ailleurs (connexion anaphorique), le mot « Go » relève de la catégorie très particulière des unités qui sont obligatoirement associées à une métrique quantitative, et le mot « 3 » est un adjectif (NA) de type nombre susceptible d'appartenir à toutes les métriques quantitatives compatibles avec les entiers positifs.

Le mot « 3 » peut donc être affecté comme valeur au mot « volume » à condition que l'intersection M_VOiume π MG₀ O M₃ (où M_x représente l'ensemble de toutes les métriques associables à x) contienne un et un seul élément. Dans le cas contraire, il y a soit impossibilité si l'intersection est vide, soit ambiguïté si il existe plusieurs solutions.

Quand il y a incompatibilité entre un groupe (ou syntagme) substantival (SO) et un groupe (ou syntagme) adjectival (SA) a priori, les métriques peuvent fournir des renseignements. C'est par exemple le cas de la phrase « Je souhaite augmenter mon portable de deux heures ».

Dans cet exemple, il y a en effet une incompatibilité a priori entre le mot « augmenter », qui appelle un nœud associé à un substantif qui porte la valeur de l'adjectif associé (NO^A) (et donc qui constitue une propriété), et le mot « portable », qui est un nœud associé à un substantif véritable (NO⁰) (et donc qui constitue un objet). Par contre, dans l'ensemble des propriétés (P) du mot « portable », il en existe qui sont compatibles avec le mot « augmenter ». Par exemple le mot « durée », est un substantif (NO^A) qui porte la valeur de l'adjectif associé au mot « forfait », lui-même propriété du mot « portable », compatible également avec la métrique horaire.

D'autres situations créent des ambiguïtés. C'est par exemple le cas lorsque l'on connecte un groupe (ou syntagme) verbal (SI) et un substantif véritable NO° : « augmente la musique », « baisse la musique », ou « mesure la table ». Pour lever ce type d'ambiguïté on utilise une fonction qui, lorsqu'une incompatibilité apparaît lors de la vérification d'une compatibilité directe, refait un test de compatibilité entre le verbe et les propriétés du nœud de l'actant concerné. On considère ici comme actant un nœud faisant l'objet d'une connexion directe avec un verbe, laquelle est répertoriée dans le patron (ou schéma actanciel) de ce dernier.

Sur la figure 15 se trouvent schématiquement représentées (et résumées) les principales relations entre nœuds associés à des substantifs (NO) et nœuds associés à des adjectifs (NA), et les notions qui y sont rattachées, notamment les métriques, les unités, et les contraintes (ou règles) C1 servant à interdire tous les triplets (identifiant, valuation, mesure) qui ne sont pas valides.

Par ailleurs, sur la figure 16 se trouvent schématiquement représentées (et résumées) les principales relations entre les entités catégorisantes de type objet et acte, et les notions qui y sont rattachées, notamment les circonstances, les modalisations, les propriétés, les valeurs et les métriques.

Le dispositif d'analyse sémantique de documents D selon l'invention, et notamment son interpréteur de document ID et sa base de données BD, ainsi qu'éventuellement son module de décomposition MD, peuvent être réalisés sous la forme de circuits électroniques, de modules logiciels (ou informatiques), ou d'une combinaison de circuits et de logiciels.

Par ailleurs, le dispositif d'analyse sémantique de documents D peut être utilisé dans toute application ayant besoin d'une séparation fiable des textes ou messages correctement analysés de ceux qui ne le sont pas, et d'un diagnostic précis et facile à exploiter pour les textes ou messages incorrectement analysés. Une première application concerne les outils (ou équipements) de gestion de messagerie électronique (par exemple de type courriel (ou « e-mail »)). Le dispositif D peut en effet servir à filtrer de l'information en déterminant si le message qui contient cette information satisfait à un ensemble de critères sémantiques.

A cet effet, on peut par exemple organiser les critères sémantiques en un super groupe de référence définissant un filtre. On compare alors le super groupe résultant de l'analyse du message au super groupe de référence qui définit le filtre. Le message analysé est accepté si les deux super groupes sont compatibles.

Si le message fournit des informations surnuméraires, le dispositif D continuera à réagir positivement via son filtre, ce qui est sans importance dès lors que le filtre fournit au moins les informations exigées par le super groupe de référence. Les super groupes de référence peuvent être créés à partir de la synthèse des résultats de l'analyse d'un corpus de messages de référence, ce qui permet d'éviter à l'utilisateur chargé de concevoir les filtres l'apprentissage de connaissances spécifiques à l'application ; il lui suffit en effet d'avoir une maîtrise suffisante du langage naturel pour pouvoir élaborer le corpus concerné. On peut également juxtaposer plusieurs filtres au sein d'un seul dispositif D ou de dispositif D parallèles, et coupler ce(s) dispositifs) à une interface adaptée au routage, de manière à constituer un gestionnaire de courrier électronique.

Une deuxième application concerne les outils (ou équipements) de correction orthographique et/ou grammaticale. Le dispositif D peut en effet permettre, d'une part, de repérer les fautes grammaticales qui résultent généralement d'une mauvaise application des règles de syntaxe, puis d'identifier la règle non respectée et proposer une correction, et d'autre part, d'identifier les mots inconnus en séparant les noms propres et les barbarismes, puis en proposant pour ces derniers des mots qui soient compatibles. Le dispositif D permet effectivement de répondre à la question « quels sont les mots qui, substitués à un mot fautif, sont susceptibles de lever une ambiguïté ou une erreur ? ».

Une troisième application concerne les outils (ou équipements) de dictée vocale. Le dispositif peut en effet permettre de choisir une solution parmi plusieurs solutions proposées par un moteur de reconnaissance vocale. Une quatrième application concerne les outils (ou équipements) de génération de texte. Le dispositif D peut en effet collaborer avec un générateur de texte qui se fonde, par exemple, sur la théorie dite « Sens <-> Texte » (ou TST). Une cinquième application concerne les outils (ou équipements) de génération de résumés.

Il existe au moins deux manières de concevoir un résumé. La première consiste à créer de toutes pièces un nouveau texte qui constitue un condensé de l'original, avec un « taux de compression » variable (mais généralement élevé). La seconde consiste à extraire, en fonction de critères définis par un utilisateur, des sections pertinentes d'un texte original.

Le dispositif D peut calculer des résultantes thématiques s'il est couplé à une fonction de hiérarchisation et en présence de marqueurs linguistiques. Une sixième application concerne les moteurs de recherche. La recherche d'informations textuelles, que ce soit dans un réseau public, tel qu'Internet, ou dans un réseau privé d'entreprise(s), ou encore sur un disque dur d'un ordinateur personnel, peut consister à rechercher soit une information factuelle, matérialisée par une question de type « quelle est la valeur de ... ? », soit des textes relatifs à un thème ou un sujet prédéfini.

Le dispositif D peut en effet assurer, dans le cas de la recherche factuelle, une indexation sémantique adéquate permettant de produire directement une réponse. On peut par exemple injecter dans une base de données tout ou partie des informations déterminées par un dispositif D, puis utiliser ces informations dans n'importe quelle opération réalisée par un système de gestion de base de données (ou SGBD), et notamment l'indexation. En outre cela permettrait d'utiliser des requêtes exprimées en langage naturel, sans restriction quant à la langue utilisée (dans le cas d'une version multilingue).

Le dispositif D peut également permettre, dans le cas de la recherche de textes à thèmes, de faire des calculs de distance à partir de résultantes thématiques, puis de proposer une liste de documents pertinents en fonction desdits calculs. Ce type de fonctionnement pourrait être enrichi par l'implémentation d'un taux d'exactitude.

Cette application peut être étendue à l'administration des bases de documents en vue de leur enrichissement, étant donné que le dispositif D peut faciliter la constitution des index nécessaires au bon fonctionnement d'un moteur de recherches. Une septième application concerne les traducteurs multilingue. Le dispositif D peut fournir une analyse sémantique de texte, rapide et fiable, permettant de lever les ambiguïtés de traduction. Seule une utilisation de la totalité de l'information présente dans un texte peut en effet garantir une traduction pertinente, c'est à dire une traduction respectant autant que faire se peut le sens véhiculé par le texte original.

L'invention ne se limite pas aux modes de réalisation de dispositif d'analyse sémantique de documents décrits ci-avant, seulement à titre d'exemple, mais elle englobe toutes les variantes que pourra envisager l'homme de l'art dans le cadre des revendications ci-après.

Claims

REVENDICATIONS

1. Dispositif (D) d'analyse sémantique de documents, comprenant une base de données structurales et sémantiques (BD) et un interpréteur de document (ID) agencé pour déterminer si un document a un sens à l'aide de ladite base de données, caractérisé en ce que ledit interpréteur de document (ID) comprend :

- un gestionnaire d'arbre n-aire (GAN) agencé pour constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies et définies dans ladite base de données (BD), ledit arbre n-aire structural comprenant un nœud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement audit nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante,

- un gestionnaire d'arbre sémantique (GAS) agencé pour déterminer, au moins à partir dudit arbre n-aire structural et de la base de données (BD), des entités catégorisantes de type objet et de type acte activées par certains desdits nœuds de l'arbre n-aire, de manière à construire un arbre sémantique muni de nœuds principaux constitués desdites entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles dudit arbre n- aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres nœuds dudit arbre n-aire et de leurs liens respectifs.

2. Dispositif selon la revendication 1 , caractérisé en ce que ledit interpréteur de document (ID) comprend un gestionnaire d'arbre binaire (GAB) agencé pour constituer un arbre binaire structural à partir de ladite décomposition de document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies et définies dans ladite base de données (BD), ledit arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de ladite suite et constituant l'un de deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de ladite suite, et en ce que ledit gestionnaire d'arbre n-aire (GAN) est agencé pour constituer chaque arbre n-aire à partir d'un arbre binaire structural.

3. Dispositif selon l'une des revendications 1 et 2, caractérisé en ce que ledit interpréteur de document (ID) comprend un module de décomposition (MD) agencé pour décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales.

4. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que ledit interpréteur de document (ID) comprend un analyseur sémantique (AS) agencé pour déterminer lesdites relations de compatibilité sémantique entre nœuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique.

5. Dispositif selon la revendication 4, caractérisé en ce que ledit analyseur sémantique (AS) est agencé pour déterminer des relations entre nœuds principaux d'au moins un arbre sémantique, choisies dans un groupe comprenant une relation spatiale, temporelle, une relation causale, une relation anaphorique, et une relation cataphorique.

6. Dispositif selon l'une des revendications 4 et 5, caractérisé en ce que ledit analyseur sémantique (AS) est agencé pour effectuer un diagnostic relatif à l'analyse d'un document, et pour délivrer un message représentatif du résultat dudit diagnostic.

7. Dispositif selon la revendication 6, caractérisé en ce que ledit message de diagnostic comporte des informations choisies dans un groupe comprenant une liste de difficultés rencontrées pendant l'analyse d'un document, des possibilités d'interprétation différentes d'une phrase, au moins un mot inconnu, au moins une faute de grammaire, au moins un défaut de construction, au moins un non-sens, et une liste d'ambiguïtés non résolues.

8. Procédé d'analyse sémantique de documents, caractérisé en ce qu'il consiste :

- à constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies, ledit arbre n-aire structural comprenant un nœud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement audit nœud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante,

- à déterminer, au moins à partir dudit arbre n-aire structural et de données structurales et sémantiques, des entités catégorisantes de type objet et de type acte activées par certains desdits nœuds de l'arbre n-aire, de manière à construire un arbre sémantique muni de nœuds principaux constitués desdites entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles dudit arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres nœuds dudit arbre n- aire et de leurs liens respectifs.

9. Procédé selon la revendication 8, caractérisé en ce qu'avant de constituer un arbre n-aire on constitue un arbre binaire structural à partir de ladite décomposition de document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, ledit arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de ladite suite et constituant l'un de deux nœuds fils rattachés à un nœud père, et un nœud racine, constituant un nœud père et associé à tout ou partie des entités verbales de ladite suite, et en ce que l'on constitue chaque arbre n-aire à partir d'un arbre binaire structural.

10. Procédé selon l'une des revendications 8 et 9, caractérisé en ce qu'avant de constituer un arbre binaire ou un arbre n-aire on décompose chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales.

11. Procédé selon l'une des revendications 8 à 10, caractérisé en ce que l'on détermine lesdites relations de compatibilité sémantique entre nœuds principaux de type objet et/ou nœuds principaux de type acte d'au moins un arbre sémantique.

12. Procédé selon l'une des revendications 8 à 11 , caractérisé en ce que l'on détermine si ledit document analysé possède un sens en déterminant des relations entre nœuds principaux d'au moins un arbre sémantique, choisies dans un groupe comprenant une relation spatiale, temporelle, une relation causale, une relation anaphorique, et une relation cataphorique.

13. Procédé selon l'une des revendications 8 à 12, caractérisé en ce qu'après avoir constitué un arbre sémantique, on effectue un diagnostic relatif à l'analyse d'un document, puis on délivre un message représentatif du résultat dudit diagnostic.

14. Procédé selon la revendication 13, caractérisé en ce que ledit message de diagnostic comporte des informations choisies dans un groupe comprenant une liste de difficultés rencontrées pendant l'analyse d'un document, des possibilités d'interprétation différentes d'une phrase, au moins un mot inconnu, au moins une faute de grammaire, au moins un défaut de construction, au moins un non-sens, et une liste d'ambiguïtés non résolues.