EP1395914A1 - Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises - Google Patents

Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises

Info

Publication number
EP1395914A1
EP1395914A1 EP02740825A EP02740825A EP1395914A1 EP 1395914 A1 EP1395914 A1 EP 1395914A1 EP 02740825 A EP02740825 A EP 02740825A EP 02740825 A EP02740825 A EP 02740825A EP 1395914 A1 EP1395914 A1 EP 1395914A1
Authority
EP
European Patent Office
Prior art keywords
word
information
learning
cases
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP02740825A
Other languages
German (de)
English (en)
Inventor
Didier Bourigault
Cécile FABRE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synomia
Centre National de la Recherche Scientifique CNRS
Original Assignee
Synomia
Centre National de la Recherche Scientifique CNRS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synomia, Centre National de la Recherche Scientifique CNRS filed Critical Synomia
Publication of EP1395914A1 publication Critical patent/EP1395914A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Definitions

  • the present invention relates to a method for broad syntactic analysis of corpora, in particular of specialized corpora. It also relates to a syntactic analysis system implementing this process.
  • the syntactic analysis is the task which consists in automatically identifying the syntactic dependence relationships between the words of a sentence, and in isolating the syntactic units, called syntagms, which compose it.
  • the data processed by a syntactic analyzer are here the sentences belonging to a set of texts constituting a corpus. We are talking here about syntactic analysis of a corpus.
  • syntactic relations in question in this document are very varied: subject of verb, direct object of verb, prepositional complements of verbs, prepositional complements of nouns, prepositional complements of adjectives, antecedents of relative pronouns, adjectives epithets, attribute of the subject , attribute of the object. This is why we speak here of "broad" syntactic analysis. In general, parsing tools have much less coverage.
  • the LEXTER software implements an extraction of nominal phrases only, no analysis around the verb, dependency relationships are found only within the nominal group, but full analysis of the nominal phrase.
  • a specialized corpus is a set of texts relating to a particular specialized or technical field. Any corpus of this type is characterized on the one hand by a certain thematic homogeneity and on the other hand by a great syntactic complexity: these corpus are written in a technical jargon which use relatively long technical terms and of significant syntactic complexity. This makes automatic parsing of specialized corpora particularly difficult.
  • the aim of the present invention is to propose a method of broad syntactic analysis of corpus, in particular of specialized corpus.
  • This objective is achieved with a broad syntactic analysis process based on unsupervised learning on a corpus, which can acquire by itself, by analyzing the corpus during processing, a set of linguistic information which it will use to resolve difficult analytical cases.
  • the corpus is both the object of processing and a source of information.
  • the broad syntactic analysis method comprises an iterative sequence of two phases: - a learning phase, in which linguistic information is acquired from unambiguous analysis cases, - a resolution phase, in which ambiguous analysis cases are resolved by exploiting the information acquired during the learning phase.
  • the syntactic analysis method according to the invention there is no manual phase of preparing the data before learning, nor, moreover, a phase of a posteriori validation of the information acquired after learning .
  • Learning is carried out directly on the labeled corpus, from unambiguous cases, and the results of this learning are directly exploited by the analysis.
  • the learning and resolution phases are linked iteratively so that the cases resolved during a resolution phase serve as the basis for a new learning phase, and so on until no new ones case is not resolved.
  • the solution that is the subject of the syntactic analysis method according to the invention constitutes an alternative to resorting to very large linguistic and conceptual knowledge, which it is almost impossible to build up and update, especially in specialized fields.
  • the syntactic analysis is entirely automatic.
  • the information acquired during the endogenous learning phase is directly used by the ambiguity resolution modules without human intervention for manual validation.
  • Statistical criteria are used locally to find a good compromise between the coverage and the details of the information acquired.
  • Linguistic information is acquired during the endogenous learning phase initially on unambiguous analysis situations (those where there is only one candidate for attachment). This initial information is used to resolve a certain number of cases of ambiguity of analysis. From the analysis of these new resolved cases, the acquisition module can in a second pass acquire new information which will then be used to resolve new cases of residual ambiguity.
  • the syntactic analysis method according to the invention comprises an endogenous learning phase comprising:
  • a system for broad syntactic analysis of a corpus in particular of a specialized corpus, implementing the method according to the invention, comprising
  • the information acquisition means are arranged to distinguish cases of unambiguous analysis and cases of ambiguous analysis, and in that the processing means are arranged to treat cases of ambiguity d analysis and to provide information to resolve cases of residual ambiguity.
  • the syntax analysis system can be implemented within an information processing system and cooperate with data processing equipment, information entry equipment, information storage equipment. such as databases, and information provision and display equipment.
  • FIG. 2 illustrates the main steps es of an example of implementation of the syntax analysis method according to the invention.
  • the grammatical structure of a sentence can be described in terms of the dependency relationship between words.
  • the relationships at play are those of classical grammar: subject of verb, complement of direct object of verb, complement of indirect object of verb, adjective modifier of noun, etc.
  • X is the rector word (the source of the relationship)
  • R is the name of the dependency relationship
  • Y is the governed word (the target of the relationship).
  • X is a word from the Verb category
  • Y is generally a word from the Name or Pronoun category.
  • Y is the head of the nominal group subject of the verb X. The cat sleeps.
  • COMPJNDIR The COMP INDIR relationship: This case covers the phenomenon of indirect complementation.
  • X is a word from the Verb, Noun, Adjective or Adverb category
  • Y is a word from the preposition category.
  • Y is the preposition which introduces the prepositional group complement of X.
  • the cat plays with the ball.
  • X is a word from the Preposition category
  • Y is generally a word from the Name or Verb category.
  • Y is the nominal head of the group introduced by the preposition X.
  • the cat plays with the ball.
  • X is a word from the Name category
  • Y is a word from the Adjective category
  • Y is an epithet adjective with the name X
  • X is a word from the Verb category
  • Y is a word from the Adverb category
  • Y is a modifying adverb of the verb X, etc.
  • Dependency relationship (sleep, CHANGE, peacefully)
  • a word can only be governed by a single rector for a single relationship, a rector can have several regis, except for certain relationships.
  • Dependency relationships cannot intersect.
  • the objective of the syntactic analysis is to identify a maximum of dependency relationships within each sentence. At the end of the analysis, certain words may be orphaned (no rector has been found for them).
  • syntactic analysis is carried out according to two modes:
  • the analysis starts with a rector word and a dependency relationship and searches for the governed word. For example, since every verb is supposed to have a subject, and only one, the analysis starts from each of the verbs and seeks their governed subject;
  • the analysis starts from a governed word and a dependency relationship and searches for the rector word. For example, since any preposition is supposed to depend on a rector, the analysis starts from each of the prepositions and searches for their rector (verb, noun, adjective, adverb). In both cases, we start from a pivotal word (rector, resp. Governor) and a dependency relationship and look for a word that enters into a dependency relationship with it (govern, resp. Rector).
  • the syntactic analysis method comprises a step (0) of acquisition of derivational morphological information, in which couples of words, of different categories, likely to be in derivation relationship, are acquired by analysis of the corpus morphological. This procedure is based on a reduced set of rules for truncation / addition of the terminal parts of words to identify potential morphological relationships between words in the corpus (such as between the verb to close and the noun closure). These relationships will be exploited during the syntax analysis phase with reference to step (3) below.
  • the prior acquisition step (0) is followed by a step (1) of finding candidates.
  • the syntactic analysis begins as follows: for each pivot word, we seek the candidate words to be rector (or governed, depending on the mode). This search involves a sequential search of the words of the sentence starting from the pivot word (to the right or to the left, as the case may be). Words with suitable grammatical category and syntactic position are selected as candidates. The search stops when a border is encountered. Each candidate is assigned an accessibility coefficient (linked to the distance, and to the type of interleaved words), which will be used as a decisive index in the absence of other indices or in the event of competition. In addition, incompatible solutions are identified at this stage (relationship crossings prohibited). The result is a set of cases to be resolved: for each of the pivotal, rectors or governed words, the list of candidate words.
  • step (2) of endogenous learning is undertaken during which lexical information is acquired. Cases with a single candidate are considered resolved. The triplet consisting of the dependency relationship concerned, the word pivot and the only candidate is recognized. The case is resolved. The cases where several candidates are in competition are called "ambiguous cases”. We say that a dependency relationship (X, R, Y) has been identified in the corpus if the analyzer has identified this triplet at least once in an unambiguous context.
  • the complementation information is given in the form of so-called productivity coefficients.
  • the distributional proximity information is given in the form of so-called proximity coefficients.
  • the notions of productivity and proximity are at the heart of the principle of endogenous learning.
  • the rector productivity of a triplet consisting of a word M, a preposition Prep and a category C is the number of different words Y, of category C, for which the dependency relation (M, Prep, Y) has been identified.
  • the governed productivity of a triplet consisting of a word M, a preposition Prep and a category C is the number of different words X, of category C, such as the dependency relation (X, Prep, M) has been identified.
  • X the dependency relation
  • M the dependency relation
  • a first order syntactic context is a pair (M, REL) where M is a word and REL a dependency relation.
  • M is a word and REL a dependency relation.
  • a word X has been found in a syntactic context (M, REL) if and only if the dependency relation (M, REL, X) has been identified.
  • - the syntactic context (eat, SUBJECT) refers to the subject position of the verb eat.
  • the syntactic context bullet, MODIF
  • the syntactic context (to disappear, under) refers to the position of indirect object complement under the verb to disappear.
  • a second order syntactic context is a quadruplet (Mi, M 2 , REL-i, REL 2 ) where Mi and M 2 are words, and RE ⁇ and REL 2 are dependency relationships.
  • a word X has been found in a second order syntactic context (Mi, M 2 , REL-i, REL 2 ) if and only if the dependency relationships (M 2 , RELi, M and (M 2 , REL 2 , X ) have been identified, for example: the syntactic context of second order (cat, eat, SUJ, COMP_DIR) refers to the position of direct object complement of the verb eat when it is constructed with the word cat as subject.
  • N ⁇ (X, Y) be the number of first order syntactic contexts in which X and Y have each been found
  • N 2 (X, Y) be the number of second order syntactic contexts in which X and Y have each been found found.
  • a syntactic context is a close rector of a given syntactic context if and only if their rector proximity is greater than a certain threshold.
  • R For each case, the dependency relationship is noted R.
  • the word pivot is either a rector or a governor. If the word pivot is a rector, the candidates are governed candidates. If the word pivot is a governed, the candidates are candidate rector. For each case, for each candidate: ⁇ the rector is noted Rr. If the pivot word is a rector, Rr is the pivot word for all the candidates in the case, if the pivot word is a governed, Rr is the candidate himself . The category of the rector word Rr is noted Cr. ⁇ the rector is noted Ri. If the pivot word is a rule, Ri is the pivot word for all the candidates in the case, if the pivot word is a rector, Ri is the candidate himself.
  • Ci The category of Ri is noted Ci. NB: in the case where the relation is PREP, the rule is the word which governs the preposition (and not the preposition itself), and the relation R has for value the preposition itself .
  • Each candidate in each case is assigned a number of clues.
  • a distinction is made between direct indices and derived indices.
  • the direct indices are calculated from information acquired on the candidate and on the pivot word themselves.
  • Derived indices are calculated from information acquired on derived morphological words (cf. phase 0) linked to the candidate or to the pivot word.
  • REL index If the dependency relationship (Rr, R, Ri) has been identified, the candidate is assigned an REL index of 1, otherwise zero.
  • Prep be the preposition.
  • the index is equal to the governed productivity of the triplet (Ri, Prep, Cr).
  • ProXRégi index This index is equal to the number of close relations of Ri which have been found in the syntactic context (Rr, R)
  • ProXRector index This index is equal to the number of syntactic contexts close to the rector of (Rr, R) in which Ri has been found.
  • Derived indices are calculated from information acquired on morphological derived words linked to the candidate and the pivot word.
  • ProDRectorNV index we place our in a case where the relationship of dependence is the preposition Prep, the candidate rector is the name N and the category of the manager is Name. If candidate N has a verb V as its morphological derivative, then the ProDRectorNV index for this candidate is equal to the rector productivity of the triplet (V, Prep, Noun).
  • the candidate is the name writing, the preposition is on, the relation of morphological derivation between writing and writing has been acquired.
  • the direct ProDRector index is the rector productivity of the name writing with the preposition on
  • the derived ProDRectorNV index is the rector productivity of the verb to write with the preposition on.
  • REL_VAvNAj index we place our in a case where the dependency relation is MODIF, the candidate rector is the verb V, the rule is the adverb Av. If the candidate V has for morphological derivative a name N and if the adverb Av has as an morphological derivative an adjective Aj, then the index REL_VAvNAj for this candidate is equal to 1 if the dependence relation (N, MODIF, Aj) has been identified.
  • the candidate rector is the verb to print, the rule is quickly adverb, the relationships of morphological derivation between printing and printing on the one hand and between quickly and fast on the other hand have been acquired.
  • the direct index REL is worth 1 if the dependency relationship (print, MODIF, fast) has been identified
  • the derived index REL_VAvNAj is worth 1 if the dependency relationship (print, MODIF, fast) has been identified.
  • the marking step (3) is followed by a step (4) of resolving the parsing method according to the invention.
  • phase 5 If the information acquired during the endogenous learning phase (phase 2) did not contribute to marking any candidate during the marking phase (phase 3), the process ends with the default resolution phase (phase 5) . Otherwise, new indices are affected. We solve a certain number of new cases based on these new indices, and taking into account incompatible solutions and accessibility coefficients. Cases initially deemed ambiguous may become unambiguous if certain information acquired eliminates candidates. We can envisage different types of strategy and resolution rules exploiting the results of endogenous learning. If new cases have been resolved, a new endogenous learning phase (phase 2) is restarted. Otherwise the process ends with the default resolution phase (phase 5).
  • the syntax analysis method according to the invention can also include a default resolution in which the cases where none of the candidates have no clue are settled. Among the resolution rules, some are acquired. by endogenous learning: on all the solved cases, we calculate the probabilities of connection according to the configuration of the case, described using the dependency relation, the category of the pivot word and the sequence of the categories of the candidates.
  • the invention is not limited to the examples which have just been described and numerous modifications can be made to these examples without departing from the scope of the invention.
  • the parsing method according to the invention is not limited to the French language only but can find an advantageous application in many other languages.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

Procédé d'analyse syntaxique large basé sur un apprentissage non supervisé sur un corpus, comprenant un enchaînement itératif de deux phases: une phase d'apprentissage, dans laquelle des informations linguistiques sont acquises à partir des cas d'analyse non ambigus; une phase de résolution, dans laquelle les cas d'analyse ambigus sont résolus en exploitant les informations acquises lors de la phase d'apprentissage. Application notamment pour la construction de ressources terminologiques spécialisées pour un système de traitement de l'information, d'une ontologie pour un moteur de recherche d'informations spécialisées sur le Web, d'un lexique teminologique pour un système de traduction automatique, ou d'un thesaurus pour un système d'indexation automatique.

Description

« Procédé et système d'analyse syntaxique large de corpus, notamment de corpus spécialisés»
La présente invention concerne un procédé d'analyse syntaxique large de corpus, notamment de corpus spécialisés. Elle vise également un système d'analyse syntaxique mettant en œuvre ce procédé.
L'analyse syntaxique est la tâche qui consiste à identifier automatiquement les relations de dépendance syntaxique entre les mots d'une phrase, et à isoler les unités syntaxiques, dites syntagmes, qui la composent. Les données traitées par un analyseur syntaxique sont ici les phrases appartenant à un ensemble de textes constituant un corpus. On parle ici d'analyse syntaxique de corpus.
Les relations syntaxiques dont il est question dans ce document sont très variées : sujet de verbe, objet direct de verbe, compléments prépositionnels de verbes, compléments prépositionnels de noms, compléments prépositionnels d'adjectifs, antécédents de pronoms relatifs, adjectifs épithètes, attribut du sujet, attribut de l'objet. C'est pourquoi on parle ici l'analyse syntaxique "large". En général, les outils d'analyse syntaxique ont une couverture beaucoup plus réduite.
On connaît déjà, par exemple par le document WO062155A1 , des outils de "chunk parsing" qui se contentent de repérer des syntagmes soit de taille minimale ("base noun phrase"), soit de taille maximale, sans identifier les relations de dépendance au sein de ces syntagmes extraits, ni les relations de dépendance dans lesquelles sont pris ces syntagmes.
Le logiciel LEXTER met en œuvre une extraction de syntagmes nominaux uniquement, aucune analyse autour du verbe, les relations de dépendance sont trouvées uniquement au sein du groupe nominal, mais analyse complète du syntagme nominal. II existe également la technique dite de « Shallow parsing » : on repère les relations sujet et objet direct du verbe, mais on n'intéresse pas au détail des groupes, on néglige les rattachement prépositionnels. Un corpus spécialisé est un ensemble de textes portant sur un domaine spécialisé ou technique particulier. Tout corpus de ce type est caractérisé d'une part par une certaine homogénéité thématique et d'autre part par une grande complexité syntaxique : ces corpus sont écrits dans un jargon technique qui utilisent des termes techniques relativement longs et de complexité syntaxique importante. Ceci rend l'analyse syntaxique automatique de corpus spécialisés particulièrement difficile.
L'analyse syntaxique large est une tâche réputée très complexe, en particulier à cause des cas multiples d'ambiguïté de rattachement prépositionnel (exemple d'ambiguïté : j'ai regardé un homme avec un télescope."). L'expérience montre que les performances des systèmes de traitement de l'information ne peuvent atteindre un niveau de qualité satisfaisant que s'ils exploitent des connaissances terminologiques et conceptuelles riches sur le domaine couvert par l'application. Or la construction de ressources terminologiques est une tâche très délicate et très lourde, qui ne devient opérationnellement envisageable qu'avec des outils de traitement automatique des langues, au premier rang desquels figurent les analyseurs syntaxiques de corpus spécialisés :
Aucun des procédés actuels d'analyse syntaxique ne permettant de résoudre la question de l'analyse syntaxique large, le but de la présente invention est de proposer un procédé d'analyse syntaxique large de corpus, notamment de corpus spécialisés.
Cet objectif est atteint avec un procédé d'analyse syntaxique large basé sur un apprentissage non supervisé sur un corpus, pouvant acquérir par lui-même, par analyse du corpus en cours de traitement, un ensemble d'informations linguistiques qu'il va utiliser pour résoudre les cas d'analyse difficiles. Le corpus est à la fois objet du traitement et source d'informations.
Suivant l'invention, le procédé d'analyse syntaxique large comprend un enchaînement itératif de deux phases : - une phase d'apprentissage, dans laquelle des informations linguistiques sont acquises à partir des cas d'analyse non ambigus, - une phase de résolution, dans laquelle les cas d'analyse ambigus sont résolus en exploitant les informations acquises lors de la phase d'apprentissage.
On parle ici d'apprentissage endogène parce que les informations sont acquises par l'analyseur à partir du corpus en cours d'analyse et directement utilisées par ce même analyseur sur ce même corpus pour traiter les cas difficiles.
Il est à noter qu'il existe des procédés d'apprentissage mis en œuvre dans des systèmes d'extraction d'information, comme le décrit notamment le document US5796926 dans lequel un système d'apprentissage construit de nouveaux modèles (« pattems ») d'extraction par reconnaissance de relations syntaxiques locales entre des ensembles de constituants au sein de phrases individuelles qui interviennent dans des événements à extraire. Ce système d'apprentissage généralise alors des modèles d'extraction qu'il a appris préalablement au moyen d'un simple apprentissage inductif d'ensembles de mots qui peuvent être traités de manière synonyme avec les modèles. Le document US5841895 divulgue aussi dans ce contexte un procédé d'apprentissage de relations syntaxiques locales utilisé pour l'apprentissage de modèles d'extraction d'information à base d'exemples. Toutefois, ces documents ne décrivent pas une technique d'apprentissage endogène récursif non supervisé. Par ailleurs, les procédés d'apprentissage décrits dans les deux documents précités exigent une phase d'annotation manuelle au cours de laquelle un expert humain associe à un grand nombre de phrases exemples des descriptions de structure d'événements. C'est à partir de ces couples « phrase/événement », construits manuellement, que s'effectue l'apprentissage.
Au contraire, dans le procédé d'analyse syntaxique selon l'invention, il n'y a pas de phase manuelle de préparation des données avant l'apprentissage, ni d'ailleurs de phase de validation a posteriori des informations acquises après l'apprentissage. L'apprentissage est effectué directement sur le corpus étiqueté, à partir des cas non ambigus, et les résultats de cet apprentissage sont directement exploités par l'analyse. Les phases d'apprentissage et de résolution s'enchaînent de façon itérative de sorte que les cas résolus lors d'une phase de résolution servent de base à une nouvelle phase d'apprentissage, et ainsi de suite jusqu'à ce qu'aucun nouveau cas ne soit non résolu. La solution objet du procédé d'analyse syntaxique selon l'invention constitue une alternative au recours à des connaissances linguistiques et conceptuelles de très grande taille, qu'il est quasiment impossible de constituer et de mettre à jour, surtout dans des domaines spécialisés.
En effet, dans le procédé d'analyse syntaxique selon l'invention, l'analyse syntaxique est entièrement automatique. Les informations acquises lors de la phase d'apprentissage endogène sont directement exploitées par les modules de résolution d'ambiguïté sans intervention humaine pour validation manuelle. Des critères statistiques sont utilisés localement pour trouver un bon compromis entre la couverture et les précisions des informations acquises.
Les informations linguistiques sont acquises lors de la phase d'apprentissage endogène dans un premier temps sur les situations d'analyse non ambiguës (celles où il n'y a qu'un seul candidat pour le rattachement). Ces premières informations sont utilisées pour résoudre un certain nombre de cas d'ambiguïté d'analyse. A partir de l'analyse de ces nouveaux cas résolus, le module d'acquisition peut dans une seconde passe acquérir de nouvelles informations qui seront alors exploitées pour résoudre de nouveaux cas d'ambiguïté résiduels.
Le procédé d'analyse syntaxique selon l'invention comprend une phase d'apprentissage endogène comportant :
- une première passe comprenant :
- une acquisition d'informations linguistiques sur des situations d'analyse non ambiguës,
- un traitement desdites informations linguistiques acquises pour résoudre des cas d'ambiguïté d'analyse,
- une analyse des nouveaux cas d'ambiguïtés résolus,
- une seconde passe comprenant : - une acquisition de nouvelles informations linguistiques sur des situations d'analyse ambiguës, et
- un traitement desdites nouvelles informations acquises pour résoudre de nouveaux cas d'ambiguïté résiduels. L'application principale visée est la construction de ressources terminologiques spécialisées pour un système de traitement de l'information. Les résultats de l'analyse automatique peuvent être exploités par un analyste humain ou automatiquement pour construire une ressource terminologique, par exemple: - une ontologie pour un moteur de recherche d'informations spécialisées sur le Web
- un lexique terminologique pour un système de traduction automatique
- un thésaurus pour un système d'indexation automatique
Suivant un autre aspect de l'invention, il est proposé un système d'analyse syntaxique large d'un corpus, notamment d'un corpus spécialisé, mettant en œuvre le procédé selon l'invention, comprenant
- des moyens pour acquérir des informations linguistiques au sein dudit corpus,
- des moyens pour traiter lesdites informations linguistiques acquises, et - des moyens d'analyse des mots au sein dudit corpus, comprenant des moyens d'apprentissage.
Suivant l'invention, les moyens d'acquisition d'information sont agencés pour distinguer des cas d'analyse non ambigus et des cas d'analyse ambigus, et en ce que les moyens de traitement sont agencés pour traiter les cas d'ambiguïté d'analyse et pour fournir des informations permettant de résoudre des cas d'ambiguïté résiduels.
Le système d'analyse syntaxique selon l'invention peut être implémenté au sein d'un système de traitement de l'information et coopérer avec des équipements de traitement de données, des équipements de saisie d'information, des équipements de stockage d'information tels que des bases de données, et des équipements de fourniture et de visualisation d'information. D'autres avantages et caractéristiques de l'invention apparaîtront à l'examen de la description détaillée d'un mode de mise en œuvre nullement limitatif, et des dessins annexés sur lesquels :
- la figure 1 illustre le principe d'apprentissage endogène mis en œuvre dans le procédé d'analyse syntaxique selon l'invention ; et
- la figure 2 illustre les étapes principales es d'un exemple de mise en œuvre du procédé d'analyse syntaxique selon l'invention.
On va maintenant décrire l'architecture générale et un exemple de mise en œuvre du procédé d'analyse syntaxique selon l'invention. Dans un premier temps, est fournie ci-dessous une description de la notion de relation de dépendance, afin de mieux comprendre les principes mis en œuvre dans le procédé d'analyse syntaxique selon l'invention.
La structure grammaticale d'une phrase peut être décrite en terme de relation de dépendance entre mots. Les relations en jeu sont celles de la grammaire classique : sujet de verbe, complément d'objet direct de verbe, complément d'objet indirect de verbe, adjectif modifieur de nom, etc.
Sont données ci-dessous les notations utilisées pour décrire le principe de l'apprentissage endogène. On se place ici dans le cas de langues où les notions de verbe, nom, adjectif, adverbe , ont un sens. Une relation de dépendance peut être décrite comme un triplet (X, R,
Y) où X est le mot recteur (la source de la relation), R est le nom de la relation de dépendance et Y est le mot régi (la cible de la relation).
Est donnée ci-dessous une liste des principales relations de dépendance : - La relation SUJET : X est un mot de la catégorie Verbe, et Y est en général un mot de la catégorie Nom ou Pronom. Y est la tête du groupe nominal sujet du verbe X. Le chat dort.
Relation de dépendance : (dormir, SUJET, chat) - La relation COMP DIR : X est un mot de la catégorie Verbe, et Y est en général un mot de la catégorie Nom ou Pronom. Y est la tête du groupe nominal complément d'objet direct du verbe X. Le chat mange la souris.
Relation de dépendance : (manger, COMP_DIR, souris)
- La relation COMP INDIR : Ce cas couvre les phénomène de complémentation indirecte. X est un mot de la catégorie Verbe, Nom, Adjectif ou Adverbe, et Y un mot de la catégorie préposition. Y est la préposition qui introduit le groupe prépositionnel complément de X. Le chat joue avec la balle. Relation de dépendance : (jouer, COMPJNDIR, avec)
- La relation PREP : X est un mot de la catégorie Préposition, et Y est en général un mot de la catégorie Nom ou Verbe. Y est la tête nominale du groupe introduit par la préposition X. Le chat joue avec la balle. Relation de dépendance : (avec, PREP, balle)
- La relation MODIF : X est un mot de la catégorie Nom, et Y un mot de la catégorie Adjectif, et Y est un adjectif épithète du nom X, ou bien X est un mot de la catégorie Verbe, et Y un mot de la catégorie Adverbe, et Y est un adverbe modifieur du verbe X, etc.
Le chat joue avec la balle rouge. Relation de dépendance : (balle, MODIF, rouge) Le chat dort paisiblement
Relation de dépendance : (dormir, MODIF, paisiblement) Dans une phrase, un mot ne peut être régi que par un seul recteur pour une seule relation, un recteur peut avoir plusieurs régis, sauf pour certaines relations. Les relations de dépendance ne peuvent se croiser. On ne peut avoir par exemple (Xi, R, X3) et (X2, R', X ), avec Xi, X2, X3 et X se succédant dans cet ordre dans la phrase.
L'objectif de l'analyse syntaxique est d'identifier un maximum de relations de dépendance au sein de chaque phrase. A l'issue de l'analyse certains mots peuvent être orphelins (aucun recteur n'a été trouvé pour eux).
Pour compléter l'analyse syntaxique, il faut aussi identifier les relations anaphoriques qui s'établissent entre mots de la même phrase, par exemple, les relations entre un pronom, relatif ou personnel, et son antécédent. Ces relations peuvent être décrites elles aussi à l'aide d'un triplet (X, ANA, Y), où X est un pronom et Y son antécédent. L'identification de ces relations anaphoriques permet la mise au jour de relations de dépendance indirecte, à l'aide de l'inférence suivante : (X, R, Y) et (Y, ANA, Z) *δ (X, R, Z) Le chat qui joue avec la balle (...)
(jouer, SUJET, qui) (qui, ANA, chat) 1 (jouer, SUJET, chat) Enfin, concernant les relations de dépendance COMPJND et PREP, on adopte la convention de notation suivante : dans le cas où ont été identifiées les relations de dépendance R= (X, COMPJND, prep) et R'=(prep, PREP, Y), on dira que la relation de dépendance R"=(X, prep, Y) a été identifiée.
Le chat joue avec la balle. Relation de dépendance : (jouer, COMPJNDIR, avec)
Relation de dépendance : (avec, PREP, balle) Relation de dépendance : (jouer, "avec", balle) On va maintenant décrire un exemple d'organisation des traitements mis en œuvre dans le procédé d'analyse syntaxique selon l'invention. On suppose que le corpus en entrée a subi un étiquetage morphosyntaxique : à chaque mot a été affectée une catégorie grammaticale (Verbe, Noms, etc.).
Dans le cadre du procédé d'analyse syntaxique selon l'invention, l'analyse syntaxique est réalisée selon deux modes :
- traitement des relations de dépendance à partir de recteurs potentiels. Dans ce cas, l'analyse part d'un mot recteur et d'une relation de dépendance et cherche le mot régi. Par exemple, puisque tout verbe est censé avoir un sujet, et un seul, l'analyse part de chacun des verbes et cherche leur régi sujet ;
- traitement des relations de dépendance à partir de régis potentiels. Dans ce cas, l'analyse part d'un mot régi et d'une relation de dépendance et cherche le mot recteur. Par exemple, puisque toute préposition est censée dépendre d'un recteur, l'analyse part de chacune des prépositions et cherche leur recteur (verbe, nom, adjectif, adverbe). Dans les deux cas, on part d'un mot pivot (recteur, resp. régi) et d'une relation de dépendance et on cherche un mot qui entre en relation de dépendance avec lui (régi, resp. recteur).
Le procédé d'analyse syntaxique selon l'invention comprend une étape (0) d'acquisition d'informations morphologiques dérivationnelles, dans laquelle on acquiert par analyse du corpus des couples de mots, de catégories différentes, susceptibles d'être en relation de dérivation morphologiques. Cette procédure s'appuie sur un ensemble réduit de règles de troncation/ajout des parties terminales des mots pour identifier des relations morphologiques potentielles entre mots du corpus (comme par exemple entre le verbe fermer et le nom fermeture). Ces relations seront exploitées lors de la phase d'analyse syntaxique en référence à l'étape (3) ci- dessous.
L'étape préalable d'acquisition (0) est suivie d'une étape (1) de recherche des candidats. L'analyse syntaxique débute ainsi : pour chaque mot pivot, on cherche les mots candidats à être recteur (ou régi, selon le mode). Cette recherche passe par un parcours séquentiel des mots de la phrase à partir du mot pivot (vers la droite ou vers la gauche selon les cas). Les mots dont la catégorie grammaticale et la position syntaxique conviennent sont retenus comme candidats. La recherche s'arrête quand une frontière est rencontrée. Chaque candidat est affecté d'un coefficient d'accessibilité (lié à la distance, et au type de mots intercalés), qui sera utilisé comme indice décisif en l'absence d'autres indices ou en cas de concurrence. Par ailleurs, sont identifiées à cette étape les solutions incompatibles (croisements de relation interdits). Le résultat est un ensemble de cas à résoudre : pour chacun des mots pivots, recteurs ou régis, la liste des mots candidats.
A l'issue de l'étape (1) de recherche de candidats recteurs, l'étape (2) d'apprentissage endogène est entreprise au cours de laquelle des informations lexicales sont acquises. Les cas avec un seul candidat sont considérés comme résolus. Le triplet constitué de la relation de dépendance concernée, du mot pivot et du seul candidat est reconnu. Le cas est résolu. Les cas où plusieurs candidats sont en compétition sont dits "cas ambigus". On dit qu'une relation de dépendance (X, R, Y) a été identifiée dans le corpus si l'analyseur a repéré ce triplet au moins une fois dans un contexte non ambigu.
Le concept de base de l'apprentissage endogène est de s'appuyer sur l'ensemble des relations (recteur, relation, régi) identifiées à cette étape pour acquérir des informations qui vont être ensuite utilisées dans les étapes suivantes pour résoudre les cas ambigus.
Deux grands types d'informations sont acquises :
- des informations de complémentation, qui mettent en jeu un mot (verbe, nom, adjectif, adverbe) et une préposition, qui indiquent que tel mot se construit régulièrement avec telle préposition dans le corpus analysé.
- des informations de proximité distributionnelle, qui mettent en jeu deux mots de même catégorie, qui indiquent que tel mot et tel mot sont proches sémantiquement car on les retrouvent distribués dans des contextes syntaxiques identiques dans le corpus analysé.
Les informations de complémentation sont données sous la forme de coefficients dit de productivité. Les informations de proximité distributionnelle sont données sous la forme de coefficients dit de proximité. Les notions de productivité et de proximité sont au cœur du principe de l'apprentissage endogène.
On va maintenant définir le concept de « Productivité recteur » mis en œuvre dans le procédé d'analyse syntaxique selon l'invention. La productivité recteur d'un triplet constitué d'un mot M, d'une préposition Prep et d'une catégorie C est le nombre de mots Y différents, de catégorie C, pour lesquels la relation de dépendance (M, Prep, Y) a été identifiée.
A titre d'exemple : - Si l'analyseur rencontre les contextes non ambigus "disparaître sous les alluvions épaisses" et "disparaître sous les débris", il identifie les relations de dépendance (disparaître, "sous", alluvions) et (disparaître, "sous", débris). La productivité recteur du triplet (disparaître, sous, Nom) est de 2. - Si l'analyseur rencontre les contextes non ambigus "machine à laver" et "machine à sécher", la productivité recteur du triplet (machine, à, Verbe) est de 2. On va maintenant définir le concept de « Productivité régi » également mis en œuvre dans le procédé d'analyse syntaxique selon l'invention. La productivité régi d'un triplet constitué d'un mot M, d'une préposition Prep et d'une catégorie C est le nombre de mots X différents, de catégorie C, tels que la relation de dépendance (X, Prep, M) a été identifiée. A titre d'exemple : - Si l'analyseur rencontre les contextes non ambigus "granit à grains épais" et "grès à gros grains", il identifie les relation de dépendance (granit, "à", grain) et (grès, "à", grain). La productivité régi du triplet (grain, à, Nom) est de 2. On va maintenant définir les concepts de « contexte syntaxique de premier ordre », de « contexte syntaxique de second ordre » et de « proximité régi ».
Un contexte syntaxique de premier ordre est un couple (M, REL) où M est un mot et REL une relation de dépendance. Un mot X a été trouvé dans un contexte syntaxique (M, REL) si et seulement si la relation de dépendance (M, REL, X) a été identifiée. A titre d'exemples : - le contexte syntaxique (manger, SUJET) renvoie à la position sujet du verbe manger. Le contexte syntaxique (balle, MODIF) renvoie à la position d'épithète du nom balle. Le contexte syntaxique (disparaître, sous) renvoie à la position de complément d'objet indirect en sous du verbe disparaître. Un contexte syntaxique de second ordre est un quadruplet (M-i, M2, REL-i, REL2) où Mi et M2 sont des mots, et RE ^ et REL2 des relations de dépendance. Un mot X a été trouvé dans un contexte syntaxique de second ordre (Mi, M2, REL-i, REL2) si et seulement si les relations de dépendance (M2, RELi, M et (M2, REL2, X) ont été identifiées. A titre d'exemples : le contexte syntaxique de second ordre (chat, manger, SUJ, COMP_DIR) renvoie à la position de complément d'objet direct du verbe manger quand celui-ci est construit avec le mot chat comme sujet. Si les deux relations de dépendance (manger, SUJ, chat) et (manger, OBJ, souris) ont été identifiées, le mot souris a été trouvé dans le contexte syntaxique de second ordre ( manger, chat, SUJ, COMP_DIR), et le mot chat a été trouvé dans le contexte syntaxique de second ordre (manger, souris, COMP_DIR, SUJ).
Soient X et Y deux mots de la même catégorie. Soit Nι(X, Y) le nombre de contextes syntaxiques de premier ordre dans lesquels X et Y ont chacun été trouvés, et soit N2(X, Y) le nombre de contextes syntaxiques de second ordre dans lesquels X et Y ont chacun été trouvés. La proximité régi entre X et Y est le résultat d'une combinaison linéaire de Ni et de N2 : proximité régi (X, Y) = ai . Nι(X, Y) + a2 . N2(X, Y) A titre d'exemples :
- Si l'analyseur rencontre les contextes non ambigus "disparaître sous les alluvions" et "disparaître sous les débris", ainsi que "tailler dans les alluvions " et "tailler dans les débris", il trouve les noms alluvions et débris dans les contextes syntaxiques (disparaître, sous, Nom) et (tailler, dans, Nom). Le nombre de contextes syntaxiques de premier ordre dans lesquels alluvions et débris ont chacun été trouvés est égal à 2 : ^(alluvions, débris) = 2. a et b sont des paramètres, b est systématiquement plus élevé que a. Un mot X est un proche régi du mot Y si et seulement la proximité régi entre X et Y est supérieure à un certain seuil.
On va maintenant définir le concept de « proximité recteur. » Soient
(Mi, Ri) et (M2, R2) deux contextes syntaxique. La proximité recteur entre ces deux contextes est égale au nombre de mots qui ont été trouvés dans le contexte (Mi, R-i) et dans le contexte (M2, R2).
A titre d'exemples :
- Si l'analyseur rencontre les contextes non ambigus "disparaître sous les alluvions" et "disparaître sous les débris", ainsi que "tailler dans les alluvions " et "fa/7/er dans les débris", il trouve les noms alluvions et débris dans les contextes syntaxiques
(disparaître, sous) et (tailler, dans). La proximité recteur entre
(disparaître, sous) et (tailler, dans) est égale à 2. Un contexte syntaxique est un proche recteur d'un contexte syntaxique donné si et seulement si leur proximité recteur est supérieure à un certain seuil.
Il est à noter que la fréquence ne rentre pas en en jeu. L'une des caractéristiques les plus originales de la solution présentée ici est que la fréquence d'occurrence des mots ou des relations de dépendance n'intervient pas de façon prioritaire pour le calcul des informations acquises.
On va maintenant décrire l'étape (3) de marquage des candidats au sein du procédé d'analyse syntaxique selon l'invention.
Pour chaque cas ambigu, on passe en revue chacun des candidats et on le marque avec un certain nombre d'indices dont les valeurs sont calculées à partir des informations acquises lors de la phase d'apprentissage endogène.
Pour chaque cas, la relation de dépendance est notée R. Le mot pivot est soit un recteur, soit un régi. Si le mot pivot est un recteur, les candidats sont des candidats régis. Si le mot pivot est un régi, les candidats sont des candidats recteur. Pour chaque cas, pour chaque candidat : ξ le recteur est noté Rr. Si le mot pivot est un recteur, Rr est le mot pivot pour tous les candidats du cas, si le mot pivot est un régi, Rr est le candidat lui-même. La catégorie du mot recteur Rr est notée Cr. ξ le recteur est noté Ri. Si le mot pivot est un régi, Ri est le mot pivot pour tous les candidats du cas, si le mot pivot est un recteur, Ri est le candidat lui-même. La catégorie de Ri est notée Ci. NB : dans le cas où la relation est PREP, le régi est le mot que régit la préposition (et non la préposition elle-même), et la relation R a pour valeur la préposition elle-même. Chaque candidat de chacun des cas se voit affecté d'un certain nombre d'indices. On distingue les indices directs et les indices dérivés. Les indices directs sont calculés à partir d'informations acquises sur le candidat et sur le mot pivot eux-mêmes. Les indices dérivés sont calculés à partir d'informations acquises sur des mots dérivés morphologiques (cf. phase 0) liés au candidat ou au mot pivot.
Sont présentés ci-près des indices directs mis en œuvre dans l'étape de marquage des candidats : Indice REL. Si la relation de dépendance (Rr, R, Ri) a été identifiée, le candidat se voit affecté d'un indice REL à 1 , à zéro sinon.
Indice ProDRecteur. N'est utilisé que si la relation de dépendance est
COMPJND. Soit Prep la préposition. L'indice est égal à la productivité recteur du triplet (Rr, Prep, Ci). Indice ProDRégi. N'est utilisé que si la relation de dépendance est
COMPJND. Soit Prep la préposition. L'indice est égal à la productivité régi du triplet (Ri, Prep, Cr).
Indice ProXRégi. Cet indice est égal au nombre de proches régi de Ri qui ont été trouvés dans le contexte syntaxique (Rr, R) Indice ProXRecteur. Cet indice est égal au nombre de contextes syntaxiques proches recteur de (Rr, R) dans lesquels a été trouvé Ri.
Sont présentés ci-après des indices dérivés mis en œuvre dans l'étape de marquage des candidats. Les indices dérivés sont calculés à partir d'informations acquises sur des mots dérivés morphologiques liés au candidat et au mot pivot.
Les cas de figures étant très nombreux, on ne décrira ici que deux exemples illustratifs d'indices dérivés :
Indice ProDRecteurNV : on se place dans un cas où la relation de dépendance est la préposition Prep, le candidat recteur est le nom N et la catégorie du régi est Nom. Si le candidat N a pour dérivé morphologique un verbe V, alors l'indice ProDRecteurNV pour ce candidat est égal à la productivité recteur du triplet (V, Prep, Nom).
A titre d'exemple :
- Le candidat est le nom écriture, la préposition est sur, la relation de dérivation morphologique entre écriture et écrire a été acquise.
L'indice direct ProDRecteur est la productivité recteur du nom écriture avec la préposition sur, l'indice dérivé ProDRecteurNV est la productivité recteur du verbe écrire avec la préposition sur. Indice REL_VAvNAj : on se place dans un cas où la relation de dépendance est MODIF, le candidat recteur est le verbe V, le régi est l'adverbe Av. Si le candidat V a pour dérivé morphologique un nom N et si l'adverbe Av a pour dérivé morphologique un adjectif Aj, alors l'indice REL_VAvNAj pour ce candidat est égal à 1 si la relation de dépendance (N, MODIF, Aj) a été identifiée. Exemple:
- Le candidat recteur est le verbe imprimer, le régi est l'adverbe rapidement, les relations de dérivation morphologique entre imprimer et impression d'une part et entre rapidement et rapide d'autre part ont été acquises. L'indice direct REL vaut 1 si la relation de dépendance (imprimer, MODIF, rapidement) a été identifiée, l'indice dérivé REL_VAvNAj vaut 1 si la relation de dépendance (impression, MODIF, rapide) a été identifiée.
L'étape (3) de marquage est suivie d'une étape (4) de résolution du procédé d'analyse syntaxique selon l'invention.
Si les informations acquises lors de la phase d'apprentissage endogène (phase 2) n'ont contribué à marquer aucun candidat lors de la phase de marquage (phase 3), le processus se conclut par la phase de résolution par défaut (phase 5). Sinon, de nouveaux indices sont affectés. On résout un certain nombre de nouveaux cas en s'appuyant sur ces nouveaux indices, et en tenant compte des solutions incompatibles et des coefficients d'accessibilité. Des cas initialement jugés ambigus peuvent devenir non ambigus si certaines informations acquises viennent éliminer des candidats. On peut envisager différents types de stratégie et de règles de résolution exploitant les résultats de l'apprentissage endogène. Si de nouveaux cas ont été résolus, on relance une nouvelle phase d'apprentissage endogène (phase 2). Sinon le processus se conclut par la phase de résolution par défaut (phase 5). Le procédé d'analyse syntaxique selon l'invention peut aussi inclure une résolution par défaut dans laquelle on règle les cas où aucun des candidats n'a d'indice. Parmi les règles de résolution, certaines sont acquises . par apprentissage endogène : sur l'ensemble des cas résolus, on calcule les probabilités de rattachement en fonction de la configuration du cas, décrite à l'aide de la relation de dépendance, de la catégorie du mot pivot et de la séquence des catégories des candidats.
Bien sûr, l'invention n'est pas limitée aux exemples qui viennent d'être décrits et de nombreux aménagements peuvent être apportés à ces exemples sans sortir du cadre de l'invention. On peut en particulier envisager un nombre d'itérations d'analyse et d'apprentissage supérieur à deux. Par ailleurs, le procédé d'analyse syntaxique selon l'invention n'est pas limité à la seule langue française mais peut trouver une application avantageuse dans bien d'autres langues.

Claims

REVENDICATIONS
1. Procédé d'analyse syntaxique large basé sur un apprentissage non supervisé sur un corpus, caractérisé en ce qu'il comprend un enchaînement itératif de deux phases :
- une phase d'apprentissage, dans laquelle des informations linguistiques sont acquises à partir des cas d'analyse non ambigus,
- une phase de résolution, dans laquelle les cas d'analyse ambigus sont résolus en exploitant les informations acquises lors de la phase d'apprentissage.
2. Procédé d'analyse syntaxique large de corpus, notamment de corpus spécialisés, selon la revendication 1, caractérisé en ce que les phases d'apprentissage et de résolution s'enchaînent de façon itérative de sorte que les cas résolus lors d'une phase de résolution servent de base à une nouvelle phase d'apprentissage, et ainsi de suite jusqu'à ce qu'aucun nouveau cas ne soit non résolu.
3. Procédé selon la revendication 2, caractérisé en ce qu'il comprend en outre des séquences d'identification de relations de dépendance entre mots du corpus dans lequel chaque relation de dépendance est décrite sous la forme d'un triplet (X, R, Y) où X est le mot recteur (la source de la relation), R est le nom de la relation de dépendance et Y est le mot régi (la cible de la relation), et dans lequel chaque relation anaphorique est décrite sous la forme d'un triplet (X, ANA, Y), où X est un pronom, ANA est le nom de la relation anaphorique et Y son antécédent., l'identification de ces relations anaphoriques permettant la mise au jour de relations de dépendance indirecte.
4. Procédé selon la revendication 3, caractérisé en ce qu'il est appliqué sur un corpus en entrée ayant subi préalablement un étiquetage morphosyntaxique.
5. Procédé selon l'une des revendications 3 ou 4, caractérisé en ce que le traitement des relations de dépendance est réalisé à partir de recteurs potentiels.
6. Procédé selon l'une des revendications 3 ou 4, caractérisé en ce que le traitement des relations de dépendance est réalisé à partir de régis potentiels.
7. Procédé selon l'une des revendications 5 ou 6, caractérisé en ce que dans une séquence d'identification de relation de dépendance, on part d'un mot pivot (recteur, resp. régi) et d'une relation de dépendance et on cherche un mot qui entre en relation de dépendance avec lui (régi, resp. recteur).
8. Procédé selon la revendication 7, caractérisé en ce qu'il comprend en outre une étape (0) d'acquisition d'informations comportant une acquisition d'informations morphologiques dérivationelles, dans laquelle on acquiert par analyse du corpus des couples de mots, de catégories différentes, susceptibles d'être en relation de dérivation morphologiques.
9. Procédé selon la revendication 8, caractérisé en ce que l'étape (0) d'acquisition est suivie d'une étape (1) pour rechercher, pour chaque mot pivot (recteur, resp. régi), des mots candidats à être régi (resp.recteur).
10. Procédé selon la revendication 9, caractérisé en ce que l'étape (1) de recherche comprend un parcours séquentiel des mots d'une phrase à partir du mot pivot.
11. Procédé selon la revendication 10, caractérisé en ce qu'à l'issue de l'étape (1) de recherche, chaque candidat retenu est affecté d'un coefficient o d'accessibilité lié à la distance avec le mot pivot et au type de mots intercalés entre ledit candidat et ledit mot pivot.
12. Procédé selon l'une des revendications 9 à 11 , caractérisé en ce que l'étape (1) de recherche comprend une identification des solutions incompatibles.
13. Procédé selon l'une des revendications 9 à 12, caractérisé en ce que l'étape (1) de recherche est suivie d'une étape (2) d'apprentissage endogène comprenant:
- une reconnaissance de triplets constitués chacun d'un mot pivot, d'une relation de dépendance et d'un seul candidat, conduisant à des cas dits résolus,
- une reconnaissance de triplets constitués chacun d'un mot pivot, d'une relation de dépendance et de plusieurs candidats en compétition, conduisant à des cas dits ambigus.
14. Procédé selon la revendication 13, caractérisé en ce que l'étape d'apprentissage endogène comprend une acquisition d'informations dite de complémentation mettant en jeu un mot et une préposition dans le corpus analysé, et une acquisition d'informations de proximité distributionnelle mettant en jeu deux mots de même catégorie proches sémantiquement et distribués dans des contextes syntaxiques sensiblement identiques dans le corpus analysé.
15. Procédé selon la revendication 14, caractérisé en ce que les informations de complémentation comprennent des coefficients dits de productivité et les informations de proximité distributionnelle comprennent des coefficients dits de proximité.
16. Procédé selon la revendication 15, caractérisé en ce que les coefficients de productivité comprennent un coefficient de productivité recteur correspondant, pour un triplet constitué d'un mot M, d'une préposition Prep et d'une catégorie C, au nombre de mots Y différents, de catégorie C, pour lesquels la relation de dépendance (M, Prep, Y) a été identifiée.
17. Procédé selon l'une des revendications 14 ou 15, caractérisé en ce que les coefficients de productivité comprennent un coefficient de productivité régi correspondant, pour un triplet constitué d'un mot M, d'une préposition Prep et d'une catégorie C, du nombre de mots X différents, de catégorie C, tels que la relation de dépendance (X, Prep, M) a été identifiée.
18. Procédé selon l'une quelconque des revendications 14 à 17, caractérisé en ce que l'étape d'apprentissage endogène comprend en outre un traitement de contextes syntaxiques de premier ordre correspondant chacun à un couple (M, REL) où M est un mot et REL une relation de dépendance.
19. Procédé selon l'une quelconque des revendications 14 à 18, caractérisé en ce que l'étape d'apprentissage endogène comprend en outre un traitement de contextes syntaxiques de second ordre correspondant chacun à un quadruplet (M-i, M2, REL-i, REL2) où M^ et M2 sont des mots, et REL-i et REL2 des relations de dépendance.
20. Procédé selon les revendications 18 et 19, caractérisé en ce que l'étape d'apprentissage endogène comprend en outre, pour deux mots X, Y d'une même catégorie, une détermination d'un coefficient de proximité régi entre lesdits deux mots X, Y : proximité régi (X, Y) = a-, . N^X, Y) + a2 . N2(X, Y) où Nι(X, Y) est le nombre de contextes syntaxiques de premier ordre dans lesquels X et Y ont chacun été trouvés, et N2(X, Y) est le nombre de contextes syntaxiques de second ordre dans lesquels X et Y ont chacun été trouvés.
21. Procédé selon les revendications 18 et 19 ou la revendication 20, caractérisé en ce que l'étape d'apprentissage endogène comprend en outre une détermination, pour deux premier et second contextes syntaxiques (Mi, Ri) et (M2, R2), d'un coefficient de proximité recteur égal au nombre de mots trouvés dans ledit premier contexte syntaxique et dans ledit second contexte syntaxique.
22. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'étape (2) d'apprentissage endogène est suivie d'une étape (3) de marquage des candidats, dans laquelle pour chaque cas ambigu, on passe en revue chacun des candidats et on le marque avec un des indices dont les valeurs sont calculées à partir d'informations acquises lors de la phase d'apprentissage endogène.
23. Procédé selon la revendication 22, caractérisé en ce qu'au cours de l'étape (3) de marquage, on affecte à chaque candidat de chacun des cas des indices directs calculés à partir d'informations acquises sur le candidat et sur le mot pivot eux-mêmes et des indices dérivés calculés à partir d'informations acquises sur des mots dérivés morphologiques liés au candidat ou au mot pivot.
24. Procédé selon la revendication 23, caractérisé en ce que l'étape (3) de marquage est suivie d'une étape (4) de résolution par défaut des cas d'ambiguïté résiduels si les informations acquises lors de l'étape (2) d'apprentissage endogène n'ont contribué à marquer aucun candidat lors de l'étape (3) de marquage.
25. Système d'analyse syntaxique large basé sur un apprentissage non supervisé sur un corpus, mettant en œuvre le procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend des moyens pour acquérir des informations linguistiques sur les cas d'analyse non ambigus, et des moyens pour résoudre les cas d'analyse ambigus comprenant des moyens pour traiter lesdites informations linguistiques acquises.
26. Système selon la revendication 25, caractérisé en ce que caractérisé en ce que les moyens d'acquisition d'information sont agencés pour distinguer des cas d'analyse non ambigus et des cas d'analyse ambigus, et en ce que les moyens de traitement sont agencés pour traiter les cas d'ambiguïté d'analyse et pour fournir des informations permettant de résoudre des cas d'ambiguïté résiduels.
27. Application du procédé d'analyse syntaxique selon l'une des revendications 1 à 24, pour la construction de ressources terminologiques spécialisées pour un système de traitement de l'information.
28. Application du procédé d'analyse syntaxique selon l'une des revendications 1 à 24, pour la construction d'une ontologie pour un moteur de recherche d'informations spécialisées sur le Web.
29. Application du procédé d'analyse syntaxique selon l'une des revendications 1 à 24, pour la construction d'un lexique terminologique pour un système de traduction automatique.
30. Application du procédé d'analyse syntaxique selon l'une des revendications 1 à 24, pour la construction d'un thésaurus pour un système d'indexation automatique.
EP02740825A 2001-06-01 2002-05-28 Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises Withdrawn EP1395914A1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0107287A FR2825496B1 (fr) 2001-06-01 2001-06-01 Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises
FR0107287 2001-06-01
PCT/FR2002/001779 WO2002097662A1 (fr) 2001-06-01 2002-05-28 Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises

Publications (1)

Publication Number Publication Date
EP1395914A1 true EP1395914A1 (fr) 2004-03-10

Family

ID=8863932

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02740825A Withdrawn EP1395914A1 (fr) 2001-06-01 2002-05-28 Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises

Country Status (8)

Country Link
US (1) US20040181389A1 (fr)
EP (1) EP1395914A1 (fr)
JP (1) JP2005508535A (fr)
CA (1) CA2448982A1 (fr)
FR (1) FR2825496B1 (fr)
IL (1) IL159128A0 (fr)
WO (1) WO2002097662A1 (fr)
ZA (1) ZA200309163B (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068995A (zh) * 2015-08-19 2015-11-18 刘战雄 一种基于疑问语义的自然语言语义计算的方法及装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949648B2 (en) * 2002-02-26 2011-05-24 Soren Alain Mortensen Compiling and accessing subject-specific information from a computer network
US7343596B1 (en) * 2002-03-19 2008-03-11 Dloo, Incorporated Method and system for creating self-assembling components
FR2841355B1 (fr) 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US9436726B2 (en) 2011-06-23 2016-09-06 BCM International Regulatory Analytics LLC System, method and computer program product for a behavioral database providing quantitative analysis of cross border policy process and related search capabilities
EP2836920A4 (fr) 2012-04-09 2015-12-02 Vivek Ventures Llc Traitement d'informations classifiées et recherche à l'aide d'un pont entre des bases de données structurées et non structurées
CN104933027B (zh) * 2015-06-12 2017-10-27 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN104965821B (zh) * 2015-07-17 2018-01-05 苏州大学 一种数据标注方法及装置
CN106777275B (zh) * 2016-12-29 2018-03-06 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN109241538B (zh) * 2018-09-26 2022-12-20 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109933649A (zh) * 2019-03-14 2019-06-25 武汉烽火普天信息技术有限公司 一种基于分类词库和启发式规则的案件手段抽取方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8900247A (nl) * 1989-02-01 1990-09-03 Bso Buro Voor Systeemontwikkel Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave.
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
GB9217886D0 (en) * 1992-08-21 1992-10-07 Canon Res Ct Europe Ltd Method and apparatus for parsing natural language
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5796926A (en) * 1995-06-06 1998-08-18 Price Waterhouse Llp Method and apparatus for learning information extraction patterns from examples
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5841895A (en) * 1996-10-25 1998-11-24 Pricewaterhousecoopers, Llp Method for learning local syntactic relationships for use in example-based information-extraction-pattern learning
US6233546B1 (en) * 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
US6047277A (en) * 1997-06-19 2000-04-04 Parry; Michael H. Self-organizing neural network for plain text categorization
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
AU5581599A (en) * 1998-08-24 2000-03-14 Virtual Research Associates, Inc. Natural language sentence parser
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US6233547B1 (en) * 1998-12-08 2001-05-15 Eastman Kodak Company Computer program product for retrieving multi-media objects using a natural language having a pronoun
US6424982B1 (en) * 1999-04-09 2002-07-23 Semio Corporation System and method for parsing a document using one or more break characters
US6405162B1 (en) * 1999-09-23 2002-06-11 Xerox Corporation Type-based selection of rules for semantically disambiguating words
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7203668B2 (en) * 2002-12-19 2007-04-10 Xerox Corporation Systems and methods for efficient ambiguous meaning assembly
US7505894B2 (en) * 2004-11-04 2009-03-17 Microsoft Corporation Order model for dependency structure
US7797303B2 (en) * 2006-02-15 2010-09-14 Xerox Corporation Natural language processing for developing queries

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DIDIER BOURIGAULT; CECILE FABRE: "Approche linguistique pour l'analyse syntaxique de corpus", CAHIERS DE GRAMMAIRE "SEMANTIQUE ET CORPUS", no. 25, 2000, pages 131 - 151, Retrieved from the Internet <URL:http://w3.erss.univ-tlse2.fr/textes/publications/CDG/25/CG25-8-Bourigault.pdf> [retrieved on 20100107] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068995A (zh) * 2015-08-19 2015-11-18 刘战雄 一种基于疑问语义的自然语言语义计算的方法及装置
CN105068995B (zh) * 2015-08-19 2018-05-29 刘战雄 一种基于疑问语义的自然语言语义计算的方法及装置

Also Published As

Publication number Publication date
US20040181389A1 (en) 2004-09-16
WO2002097662A1 (fr) 2002-12-05
JP2005508535A (ja) 2005-03-31
CA2448982A1 (fr) 2002-12-05
FR2825496B1 (fr) 2003-08-15
FR2825496A1 (fr) 2002-12-06
ZA200309163B (en) 2004-07-22
IL159128A0 (en) 2004-05-12

Similar Documents

Publication Publication Date Title
WO2002097662A1 (fr) Procede et systeme d&#39;analyse syntaxique large de corpus, notamment de corpus specialises
EP1999561B1 (fr) Élargissement des demandes de recherche dans une base de données
WO2002067142A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
FR2885712A1 (fr) Dispositif et procede d&#39;analyse semantique de documents par constitution d&#39;arbres n-aire et semantique
EP2529320A1 (fr) Analyse textuelle sémantique
FR2906049A1 (fr) Procede, mis en oeuvre par ordinateur, de developpement d&#39;une ontologie a partir d&#39;un texte en langage naturel
EP1733324A1 (fr) Procede de recherche d&#39;informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede
WO2004010324A2 (fr) Systeme d&#39;extraction d&#39;informations dans un texte en langage naturel
AU2019203783A1 (en) Extraction of tokens and relationship between tokens from documents to form an entity relationship map
Song et al. Learning to extract from multiple perspectives for neural keyphrase extraction
CA2937930A1 (fr) Procede d&#39;analyse semantique d&#39;un texte
WO2008113733A1 (fr) Procede de traduction automatique
CA2432366C (fr) Procede et dispositif pour elaborer une forme abregee d&#39;un terme quelconque qui est utilise dans un message d&#39;alarme destine a etre affiche sur un ecran du poste de pilotage d&#39;un aeronef
Hedlund et al. Bilingual tests with Swedish, Finnish, and German queries: Dealing with morphology, compound words, and query structure
FR2970795A1 (fr) Procede de filtrage de synonymes.
Osipov et al. Linguistic knowledge for search relevance improvement
EP3079076A1 (fr) Procédé de détermination d&#39;un gap sémantique, dispositif et programme correspondant
Omodei Modeling the socio-semantic dynamics of scientific communities
EP1435054A2 (fr) Procede d&#39;indexation et de comparaison de documents multimedia
FR3096157A1 (fr) procédé d’indexation multidimensionnelle de contenus textuels
EP4012598A1 (fr) Système et procédé de conversion d&#39;un document source en langage naturel en une représentation abstraite en langage universel ayant un sens garanti
Lejtovicz et al. Anaphora resolution
Coulie Text Editing: Principles and Methods
Lee et al. Automatic acquisition of phrasal knowledge for English-Chinese bilingual information retrieval
FR2939538A1 (fr) Procede de recherche de correspondances entres differentes sources de donnees.

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20031229

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20091201