FR2975201A1 - Analyse de texte utilisant des proprietes de listes linguistiques et non-linguistiques - Google Patents

Analyse de texte utilisant des proprietes de listes linguistiques et non-linguistiques Download PDF

Info

Publication number
FR2975201A1
FR2975201A1 FR1254195A FR1254195A FR2975201A1 FR 2975201 A1 FR2975201 A1 FR 2975201A1 FR 1254195 A FR1254195 A FR 1254195A FR 1254195 A FR1254195 A FR 1254195A FR 2975201 A1 FR2975201 A1 FR 2975201A1
Authority
FR
France
Prior art keywords
list
item
linguistic
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1254195A
Other languages
English (en)
Inventor
Salah Ait-Mokhtar
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of FR2975201A1 publication Critical patent/FR2975201A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Un système et un procédé sont décrits pour l'extraction d'informations à partir d'un texte, qui peut être effectuée sans connaissance préalable du fait que le texte inclue une liste. Le procédé applique des règles d'analyse (S102) à une phrase s'étendant sur des lignes de texte (S104) afin d'identifier un ensemble d'articles de liste candidats dans la phrase (S108). Chaque article de liste candidat se voit attribuer un ensemble de caractéristiques incluant une ou plusieurs caractéristiques non-linguistiques et une caractéristique linguistique (S108). La caractéristique linguistique définit une fonction syntaxique d'un élément de l'article de liste candidat qui est susceptible d'être en relation de dépendance avec un élément d'un présentateur de liste candidat identifié dans la même phrase (S108). Lorsque deux ou davantage d'articles de liste candidats sont trouvés avec des ensembles de caractéristiques compatibles (S114, S120), une liste est générée (S118) qui les lie en tant qu'articles de liste d'un présentateur de liste commun. Des relations de dépendance sont extraites entre le présentateur de liste et les articles de liste (S122) et des informations fondées sur les relations de dépendance extraites sont délivrées en sortie (S124).

Description

ANALYSE DE TEXTE UTILISANT DES PROPRIÉTÉS DE LISTES LINGUISTIQUES ET NON-LINGUISTIQUES
Le mode de réalisation exemplaire concerne le traitement de langage naturel et trouve une application particulière en liaison avec un système et un procédé de traitement de listes se présentant dans un texte.
Les systèmes d'extraction d'informations (IE) sont largement utilisés pour extraire des informations structurées à partir de données non-structurées (textes). Ces informations se présentent typiquement sous la forme de relations entre des entités et/ou des valeurs. Par exemple, à partir d'un fragment de texte non-structuré tel que "La société ABC a été fondée en 1996. Elle produit des smartphones," ("ABC Company was founded in 1996. It produces smartphones,") un système IE peut extraire la relation <"Société ABC", produire, "smartphones"> (<"ABC Company", produce, "smartphones">). Ceci est réalisé en reconnaissant des entités nommées (NE) dans un texte (ici, "Société ABC" ("ABC Company")), puis en développant des relations les incluant, suivant leur type sémantique et le contexte.
Certains systèmes IE ne s'appuient que des caractéristiques basiques comme la cooccurrence des entités dans une fenêtre d'une certaine taille (mesurée en nombre de mots à l'intérieur de la fenêtre). Des systèmes plus sophistiqués se fient à l'analyse, c'est-à-dire le calcul de relations syntaxiques entre des mots et/ou des constituants de NE. Ces systèmes utilisent généralement des analyseurs solides fondés sur des statistiques ou des règles, qui traitent le texte d'entrée pour identifier des signes (mots, nombres et ponctuation), puis associent ces signes à des informations lexicales, telles que nom, verbe, etc. dans le cas de mots, et type de ponctuation dans le cas d'une ponctuation. À partir de ces étiquettes basiques, des informations plus complexes sont associées au texte, comme l'identification d'entités nommées, les relations entre les entités et d'autres parties du texte et la résolution de coréférence de pronoms (comme le fait qu"'elle" se réfère à la société ABC dans l'exemple donné plus haut). Le traitement linguistique produit des relations syntaxiques comme sujet, objet direct, modificateur, ("subject, direct object, modifier';) etc. Ces relations sont alors transformées en relations sémantiques, en fonction des classes sémantiques des NE (comme nom de personne, nom d'organisation, nom de produit ("Person name, Organization name, Product naine")) ou des mots qu'elles relient. En conséquence, les relations syntaxiques peuvent être considérées comme des conditions fortes sur l'extraction de relations sémantiques, c'est-à-dire des informations structurées.
Un problème qui se pose est que même un analyseur solide est conçu pour ne traiter que des textes continus normaux, comme les textes de la plupart des articles ou des communiqués de presse. Les listes, cependant, ont tendance à se présenter plus fréquemment dans certains documents (par exemple, les décisions de tribunaux, les manuels techniques, les publications scientifiques) et les analyseurs existants ont des difficultés (qui apparaissent sous la forme d'erreurs et/ou de silences) à les analyser. Un nettoyage manuel de ces documents peut donc être effectué en tant qu'étape de prétraitement, avant qu'un analyseur ne puisse être mis en oeuvre.
Les listes peuvent avoir toute une variété de structures. Une ambiguïté se présente également à cause du fait que la plupart des étiquettes de listes ne sont pas attribuées aux listes de façon univoque. Certaines listes, par exemple, utilisent des étiquettes alphabétiques ou numériques pour commencer leurs articles de liste, mais ces étiquettes peuvent avoir d'autres rôles, comme celui des initiales du nom d'une personne ou de valeurs numériques, etc. Par conséquent, l'extraction d'informations sémantiques à partir de listes peut s'avérer difficile.
Le besoin demeure d'un système et d'un procédé de traitement automatisé de texte pouvant extraire des relations sémantiques à partir de listes.
Suivant un aspect de la présente invention, il est prévu un procédé pour extraire des informations de textes. Le procédé comprend les étapes consistant à : - prévoir des règles d'analyse adaptées au traitement de listes dans des textes, chaque liste comprenant une pluralité d'articles de liste liés à un présentateur de liste commun, et un processeur informatique pour mettre en oeuvre les règles d'analyse ; - recevoir un texte à partir duquel des informations doivent être extraites, le texte comprenant des lignes de texte ; - segmenter le texte en phrases ; - pour une des phrases, prévoir, avec les règles d'analyse : - d'identifier un ensemble d'articles de liste candidats dans la phrase, chaque article de liste candidat se voyant attribuer un ensemble de caractéristiques, les caractéristiques comprenant une caractéristique non-linguistique et une caractéristique linguistique, la caractéristique linguistique définissant une fonction syntaxique d'un élément de l'article de liste candidat susceptible d'être en relation de dépendance avec un élément d'un présentateur de liste candidat identifié dans la phrase ; et - de générer une liste incluant une pluralité d'articles de liste, ce qui consiste à : - identifier des articles de liste à partir des articles de liste candidats ayant des ensembles de caractéristiques compatibles ; et - lier les articles de liste à un présentateur de liste commun ; - extraire les relations de dépendance entre un élément du présentateur de liste et un élément respectif de chaque article de la pluralité d'articles de liste de la liste ; et - délivrer en sortie des informations fondées sur les relations de dépendance extraites.
Pour un autre mode de réalisation, les caractéristiques non-linguistiques comprennent au moins une caractéristique associée à une ligne de texte de l'article de liste candidat.
Pour un autre mode de réalisation, les caractéristiques non-linguistiques comprennent au moins une caractéristique parmi une caractéristique de mise en page, une caractéristique de ponctuation et une caractéristique d'étiquette.
Pour un autre mode de réalisation, l'identification de l'ensemble d'articles de liste candidats comprend l'attribution de caractéristiques non-linguistiques à chaque ligne d'un ensemble de lignes de texte de la phrase, les caractéristiques non-linguistiques étant sélectionnées à partir d'un ensemble prédéfini de types de caractéristiques.
Pour un autre mode de réalisation, l'ensemble prédéfini de types de caractéristiques est sélectionné à partir du groupe constitué par : - une caractéristique de marge gauche fondée sur la longueur de l'espace horizontal précédant le premier signe de l'article de liste candidat ; - une caractéristique de casse typographique fondée sur la casse typographique du premier mot de l'article de liste candidat ; - une caractéristique de signe de ponctuation qui est attribuée lorsqu'un symbole de ponctuation commence l'article de liste candidat ; et - une caractéristique de type d'étiquette alphanumérique fondée sur le type d'étiquette alphanumérique, s'il existe, avec lequel l'article de liste candidat est étiqueté et, éventuellement, une caractéristique de casse d'étiquette fondée sur la casse typographique de l'étiquette lorsqu'un type d'étiquette comporte plus d'une casse.
Pour un autre mode de réalisation, le procédé comprend l'étape de création d'un noeud au sommet de toute séquence commençant une nouvelle ligne qui satisfasse à un ensemble de contraintes prenant en compte ses caractéristiques attribuées, les articles de liste candidats étant chacun fondés sur les caractéristiques d'un noeud respectif.
Pour un autre mode de réalisation, les contraintes créent un noeud pour une séquence avec n'importe quel signe parmi : a) un premier signe auquel a été attribué une caractéristique de type étiquette alphanumérique qui n'est pas l'initiale d'un nom et un second signe auquel a été attribué une caractéristique de signe de ponctuation ; b) un premier signe auquel a été attribué une caractéristique de type étiquette qui est également l'initiale d'un nom à la condition qu'il ne soit pas suivi d'un nom propre ; et c) un premier signe auquel a été attribué une caractéristique de signe de ponctuation.
Pour un autre mode de réalisation, le procédé comprend en outre l'étape consistant à pourvoir à l'identification d'un modificateur d'article de liste, chaque modificateur d'article de liste répondant à l'interruption temporaire dans une liste entre un premier article des articles de liste et un second article des articles de liste.
Pour un autre mode de réalisation, l'identification des articles de liste candidats comprend, pour chaque ligne d'une pluralité de lignes de texte dans la phrase, les étapes consistant à : - attribuer des caractéristiques de mise en page aux lignes de texte ; - identifier des étiquettes potentielles d'article de liste et les annoter avec des noeuds de ponctuation, chacun des noeuds de ponctuation ne comprenant que des caractéristiques non-linguistiques ; - propager les caractéristiques des noeuds de ponctuation aux noeuds d'articles de liste respectifs ; et - associer une caractéristique linguistique à chaque noeud d'article de liste.
Suivant un autre aspect de la présente invention, un système pour traiter du texte 30 comprend : - un analyseur syntaxique mettant en jeu des règles adaptées au traitement de listes de texte, chaque liste incluant un présentateur de liste et une pluralité d'articles de liste, les règles de l'analyseur comprenant des règles pour : - sans connaissance préalable du fait que le texte inclue une liste, identifier une 35 pluralité d'articles de liste candidats dans une phrase, chaque article de liste candidat se voyant attribuer un ensemble de caractéristiques, ces caractéristiques comprenant une caractéristique non-linguistique et une caractéristique linguistique, la caractéristique linguistique définissant une relation de dépendance entre un élément d'un article de liste candidat respectif et un élément d'un présentateur de liste candidat dans la phrase ; - générer une liste à partir d'une pluralité d'articles de liste avec des ensembles de caractéristiques compatibles ; et - extraire une relation de dépendance entre un élément du présentateur de liste et un élément respectif d'un article de liste de la liste ; et - un processeur mettant en oeuvre l'analyseur.
Pour une variante du procédé, l'identification de l'ensemble d'articles de liste candidats, la génération de la liste et l'extraction de relations de dépendance peuvent être réalisées avec un analyseur syntaxique.
Pour une autre variante, la caractéristique non-linguistique peut comprendre n'importe lequel : a) ensemble de caractéristiques non-linguistiques ; b) au moins une caractéristique associée à une ligne de texte de l'article de liste candidat ; c) au moins une caractéristique parmi une caractéristique de mise en page, une caractéristique de ponctuation et une caractéristique d'étiquette ; et d) une caractéristique de mise en page fondée sur la mesure de l'espace vide à une extrémité d'une ligne de texte de l'article de liste candidat.
Pour une variante, des caractéristiques non-linguistiques peuvent être attribuées et peuvent comprendre l'application de règles d'analyseur pour attribuer chacun des types de caractéristiques aux signes pertinents d'articles de liste candidats.
Pour une autre variante, le procédé peut inclure la création d'un noeud au sommet de n'importe quelle séquence commençant une nouvelle ligne qui satisfasse à un ensemble de contraintes prenant en compte ses caractéristiques attribuées, les articles de liste candidats étant chacun fondé sur les caractéristiques d'un noeud respectif. Les contraintes peuvent créer un noeud pour une séquence avec n'importe quel signe parmi : a) un premier signe s'étant vu attribuer une caractéristique de type étiquette alphanumérique qui n'est pas l'initiale d'un nom et un second signe s'étant vu attribuer une caractéristique de signe de ponctuation ; b) un premier signe s'étant vu attribuer une caractéristique de type étiquette qui est également l'initiale d'un nom à la condition qu'il ne soit pas suivi d'un nom propre ; et c) un premier signe s'étant vu attribuer une caractéristique de signe de ponctuation.
Pour une autre variante, le procédé peut en outre inclure la création d'un noeud à gauche de n'importe quel mot ou nombre commençant une nouvelle ligne, si un signe de ponctuation existe à la fin de la ligne précédente.
Les articles de liste candidats peuvent chacun inclure une ligne de texte.
Pour une autre variante, la segmentation du texte en phrases comprend l'application de règles de segmentation de textes qui ignorent au moins une certaine ponctuation au début des lignes du texte. Le procédé peut en outre inclure l'étape consistant à pourvoir à l'identification d'un modificateur d'article de liste, chaque modificateur d'article de liste répondant à l'interruption temporaire dans une liste entre un premier article des articles de liste et un second article des articles de liste. 15 Le procédé peut en outre inclure, pour un modificateur d'article de liste identifié, l'extraction d'une relation de dépendance entre un élément du modificateur d'article de liste et un élément de présentation de la liste, ou entre un élément du modificateur d'article de liste et un élément des articles de liste qui suivent le modificateur d'article de 20 liste dans la même liste.
Le procédé peut en outre inclure l'étape consistant à pourvoir à l'identification de sous-listes, chaque sous-liste comprenant un présentateur de sous-liste et une pluralité d'articles de sous-liste, chaque article de sous-liste étant défini par un ensemble de 25 caractéristiques, les caractéristiques comprenant une caractéristique non-linguistique et une caractéristique linguistique, la caractéristique linguistique définissant une relation de dépendance entre un élément de l'article de sous-liste et un élément d'un présentateur de sous-liste candidat dans la phrase, les articles de sous-liste et le présentateur de sous-liste étant dans le même article de la pluralité d'articles de liste. 30 L'identification de l'ensemble d'articles de liste avec des caractéristiques compatibles peut inclure la comparaison des caractéristiques de deux articles de liste candidats pour déterminer s'ils satisfont au moins à un seuil de similarité et, si tel est le cas, leur ajout à l'ensemble des articles de liste. L'identification des articles de liste candidats peut inclure, pour chaque ligne d'une pluralité de lignes de texte de la phrase : l'attribution de caractéristiques de mise en page 35 aux lignes de texte, l'identification d'étiquettes d'articles de liste potentiels et leur annotation avec des noeuds de ponctuation, chacun des noeuds de ponctuation ne comprenant que des caractéristiques non-linguistiques ; la propagation des caractéristiques des noeuds de ponctuation aux noeuds d'articles de liste respectifs ; et l'association d'une caractéristique linguistique à chaque noeud d'article de liste.
La fonction syntaxique d'un élément de l'article de liste candidat peut être sélectionnée parmi le groupe constitué par un sujet, un complément d'objet direct, un complément d'objet indirect, un modificateur de verbe et un objet de préposition. Le procédé peut être mis en oeuvre sans connaissance préalable du fait que le texte comprenne une liste.
Suivant une autre variante, un procédé de traitement d'un texte comprend l'étape 15 consistant, pour une phrase du texte d'entrée, à prévoir des règles d'analyseur pour identifier des articles de liste candidats dans la phrase. Chaque article de liste candidat comprend une ligne de texte et un ensemble de caractéristiques attribuées. Les caractéristiques de l'ensemble comprennent une pluralité de caractéristiques non-linguistiques et une caractéristique linguistique. La caractéristique linguistique définit une 20 relation de dépendance entre un élément de l'article de liste candidat et un élément d'un présentateur de liste candidat dans la même phrase. Les règles génèrent une structure arborescente qui lie un présentateur de liste à une pluralité d'articles de liste, les articles de liste étant sélectionnés parmi les articles de liste candidats en fonction de la compatibilité des ensembles de caractéristiques respectifs. Les règles sont appliquées à 25 une phrase avec un processeur informatique.
La figure 1 est une illustration d'un document de texte comprenant une liste et une sous-liste ;
30 la figure 2 est un schéma de blocs fonctionnels d'un système d'extraction d'informations de listes dans un texte suivant un aspect du mode de réalisation exemplaire ;
la figure 3 est un schéma de blocs fonctionnels d'un procédé d'extraction 35 d'informations de listes dans un texte suivant un autre aspect du mode de réalisation exemplaire ;10 la figure 4 illustre une structure arborescente exemplaire comprenant des noeuds d'articles de liste ;
la figure 5 illustre la structure arborescente exemplaire comprenant un noeud de liste et des noeuds d'articles de liste ; et
les figures 6 à 8 illustrent des règles exemplaires d'analyseur.
Des aspects du mode de réalisation exemplaire concernent un système et un procédé d'extraction d'informations à partir de listes d'un texte en langage naturel.
Une liste peut être considérée comme incluant une pluralité de constituants de liste comprenant une "présentation de liste", qui précède et est syntaxiquement liée à un ensemble de deux ou davantage "d'articles de liste". Chaque article de liste peut être désigné par une "étiquette d'article de liste" comprenant un ou plusieurs signes, comme une lettre, un nombre, un tiret ou autre, bien que cela ne soit pas obligatoire. Les articles de liste peuvent avoir une ou plusieurs caractéristiques de mise en page représentant la structure géométrique du texte, comme les retraits, bien qu'à nouveau cela ne soit pas obligatoire. Une liste peut comprendre de nombreux articles de liste et s'étendre sur plusieurs pages. Une liste peut contenir des sous-listes, chacune d'elles ayant les propriétés d'une liste. Une liste peut aussi contenir un ou plusieurs modificateurs d'articles de liste, chacun d'eux liant les articles de liste suivants à la présentation de liste, sans être une continuation ou une sous-liste d'une liste précédente. Une liste peut être graphiquement représentée par une structure de liste, par exemple sous la forme d'une structure arborescente. Un "élément" d'une liste peut être n'importe quelle chaîne de texte dans une liste, qui est plus courte qu'une phrase, comme un mot, une expression, un nombre ou autre, et est généralement entièrement contenue dans un article de liste respectif ou une présentation de liste. Un "élément principal" est un élément d'un constituant de liste qui est identifié comme tel par des règles générales d'analyseur.
Généralement, un élément principal d'un article de liste est la "tête" syntaxique de la séquence de mots de l'article de liste. Par exemple, si l'article de liste est une proposition de verbe fini avec un verbe principal fini, alors ce dernier est l'élément principal ; si l'article de liste est une proposition verbale à l'infinitif ou au participe présent, alors le verbe à l'infinitif ou au participe présent est l'élément principal ; si l'article de liste est une expression prépositive ou substantive, alors l'élément principal est la "tête" nominale de l'expression.
Le procédé exemplaire comprend l'extraction de relations de dépendance ("relations") syntaxiques (et, dans certains cas, sémantiques) qui existent entre des éléments d'une telle liste. Ces relations peuvent inclure un élément (actif) de la présentation de liste comme premier membre de la relation et un autre élément (principal) de l'article de liste respectif comme second membre de la relation. Un élément actif d'une présentation de liste peut être n'importe quel élément qui n'est pas syntaxiquement "épuisé", c'est-à-dire qu'il manque au moins une relation syntaxique (en termes linguistiques, il manque une "tête" syntaxique ou une subordonnée). Un élément actif peut être l'élément principal de la présentation de liste, bien que cela ne soit pas nécessairement le cas. Les relations extraites permettent à un système IE de capturer les informations que comportent ces relations. Le système et le procédé s'appuient sur un analyseur linguistique modifié capable de reconnaitre la structure de la liste et de capturer les relations syntaxiques qui existent entre la présentation de la liste et les articles de celle-ci.
Un exemple d'une page d'un document de texte ("document") 10 comprenant une liste 12 pouvant être traitée par le système exemplaire est représenté sur la figure 1. Le document 10 peut être n'importe quel document de texte numérique en un langage naturel, comme l'anglais ou le français, pouvant être traité pour extraire le contenu du texte, comme un mot, un fichier PDF, un élément d'un langage de balisage (par exemple, XML), un document traité par scannage et reconnaissance optique de caractères (OCR), ou autre.
La liste 12 se présente sous la forme d'une phrase unique et comprend une présentation de liste 14, une pluralité d'articles de liste 16, 18, 20, etc. et (éventuellement) un modificateur d'article de liste 21. L'article de liste 16, dans ce cas, sert de sous-liste comprenant une présentation de (sous-)liste 22 et trois articles de (sous-)liste 24, 26, 28. Les articles de liste ont plusieurs caractéristiques en commun. Les articles de liste 16, 18, 20 sont chacun présentés par la même étiquette d'article de liste 30 (une caractéristique non-linguistique), qui, dans ce cas, est un tiret. Le premier caractère suivant l'étiquette d'article de liste 30 est, dans chaque cas, une lettre majuscule (capitale). Les articles de liste 16, 18, 20 se terminent également avec la même ponctuation (ici un point-virgule), excepté le dernier article de liste (non représenté) qui se finit avec un point. Les articles de sous-liste 24, 26, 28 sont chacun présentés par le même type d'étiquette d'article de liste 32. Dans ce cas, l'étiquette d'article de liste est différente de l'étiquette 30. Spécifiquement, les articles de sous-liste 24, 26, 28 ont le même type d'étiquette d'article de liste (un nombre suivi d'un symbole de point, comme "1."). Les articles de sous-liste 24, 26, 28 se terminent chacun avec la même ponctuation (ici, une virgule), excepté le dernier article de liste qui se finit avec un point-virgule puisqu'il termine le premier article de liste 16. Les articles de liste 16, 18, 20 ont la même caractéristique de mise en page : un retrait de marge gauche 34 de 6 espaces de caractères. Les articles de sous-liste 24, 26, 28 ont également la même caractéristique de mise en page en commun : un retrait de marge gauche 34 de 6 caractères sur la première ligne de chacun d'eux. Les articles de liste peuvent aussi avoir des retraits de marge droite similaires comme cela est représenté pour les articles de sous-liste à la référence 35. Les articles de liste 16, 18, 20 ont également une caractéristique linguistique en commun, dans le cas présent, un verbe à l'infinitif en tant que leur "tête" (ou élément principal) qui se rapporte à l'élément actif de la présentation de liste. De même, les articles de sous-liste 24, 26, 28 ont une caractéristique linguistique en commun : une locution nominale (ici, une quantité d'argent), qui est un complément de la locution nominale (les sommes) dans la présentation de la sous-liste 22. Certains articles de liste peuvent s'étendre sur plus d'une ligne ou plus d'une page. Par exemple, l'article de liste 18 comprend deux lignes 38, 39.
Tandis que la figure 1 illustre un exemple d'une liste hautement structurée 12, il sera apprécié que des listes peuvent avoir moins ou plus de caractéristiques ou des caractéristiques différentes.
Les caractéristiques de mise en page (retraits à gauche ou à droite), les étiquettes d'article de liste, comme la ponctuation, les lettres, les nombres, d'autres commencements d'articles de liste comme la casse d'une lettre initiale, et éventuellement des terminateurs d'articles de liste (par exemple, une ponctuation), sont tous des exemples de caractéristiques non-linguistiques que le système exemplaire peut employer, en association avec des caractéristiques linguistiques, afin d'identifier des listes.
Le système 40 d'extraction d'informations (IE) suivant le mode de réalisation exemplaire est illustré sur la figure 2. Le système 40 reçoit, via une entrée (E/S) 42, un document 10 d'une source 44 de tels documents, comme un dispositif de traitement client, un dispositif de stockage en mémoire, un scanneur optique avec des capacités de traitement OCR, ou autre, via une liaison 46. Autrement, un document 10 peut être généré de façon interne au système. Le système délivre en sortie des informations 48, comme des relations sémantiques, qui ont été extraites du texte du document 10, ou des informations fondées sur celui-ci, via un dispositif de sortie (E/S) 50, qui peut être le même ou être différent du dispositif d'entrée 42. La mémoire système 52 stocke des instructions 54 pour mettre en oeuvre le procédé exemplaire, qui sont exécutées par un processeur 56 associé, comme une unité centrale CPU. Les composants 42, 50, 52, 56 du système 10 sont connectés de manière à communiquer par un bus système 58. Le système 10 peut être relié à un ou plusieurs dispositif externes 60, comme un dispositif de stockage en mémoire, un dispositif de traitement client, un dispositif de visualisation, comme un écran LCD ou un moniteur informatique, une imprimante ou autre via une liaison 62 adéquate. L'(es) interface(s) 42, 50 permettent à l'ordinateur de communiquer avec d'autres appareils via un réseau informatique et peuvent comprendre un modulateur/démodulateur (MODEM). Les liaisons 46, 62 peuvent chacune être, par exemple, une liaison câblée ou sans fil, comme une connexion enfichable, une ligne téléphonique, un réseau local ou un réseau à grande distance, comme l'Internet. Le système 40 peut être réalisé sur un ou plusieurs dispositifs de traitement, comme l'ordinateur serveur 66 représenté.
La mémoire 52 peut représenter tout type de support non transitoire lisible par un ordinateur, comme une mémoire à accès aléatoire (RAM), une mémoire à lecture seule (ROM), un disque ou une bande magnétique, un disque optique, une mémoire flash ou une mémoire holographique.
Le processeur numérique 56, en plus de commander le fonctionnement de l'ordinateur 66, exécute les instructions 54 stockées dans la mémoire 52 pour mettre en oeuvre le procédé représenté sur la figure 3.
Le terme de "logiciel", tel qu'il est utilisé ici, est supposé englober toute collection ou ensemble d'instructions exécutables par un ordinateur ou un autre système numérique de façon à configurer l'ordinateur ou l'autre système numérique pour qu'il effectue la tâche à laquelle est destiné le logiciel.
Les instructions exemplaires 54 incluent un analyseur syntaxique 70, qui applique un ensemble de règles, également connu sous le nom de grammaire, pour effectuer un traitement d'un langage naturel (NLP) du texte du document. En particulier, l'analyseur 70 divise le texte d'entrée, comprenant toutes les listes 12 présentes, en une séquence de signes, comme des mots, des nombres ou une ponctuation, et associe des informations lexicales, comme des parties de discours (POS), aux mots du texte, et un type de ponctuation aux signes de ponctuation. Des mots sont alors associés ensemble en tant que tranches. Le découpage en tranches implique, par exemple, de grouper les mots d'une expression nominale ou d'une expression verbale autour d'une tête. Les relations syntaxiques entre les tranches sont extraites, comme les relations sujet/objet, les modificateurs et autres. Les entités nommées, qui sont des substantifs se référant à une entité par son nom, peuvent être identifiées et étiquetées par type (comme une personne, une organisation, une date, etc.). Une coréférence peut également être effectuée pour associer des pronoms aux entités nommées auxquelles ils se rapportent. L'analyseur 70 peut appliquer les règles séquentiellement et/ou peut revenir à une règle antérieure lorsque des informations nouvelles ont été associées au texte.
L'analyseur exemplaire 70 inclut aussi ou est associé à un composant de liste 72 comprenant des règles pour le traitement de listes du texte. L'analyseur exemplaire 70 avec le composant de liste 72 traite le problème d'une analyse linguistique de listes étiquetées ou non étiquetées dans des documents de texte, par une reconnaissance des parties constituantes d'une liste (principalement, la présentation de liste et les articles de liste, et éventuellement un modificateur d'article de liste 21, s'ils existent) et la reconnaissance des relations syntaxiques (sujet, objet, modificateur verbal ou adjectival, etc.) qui rattachent des éléments provenant de différentes parties de la liste.
Le composant de liste 72 du système 40 peut être mis en oeuvre en tant que sous-grammaire de l'analyseur 70, pour traiter les structures de liste sans changer le coeur normalisé de la grammaire de l'analyseur. Le composant de liste 72 inclut un ensemble de règles pour identifier les constituants de liste (comme la présentation de liste 14, les articles de liste 16, 18, 20, la présentation de sous-liste 22, les articles de sous-liste 24, 26, 28 et le modificateur d'article de liste 21, s'ils existent) d'une liste 12 du texte autrement non structuré d'un document 10, s'ils existent. Ceci permet l'extraction d'informations 48 de constituants de liste par la mise en oeuvre des règles d'analyseur décrites plus haut.
Le procédé exemplaire peut être réalisé par n'importe quel analyseur 70 fondé sur des règles. Cependant, les analyseurs incrémentiels/séquentiels sont plus adéquats parce qu'ils autorisent une modularité : la sous-grammaire 72 dédiée aux listes d'analyse peut être disposée dans des fichiers distincts de la grammaire normalisée 70, lui permettant d'être développée et maintenue sans modifier le coeur de la grammaire 70.
Un analyseur exemplaire est un analyseur séquentiel/incrémentiel, tel que l'analyseur incrémentiel Xerox (XIP) ("Xerox Incremental Parser") (marques déposées).
Pour obtenir des détails sur cet analyseur, voir, par exemple, le brevet U.S. n° 7 058 567 attribué à Aït-Mokhtar et al.
En se référant une fois de plus au document 10 représenté sur la figure 1, le système 40 est capable d'extraire l'information qu'une des demandes de Co CD au tribunal est que EB Co soit ordonné de publier le jugement sur son site Web. Pour extraire cette information, l'analyseur 70 capture la relation syntaxique de complément indirect entre l'expression verbale "demande", dont "Co CD" est le sujet dans la présentation de liste 14, et l'expression verbale "Ordonné..." du troisième article de liste 20 de la liste 12. Pour permettre à cette information d'être extraite, l'analyseur détermine que cette expression verbale est l'élément syntaxique principal d'un article de liste faisant partie d'une liste présentée par une proposition, dont le verbe principal est "demande".
L'analyseur prend en compte la structure de la liste pour permettre cela.
Le procédé et le système exemplaires fondés sur des règles extraient des structures de liste et les relations syntaxiques qu'ils comportent à partir de caractéristiques linguistiques et de caractéristiques non-linguistiques, comme des caractéristiques de ponctuation, de typographie et de mise en page. Les règles (par exemple comme des motifs acceptant d'autres configurations) pour identifier les caractéristiques non-linguistiques sont exprimées avec le même formalisme grammatical que celui utilisé pour les caractéristiques linguistiques. Un motif de reconnaissance donné peut faire usage d'une ou des deux sortes de caractéristiques. La reconnaissance de la structure de liste et de la structure linguistique est effectuée avec le même algorithme et au cours du même processus d'analyse, de sorte que les décisions d'analyse de liste peuvent s'appuyer sur les structures linguistiques et vice versa. Le procédé exemplaire autorise l'extraction automatisée d'informations à partir de listes, éliminant le besoin pour le texte d'être traité par un nettoyage manuel ou automatique et un formatage du texte d'entrée au cours d'une phase de prétraitement séparée.
Le procédé exemplaire est illustré sur la figure 3. Ce procédé commence à S100.
À S102, les règles d'analyse 72 adaptées au traitement de listes d'un texte sont fournies.
À S104, un document de texte 10 est délivré en entrée au système 40. Ce document peut inclure une liste mais, au moment où le texte est fourni en entrée, ceci n'est pas connu par le système. Le document peut être converti en un format adéquat pour le traitement, comme un document XML. À S106, le texte 10 est transformé en une séquence de signes pour identifier des signes de chaînes, comme des mots, des nombres et une ponctuation. La séquence de signes est segmentée en phrases de sorte que la présentation d'une liste et de tous ces articles (y compris des sous-listes éventuelles) est incluse dans la même "phrase" unique.
Une définition étendue d'une phrase peut être employée à cette étape. Comme on l'appréciera, le système 40 n'a pas encore identifié, à ce stade, si une phrase donnée comprend une liste ou pas.
Au cours des étapes suivantes, les articles de liste candidats sont alors identifiés et associés à un ensemble respectif de caractéristiques, qui comprend une ou plusieurs caractéristiques non-linguistiques et au moins une caractéristique linguistique (S108 à S114).
Spécifiquement, à S108, des caractéristiques de mise en page, comme la marge gauche, la marge droite, sont attribuées aux signes pertinents de phrases d'articles de liste candidats.
À S110, des initiateurs potentiels (étiquettes) d'articles de liste candidats sont identifiés et annotés avec des caractéristiques non-linguistiques. Les initiateurs comprennent des étiquettes alphanumériques, de la ponctuation et/ou d'autres signes potentiels pouvant commencer un article de liste. Les initiateurs potentiels se voient attribuer des caractéristiques additionnelles, telles qu'une ou plusieurs caractéristiques de la casse typographique du mot suivant (minuscule/majuscule), un signe de ponctuation s'il existe (un tiret, une puce, un point, un astérisque, etc.), le type d'étiquette si elle existe (un nombre, une lettre et/ou un chiffre romain) et la casse typographique de l'étiquette lorsque le type d'étiquette est une lettre ou un chiffre romain.
À S112, le texte est analysé avec un ensemble de règles de découpage en tranches de l'analyseur 70 pour identifier les tranches. Ceci inclut d'associer des informations lexicales aux signes du texte (comme un verbe, un nom, un adjectif, etc.) et d'identifier les tranches : les expressions nominales (NP), les expressions verbales (VB), les expressions prépositionnelles (PP), etc.
À S114, les articles de liste candidats (LI) sont constitués. Chaque LI hérite des caractéristiques de mise en page identifiées à S108 et des caractéristiques des étiquette(s) d'article de liste correspondantes identifiées à S110. En plus de ces caractéristiques non-linguistiques, chaque LI comprend au moins une caractéristique linguistique fondée sur une relation syntaxique entre un élément de l'article de liste et un élément d'un présentateur de liste candidat.
À S116, les modificateurs d'article de liste (LIMOD) peuvent être identifiés, afin de traiter des interruptions temporaires de listes, par exemple lorsqu'une liste de causes d'une action est suivie de "en conséquence", puis d'un nouvel ensemble d'articles de liste énumérant les dommages-intérêts et les autres réparations demandés.
À S118, les constituants des listes (LIST) sont constitués, fondés sur des séquences de LI identifiés à S114, ayant des caractéristiques linguistiques et non-linguistiques compatibles, et sur des conditions contextuelles. Les conditions contextuelles sont des conditions sur des éléments avant ou après une séquence de LI. Par exemple, la règle LIST sur la figure 8 requiert que la séquence de LI soit précédée par un noeud de ponctuation. Ceci se réfère au symbole de ponctuation qui termine une présentation de liste. En anglais, il s'agit souvent de deux-points. Les LIMOD identifiés à S116 peuvent également être inclus.
À S120, si plus d'un type d'étiquette sont identifiés, le procédé retourne à S114 pour traiter le cas de listes comportant des sous-listes imbriquées (en commençant d'abord par la liste la plus imbriquée à S114), autrement à S122.
À S122, pour chaque constituent de LIST, les relations de dépendance suivantes peuvent être extraites : a) des relations de dépendance entre un élément actif de la présentation de liste et l'élément(s) principal(aux) de chacun de ses articles de liste (LI) ; et b) (éventuellement) une relation de dépendance entre l'élément(s) principal(aux) du LIMOD et un élément actif de la présentation de liste ou entre l'élément du LIMOD et l'élément principal de chaque article de liste qui suit dans la même liste. À S124, les informations 48 fondées sur les relations extraites sont délivrées en sortie.
À S126, un processus supplémentaire peut être mis en oeuvre, en fonction de ces informations, comme une classification automatique d'un document, par exemple comme réagissant ou ne réagissant pas à une demande, le classement d'un ensemble de documents en fonction des informations extraites de ceux-ci, ou autres.
Le procédé se termine à S128.
Chacune des étapes S106 à S122 peut être exécutée de manière interne à l'analyseur NLP 70, 72 en utilisant le formalisme de ses règles grammaticales. Comme on l'appréciera, les étapes du procédé ne doivent pas nécessairement se suivre toutes dans l'ordre illustré et moins ou davantage d'étapes ou des étapes différentes peuvent être effectuées.
10 Le procédé exemplaire pour l'analyse linguistique de listes dans des textes est avantageux en ce que : 1. la reconnaissance de structures de listes et de structures linguistiques mettant en jeu des caractéristiques linguistiques est effectuée avec le même algorithme et au cours du même processus d'analyse, de sorte que les décisions de l'analyse de listes 15 peuvent s'appuyer sur les structures linguistiques et vice versa ; 2. l'analyse de la structure de liste est fondée sur des caractéristiques linguistiques et non-linguistiques ; 3. les caractéristiques non-linguistiques sont exprimées avec le même formalisme grammatical que celui utilisé pour l'analyse linguistique et une règle grammaticale peut 20 donc faire usage des deux sortes de caractéristiques, linguistiques et non-linguistiques, y compris des caractéristiques de mise en page.
Le procédé illustré sur la figure 3 peut être mis en oeuvre par un produit logiciel informatique pouvant être exécuté sur un ordinateur. Le produit logiciel informatique peut 25 être un support d'enregistrement non-transitoire lisible par un ordinateur, sur lequel est enregistré un programme de commande, comme un disque, un disque dur ou autre.
On va maintenant donner des détails sur certains aspects du système et du procédé. Segmentation de texte en phrases (S106)
Les analyseurs normalisés considèrent que des occurrences de ponctuation forte, comme ".", "?" et "!" et parfois des deux-points et des points-virgules, indiquent les fins 35 des phrases. Ces analyseurs peuvent demander qu'une lettre non minuscule suive ces signes de ponctuation avant la division du texte d'entrée en séquences (par exemple pour des langues européennes). Dans les deux cas, la segmentation d'une liste, comme celle 16 30 de la figure 1, diviserait la liste en plusieurs phrases. L'analyseur n'aurait donc pas l'occasion de capturer les relations syntaxiques entre les éléments de cette liste.
Pour résoudre ce problème, l'analyseur exemplaire 70 emploie des règles de division qui appliquent un ensemble différent de conditions pour la division en phrases. Au cas où un signe de ponctuation forte serait trouvé, une division en phrases n'est pas générée lorsque le signe de ponctuation forte est le premier caractère imprimable de la ligne. Une division en phrases n'est pas générée non plus lorsque le signe de ponctuation forte est immédiatement précédé d'une étiquette (généralement un chiffre romain ou arabe, ou une lettre en minuscules ou en majuscules) et que cette étiquette est le seul signe apparaissant entre le début de la ligne actuelle et le signe de ponctuation forte considéré (voir, par exemple, la ligne 24, qui commence par : 1. Autoriser Co CD...). De plus, pour une division, le signe de ponctuation forte doit être suivi d'un caractère de nouvelle ligne (comme un signe de paragraphe ou une interruption manuelle de ligne) ou d'un caractère non minuscule (comme un caractère majuscule ou un chiffre). Ces conditions assurent une segmentation en phrases meilleure que la segmentation en phrases normalisée, fondée sur une évaluation d'un corpus étudié, bien qu'elle ne procure pas toujours une segmentation correcte, par exemple sur des listes dans lesquelles les articles de liste contiennent des phrases normalisées séparées par des signes de points.
Une fois que toutes les listes ont été extraites, le reste du texte (texte non structuré) peut éventuellement être retraité avec des techniques normalisées de segmentation en phrases.
Identification de caractéristiques de mise en pape (S108) Une fois qu'une phrase 12 a été produite par la segmentation du texte d'entrée, certains de ses signes se voient attribuer des caractéristiques de mise en page. Cette étape est effectuée sans savoir s'il est probable que la phrase contienne une liste. Par exemple, le premier signe d'une ligne et éventuellement le dernier signe d'une ligne peuvent chacun se voir attribuer une caractéristique de mise en page : Imargin (marge gauche) et rmargin (marge droite), respectivement, qui est une mesure d'un retrait horizontal (c'est-à-dire parallèle aux lignes de texte) par rapport à la marge respective. La valeur de la caractéristique Imargin peut être calculée en fonction de la distance entre le commencement d'une ligne et le commencement du premier symbole/signe imprimable de cette ligne, par exemple en termes de nombre d'espaces de caractères ou de largeur du retrait. Ces informations sont facilement obtenues à partir du document.
La valeur de la caractéristique rmargin peut être la différence entre une longueur de ligne normalisée et le décalage à droite du signe de droite, en termes de nombre d'espaces de caractères. La longueur de ligne normalisée peut être une valeur préétablie, comme 70 caractères (qui inclut n'importe quel retrait de marge gauche). Ou bien elle peut être calculée en se fondant sur une analyse du texte pour obtenir la ligne la plus longue. Ce procédé est particulièrement utile lorsque le texte est justifié à droite. Pour d'autres modes de réalisation, rmargin peut être le retrait, en nombre d'espaces de caractères, s'il existe, à partir de la ligne précédente. Pour un certain mode de réalisation, la caractéristique de marge droite peut être une valeur binaire, qui est fonction du fait que la ligne s'étende jusqu'à la marge droite ou non.
D'autres caractéristiques de mise en page sont également considérées, comme l'espace vertical entre les lignes. Par exemple, celles-ci peuvent être exprimées en termes d'une quelconque variation par rapport à une largeur de ligne normalisée. Pour certains modes de réalisation, seule la caractéristique Imargin est employée en tant que caractéristique de mise en page.
Ainsi, par exemple sur la figure 1, la ligne 22 comporte un premier signe qui est un 20 tiret. La longueur 34 de l'espace vide entre ce caractère et la marge gauche 37 (qui, dans ce cas, correspond au commencement du premier caractère "a" sur la ligne précédente) est déterminée comme étant une première caractéristique de mise en page ayant une valeur Imargin de 6 et la largeur correspondante 35 après le dernier caractère ":" jusqu'à la longueur de ligne normalisée peut se voir attribuer une valeur rmargin de 5. 25 Pour le mode de réalisation exemplaire, toutes les lignes des phrases s'étendant sur au moins trois lignes ou davantage se voient attribuer des caractéristiques de mise en page (trois étant le nombre minimum de lignes pouvant constituer une liste ayant une présentation de liste et un minimum de deux articles de liste). Ainsi, par exemple, à la 30 ligne 39 peut être attribuée une valeur de caractéristique Imargin de 3 (espaces de caractères).
La phrase entière peut être graphiquement représentée sous la forme d'un arbre, comme le montre la figure 4, qui est affiné pendant l'ensemble du procédé pour produire 35 l'arbre de la figure 5. Dans cet arbre, les informations sont associées à un ensemble de noeuds et les mots de la phrase forment les feuilles de l'arbre, qui sont connectées par des passages par les noeuds. La structure arborescente applique des contraintes15 normalisées, comme de demander qu'aucune feuille ou noeud n'ait plus d'un noeud parent et que tous les noeuds soient finalement connectés à un unique noeud racine correspondant à la phrase toute entière.
Annoter des étiquettes potentielles (initiateurs) d'articles de listes (S110)
Ceci peut être accompli avant l'application des règles normales de découpage en tranches de la grammaire normalisée. À cette étape, une étiquette candidate d'un article de liste est annotée avec un noeud ne comprenant que des caractéristiques non- linguistiques.
Tout d'abord, des caractéristiques spécifiques sont attribuées à tous les signes pouvant étiqueter des articles de liste, c'est-à-dire présents parmi un ensemble prédéfini de signes d'articles de liste candidats et situés au début d'une nouvelle ligne (à l'exception de la première ligne 76 d'un document, puisqu'elle ne peut pas servir d'article de liste, seulement de présentateur de liste). En particulier, les signes de ponctuation pouvant être des étiquettes d'article de liste peuvent se voir attribuer une caractéristique spécifique non-linguistique (pmark) avec une valeur indiquant l'identité du signe (par exemple, pmark = tiret pour le symbole du tiret). Les lettres, initiales, nombres et chiffres romains peuvent également présenter des articles de liste et sont donc des étiquettes d'articles de liste candidats. Ceux-ci se voient chacun attribuer une caractéristique de type d'étiquette (labtype) et une caractéristique de casse d'étiquette (Iabcase), si elles sont appropriées. Par exemple, le signe "2" à la ligne 24 sur la figure 1 se voit attribuer [labtype = num] pour signifier qu'il s'agit d'une étiquette du type "nombre". De même, un signe "iv" aurait les caractéristiques d'étiquette [labtype = rom, labcase = low] pour signifier qu'il s'agit d'un chiffre romain en minuscules. La figure 6 dresse une liste d'autres définitions lexicales exemplaires d'étiquettes. Sur la figure 6, les caractères // précèdent des informations pour l'utilisateur et ne font pas partie des caractéristiques de l'analyseur. L'étiquette "nom" est donnée à toute lettre seule (autre que les lettres reconnues comme étant des chiffres romains, comme "i", "v" et "x") car elle est l'étiquette par défaut pour tous les mots. "Strongbreak" est une valeur de caractéristique qui peut être attribuée à toutes les ponctuations indiquant une interruption forte, bien qu'il ne soit pas nécessaire de faire ainsi, puisque tous les signes de ponctuation acceptés pour la caractéristique pmark sont énumérés parmi les règles.
Donc, par exemple parmi les règles présentées sur la figure 6, des étiquettes sont données à la lettre "a" et au nombre "12" s'ils commencent une nouvelle ligne, mais pas au nombre "120" et aux deux (ou plus de) lettres "an" dans la séquence. Comme on l'appréciera, les règles illustrées sur la figure 6 peuvent être spécifiques à la langue, au domaine ou même au document et peuvent être adaptées aux types de listes typiquement rencontrés.
Ensuite, pour chaque étiquette d'article de liste potentiel, un noeud 80 est créé (voir, par exemple, la figure 4) avec une catégorie égale à PUNCT et avec la caractéristique spécifique istart = +, indiquant qu'il s'agit d'un commencement d'article de liste potentiel. La création du noeud PUNCT[istart] peut être effectuée immédiatement après la segmentation en phrases et avant la désambiguïsation POS et le découpage en tranches de la grammaire normalisée de l'analyseur, avec les règles suivantes : 1. créer un noeud PUNCT[istart] au sommet de toute séquence commençant une nouvelle ligne et contenant un signe quelconque parmi : a) un premier signe avec une caractéristique labtype qui n'est pas l'initiale d'un 15 nom et un second signe avec un caractéristique pmark ; b) un premier signe avec une caractéristique labtype qui est aussi l'initiale d'un nom (par exemple "A"), à la condition qu'il ne soit pas suivi d'un nom propre ; et c) un premier signe avec une caractéristique pmark. 2. créer un noeud PUNCT[istart] vide (factice) à gauche de tout mot ou nombre 20 commençant une nouvelle ligne, si un signe de ponctuation se trouve à la fin de la ligne précédente et si elle a une marge gauche non-nulle.
La règle 2 sert à traiter les cas où les articles de listes commencent sans ponctuation ni étiquettes. En anglais, langue dans laquelle les articles de liste utilisent 25 souvent le mot "and" à la fin d'un avant dernier article de liste, la règle 2 peut être modifiée pour accepter un signe de ponctuation d'une ligne précédente, qui est immédiatement suivi et uniquement par "and", comme : "; and" ou ", and".
30 Pour les règles mentionnées plus haut, un signe avec une caractéristique labtype qui n'est pas l'initiale d'un nom peut être, par exemple, une lettre minuscule, un chiffre romain en minuscules ou un nombre, mais pas une lettre unique en majuscules, ni un chiffre romain unique en majuscules. Un nom propre est un nom qui est reconnu comme étant le nom d'une entité spécifique et qui commence avec une lettre majuscule, comme 35 "Smith". Ainsi, par exemple, une séquence sur une nouvelle ligne commençant par "V. Smith..." ne se voit pas donner un noeud PUNCT[istart] (la règle 1 c) vue plus haut ne s'applique pas puisque le signe de ponctuation "." n'est pas le premier signe). Les signes "a.", "iiv.", "and" et "12.", par exemple, se trouvant au début d'une séquence d'une nouvelle ligne, se voient tous donner des noeuds PUNCT[istart].
Le nouveau noeud PUNCT[istart] peut avoir certaines ou la totalité des caractéristiques suivantes : 1. tcase (casse typographique) - il s'agit de la casse du premier mot de l'article de liste candidat et les valeurs possibles sont "up" (majuscule) ou "low" (minuscule) ; 2. pmark (signe de ponctuation) - si un symbole de ponctuation commence (ou finit) l'article de liste candidat. La valeur de cette caractéristique peut avoir la forme du symbole de ponctuation (tiret, astérisque, point, puce, etc.) ; 3. Imargin (marge gauche) - la longueur en caractères de l'espace horizontal précédant le premier signe de l'article de liste candidat ou une autre mesure d'espace vide , 4. labtype (type d'étiquette alphanumérique) - il s'agit du type de l'étiquette alphanumérique, si elle existe, avec laquelle l'article de liste candidat est étiqueté. Les valeurs possibles peuvent être "num" (nombre entier petit), "letter" (lettre) ou "rom" (chiffre romain) ; et 5. labcase (casse de l'étiquette alphanumérique) - la casse typographique de l'étiquette lorsque le type d'étiquette est une lettre ou un chiffre romain.
Ces caractéristiques sont seulement exemplaires et d'autres ensembles de caractéristiques peuvent être employés, comme un ensemble de deux, trois, quatre, cinq, six ou plus de ces caractéristiques non-linguistiques. Des règles peuvent être appliquées qui demandent que les valeurs d'étiquettes alphanumériques augmentent séquentiellement dans un ensemble d'articles de liste, bien que cela ne soit pas indispensable.
Le noeud PUNCT[istart] peut être une annotation sur le texte du document, par exemple précédant immédiatement le premier caractère d'une ligne.
Un noeud PUNCT[istart] 80 n'est qu'une indication du début possible d'un article de liste. Ces noeuds préparent la reconnaissance d'articles de liste et peuvent empêcher, dans certains cas, que les règles de découpage ou les règles d'entités nommées de la grammaire normalisée 70 ne constituent des tranches incluant des étiquettes d'articles de liste et/ou s'étendant sur deux articles de liste successifs.
Des exemples de noeuds PUNCT[istart] 80 vont maintenant être donnés pour la liste de la figure 1 : - un noeud PUNCT[istart.pmark=hyph,tcase=UP,lmargin=6] est créé pout chaque tiret commençant un article de liste candidat 16, 18, 20 dans la liste principale ; - un noeud PUNCT[istart.labtype=num,pmark=period,tcase=UP,Imargin=6] est créé pout chaque étiquette (ou initiateur) d'article de liste d'articles de liste candidats 24, 26, 28 de la liste imbriquée (sous-liste) ; - un noeud PUNCT[istart.pmark=NULL,tcase=UP,lmargin=6] (pmark=NULL indique l'absence de tout signe de ponctuation) est créé pout l'article de liste candidat 21 (puisque la ligne précédente (non représentée) finit avec un signe de ponctuation). La séquence 39 : "trois journaux de leur choix ;" ("three newspapers of their choice;") ne reçoit pas de noeud PUNCT[istart] 80 parce que le premier signe trois ("three") ne satisfait à aucune des règles 1 et 2 vues plus haut.
Pour une liste dans laquelle les articles commencent par des étiquettes, le noeud PUNCT[istart] aura les caractéristiques appropriées, par exemple : PUNCT[istart.pmark=slash,tcase=UP,Imargin=0,labtype=letter,labcase=LOW] indique des étiquettes alphabétiques en lettres minuscules avec un retrait de 0, ayant un signe "slash" (barre oblique), pour des articles de liste commençant en majuscules.
La figure 7 montre des règles d'analyseur exemplaires pouvant être utilisées pour créer des noeuds PUNCT[istart]. Parmi les règles représentées sur la figure 7, la caractéristique cr indique le premier signe après une nouvelle ligne. Le symbole @ indique la plus longue coïncidence satisfaisant à la règle. Par exemple, deux signes de ponctuation peuvent être acceptés, comme "-:" (tiret suivi de deux points). Cependant, pour les règles exemplaires données de la figure 1 (lignes 30, 33 et 36), un seul signe coïncide immédiatement, car les parties droites des règles ne sont pas ambigües en longueur, de sorte qu'une seule ponctuation est acceptée. Le symbole - signifie non-égal à. À l'étape de remaniement, des noeuds peuvent être créés ou éliminés. Des noeuds factices peuvent être constitués. Pour l'exemple mentionné plus haut, ceux-ci sont constitués uniquement lorsqu'il existe une caractéristique de mise en page : dans ce cas, une marge gauche qui n'est pas égale au retrait de ligne normalisé de 0.
Les règles du noeud factice PUNCT[istart] sont exemplifiées comme suit : ligne de règle 43 : créer un noeud factice PUNCT[istart=+,...] entre n'importe quelle ponctuation immédiatement suivie d'un signe venant après une nouvelle ligne (cr:+), commençant avec une lettre majuscule (maj) et comportant un retrait (Imargin:-0). Le noeud factice PUNCT[istart=+,...] créé obtient la caractéristique tcase=up. La ligne de règle 44 fait de même si le signe après une nouvelle ligne est un chiffre (num). La ligne de règle 45 fait de même si le signe après une nouvelle ligne commence par une lettre minuscule (maj:-). Ici le noeud factice PUNCT[istart=+,...] créé obtient la caractéristique tcase=low. À la fin de cette étape, certaines des caractéristiques de mise en page, de ponctuation et d'autres caractéristiques non-linguistiques ont été associées à des noeuds PUNCT[istart] 80 et certaines lignes de texte peuvent ne pas avoir de noeud PUNCT[istart] 80, parce que leurs caractéristiques ne satisfont pas aux règles pour un noeud PUNCT[istart] (par exemple, sur la figure 1, les lignes 39 et 78 sont les seules lignes auxquelles un noeud PUNCT[istart] n'a pas été donné.
Constituer les noeuds d'articles de liste (LI) (S114) Les noeuds d'articles de liste LI 84 peuvent être constitués à S114, après que la phase de découpage normale de la grammaire normalisée ait créé des séquences de noeuds linguistiques (S112), comme la séquence de noeud 86 qui inclut des noeuds linguistiques 88 désignés par IV, NP, PP et PUNCT, représentés sur la figure 4. Pour le mode de réalisation exemplaire, les noeuds LI 84 sont constitués uniquement au sommet des séquences de noeuds commençant par un noeud PUNCT[istart] 80 (constitué à si 10) et étant soumises à une ou plusieurs contraintes, qui peuvent être au moins partiellement dépendantes de la langue, comme les contraintes suivantes : 1. la séquence de noeuds 86 ne contient pas directement un autre noeud PUNCT[istart] (c'est-à-dire que le procédé trouve d'abord la liste la plus imbriquée) ; 2. si le noeud PUNCT[istart] 80 de la séquence de noeuds comporte [pmark=NULL] (aucun signe de ponctuation) et aucune caractéristique labtype (aucune étiquette alphabétique, numérique, ni en chiffres romains), alors la séquence est précédée d'un signe de ponctuation (c'est-à-dire provenant de la présentation de liste 14) ; et 3. la séquence de noeuds 86 est suivie d'un autre PUNCT[istart] 80' ayant les mêmes caractéristiques, dans ce cas les mêmes caractéristiques (pmark, tcase, Imargin, labtype, labcase) que le PUNCT[istart] 80 de la séquence de noeuds considérée, ou est précédée d'un noeud LI ayant les mêmes caractéristiques (cela fait en sorte que chaque liste ait au moins deux articles de listes).
Les contraintes peuvent dépendre au moins partiellement de la langue.
Un noeud LI 84 hérite, à partir de son noeud PUNCT[istart] 80 de départ, de toutes les caractéristiques (pmark, tcase, Imargin, labtype, labcase).
Un noeud LI 84 se voit également attribuer une caractéristique linguistique functype (type de fonction). La valeur de la caractéristique linguistique est la fonction syntaxique que l'élément linguistique principal d'un LI 84 peut avoir suivant l'élément actif de la présentation de liste candidate 14. L'élément linguistique principal d'un LI peut être, par exemple, une expression nominale (NP), un verbe (VB), une expression prépositionnelle (PP) ou autre. L'analyseur exemplaire 70 inclut des règles pour identifier l'élément linguistique principal, sa fonction syntaxique peut être sélectionnée parmi un ensemble prédéfini de fonctions syntaxiques, comme sujet, complément d'objet direct, complément d'objet indirect, modificateur de verbe, objet de préposition, etc. Ainsi la valeur de la fonction caractéristique est également tirée d'un ensemble fini de fonctions syntaxiques correspondant à des valeurs, qui peuvent être en relation avec ces fonctions syntaxiques, mais limitées en outre à celles pouvant être en relation syntaxique avec l'élément actif de la présentation de liste candidate.
Cette étape peut impliquer : 1. d'identifier une séquence d'une présentation de liste candidate 14 (il s'agit de la séquence de noeuds précédant immédiatement l'article de liste candidat LI 16 considéré et qui est au même niveau de l'arbre de découpage, par exemple dans l'arborescence de la figure 4, il s'agit de la séquence de trois noeuds SC, NP, PUNCT (et leur contenu) qui précède la séquence des noeuds LI (candidats)) ; 2. d'identifier le(s) élément(s) actif(s) de la présentation de liste candidate (MEIN) utilisant des règles d'analyseur ; 3. d'identifier les fonctions syntaxiques possibles que la MEIN peut avoir parmi un ensemble prédéfini de fonctions syntaxiques ; 4. d'identifier l'ensemble d'une ou plusieurs relations syntaxiques possibles auxquelles les fonctions syntaxiques possibles de la MAIN identifiée peuvent participer ; 5. d'identifier l'élément principal de l'article de liste candidat (MELI) utilisant des règles d'analyseur ; 6. d'identifier le(s) fonction(s) syntaxique(s) possible(s) du MELI à partir d'un ensemble prédéfini de fonctions syntaxiques ; 7. d'identifier les fonctions syntaxiques possibles du MELI pouvant se trouver dans une des relations syntaxiques possibles avec la MEIN ; et 8. d'associer ce(s) fonction(s) syntaxique(s) du MELI à l'article de liste.
Pour le mode de réalisation exemplaire, l'élément actif d'une présentation de liste candidate (qui est identifiée par les règles d'analyseur 70) est souvent la "tête" d'un élément linguistique et, lorsqu'il est trouvé, il peut être un verbe fini (pouvant être en relation avec un modificateur de verbe, par exemple). Si aucun verbe fini n'est trouvé dans la présentation de liste candidate, l'élément actif peut être une expression nominale ou une expression prépositionnelle. Par exemple, sur la figure 1, l'article de liste 18 a le même ensemble de caractéristiques que l'article de liste 16. Après avoir trouvé deux candidats avec les mêmes caractéristiques non-linguistiques, un présentateur de liste candidat est trouvé dans le texte 14 précédant immédiatement le premier candidat 16.
Cela inclut la séquence : "plaintiff CD Co. requests the Tribunal to ." (le plaignant Co. CD demande au tribunal de :). L'élément actif est l'expression verbale "requests", qui peut avoir une fonction linguistique d'un verbe fini. Cette fonction linguistique particulière peut être en relation syntaxique avec un élément principal du LI ayant une fonction linguistique telle que : un modificateur de verbe, un complément d'objet direct, un objet de préposition, un complément d'objet indirect, etc. L'ensemble réel de fonctions syntaxiques possibles dépend de l'ensemble prédéfini de fonctions syntaxiques de l'analyseur utilisé. L'élément principal des articles de liste 16, 18 est un verbe pouvant servir de modificateur de verbe (spécifiquement, un complément à l'infinitif dans ce cas). Puisqu'un modificateur de verbe est une fonction linguistique acceptable dans ce cas, cette fonction linguistique peut donc être associée à un LI en tant que caractéristique functype. Tandis que les caractéristiques functype exemplaires sont des classes générales de fonctions linguistiques, comme objet direct, modificateur de verbe, etc., des types de caractéristiques plus restrictives sont considérés. Par exemple, étant donné la liste : Bob likes the following fruits: Bob aime les fruits suivants : apples, les pommes, pears, and les poires, et oranges. les oranges.
Pour cet exemple, les règles de liste d'analyseur 72 peuvent être configurées pour identifier la classe sémantique fruits, plutôt que simplement direct object (objet direct), et pour associer l'élément actif d'une présentation de liste candidate à cette classe, en requérant ainsi que la caractéristique functype du LI soit, par exemple : object class fruit (la classe d'objet fruit).
Après que ces règles de découpage de LI aient été appliquées par l'analyseur, l'arborescence de découpage en phrases contient à la fois des noeuds de découpage linguistique (NP, PP, SC, etc.) et les noeuds de LI. À titre d'exemple, étant donnée la phrase simplifiée suivante : The Tribunal ordered ABC Company : Le tribunal a ordonné que la société ABC to pay 1,000,000 Euros to CD Company; and paye 1 000 000 d'euros à la société CD, et to publish the judgement. publie le jugement.
celle-ci est agencée dans la structure arborescente syntaxique illustrée sur la figure 4. Comme on peut le voir, il existe deux noeuds LI 84, chacun comportant un noeud PUNCT[istart] 80 et au moins un autre noeud linguistique 88, en tant que noeuds engendrés dans l'arborescence. Comme on l'appréciera, les noeuds linguistiques 88 peuvent également comporter des noeuds engendrés 89. Des données, dans ce cas, des mots, des nombres et d'autres signes sont associés à des noeuds linguistiques respectifs (uniquement les noeuds linguistiques les plus terminaux de l'arborescence).
Constituer les modificateurs de LI (S116)
Les noeuds modificateurs de LI (LIMOD) sont constitués avec des règles de découpage qui s'adaptent à toute séquence de noeuds entre deux noeuds LI candidats, à la condition que la séquence ne soit pas une proposition principale de verbe fini. Cela inclut les séquences de noeuds NP, PP, AP, ADV et PUNCT. Par exemple, "in consequence :" (en conséquence) aura la séquence de noeuds : PUNCT[istart], PP, PUNCT, qui est entourée par des noeuds LI, et l'élément principal de cette séquence de noeuds est le PP "in consequence", qui n'est pas une proposition de verbe fini.
Constituer les noeuds de listes (LIST) (S118)
À S118, une liste est constituée qui inclut deux ou davantage d'articles de liste candidats (considérés maintenant comme des articles de liste), chaque article de liste comportant un ensemble de caractéristiques qui est compatible avec l'ensemble de caractéristiques de chacun des autres articles de liste. En particulier, les noeuds LIST 90 (figure 5) peuvent être constitués au sommet de séquences de deux ou davantage de noeuds LI (y compris tous les modificateurs de LI identifiés) ayant les mêmes caractéristiques linguistiques et non-linguistiques (ou des caractéristiques compatibles) : pmark, tcase, Imargin, labtype, labcase et functype. En termes d'analyseur, cette contrainte peut être exprimée comme l'unification de caractéristiques libres, qui sont indiquées par le signe "!" dans l'exemple de règle de la figure 8.
Le procédé peut inclure la comparaison de l'ensemble de caractéristiques de deux articles de liste candidats pour déterminer s'ils sont compatibles (les mêmes ou satisfaisant au moins à un seuil de similarité). Pour certains modes de réalisation, pour être considérée compatible une coïncidence exacte entre les ensembles de caractéristiques peut être requise, c'est-à-dire que leurs valeurs soient identiques pour les deux articles de liste candidats à considérer comme étant des articles de liste de la même liste. Par exemple, chacune des caractéristiques a la même valeur pour un article de liste que pour un autre article de liste. Pour d'autres modes de réalisation, la contrainte sur les caractéristiques de LI compatibles peut être affaiblie en choisissant un sous-ensemble des caractéristiques de LI sur lequel la contrainte s'applique. Par exemple, dans le cas de document scannés, la marge gauche peut ne pas être toujours déterminée précisément par le moteur d'OCR et une caractéristique Imargin peut donc autoriser une certaine variation, comme 6 ± 1 ou 6 ± 2 (espaces de caractères). Pour certains modes de réalisation, une quantité minimale (nombre ou proportion) de caractéristiques non- linguistiques est requise pour que les caractéristiques de LI soient considérées comme étant compatibles. Le seuil de compatibilité peut dépendre, par exemple, des conventions d'écriture de la collection de documents à analyser et de l'importance relative de la précision et de la reproductibilité pour une application donnée. En général, pour que deux articles de liste soient compatibles, la (les) valeur(s) de la caractéristique functype doivent être les mêmes. Par exemple, si le présentateur de liste requiert un objet direct, les deux articles de liste comportent un objet direct parmi leurs caractéristiques functype et les deux ont un élément pouvant servir d'objet direct.
La figure 5 montre la structure linguistique unifiée et d'arborescence de liste 92 pouvant être obtenue pour la phrase d'exemple simplifiée décrite plus haut, dans laquelle le noeud de nouvelle liste 90 est ajouté au sommet d'un ensemble de noeuds d'articles de listes compatibles 84.
Extraction de relations syntaxiques dans des structures de listes (S122) Des relations syntaxiques entre des éléments de la (des) liste(s) 12 peuvent maintenant être extraites en utilisant des règles de dépendance d'analyseur et les contraintes sur la structure de liste 92, constituées aux étapes précédentes. Considérons, par exemple, les relations de sujet pouvant exister entre une entité dans une présentation de liste 14 et chacun de ses articles de liste 16, 18, 20. Par exemple, l'expression nominale "The Tribunat (le tribunal) dans la présentation de liste 14 de la figure 1 est le sujet des verbes infinitifs (order, authorize, order) (ordonner, autoriser, ordonner) des têtes principales de chaque article de liste 16, 18, 20 de la liste 12. La règle de dépendance exemplaire suivante extrait toutes les relations de sujet requises : 1SC{ FV{?*, #1 [fast, infctrl:obj]}}, NP{ ?*, #2[last]}, ?*[list:-], LIST{ (punct), LI*, LI {punct, IV{ ?*, #3[last]}}} COMP (#1, #3), SUBJ (#3, #2).
Cette règle stipule que : - la présentation de liste est une proposition ayant un verbe fini principal avec la caractéristique "infctrl:obj" ("infinite control = object") (commande infini = objet), ce qui signifie que le verbe accepte un objet direct et un complément à l'infinitif et que l'élément qui "commande" l'infinitif (c'est-à-dire son "sujet") est l'objet du verbe principal (des exemples de tels verbes sont "ordonner", "requérir", "demander", etc., par exemple dans : "John orders Paul to work" (John ordonne à Paul de travailler), "ordonne" a un objet ("Paul") et un complément infinitif ("de travailler") et le sujet de l'infinitif "travailler" est l'objet de "ordonne", c'est-à-dire "Paul") ; - le verbe fini principal est suivi d'un NP dont la tête se voit attribuer la variable #2 (en conséquence #2 est l'objet direct du verbe fini principal) ; et - la présentation de liste est suivie d'une séquence de LI et chacun d'eux commence avec un verbe infinitif (IV) dont la tête se voit attribuer la variable #3 ; then (alors) extrait une relation de dépendance COMP (complément) entre le verbe principal #1 et les verbes à l'infinitif #3 de chaque LI et une relation SUBJ (sujet) entre le verbe à l'infinitif #3 de chaque LI et l'objet #2 du verbe principal.
Comme on l'appréciera, ces règles ne s'appliqueraient pas à des phrases sans structures de liste. Ainsi, elles n'interfèrent pas avec les règles de la grammaire normalisée et ne changent pas la sortie de l'analyseur sur des phrases normales. Ainsi, par exemple, les relations de sujets suivantes sont extraites avec cette règle à partir de la structure arborescente 92 de la figure 5 : COMP (ordered, pay) COMP (ordonner, payer) SUBJ (pay, EB Inc.) SUBJ (payer, EB Inc.) et COMP (ordered, publish) COMP (ordonner, publier) SUBJ (publish, EB Inc.) SUBJ (publier, EB Inc.) La phrase 12 peut être étiquetée avec ces relations et/ou des informations extraites de celles-ci peuvent être produites en sortie.
Le procédé exemplaire présente plusieurs avantages par rapport aux procédés existants pour traiter du texte tendant à inclure des listes. Parmi ceux-ci les avantages suivants : 1. puisque les structures de listes sont (au moins partiellement) déterminées par une structure linguistique, et vice versa, reconnaître les deux types de structure au cours du même processus d'analyse autorise la co-spécification de propriétés déterminant la constitution de ces structures ; 2. un seul outil (à savoir l'analyseur NLP 70 incorporant les règles de listes 72) est nécessaire pour extraire des relations de dépendance entre des éléments de listes et aucun balisage, ni autre sorte de prétraitement automatique ou semi-automatique de listes dans le texte d'entrée n'est nécessaire ; 3. la sous-grammaire 72 dédiée aux listes peut être développée et maintenue sans modifier le coeur normalisé de la grammaire 70 de l'analyseur, lorsqu'elle est mise en oeuvre dans un analyseur séquentiel incrémentiel.

Claims (10)

  1. REVENDICATIONS1. Procédé pour extraire des informations de textes, le procédé comprenant les étapes consistant à : - prévoir des règles d'analyse adaptées au traitement de listes dans des textes, chaque liste comprenant une pluralité d'articles de liste liés à un présentateur de liste commun, et un processeur informatique pour mettre en oeuvre les règles d'analyse ; - recevoir un texte à partir duquel des informations doivent être extraites, le texte comprenant des lignes de texte ; - segmenter le texte en phrases ; - pour une des phrases, prévoir, avec les règles d'analyse : - d'identifier un ensemble d'articles de liste candidats dans la phrase, chaque article de liste candidat se voyant attribuer un ensemble de caractéristiques, les caractéristiques comprenant une caractéristique non-linguistique et une caractéristique linguistique, la caractéristique linguistique définissant une fonction syntaxique d'un élément de l'article de liste candidat susceptible d'être en relation de dépendance avec un élément d'un présentateur de liste candidat identifié dans la phrase ; et - de générer une liste incluant une pluralité d'articles de liste, ce qui consiste à : - identifier des articles de liste à partir des articles de liste candidats ayant des ensembles de caractéristiques compatibles ; et - lier les articles de liste à un présentateur de liste commun ; - extraire les relations de dépendance entre un élément du présentateur de liste et un élément respectif de chaque article de la pluralité d'articles de liste de la liste ; et - délivrer en sortie des informations fondées sur les relations de dépendance extraites.
  2. 2. Procédé selon la revendication 1, pour lequel les caractéristiques non-linguistiques comprennent au moins une caractéristique associée à une ligne de texte de l'article de liste candidat.
  3. 3. Procédé selon la revendication 1, pour lequel les caractéristiques non-linguistiques comprennent au moins une caractéristique parmi une caractéristique de mise en page, une caractéristique de ponctuation et une caractéristique d'étiquette.
  4. 4. Procédé selon la revendication 1, pour lequel l'identification de l'ensemble d'articles de liste candidats comprend l'attribution de caractéristiques non-linguistiques à chaque35ligne d'un ensemble de lignes de texte de la phrase, les caractéristiques non-linguistiques étant sélectionnées à partir d'un ensemble prédéfini de types de caractéristiques.
  5. 5. Procédé selon la revendication 4, pour lequel l'ensemble prédéfini de types de caractéristiques est sélectionné à partir du groupe constitué par : - une caractéristique de marge gauche fondée sur la longueur de l'espace horizontal précédant le premier signe de l'article de liste candidat ; - une caractéristique de casse typographique fondée sur la casse typographique du premier mot de l'article de liste candidat ; - une caractéristique de signe de ponctuation qui est attribuée lorsqu'un symbole de ponctuation commence l'article de liste candidat ; et - une caractéristique de type d'étiquette alphanumérique fondée sur le type d'étiquette alphanumérique, s'il existe, avec lequel l'article de liste candidat est étiqueté et, éventuellement, une caractéristique de casse d'étiquette fondée sur la casse typographique de l'étiquette lorsqu'un type d'étiquette comporte plus d'une casse.
  6. 6. Procédé selon la revendication 4, pour lequel le procédé comprend l'étape de création d'un noeud au sommet de toute séquence commençant une nouvelle ligne qui satisfasse à un ensemble de contraintes prenant en compte ses caractéristiques attribuées, les articles de liste candidats étant chacun fondés sur les caractéristiques d'un noeud respectif.
  7. 7. Procédé selon la revendication 5, pour lequel les contraintes créent un noeud pour une séquence avec n'importe quel signe parmi : a) un premier signe auquel a été attribué une caractéristique de type étiquette alphanumérique qui n'est pas l'initiale d'un nom et un second signe auquel a été attribué une caractéristique de signe de ponctuation ; b) un premier signe auquel a été attribué une caractéristique de type étiquette qui est également l'initiale d'un nom à la condition qu'il ne soit pas suivi d'un nom propre ; et c) un premier signe auquel a été attribué une caractéristique de signe de ponctuation.
  8. 8. Procédé selon la revendication 1, comprenant en outre l'étape consistant à pourvoir à l'identification d'un modificateur d'article de liste, chaque modificateur d'article de liste répondant à l'interruption temporaire dans une liste entre un premier article des articles de liste et un second article des articles de liste.
  9. 9. Procédé selon la revendication 1, pour lequel l'identification des articles de liste candidats comprend, pour chaque ligne d'une pluralité de lignes de texte dans la phrase, les étapes consistant à : - attribuer des caractéristiques de mise en page aux lignes de texte ; - identifier des étiquettes potentielles d'article de liste et les annoter avec des noeuds de ponctuation, chacun des noeuds de ponctuation ne comprenant que des caractéristiques non-linguistiques ; - propager les caractéristiques des noeuds de ponctuation aux noeuds d'articles de liste respectifs ; et - associer une caractéristique linguistique à chaque noeud d'article de liste.
  10. 10. Système pour traiter du texte, comprenant : - un analyseur syntaxique mettant en jeu des règles adaptées au traitement de listes de texte, chaque liste incluant un présentateur de liste et une pluralité d'articles de liste, les règles de l'analyseur comprenant des règles pour : - sans connaissance préalable du fait que le texte inclue une liste, identifier une pluralité d'articles de liste candidats dans une phrase, chaque article de liste candidat se voyant attribuer un ensemble de caractéristiques, ces caractéristiques comprenant une caractéristique non-linguistique et une caractéristique linguistique, la caractéristique linguistique définissant une relation de dépendance entre un élément d'un article de liste candidat respectif et un élément d'un présentateur de liste candidat dans la phrase ; - générer une liste à partir d'une pluralité d'articles de liste avec des ensembles de caractéristiques compatibles ; et - extraire une relation de dépendance entre un élément du présentateur de liste et un élément respectif d'un article de liste de la liste ; et - un processeur mettant en oeuvre l'analyseur.
FR1254195A 2011-05-09 2012-05-09 Analyse de texte utilisant des proprietes de listes linguistiques et non-linguistiques Pending FR2975201A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/103,263 US20120290288A1 (en) 2011-05-09 2011-05-09 Parsing of text using linguistic and non-linguistic list properties

Publications (1)

Publication Number Publication Date
FR2975201A1 true FR2975201A1 (fr) 2012-11-16

Family

ID=47076519

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1254195A Pending FR2975201A1 (fr) 2011-05-09 2012-05-09 Analyse de texte utilisant des proprietes de listes linguistiques et non-linguistiques

Country Status (2)

Country Link
US (1) US20120290288A1 (fr)
FR (1) FR2975201A1 (fr)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10025774B2 (en) * 2011-05-27 2018-07-17 The Board Of Trustees Of The Leland Stanford Junior University Method and system for extraction and normalization of relationships via ontology induction
US10347359B2 (en) 2011-06-16 2019-07-09 The Board Of Trustees Of The Leland Stanford Junior University Method and system for network modeling to enlarge the search space of candidate genes for diseases
US20130093774A1 (en) * 2011-10-13 2013-04-18 Bharath Sridhar Cloud-based animation tool
US9934218B2 (en) * 2011-12-05 2018-04-03 Infosys Limited Systems and methods for extracting attributes from text content
US8744838B2 (en) 2012-01-31 2014-06-03 Xerox Corporation System and method for contextualizing device operating procedures
US8731905B1 (en) * 2012-02-22 2014-05-20 Quillsoft Ltd. System and method for enhancing comprehension and readability of text
US8798996B2 (en) * 2012-03-05 2014-08-05 Coupons.Com Incorporated Splitting term lists recognized from speech
US10650089B1 (en) * 2012-10-25 2020-05-12 Walker Reading Technologies Sentence parsing correction system
GB2523028A (en) * 2012-10-25 2015-08-12 Walker Reading Technologies Inc Sentence parsing correction system
KR102013230B1 (ko) * 2012-10-31 2019-08-23 십일번가 주식회사 구문 전처리 기반의 구문 분석 장치 및 그 방법
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9658999B2 (en) * 2013-03-01 2017-05-23 Sony Corporation Language processing method and electronic device
US9792276B2 (en) 2013-12-13 2017-10-17 International Business Machines Corporation Content availability for natural language processing tasks
US9467583B2 (en) 2014-04-24 2016-10-11 Xerox Corporation System and method for semi-automatic generation of operating procedures from recorded troubleshooting sessions
US9858261B2 (en) * 2014-06-23 2018-01-02 International Business Machines Corporation Relation extraction using manifold models
US9460071B2 (en) * 2014-09-17 2016-10-04 Sas Institute Inc. Rule development for natural language processing of text
US10810357B1 (en) * 2014-10-15 2020-10-20 Slickjump, Inc. System and method for selection of meaningful page elements with imprecise coordinate selection for relevant information identification and browsing
US20160110791A1 (en) * 2014-10-15 2016-04-21 Toshiba Global Commerce Solutions Holdings Corporation Method, computer program product, and system for providing a sensor-based environment
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9361075B2 (en) 2014-11-12 2016-06-07 International Business Machines Corporation Contraction aware parsing system for domain-specific languages
US10765956B2 (en) * 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10140273B2 (en) * 2016-01-19 2018-11-27 International Business Machines Corporation List manipulation in natural language processing
US9842096B2 (en) * 2016-05-12 2017-12-12 International Business Machines Corporation Pre-processing for identifying nonsense passages in documents being ingested into a corpus of a natural language processing system
US10169328B2 (en) 2016-05-12 2019-01-01 International Business Machines Corporation Post-processing for identifying nonsense passages in a question answering system
US10585898B2 (en) * 2016-05-12 2020-03-10 International Business Machines Corporation Identifying nonsense passages in a question answering system based on domain specific policy
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10936684B2 (en) * 2018-01-31 2021-03-02 Adobe Inc. Automatically generating instructions from tutorials for search and user navigation
US10990630B2 (en) 2018-02-27 2021-04-27 International Business Machines Corporation Generating search results based on non-linguistic tokens
US11295083B1 (en) * 2018-09-26 2022-04-05 Amazon Technologies, Inc. Neural models for named-entity recognition
US11354609B2 (en) * 2019-04-17 2022-06-07 International Business Machines Corporation Dynamic prioritization of action items
EP3862918B1 (fr) * 2020-02-07 2023-11-01 MyScript Décomposition de la structure en écriture manuscrite
CN112989798B (zh) * 2021-03-23 2024-02-13 中南大学 中文词库的构建方法、中文词库及应用

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994006086A1 (fr) * 1992-09-04 1994-03-17 Caterpillar Inc. Systeme de traduction et de redaction integre
US5774833A (en) * 1995-12-08 1998-06-30 Motorola, Inc. Method for syntactic and semantic analysis of patent text and drawings
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6965857B1 (en) * 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text
US7113905B2 (en) * 2001-12-20 2006-09-26 Microsoft Corporation Method and apparatus for determining unbounded dependencies during syntactic parsing
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US7295708B2 (en) * 2003-09-24 2007-11-13 Microsoft Corporation System and method for detecting a list in ink input
US20060085740A1 (en) * 2004-10-20 2006-04-20 Microsoft Corporation Parsing hierarchical lists and outlines
US20080086703A1 (en) * 2006-10-06 2008-04-10 Microsoft Corporation Preview expansion of list items
US9798800B2 (en) * 2010-09-24 2017-10-24 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NURIA GALA PAVIA: "Un modèle d'analyseur syntaxique robuste fondé sur la modularité et la lexicalisation de ses grammaires.", THÈSE DE DOCTORAT EN INFORMATIQUE, 21 March 2003 (2003-03-21), Université de Paris-Sud, France, XP055111869, Retrieved from the Internet <URL:http://pageperso.lif.univ-mrs.fr/~nuria.gala/accueil.htm> [retrieved on 20140403] *
SALAH AÏT-MOKHTAR ET AL: "Linguistic parsing of lists in structured documents", EACL WORKSHOP ON NLP AND XML, 12 April 2003 (2003-04-12), Budapest, Hungrary, XP055107632 *

Also Published As

Publication number Publication date
US20120290288A1 (en) 2012-11-15

Similar Documents

Publication Publication Date Title
FR2975201A1 (fr) Analyse de texte utilisant des proprietes de listes linguistiques et non-linguistiques
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
WO2002067142A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
EP1836651B1 (fr) Procédé de recherche, reconnaissance et localisation d&#39;un terme dans l&#39;encre, dispositif, programme d&#39;ordinateur correspondants
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
US20130325882A1 (en) Supplementing structured information about entities with information from unstructured data sources
WO2005101240A1 (fr) Procede de recherche d&#39;informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede
EP1880325A1 (fr) Méthode dynamique de génération de documents xml á partir d&#39;une base de données
CN110413996B (zh) 构造零指代消解语料的方法及装置
EP3100176A1 (fr) Procédé d&#39;analyse sémantique d&#39;un texte
Guven The comparison of language models with a novel text filtering approach for turkish sentiment analysis
Ogrodniczuk et al. Connecting data for digital libraries: the library, the dictionary and the corpus
EP2013776A1 (fr) Procede de de-doublonnage rapide d&#39;un ensemble de documents ou d&#39;un ensemble de donnees contenues dans un fichier
US20220318497A1 (en) Systems and methods for generating dialog trees
FR2986882A1 (fr) Procede d&#39;identification d&#39;un ensemble de phrases d&#39;un document numerique, procede de generation d&#39;un document numerique, dispositif associe
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
Hládek et al. Text mining and processing for corpora creation in Slovak language
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
KR101909537B1 (ko) 소셜 데이터 분류 시스템 및 방법
FR3060798B1 (fr) Procede d&#39;edition d&#39;un message electronique avec elimination d&#39;elements redondants
US20110320493A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
CN112380873B (zh) 一种规范文书中被选中项确定方法及装置
CN112836477B (zh) 代码注释文档的生成方法、装置、电子设备及存储介质
WO2024052557A1 (fr) Methode pour le traitement automatise d&#39;un document pour son utilisation par des personnes en situation de handicap
Love Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6