BE1011964A3

BE1011964A3 - Methode, dispositif et systeme pour la desambiguisation des parties du discours.

Info

Publication number: BE1011964A3
Application number: BE9800813A
Authority: BE
Inventors: Orhan Karaali; Andrew William Mackie
Original assignee: Motorola Inc
Priority date: 1997-11-07
Filing date: 1998-11-06
Publication date: 2000-03-07
Also published as: US6182028B1; WO1999024968A1

Abstract

Une méthode (300), un dispositif (408) et système (400) fournissent une disambiguïsation des parties du discours pour des mots en se basant sur un traitement hybride stochastique et par réseau neural. La méthode désambiguïse les étiquettes des parties du discours de symboles de texte en obtenant un ensemble d'étiquettes annotées de manière probabiliste pour chaque symbole de texte, en déterminant un étiquette prévue localement pour chaque symbole de texte en se basant sur le contexte local du symbole de texte, en déterminant une étiquette de rechange pour chaque symbole de texte en se basant sur le contexte étendu du symbole de texte, et en choisissant entre l'étiquette prévue localement et l'étiquette de rechange sont différentes.

Description


   <Desc/Clms Page number 1> 
 



   "Méthode. dispositif et système pour la   désamb ! quïsat ! on   des parties du discours"
DOMAINE DE L'INVENTION
La présente invention concerne la désambiguïsation des parties du discours et plus particulièrement la combinaison d'un réseau neural et de processeurs stochastiques en un système hybride pour accomplir cette désambiguïsation. 



   CONTEXTE DE L'INVENTION
La   désambiguïsation   des parties du discours est le processus consistant à assigner la partie correcte du discours à chaque mot dans une phrase, en se basant sur l'usage du mot dans la phrase. Par exemple, la partie du discours du mot anglais"record"peut être soit un nom soit un verbe en fonction du contexte dans lequel le mot est utilisé ; dans la phrase"John wants to record a record", la première occurrence de"record"est utilisée comme un verbe et la deuxième est utilisée comme un nom. La reconnaissance correcte de cette distinction est particulièrement importante dans un système convertissant du texte en parole, parce que"record"est prononcé différemment selon qu'il s'agit d'un nom ou d'un verbe. 



   Comme la figure 1, référence 100, le montre, pour   désambiguïser   les parties du discours pour les mots d'un texte, les systèmes de désambiguïsation des parties du discours utilisent de manière caractéristique le processus en trois étapes suivant. L'étape 1 est l'étape de la symbolisation au cours de laquelle une chaîne de texte (101) est transformée en une séquence de symboles (104) de texte par un symboliser (102) de texte comme spécifié par une base de connaissance (103) en matière de symbolisation.

   La base de connaissance en matière de symbolisation contient de manière caractéristique des règles prédéterminées qui sont utilisées pour identifier des éléments textuels qui peuvent être classés par partie du discours Des exemples de ces éléments textuels sont des mots, des 

 <Desc/Clms Page number 2> 

 marques de ponctuation et des symboles spéciaux comme"%"et"$". L'étape 2 est l'étape d'accès au lexique au cours de laquelle chaque symbole de texte est vérifié dans un lexique (106) par un accédant au lexique (105) Le lexique consiste en un lexique statique (107) qui contient une pluralité d'éléments textuels et des étiquettes correspondantes des parties du discours, et un lexique dynamique (108) qui peut générer des étiquettes des parties du discours pour les éléments textuels qui ne sont pas stockés dans le lexique statique. 



  Comme certains éléments textuels (p. ex. le mot"record") ont plus d'une partie du discours, l'étape d'accès au lexique aura pour résultat qu'au moins une étiquette de partie du discours sera assignée à chaque symbole de texte ; la production de l'étape d'accès au lexique est donc une séquence de symboles de texte étiquetés de manière ambiguë (109).

   L'étape 3 est l'étape de désambiguïsation au cours de laquelle tous les   ambiguïtés   des parties du discours dans la séquence de symboles de texte étiquetés de manière ambiguë sont résolus par le désambiguïsateur (110) comme spécifié par la base de connaissance en matière de désambiguïsation (111), avec pour résultat une séquence de symboles de texte étiquetés de manière non ambiguë (112)
Un exemple de l'application du processus ci-dessus est présenté sur la figure 2, référence 200. Une chaîne de texte (201) est introduite dans l'étape de symbolisation qui fournit à la sortie une séquence de symboles de texte non étiquetés (202). La séquence de symboles de texte non étiquetés est introduite dans l'étape d'accès au lexique qui fournit à la sortie une séquence de symboles de texte étiquetés de manière ambiguë.

   Comme on peut le voir sur la figure 2, plusieurs symboles de texte ont plus d'une étiquette qui leur est associée ; par exemple,"wants"est un symbole de texte étiqueté de manière ambiguë (204), parce qu'il peut être utilisé soit comme un nom au pluriel (étiquette"NNS") soit comme un verbe au présent, à la troisième personne   (étiquette'VBZ").   L'ensemble de toutes les 

 <Desc/Clms Page number 3> 

 séquences d'étiquettes possibles basé sur la séquence de symboles de texte étiquetés de manière ambiguë est représenté par un graphe acyclique sélectif de séquences d'étiquettes (203).

   La séquence de symboles de texte étiquetés de manière ambiguë est introduit dans l'étape de   désambiguisation   qui détermine le meilleur chemin (205) à travers le graphe acyclique sélectif de séquences d'étiquettes, fournissant ainsi une séquence de symboles de texte étiquetés de manière non ambiguë (206). 



   On sait dans l'état de la technique que le contexte local est un fort indicateur de la partie du discours d'un mot ; par conséquent, les systèmes stochastiques basés sur le modèle statistique des collocations de mots et d'étiquettes se sont avérés une réussite Cependant, ces systèmes échouent de manière prévisible pour les structures syntaxiques qui impliquent des dépendances non locales. Comme les dépendances non locales vont au-delà des limites des systèmes stochastiques, ces effets doivent être expliqués par des systèmes qui peuvent traiter un contexte étendu.

   Il est deux problèmes à prendre en considération lors du développement de tels systèmes : l'identification et le placement de limites appropriées pour ce qui est de la quantité de contexte étendu à traiter et l'équilibrage de la contribution des indications fournies par le traitement du contexte local et du contexte étendu. 



   C'est pourquoi il est nécessaire d'avoir une méthode, un dispositif et un système pour la   désambiguïsation   des parties du discours qui combine avantageusement le traitement du contexte local et du contexte étendu. 



   BREVE DESCRIPTION DES DESSINS
La figure 1 est une représentation schématique d'un système de   désambiguïsation   des parties du discours pour désambiguïser les parties du discours de symboles de texte comme cela est connu dans l'état de la technique. 

 <Desc/Clms Page number 4> 

 



   La figure 2 est une représentation schématique du traitement d'un texte introduit par le système de la figure 1 comme cela est connu dans l'état de la technique. 



   La figure 3 est un schéma fonctionnel d'une réalisation d'étapes en conformité avec la présente invention, qui exécute la   désambigutsation   des parties du discours par l'évaluation du contexte local et du contexte étendu. 



   La figure 4 est une représentation schématique d'une réalisation d'un désambiguïsateur hybride des parties du discours qui évalue le contexte local et le contexte étendu en conformité avec la présente invention. 



   La figure 5 est une représentation schématique d'une réalisation d'un   désambigu) sateur   stochastique des parties du discours qui évalue le contexte local en conformité avec la présente invention. 



   La figure 6 est une représentation schématique d'une réalisation d'un désambiguïsateur des parties du discours d'un réseau neural qui   évalue   le contexte étendu en conformité avec la présente invention. 



   La figure 7 est une représentation schématique d'une réalisation de la construction de vecteurs de caractéristiques d'étiquettes pondérés de manière probabiliste en conformité avec la présente invention. 



   La figure 8 est une représentation schématique d'une réalisation d'un discnminateur d'étiquettes basé sur des règles en conformité avec la présente invention. 



   DESCRIPTION DETAILLEE D'UNE REALISATION PREFEREE
La présente invention fournit une méthode, un dispositif et un système pour désambiguïser les parties du discours de mots dans un texte en prenant en considération l'information du contexte local et du contexte étendu. La prise en compte du contexte étendu permet d'améliorer la précision des méthodes qui se fondent sur le seul contexte 

 <Desc/Clms Page number 5> 

 local La désambiguïsation correcte des parties du discours pour des mots est utile dans une variété d'applications de traitement de texte et de synthèse vocale
Comme le montrent les étapes reprises sur la figure 3, référence 300, la méthode selon la présente invention fournit, en réponse à l'introduction de texte, la génération efficace d'étiquettes non ambiguës des parties du discours pour ce texte.

   La méthode comprend les étapes suivantes : A) obtenir (301) un ensemble d'étiquettes annotées de manière probabiliste pour un symbole de texte, B) déterminer (301) une étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte et déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, et C) choisir (303), en utilisant un discriminateur, entre l'étiquette prévue localement et l'étiquette de rechange quand l'étiquette prévue localement et l'étiquette de rechange sont différentes. 



   L'étape C peut comprendre, en outre, le choix d'une étiquette prévue lexicalement. L'étiquette prévue lexicalement est définie comme l'étiquette la plus probable pour le symbole de texte. 



   L'étiquette prévue localement est déterminée de manière caractéristique en utilisant un des éléments suivants : A) un algorithme pour la désambiguisation des parties du discours en se basant sur le contexte local, B) un système de règles pour la désambiguïsation des parties du discours en se basant sur le contexte local, C) un réseau neural   entraîné   pour désambiguiser des parties du discours en se basant sur le contexte local, D) une arborescence de décisions pour la désambiguïsation des parties du discours en se basant sur le contexte local, E) un algorithme génétique pour la désambiguïsation des parties du discours en se basant sur le contexte local, et F) une combinaison d'au moins deux des éléments A-E
L'étiquette de rechange est généralement déterminée en utilisant un des éléments suivants :

   A) un système de règles pour 

 <Desc/Clms Page number 6> 

 désambiguïser des parties du discours en se basant sur le contexte étendu, B) un réseau neural entraîné pour désambiguïser des parties du discours en se basant sur le contexte étendu, C) une arborescence de décisions pour la désambiguïsation des parties du discours en se basant sur le contexte étendu, D) un algorithme génétique pour la désambiguïsation des parties du discours en se basant sur le contexte étendu, et E) une combinaison d'au moins deux des éléments A-D. 



   La figure 4, référence 400, est une représentation schématique d'une réalisation d'un   dispositif 1 système   en conformité avec la présente invention, qui désambiguïse des symboles de texte étiquetés de manière ambiguë. Le dispositif/système (408) est de manière caractéristique un article de fabrication, un circuit intégré spécifique à une application   (ASIC),   un microprocesseur, un programme informatique, un ordinateur, un synthétiseur vocal ou un article similaire. 



  Le   dispositif 1 système (40S)   reçoit comme apport une séquence de symboles de texte étiquetés de manière probabiliste (401) et produit à la sortie une séquence correspondante de symboles de texte étiquetés de manière non ambiguë (409). Le dispositif/système consiste de manière caractéristique en un étiqueteur du contexte local (402), un étiqueteur du contexte étendu (403) et un discriminateur (407). 



   L'étiqueteur du contexte local (402) reçoit comme apport la séquence de symboles de texte étiquetés de manière probabiliste et produit à la sortie une séquence d'étiquettes prévues lexicalement (405) et une séquence de symboles de texte avec des étiquettes prévues localement (404) Chaque symbole de texte étiqueté de manière probabiliste a un ensemble d'étiquettes consistant en une pluralité d'étiquettes, l'étiqueteur du contexte local exécute deux opérations de désambiguisation sur l'ensemble d'étiquettes comme suit. Premièrement, une étiquette prévue lexicalement est choisie dans l'ensemble d'étiquettes en se basant sur la probabilité lexicale. Deuxièmement, une étiquette prévue localement est choisie dans l'ensemble d'étiquettes en 

 <Desc/Clms Page number 7> 

 se basant sur le contexte local.

   Ces deux opérations sont examinées plus en détail dans la discussion de la figure 5 ci-dessous
L'étiqueteur du contexte étendu (403) reçoit comme apport la séquence des symboles de texte étiquetés de manière probabiliste et produit à la sortie une séquence d'étiquettes de rechange (406). Chaque symbole de texte étiqueté de manière probabiliste a au moins une étiquette ; dans le cas où le symbole de texte étiqueté de manière probabiliste a un ensemble d'étiquettes consistant en une pluralité d'étiquettes, l'étiqueteur du contexte étendu choisit l'étiquette de rechange en se basant sur une évaluation du contexte étendu du symbole de texte.

   Cette opération est examinée plus en détail dans la discussion sur la figure 6 ci-dessous
Le discriminateur (407) reçoit comme apport la séquence de symboles de texte étiquetés de manière probabiliste et la séquence d'étiquettes prévues lexicalement de l'étiqueteur du contexte local et la séquence d'étiquettes de rechange de l'étiqueteur du contexte étendu et fournit une séquence de symboles de texte étiquetés de manière non ambiguë en sa basant sur une évaluation des différences entre les étiquettes introduites, comme cela est présenté dans la discussion sur la figure 8 ci-dessous. 



   La figure 5, référence 500, est une représentation schématique d'une réalisation d'un dispositif/système en conformité avec l'étiqueteur du contexte local (510) de la présente invention, qui désambiguïse les symboles de texte étiquetés de manière probabiliste en fonction du contexte local des symboles. L'étiqueteur du contexte local reçoit comme apport une séquence de symboles de texte étiquetés de manière probabiliste (501) et produit à la sortie une séquence d'étiquettes prévues lexicalement (505) et une séquence de symboles de texte avec des étiquettes prévues localement (509)
Un processeur du contexte local (502) traite les symboles de texte étiquetés de manière probabiliste et produit trois chaînes de 

 <Desc/Clms Page number 8> 

 sortie comme suit.

   La première chaîne est une séquence d'étiquettes prévues lexicalement (505), qui est générée en examinant les annotations probabilistes des symboles de texte étiquetés de manière probabiliste et en choisissant, pour chaque symbole de texte, l'étiquette la plus probable En cas d'étiquettes également probables, un algorithme déterministe (p. ex. ordre de tri des codes d'étiquette) est employé pour générer une unique étiquette et ce pour s'assurer que le discriminateur peut se fier à l'apport déterministe dans cette chaîne. La deuxième chaîne est une séquence annotée de symboles de texte étiquetés de manière probabiliste (504). Les annotations ajoutent des informations utiles pour l'algorithme spécifique de l'étiqueteur du contexte local utilisé pour   la désambiguisation,   c'est-à-dire des faits de capitalisation, etc. 



  Enfin, la troisième chaîne est un ensemble d'étiquettes en contexte local (503) pour chaque symbole de texte. En cas de désambiguïsation stochastique basée sur un bigramme, ces ensembles consisteraient en paires d'étiquettes correspondant à toutes les collocations possibles entre les étiquettes de deux symboles de texte contigus ; p ex., si le premier symbole de texte avait n étiquettes possibles et que le deuxième symbole de texte avait m étiquettes possibles, la cardinalité de l'ensemble d'étiquettes en contexte serait mn. 



   Le désambiguïsateur du contexte des étiquettes (508) désambiguïse les ensembles d'étiquettes dans la séquence de symboles de texte étiquetés de manière probabiliste en utilisant un algorithme de désambiguïsation du contexte local prédéterminé, en se basant sur les probabilités du contexte des étiquettes (507) fournies par la base de connaissance en matière de contexte des étiquettes (506). Par exemple, si l'algorithme de désambiguïsation du contexte local était une désambiguïsation stochastique basée sur un bigramme, ces probabilités seraient les probabilités conditionnelles de chaque étiquette dans l'ensemble d'étiquettes du symbole de texte actuel quand elle est précédée par une étiquette dans l'ensemble d'étiquettes du symbole de 

 <Desc/Clms Page number 9> 

 texte précédent, comme cela est déterminé par l'analyse du corpus.

   Une recherche Viterbi est utilisée de manière caractéristique pour s'assurer que le calcul du chemin optimal à travers le réseau d'ensembles d'étiquettes s'effectue en temps linéaire par rapport à la longueur du chemin La production de ce processus est une séquence de symboles de texte avec des étiquettes prévues localement (509). 



   Le réseau neural produit un vecteur d'hypothèses de sortie en se basant sur ses vecteurs d'introduction, la chaîne 2, la chaîne 3 et la chaîne 4 ainsi que sur les fonctions de transfert interne utilisées par les éléments de traitement (PE). Les coefficients utilisés dans les fonctions de transfert sont variés pendant le processus d'entraînement pour varier le vecteur de sortie.

   Il est fait collectivement référence aux coefficients des fonctions de transfert comme aux pondérations du réseau neural et les pondérations sont variées au cours du processus d'entraînement pour varier le vecteur de sortie produit par les vecteurs d'entrée donnés Les pondérations sont réglées initialement sur de petites valeurs aléatoires dans la plage de-0, 01 à 0,01 La description du contexte sert de vecteur d'entrée et est appliquée aux entrées dans le réseau neural La description du contexte est traitée en fonction des valeurs de pondération du réseau neural pour produire un vecteur de sortie, c'est-à-dire la représentation associée à l'étiquette de rechange. 



  Au début de la session d'entraînement, la représentation associée à l'étiquette de rechange n'est pas significative, étant donné que les pondérations du réseau neural sont des valeurs aléatoires. Un vecteur de signal d'erreur est généré proportionnellement à la distance entre la représentation associée à l'étiquette de rechange et la représentation cible assignée à l'étiquette de rechange, la chaîne 1. 



   Le signal d'erreur est calculé pour être la distance brute entre la représentation associée de l'étiquette de rechange et la représentation cible de l'étiquette de rechange en utilisant, par exemple, une mesure de distance dans l'espace euclidien présentée dans 

 <Desc/Clms Page number 10> 

   l'équation 1.   



   Équation 1 
 EMI10.1 
 
Après calcul du signal d'erreur, les valeurs de pondération sont ajustées dans un sens pour réduire le signal d'erreur. Ce processus est répété un certain nombre de fois pour les paires associées de descriptions du contexte introduites et les représentations cibles assignées aux étiquettes de rechange. Ce processus d'ajustement des pondérations pour rapprocher la représentation associée à l'étiquette de rechange de la représentation cible assignée à l'étiquette de rechange est l'entraînement du réseau neural. Cet entraînement utilise la méthode standard de rétropropagation des erreurs.

   Quand le réseau neural est entraîné, les valeurs de pondération possèdent l'information nécessaire pour convertir la description du contexte en un vecteur de sortie d'une valeur similaire à celle de la représentation cible assignée à l'étiquette de rechange La mise en oeuvre préférée du réseau neural requiert jusqu'à dix millions de présentations de la description du contexte à ses entrées et les ajustements de pondération suivants avant que le réseau neural ne soit considéré comme pleinement entraîné
Le réseau neural contient des blocs avec deux types de fonction d'activation, sigmoïde et softmax, comme cela est connu dans l'état de la technique La fonction d'activation softmax est présentée dans l'équation 2 dans laquelle 1 est l'entrée dans la fonction de transfert,

   qui est la somme de toutes les entrées pondérées dans l'élément de traitement et la fonction d'activation sigmoïde est présentée dans l'équation 3 

 <Desc/Clms Page number 11> 

 Équation 2 
 EMI11.1 
 Équation 3 
 EMI11.2 
 
La figure 6, référence 600, illustre l'architecture de réseau neural utilisée par la présente invention dans une réalisation préférée. 



  La chaîne 2 (601), les étiquettes sont introduites dans le bloc d'entrée 1 (604). Le bloc d'entrée 1 (604) extrait alors le contexte étendu qui, dans la présente réalisation, est défini comme étant les quatre étiquettes précédentes, l'étiquette actuelle et les quatre futures étiquettes. Le bloc d'entrée 1 (604) passe les quatre étiquettes précédentes et les quatre futures étiquettes dans le bloc 4 (607) du réseau neural Il y a 46 étiquettes possibles qui sont codées avec 1-de-n codage. Les quatre futures étiquettes produisent 184 sorties supplémentaires (4*46). Le bloc 4 (607) du réseau neural utilise des fonctions de transfert sigmodes et a 20 éléments de traitement (PE). Le bloc 4 (607) du réseau neural passe sa production au bloc 7 (610) du réseau neural. Le bloc d'entrée 1 (604) passe l'étiquette actuelle au bloc 8 (611) du réseau neural. 



   La chaîne 3 (602), les caractéristiques sont introduites dans le bloc d'entrée 2 (605) Le bloc d'entrée 2 (605) extrait alors les quatre caractéristiques précédentes, la caractéristique actuelle et les quatre futures caractéristiques. Le bloc d'entrée 2 (605) passe les quatre caractéristiques précédentes et les quatre futures caractéristiques au bloc 5 (608) du réseau neural. Il y a 24 caractéristiques possibles et 

 <Desc/Clms Page number 12> 

 elles sont codées avec m-de-n codage. Les quatre caractéristiques précédentes produisent 96 sorties (4*24). Les quatre futures caractéristiques produisent 96 sorties supplémentaires (4*24). Le bloc 5 (608) du réseau neural utilise des fonctions de transfert sigmoides et a 20 éléments de traitement (PE). Le bloc 5 (608) du réseau neural passe sa production au bloc 7 (610) du réseau neural.

   Le bloc d'entrée 2 (605) passe l'étiquette actuelle au bloc 8 (611) du réseau neural. 



   La chaîne 4 (603), les limites sont introduites dans le bloc d'entrée 3 (606). Le bloc d'entrée 3 (606) passe alors les limites au bloc 6 (609) du réseau neural. Le bloc 6 (609) du réseau neural utilise des fonctions de transfert sigmoïdes et a 10 éléments de traitement (PE). Le bloc 6 (609) du réseau neural passe sa production au bloc 7 (610) du réseau neural. 



   Le bloc 7 (610) du réseau neural utilise des fonctions de transfert sigmoides et a 20 éléments de traitement (PE). Le bloc 7 (610) du réseau neural passe sa production au bloc 8 (611) du réseau neural. 



   Le bloc 8 (611) du réseau neural utilise des fonctions de transfert softmax et a 46 éléments de traitement (PE). Le bloc 8 (611) du réseau neural calcule et passe l'étiquette de rechange la plus probable au bloc de sortie 9 (612). Le bloc de sortie 9 (612) fournit l'étiquette de rechange à la chaîne 1 (613). 



   Pendant la phase d'entraînement de l'étiqueteur du contexte étendu (614), la chaîne 1 (613), l'encodage numérique des étiquettes de rechange cibles est introduit dans le bloc de sortie 9 (612). 



  Le bloc de sortie 9 (612) calcule le signal d'erreur et propage en retour le signal d'erreur au bloc 8 (611) du réseau neural. Ce signal d'erreur est alors propagé en retour aux blocs 7 (610), 6 (609), 5 (608) et 4 (607) du réseau neural. 



   Pendant la rétropropagation du signal d'erreur, les pondérations des blocs du réseau neural sont modifiées de manière à réduire le signal d'erreur. 

 <Desc/Clms Page number 13> 

 



   La figure 7, référence   700,   est une représentation schématique d'une réalisation de la construction de vecteurs de caractéristiques d'étiquettes pondérés de manière probabiliste en conformité avec la présente invention. Le lexique annoté de manière probabiliste (701) contient des enregistrements (703) pour chaque mot dans lesquels sont stockées les étiquettes qui peuvent être associées avec le mot, chacune d'entre elles étant étiquetée avec une probabilité d'occurrence basée sur une analyse du corpus.

   Dans l'exemple, le mot "round"a été déterminé comme survenant 5 % du temps dans un corpus 
 EMI13.1 
 de référence comme un adjectif (étiquette"JJ"), 85 % du temps comme un nom (étiquette"NN"), 7 % du temps comme une forme de base verbale   (étiquette'VB")   et 3 % du temps comme un verbe au présent, et n'étant pas à la troisième personne du singulier   (étiquette"VBP).   



   La liste de vecteurs de caractéristiques d'étiquettes (702) contient un vecteur de caractéristiques d'étiquettes pour chacune des 45 étiquettes des parties du discours dans la présente réalisation. Chaque vecteur de caractéristiques d'étiquettes contient un vecteur booléen de N éléments (N=23 dans la présente réalisation), dont chaque élément est un unique bit qui indique la présence (signifiée   par"1")   ou l'absence (signifiée   par"0")   d'une caractéristique spécifique.

   Par exemple, dans la présente réalisation, le premier bit du vecteur de caractéristiques d'étiquettes indique si l'étiquette correspondante fait ou non partie d'une classe ouverte, le deuxième bit indique si l'étiquette correspondante identifie ou non un spécificateur, le troisième bit indique si l'étiquette correspondante identifie ou non un modificateur, etc. 



   Dans le présent exemple, pour construire le vecteur de caractéristiques pondéré de manière probabiliste pour le mot"round", un vecteur de caractéristiques pondéré de manière probabiliste est construit par chacune des étiquettes de"round"en se basant sur les probabilités d'étiquetage associées avec"round"telles qu'elles sont déduites du corpus de référence C'est ainsi que dans l'exemple, l'étiquette d'adjectif 

 <Desc/Clms Page number 14> 

 ("JJ") ayant une probabilité d'occurrence de 5 % a pour résultat un vecteur de caractéristiques contenant 0, 05 dans ses première, troisième et cinquième positions (correspondant à la décomposition en caractéristiques de l'étiquette adjectif de [+ ouvert, + modificateur, + statique]). 



   Le processus ci-dessus est appliqué aux quatre étiquettes de"round", avec pour résultat quatre vecteurs de caractéristiques pondérés de manière probabiliste (705), qui sont alors additionnés pour donner le vecteur de caractéristiques pondéré de manière probabiliste pour le mot"round" (706). Le vecteur de caractéristiques pondéré de manière probabiliste indique les probabilités d'occurrence de caractéristiques particulières   de"round", c'est-à-dire qu'il   y a une probabilité de 100 % que (dans le présent exemple) le mot"round" survienne comme usage de classe ouverte, et une probabilité de 95 % que"round"soit une tête de construction (par opposition à un modificateur (5 %) ou un spécificateur (0 %)).

   De même, il y a une probabilité de 90 % que"round"soit utilisé de manière statique (c'est-àdire dans une construction nominale) et de 10 %   que "round" soit utilisé   de manière dynamique (c'est-à-dire dans une construction verbale). Le vecteur de caractéristiques pondéré de manière probabiliste est présenté au réseau neural afin que le réseau neural puisse s'entraîner sur la base d'une représentation plus riche de la fonctionnalité syntaxique des mots que celle qui peut être fournie par les seules étiquettes. 



   La figure 8, référence 800, est une représentation schématique d'une réalisation d'un dispositif/système en conformité avec le discriminateur (806) de la présente invention, qui discrimine entre les étiquettes appliquées à un symbole de texte donné par des algorithmes de désambiguïsation différents, en se basant sur les caractéristiques observées des algorithmes. Le contrôleur des chaînes d'étiquettes (804) du discriminateur reçoit comme apport une pluralité de 

 <Desc/Clms Page number 15> 

 chaînes d'entrée dont chacune contient une séquence d'étiquettes dans laquelle pour chaque chaîne d'entrée la séquence d'étiquettes est choisie par un algorithme de   désambiguisation   des étiquettes opérant sur la même séquence de symboles de texte étiquetés de manière probabiliste.

   Dans la présente réalisation, les trois chaînes suivantes sont utilisées : la séquence de symboles de texte avec des étiquettes 
 EMI15.1 
 prévues localement (801), la séquence d'étiquettes prévues lexicalement (802) et la séquence d'étiquettes de rechange (803). Dans le cas où une étiquette dans au moins une des trois chaînes n'est pas en accord avec les autres pour un symbole de texte donné, une étiquette de sortie est déterminée en discriminant parmi la pluralité d'étiquettes, en se référant aux procédures stockées dans la base de connaissance en matière de discrimination d'étiquettes (805). Dans la présente réalisation, la base de connaissance en matière de discrimination d'étiquettes contient un jeu de règles caractérisant l'exactitude des différents algorithmes d'étiquetage par rapport à l'entrée prédéterminée.

   D'autre part, cette information pourrait être fournie par un réseau neural entraîné sur la base du comportement observé des algorithmes d'étiquetage La production du discriminateur est une séquence de symboles de texte étiquetés de manière non ambiguë (807). 



   La méthode peut être appliquée par un code de programme lisible par ordinateur sur un support exploitable par l'ordinateur. Le logiciel mettant en oeuvre la méthode peut être intégré dans un microprocesseur ou un processeur de signaux numériques. Le système peut être intégré dans un support tangible ayant un code de programme informatique. D'autre part, un circuit intégré spécifique à une application (ASIC) peut mettre en oeuvre la méthode, ou une combinaison de deux de ces mises en oeuvre ou plus peut être utilisée. Par exemple, la méthode peut être mise en oeuvre par un ordinateur et un synthétiseur vocal. 



   Donc, la présente invention peut être intégrée dans un 

 <Desc/Clms Page number 16> 

 article de fabrication comme un circuit intégré spécifique à une application, un microprocesseur, un programme informatique, un ordinateur ou un synthétiseur vocal qui est utilisé pour désambiguïser les parties du discours de symboles de texte. Si l'article de fabrication comprend un dispositif pour mettre en oeuvre un support exploitable par l'ordinateur, le support exploitable par l'ordinateur comprend de manière caractéristique un code de programme lisible par ordinateur pour mettre en oeuvre les routines logicielles suivantes. D'autre part, l'article de fabrication peut comprendre des circuits matériels pour mettre en oeuvre les routines logicielles.

   Les circuits matériels de l'article de fabrication comprennent un étiqueteur du contexte local (402), un étiqueteur du contexte étendu (403) et un discriminateur (407). 



   L'étiqueteur du contexte local (402) est accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste et est utilisé pour déterminer une étiquette prévue localement pour un symbole de texte en se basant sur un contexte local du symbole de texte, comme cela est décrit de manière plus spécifique ci-dessus L'étiqueteur du contexte étendu (403) est accouplé pour recevoir la séquence de symboles de texte étiquetés de manière probabiliste et est utilisé pour déterminer une étiquette de rechange pour un symbole de texte en se basant sur un contexte étendu du symbole de texte.

   Le discriminateur (407) est accouplé à l'étiqueteur du contexte local et à l'étiqueteur du contexte étendu, pour choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte, si l'étiquette prévue localement et l'étiquette de rechange sont différentes. 



   L'étiqueteur de contexte local comprend généralement. un processeur du contexte local (502), accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local d'un symbole de texte, une base de connaissance en matière de contexte des étiquettes   (506),   accouplée 

 <Desc/Clms Page number 17> 

 pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et un désambiguïsateur du contexte des étiquettes (508), accouplé au processeur du contexte local et à la base de connaissance en matière de contexte des étiquettes, pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte. 



   Le discriminateur comprend généralement. un contrôleur de chaînes d'étiquettes (804), accouplé pour recevoir une pluralité de chaînes d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et une base de connaissance en matière de discrimination des étiquettes (805), accouplée au contrôleur des chaînes d'étiquettes, ayant une pluralité de   systèmes/de   codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes. 



   Si l'article de fabrication comprend un programme informatique, un ordinateur ou un synthétiseur vocal pour désambiguïser les parties du discours de symboles de texte, l'àrticle de fabrication a un support exploitable par l'ordinateur avec un code de programme lisible par ordinateur dans lequel le code de programme lisible par ordinateur met en oeuvre les étapes suivantes : A) déterminer une étiquette prévue localement pour un symbole de texte en se basant sur un contexte local du symbole de texte, B déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, et C) choisir, en utilisant une routine de discriminateur, entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte, si l'étiquette prévue localement et l'étiquette de rechange sont différentes. 



   Déterminer une étiquette prévue localement comprend généralement : A) utiliser une routine du contexte local, accouplée pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local du symbole de texte, B) 

 <Desc/Clms Page number 18> 

 utiliser une base de connaissance en matière de contexte d'étiquettes, accouplée pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et C) utiliser un désambiguïsateur du contexte des étiquettes, accouplé à la routine du contexte local et à la base de connaissance en matière de contexte d'étiquettes, pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte. 



   Choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte comprend généralement : A) utiliser une routine de contrôleur de chaînes d'étiquettes, accouplée pour recevoir une pluralité de chaînes d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et B) utiliser une base de connaissance en matière de discrimination des étiquettes, accouplée à la routine du contrôleur de chaînes d'étiquettes, ayant une pluralité de systèmes 1 de codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes. 



   La présente invention peut être réalisée dans d'autres formes spécifiques sans s'écarter de son esprit ou de ses caractéristiques essentielles. Les réalisations décrites ne sont à considérer à tous égards que comme des exemples et comme non restrictives La portée de l'invention est, par conséquent, indiquée dans les revendications annexées plutôt que dans la description susdite Tous les changements qui relèvent du sens et du champ d'équivalence des revendications sont à inclure dans son champ d'application. 

 <Desc/Clms Page number 19> 

 



  Figure 1 (100) État de la technique antérieure 101 chaîne de texte 102 symboliser de texte 103 base de connaissance en matière de symbolisation 104 (symboles de texte non étiquetés) 105 accédant au lexique 106 lexique 107 lexique statique 108 lexique dynamique 109 symboles de texte étiquetés de manière ambiguë 110   désambiguisateur   111 base de connaissance en matière de désambiguïsation 112 symboles de texte étiquetés de manière non ambiguë Figure 2 (200) État de la technique antérieure 201   chat ne   de texte 202 (symboles de texte non étiquetés) 203 (graphe acyclique sélectif de séquences d'étiquettes) 204 (symboles de texte étiquetés de manière ambiguë) 205 (meilleur chemin) 206 (symboles de texte étiquetés de manière non ambiguë) Figure 3 (300)

   301 obtenir un ensemble d'étiquettes annotées de manière probabiliste pour un symbole de texte 302 déterminer une étiquette prévue localement pour le symbole en se basant sur un contexte local pour le symbole de texte et déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu pour le symbole de texte 303 choisir, en utilisant un discriminateur, entre l'étiquette prévue localement et l'étiquette de rechange quand l'étiquette prévue 

 <Desc/Clms Page number 20> 

 localement et l'étiquette de rechange sont différentes 304 inclure en outre, dans l'étape consistant à choisir, un choix étiquette prévue lexicalement Figure 4 (400)

   401 symboles de texte étiquetés de manière probabiliste 402 étiqueteur du contexte local 403 étiqueteur du contexte étendu 404 symboles de texte avec des étiquettes prévues localement 405 étiquettes prévues lexicalement 406 (étiquettes de rechange) 407 discriminateur 408 article de   fabrication 1 ASIC 1 microprocesseur 1   programme   informatique 1 ordinateur 1 synthétiseur vocal   409 symboles de texte étiquetés de manière non ambiguë Figure 5 (500)

   501 symboles de texte étiquetés de manière probabiliste 502 processeur du contexte local 503 étiquettes en contexte local 504 symboles de texte étiquetés de manière probabiliste 505 étiquettes prévues lexicalement 506 base de connaissance en matière de contexte d'étiquettes 507 probabilités du contexte d'étiquettes 508 désambiguïsateur du contexte d'étiquettes 509 symboles de texte avec des étiquettes prévues localement 510 étiqueteur du contexte local Figure 6 (600)

   601 chaîne 2 étiquettes 602 chaîne 3 caractéristiques 

 <Desc/Clms Page number 21> 

 603 chaîne 4 limites 604 bloc d'entrée 1 605 bloc d'entrée 2 606 bloc d'entrée 3 607 bloc sigmolde 4 du réseau neural 608 bloc sigmoïde 5 du réseau neural 609 bloc sigmoïde 6 du réseau neural 610 bloc sigmoïde 7 du réseau neural 611 bloc softmax 8 du réseau neural 612 bloc de sortie 9 613 chaîne 1 étiquettes de rechange 614 étiqueteur du contexte étendu Figure 7 (700) 701 lexique annoté de manière probabiliste 702 vecteurs de caractéristiques d'étiquettes Figure 8 (800)

   801 symboles de texte avec des étiquettes prévues localement 802 étiquettes prévues lexicalement 803 étiquettes de rechange 804 contrôleur des chaînes d'étiquettes 805 base de connaissance en matière de discrimination d'étiquettes 806 discriminateur 807 symboles de texte étiquetés de manière non ambiguë

Claims

REVENDICATIONS 1. Méthode pour fournir des étiquettes non ambiguës des parties du discours à des symboles de texte dans un texte d'entrée comprenant les étapes suivantes : A) obtenir un ensemble d'étiquettes annotées de manière probabiliste pour un symbole de texte, B) déterminer une étiquette prévue localement pour le symbole de texte en se basant sur un contexte local du symbole de texte et déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, C) choisir, en utilisant un discriminateur, entre l'étiquette prévue localement et l'étiquette de rechange quand l'étiquette prévue localement et l'étiquette de rechange sont différentes.
2. Méthode selon la revendication 1 comprenant en outre le choix d'une étiquette prévue lexicalement dans l'étape C.
3. Méthode selon la revendication 1 dans laquelle l'étiquette prévue localement est déterminée en utilisant un des éléments suivants.

A) un algorithme stochastique pour la désambiguïsation des parties du discours basée sur le contexte local, B) un système de règles pour la désambiguïsation des parties du discours basée sur un contexte local, C) un réseau neural entraîné pour désambiguïser des parties du discours en se basant sur le contexte local, D) une arborescence de décisions pour la désambiguïsation des parties du discours basée sur le contexte local, E) un algorithme génétique pour la désambiguïsation des parties du discours basée sur un contexte local, et F) une combinaison d'au moins deux des éléments A-E.
4. Méthode selon la revendication 1 dans laquelle l'étiquette de rechange est déterminée en utilisant un des éléments <Desc/Clms Page number 23> suivants : A) un système de règles pour désambiguïser les parties du discours en se basant sur le contexte étendu, B) un réseau neural entraîné pour désambiguïser les parties du discours en se basant sur le contexte étendu, C) une arborescence de décisions pour la désambigufsation des parties du discours basée sur le contexte étendu, D) un algorithme génétique pour la désambiguïsation des parties du discours basée sur un contexte étendu, et E) une combinaison d'au moins deux des éléments A-D.
5.

Méthode selon la revendication 1 dans laquelle le choix entre l'étiquette déterminée localement et l'étiquette de rechange est déterminé en utilisant un des éléments suivants : A) un système de règles pour discriminer entre des étiquettes basées sur des caractéristiques observées d'un étiqueteur du contexte local et d'un étiqueteur du contexte étendu, B) un réseau neural entraîné pour discriminer entre des étiquettes basées sur des caractéristiques observées de l'étiqueteur du contexte local et de l'étiqueteur du contexte étendu, C) une arborescence de décisions entraînée pour discriminer entre des étiquettes basées sur les caractéristiques observées de l'étiqueteur du contexte local et de l'étiqueteur du contexte étendu, D)

un algorithme génétique entraîné pour discriminer entre des étiquettes basées sur les caractéristiques observées de l'étiqueteur du contexte local et de l'étiqueteur du contexte étendu, E) une combinaison d'au moins deux des éléments A-D.
6. Article de fabrication/programme informatique/ ordinateur 1 synthétiseur vocal pour désambiguïser les parties du discours de symboles de texte, ayant un support exploitable par l'ordinateur avec un code de programme lisible par ordinateur dans <Desc/Clms Page number 24> lequel le code de programme lisible par ordinateur met en oeuvre les étapes suivantes :

A) déterminer une étiquette prévue localement pour le symbole de texte en se basant sur un contexte local du symbole de texte B) déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, et C) choisir, en utilisant un discriminateur, entre une étiquette prévue localement et une étiquette de rechange quand l'étiquette prévue localement et l'étiquette de rechange sont différentes.
7. Article de fabrication/programme informatique/ ordinateur 1 synthétiseur vocal selon la revendication 6 dans lequel déterminer une étiquette prévue localement comprend : A) utiliser une routine de contexte local, accouplée pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local du symbole de texte, B) utiliser une base de connaissance en matière de contexte d'étiquettes, accouplée pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et C) utiliser un désambiguïsateur du contexte des étiquettes, accouplé à la routine de contexte local et à la base de connaissance en matière de contexte d'étiquettes,

pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte.
8. Article de fabrication/programme informatique/ ordinateur 1 synthétiseur vocal selon la revendication 6 dans lequel choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte comprend : A) utiliser une routine de contrôleur de chaînes d'étiquettes, accouplée pour recevoir une pluralité de chaînes <Desc/Clms Page number 25> d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et B) utiliser une base de connaissance en matière de discrimination des étiquettes, accouplée à la routine de contrôleur de chaînes d'étiquettes, ayant une pluralité de systèmes/de codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes.
9 Article de fabrication 1 circuit intégré spécifique à une application 1 microprocesseur pour désambiguiser les parties du discours des symboles de texte, comprenant : A) un étiqueteur du contexte local, accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer une étiquette prévue localement pour un symbole de texte en se basant sur un contexte local du symbole de texte, B) un étiqueteur du contexte étendu, accouplé pour recevoir la séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, C) un discriminateur, accouplé à l'étiqueteur du contexte local et à l'étiqueteur du contexte étendu,

pour choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte, quand l'étiquette prévue localement et l'étiquette de rechange sont différentes.
10. Article de fabrication 1 circuit intégré spécifique à une application 1 microprocesseur selon la revendication 9 dans lequel au moins un de A-B : A) l'étiqueteur du contexte local comprend A1-A3 : Al) un processeur du contexte local, accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local d'un symbole de texte, <Desc/Clms Page number 26> A2) une base de connaissance en matière de contexte des étiquettes, accouplée pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et A3) un désambigufsateur du contexte des étiquettes, accouplé au processeur du contexte local et à la base connaissance en matière de contexte des étiquettes,

pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte, et B) le discriminateur comprend B1-B2 : B1) un contrôleur de chaînes d'étiquette, accouplé pour recevoir une pluralité de chaînes d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et B2) une base de connaissance en matière de discrimination des étiquettes, accouplée au contrôleur des chaînes d'étiquettes, ayant une pluralité de systèmes/de codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes