BE1011964A3 - Methode, dispositif et systeme pour la desambiguisation des parties du discours. - Google Patents

Methode, dispositif et systeme pour la desambiguisation des parties du discours. Download PDF

Info

Publication number
BE1011964A3
BE1011964A3 BE9800813A BE9800813A BE1011964A3 BE 1011964 A3 BE1011964 A3 BE 1011964A3 BE 9800813 A BE9800813 A BE 9800813A BE 9800813 A BE9800813 A BE 9800813A BE 1011964 A3 BE1011964 A3 BE 1011964A3
Authority
BE
Belgium
Prior art keywords
label
context
text
labels
speech
Prior art date
Application number
BE9800813A
Other languages
English (en)
Inventor
Orhan Karaali
Andrew William Mackie
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Application granted granted Critical
Publication of BE1011964A3 publication Critical patent/BE1011964A3/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Une méthode (300), un dispositif (408) et système (400) fournissent une disambiguïsation des parties du discours pour des mots en se basant sur un traitement hybride stochastique et par réseau neural. La méthode désambiguïse les étiquettes des parties du discours de symboles de texte en obtenant un ensemble d'étiquettes annotées de manière probabiliste pour chaque symbole de texte, en déterminant un étiquette prévue localement pour chaque symbole de texte en se basant sur le contexte local du symbole de texte, en déterminant une étiquette de rechange pour chaque symbole de texte en se basant sur le contexte étendu du symbole de texte, et en choisissant entre l'étiquette prévue localement et l'étiquette de rechange sont différentes.

Description


   <Desc/Clms Page number 1> 
 



   "Méthode. dispositif et système pour la   désamb ! quïsat ! on   des parties du discours"
DOMAINE DE L'INVENTION
La présente invention concerne la désambiguïsation des parties du discours et plus particulièrement la combinaison d'un réseau neural et de processeurs stochastiques en un système hybride pour accomplir cette désambiguïsation. 



   CONTEXTE DE L'INVENTION
La   désambiguïsation   des parties du discours est le processus consistant à assigner la partie correcte du discours à chaque mot dans une phrase, en se basant sur l'usage du mot dans la phrase. Par exemple, la partie du discours du mot anglais"record"peut être soit un nom soit un verbe en fonction du contexte dans lequel le mot est utilisé ; dans la phrase"John wants to record a record", la première occurrence de"record"est utilisée comme un verbe et la deuxième est utilisée comme un nom. La reconnaissance correcte de cette distinction est particulièrement importante dans un système convertissant du texte en parole, parce que"record"est prononcé différemment selon qu'il s'agit d'un nom ou d'un verbe. 



   Comme la figure 1, référence 100, le montre, pour   désambiguïser   les parties du discours pour les mots d'un texte, les systèmes de désambiguïsation des parties du discours utilisent de manière caractéristique le processus en trois étapes suivant. L'étape 1 est l'étape de la symbolisation au cours de laquelle une chaîne de texte (101) est transformée en une séquence de symboles (104) de texte par un symboliser (102) de texte comme spécifié par une base de connaissance (103) en matière de symbolisation.

   La base de connaissance en matière de symbolisation contient de manière caractéristique des règles prédéterminées qui sont utilisées pour identifier des éléments textuels qui peuvent être classés par partie du discours Des exemples de ces éléments textuels sont des mots, des 

 <Desc/Clms Page number 2> 

 marques de ponctuation et des symboles spéciaux comme"%"et"$". L'étape 2 est l'étape d'accès au lexique au cours de laquelle chaque symbole de texte est vérifié dans un lexique (106) par un accédant au lexique (105) Le lexique consiste en un lexique statique (107) qui contient une pluralité d'éléments textuels et des étiquettes correspondantes des parties du discours, et un lexique dynamique (108) qui peut générer des étiquettes des parties du discours pour les éléments textuels qui ne sont pas stockés dans le lexique statique. 



  Comme certains éléments textuels (p. ex. le mot"record") ont plus d'une partie du discours, l'étape d'accès au lexique aura pour résultat qu'au moins une étiquette de partie du discours sera assignée à chaque symbole de texte ; la production de l'étape d'accès au lexique est donc une séquence de symboles de texte étiquetés de manière ambiguë (109).

   L'étape 3 est l'étape de désambiguïsation au cours de laquelle tous les   ambiguïtés   des parties du discours dans la séquence de symboles de texte étiquetés de manière ambiguë sont résolus par le désambiguïsateur (110) comme spécifié par la base de connaissance en matière de désambiguïsation (111), avec pour résultat une séquence de symboles de texte étiquetés de manière non ambiguë (112)
Un exemple de l'application du processus ci-dessus est présenté sur la figure 2, référence 200. Une chaîne de texte (201) est introduite dans l'étape de symbolisation qui fournit à la sortie une séquence de symboles de texte non étiquetés (202). La séquence de symboles de texte non étiquetés est introduite dans l'étape d'accès au lexique qui fournit à la sortie une séquence de symboles de texte étiquetés de manière ambiguë.

   Comme on peut le voir sur la figure 2, plusieurs symboles de texte ont plus d'une étiquette qui leur est associée ; par exemple,"wants"est un symbole de texte étiqueté de manière ambiguë (204), parce qu'il peut être utilisé soit comme un nom au pluriel (étiquette"NNS") soit comme un verbe au présent, à la troisième personne   (étiquette'VBZ").   L'ensemble de toutes les 

 <Desc/Clms Page number 3> 

 séquences d'étiquettes possibles basé sur la séquence de symboles de texte étiquetés de manière ambiguë est représenté par un graphe acyclique sélectif de séquences d'étiquettes (203).

   La séquence de symboles de texte étiquetés de manière ambiguë est introduit dans l'étape de   désambiguisation   qui détermine le meilleur chemin (205) à travers le graphe acyclique sélectif de séquences d'étiquettes, fournissant ainsi une séquence de symboles de texte étiquetés de manière non ambiguë (206). 



   On sait dans l'état de la technique que le contexte local est un fort indicateur de la partie du discours d'un mot ; par conséquent, les systèmes stochastiques basés sur le modèle statistique des collocations de mots et d'étiquettes se sont avérés une réussite Cependant, ces systèmes échouent de manière prévisible pour les structures syntaxiques qui impliquent des dépendances non locales. Comme les dépendances non locales vont au-delà des limites des systèmes stochastiques, ces effets doivent être expliqués par des systèmes qui peuvent traiter un contexte étendu.

   Il est deux problèmes à prendre en considération lors du développement de tels systèmes : l'identification et le placement de limites appropriées pour ce qui est de la quantité de contexte étendu à traiter et l'équilibrage de la contribution des indications fournies par le traitement du contexte local et du contexte étendu. 



   C'est pourquoi il est nécessaire d'avoir une méthode, un dispositif et un système pour la   désambiguïsation   des parties du discours qui combine avantageusement le traitement du contexte local et du contexte étendu. 



   BREVE DESCRIPTION DES DESSINS
La figure 1 est une représentation schématique d'un système de   désambiguïsation   des parties du discours pour désambiguïser les parties du discours de symboles de texte comme cela est connu dans l'état de la technique. 

 <Desc/Clms Page number 4> 

 



   La figure 2 est une représentation schématique du traitement d'un texte introduit par le système de la figure 1 comme cela est connu dans l'état de la technique. 



   La figure 3 est un schéma fonctionnel d'une réalisation d'étapes en conformité avec la présente invention, qui exécute la   désambigutsation   des parties du discours par l'évaluation du contexte local et du contexte étendu. 



   La figure 4 est une représentation schématique d'une réalisation d'un désambiguïsateur hybride des parties du discours qui évalue le contexte local et le contexte étendu en conformité avec la présente invention. 



   La figure 5 est une représentation schématique d'une réalisation d'un   désambigu) sateur   stochastique des parties du discours qui évalue le contexte local en conformité avec la présente invention. 



   La figure 6 est une représentation schématique d'une réalisation d'un désambiguïsateur des parties du discours d'un réseau neural qui   évalue   le contexte étendu en conformité avec la présente invention. 



   La figure 7 est une représentation schématique d'une réalisation de la construction de vecteurs de caractéristiques d'étiquettes pondérés de manière probabiliste en conformité avec la présente invention. 



   La figure 8 est une représentation schématique d'une réalisation d'un discnminateur d'étiquettes basé sur des règles en conformité avec la présente invention. 



   DESCRIPTION DETAILLEE D'UNE REALISATION PREFEREE
La présente invention fournit une méthode, un dispositif et un système pour désambiguïser les parties du discours de mots dans un texte en prenant en considération l'information du contexte local et du contexte étendu. La prise en compte du contexte étendu permet d'améliorer la précision des méthodes qui se fondent sur le seul contexte 

 <Desc/Clms Page number 5> 

 local La désambiguïsation correcte des parties du discours pour des mots est utile dans une variété d'applications de traitement de texte et de synthèse vocale
Comme le montrent les étapes reprises sur la figure 3, référence 300, la méthode selon la présente invention fournit, en réponse à l'introduction de texte, la génération efficace d'étiquettes non ambiguës des parties du discours pour ce texte.

   La méthode comprend les étapes suivantes : A) obtenir (301) un ensemble d'étiquettes annotées de manière probabiliste pour un symbole de texte, B) déterminer (301) une étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte et déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, et C) choisir (303), en utilisant un discriminateur, entre l'étiquette prévue localement et l'étiquette de rechange quand l'étiquette prévue localement et l'étiquette de rechange sont différentes. 



   L'étape C peut comprendre, en outre, le choix d'une étiquette prévue lexicalement. L'étiquette prévue lexicalement est définie comme l'étiquette la plus probable pour le symbole de texte. 



   L'étiquette prévue localement est déterminée de manière caractéristique en utilisant un des éléments suivants : A) un algorithme pour la désambiguisation des parties du discours en se basant sur le contexte local, B) un système de règles pour la désambiguïsation des parties du discours en se basant sur le contexte local, C) un réseau neural   entraîné   pour désambiguiser des parties du discours en se basant sur le contexte local, D) une arborescence de décisions pour la désambiguïsation des parties du discours en se basant sur le contexte local, E) un algorithme génétique pour la désambiguïsation des parties du discours en se basant sur le contexte local, et F) une combinaison d'au moins deux des éléments A-E
L'étiquette de rechange est généralement déterminée en utilisant un des éléments suivants :

   A) un système de règles pour 

 <Desc/Clms Page number 6> 

 désambiguïser des parties du discours en se basant sur le contexte étendu, B) un réseau neural entraîné pour désambiguïser des parties du discours en se basant sur le contexte étendu, C) une arborescence de décisions pour la désambiguïsation des parties du discours en se basant sur le contexte étendu, D) un algorithme génétique pour la désambiguïsation des parties du discours en se basant sur le contexte étendu, et E) une combinaison d'au moins deux des éléments A-D. 



   La figure 4, référence 400, est une représentation schématique d'une réalisation d'un   dispositif 1 système   en conformité avec la présente invention, qui désambiguïse des symboles de texte étiquetés de manière ambiguë. Le dispositif/système (408) est de manière caractéristique un article de fabrication, un circuit intégré spécifique à une application   (ASIC),   un microprocesseur, un programme informatique, un ordinateur, un synthétiseur vocal ou un article similaire. 



  Le   dispositif 1 système (40S)   reçoit comme apport une séquence de symboles de texte étiquetés de manière probabiliste (401) et produit à la sortie une séquence correspondante de symboles de texte étiquetés de manière non ambiguë (409). Le dispositif/système consiste de manière caractéristique en un étiqueteur du contexte local (402), un étiqueteur du contexte étendu (403) et un discriminateur (407). 



   L'étiqueteur du contexte local (402) reçoit comme apport la séquence de symboles de texte étiquetés de manière probabiliste et produit à la sortie une séquence d'étiquettes prévues lexicalement (405) et une séquence de symboles de texte avec des étiquettes prévues localement (404) Chaque symbole de texte étiqueté de manière probabiliste a un ensemble d'étiquettes consistant en une pluralité d'étiquettes, l'étiqueteur du contexte local exécute deux opérations de désambiguisation sur l'ensemble d'étiquettes comme suit. Premièrement, une étiquette prévue lexicalement est choisie dans l'ensemble d'étiquettes en se basant sur la probabilité lexicale. Deuxièmement, une étiquette prévue localement est choisie dans l'ensemble d'étiquettes en 

 <Desc/Clms Page number 7> 

 se basant sur le contexte local.

   Ces deux opérations sont examinées plus en détail dans la discussion de la figure 5 ci-dessous
L'étiqueteur du contexte étendu (403) reçoit comme apport la séquence des symboles de texte étiquetés de manière probabiliste et produit à la sortie une séquence d'étiquettes de rechange (406). Chaque symbole de texte étiqueté de manière probabiliste a au moins une étiquette ; dans le cas où le symbole de texte étiqueté de manière probabiliste a un ensemble d'étiquettes consistant en une pluralité d'étiquettes, l'étiqueteur du contexte étendu choisit l'étiquette de rechange en se basant sur une évaluation du contexte étendu du symbole de texte.

   Cette opération est examinée plus en détail dans la discussion sur la figure 6 ci-dessous
Le discriminateur (407) reçoit comme apport la séquence de symboles de texte étiquetés de manière probabiliste et la séquence d'étiquettes prévues lexicalement de l'étiqueteur du contexte local et la séquence d'étiquettes de rechange de l'étiqueteur du contexte étendu et fournit une séquence de symboles de texte étiquetés de manière non ambiguë en sa basant sur une évaluation des différences entre les étiquettes introduites, comme cela est présenté dans la discussion sur la figure 8 ci-dessous. 



   La figure 5, référence 500, est une représentation schématique d'une réalisation d'un dispositif/système en conformité avec l'étiqueteur du contexte local (510) de la présente invention, qui désambiguïse les symboles de texte étiquetés de manière probabiliste en fonction du contexte local des symboles. L'étiqueteur du contexte local reçoit comme apport une séquence de symboles de texte étiquetés de manière probabiliste (501) et produit à la sortie une séquence d'étiquettes prévues lexicalement (505) et une séquence de symboles de texte avec des étiquettes prévues localement (509)
Un processeur du contexte local (502) traite les symboles de texte étiquetés de manière probabiliste et produit trois chaînes de 

 <Desc/Clms Page number 8> 

 sortie comme suit.

   La première chaîne est une séquence d'étiquettes prévues lexicalement (505), qui est générée en examinant les annotations probabilistes des symboles de texte étiquetés de manière probabiliste et en choisissant, pour chaque symbole de texte, l'étiquette la plus probable En cas d'étiquettes également probables, un algorithme déterministe (p. ex. ordre de tri des codes d'étiquette) est employé pour générer une unique étiquette et ce pour s'assurer que le discriminateur peut se fier à l'apport déterministe dans cette chaîne. La deuxième chaîne est une séquence annotée de symboles de texte étiquetés de manière probabiliste (504). Les annotations ajoutent des informations utiles pour l'algorithme spécifique de l'étiqueteur du contexte local utilisé pour   la désambiguisation,   c'est-à-dire des faits de capitalisation, etc. 



  Enfin, la troisième chaîne est un ensemble d'étiquettes en contexte local (503) pour chaque symbole de texte. En cas de désambiguïsation stochastique basée sur un bigramme, ces ensembles consisteraient en paires d'étiquettes correspondant à toutes les collocations possibles entre les étiquettes de deux symboles de texte contigus ; p ex., si le premier symbole de texte avait n étiquettes possibles et que le deuxième symbole de texte avait m étiquettes possibles, la cardinalité de l'ensemble d'étiquettes en contexte serait mn. 



   Le désambiguïsateur du contexte des étiquettes (508) désambiguïse les ensembles d'étiquettes dans la séquence de symboles de texte étiquetés de manière probabiliste en utilisant un algorithme de désambiguïsation du contexte local prédéterminé, en se basant sur les probabilités du contexte des étiquettes (507) fournies par la base de connaissance en matière de contexte des étiquettes (506). Par exemple, si l'algorithme de désambiguïsation du contexte local était une désambiguïsation stochastique basée sur un bigramme, ces probabilités seraient les probabilités conditionnelles de chaque étiquette dans l'ensemble d'étiquettes du symbole de texte actuel quand elle est précédée par une étiquette dans l'ensemble d'étiquettes du symbole de 

 <Desc/Clms Page number 9> 

 texte précédent, comme cela est déterminé par l'analyse du corpus.

   Une recherche Viterbi est utilisée de manière caractéristique pour s'assurer que le calcul du chemin optimal à travers le réseau d'ensembles d'étiquettes s'effectue en temps linéaire par rapport à la longueur du chemin La production de ce processus est une séquence de symboles de texte avec des étiquettes prévues localement (509). 



   Le réseau neural produit un vecteur d'hypothèses de sortie en se basant sur ses vecteurs d'introduction, la chaîne 2, la chaîne 3 et la chaîne 4 ainsi que sur les fonctions de transfert interne utilisées par les éléments de traitement (PE). Les coefficients utilisés dans les fonctions de transfert sont variés pendant le processus d'entraînement pour varier le vecteur de sortie.

   Il est fait collectivement référence aux coefficients des fonctions de transfert comme aux pondérations du réseau neural et les pondérations sont variées au cours du processus d'entraînement pour varier le vecteur de sortie produit par les vecteurs d'entrée donnés Les pondérations sont réglées initialement sur de petites valeurs aléatoires dans la plage de-0, 01 à 0,01 La description du contexte sert de vecteur d'entrée et est appliquée aux entrées dans le réseau neural La description du contexte est traitée en fonction des valeurs de pondération du réseau neural pour produire un vecteur de sortie, c'est-à-dire la représentation associée à l'étiquette de rechange. 



  Au début de la session d'entraînement, la représentation associée à l'étiquette de rechange n'est pas significative, étant donné que les pondérations du réseau neural sont des valeurs aléatoires. Un vecteur de signal d'erreur est généré proportionnellement à la distance entre la représentation associée à l'étiquette de rechange et la représentation cible assignée à l'étiquette de rechange, la chaîne 1. 



   Le signal d'erreur est calculé pour être la distance brute entre la représentation associée de l'étiquette de rechange et la représentation cible de l'étiquette de rechange en utilisant, par exemple, une mesure de distance dans l'espace euclidien présentée dans 

 <Desc/Clms Page number 10> 

   l'équation 1.   



   Équation 1 
 EMI10.1 
 
Après calcul du signal d'erreur, les valeurs de pondération sont ajustées dans un sens pour réduire le signal d'erreur. Ce processus est répété un certain nombre de fois pour les paires associées de descriptions du contexte introduites et les représentations cibles assignées aux étiquettes de rechange. Ce processus d'ajustement des pondérations pour rapprocher la représentation associée à l'étiquette de rechange de la représentation cible assignée à l'étiquette de rechange est l'entraînement du réseau neural. Cet entraînement utilise la méthode standard de rétropropagation des erreurs.

   Quand le réseau neural est entraîné, les valeurs de pondération possèdent l'information nécessaire pour convertir la description du contexte en un vecteur de sortie d'une valeur similaire à celle de la représentation cible assignée à l'étiquette de rechange La mise en oeuvre préférée du réseau neural requiert jusqu'à dix millions de présentations de la description du contexte à ses entrées et les ajustements de pondération suivants avant que le réseau neural ne soit considéré comme pleinement entraîné
Le réseau neural contient des blocs avec deux types de fonction d'activation, sigmoïde et softmax, comme cela est connu dans l'état de la technique La fonction d'activation softmax est présentée dans l'équation 2 dans laquelle 1 est l'entrée dans la fonction de transfert,

   qui est la somme de toutes les entrées pondérées dans l'élément de traitement et la fonction d'activation sigmoïde est présentée dans l'équation 3 

 <Desc/Clms Page number 11> 

 Équation 2 
 EMI11.1 
 Équation 3 
 EMI11.2 
 
La figure 6, référence 600, illustre l'architecture de réseau neural utilisée par la présente invention dans une réalisation préférée. 



  La chaîne 2 (601), les étiquettes sont introduites dans le bloc d'entrée 1 (604). Le bloc d'entrée 1 (604) extrait alors le contexte étendu qui, dans la présente réalisation, est défini comme étant les quatre étiquettes précédentes, l'étiquette actuelle et les quatre futures étiquettes. Le bloc d'entrée 1 (604) passe les quatre étiquettes précédentes et les quatre futures étiquettes dans le bloc 4 (607) du réseau neural Il y a 46 étiquettes possibles qui sont codées avec 1-de-n codage. Les quatre futures étiquettes produisent 184 sorties supplémentaires (4*46). Le bloc 4 (607) du réseau neural utilise des fonctions de transfert sigmodes et a 20 éléments de traitement (PE). Le bloc 4 (607) du réseau neural passe sa production au bloc 7 (610) du réseau neural. Le bloc d'entrée 1 (604) passe l'étiquette actuelle au bloc 8 (611) du réseau neural. 



   La chaîne 3 (602), les caractéristiques sont introduites dans le bloc d'entrée 2 (605) Le bloc d'entrée 2 (605) extrait alors les quatre caractéristiques précédentes, la caractéristique actuelle et les quatre futures caractéristiques. Le bloc d'entrée 2 (605) passe les quatre caractéristiques précédentes et les quatre futures caractéristiques au bloc 5 (608) du réseau neural. Il y a 24 caractéristiques possibles et 

 <Desc/Clms Page number 12> 

 elles sont codées avec m-de-n codage. Les quatre caractéristiques précédentes produisent 96 sorties (4*24). Les quatre futures caractéristiques produisent 96 sorties supplémentaires (4*24). Le bloc 5 (608) du réseau neural utilise des fonctions de transfert sigmoides et a 20 éléments de traitement (PE). Le bloc 5 (608) du réseau neural passe sa production au bloc 7 (610) du réseau neural.

   Le bloc d'entrée 2 (605) passe l'étiquette actuelle au bloc 8 (611) du réseau neural. 



   La chaîne 4 (603), les limites sont introduites dans le bloc d'entrée 3 (606). Le bloc d'entrée 3 (606) passe alors les limites au bloc 6 (609) du réseau neural. Le bloc 6 (609) du réseau neural utilise des fonctions de transfert sigmoïdes et a 10 éléments de traitement (PE). Le bloc 6 (609) du réseau neural passe sa production au bloc 7 (610) du réseau neural. 



   Le bloc 7 (610) du réseau neural utilise des fonctions de transfert sigmoides et a 20 éléments de traitement (PE). Le bloc 7 (610) du réseau neural passe sa production au bloc 8 (611) du réseau neural. 



   Le bloc 8 (611) du réseau neural utilise des fonctions de transfert softmax et a 46 éléments de traitement (PE). Le bloc 8 (611) du réseau neural calcule et passe l'étiquette de rechange la plus probable au bloc de sortie 9 (612). Le bloc de sortie 9 (612) fournit l'étiquette de rechange à la chaîne 1 (613). 



   Pendant la phase d'entraînement de l'étiqueteur du contexte étendu (614), la chaîne 1 (613), l'encodage numérique des étiquettes de rechange cibles est introduit dans le bloc de sortie 9 (612). 



  Le bloc de sortie 9 (612) calcule le signal d'erreur et propage en retour le signal d'erreur au bloc 8 (611) du réseau neural. Ce signal d'erreur est alors propagé en retour aux blocs 7 (610), 6 (609), 5 (608) et 4 (607) du réseau neural. 



   Pendant la rétropropagation du signal d'erreur, les pondérations des blocs du réseau neural sont modifiées de manière à réduire le signal d'erreur. 

 <Desc/Clms Page number 13> 

 



   La figure 7, référence   700,   est une représentation schématique d'une réalisation de la construction de vecteurs de caractéristiques d'étiquettes pondérés de manière probabiliste en conformité avec la présente invention. Le lexique annoté de manière probabiliste (701) contient des enregistrements (703) pour chaque mot dans lesquels sont stockées les étiquettes qui peuvent être associées avec le mot, chacune d'entre elles étant étiquetée avec une probabilité d'occurrence basée sur une analyse du corpus.

   Dans l'exemple, le mot "round"a été déterminé comme survenant 5 % du temps dans un corpus 
 EMI13.1 
 de référence comme un adjectif (étiquette"JJ"), 85 % du temps comme un nom (étiquette"NN"), 7 % du temps comme une forme de base verbale   (étiquette'VB")   et 3 % du temps comme un verbe au présent, et n'étant pas à la troisième personne du singulier   (étiquette"VBP).   



   La liste de vecteurs de caractéristiques d'étiquettes (702) contient un vecteur de caractéristiques d'étiquettes pour chacune des 45 étiquettes des parties du discours dans la présente réalisation. Chaque vecteur de caractéristiques d'étiquettes contient un vecteur booléen de N éléments (N=23 dans la présente réalisation), dont chaque élément est un unique bit qui indique la présence (signifiée   par"1")   ou l'absence (signifiée   par"0")   d'une caractéristique spécifique.

   Par exemple, dans la présente réalisation, le premier bit du vecteur de caractéristiques d'étiquettes indique si l'étiquette correspondante fait ou non partie d'une classe ouverte, le deuxième bit indique si l'étiquette correspondante identifie ou non un spécificateur, le troisième bit indique si l'étiquette correspondante identifie ou non un modificateur, etc. 



   Dans le présent exemple, pour construire le vecteur de caractéristiques pondéré de manière probabiliste pour le mot"round", un vecteur de caractéristiques pondéré de manière probabiliste est construit par chacune des étiquettes de"round"en se basant sur les probabilités d'étiquetage associées avec"round"telles qu'elles sont déduites du corpus de référence C'est ainsi que dans l'exemple, l'étiquette d'adjectif 

 <Desc/Clms Page number 14> 

 ("JJ") ayant une probabilité d'occurrence de 5 % a pour résultat un vecteur de caractéristiques contenant 0, 05 dans ses première, troisième et cinquième positions (correspondant à la décomposition en caractéristiques de l'étiquette adjectif de [+ ouvert, + modificateur, + statique]). 



   Le processus ci-dessus est appliqué aux quatre étiquettes de"round", avec pour résultat quatre vecteurs de caractéristiques pondérés de manière probabiliste (705), qui sont alors additionnés pour donner le vecteur de caractéristiques pondéré de manière probabiliste pour le mot"round" (706). Le vecteur de caractéristiques pondéré de manière probabiliste indique les probabilités d'occurrence de caractéristiques particulières   de"round", c'est-à-dire qu'il   y a une probabilité de 100 % que (dans le présent exemple) le mot"round" survienne comme usage de classe ouverte, et une probabilité de 95 % que"round"soit une tête de construction (par opposition à un modificateur (5 %) ou un spécificateur (0 %)).

   De même, il y a une probabilité de 90 % que"round"soit utilisé de manière statique (c'est-àdire dans une construction nominale) et de 10 %   que "round" soit utilisé   de manière dynamique (c'est-à-dire dans une construction verbale). Le vecteur de caractéristiques pondéré de manière probabiliste est présenté au réseau neural afin que le réseau neural puisse s'entraîner sur la base d'une représentation plus riche de la fonctionnalité syntaxique des mots que celle qui peut être fournie par les seules étiquettes. 



   La figure 8, référence 800, est une représentation schématique d'une réalisation d'un dispositif/système en conformité avec le discriminateur (806) de la présente invention, qui discrimine entre les étiquettes appliquées à un symbole de texte donné par des algorithmes de désambiguïsation différents, en se basant sur les caractéristiques observées des algorithmes. Le contrôleur des chaînes d'étiquettes (804) du discriminateur reçoit comme apport une pluralité de 

 <Desc/Clms Page number 15> 

 chaînes d'entrée dont chacune contient une séquence d'étiquettes dans laquelle pour chaque chaîne d'entrée la séquence d'étiquettes est choisie par un algorithme de   désambiguisation   des étiquettes opérant sur la même séquence de symboles de texte étiquetés de manière probabiliste.

   Dans la présente réalisation, les trois chaînes suivantes sont utilisées : la séquence de symboles de texte avec des étiquettes 
 EMI15.1 
 prévues localement (801), la séquence d'étiquettes prévues lexicalement (802) et la séquence d'étiquettes de rechange (803). Dans le cas où une étiquette dans au moins une des trois chaînes n'est pas en accord avec les autres pour un symbole de texte donné, une étiquette de sortie est déterminée en discriminant parmi la pluralité d'étiquettes, en se référant aux procédures stockées dans la base de connaissance en matière de discrimination d'étiquettes (805). Dans la présente réalisation, la base de connaissance en matière de discrimination d'étiquettes contient un jeu de règles caractérisant l'exactitude des différents algorithmes d'étiquetage par rapport à l'entrée prédéterminée.

   D'autre part, cette information pourrait être fournie par un réseau neural entraîné sur la base du comportement observé des algorithmes d'étiquetage La production du discriminateur est une séquence de symboles de texte étiquetés de manière non ambiguë (807). 



   La méthode peut être appliquée par un code de programme lisible par ordinateur sur un support exploitable par l'ordinateur. Le logiciel mettant en oeuvre la méthode peut être intégré dans un microprocesseur ou un processeur de signaux numériques. Le système peut être intégré dans un support tangible ayant un code de programme informatique. D'autre part, un circuit intégré spécifique à une application (ASIC) peut mettre en oeuvre la méthode, ou une combinaison de deux de ces mises en oeuvre ou plus peut être utilisée. Par exemple, la méthode peut être mise en oeuvre par un ordinateur et un synthétiseur vocal. 



   Donc, la présente invention peut être intégrée dans un 

 <Desc/Clms Page number 16> 

 article de fabrication comme un circuit intégré spécifique à une application, un microprocesseur, un programme informatique, un ordinateur ou un synthétiseur vocal qui est utilisé pour désambiguïser les parties du discours de symboles de texte. Si l'article de fabrication comprend un dispositif pour mettre en oeuvre un support exploitable par l'ordinateur, le support exploitable par l'ordinateur comprend de manière caractéristique un code de programme lisible par ordinateur pour mettre en oeuvre les routines logicielles suivantes. D'autre part, l'article de fabrication peut comprendre des circuits matériels pour mettre en oeuvre les routines logicielles.

   Les circuits matériels de l'article de fabrication comprennent un étiqueteur du contexte local (402), un étiqueteur du contexte étendu (403) et un discriminateur (407). 



   L'étiqueteur du contexte local (402) est accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste et est utilisé pour déterminer une étiquette prévue localement pour un symbole de texte en se basant sur un contexte local du symbole de texte, comme cela est décrit de manière plus spécifique ci-dessus L'étiqueteur du contexte étendu (403) est accouplé pour recevoir la séquence de symboles de texte étiquetés de manière probabiliste et est utilisé pour déterminer une étiquette de rechange pour un symbole de texte en se basant sur un contexte étendu du symbole de texte.

   Le discriminateur (407) est accouplé à l'étiqueteur du contexte local et à l'étiqueteur du contexte étendu, pour choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte, si l'étiquette prévue localement et l'étiquette de rechange sont différentes. 



   L'étiqueteur de contexte local comprend généralement. un processeur du contexte local (502), accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local d'un symbole de texte, une base de connaissance en matière de contexte des étiquettes   (506),   accouplée 

 <Desc/Clms Page number 17> 

 pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et un désambiguïsateur du contexte des étiquettes (508), accouplé au processeur du contexte local et à la base de connaissance en matière de contexte des étiquettes, pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte. 



   Le discriminateur comprend généralement. un contrôleur de chaînes d'étiquettes (804), accouplé pour recevoir une pluralité de chaînes d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et une base de connaissance en matière de discrimination des étiquettes (805), accouplée au contrôleur des chaînes d'étiquettes, ayant une pluralité de   systèmes/de   codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes. 



   Si l'article de fabrication comprend un programme informatique, un ordinateur ou un synthétiseur vocal pour désambiguïser les parties du discours de symboles de texte, l'àrticle de fabrication a un support exploitable par l'ordinateur avec un code de programme lisible par ordinateur dans lequel le code de programme lisible par ordinateur met en oeuvre les étapes suivantes : A) déterminer une étiquette prévue localement pour un symbole de texte en se basant sur un contexte local du symbole de texte, B déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, et C) choisir, en utilisant une routine de discriminateur, entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte, si l'étiquette prévue localement et l'étiquette de rechange sont différentes. 



   Déterminer une étiquette prévue localement comprend généralement : A) utiliser une routine du contexte local, accouplée pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local du symbole de texte, B) 

 <Desc/Clms Page number 18> 

 utiliser une base de connaissance en matière de contexte d'étiquettes, accouplée pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et C) utiliser un désambiguïsateur du contexte des étiquettes, accouplé à la routine du contexte local et à la base de connaissance en matière de contexte d'étiquettes, pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte. 



   Choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte comprend généralement : A) utiliser une routine de contrôleur de chaînes d'étiquettes, accouplée pour recevoir une pluralité de chaînes d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et B) utiliser une base de connaissance en matière de discrimination des étiquettes, accouplée à la routine du contrôleur de chaînes d'étiquettes, ayant une pluralité de systèmes 1 de codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes. 



   La présente invention peut être réalisée dans d'autres formes spécifiques sans s'écarter de son esprit ou de ses caractéristiques essentielles. Les réalisations décrites ne sont à considérer à tous égards que comme des exemples et comme non restrictives La portée de l'invention est, par conséquent, indiquée dans les revendications annexées plutôt que dans la description susdite Tous les changements qui relèvent du sens et du champ d'équivalence des revendications sont à inclure dans son champ d'application. 

 <Desc/Clms Page number 19> 

 



  Figure 1 (100) État de la technique antérieure 101 chaîne de texte 102 symboliser de texte 103 base de connaissance en matière de symbolisation 104 (symboles de texte non étiquetés) 105 accédant au lexique 106 lexique 107 lexique statique 108 lexique dynamique 109 symboles de texte étiquetés de manière ambiguë 110   désambiguisateur   111 base de connaissance en matière de désambiguïsation 112 symboles de texte étiquetés de manière non ambiguë Figure 2 (200) État de la technique antérieure 201   chat ne   de texte 202 (symboles de texte non étiquetés) 203 (graphe acyclique sélectif de séquences d'étiquettes) 204 (symboles de texte étiquetés de manière ambiguë) 205 (meilleur chemin) 206 (symboles de texte étiquetés de manière non ambiguë) Figure 3 (300)

   301 obtenir un ensemble d'étiquettes annotées de manière probabiliste pour un symbole de texte 302 déterminer une étiquette prévue localement pour le symbole en se basant sur un contexte local pour le symbole de texte et déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu pour le symbole de texte 303 choisir, en utilisant un discriminateur, entre l'étiquette prévue localement et l'étiquette de rechange quand l'étiquette prévue 

 <Desc/Clms Page number 20> 

 localement et l'étiquette de rechange sont différentes 304 inclure en outre, dans l'étape consistant à choisir, un choix étiquette prévue lexicalement Figure 4 (400)

   401 symboles de texte étiquetés de manière probabiliste 402 étiqueteur du contexte local 403 étiqueteur du contexte étendu 404 symboles de texte avec des étiquettes prévues localement 405 étiquettes prévues lexicalement 406 (étiquettes de rechange) 407 discriminateur 408 article de   fabrication 1 ASIC 1 microprocesseur 1   programme   informatique 1 ordinateur 1 synthétiseur vocal   409 symboles de texte étiquetés de manière non ambiguë Figure 5 (500)

   501 symboles de texte étiquetés de manière probabiliste 502 processeur du contexte local 503 étiquettes en contexte local 504 symboles de texte étiquetés de manière probabiliste 505 étiquettes prévues lexicalement 506 base de connaissance en matière de contexte d'étiquettes 507 probabilités du contexte d'étiquettes 508 désambiguïsateur du contexte d'étiquettes 509 symboles de texte avec des étiquettes prévues localement 510 étiqueteur du contexte local Figure 6 (600)

   601 chaîne 2 étiquettes 602 chaîne 3 caractéristiques 

 <Desc/Clms Page number 21> 

 603 chaîne 4 limites 604 bloc d'entrée 1 605 bloc d'entrée 2 606 bloc d'entrée 3 607 bloc sigmolde 4 du réseau neural 608 bloc sigmoïde 5 du réseau neural 609 bloc sigmoïde 6 du réseau neural 610 bloc sigmoïde 7 du réseau neural 611 bloc softmax 8 du réseau neural 612 bloc de sortie 9 613 chaîne 1 étiquettes de rechange 614 étiqueteur du contexte étendu Figure 7 (700) 701 lexique annoté de manière probabiliste 702 vecteurs de caractéristiques d'étiquettes Figure 8 (800)

   801 symboles de texte avec des étiquettes prévues localement 802 étiquettes prévues lexicalement 803 étiquettes de rechange 804 contrôleur des chaînes d'étiquettes 805 base de connaissance en matière de discrimination d'étiquettes 806 discriminateur 807 symboles de texte étiquetés de manière non ambiguë

Claims (10)

  1. REVENDICATIONS 1. Méthode pour fournir des étiquettes non ambiguës des parties du discours à des symboles de texte dans un texte d'entrée comprenant les étapes suivantes : A) obtenir un ensemble d'étiquettes annotées de manière probabiliste pour un symbole de texte, B) déterminer une étiquette prévue localement pour le symbole de texte en se basant sur un contexte local du symbole de texte et déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, C) choisir, en utilisant un discriminateur, entre l'étiquette prévue localement et l'étiquette de rechange quand l'étiquette prévue localement et l'étiquette de rechange sont différentes.
  2. 2. Méthode selon la revendication 1 comprenant en outre le choix d'une étiquette prévue lexicalement dans l'étape C.
  3. 3. Méthode selon la revendication 1 dans laquelle l'étiquette prévue localement est déterminée en utilisant un des éléments suivants.
    A) un algorithme stochastique pour la désambiguïsation des parties du discours basée sur le contexte local, B) un système de règles pour la désambiguïsation des parties du discours basée sur un contexte local, C) un réseau neural entraîné pour désambiguïser des parties du discours en se basant sur le contexte local, D) une arborescence de décisions pour la désambiguïsation des parties du discours basée sur le contexte local, E) un algorithme génétique pour la désambiguïsation des parties du discours basée sur un contexte local, et F) une combinaison d'au moins deux des éléments A-E.
  4. 4. Méthode selon la revendication 1 dans laquelle l'étiquette de rechange est déterminée en utilisant un des éléments <Desc/Clms Page number 23> suivants : A) un système de règles pour désambiguïser les parties du discours en se basant sur le contexte étendu, B) un réseau neural entraîné pour désambiguïser les parties du discours en se basant sur le contexte étendu, C) une arborescence de décisions pour la désambigufsation des parties du discours basée sur le contexte étendu, D) un algorithme génétique pour la désambiguïsation des parties du discours basée sur un contexte étendu, et E) une combinaison d'au moins deux des éléments A-D.
  5. 5.
    Méthode selon la revendication 1 dans laquelle le choix entre l'étiquette déterminée localement et l'étiquette de rechange est déterminé en utilisant un des éléments suivants : A) un système de règles pour discriminer entre des étiquettes basées sur des caractéristiques observées d'un étiqueteur du contexte local et d'un étiqueteur du contexte étendu, B) un réseau neural entraîné pour discriminer entre des étiquettes basées sur des caractéristiques observées de l'étiqueteur du contexte local et de l'étiqueteur du contexte étendu, C) une arborescence de décisions entraînée pour discriminer entre des étiquettes basées sur les caractéristiques observées de l'étiqueteur du contexte local et de l'étiqueteur du contexte étendu, D)
    un algorithme génétique entraîné pour discriminer entre des étiquettes basées sur les caractéristiques observées de l'étiqueteur du contexte local et de l'étiqueteur du contexte étendu, E) une combinaison d'au moins deux des éléments A-D.
  6. 6. Article de fabrication/programme informatique/ ordinateur 1 synthétiseur vocal pour désambiguïser les parties du discours de symboles de texte, ayant un support exploitable par l'ordinateur avec un code de programme lisible par ordinateur dans <Desc/Clms Page number 24> lequel le code de programme lisible par ordinateur met en oeuvre les étapes suivantes :
    A) déterminer une étiquette prévue localement pour le symbole de texte en se basant sur un contexte local du symbole de texte B) déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, et C) choisir, en utilisant un discriminateur, entre une étiquette prévue localement et une étiquette de rechange quand l'étiquette prévue localement et l'étiquette de rechange sont différentes.
  7. 7. Article de fabrication/programme informatique/ ordinateur 1 synthétiseur vocal selon la revendication 6 dans lequel déterminer une étiquette prévue localement comprend : A) utiliser une routine de contexte local, accouplée pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local du symbole de texte, B) utiliser une base de connaissance en matière de contexte d'étiquettes, accouplée pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et C) utiliser un désambiguïsateur du contexte des étiquettes, accouplé à la routine de contexte local et à la base de connaissance en matière de contexte d'étiquettes,
    pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte.
  8. 8. Article de fabrication/programme informatique/ ordinateur 1 synthétiseur vocal selon la revendication 6 dans lequel choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte comprend : A) utiliser une routine de contrôleur de chaînes d'étiquettes, accouplée pour recevoir une pluralité de chaînes <Desc/Clms Page number 25> d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et B) utiliser une base de connaissance en matière de discrimination des étiquettes, accouplée à la routine de contrôleur de chaînes d'étiquettes, ayant une pluralité de systèmes/de codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes.
  9. 9 Article de fabrication 1 circuit intégré spécifique à une application 1 microprocesseur pour désambiguiser les parties du discours des symboles de texte, comprenant : A) un étiqueteur du contexte local, accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer une étiquette prévue localement pour un symbole de texte en se basant sur un contexte local du symbole de texte, B) un étiqueteur du contexte étendu, accouplé pour recevoir la séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer une étiquette de rechange pour le symbole de texte en se basant sur un contexte étendu du symbole de texte, C) un discriminateur, accouplé à l'étiqueteur du contexte local et à l'étiqueteur du contexte étendu,
    pour choisir entre une étiquette prévue localement et une étiquette de rechange pour le symbole de texte, quand l'étiquette prévue localement et l'étiquette de rechange sont différentes.
  10. 10. Article de fabrication 1 circuit intégré spécifique à une application 1 microprocesseur selon la revendication 9 dans lequel au moins un de A-B : A) l'étiqueteur du contexte local comprend A1-A3 : Al) un processeur du contexte local, accouplé pour recevoir une séquence de symboles de texte étiquetés de manière probabiliste, pour déterminer le contexte local d'un symbole de texte, <Desc/Clms Page number 26> A2) une base de connaissance en matière de contexte des étiquettes, accouplée pour recevoir une séquence d'étiquettes en contexte, pour déterminer les probabilités du contexte des étiquettes, et A3) un désambigufsateur du contexte des étiquettes, accouplé au processeur du contexte local et à la base connaissance en matière de contexte des étiquettes,
    pour déterminer l'étiquette prévue localement pour le symbole de texte en se basant sur le contexte local du symbole de texte, et B) le discriminateur comprend B1-B2 : B1) un contrôleur de chaînes d'étiquette, accouplé pour recevoir une pluralité de chaînes d'étiquettes, pour produire une séquence de symboles de texte étiquetés de manière non ambiguë, et B2) une base de connaissance en matière de discrimination des étiquettes, accouplée au contrôleur des chaînes d'étiquettes, ayant une pluralité de systèmes/de codes lisibles par ordinateur/de circuits pour discriminer entre les étiquettes fournies par la pluralité de chaînes d'étiquettes
BE9800813A 1997-11-07 1998-11-06 Methode, dispositif et systeme pour la desambiguisation des parties du discours. BE1011964A3 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/965,696 US6182028B1 (en) 1997-11-07 1997-11-07 Method, device and system for part-of-speech disambiguation

Publications (1)

Publication Number Publication Date
BE1011964A3 true BE1011964A3 (fr) 2000-03-07

Family

ID=25510355

Family Applications (1)

Application Number Title Priority Date Filing Date
BE9800813A BE1011964A3 (fr) 1997-11-07 1998-11-06 Methode, dispositif et systeme pour la desambiguisation des parties du discours.

Country Status (3)

Country Link
US (1) US6182028B1 (fr)
BE (1) BE1011964A3 (fr)
WO (1) WO1999024968A1 (fr)

Families Citing this family (177)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286294B2 (en) * 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US5600364A (en) * 1992-12-09 1997-02-04 Discovery Communications, Inc. Network controller for cable television delivery systems
US7168084B1 (en) 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
WO2000077773A1 (fr) * 1999-06-15 2000-12-21 Genologic Gmbh Procede et dispositif de reconnaissance vocale, d'identification du locuteur, et de synthese vocale automatiques
US6789231B1 (en) * 1999-10-05 2004-09-07 Microsoft Corporation Method and system for providing alternatives for text derived from stochastic input sources
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US8745093B1 (en) * 2000-09-28 2014-06-03 Intel Corporation Method and apparatus for extracting entity names and their relations
US6859771B2 (en) * 2001-04-23 2005-02-22 Microsoft Corporation System and method for identifying base noun phrases
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7908628B2 (en) 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
US7136802B2 (en) * 2002-01-16 2006-11-14 Intel Corporation Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
US20030149562A1 (en) * 2002-02-07 2003-08-07 Markus Walther Context-aware linear time tokenizer
US6988063B2 (en) * 2002-02-12 2006-01-17 Sunflare Co., Ltd. System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
US7783486B2 (en) * 2002-11-22 2010-08-24 Roy Jonathan Rosser Response generator for mimicking human-computer natural language conversation
EP1567941A2 (fr) 2002-11-28 2005-08-31 Koninklijke Philips Electronics N.V. Procede d'attribution de donnees de classes de mots
WO2004066271A1 (fr) * 2003-01-20 2004-08-05 Fujitsu Limited Appareil de synthese de la parole, procede de synthese de la parole et systeme de synthese de la parole
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8600753B1 (en) * 2005-12-30 2013-12-03 At&T Intellectual Property Ii, L.P. Method and apparatus for combining text to speech and recorded prompts
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080076472A1 (en) * 2006-09-22 2008-03-27 Sony Ericsson Mobile Communications Ab Intelligent Predictive Text Entry
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8131750B2 (en) * 2007-12-28 2012-03-06 Microsoft Corporation Real-time annotator
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110161067A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of using pos tagging for symbol assignment
US20110161073A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of disambiguating and selecting dictionary definitions for one or more target words
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8812301B2 (en) * 2011-09-26 2014-08-19 Xerox Corporation Linguistically-adapted structural query annotation
US8290772B1 (en) 2011-10-03 2012-10-16 Google Inc. Interactive text editing
CN103294661A (zh) * 2012-03-01 2013-09-11 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9348902B2 (en) 2013-01-30 2016-05-24 Wal-Mart Stores, Inc. Automated attribute disambiguation with human input
EP4138075A1 (fr) 2013-02-07 2023-02-22 Apple Inc. Déclencheur vocal pour un assistant numérique
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (fr) 2013-03-15 2014-09-18 Apple Inc. Système et procédé pour mettre à jour un modèle de reconnaissance de parole adaptatif
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole
WO2014197336A1 (fr) 2013-06-07 2014-12-11 Apple Inc. Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix
WO2014197335A1 (fr) 2013-06-08 2014-12-11 Apple Inc. Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants
EP3937002A1 (fr) 2013-06-09 2022-01-12 Apple Inc. Dispositif, procédé et interface utilisateur graphique permettant la persistance d'une conversation dans un minimum de deux instances d'un assistant numérique
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (fr) 2013-06-13 2019-09-25 Apple Inc. Système et procédé d'appels d'urgence initiés par commande vocale
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
EP3134824A4 (fr) 2014-04-25 2018-03-28 Mayo Foundation for Medical Education and Research Amélioration de la précision, de l'efficacité et de la mémorisation de lecture
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10133728B2 (en) * 2015-03-20 2018-11-20 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (fr) 2015-04-28 2019-08-28 Google LLC Correction de reconnaissance vocale au moyen de re-speak sélectif
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10249297B2 (en) * 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DE102016008855A1 (de) 2016-07-20 2018-01-25 Audi Ag Verfahren zum Durchführen einer Sprachübertragung
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10380259B2 (en) 2017-05-22 2019-08-13 International Business Machines Corporation Deep embedding for natural language content based on semantic dependencies
US10445423B2 (en) 2017-08-17 2019-10-15 International Business Machines Corporation Domain-specific lexically-driven pre-parser
US10769375B2 (en) * 2017-08-17 2020-09-08 International Business Machines Corporation Domain-specific lexical analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0327266A2 (fr) * 1988-02-05 1989-08-09 AT&T Corp. Méthode pour la détermination des élements de langage et utilisation
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4916614A (en) * 1986-11-25 1990-04-10 Hitachi, Ltd. Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5383120A (en) 1992-03-02 1995-01-17 General Electric Company Method for tagging collocations in text
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0327266A2 (fr) * 1988-02-05 1989-08-09 AT&T Corp. Méthode pour la détermination des élements de langage et utilisation
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHANDRASEKAR R ET AL: "Glean: using syntactic information in document filtering", INFORMATION PROCESSING & MANAGEMENT (INCORPORATING INFORMATION TECHNOLOGY), vol. 34, no. 5, 1 September 1998 (1998-09-01), pages 623 - 640, XP004141754 *

Also Published As

Publication number Publication date
US6182028B1 (en) 2001-01-30
WO1999024968A1 (fr) 1999-05-20

Similar Documents

Publication Publication Date Title
BE1011964A3 (fr) Methode, dispositif et systeme pour la desambiguisation des parties du discours.
EP1364316A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
US9830314B2 (en) Error correction in tables using a question and answer system
WO2018033030A1 (fr) Procédé et dispositif de génération de bibliothèque en langage naturel
US20060015484A1 (en) Method and apparatus for providing proper or partial proper name recognition
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
CN111428504B (zh) 一种事件抽取方法和装置
US20210406706A1 (en) Method and apparatus for performing entity linking
US11727266B2 (en) Annotating customer data
EP1669886A1 (fr) Construction d&#39;un automate compilant des règles de transcription graphème/phonème pour un phonétiseur
US20050071365A1 (en) Method for keyword correlation analysis
US11797842B2 (en) Identifying friction points in customer data
US11983502B2 (en) Extracting fine-grained topics from text content
US20230050134A1 (en) Data augmentation using machine translation capabilities of language models
EP3574462A1 (fr) Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
Abadie et al. A Benchmark of Named Entity Recognition Approaches in Historical Documents Application to 19 th Century French Directories
Chapman et al. Hybrid system for adverse drug event detection
US20230075290A1 (en) Method for linking a cve with at least one synthetic cpe
US8972307B1 (en) Method and apparatus for machine learning
KR20210146671A (ko) 고객 상담 기록 분석 방법
Shet et al. Segmenting multi-intent queries for spoken language understanding
US11636269B2 (en) Content creation and prioritization
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Rossi et al. VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case Law

Legal Events

Date Code Title Description
RE Patent lapsed

Owner name: MOTOROLA INC.

Effective date: 20001130