FR2896603A1 - Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel - Google Patents
Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel Download PDFInfo
- Publication number
- FR2896603A1 FR2896603A1 FR0600537A FR0600537A FR2896603A1 FR 2896603 A1 FR2896603 A1 FR 2896603A1 FR 0600537 A FR0600537 A FR 0600537A FR 0600537 A FR0600537 A FR 0600537A FR 2896603 A1 FR2896603 A1 FR 2896603A1
- Authority
- FR
- France
- Prior art keywords
- node
- transitions
- dictionary
- automaton
- grammars
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000001131 transforming effect Effects 0.000 title description 4
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 230000007704 transition Effects 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 6
- 150000001875 compounds Chemical group 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
Procédé pour extraire des informations à partir d'un fichier de données comprenant une première étape où les données sont transmises à un dispositif (3.1) ou " tokenizer " adapté à les convertir au cours d'une première étape en unités élémentaires ou " tokens ", les unités élémentaires étant transmises à une deuxième étape de recherche des dictionnaires (3.2) et une troisième étape (3.3) de recherche dans des grammaires, caractérisé en ce que pour l'étape de conversion, on utilise une fenêtre glissante de taille donnée, on convertit en " tokens " les données au fur et à mesure de leur arrivée dans le tokenizer et on transmet les tokens au fur et à mesure de leur formation à l'étape de recherche dans des dictionnaires, (3.2), puis à l'étape de recherche des grammaires, (3.3).
Description
PROCEDE ET DISPOSITIF POUR EXTRAIRE DES INFORMATIONS ET LES TRANSFORMER EN
DONNEES QUALITATIVES D'UN DOCUMENT TEXTUEL L'invention concerne notamment un procédé d'extraction d'informations et de transformation en données qualitatives d'un document textuel. Elle est utilisée notamment dans le domaine de l'analyse et de la compréhension de documents textuels.
Dans fa description, on désigne sous le mot token la représentation d'une unité par un motif de bits et par tokenizer le dispositif adapté à effectuer cette conversion. De même, le terme match a pour sens l' identification ou la reconnaissance . En présence de documents non structurés, par exemple de textes, le 10 problème posé est d'extraire l'information pertinente tout en gérant la complexité et les ambiguïtés de la langue naturelle. Aujourd'hui, les flux d'informations sont de plus en plus présents et leur analyse est nécessaire si l'on veut améliorer la productivité et la rapidité de lecture des textes. 15 Plusieurs méthodes d'extraction sont connues de l'art antérieur. Par exemple, la méthode utilisée par AT&T dont un exemple est accessible par le lien internet http://www.research.att.com/sw/tools/fsm/, la méthode développée par Xerox illustrée sur le lien Internet http://www.xrce.xerox.com/competencies/contentanalysis/fst/home.en.html et la méthode utilisée par Intex/Unitex/Nooj illustrée sur le 20 lien http://www-igrn.univ-mlv.fr/-unitex/. Toutes ces techniques ont toutefois comme inconvénients, de ne pas être suffisamment flexibles et performantes, car l'accent a été donné sur l'aspect linguistique et sur la puissance d'expression, plutôt que sur l'aspect industriel. Elles ne permettent pas de traiter des flux importants en temps raisonnable tout en 25 conservant la qualité d'analyse.
L'objet de l'invention repose notamment sur une nouvelle approche : on choisit une taille cle fenêtre en début de procédé, on traite les tokens un par un, les tokens arrivant en flux, on applique ensuite la recherche dictionnaire et les grammaires recevant les tokens les uns à la suite des autres, dans le cas où elles sont utilisées de manière séquentielle. L'objet de la présente invention concerne un procédé pour extraire des informations à partir d'un fichier de données comprenant une première étape où les données sont transmises à un dispositif ou tokenizer adapté à les convertir au cours d'une première étape en unités élémentaires ou tokens , les unités élémentaires étant transmises à une deuxième étape de recherche des dictionnaires et une troisième étape de recherche dans des grammaires, caractérisé en ce que pour l'étape de conversion, on utilise une fenêtre glissante de taille donnée, on convertit en tokens les données au fur et à mesure de leur arrivée dans le tokenizer et on transmet les tokens au fur et à mesure de leur formation à l'étape de recherche dans des dictionnaires, puis à l'étape de recherche des grammaires. L'objet: de la présente invention offre notamment les avantages suivants : • l'architecture permet d'éviter la duplication des données et d'utiliser plusieurs 20 grammaires en parallèle ou en série sans résultat intermédiaire, • du fait de la rapidité de la méthode mise en oeuvre, on peut appliquer une multitude de grammaires complexes et donc extraire une grande quantité d'informations des documents sans dégrader les modèles linguistiques, • l'architecture gère nativement la priorité des grammaires ce qui permet de 25 définir des "modèles à échelles".
D'autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture de la description qui suit d'un exemple donné à titre illustratif et nullement limitatif annexé des figures qui représentent : • La figure 1, un schéma fonctionnel du fonctionnement général de la chaîne de traitement du domaine de l'analyse de documents, • La figure 2, un schéma fonctionnel des traitements qui peuvent être effectués dans une chaîne de traitement, • La figure 3, un schéma fonctionnel du procédé selon l'invention permettant d'extraire des entités, des relations entre ces entités, et de convertir des documents en données numériques, • La figure 4, un exemple d'automate de conversion d'un code (grammatical, flexionnel, sémantique ou syntaxique) en entier, • La figure 5, un automate permettant de reconnaître une suite d'entiers représentant les codes (grammaticaux, flexionnels, sémantiques et syntaxiques) définis en figure 4, • La figure 6, un procédé de construction d'un sous dictionnaire optimal pour un ensemble de grammaires à partir d'un dictionnaire d'origine, • La figure 7, un procédé de suppression des transitions vide dans un transducteur, • La figure 8, un exemple d'automate pour illustrer le procédé de la figure 7, • La figure 9, la sortie du procédé de la figure 7 appliqué à l'automate de la figure 8, • La figure 10, un ensemble de lemmes et de formes fléchies avant la séparation en deux automates, • La figure 11, l'automate sur lettre des lemmes de la figure 10, • La figure 12, l'automate sur lettre des formes fléchies de la figure 10, • La figure 13, les étapes d'un procédé permettant de calculer les noeuds successeurs d'un noeud de l'automate à partir d'une entrée, • La figure 14, une utilisation des grammaires de réécriture et d'extraction, • La figure 15, un procédé de détection des matches dans un automate, • La figure 16, un procédé de mise à jour des matches potentiels, ce procédé est utilisé par le procédé de la figure 15, • La figure 17, la gestion de la priorité entre deux grammaires G1 et G2 (G2 étant prioritaire sur G1) via une méthode de scoring ou de sélection du matche de plus haute priorité lorsqu'il y a chevauchement, • La figure 18, la gestion de la désambiguïsation quand il y a un chevauchement entre une grammaire d'extraction et une grammaire de désambiguïsation, et • La Figure 19 un exemple d'application du procédé selon l'invention pour un serveur de messagerie. La figure 1 représente une chaîne de traitement général d'analyse de documents. Dans la majorité des cas, cette chaîne comporte, par exemple : - un élément chargé de convertir n'importe quel format en entrée vers un format texte, bloc 1.1, - un module d'extraction de méta-données comme la date, l'auteur, la source, ...bloc 1.2, - un module de traitement sur ces documents bloc 1.3, - un module d'indexation, bloc 1.4, pour des recherches et des utilisations ultérieures. Le procédé selon l'invention se situe plus particulièrement au niveau du bloc de traitement 1.3. Sur la figure 2, on a illustré des exemples de traitements classiques 25 comme le résumé de documents, 4 ou la recherche de documents doublons, 5. Le procédé selon l'invention a notamment pour fonction d'effectuer les traitements suivants : • l'extraction d'entités 6 : par exemple l'extraction de personnes, de faits, de la gravité d'un document, des sentiments ... • l'extraction de relations 7 entre les entités : par exemple, les relations entre les dates et les faits, entre les personnes et les faits ... • la conversion 8 d'un document en un ensemble de données numériques pour un traitement ultérieur comme de la classification automatique, de la gestion de connaissance ... Pour effectuer ces traitements, on utilise, par exemple, un ensemble de documents sous forme de fichiers ou de zones mémoire en ASCII ou Unicode. On 10 applique ensuite le procédé de transformation d'un texte décrit à la figure 3 qui se décompose notamment en 3 grandes étapes : 1) le découpage d'un document source en un ensemble d'unités élémentaires ou tokens , par un dispositif ou Tokenizer , 3.1, adapté à convertir un document en éléments, 15 2) la reconnaissance des unités simples et composées, 3.2, présentes dans les dictionnaires, 3) les applications de grammaires, 3.3. Etape 3.1 Le procédé selon l'invention utilise une fenêtre glissante d'unités, c'est à 20 dire qu'il conserve uniquement les X derniers tokens du texte (X étant un nombre assez grand puisqu'il détermine le nombre maximal d'unités qui pourront être réécrites par une grammaire). La taille de la fenêtre glissante est choisie au début du procédé. Lors de l'étape de conversion des données en tokens , le tokenizer 25 3.1 convertit les données au fur et à mesure qu'elles sont reçues avant de les transmettre sous forme de flux à l'étape de recherche dans un dictionnaire, 3.2. Les types de tokens sont par exemple : • espace : retour chariot, tabulation, ... • séparateur : slash ; parenthèses ; crochets ; ... • ponctuation : virgule, point-virgule, point d'interrogation, point d'exclamation,... • nombre uniquement : de 0 à 9, • alphanumérique : ensemble de caractères alphabétiques (dépendant de la langue) et des nombres, • fin de document. Le tokenizer 3.1 est pourvu, par exemple, d'un processeur adapté à convertir un caractère minuscule en majuscule et vise versa, puisque cela dépend 10 de la langue. En sortie de tokenizer , 3.1, les tokens sont transmis au fur et à mesure, à l'étape de recherche dans les dictionnaires, 3.2. Etape 3.2 la recherche dans les dictionnaires Les dictionnaires 3.2 sont constitués d'entrées composées notamment 15 des éléments suivants : • une forme fléchie, • un lemme, • une étiquette ou tag grammaticale, • un ensemble de codes flexionnels, 20 • un ensemble de codes sémantiques, • un ensemble de codes syntaxiques. Le dictionnaire 3.2 est, par exemple, un automate sur lettre dont chaque noeud possède des attributs linguistiques et peut être final ou non. Un noeud est final lorsque le mot est complètement présent dans le dictionnaire.
Les tokens sont transmis au module de recherche des dictionnaires 3.2 sous forme de flux, c'est-à-dire qu'ils arrivent les uns après les autres et sont traités de la même façon les uns après les autres par le module 3.2. Le module vérifie pour chaque token s'il correspond ou non à une entrée dictionnaire.
Dans le cas où un token correspond à une entrée dictionnaire, alors le procédé traite les deux cas suivants : • soit le noeud correspondant de l'automate est un noeud final: dans ce cas l'entrée dictionnaire est ajoutée dans la fenêtre de token , ainsi que la position du token et du noeud de l'automate dans une liste afin d'identifier une potentielle entité composée, • soit le noeud n'est pas un noeud final, dans ce cas, la position du token est juste un ajout pour identifier une potentielle entité composée. Dans le deuxième cas, on ne sait pas encore si l'entrée est une entitée composée du dictionnaire ou pas, car elle correspond uniquement au début (par exemple on reçoit pomme qui correspond partiellement à l'entité composée pomme de terre ). Si plus tard on reçoit la suite, de terre , on a alors détecté l'entité composée, autrement on supprime l'entité potentielle puisqu'elle n'est pas présente. Une option de la recherche dans les dictionnaires, permet de définir que les caractères en minuscules dans le dictionnaire peuvent correspondre à un caractère en majuscule ou en minuscule dans le texte. Par contre, un caractère en majuscule dans le dictionnaire ne peut correspondre qu'à un caractère en majuscule dans le texte. Cette option permet notamment de prendre en compte des documents mal formatés comme, par exemple, un texte entièrement en majuscules (on en rencontre souvent dans des bases de données anciennes). Selon une variante de réalisation du procédé et dans le but d'optimiser les temps de recherche, le procédé construit un sous-ensemble du dictionnaire pendant la compilation de celui-ci. Un exemple de mise en oeuvre d'étapes est donné à la figure 6.
Le procédé récupère toutes les transitions des grammaires qui font référence au dictionnaire (lemmes, tags grammaticaux ...). Toutes ces transitions sont compilées et on sélectionne toutes les entrées dictionnaire qui correspondent au moins à l'une de ces transitions. Les entrées dictionnaire reconnaissent au moins 5 l'une des transactions. Par exemple, si une grammaire contient uniquement les transitions <ADV(adverbe)+Temps> et <V> comme faisant référence au dictionnaire, on va extraire uniquement les entrées du dictionnaire qui sont des verbes ou des adverbes avec Tirne ou temps comme code sémantique. 10 Le processus de compilation des transitions en une transition unique comprend par exemple les étapes suivantes : • la première étape consiste à extraire, de toutes les grammaires utilisées, l'ensemble des codes grammaticaux, sémantiques, syntaxiques et flexionnels contenus dans chacune des transitions des grammaires, et 15 • lors d'une deuxième étape, on construit un automate sur lettre qui associe à chaque code un entier unique. Chaque ensemble de codes est donc constitué d'un ensemble d'entiers que l'on ordonne du plus petit au plus grand et que l'on insère dans un automate sur entier afin de déterminer si oui ou non cette combinaison 20 de code est présente dans les graphes. Si, par exemple, les grammaires contiennent les codes ADV+Temps et V, alors on a l'automate qui transforme les codes en entier de la figure 4. Cet automate convertit : • la chaîne de caractères ADV en valeur entière : 1 25 • la chaîne de caractères V en valeur entière : 2 • la chaîne de caractères Temps en valeur entière : 3 Une fois l'automate convertissant les codes en entier construit, le deuxième automate représentant les transitions est construit (figure 5). Sur cet automate, la transition ADV+Temps est représentée par le noeud 2 et la transition V par le noeud 3. De façon similaire, un automate sur texte est construit pour l'ensemble des lemmes utilisés dans les grammaires. Les lemmes étant du texte, il est facile 5 d'imaginer la conversion en automate sur texte. De manière détaillée, le schéma de la figure 6 illustre la construction d'un sous dictionnaire optimal. II comporte par exemple les étapes suivantes : pour chaque entrée E du dictionnaire D, 10, 12, on vérifie, 13, si E matche l'automate T représentant les transiitions ou, 14, l'automate L contenant les lemmes. Si c'est le 10 cas, on ajoute, E, 15, dans le sous dictionnaire O. Ce processus se répète pour toutes les entrées du dictionnaire D. Par cet élagage de dictionnaire, on construit le dictionnaire le plus petit possible pour une application donnée, ce qui permet de gagner en performance sur la plupart des grammaires. 15 Les éléments issus de l'étape de recherche de dictionnaire sont transmis un par un et sous forme de flux à l'étape d'application des grammaires dont un exemple est détaillé ci-après. Etape 3.3 application des grammaires sur les éléments issus de l'étape de recherche des dictionnaires. 20 Avantageusement, le procédé met en oeuvre des grammaires qui ont été compilées. Compilation des grammaires Avant même de pouvoir utiliser les grammaires dans le procédé selon l'invention, on effectue une compilation qui peut se décomposer en deux étapes : 25 - La suppression des transitions vides, - La décomposition des transitions en automate sur lettre. La figure 7 décrit un exemple de suite d'étapes permettant de supprimer les transitions vides d'un automate, 20.
Pour tous les noeuds N de l'automate A, 21, pour toutes les transitions T du noeud N vers un noeud M. Si la transition T est une transition vide et que M est un noeud final, alors on supprime T, 26, et on duplique, toutes les transitions qui ont M comme noeuds de départ en mettant N comme nouveau noeud de départ (on ne change pas le noeud de destination). Si la transition T est une transition vide et que M est un noeud non final, alors on supprime T et on duplique, 27 toutes les transitions qui ont M comme noeud de destination en mettant N comme nouveau noeud de destination (on ne change pas le noeud source). On supprime tous les noeuds inaccessibles, 28, non accessibles par le noeud d'origine.
Les figures 8 et 9 schématisent un automate de remplacement sur lequel est appliqué le procédé décrit en relation avec la figure 7 et le résultat obtenu. Cette modification de l'automate permet d'en simplifier le parcours puisque les transitions vides sont toujours `vrai' et doivent toujours être parcourues. La deuxième étape consiste à transformer l'ensemble des lemmes et l'ensemble des formes fléchies, contenus dans les transitions de l'automate en deux nouveaux automates sur lettres afin d'accélérer les recherches de noeuds suivants. Par exemple, les transitions du noeud 0 vers 1 dans la figure 10 contiennent un ensemble de lemmes et de formes fléchies. Une recherche classique devrait donc balayer l'ensemble de ces transitions pour 20 détecter celles qui peuvent correspondre à l'entrée reçue. La transformation de cet ensemble de lemmes et de forme fléchies donne deux automates : • le premier automate contient uniquement les lemmes, c'est à dire lemme , autre et test comme le montre la figure 11, 25 • le deuxième automate contient uniquement les formes fléchies, c'est à dire forme , fléchi et test comme le montre l'automate de la figure 12. Dans le procédé selon l'invention, une transition d'un noeud vers N autres noeuds est définie notamment par un ensemble de trois automates : • l'automate des lemmes, • l'automate des formes fléchies, • l'automate des codes grammaticaux, syntaxiques, sémantiques et flexionnels.
Chacun de ces automates renvoie un entier. S'il y a une reconnaissance ou matche , cet entier est en fait un indice de tableau dans lequel est stocké l'ensemble des noeuds suivants accessibles par cet état. La figure 13 représente différentes étapes permettant de calculer les noeuds successeurs à partir d'une entrée de la fenêtre glissante de tokens .
Le procédé décrit à la figure 13 comporte, par exemple, les étapes décrites ci-après. Lorsqu'un token arrive il y a deux possibilités : 1) le token est une entrée du dictionnaire, il est alors reconnu par le dictionnaire, 2) le token n'est pas reconnu par le dictionnaire.
Le but est de calculer pour un noeud actuel N, l'ensemble des nouveaux noeuds atteignables par une entrée E de la fenêtre glissante. Si l'entrée E est une entrée du dictionnaire, 30, on recherche, 31, les noeuds qui peuvent être atteints par E dans l'automate des codes (grammaticaux, syntaxiques, sémantiques et flexionnels) du noeud N et, 32, dans l'automate des lemmes du noeud N. On ajoute tous ces noeuds qui peuvent être atteints, à la liste L. Si l'entrée E n'est pas une entrée du dictionnaire, on recherche, 33, les noeuds pouvant être atteints par E dans l'automate des formes fléchies du noeud N et on les ajoute dans la liste L. Application des grammaires sur la fenêtre glissante de tokens Les grammaires locales se décomposent, par exemple, de deux manières : les grammaires d'extraction uniquement (représentées par des automates à états finis) qui sont exécutées en parallèle, les grammaires de réécriture (représentées par des transducteurs) qui sont appliquées de manière séquentielle.
Le schéma 14 illustre l'utilisation des grammaires de réécriture (ou transformation) et d'extraction sur des flux de tokens et les entrées dictionnaires. Grammaire d'extraction Les grammaires d'extraction 42i utilisent la suite de tokens et d'entrées du dictionnaire 40 définie auparavant pour détecter un matche dans un automate.
Pour cela, on utilise une liste de candidats potentiels d'extraction notée P qui contient les éléments suivants : - l'indice du prochain noeud à tester, la position du prochain token attendu, la position d'origine de ce candidat.
Ces informations permettent de détecter si un nouveau token complète un matche potentiel ou non en regardant si sa position est celle qui est attendue et s'il valide une ou plusieurs transitions. Un exemple de sous-procédé permettant de mettre à jour les matches potentiels et de détecter les matches complet est décrit dans la figure 15, qui utilise lui-même un sous-procédé de mise à jour de la liste de clients potentiels dont les étapes sont détaillées à la figure 16. La figure 15 représente un exemple d'étapes permettant de mettre à jour les matches potentiels et de détecter les matches complet. Soit P ha liste des candidats potentiels d'extraction et Q une liste vide, A 25 un transducteur ou grammaire d'extraction et T une entité. Pour tous les candidats potentiels d'extraction N de la liste P, on cherche les noeuds accessibles depuis le noeud P en utilisant l'entrée T par le procédé de recherche des noeuds successeurs décrits à la figure 13. On ajoute ensuite tous les noeuds accessibles à la liste Q en utilisant le procédé de mise à jour de la liste décrit ci-dessous, 51, 52, 53. Une fois que la liste P est entièrement parcourue, on recherche les noeuds accessibles depuis le noeud original de la grammaire en utilisant l'entrée T par le procédé de recherche des noeuds successeurs, figure 13. On ajoute ensuite, 54, 55 tous les noeuds accessibles à la liste Q en utilisant le procédé de mise à jour de la liste décrit en relation à la figure 16. On ajoute les éléments de la liste Q dans la liste P.
Le procédé de mise à jour décrit à la figure 16 comprend notamment les étapes suivantes - soit P la liste des candidats potentiels d'extraction, N la liste des noeuds pouvant être atteints, - pour tous les noeuds I identifiés comme étant accessibles par le procédé précédant, 61, 62, si I est un noeud final (ou terminal) de la grammaire, 63, alors il s'agit d'une occurrence de la grammaire d'extraction ( matche ). Si I possède des transitions vers d'autres noeuds, 64, on ajoute I attendant la prochaine entrée à la liste P, 65. L'application des dictionnaires permet en outre de détecter les entités composées constituées de plusieurs tokens. C'est pour cette raison que le module de recherche dans les dictionnaires informe les grammaires qu'une position ne peut plus être atteinte et qu'il est dorénavant impossible de recevoir des données à cette position. Le module de recherche envoie, par exemple, un message au module suivant qui le relaie à son tour au sous module (lorsqu'on utilise des grammaires séquentielles). On a donc réussi à récupérer l'ensemble des matches possibles avec une approche permettant de rapidement rajouter/enlever des candidats potentiels. La sélection du matche le plus long ou en utilisant un autre critère tel que la priorité d'une grammaire sur une autre nécessite uniquement un passage 30 linéaire sur les matches identifiés.
Grammaire de réécriture Le fonctionnement des grammaires de réécriture est le même que celui des grammaires d'extractions, excepté que chaque matche nécessite une modification partielle ou totale des tokens mis en jeu.
La méthode de fonctionnement, selon l'invention, pour ce type de grammaire consiste notamment à stocker le résultat directement dans la fenêtre de tokens. Chaque grammaire de réécriture a sa propre fenêtre qui sera transmise aux grammaires suivantes dans la chaîne de traitement, tel que schématisé à la figure 14.
Il y a deux types d'exécution possible pour ces grammaires : • la réécriture en conservant le plus grand matche , c'est typiquement le cas d'une grammaire de reconnaissance des phrases qui ajoute un token à la fin de chaque phrase, • l'identification de tous les matches pour le remplissage d'une base de données par exemple (conversion de texte en données numériques). Identification de tous les matches pour la transformation en données structurées Dans ce cas, chaque élément de la liste des candidats potentiels P est doté d'une liste de références vers les transformations à appliquer sur les tokens.
Nous pouvons ensuite appliquer une transformation par un automate sur lettres sur chaque variable pour revenir à des données qualitatives et ainsi transformer le texte en données structurées.
Réécriture en conservant le plus grand matche Cette mise en oeuvre est utilisée lors de l'application d'une grammaire de reconnaissance de fin de phrase. Le plus grand matche peut correspondre : 14 soit à une fin de phrase (on ajoute ainsi le token fin de phrase), - soit à une désambiguïsation (par exemple M. Exemple ne correspond pas à une fin de phrase). Le résultat de cette réécriture est utilisé par d'autres grammaires. Il est 5 donc nécessaire d'être capable de faire des modifications sur un flux de tokens. Pour ce faire, nous décidons de stocker les résultats des matches dans la fenêtre de tokens, cela permet de : - rendre cette réécriture transparente pour les grammaires suivantes, - sélectionner le plus grand matche facilement: il suffit de regarder les 10 remplacements existants et de conserver le plus grand. Application des grammaires en parallèle L'utilisation de grammaires en parallèle est permise nativement par l'architecture. En effet, il suffit de fournir le flux de tokens sortant d'une grammaire à plusieurs autres grammaires en même temps pour obtenir un parallélisme au niveau 15 de l'extraction. En prenant le cas de l'extraction d'entités nommées, nous appliquons une grammaire d'identification des phrases puis nous fournissons ce résultat aux différentes grammaires d'extraction (par exemple le lieu, la date, l'organisation ...). Le même parallélisme que celui décrit dans la figure 14 est ainsi obtenu. 20 Priorités des grammaires Selon une variante de mise en oeuvre de l'invention, le procédé met en oeuvre des règles de priorité ou une notation statistique ou scoring sur les résultats des grammaires d'extraction. Ainsi, si nous avons N grammaires, sachant que la grammaire Gi (i 25 appartient à 1..N) est prioritaire sur les grammaires G1.. G(i ù 1), la méthode consiste à utiliser de manière parallèle ou séquentielle les N grammaires pour extraire l'ensemble des matches possibles et conserver uniquement le matche de priorité la plus élevée quand il y a une intersection entre deux matches .
Suivant les applications, on va pouvoir sélectionner : - le matche de priorité la plus élevée pour chaque phrase, - un ou plusieurs matches par phrase sachant qu'il n'y a pas d'intersection entre eux, - un score par phrase, le score étant défini par l'ensemble des matches . La figure 17 illustre un exemple de gestion de la priorité entre deux grammaires G1, 70, et G2, 71, (G2 étant prioritaire sur G l) via une méthode de scoring ou de sélection du matche de plus haute priorité lorsqu'il y a 10 chevauchement. Désambiguïsation Le procédé peut aussi comporter une étape ayant notamment pour fonction de lever l'ambiguïté désambiguïsation . Pour cela, on sépare chaque grammaire d'extraction en deux parties : 15 -la grammaire d'extraction, 72, en tant que telle, une ou plusieurs grammaires permettant de lever une ambiguïté , 73, et permettant de définir les contre exemples . II suffit ensuite d'extraire simplement tous les matches de ces grammaires en parallèle et de supprimer les matches lorsqu'il y a une intersection entre une 20 grammaire d'extraction et une grammaire pour lever l'ambiguïté, comme le montre le schéma de la figure 18. La figure 19 représente un exemple d'utilisation du procédé selon l'invention dans un serveur de messagerie e-mail, dont le contenu des messages arrivant ou entrant est analysé, on extrait des informations du message reçu par le 25 procédé, 83, en exécutant les étapes du procédé détaillées ci-avant, afin de déterminer le service d'une entreprise le plus apte à le traiter (par exemple, marketing, comptabilité, technique) et le transmet, 84, au service adapté pour le traiter.
Claims (6)
1 - Procédé pour extraire des informations à partir d'un fichier de données comprenant une première étape où les données sont transmises à un dispositif (3.1) ou tokenizer adapté à les convertir au cours d'une première étape en unités élémentaires ou tokens , les unités élémentaires étant transmises à une deuxième étape de recherche des dictionnaires (3.2) et une troisième étape (3.3) de recherche dans des grammaires, caractérisé en ce que pour l'étape de conversion, on utilise une fenêtre glissante de taille donnée, on convertit en tokens les données au fur et à mesure de leur arrivée dans le tokenizer et on transmet les tokens au fur et à mesure de leur formation à l'étape de recherche dans des dictionnaires, (3.2), puis à l'étape de recherche des grammaires, (3.3).
2 ù Procédé selon la revendication 1 caractérisé en ce qu'il comprend une étape de 15 génération d'un sous-ensemble du dictionnaire comprenant les étapes suivantes : • récupérer toutes les transitions des grammaires qui font référence au dictionnaire (lemmes, tags grammaticaux ...), • compiler toutes les transitions, et • sélectionner les entrées dictionnaire qui correspondent au moins à l'une de 20 ces transitions.
3 ù Procédé selon la revendication 2 caractérisé en ce que l'étape de compilation des transitions en une transition unique comprend les étapes suivantes : • la première étape consiste à extraire, de toutes les grammaires utilisées, 25 l'ensemble des codes grammaticaux, sémantiques, syntaxiques et flexionnels contenus dans chacune des transitions des grammaires, puis, • la deuxième étape à construire un automate sur lettre qui associe à chaque code un entier unique.
4 ù Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de construction d'un sous-dictionnaire optimal comprenant au moins les étapes suivantes : pour chaque entrée E d'un dictionnaire D, on vérifie si l'entrée E reconnaît au moins une des transitions ou au moins un lemme des grammaires qui font référence au dictionnaire.
5 - Procédé selon la revendication 1 caractérisé en ce que l'on utilise une grammaire locale sur la fenêtre glissante des tokens, la grammaire comprenant une grammaire d'extraction et une grammaire de réécriture.
6 - Procédé selon la revendication 1 caractérisé en ce qu'il utilise des grammaires 15 compilées, une grammaire étant définie par un automate à états finis, l'étape de compilation comprenant : • la suppression des transitions vides, • la décomposition des transitions en automate sur lettre. 20 7 ù Procédé selon la revendication 6 caractérisé en ce l'étape de suppression des transitions vides d'un automate A composé de plusieurs noeuds comprend les étapes suivantes : pour tous les noeuds N (21) de l'automate A, pour toutes les transitions T du noeud N vers un noeud M, - si la transition T est une transition vide, et si M est un noeud final, alors 25 on supprime la transition T et on duplique (26) toutes les transitions qui ont M comme noeud de départ en mettant N comme nouveau noeud de départ,- si la transition T est une transition vide et que M est un noeud final, alors on supprime T on duplique (27) toutes les transitions qui ont M comme noeud de destination en mettant N comme nouveau noeud de destination. 8 û Procédé selon la revendication 7 caractérisé en ce qu'une transition d'un noeud vers N autres noeuds est définie par un ensemble de trois automates : l'automate des lemmes, l'automate des formes fléchies, l'automate des codes grammaticaux, syntaxiques, sémantiques et flexionnels. 9 û Procédé selon la revendication 7 caractérisé en ce que le calcul pour un noeud actuel de l'ensemble des nouveaux noeuds pouvant être atteint par une entrée E de la fenêtre glissante de tokens comporte les étapes suivantes : • si l'entrée E est une entrée du dictionnaire (30), on recherche (31), les noeuds qui peuvent être atteints par E dans l'automate des codes (32) du noeud N et dans l'automate des lemmes du noeud N et on ajoute les noeuds pouvant être atteints à une liste L, • si l'entrée E n `est pas une entrée du dictionnaire, on recherche (33) les noeuds pouvant être atteints par E dans l'automate des formes fléchies du noeud N et on les ajoute à la liste L. 10 û Procédé selon la revendication 1 caractérisé en ce qu'une grammaire d'extraction (42) utilise la suite de tokens et d'entrées du dictionnaire (40) pour détecter les identifications dans un automate, et en ce qu'on utilise une liste de candidats potentiels d'extraction P contenant les éléments suivants : l'indice du prochain noeud à tester, la position du prochain token attendu, la position d'origine de ce candidat.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0600537A FR2896603B1 (fr) | 2006-01-20 | 2006-01-20 | Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel |
EP07704037A EP1977343A1 (fr) | 2006-01-20 | 2007-01-19 | Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel |
PCT/EP2007/050569 WO2007082948A1 (fr) | 2006-01-20 | 2007-01-19 | Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel |
US12/161,600 US20100023318A1 (en) | 2006-01-20 | 2007-01-19 | Method and device for retrieving data and transforming same into qualitative data of a text-based document |
US13/226,225 US20110320493A1 (en) | 2006-01-20 | 2011-09-06 | Method and device for retrieving data and transforming same into qualitative data of a text-based document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0600537A FR2896603B1 (fr) | 2006-01-20 | 2006-01-20 | Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2896603A1 true FR2896603A1 (fr) | 2007-07-27 |
FR2896603B1 FR2896603B1 (fr) | 2008-05-02 |
Family
ID=37311367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0600537A Active FR2896603B1 (fr) | 2006-01-20 | 2006-01-20 | Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100023318A1 (fr) |
EP (1) | EP1977343A1 (fr) |
FR (1) | FR2896603B1 (fr) |
WO (1) | WO2007082948A1 (fr) |
Families Citing this family (185)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8074172B2 (en) | 2007-01-05 | 2011-12-06 | Apple Inc. | Method, system, and graphical user interface for providing word recommendations |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8232973B2 (en) | 2008-01-09 | 2012-07-31 | Apple Inc. | Method, device, and graphical user interface providing word recommendations for text input |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (fr) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Reconnaissance de la parole associée à un dispositif mobile |
US20100235780A1 (en) * | 2009-03-16 | 2010-09-16 | Westerman Wayne C | System and Method for Identifying Words Based on a Sequence of Keyboard Events |
US8423353B2 (en) * | 2009-03-25 | 2013-04-16 | Microsoft Corporation | Sharable distributed dictionary for applications |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8731901B2 (en) * | 2009-12-02 | 2014-05-20 | Content Savvy, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN103514210B (zh) * | 2012-06-28 | 2017-06-27 | 华为技术有限公司 | 小文件处理方法及装置 |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
IL224482B (en) * | 2013-01-29 | 2018-08-30 | Verint Systems Ltd | System and method for keyword spotting using representative dictionary |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (fr) | 2013-03-15 | 2014-09-18 | Apple Inc. | Système et procédé pour mettre à jour un modèle de reconnaissance de parole adaptatif |
WO2014197336A1 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole |
WO2014197335A1 (fr) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
IL242218B (en) | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | A system and method for maintaining a dynamic dictionary |
IL242219B (en) | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | System and method for keyword searching using both static and dynamic dictionaries |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (fr) | 2019-09-25 | 2021-04-01 | Apple Inc. | Détection de texte à l'aide d'estimateurs de géométrie globale |
US11727077B2 (en) | 2021-02-05 | 2023-08-15 | Microsoft Technology Licensing, Llc | Inferring information about a webpage based upon a uniform resource locator of the webpage |
US20220284190A1 (en) * | 2021-03-02 | 2022-09-08 | Microsoft Technology Licensing, Llc | Tokenizing alphanumeric text through use of finite state machines |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001029697A1 (fr) * | 1999-10-18 | 2001-04-26 | Sony Electronics, Inc. | Procede et systeme de reduction d'ambiguite lexicale |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5095432A (en) * | 1989-07-10 | 1992-03-10 | Harris Corporation | Data processing system implemented process and compiling technique for performing context-free parsing algorithm based on register vector grammar |
US6098034A (en) * | 1996-03-18 | 2000-08-01 | Expert Ease Development, Ltd. | Method for standardizing phrasing in a document |
JP2001505330A (ja) * | 1996-08-22 | 2001-04-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | テキストストリーム中の単語の切れ目を与える方法及び装置 |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
GB9727322D0 (en) * | 1997-12-29 | 1998-02-25 | Xerox Corp | Multilingual information retrieval |
US6101492A (en) * | 1998-07-02 | 2000-08-08 | Lucent Technologies Inc. | Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis |
US6915254B1 (en) * | 1998-07-30 | 2005-07-05 | A-Life Medical, Inc. | Automatically assigning medical codes using natural language processing |
US6665666B1 (en) * | 1999-10-26 | 2003-12-16 | International Business Machines Corporation | System, method and program product for answering questions using a search engine |
US6944588B2 (en) * | 2000-04-03 | 2005-09-13 | Xerox Corporation | Method and apparatus for factoring unambiguous finite state transducers |
US6952666B1 (en) * | 2000-07-20 | 2005-10-04 | Microsoft Corporation | Ranking parser for a natural language processing system |
US7165023B2 (en) * | 2000-12-15 | 2007-01-16 | Arizona Board Of Regents | Method for mining, mapping and managing organizational knowledge from text and conversation |
US6714939B2 (en) * | 2001-01-08 | 2004-03-30 | Softface, Inc. | Creation of structured data from plain text |
TWI256562B (en) * | 2002-05-03 | 2006-06-11 | Ind Tech Res Inst | Method for named-entity recognition and verification |
US7249019B2 (en) * | 2002-08-06 | 2007-07-24 | Sri International | Method and apparatus for providing an integrated speech recognition and natural language understanding for a dialog system |
CN1512406A (zh) * | 2002-12-30 | 2004-07-14 | 国际商业机器公司 | 面向用户的电子词典、电子词典系统及其生成方法 |
US20040162724A1 (en) * | 2003-02-11 | 2004-08-19 | Jeffrey Hill | Management of conversations |
US7444403B1 (en) * | 2003-11-25 | 2008-10-28 | Microsoft Corporation | Detecting sexually predatory content in an electronic communication |
GB2415518A (en) * | 2004-06-24 | 2005-12-28 | Sharp Kk | Method and apparatus for translation based on a repository of existing translations |
US8478589B2 (en) * | 2005-01-05 | 2013-07-02 | At&T Intellectual Property Ii, L.P. | Library of existing spoken dialog data for use in generating new natural language spoken dialog systems |
US8909713B2 (en) * | 2007-02-21 | 2014-12-09 | Vibes Media Llc | Method and system for filtering text messages |
US7991609B2 (en) * | 2007-02-28 | 2011-08-02 | Microsoft Corporation | Web-based proofing and usage guidance |
US8000956B2 (en) * | 2008-02-08 | 2011-08-16 | Xerox Corporation | Semantic compatibility checking for automatic correction and discovery of named entities |
-
2006
- 2006-01-20 FR FR0600537A patent/FR2896603B1/fr active Active
-
2007
- 2007-01-19 EP EP07704037A patent/EP1977343A1/fr not_active Withdrawn
- 2007-01-19 WO PCT/EP2007/050569 patent/WO2007082948A1/fr active Application Filing
- 2007-01-19 US US12/161,600 patent/US20100023318A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001029697A1 (fr) * | 1999-10-18 | 2001-04-26 | Sony Electronics, Inc. | Procede et systeme de reduction d'ambiguite lexicale |
Non-Patent Citations (3)
Title |
---|
ARNAUD ADANT: "Study and implementation of a weighted finine-state library - application to speech synthesis", 2000, TCTS LABS, FACULTÉ POLYTECHNIQUE DE MONS, XP002407725 * |
E. ROCHE: "Parsing with Finite-State Transducers", November 1996, MITSUBISHI ELECTRIC RESEARCH LABORATORIES, MERL TECHNICAL REPORT TR-96-30, CAMBRIDGE, MA, USA, XP002407727 * |
S. KANTHAK, H. NEY: "FSA: An Efficient and Flexible C++ Toolkit for Finite State Automata Using On-Demand Computation", July 2004, ACL, PROCEEDINGS OF THE 42ND ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL 2004), BARCELONA, SPAIN, XP002407726 * |
Also Published As
Publication number | Publication date |
---|---|
EP1977343A1 (fr) | 2008-10-08 |
US20100023318A1 (en) | 2010-01-28 |
FR2896603B1 (fr) | 2008-05-02 |
WO2007082948A1 (fr) | 2007-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2896603A1 (fr) | Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel | |
CN111144131B (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
EP1364316A2 (fr) | Dispositif d'extraction d'informations d'un texte a base de connaissances | |
CN108874937B (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
EP1836651B1 (fr) | Procédé de recherche, reconnaissance et localisation d'un terme dans l'encre, dispositif, programme d'ordinateur correspondants | |
FR2694984A1 (fr) | Procédé d'identification, de récupération et de classement de documents. | |
FR2848688A1 (fr) | Identification de langue d'un texte | |
EP1525538A2 (fr) | Systeme d'extraction d'informations dans un texte en langage naturel | |
CN110321549B (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
FR3038996A1 (fr) | Procede d'extraction de mots cles, dispositif et programme d'ordinateur correspondant | |
Beleveslis et al. | A hybrid method for sentiment analysis of election related tweets | |
CN110750642A (zh) | 一种基于cnn的中文关系分类方法及系统 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN112632272B (zh) | 基于句法分析的微博情感分类方法和系统 | |
Mulki et al. | Modern trends in Arabic sentiment analysis: A survey | |
EP3248111A1 (fr) | Procédé de lemmatisation, dispositif et programme correspondant | |
EP1285435A1 (fr) | Analyse syntaxique et semantique de commandes vocales | |
US20110320493A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
FR2880708A1 (fr) | Procede de recherche dans l'encre par conversion dynamique de requete. | |
FR2986882A1 (fr) | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe | |
Anwar et al. | Smart customer care: Scraping social media to predict customer satisfaction in egypt using machine learning models | |
CN116126893B (zh) | 一种数据关联检索方法、装置及相关设备 | |
Khan et al. | Knowledge Base Entity Lookup using Named Entity Recognition: a case study on YAGO | |
FR3066630A1 (fr) | Procede d'analyse de textes sur un reseau de communication | |
Turbin | Comparing Natural Language Models for Software Category Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 11 |
|
PLFP | Fee payment |
Year of fee payment: 12 |
|
PLFP | Fee payment |
Year of fee payment: 13 |
|
PLFP | Fee payment |
Year of fee payment: 15 |
|
PLFP | Fee payment |
Year of fee payment: 16 |
|
PLFP | Fee payment |
Year of fee payment: 17 |
|
PLFP | Fee payment |
Year of fee payment: 18 |
|
PLFP | Fee payment |
Year of fee payment: 19 |