FR2773413A1

FR2773413A1 - Reseaux de phonemes dependant du contexte pour coder des informations vocales

Info

Publication number: FR2773413A1
Application number: FR9815131A
Authority: FR
Inventors: Sreeram Balakrishnan; Stephen Austin
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC
Priority date: 1997-12-01
Filing date: 1998-12-01
Publication date: 1999-07-09
Anticipated expiration: 2018-12-01
Also published as: GB2331826A; AU1465099A; TW462037B; EP0954856A1; GB2331826B; EP0954856B1; DE69813180T2; GB9826231D0; ATE237176T1; WO1999028899A1; DE69813180D1; FR2773413B1; US6182038B1

Abstract

L'invention propose un procédé et un appareil pour générer un réseau de phonèmes dépendant du contexte comme étape intermédiaire de codage d'informations vocales. Le réseau de phonèmes dépendant du contexte est généré à partir de la parole dans un générateur de réseaux de phonèmes (48) associé à un système d'exploitation (44). Le réseau de phonèmes dépendant du contexte est ensuite transmis à une première application (52).

Description

Titre

RESEAUX DE PHONEMES DEPENDANT DU CONTEXTE POUR CODER

DES INFORMATIONS VOCALES

Domaine de l'invention La présente invention concerne généralement la reconnaissance de la parole par ordinateur. Arrière-plan de l'invention Les récents progrès enregistrés dans les matériels et les logiciels informatiques ont permis à la reconnaissance de la parole par ordinateur (RPO) de franchir le cap de l'utilisabilité. Des systèmes sont maintenant disponibles pour de gros ordinateurs et des ordinateurs personnels qui peuvent être utilisés pour

la dictée vocale en continu et de vocabulaire étendu.

Pour obtenir des performances appropriées, de tels systèmes doivent être adaptés à la voix et à un environnement d'utilisation d'un utilisateur spécifique. De plus, ces systèmes ne peuvent reconnaître que des mots tirés d'un certain vocabulaire et sont habituellement liés à un modèle de langage particulier, qui saisit les probabilités relatives de différentes séquences de mots. En l'absence de toutes ces contraintes, il est très difficile d'obtenir des

performances appropriées avec un système RPO.

Dans la plupart des systèmes RPO, la partie spécifique de l'environnement et de l'utilisateur, ou modèles acoustiques, sont habituellement séparés des modèles de langage et de vocabulaire. Cependant, du fait des contraintes précédentes, toute application qui exige une reconnaissance de la parole requiert l'accès à la fois aux modèles acoustiques spécifiques à l'utilisateur/environnement et aux modèles de langage

et de vocabulaire spécifiques à l'application.

Il y a un obstacle majeur au fait d'amener les systèmes RPO au-delà de la dictée autonome, vers des systèmes grâce auxquels plusieurs utilisateurs différents demanderont d'accéder à différentes applications, éventuellement en parallèle et souvent sur Internet ou un réseau local (RL). La raison est que soit: (a) chaque application devra conserver des modèles acoustiques séparés pour chaque utilisateur/environnement; soit (b) chaque utilisateur devra maintenir des ensembles de vocabulaires et de modèles de langage séparés pour chaque application qu'il désire utiliser. Puisque la taille des modèles de langage et acoustiques sont en général de l'ordre du mégaoctet à des dizaines de mégaoctets pour une application allant d'un vocabulaire moyen à étendu, il s'ensuit que dans l'un ou l'autre des scénarios (a) ou (b), les ressources du système auront tendance à être

très facilement dépassées.

Une possibilité est de stocker les modèles acoustiques sur une machine différente des modèles de langage et de vocabulaire et de connecter les machines par un réseau local (RL) ou Internet. Cependant, dans l'un ou l'autre cas (a) ou (b), d'énormes quantités de trafic réseau seront générées puisque des mégaoctets de données seront déplacées vers le système de

reconnaissance de la parole cible.

Il existe donc un besoin d'un système RPO qui soit indépendant des modèles de langage et de vocabulaire d'une application et qui ne sacrifie pas les performances en termes de précision de reconnaissance finale.

Brève description des dessins

Un mode de réalisation préféré de l'invention est maintenant décrit, à titre d'exemple uniquement, en référence aux dessins joints parmi lesquels: La figure 1 illustre un réseau de phonèmes simple; La figure 2 illustre un réseau de triphones équivalent à la figure 1 selon le mode de réalisation préféré de la présente invention; La figure 3 illustre un codage pour le réseau de triphones de la figure 2 selon le mode de réalisation préféré de la présente invention; La figure 4 est un schéma fonctionnel général d'un système général selon le mode de réalisation préféré de la présente invention; La figure 5 est un schéma fonctionnel détaillé du système général selon le mode de réalisation préféré de la présente invention; La figure 6 est un schéma fonctionnel détaillé de la figure 5 selon le mode de réalisation préféré de la

présente invention.

Description détaillée du mode de réalisation préféré

Des réseaux de phonèmes dépendant du contexte (réseaux de phonèmes DC) sont proposés comme solution

aux problèmes mentionnés ci-dessus de l'état de l'art.

Un procédé et un appareil pour générer un réseau de phonèmes DC comme étape intermédiaire de codage d'informations vocales sont décrits dans le présent document. Les réseaux de phonèmes DC résultent de la séparation de la reconnaissance de la parole en deux parties: un client qui est spécifique à l'environnement et à l'utilisateur, qui écoute en continu et code la voix de l'utilisateur comme réseau de phonèmes DC, et un ensemble d'applications qui peut utiliser ces réseaux de phonèmes DC avec des modèles de langage et de vocabulaire spécifiques à l'application

pour réaliser une reconnaissance finale.

Les réseaux de phonèmes DC procurent une manière de coder la sortie du client qui est indépendante des modèles de langage et de vocabulaire d'une première application (c'est-à-dire, cible): toute application qui peut utiliser ces réseaux de phonèmes DC n'a donc pas besoin d'accéder aux modèles acoustiques spécifiques à l'utilisateur/environnement qui sont utilisés pour générer à l'origine les réseaux de phonèmes DC. Ce qui est important, à la différence de réseaux de phonèmes simples, c'est que les réseaux de phonèmes DC codent les informations vocales d'une manière qui ne sacrifie pas les performances en termes de précision de reconnaissance finale, et peuvent même

augmenter les performances.

En ce qui concerne l'architecture proposée dans le présent document, les aspects de reconnaissance qui nécessitent la connaissance de l'utilisateur et de l'environnement sont déterminés au lieu o se trouve l'utilisateur. Ceci présente l'avantage, dans la perspective de l'utilisateur, d'influencer son investissement d'adaptation dans une application quelconque. D'un point de vue du développeur d'une application, cette architecture supprime l'inconvénient de devoir maintenir des modèles spécifiques à l'utilisateur, qui pourraient se révéler très attrayants pour des prestataires de services Internet en contrat avec plusieurs milliers d'utilisateurs. De plus, les aspects de reconnaissance qui nécessitent l'accès à de grands modèles de langage et vocabulaires et, en conséquence, à de grandes quantités d'espace disque, peuvent être déterminés au niveau d'une application centralisée. Les améliorations dans les modèles de langage et les vocabulaires de l'application centralisée sont donc automatiquement mises à la disposition de tous les utilisateurs sans qu'il soit nécessaire de télécharger d'immenses fichiers de données. Avant de décrire les réseaux de phonèmes DC en détail, il est utile de décrire des réseaux de phonèmes simples comme étape intermédiaire pour la reconnaissance de la parole. Comme représenté à la figure 1, un réseau de phonèmes consiste en un ensemble de noeuds 1, 2, 3 et 4 et d'arcs 10, 12, 14, 16, 18 et 19. Les noeuds 1, 2, 3 et 4 représentent des temps de début et de fin possibles de phonèmes. Les arcs 10, 12, 14, 16, 18 et 19, qui relient un "noeud de départ" 2 à un "noeud d'arrivée" 3, représentent le début et la fin d'un phonème particulier aux temps correspondants aux noeuds de "départ" et d'"arrivée". A chaque arc 10, 12, 14, 16, 18 et 19 est associé un compte 20 ou

probabilité du phonème.

Une insuffisance importante du réseau de phonèmes simple et la raison pour laquelle il n'est pas utilisé comme étape intermédiaire dans la plupart des systèmes de reconnaissance de la parole, est que les comptes d'arcs 20 et 22 sont indépendants du contexte. En d'autres termes, le compte 22 sur l'arc IH 18 entre les noeuds 2 (t=10) et 3 (t=35) est indépendant de l'arc qui est pris pour aller au noeud 2 ou de l'arc qui est pris à partir du noeud 3. Les réseaux de phonèmes DC corrigent cela en rendant les comptes d'arcs dépendants du contexte. Le contexte d'un arc peut être séparé en un "contexte de départ" qui est déterminé par le trajet pris pour atteindre le "noeud de départ" et le "contexte d'arrivée" qui est déterminé par le trajet

pris après le "noeud d'arrivée".

Dans des réseaux de reconnaissance de la parole plus sophistiqués, les contextes de "départ" et d'"arrivée" affecteront le compte du phonème associé à un arc particulier. La manière dont le contexte est utilisé variera en fonction de la complexité du système. Des réseaux de phonèmes simples, dans lesquels aucun contexte n'est utilisé, sont situés à une extrémité du spectre. Dans un réseau de triphones, par exemple, le "contexte de départ" est le phonème associé au dernier arc pris pour atteindre le "noeud de départ", tandis que le "contexte d'arrivée" est le phonème associé au premier arc pris à partir du "noeud d'arrivée". Dans des systèmes encore plus complexes, tels que les réseaux de quinphones, les contextes de "départ" et d'"arrivée" consistent en les deux derniers et les deux premiers arcs des trajets pris pour

atteindre le "noeud de départ" et le "noeud d'arrivée".

De manière à s'assurer que les contextes de "départ" et d'"arrivée" d'un arc correspondent aux contextes de "départ" et d'"arrivée" des comptes associés à l'arc, les noeuds de "départ" et d'"arrivée" de l'arc peuvent devoir être séparés. La figure 2 est une illustration de cette séparation pour le cas spécifique d'un équivalent triphone du réseau de phonèmes simple représenté à la figure 1. Dans le cas de la figure 2, les noeuds ont été séparés de manière que les deux arcs 24 et 26 allant dans un noeud quelconque (par exemple, noeud 3a) aient la même étiquette de phonème (AH, par exemple), et les arcs 28 et 30 venant d'un noeud quelconque (par exemple, noeud 3a) aient la même étiquette de phonème (K, par exemple). Les comptes d'arcs 32 et 34 peuvent maintenant représenter des comptes de triphones, puisque les contextes de phonèmes "de départ" et d'"arrivée" seront uniquement spécifiés. Par exemple, le compte 36 sur l'arc 38 reliant le noeud 2b au noeud 3d représente le compte de triphones de IH avec un contexte gauche de TH et un contexte droit de G. La figure 3 illustre un codage pour le réseau de triphones représenté à la figure 2. La figure 3 consiste en une liste de noeuds associés au temps. Pour chaque noeud, il y a une sous-liste d'arcs consistant en tous les arcs prenant naissance à ce noeud particulier. A chaque arc est associé une étiquette de phonème, un compte de triphones et un "noeud d'arrivée". Puisque les réseaux de triphones ont des comptes de triphones attachés à chaque arc, ils peuvent servir comme entrée à tout système de reconnaissance de la parole à mots croisés. Un générateur de réseaux de phonèmes peut alors effectuer des recherches dans le réseau de triphones pour trouver le trajet qui donne le meilleur compte, étant donné un modèle de langage et un vocabulaire particuliers. Le générateur de réseaux de phonèmes n'a pas besoin d'avoir de modèles acoustiques spécifiques d'utilisateur ou d'environnement quelconques, voire même, d'accéder à la parole d'origine. Toutes les informations requises pour décoder les mots dans un signal de parole sont saisies

dans le réseau de triphones lui-même.

En référence aux figures 4 et 5, suivant le mode de réalisation préféré de la présente invention, un

support d'informations 40 est décrit ici et dans celui-

ci sont stockées des instructions et des données qui, lorsqu'elles sont chargées dans au moins un premier microprocesseur universel 42 ayant un système d'exploitation 44, font au moins en sorte que le premier microprocesseur universel 42 exécute un procédé pour générer un réseau de phonèmes DC comme étape intermédiaire de codage d'informations vocales. De préférence, le premier microprocesseur universel 42 comprend une première partie 46 du système d'exploitation 44 ayant un générateur de réseaux de phonèmes 48 (de préférence, un générateur de réseaux de phonèmes DC) et une seconde partie 50 du système d'exploitation 44 ayant au moins une première

application 52.

Le générateur de réseaux de phonèmes 48 et la première application 52 sont indépendamment associés au système d'exploitation 44 et sont des outils d'une bibliothèque de liens dynamiques. Les première et seconde parties 46 et 50, respectivement, du système d'exploitation 44 peuvent former un système d'exploitation unitaire sur un microprocesseur universel unique ou un autre ordinateur. Selon une autre solution, la seconde partie 50 du système d'exploitation 44 peut être stockée dans un second microprocesseur universel 72, séparée de la première

partie 46 et du premier microprocesseur universel 42.

Lorsque la seconde partie 50 du système d'exploitation 44 a au moins, respectivement, une première et une seconde applications 52 et 58, chacune des deux applications 52 et 58 peut avoir, respectivement, différents vocabulaires 60 et 62, respectivement, et différents modèles de langage 64 et 66, respectivement. Selon une autre solution, la première et la seconde applications 52 et 58 peuvent, respectivement, partager un vocabulaire commun 68 et un modèle de langage commun 70. Le générateur de réseaux de phonèmes 48 et la première application 52 peuvent être placés à distance l'un de l'autre et connectés par une liaison 56, soit une liaison sans fil soit une liaison par réseau (c'est-à-dire que la première partie 46 du système d'exploitation 44 peut être placée à distance de la seconde partie 50 du système d'exploitation 44). En fonctionnement, le générateur de réseaux de phonèmes 48 génère un réseau de phonèmes DC ayant une sortie 54 définissant le réseau de phonèmes DC. La sortie 54 du générateur de réseaux de phonèmes 48 se trouve dans un format capable d'être stocké en vue d'une entrée ultérieure dans la première application 52. La première application 52 est conçue pour recevoir la sortie 54 du

générateur de réseaux de phonèmes 48.

En référence à la figure 6, le générateur de réseaux de phonèmes 48 est représenté en détail, comprenant un microphone 72 connecté à un convertisseur analogique-numérique 74 connecté, à son tour, à une entrée de la première partie 46 du système d'exploitation 44. Le support d'informations 40 ayant un alphabet de phonèmes 80 est également connecté à une entrée de la première partie 46 du système

d'exploitation 44.

La première partie 46 du système d'exploitation 44 est dépendante de modèles acoustiques spécifiques à l'utilisateur et l'environnement. La première partie 46 du système d'exploitation 44 comprend un nombre d'éléments formés dans le logiciel. Ceux-ci incluent un élément d'extraction de caractéristique 76 ayant une entrée et une sortie, et un décodeur de Viterbi 78 ayant une entrée connectée à la sortie de l'élément d'extraction de caractéristique 76 et ayant une entrée connectée au support d'informations 40. Selon une autre solution, l'élément 78 (le décodeur de Viterbi) peut être un décodeur Baum-Welsh ou les éléments 60 et 62 (respectivement, l'extraction de caractéristique et le décodeur de Viterbi) peuvent être combinés et remplacés

par un décodeur à base de réseau de neurones.

La seconde partie 50 du système d'exploitation 44 est dépendante d'une première application pouvant être choisie indépendamment de la première partie 46 du système d'exploitation 44. La seconde partie 50 du système d'exploitation 44 comprend la première application 52 ayant des entrées couplées aux sorties 82, 84 et 86 du décodeur de Viterbi 78. Les sorties 82, 84 et 86 du décodeur de Viterbi 78 sont, respectivement, une étiquette de phonème, un compte et une paire noeud de "départ" - noeud d'"arrivée", qui définissent les arcs du réseau de phonèmes DC. La première application 52 est couplée à un vocabulaire 60 et à un modèle de langage 64. Une interface utilisateur graphique 88 se présentant sous la forme d'un programme d'ordinateur est fournie et présente des entrées connectées à la sortie de la première application 52 et

une sortie couplée à un affichage 90.

En fonctionnement, la première partie 46 du système d'exploitation 44 génère un réseau de phonèmes DC de manière à saisir des modèles acoustiques spécifiques à l'utilisateur et à l'environnement. La première partie 46 du système d'exploitation 44 convertit donc la parole non traitée en un réseau de phonèmes DC avec l'aide de modèles de langage de phonèmes et de modèles acoustiques spécifiques à l'utilisateur et à l'environnement qui s'adaptent en continu à la voix de l'utilisateur, à l'environnement et à l'utilisation de langage. Les modèles pourraient fonctionner dans un ordinateur personnel, un téléphone cellulaire, un dispositif d'appel de personnes ou sur tout autre équipement matériel configuré de manière appropriée. La première partie 46 du système d'exploitation 44 extrait d'un signal de parole les informations désirées requises pour la reconnaissance de la parole, donne aux informations désirées en un format indépendant du vocabulaire, du modèle de langage, de l'utilisateur et de l'environnement, et transmet les informations désirées à la seconde partie

50 du système d'exploitation 44.

La seconde partie 50 du système d'exploitation 44 utilise donc des petits exécutables de moteurs de recherche appropriés pour extraire du réseau de phonèmes DC des informations relatives aux besoins de la première application 52 utilisant le vocabulaire 60 et le modèle de langage 64 de la première application 52, de manière à rechercher un résultat de reconnaissance de candidat et à fournir le résultat de reconnaissance de candidat à la première application 52. Plusieurs de ces petits exécutables de moteurs de recherche peuvent être imaginés s'échelonnant d'un petit programme de dictée, un petit programme de remplissage de formulaire, un petit programme de langage de requête structuré, jusqu'à un petit

programme de requête en langage naturel.

De préférence, après une tentative de reconnaissance dans un premier moteur de recherche (par exemple, seconde partie 50 du système d'exploitation 44), et après reconnaissance non satisfaisante dans le premier moteur de recherche, le réseau de phonèmes DC est acheminé vers un second moteur de recherche 100. Le second moteur de recherche 100 recherche ensuite un résultat de reconnaissance de candidat et fournit le résultat de reconnaissance de candidat à la première application 52. Le passage du réseau de phonèmes DC d'un premier moteur de recherche à un second moteur de recherche pour obtenir un niveau de précision de confiance plus élevé peut être étendu à un nombre quelconque de moteurs de recherche. Par exemple, la seconde partie 50 du système d'exploitation 44 peut être configurée pour faire passer le réseau de phonèmes DC à un moteur de recherche suivant si le niveau de confiance d'un moteur de recherche actuel ne dépasse pas un seuil prédéfini. Le passage du réseau de phonèmes DC d'un moteur de recherche à un autre continuera de se produire jusqu'à ce qu'un moteur de recherche puisse produire un résultat de reconnaissance de candidat qui dépasse le seuil prédéfini par rapport au niveau de précision de confiance. Selon une autre solution, la seconde partie 50 du système d'exploitation 44 peut envoyer le réseau de phonèmes DC à au moins deux moteurs de recherche simultanément. Les niveaux de précision de confiance d'au moins deux moteurs de recherche sont comparés et le moteur de recherche ayant le niveau de précision de confiance le plus élevé est sélectionné pour exploiter la première

application 52.

En combinant des vocabulaires et des modèles de langage appropriés avec les petits exécutables de moteurs de recherche correspondants, un développeur sera capable d'activer rapidement vocalement ses applications. Beaucoup de langages pourraient agir comme liant pour combiner de petits exécutables ensemble, dont Visual Basic et le langage hypertexte (HTML). Dans le cas de HTML, il est facile de voir que pratiquement toutes les pages Web peuvent être activée vocalement si de petits exécutables sont conçus pour des liens hypertexte, des listes déroulantes, des cases

de combinaison et des champs d'entrée de texte.

Cette approche, suivant le mode de réalisation préféré de la présente invention, peut être étendue à des réseaux avec plus ou moins de contexte que les réseaux de triphones. Tout ce qui changera est le degré de séparation des noeuds requis pour assurer les contextes de "départ" et d'"arrivée" corrects pour chaque arc. Le générateur de réseaux de phonèmes 48 lui-même n'a pas besoin de connaître la nature exacte du contexte utilisé pour déterminer chaque compte d'arc, puisque le réseau lui-même appliquera la contrainte selon laquelle les trajets menant "à partir d'" et "vers" un arc ont le contexte approprié pour le

compte d'arcs.

Un aspect de la présente invention est qu'un procédé pour coder des informations vocales comprend la génération d'un réseau de phonèmes dépendant du contexte à partir de la parole dans un générateur de réseaux de phonèmes associé à un système d'exploitation; la transmission du réseau de phonèmes dépendant du contexte à une première (ou une pluralité d') application(s); et l'extraction, au niveau de la première (ou à la pluralité d') application(s), d'informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la pluralité d') application(s), de manière à exploiter la

première (ou la pluralité d') application(s).

Un autre aspect de la présente invention est qu'un procédé pour coder des informations vocales comprend la fourniture d'un système d'exploitation comprenant deux parties, dans lequel une première partie du système d'exploitation est dépendante de modèles acoustiques spécifiques à l'utilisateur et à l'environnement et une seconde partie du système d'exploitation est dépendante d'une première (ou d'une pluralité d') application(s) pouvant être choisie(s) indépendamment de la première partie du système d'exploitation, dans lequel la seconde partie du système d'exploitation extrait des informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la

pluralité d') application(s).

Un autre aspect de la présente invention est qu'un appareil pour coder des informations vocales comprend un système d'exploitation; un générateur de réseaux de phonèmes générant un réseau dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte; et une première (ou une pluralité d') application(s) conçue(s) pour recevoir la sortie du générateur de réseaux de phonèmes et extraire les informations nécessitées par la sortie en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la pluralité d') application(s), dans lequel le générateur de réseaux de phonèmes et la première (ou la pluralité d') application(s) sont

indépendamment associés au système d'exploitation.

La sortie du générateur de réseaux de phonèmes est dans un format capable d'être stocké en vue d'une entrée ultérieure dans la première (ou dans la

pluralité d') application(s).

Le générateur de réseaux de phonèmes et la première (ou la pluralité d') application(s) peuvent être placés à distance, connectés par une liaison sans

fil ou connectés par une liaison réseau.

Bien que l'invention ait été décrite conjointement avec un mode de réalisation spécifique de celle-ci, des avantages et des modifications supplémentaires seront facilement apportés par l'homme du métier. L'invention, dans ses aspects les plus étendus, n'est donc pas limitée aux détails spécifiques, à l'appareil représentatif et aux exemples illustratifs représentés et décrits. Plusieurs changements, modifications et variations sembleront évidents à l'homme du métier à la

lumière de la description précédente. On comprendra

donc que l'invention n'est pas limitée par la

description précédente, mais comprend tous ces

changements, modifications et variations dans l'esprit

et le cadre des revendications jointes.

Claims

REVENDICATIONS

1. Procédé pour coder des informations vocales caractérisé par: la génération d'un réseau de phonèmes dépendant du contexte à partir de la parole dans un générateur de réseaux de phonèmes (18) associé à un système d'exploitation (44) utilisant un modèle acoustique s'adaptant à la voix d'un utilisateur; et la transmission du réseau de phonèmes dépendant du

contexte à une première application (52).

2. Procédé selon la revendication 1, dans lequel le réseau de phonèmes dépendant du contexte est indépendant du vocabulaire (60) et du modèle de langage

(64).

3. Procédé selon la revendication 1, caractérisé de plus par l'extraction, au niveau de la première application (52), d'informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application, de manière à exploiter la

première application (52).

4. Procédé pour coder des informations vocales, caractérisé par la fourniture d'un système d'exploitation (44) comprenant deux parties, dans lequel une première partie (46) du système d'exploitation (44) est dépendante de modèles acoustiques spécifiques à l'utilisateur et à l'environnement qui s'adaptent en continu à la voix d'un utilisateur, et une seconde partie (50) du système d'exploitation (44) est dépendante d'une première application (52) pouvant être choisie indépendamment de la première partie (46) du système d'exploitation (44), dans lequel la seconde partie (50) du système d'exploitation (44) extrait des informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire (60) et un modèle

de langage (64) de la première application (52).

5. Procédé selon la revendication 4, dans lequel la première partie (46) du système d'exploitation (44) génère un réseau de phonèmes dépendant du contexte, de manière à saisir des modèles acoustiques spécifiques à l'utilisateur et à l'environnement, et transmet le réseau de phonèmes dépendant du contexte à la seconde

partie (50) du système d'exploitation (44).

6. Procédé selon la revendication 4, caractérisé de plus par une seconde application (58), dans lequel la première application (52) et la seconde application (58) comprennent différents vocabulaires (60, 62) et

différents modèles de langage (64, 66).

7. Procédé selon la revendication 4, caractérisé de plus par une seconde application (58), dans lequel la première application (52) et la seconde application (58) partagent un vocabulaire commun (68) et un modèle

de langage commun (70).

8. Procédé pour coder des informations vocales caractérisé par: la conversion de la parole en un réseau de phonèmes dépendant du contexte à l'aide de modèles de langage de phonèmes et de modèles acoustiques spécifiques à l'utilisateur et à l'environnement; l'adaptation du réseau de phonèmes dépendant du contexte en continu en fonction des modèles de langage de phonèmes et des modèles acoustiques spécifiques à l'utilisateur et à l'environnement; l'extraction d'informations désirées requises pour la reconnaissance de la parole d'un signal de parole; et la mise des informations désirées dans un format indépendant du vocabulaire (60), du modèle de langage

(64), et de l'utilisateur et de l'environnement.

9. Appareil pour coder des informations vocales, caractérisé par: un système d'exploitation (44); un générateur de réseaux de phonèmes (48) générant un réseau de phonèmes dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte; et une première application (52) conçue pour recevoir la sortie du générateur de réseaux de phonèmes (48) et extraire les informations nécessitées par la sortie en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application (52), dans lequel le générateur de réseaux de phonèmes (48) et la première application (52) sont indépendamment associés au

système d'exploitation (44).

10. Support d'informations (40) ayant des instructions et des données qui, lorsqu'elles sont chargées dans un premier microprocesseur universel (42) ayant un système d'exploitation (44), font en sorte que le premier microprocesseur universel (42) soit caractérisé par un générateur de réseaux de phonèmes (48) générant un réseau de phonèmes dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte et une première application (52) conçue pour recevoir la sortie du générateur de réseaux de phonèmes (48) et extraire les informations nécessitées par la sortie en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application (52), dans lequel le générateur de réseaux de phonèmes (48) et la première application (52) sont indépendamment associés au système

d'exploitation (44).

11. Support d'informations (40) selon la revendication 10, dans lequel le support d'informations (40) comprend une première partie (46) sur laquelle est stocké le générateur de réseaux de phonèmes (48) et une seconde partie (50) sur laquelle est stockée la

première application (52).

12. Procédé caractérisé par: la génération d'un réseau de phonèmes dépendant du contexte comme étape intermédiaire de codage d'informations vocales; la tentative de reconnaissance dans un premier moteur de recherche (55); après reconnaissance non satisfaisante dans le premier moteur de recherche (55), acheminement du réseau de phonème dépendant du contexte vers un second moteur de recherche (100); et la recherche par le second moteur de recherche

(100) d'un résultat de reconnaissance de candidat.