FR2773413A1 - Reseaux de phonemes dependant du contexte pour coder des informations vocales - Google Patents

Reseaux de phonemes dependant du contexte pour coder des informations vocales Download PDF

Info

Publication number
FR2773413A1
FR2773413A1 FR9815131A FR9815131A FR2773413A1 FR 2773413 A1 FR2773413 A1 FR 2773413A1 FR 9815131 A FR9815131 A FR 9815131A FR 9815131 A FR9815131 A FR 9815131A FR 2773413 A1 FR2773413 A1 FR 2773413A1
Authority
FR
France
Prior art keywords
application
context
phoneme
network
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9815131A
Other languages
English (en)
Other versions
FR2773413B1 (fr
Inventor
Sreeram Balakrishnan
Stephen Austin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of FR2773413A1 publication Critical patent/FR2773413A1/fr
Application granted granted Critical
Publication of FR2773413B1 publication Critical patent/FR2773413B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

L'invention propose un procédé et un appareil pour générer un réseau de phonèmes dépendant du contexte comme étape intermédiaire de codage d'informations vocales. Le réseau de phonèmes dépendant du contexte est généré à partir de la parole dans un générateur de réseaux de phonèmes (48) associé à un système d'exploitation (44). Le réseau de phonèmes dépendant du contexte est ensuite transmis à une première application (52).

Description

Titre
RESEAUX DE PHONEMES DEPENDANT DU CONTEXTE POUR CODER
DES INFORMATIONS VOCALES
Domaine de l'invention La présente invention concerne généralement la reconnaissance de la parole par ordinateur. Arrière-plan de l'invention Les récents progrès enregistrés dans les matériels et les logiciels informatiques ont permis à la reconnaissance de la parole par ordinateur (RPO) de franchir le cap de l'utilisabilité. Des systèmes sont maintenant disponibles pour de gros ordinateurs et des ordinateurs personnels qui peuvent être utilisés pour
la dictée vocale en continu et de vocabulaire étendu.
Pour obtenir des performances appropriées, de tels systèmes doivent être adaptés à la voix et à un environnement d'utilisation d'un utilisateur spécifique. De plus, ces systèmes ne peuvent reconnaître que des mots tirés d'un certain vocabulaire et sont habituellement liés à un modèle de langage particulier, qui saisit les probabilités relatives de différentes séquences de mots. En l'absence de toutes ces contraintes, il est très difficile d'obtenir des
performances appropriées avec un système RPO.
Dans la plupart des systèmes RPO, la partie spécifique de l'environnement et de l'utilisateur, ou modèles acoustiques, sont habituellement séparés des modèles de langage et de vocabulaire. Cependant, du fait des contraintes précédentes, toute application qui exige une reconnaissance de la parole requiert l'accès à la fois aux modèles acoustiques spécifiques à l'utilisateur/environnement et aux modèles de langage
et de vocabulaire spécifiques à l'application.
Il y a un obstacle majeur au fait d'amener les systèmes RPO au-delà de la dictée autonome, vers des systèmes grâce auxquels plusieurs utilisateurs différents demanderont d'accéder à différentes applications, éventuellement en parallèle et souvent sur Internet ou un réseau local (RL). La raison est que soit: (a) chaque application devra conserver des modèles acoustiques séparés pour chaque utilisateur/environnement; soit (b) chaque utilisateur devra maintenir des ensembles de vocabulaires et de modèles de langage séparés pour chaque application qu'il désire utiliser. Puisque la taille des modèles de langage et acoustiques sont en général de l'ordre du mégaoctet à des dizaines de mégaoctets pour une application allant d'un vocabulaire moyen à étendu, il s'ensuit que dans l'un ou l'autre des scénarios (a) ou (b), les ressources du système auront tendance à être
très facilement dépassées.
Une possibilité est de stocker les modèles acoustiques sur une machine différente des modèles de langage et de vocabulaire et de connecter les machines par un réseau local (RL) ou Internet. Cependant, dans l'un ou l'autre cas (a) ou (b), d'énormes quantités de trafic réseau seront générées puisque des mégaoctets de données seront déplacées vers le système de
reconnaissance de la parole cible.
Il existe donc un besoin d'un système RPO qui soit indépendant des modèles de langage et de vocabulaire d'une application et qui ne sacrifie pas les performances en termes de précision de reconnaissance finale.
Brève description des dessins
Un mode de réalisation préféré de l'invention est maintenant décrit, à titre d'exemple uniquement, en référence aux dessins joints parmi lesquels: La figure 1 illustre un réseau de phonèmes simple; La figure 2 illustre un réseau de triphones équivalent à la figure 1 selon le mode de réalisation préféré de la présente invention; La figure 3 illustre un codage pour le réseau de triphones de la figure 2 selon le mode de réalisation préféré de la présente invention; La figure 4 est un schéma fonctionnel général d'un système général selon le mode de réalisation préféré de la présente invention; La figure 5 est un schéma fonctionnel détaillé du système général selon le mode de réalisation préféré de la présente invention; La figure 6 est un schéma fonctionnel détaillé de la figure 5 selon le mode de réalisation préféré de la
présente invention.
Description détaillée du mode de réalisation préféré
Des réseaux de phonèmes dépendant du contexte (réseaux de phonèmes DC) sont proposés comme solution
aux problèmes mentionnés ci-dessus de l'état de l'art.
Un procédé et un appareil pour générer un réseau de phonèmes DC comme étape intermédiaire de codage d'informations vocales sont décrits dans le présent document. Les réseaux de phonèmes DC résultent de la séparation de la reconnaissance de la parole en deux parties: un client qui est spécifique à l'environnement et à l'utilisateur, qui écoute en continu et code la voix de l'utilisateur comme réseau de phonèmes DC, et un ensemble d'applications qui peut utiliser ces réseaux de phonèmes DC avec des modèles de langage et de vocabulaire spécifiques à l'application
pour réaliser une reconnaissance finale.
Les réseaux de phonèmes DC procurent une manière de coder la sortie du client qui est indépendante des modèles de langage et de vocabulaire d'une première application (c'est-à-dire, cible): toute application qui peut utiliser ces réseaux de phonèmes DC n'a donc pas besoin d'accéder aux modèles acoustiques spécifiques à l'utilisateur/environnement qui sont utilisés pour générer à l'origine les réseaux de phonèmes DC. Ce qui est important, à la différence de réseaux de phonèmes simples, c'est que les réseaux de phonèmes DC codent les informations vocales d'une manière qui ne sacrifie pas les performances en termes de précision de reconnaissance finale, et peuvent même
augmenter les performances.
En ce qui concerne l'architecture proposée dans le présent document, les aspects de reconnaissance qui nécessitent la connaissance de l'utilisateur et de l'environnement sont déterminés au lieu o se trouve l'utilisateur. Ceci présente l'avantage, dans la perspective de l'utilisateur, d'influencer son investissement d'adaptation dans une application quelconque. D'un point de vue du développeur d'une application, cette architecture supprime l'inconvénient de devoir maintenir des modèles spécifiques à l'utilisateur, qui pourraient se révéler très attrayants pour des prestataires de services Internet en contrat avec plusieurs milliers d'utilisateurs. De plus, les aspects de reconnaissance qui nécessitent l'accès à de grands modèles de langage et vocabulaires et, en conséquence, à de grandes quantités d'espace disque, peuvent être déterminés au niveau d'une application centralisée. Les améliorations dans les modèles de langage et les vocabulaires de l'application centralisée sont donc automatiquement mises à la disposition de tous les utilisateurs sans qu'il soit nécessaire de télécharger d'immenses fichiers de données. Avant de décrire les réseaux de phonèmes DC en détail, il est utile de décrire des réseaux de phonèmes simples comme étape intermédiaire pour la reconnaissance de la parole. Comme représenté à la figure 1, un réseau de phonèmes consiste en un ensemble de noeuds 1, 2, 3 et 4 et d'arcs 10, 12, 14, 16, 18 et 19. Les noeuds 1, 2, 3 et 4 représentent des temps de début et de fin possibles de phonèmes. Les arcs 10, 12, 14, 16, 18 et 19, qui relient un "noeud de départ" 2 à un "noeud d'arrivée" 3, représentent le début et la fin d'un phonème particulier aux temps correspondants aux noeuds de "départ" et d'"arrivée". A chaque arc 10, 12, 14, 16, 18 et 19 est associé un compte 20 ou
probabilité du phonème.
Une insuffisance importante du réseau de phonèmes simple et la raison pour laquelle il n'est pas utilisé comme étape intermédiaire dans la plupart des systèmes de reconnaissance de la parole, est que les comptes d'arcs 20 et 22 sont indépendants du contexte. En d'autres termes, le compte 22 sur l'arc IH 18 entre les noeuds 2 (t=10) et 3 (t=35) est indépendant de l'arc qui est pris pour aller au noeud 2 ou de l'arc qui est pris à partir du noeud 3. Les réseaux de phonèmes DC corrigent cela en rendant les comptes d'arcs dépendants du contexte. Le contexte d'un arc peut être séparé en un "contexte de départ" qui est déterminé par le trajet pris pour atteindre le "noeud de départ" et le "contexte d'arrivée" qui est déterminé par le trajet
pris après le "noeud d'arrivée".
Dans des réseaux de reconnaissance de la parole plus sophistiqués, les contextes de "départ" et d'"arrivée" affecteront le compte du phonème associé à un arc particulier. La manière dont le contexte est utilisé variera en fonction de la complexité du système. Des réseaux de phonèmes simples, dans lesquels aucun contexte n'est utilisé, sont situés à une extrémité du spectre. Dans un réseau de triphones, par exemple, le "contexte de départ" est le phonème associé au dernier arc pris pour atteindre le "noeud de départ", tandis que le "contexte d'arrivée" est le phonème associé au premier arc pris à partir du "noeud d'arrivée". Dans des systèmes encore plus complexes, tels que les réseaux de quinphones, les contextes de "départ" et d'"arrivée" consistent en les deux derniers et les deux premiers arcs des trajets pris pour
atteindre le "noeud de départ" et le "noeud d'arrivée".
De manière à s'assurer que les contextes de "départ" et d'"arrivée" d'un arc correspondent aux contextes de "départ" et d'"arrivée" des comptes associés à l'arc, les noeuds de "départ" et d'"arrivée" de l'arc peuvent devoir être séparés. La figure 2 est une illustration de cette séparation pour le cas spécifique d'un équivalent triphone du réseau de phonèmes simple représenté à la figure 1. Dans le cas de la figure 2, les noeuds ont été séparés de manière que les deux arcs 24 et 26 allant dans un noeud quelconque (par exemple, noeud 3a) aient la même étiquette de phonème (AH, par exemple), et les arcs 28 et 30 venant d'un noeud quelconque (par exemple, noeud 3a) aient la même étiquette de phonème (K, par exemple). Les comptes d'arcs 32 et 34 peuvent maintenant représenter des comptes de triphones, puisque les contextes de phonèmes "de départ" et d'"arrivée" seront uniquement spécifiés. Par exemple, le compte 36 sur l'arc 38 reliant le noeud 2b au noeud 3d représente le compte de triphones de IH avec un contexte gauche de TH et un contexte droit de G. La figure 3 illustre un codage pour le réseau de triphones représenté à la figure 2. La figure 3 consiste en une liste de noeuds associés au temps. Pour chaque noeud, il y a une sous-liste d'arcs consistant en tous les arcs prenant naissance à ce noeud particulier. A chaque arc est associé une étiquette de phonème, un compte de triphones et un "noeud d'arrivée". Puisque les réseaux de triphones ont des comptes de triphones attachés à chaque arc, ils peuvent servir comme entrée à tout système de reconnaissance de la parole à mots croisés. Un générateur de réseaux de phonèmes peut alors effectuer des recherches dans le réseau de triphones pour trouver le trajet qui donne le meilleur compte, étant donné un modèle de langage et un vocabulaire particuliers. Le générateur de réseaux de phonèmes n'a pas besoin d'avoir de modèles acoustiques spécifiques d'utilisateur ou d'environnement quelconques, voire même, d'accéder à la parole d'origine. Toutes les informations requises pour décoder les mots dans un signal de parole sont saisies
dans le réseau de triphones lui-même.
En référence aux figures 4 et 5, suivant le mode de réalisation préféré de la présente invention, un
support d'informations 40 est décrit ici et dans celui-
ci sont stockées des instructions et des données qui, lorsqu'elles sont chargées dans au moins un premier microprocesseur universel 42 ayant un système d'exploitation 44, font au moins en sorte que le premier microprocesseur universel 42 exécute un procédé pour générer un réseau de phonèmes DC comme étape intermédiaire de codage d'informations vocales. De préférence, le premier microprocesseur universel 42 comprend une première partie 46 du système d'exploitation 44 ayant un générateur de réseaux de phonèmes 48 (de préférence, un générateur de réseaux de phonèmes DC) et une seconde partie 50 du système d'exploitation 44 ayant au moins une première
application 52.
Le générateur de réseaux de phonèmes 48 et la première application 52 sont indépendamment associés au système d'exploitation 44 et sont des outils d'une bibliothèque de liens dynamiques. Les première et seconde parties 46 et 50, respectivement, du système d'exploitation 44 peuvent former un système d'exploitation unitaire sur un microprocesseur universel unique ou un autre ordinateur. Selon une autre solution, la seconde partie 50 du système d'exploitation 44 peut être stockée dans un second microprocesseur universel 72, séparée de la première
partie 46 et du premier microprocesseur universel 42.
Lorsque la seconde partie 50 du système d'exploitation 44 a au moins, respectivement, une première et une seconde applications 52 et 58, chacune des deux applications 52 et 58 peut avoir, respectivement, différents vocabulaires 60 et 62, respectivement, et différents modèles de langage 64 et 66, respectivement. Selon une autre solution, la première et la seconde applications 52 et 58 peuvent, respectivement, partager un vocabulaire commun 68 et un modèle de langage commun 70. Le générateur de réseaux de phonèmes 48 et la première application 52 peuvent être placés à distance l'un de l'autre et connectés par une liaison 56, soit une liaison sans fil soit une liaison par réseau (c'est-à-dire que la première partie 46 du système d'exploitation 44 peut être placée à distance de la seconde partie 50 du système d'exploitation 44). En fonctionnement, le générateur de réseaux de phonèmes 48 génère un réseau de phonèmes DC ayant une sortie 54 définissant le réseau de phonèmes DC. La sortie 54 du générateur de réseaux de phonèmes 48 se trouve dans un format capable d'être stocké en vue d'une entrée ultérieure dans la première application 52. La première application 52 est conçue pour recevoir la sortie 54 du
générateur de réseaux de phonèmes 48.
En référence à la figure 6, le générateur de réseaux de phonèmes 48 est représenté en détail, comprenant un microphone 72 connecté à un convertisseur analogique-numérique 74 connecté, à son tour, à une entrée de la première partie 46 du système d'exploitation 44. Le support d'informations 40 ayant un alphabet de phonèmes 80 est également connecté à une entrée de la première partie 46 du système
d'exploitation 44.
La première partie 46 du système d'exploitation 44 est dépendante de modèles acoustiques spécifiques à l'utilisateur et l'environnement. La première partie 46 du système d'exploitation 44 comprend un nombre d'éléments formés dans le logiciel. Ceux-ci incluent un élément d'extraction de caractéristique 76 ayant une entrée et une sortie, et un décodeur de Viterbi 78 ayant une entrée connectée à la sortie de l'élément d'extraction de caractéristique 76 et ayant une entrée connectée au support d'informations 40. Selon une autre solution, l'élément 78 (le décodeur de Viterbi) peut être un décodeur Baum-Welsh ou les éléments 60 et 62 (respectivement, l'extraction de caractéristique et le décodeur de Viterbi) peuvent être combinés et remplacés
par un décodeur à base de réseau de neurones.
La seconde partie 50 du système d'exploitation 44 est dépendante d'une première application pouvant être choisie indépendamment de la première partie 46 du système d'exploitation 44. La seconde partie 50 du système d'exploitation 44 comprend la première application 52 ayant des entrées couplées aux sorties 82, 84 et 86 du décodeur de Viterbi 78. Les sorties 82, 84 et 86 du décodeur de Viterbi 78 sont, respectivement, une étiquette de phonème, un compte et une paire noeud de "départ" - noeud d'"arrivée", qui définissent les arcs du réseau de phonèmes DC. La première application 52 est couplée à un vocabulaire 60 et à un modèle de langage 64. Une interface utilisateur graphique 88 se présentant sous la forme d'un programme d'ordinateur est fournie et présente des entrées connectées à la sortie de la première application 52 et
une sortie couplée à un affichage 90.
En fonctionnement, la première partie 46 du système d'exploitation 44 génère un réseau de phonèmes DC de manière à saisir des modèles acoustiques spécifiques à l'utilisateur et à l'environnement. La première partie 46 du système d'exploitation 44 convertit donc la parole non traitée en un réseau de phonèmes DC avec l'aide de modèles de langage de phonèmes et de modèles acoustiques spécifiques à l'utilisateur et à l'environnement qui s'adaptent en continu à la voix de l'utilisateur, à l'environnement et à l'utilisation de langage. Les modèles pourraient fonctionner dans un ordinateur personnel, un téléphone cellulaire, un dispositif d'appel de personnes ou sur tout autre équipement matériel configuré de manière appropriée. La première partie 46 du système d'exploitation 44 extrait d'un signal de parole les informations désirées requises pour la reconnaissance de la parole, donne aux informations désirées en un format indépendant du vocabulaire, du modèle de langage, de l'utilisateur et de l'environnement, et transmet les informations désirées à la seconde partie
50 du système d'exploitation 44.
La seconde partie 50 du système d'exploitation 44 utilise donc des petits exécutables de moteurs de recherche appropriés pour extraire du réseau de phonèmes DC des informations relatives aux besoins de la première application 52 utilisant le vocabulaire 60 et le modèle de langage 64 de la première application 52, de manière à rechercher un résultat de reconnaissance de candidat et à fournir le résultat de reconnaissance de candidat à la première application 52. Plusieurs de ces petits exécutables de moteurs de recherche peuvent être imaginés s'échelonnant d'un petit programme de dictée, un petit programme de remplissage de formulaire, un petit programme de langage de requête structuré, jusqu'à un petit
programme de requête en langage naturel.
De préférence, après une tentative de reconnaissance dans un premier moteur de recherche (par exemple, seconde partie 50 du système d'exploitation 44), et après reconnaissance non satisfaisante dans le premier moteur de recherche, le réseau de phonèmes DC est acheminé vers un second moteur de recherche 100. Le second moteur de recherche 100 recherche ensuite un résultat de reconnaissance de candidat et fournit le résultat de reconnaissance de candidat à la première application 52. Le passage du réseau de phonèmes DC d'un premier moteur de recherche à un second moteur de recherche pour obtenir un niveau de précision de confiance plus élevé peut être étendu à un nombre quelconque de moteurs de recherche. Par exemple, la seconde partie 50 du système d'exploitation 44 peut être configurée pour faire passer le réseau de phonèmes DC à un moteur de recherche suivant si le niveau de confiance d'un moteur de recherche actuel ne dépasse pas un seuil prédéfini. Le passage du réseau de phonèmes DC d'un moteur de recherche à un autre continuera de se produire jusqu'à ce qu'un moteur de recherche puisse produire un résultat de reconnaissance de candidat qui dépasse le seuil prédéfini par rapport au niveau de précision de confiance. Selon une autre solution, la seconde partie 50 du système d'exploitation 44 peut envoyer le réseau de phonèmes DC à au moins deux moteurs de recherche simultanément. Les niveaux de précision de confiance d'au moins deux moteurs de recherche sont comparés et le moteur de recherche ayant le niveau de précision de confiance le plus élevé est sélectionné pour exploiter la première
application 52.
En combinant des vocabulaires et des modèles de langage appropriés avec les petits exécutables de moteurs de recherche correspondants, un développeur sera capable d'activer rapidement vocalement ses applications. Beaucoup de langages pourraient agir comme liant pour combiner de petits exécutables ensemble, dont Visual Basic et le langage hypertexte (HTML). Dans le cas de HTML, il est facile de voir que pratiquement toutes les pages Web peuvent être activée vocalement si de petits exécutables sont conçus pour des liens hypertexte, des listes déroulantes, des cases
de combinaison et des champs d'entrée de texte.
Cette approche, suivant le mode de réalisation préféré de la présente invention, peut être étendue à des réseaux avec plus ou moins de contexte que les réseaux de triphones. Tout ce qui changera est le degré de séparation des noeuds requis pour assurer les contextes de "départ" et d'"arrivée" corrects pour chaque arc. Le générateur de réseaux de phonèmes 48 lui-même n'a pas besoin de connaître la nature exacte du contexte utilisé pour déterminer chaque compte d'arc, puisque le réseau lui-même appliquera la contrainte selon laquelle les trajets menant "à partir d'" et "vers" un arc ont le contexte approprié pour le
compte d'arcs.
Un aspect de la présente invention est qu'un procédé pour coder des informations vocales comprend la génération d'un réseau de phonèmes dépendant du contexte à partir de la parole dans un générateur de réseaux de phonèmes associé à un système d'exploitation; la transmission du réseau de phonèmes dépendant du contexte à une première (ou une pluralité d') application(s); et l'extraction, au niveau de la première (ou à la pluralité d') application(s), d'informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la pluralité d') application(s), de manière à exploiter la
première (ou la pluralité d') application(s).
Un autre aspect de la présente invention est qu'un procédé pour coder des informations vocales comprend la fourniture d'un système d'exploitation comprenant deux parties, dans lequel une première partie du système d'exploitation est dépendante de modèles acoustiques spécifiques à l'utilisateur et à l'environnement et une seconde partie du système d'exploitation est dépendante d'une première (ou d'une pluralité d') application(s) pouvant être choisie(s) indépendamment de la première partie du système d'exploitation, dans lequel la seconde partie du système d'exploitation extrait des informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la
pluralité d') application(s).
Un autre aspect de la présente invention est qu'un appareil pour coder des informations vocales comprend un système d'exploitation; un générateur de réseaux de phonèmes générant un réseau dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte; et une première (ou une pluralité d') application(s) conçue(s) pour recevoir la sortie du générateur de réseaux de phonèmes et extraire les informations nécessitées par la sortie en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la pluralité d') application(s), dans lequel le générateur de réseaux de phonèmes et la première (ou la pluralité d') application(s) sont
indépendamment associés au système d'exploitation.
La sortie du générateur de réseaux de phonèmes est dans un format capable d'être stocké en vue d'une entrée ultérieure dans la première (ou dans la
pluralité d') application(s).
Le générateur de réseaux de phonèmes et la première (ou la pluralité d') application(s) peuvent être placés à distance, connectés par une liaison sans
fil ou connectés par une liaison réseau.
Bien que l'invention ait été décrite conjointement avec un mode de réalisation spécifique de celle-ci, des avantages et des modifications supplémentaires seront facilement apportés par l'homme du métier. L'invention, dans ses aspects les plus étendus, n'est donc pas limitée aux détails spécifiques, à l'appareil représentatif et aux exemples illustratifs représentés et décrits. Plusieurs changements, modifications et variations sembleront évidents à l'homme du métier à la
lumière de la description précédente. On comprendra
donc que l'invention n'est pas limitée par la
description précédente, mais comprend tous ces
changements, modifications et variations dans l'esprit
et le cadre des revendications jointes.

Claims (12)

REVENDICATIONS
1. Procédé pour coder des informations vocales caractérisé par: la génération d'un réseau de phonèmes dépendant du contexte à partir de la parole dans un générateur de réseaux de phonèmes (18) associé à un système d'exploitation (44) utilisant un modèle acoustique s'adaptant à la voix d'un utilisateur; et la transmission du réseau de phonèmes dépendant du
contexte à une première application (52).
2. Procédé selon la revendication 1, dans lequel le réseau de phonèmes dépendant du contexte est indépendant du vocabulaire (60) et du modèle de langage
(64).
3. Procédé selon la revendication 1, caractérisé de plus par l'extraction, au niveau de la première application (52), d'informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application, de manière à exploiter la
première application (52).
4. Procédé pour coder des informations vocales, caractérisé par la fourniture d'un système d'exploitation (44) comprenant deux parties, dans lequel une première partie (46) du système d'exploitation (44) est dépendante de modèles acoustiques spécifiques à l'utilisateur et à l'environnement qui s'adaptent en continu à la voix d'un utilisateur, et une seconde partie (50) du système d'exploitation (44) est dépendante d'une première application (52) pouvant être choisie indépendamment de la première partie (46) du système d'exploitation (44), dans lequel la seconde partie (50) du système d'exploitation (44) extrait des informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire (60) et un modèle
de langage (64) de la première application (52).
5. Procédé selon la revendication 4, dans lequel la première partie (46) du système d'exploitation (44) génère un réseau de phonèmes dépendant du contexte, de manière à saisir des modèles acoustiques spécifiques à l'utilisateur et à l'environnement, et transmet le réseau de phonèmes dépendant du contexte à la seconde
partie (50) du système d'exploitation (44).
6. Procédé selon la revendication 4, caractérisé de plus par une seconde application (58), dans lequel la première application (52) et la seconde application (58) comprennent différents vocabulaires (60, 62) et
différents modèles de langage (64, 66).
7. Procédé selon la revendication 4, caractérisé de plus par une seconde application (58), dans lequel la première application (52) et la seconde application (58) partagent un vocabulaire commun (68) et un modèle
de langage commun (70).
8. Procédé pour coder des informations vocales caractérisé par: la conversion de la parole en un réseau de phonèmes dépendant du contexte à l'aide de modèles de langage de phonèmes et de modèles acoustiques spécifiques à l'utilisateur et à l'environnement; l'adaptation du réseau de phonèmes dépendant du contexte en continu en fonction des modèles de langage de phonèmes et des modèles acoustiques spécifiques à l'utilisateur et à l'environnement; l'extraction d'informations désirées requises pour la reconnaissance de la parole d'un signal de parole; et la mise des informations désirées dans un format indépendant du vocabulaire (60), du modèle de langage
(64), et de l'utilisateur et de l'environnement.
9. Appareil pour coder des informations vocales, caractérisé par: un système d'exploitation (44); un générateur de réseaux de phonèmes (48) générant un réseau de phonèmes dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte; et une première application (52) conçue pour recevoir la sortie du générateur de réseaux de phonèmes (48) et extraire les informations nécessitées par la sortie en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application (52), dans lequel le générateur de réseaux de phonèmes (48) et la première application (52) sont indépendamment associés au
système d'exploitation (44).
10. Support d'informations (40) ayant des instructions et des données qui, lorsqu'elles sont chargées dans un premier microprocesseur universel (42) ayant un système d'exploitation (44), font en sorte que le premier microprocesseur universel (42) soit caractérisé par un générateur de réseaux de phonèmes (48) générant un réseau de phonèmes dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte et une première application (52) conçue pour recevoir la sortie du générateur de réseaux de phonèmes (48) et extraire les informations nécessitées par la sortie en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application (52), dans lequel le générateur de réseaux de phonèmes (48) et la première application (52) sont indépendamment associés au système
d'exploitation (44).
11. Support d'informations (40) selon la revendication 10, dans lequel le support d'informations (40) comprend une première partie (46) sur laquelle est stocké le générateur de réseaux de phonèmes (48) et une seconde partie (50) sur laquelle est stockée la
première application (52).
12. Procédé caractérisé par: la génération d'un réseau de phonèmes dépendant du contexte comme étape intermédiaire de codage d'informations vocales; la tentative de reconnaissance dans un premier moteur de recherche (55); après reconnaissance non satisfaisante dans le premier moteur de recherche (55), acheminement du réseau de phonème dépendant du contexte vers un second moteur de recherche (100); et la recherche par le second moteur de recherche
(100) d'un résultat de reconnaissance de candidat.
FR9815131A 1997-12-01 1998-12-01 Reseaux de phonemes dependant du contexte pour coder des informations vocales Expired - Fee Related FR2773413B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/980,954 US6182038B1 (en) 1997-12-01 1997-12-01 Context dependent phoneme networks for encoding speech information

Publications (2)

Publication Number Publication Date
FR2773413A1 true FR2773413A1 (fr) 1999-07-09
FR2773413B1 FR2773413B1 (fr) 2000-05-19

Family

ID=25527992

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9815131A Expired - Fee Related FR2773413B1 (fr) 1997-12-01 1998-12-01 Reseaux de phonemes dependant du contexte pour coder des informations vocales

Country Status (9)

Country Link
US (1) US6182038B1 (fr)
EP (1) EP0954856B1 (fr)
AT (1) ATE237176T1 (fr)
AU (1) AU1465099A (fr)
DE (1) DE69813180T2 (fr)
FR (1) FR2773413B1 (fr)
GB (1) GB2331826B (fr)
TW (1) TW462037B (fr)
WO (1) WO1999028899A1 (fr)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2901299A (en) * 1998-03-09 1999-09-27 Lernout & Hauspie Speech Products N.V. Apparatus and method for simultaneous multimode dictation
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US20020087313A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented intelligent speech model partitioning method and system
US7609829B2 (en) * 2001-07-03 2009-10-27 Apptera, Inc. Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7697673B2 (en) * 2003-11-17 2010-04-13 Apptera Inc. System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system
US20050163136A1 (en) * 2003-11-17 2005-07-28 Leo Chiu Multi-tenant self-service VXML portal
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
KR100901640B1 (ko) * 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP4318463A3 (fr) 2009-12-23 2024-02-28 Google LLC Entrée multimodale sur un dispositif électronique
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
WO2012177662A1 (fr) * 2011-06-19 2012-12-27 Mmodal Ip Llc Extension de document dans un workflow de création de document basé sur la dictée
CA2839265A1 (fr) 2011-06-19 2012-12-27 Mmodal Ip Llc Reconnaissance vocale faisant appel a des modeles de reconnaissance sensibles au contexte
HK1158011A2 (en) * 2012-02-03 2012-06-22 Gilkron Ltd An online procurement system for the provision of intellectually oriented services
JP6388864B2 (ja) 2012-08-13 2018-09-12 エムモーダル アイピー エルエルシー 自由形式テキストに含まれる情報に対応する離散データ表現の維持
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US10885043B2 (en) * 2014-05-15 2021-01-05 Nec Corporation Search device, method and program recording medium
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9721564B2 (en) 2014-07-31 2017-08-01 Rovi Guides, Inc. Systems and methods for performing ASR in the presence of heterographs
US9830321B2 (en) 2014-09-30 2017-11-28 Rovi Guides, Inc. Systems and methods for searching for a media asset
WO2016082133A1 (fr) * 2014-11-26 2016-06-02 GM Global Technology Operations LLC Transmission à variation continue
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB224023A (en) 1923-08-23 1924-11-06 William Forber Improvements in surface finishing tools for white metal or the like
GB8908205D0 (en) 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
US5497319A (en) 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5754671A (en) 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management
AU709376B2 (en) * 1996-05-03 1999-08-26 British Telecommunications Public Limited Company Automatic speech recognition
US5867817A (en) * 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"SPECIALIZED LANGUAGE MODELS FOR SPEECH RECOGNITION", IBM TECHNICAL DISCLOSURE BULLETIN, vol. 38, no. 2, February 1995 (1995-02-01), pages 155 - 157, XP000502428 *

Also Published As

Publication number Publication date
GB2331826A (en) 1999-06-02
AU1465099A (en) 1999-06-16
TW462037B (en) 2001-11-01
EP0954856A1 (fr) 1999-11-10
GB2331826B (en) 2001-12-19
EP0954856B1 (fr) 2003-04-09
DE69813180T2 (de) 2003-10-23
GB9826231D0 (en) 1999-01-20
ATE237176T1 (de) 2003-04-15
WO1999028899A1 (fr) 1999-06-10
DE69813180D1 (de) 2003-05-15
FR2773413B1 (fr) 2000-05-19
US6182038B1 (en) 2001-01-30

Similar Documents

Publication Publication Date Title
FR2773413A1 (fr) Reseaux de phonemes dependant du contexte pour coder des informations vocales
US11429346B2 (en) Graphical user interface rendering management by voice-driven computing infrastructure
JP6027052B2 (ja) インテリジェント自動アシスタントによる能動的入力導出
US7640160B2 (en) Systems and methods for responding to natural language speech utterance
US8838457B2 (en) Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8620659B2 (en) System and method of supporting adaptive misrecognition in conversational speech
US20080288252A1 (en) Speech recognition of speech recorded by a mobile communication facility
US20090030688A1 (en) Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
EP2126902A2 (fr) Reconnaissance de paroles enregistrées par un dispositif de communication mobile
US11514907B2 (en) Activation of remote devices in a networked system
CA2531496A1 (fr) Reconnaissance vocale pour les larges vocabulaires dynamiques
EP1803116B1 (fr) Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant
EP1531407A1 (fr) Procédé et système d'interrogation d'une base de données multimédia à partir d'un terminal de télécommunication
FR3089027A1 (fr) Dispositif assistant, Procédé de réponse à des questions, Dispositif agent de réponse et Procédé de fourniture d’un élément de réponse
FR2824944A1 (fr) Procede de commande vocale et systeme parametrable a commande vocale
FR2991077A1 (fr) Systeme interactif de resolution contextuelle d'informations provenant d'un systeme semantique

Legal Events

Date Code Title Description
TP Transmission of property

Owner name: MOTOROLA MOBILITY, INC., US

Effective date: 20110912

PLFP Fee payment

Year of fee payment: 18

ST Notification of lapse

Effective date: 20170831