FR2773413A1 - Reseaux de phonemes dependant du contexte pour coder des informations vocales - Google Patents
Reseaux de phonemes dependant du contexte pour coder des informations vocales Download PDFInfo
- Publication number
- FR2773413A1 FR2773413A1 FR9815131A FR9815131A FR2773413A1 FR 2773413 A1 FR2773413 A1 FR 2773413A1 FR 9815131 A FR9815131 A FR 9815131A FR 9815131 A FR9815131 A FR 9815131A FR 2773413 A1 FR2773413 A1 FR 2773413A1
- Authority
- FR
- France
- Prior art keywords
- application
- context
- phoneme
- network
- operating system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001419 dependent effect Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims 1
- 238000003491 array Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000011230 binding agent Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
L'invention propose un procédé et un appareil pour générer un réseau de phonèmes dépendant du contexte comme étape intermédiaire de codage d'informations vocales. Le réseau de phonèmes dépendant du contexte est généré à partir de la parole dans un générateur de réseaux de phonèmes (48) associé à un système d'exploitation (44). Le réseau de phonèmes dépendant du contexte est ensuite transmis à une première application (52).
Description
Titre
RESEAUX DE PHONEMES DEPENDANT DU CONTEXTE POUR CODER
DES INFORMATIONS VOCALES
Domaine de l'invention La présente invention concerne généralement la reconnaissance de la parole par ordinateur. Arrière-plan de l'invention Les récents progrès enregistrés dans les matériels et les logiciels informatiques ont permis à la reconnaissance de la parole par ordinateur (RPO) de franchir le cap de l'utilisabilité. Des systèmes sont maintenant disponibles pour de gros ordinateurs et des ordinateurs personnels qui peuvent être utilisés pour
la dictée vocale en continu et de vocabulaire étendu.
Pour obtenir des performances appropriées, de tels systèmes doivent être adaptés à la voix et à un environnement d'utilisation d'un utilisateur spécifique. De plus, ces systèmes ne peuvent reconnaître que des mots tirés d'un certain vocabulaire et sont habituellement liés à un modèle de langage particulier, qui saisit les probabilités relatives de différentes séquences de mots. En l'absence de toutes ces contraintes, il est très difficile d'obtenir des
performances appropriées avec un système RPO.
Dans la plupart des systèmes RPO, la partie spécifique de l'environnement et de l'utilisateur, ou modèles acoustiques, sont habituellement séparés des modèles de langage et de vocabulaire. Cependant, du fait des contraintes précédentes, toute application qui exige une reconnaissance de la parole requiert l'accès à la fois aux modèles acoustiques spécifiques à l'utilisateur/environnement et aux modèles de langage
et de vocabulaire spécifiques à l'application.
Il y a un obstacle majeur au fait d'amener les systèmes RPO au-delà de la dictée autonome, vers des systèmes grâce auxquels plusieurs utilisateurs différents demanderont d'accéder à différentes applications, éventuellement en parallèle et souvent sur Internet ou un réseau local (RL). La raison est que soit: (a) chaque application devra conserver des modèles acoustiques séparés pour chaque utilisateur/environnement; soit (b) chaque utilisateur devra maintenir des ensembles de vocabulaires et de modèles de langage séparés pour chaque application qu'il désire utiliser. Puisque la taille des modèles de langage et acoustiques sont en général de l'ordre du mégaoctet à des dizaines de mégaoctets pour une application allant d'un vocabulaire moyen à étendu, il s'ensuit que dans l'un ou l'autre des scénarios (a) ou (b), les ressources du système auront tendance à être
très facilement dépassées.
Une possibilité est de stocker les modèles acoustiques sur une machine différente des modèles de langage et de vocabulaire et de connecter les machines par un réseau local (RL) ou Internet. Cependant, dans l'un ou l'autre cas (a) ou (b), d'énormes quantités de trafic réseau seront générées puisque des mégaoctets de données seront déplacées vers le système de
reconnaissance de la parole cible.
Il existe donc un besoin d'un système RPO qui soit indépendant des modèles de langage et de vocabulaire d'une application et qui ne sacrifie pas les performances en termes de précision de reconnaissance finale.
Brève description des dessins
Un mode de réalisation préféré de l'invention est maintenant décrit, à titre d'exemple uniquement, en référence aux dessins joints parmi lesquels: La figure 1 illustre un réseau de phonèmes simple; La figure 2 illustre un réseau de triphones équivalent à la figure 1 selon le mode de réalisation préféré de la présente invention; La figure 3 illustre un codage pour le réseau de triphones de la figure 2 selon le mode de réalisation préféré de la présente invention; La figure 4 est un schéma fonctionnel général d'un système général selon le mode de réalisation préféré de la présente invention; La figure 5 est un schéma fonctionnel détaillé du système général selon le mode de réalisation préféré de la présente invention; La figure 6 est un schéma fonctionnel détaillé de la figure 5 selon le mode de réalisation préféré de la
présente invention.
Description détaillée du mode de réalisation préféré
Des réseaux de phonèmes dépendant du contexte (réseaux de phonèmes DC) sont proposés comme solution
aux problèmes mentionnés ci-dessus de l'état de l'art.
Un procédé et un appareil pour générer un réseau de phonèmes DC comme étape intermédiaire de codage d'informations vocales sont décrits dans le présent document. Les réseaux de phonèmes DC résultent de la séparation de la reconnaissance de la parole en deux parties: un client qui est spécifique à l'environnement et à l'utilisateur, qui écoute en continu et code la voix de l'utilisateur comme réseau de phonèmes DC, et un ensemble d'applications qui peut utiliser ces réseaux de phonèmes DC avec des modèles de langage et de vocabulaire spécifiques à l'application
pour réaliser une reconnaissance finale.
Les réseaux de phonèmes DC procurent une manière de coder la sortie du client qui est indépendante des modèles de langage et de vocabulaire d'une première application (c'est-à-dire, cible): toute application qui peut utiliser ces réseaux de phonèmes DC n'a donc pas besoin d'accéder aux modèles acoustiques spécifiques à l'utilisateur/environnement qui sont utilisés pour générer à l'origine les réseaux de phonèmes DC. Ce qui est important, à la différence de réseaux de phonèmes simples, c'est que les réseaux de phonèmes DC codent les informations vocales d'une manière qui ne sacrifie pas les performances en termes de précision de reconnaissance finale, et peuvent même
augmenter les performances.
En ce qui concerne l'architecture proposée dans le présent document, les aspects de reconnaissance qui nécessitent la connaissance de l'utilisateur et de l'environnement sont déterminés au lieu o se trouve l'utilisateur. Ceci présente l'avantage, dans la perspective de l'utilisateur, d'influencer son investissement d'adaptation dans une application quelconque. D'un point de vue du développeur d'une application, cette architecture supprime l'inconvénient de devoir maintenir des modèles spécifiques à l'utilisateur, qui pourraient se révéler très attrayants pour des prestataires de services Internet en contrat avec plusieurs milliers d'utilisateurs. De plus, les aspects de reconnaissance qui nécessitent l'accès à de grands modèles de langage et vocabulaires et, en conséquence, à de grandes quantités d'espace disque, peuvent être déterminés au niveau d'une application centralisée. Les améliorations dans les modèles de langage et les vocabulaires de l'application centralisée sont donc automatiquement mises à la disposition de tous les utilisateurs sans qu'il soit nécessaire de télécharger d'immenses fichiers de données. Avant de décrire les réseaux de phonèmes DC en détail, il est utile de décrire des réseaux de phonèmes simples comme étape intermédiaire pour la reconnaissance de la parole. Comme représenté à la figure 1, un réseau de phonèmes consiste en un ensemble de noeuds 1, 2, 3 et 4 et d'arcs 10, 12, 14, 16, 18 et 19. Les noeuds 1, 2, 3 et 4 représentent des temps de début et de fin possibles de phonèmes. Les arcs 10, 12, 14, 16, 18 et 19, qui relient un "noeud de départ" 2 à un "noeud d'arrivée" 3, représentent le début et la fin d'un phonème particulier aux temps correspondants aux noeuds de "départ" et d'"arrivée". A chaque arc 10, 12, 14, 16, 18 et 19 est associé un compte 20 ou
probabilité du phonème.
Une insuffisance importante du réseau de phonèmes simple et la raison pour laquelle il n'est pas utilisé comme étape intermédiaire dans la plupart des systèmes de reconnaissance de la parole, est que les comptes d'arcs 20 et 22 sont indépendants du contexte. En d'autres termes, le compte 22 sur l'arc IH 18 entre les noeuds 2 (t=10) et 3 (t=35) est indépendant de l'arc qui est pris pour aller au noeud 2 ou de l'arc qui est pris à partir du noeud 3. Les réseaux de phonèmes DC corrigent cela en rendant les comptes d'arcs dépendants du contexte. Le contexte d'un arc peut être séparé en un "contexte de départ" qui est déterminé par le trajet pris pour atteindre le "noeud de départ" et le "contexte d'arrivée" qui est déterminé par le trajet
pris après le "noeud d'arrivée".
Dans des réseaux de reconnaissance de la parole plus sophistiqués, les contextes de "départ" et d'"arrivée" affecteront le compte du phonème associé à un arc particulier. La manière dont le contexte est utilisé variera en fonction de la complexité du système. Des réseaux de phonèmes simples, dans lesquels aucun contexte n'est utilisé, sont situés à une extrémité du spectre. Dans un réseau de triphones, par exemple, le "contexte de départ" est le phonème associé au dernier arc pris pour atteindre le "noeud de départ", tandis que le "contexte d'arrivée" est le phonème associé au premier arc pris à partir du "noeud d'arrivée". Dans des systèmes encore plus complexes, tels que les réseaux de quinphones, les contextes de "départ" et d'"arrivée" consistent en les deux derniers et les deux premiers arcs des trajets pris pour
atteindre le "noeud de départ" et le "noeud d'arrivée".
De manière à s'assurer que les contextes de "départ" et d'"arrivée" d'un arc correspondent aux contextes de "départ" et d'"arrivée" des comptes associés à l'arc, les noeuds de "départ" et d'"arrivée" de l'arc peuvent devoir être séparés. La figure 2 est une illustration de cette séparation pour le cas spécifique d'un équivalent triphone du réseau de phonèmes simple représenté à la figure 1. Dans le cas de la figure 2, les noeuds ont été séparés de manière que les deux arcs 24 et 26 allant dans un noeud quelconque (par exemple, noeud 3a) aient la même étiquette de phonème (AH, par exemple), et les arcs 28 et 30 venant d'un noeud quelconque (par exemple, noeud 3a) aient la même étiquette de phonème (K, par exemple). Les comptes d'arcs 32 et 34 peuvent maintenant représenter des comptes de triphones, puisque les contextes de phonèmes "de départ" et d'"arrivée" seront uniquement spécifiés. Par exemple, le compte 36 sur l'arc 38 reliant le noeud 2b au noeud 3d représente le compte de triphones de IH avec un contexte gauche de TH et un contexte droit de G. La figure 3 illustre un codage pour le réseau de triphones représenté à la figure 2. La figure 3 consiste en une liste de noeuds associés au temps. Pour chaque noeud, il y a une sous-liste d'arcs consistant en tous les arcs prenant naissance à ce noeud particulier. A chaque arc est associé une étiquette de phonème, un compte de triphones et un "noeud d'arrivée". Puisque les réseaux de triphones ont des comptes de triphones attachés à chaque arc, ils peuvent servir comme entrée à tout système de reconnaissance de la parole à mots croisés. Un générateur de réseaux de phonèmes peut alors effectuer des recherches dans le réseau de triphones pour trouver le trajet qui donne le meilleur compte, étant donné un modèle de langage et un vocabulaire particuliers. Le générateur de réseaux de phonèmes n'a pas besoin d'avoir de modèles acoustiques spécifiques d'utilisateur ou d'environnement quelconques, voire même, d'accéder à la parole d'origine. Toutes les informations requises pour décoder les mots dans un signal de parole sont saisies
dans le réseau de triphones lui-même.
En référence aux figures 4 et 5, suivant le mode de réalisation préféré de la présente invention, un
support d'informations 40 est décrit ici et dans celui-
ci sont stockées des instructions et des données qui, lorsqu'elles sont chargées dans au moins un premier microprocesseur universel 42 ayant un système d'exploitation 44, font au moins en sorte que le premier microprocesseur universel 42 exécute un procédé pour générer un réseau de phonèmes DC comme étape intermédiaire de codage d'informations vocales. De préférence, le premier microprocesseur universel 42 comprend une première partie 46 du système d'exploitation 44 ayant un générateur de réseaux de phonèmes 48 (de préférence, un générateur de réseaux de phonèmes DC) et une seconde partie 50 du système d'exploitation 44 ayant au moins une première
application 52.
Le générateur de réseaux de phonèmes 48 et la première application 52 sont indépendamment associés au système d'exploitation 44 et sont des outils d'une bibliothèque de liens dynamiques. Les première et seconde parties 46 et 50, respectivement, du système d'exploitation 44 peuvent former un système d'exploitation unitaire sur un microprocesseur universel unique ou un autre ordinateur. Selon une autre solution, la seconde partie 50 du système d'exploitation 44 peut être stockée dans un second microprocesseur universel 72, séparée de la première
partie 46 et du premier microprocesseur universel 42.
Lorsque la seconde partie 50 du système d'exploitation 44 a au moins, respectivement, une première et une seconde applications 52 et 58, chacune des deux applications 52 et 58 peut avoir, respectivement, différents vocabulaires 60 et 62, respectivement, et différents modèles de langage 64 et 66, respectivement. Selon une autre solution, la première et la seconde applications 52 et 58 peuvent, respectivement, partager un vocabulaire commun 68 et un modèle de langage commun 70. Le générateur de réseaux de phonèmes 48 et la première application 52 peuvent être placés à distance l'un de l'autre et connectés par une liaison 56, soit une liaison sans fil soit une liaison par réseau (c'est-à-dire que la première partie 46 du système d'exploitation 44 peut être placée à distance de la seconde partie 50 du système d'exploitation 44). En fonctionnement, le générateur de réseaux de phonèmes 48 génère un réseau de phonèmes DC ayant une sortie 54 définissant le réseau de phonèmes DC. La sortie 54 du générateur de réseaux de phonèmes 48 se trouve dans un format capable d'être stocké en vue d'une entrée ultérieure dans la première application 52. La première application 52 est conçue pour recevoir la sortie 54 du
générateur de réseaux de phonèmes 48.
En référence à la figure 6, le générateur de réseaux de phonèmes 48 est représenté en détail, comprenant un microphone 72 connecté à un convertisseur analogique-numérique 74 connecté, à son tour, à une entrée de la première partie 46 du système d'exploitation 44. Le support d'informations 40 ayant un alphabet de phonèmes 80 est également connecté à une entrée de la première partie 46 du système
d'exploitation 44.
La première partie 46 du système d'exploitation 44 est dépendante de modèles acoustiques spécifiques à l'utilisateur et l'environnement. La première partie 46 du système d'exploitation 44 comprend un nombre d'éléments formés dans le logiciel. Ceux-ci incluent un élément d'extraction de caractéristique 76 ayant une entrée et une sortie, et un décodeur de Viterbi 78 ayant une entrée connectée à la sortie de l'élément d'extraction de caractéristique 76 et ayant une entrée connectée au support d'informations 40. Selon une autre solution, l'élément 78 (le décodeur de Viterbi) peut être un décodeur Baum-Welsh ou les éléments 60 et 62 (respectivement, l'extraction de caractéristique et le décodeur de Viterbi) peuvent être combinés et remplacés
par un décodeur à base de réseau de neurones.
La seconde partie 50 du système d'exploitation 44 est dépendante d'une première application pouvant être choisie indépendamment de la première partie 46 du système d'exploitation 44. La seconde partie 50 du système d'exploitation 44 comprend la première application 52 ayant des entrées couplées aux sorties 82, 84 et 86 du décodeur de Viterbi 78. Les sorties 82, 84 et 86 du décodeur de Viterbi 78 sont, respectivement, une étiquette de phonème, un compte et une paire noeud de "départ" - noeud d'"arrivée", qui définissent les arcs du réseau de phonèmes DC. La première application 52 est couplée à un vocabulaire 60 et à un modèle de langage 64. Une interface utilisateur graphique 88 se présentant sous la forme d'un programme d'ordinateur est fournie et présente des entrées connectées à la sortie de la première application 52 et
une sortie couplée à un affichage 90.
En fonctionnement, la première partie 46 du système d'exploitation 44 génère un réseau de phonèmes DC de manière à saisir des modèles acoustiques spécifiques à l'utilisateur et à l'environnement. La première partie 46 du système d'exploitation 44 convertit donc la parole non traitée en un réseau de phonèmes DC avec l'aide de modèles de langage de phonèmes et de modèles acoustiques spécifiques à l'utilisateur et à l'environnement qui s'adaptent en continu à la voix de l'utilisateur, à l'environnement et à l'utilisation de langage. Les modèles pourraient fonctionner dans un ordinateur personnel, un téléphone cellulaire, un dispositif d'appel de personnes ou sur tout autre équipement matériel configuré de manière appropriée. La première partie 46 du système d'exploitation 44 extrait d'un signal de parole les informations désirées requises pour la reconnaissance de la parole, donne aux informations désirées en un format indépendant du vocabulaire, du modèle de langage, de l'utilisateur et de l'environnement, et transmet les informations désirées à la seconde partie
50 du système d'exploitation 44.
La seconde partie 50 du système d'exploitation 44 utilise donc des petits exécutables de moteurs de recherche appropriés pour extraire du réseau de phonèmes DC des informations relatives aux besoins de la première application 52 utilisant le vocabulaire 60 et le modèle de langage 64 de la première application 52, de manière à rechercher un résultat de reconnaissance de candidat et à fournir le résultat de reconnaissance de candidat à la première application 52. Plusieurs de ces petits exécutables de moteurs de recherche peuvent être imaginés s'échelonnant d'un petit programme de dictée, un petit programme de remplissage de formulaire, un petit programme de langage de requête structuré, jusqu'à un petit
programme de requête en langage naturel.
De préférence, après une tentative de reconnaissance dans un premier moteur de recherche (par exemple, seconde partie 50 du système d'exploitation 44), et après reconnaissance non satisfaisante dans le premier moteur de recherche, le réseau de phonèmes DC est acheminé vers un second moteur de recherche 100. Le second moteur de recherche 100 recherche ensuite un résultat de reconnaissance de candidat et fournit le résultat de reconnaissance de candidat à la première application 52. Le passage du réseau de phonèmes DC d'un premier moteur de recherche à un second moteur de recherche pour obtenir un niveau de précision de confiance plus élevé peut être étendu à un nombre quelconque de moteurs de recherche. Par exemple, la seconde partie 50 du système d'exploitation 44 peut être configurée pour faire passer le réseau de phonèmes DC à un moteur de recherche suivant si le niveau de confiance d'un moteur de recherche actuel ne dépasse pas un seuil prédéfini. Le passage du réseau de phonèmes DC d'un moteur de recherche à un autre continuera de se produire jusqu'à ce qu'un moteur de recherche puisse produire un résultat de reconnaissance de candidat qui dépasse le seuil prédéfini par rapport au niveau de précision de confiance. Selon une autre solution, la seconde partie 50 du système d'exploitation 44 peut envoyer le réseau de phonèmes DC à au moins deux moteurs de recherche simultanément. Les niveaux de précision de confiance d'au moins deux moteurs de recherche sont comparés et le moteur de recherche ayant le niveau de précision de confiance le plus élevé est sélectionné pour exploiter la première
application 52.
En combinant des vocabulaires et des modèles de langage appropriés avec les petits exécutables de moteurs de recherche correspondants, un développeur sera capable d'activer rapidement vocalement ses applications. Beaucoup de langages pourraient agir comme liant pour combiner de petits exécutables ensemble, dont Visual Basic et le langage hypertexte (HTML). Dans le cas de HTML, il est facile de voir que pratiquement toutes les pages Web peuvent être activée vocalement si de petits exécutables sont conçus pour des liens hypertexte, des listes déroulantes, des cases
de combinaison et des champs d'entrée de texte.
Cette approche, suivant le mode de réalisation préféré de la présente invention, peut être étendue à des réseaux avec plus ou moins de contexte que les réseaux de triphones. Tout ce qui changera est le degré de séparation des noeuds requis pour assurer les contextes de "départ" et d'"arrivée" corrects pour chaque arc. Le générateur de réseaux de phonèmes 48 lui-même n'a pas besoin de connaître la nature exacte du contexte utilisé pour déterminer chaque compte d'arc, puisque le réseau lui-même appliquera la contrainte selon laquelle les trajets menant "à partir d'" et "vers" un arc ont le contexte approprié pour le
compte d'arcs.
Un aspect de la présente invention est qu'un procédé pour coder des informations vocales comprend la génération d'un réseau de phonèmes dépendant du contexte à partir de la parole dans un générateur de réseaux de phonèmes associé à un système d'exploitation; la transmission du réseau de phonèmes dépendant du contexte à une première (ou une pluralité d') application(s); et l'extraction, au niveau de la première (ou à la pluralité d') application(s), d'informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la pluralité d') application(s), de manière à exploiter la
première (ou la pluralité d') application(s).
Un autre aspect de la présente invention est qu'un procédé pour coder des informations vocales comprend la fourniture d'un système d'exploitation comprenant deux parties, dans lequel une première partie du système d'exploitation est dépendante de modèles acoustiques spécifiques à l'utilisateur et à l'environnement et une seconde partie du système d'exploitation est dépendante d'une première (ou d'une pluralité d') application(s) pouvant être choisie(s) indépendamment de la première partie du système d'exploitation, dans lequel la seconde partie du système d'exploitation extrait des informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la
pluralité d') application(s).
Un autre aspect de la présente invention est qu'un appareil pour coder des informations vocales comprend un système d'exploitation; un générateur de réseaux de phonèmes générant un réseau dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte; et une première (ou une pluralité d') application(s) conçue(s) pour recevoir la sortie du générateur de réseaux de phonèmes et extraire les informations nécessitées par la sortie en utilisant un vocabulaire et un (des) modèle(s) de langage de la première (ou de la pluralité d') application(s), dans lequel le générateur de réseaux de phonèmes et la première (ou la pluralité d') application(s) sont
indépendamment associés au système d'exploitation.
La sortie du générateur de réseaux de phonèmes est dans un format capable d'être stocké en vue d'une entrée ultérieure dans la première (ou dans la
pluralité d') application(s).
Le générateur de réseaux de phonèmes et la première (ou la pluralité d') application(s) peuvent être placés à distance, connectés par une liaison sans
fil ou connectés par une liaison réseau.
Bien que l'invention ait été décrite conjointement avec un mode de réalisation spécifique de celle-ci, des avantages et des modifications supplémentaires seront facilement apportés par l'homme du métier. L'invention, dans ses aspects les plus étendus, n'est donc pas limitée aux détails spécifiques, à l'appareil représentatif et aux exemples illustratifs représentés et décrits. Plusieurs changements, modifications et variations sembleront évidents à l'homme du métier à la
lumière de la description précédente. On comprendra
donc que l'invention n'est pas limitée par la
description précédente, mais comprend tous ces
changements, modifications et variations dans l'esprit
et le cadre des revendications jointes.
Claims (12)
1. Procédé pour coder des informations vocales caractérisé par: la génération d'un réseau de phonèmes dépendant du contexte à partir de la parole dans un générateur de réseaux de phonèmes (18) associé à un système d'exploitation (44) utilisant un modèle acoustique s'adaptant à la voix d'un utilisateur; et la transmission du réseau de phonèmes dépendant du
contexte à une première application (52).
2. Procédé selon la revendication 1, dans lequel le réseau de phonèmes dépendant du contexte est indépendant du vocabulaire (60) et du modèle de langage
(64).
3. Procédé selon la revendication 1, caractérisé de plus par l'extraction, au niveau de la première application (52), d'informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application, de manière à exploiter la
première application (52).
4. Procédé pour coder des informations vocales, caractérisé par la fourniture d'un système d'exploitation (44) comprenant deux parties, dans lequel une première partie (46) du système d'exploitation (44) est dépendante de modèles acoustiques spécifiques à l'utilisateur et à l'environnement qui s'adaptent en continu à la voix d'un utilisateur, et une seconde partie (50) du système d'exploitation (44) est dépendante d'une première application (52) pouvant être choisie indépendamment de la première partie (46) du système d'exploitation (44), dans lequel la seconde partie (50) du système d'exploitation (44) extrait des informations nécessitées par le réseau de phonèmes dépendant du contexte en utilisant un vocabulaire (60) et un modèle
de langage (64) de la première application (52).
5. Procédé selon la revendication 4, dans lequel la première partie (46) du système d'exploitation (44) génère un réseau de phonèmes dépendant du contexte, de manière à saisir des modèles acoustiques spécifiques à l'utilisateur et à l'environnement, et transmet le réseau de phonèmes dépendant du contexte à la seconde
partie (50) du système d'exploitation (44).
6. Procédé selon la revendication 4, caractérisé de plus par une seconde application (58), dans lequel la première application (52) et la seconde application (58) comprennent différents vocabulaires (60, 62) et
différents modèles de langage (64, 66).
7. Procédé selon la revendication 4, caractérisé de plus par une seconde application (58), dans lequel la première application (52) et la seconde application (58) partagent un vocabulaire commun (68) et un modèle
de langage commun (70).
8. Procédé pour coder des informations vocales caractérisé par: la conversion de la parole en un réseau de phonèmes dépendant du contexte à l'aide de modèles de langage de phonèmes et de modèles acoustiques spécifiques à l'utilisateur et à l'environnement; l'adaptation du réseau de phonèmes dépendant du contexte en continu en fonction des modèles de langage de phonèmes et des modèles acoustiques spécifiques à l'utilisateur et à l'environnement; l'extraction d'informations désirées requises pour la reconnaissance de la parole d'un signal de parole; et la mise des informations désirées dans un format indépendant du vocabulaire (60), du modèle de langage
(64), et de l'utilisateur et de l'environnement.
9. Appareil pour coder des informations vocales, caractérisé par: un système d'exploitation (44); un générateur de réseaux de phonèmes (48) générant un réseau de phonèmes dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte; et une première application (52) conçue pour recevoir la sortie du générateur de réseaux de phonèmes (48) et extraire les informations nécessitées par la sortie en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application (52), dans lequel le générateur de réseaux de phonèmes (48) et la première application (52) sont indépendamment associés au
système d'exploitation (44).
10. Support d'informations (40) ayant des instructions et des données qui, lorsqu'elles sont chargées dans un premier microprocesseur universel (42) ayant un système d'exploitation (44), font en sorte que le premier microprocesseur universel (42) soit caractérisé par un générateur de réseaux de phonèmes (48) générant un réseau de phonèmes dépendant du contexte ayant une sortie définissant le réseau de phonèmes dépendant du contexte et une première application (52) conçue pour recevoir la sortie du générateur de réseaux de phonèmes (48) et extraire les informations nécessitées par la sortie en utilisant un vocabulaire (60) et un modèle de langage (64) de la première application (52), dans lequel le générateur de réseaux de phonèmes (48) et la première application (52) sont indépendamment associés au système
d'exploitation (44).
11. Support d'informations (40) selon la revendication 10, dans lequel le support d'informations (40) comprend une première partie (46) sur laquelle est stocké le générateur de réseaux de phonèmes (48) et une seconde partie (50) sur laquelle est stockée la
première application (52).
12. Procédé caractérisé par: la génération d'un réseau de phonèmes dépendant du contexte comme étape intermédiaire de codage d'informations vocales; la tentative de reconnaissance dans un premier moteur de recherche (55); après reconnaissance non satisfaisante dans le premier moteur de recherche (55), acheminement du réseau de phonème dépendant du contexte vers un second moteur de recherche (100); et la recherche par le second moteur de recherche
(100) d'un résultat de reconnaissance de candidat.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/980,954 US6182038B1 (en) | 1997-12-01 | 1997-12-01 | Context dependent phoneme networks for encoding speech information |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2773413A1 true FR2773413A1 (fr) | 1999-07-09 |
FR2773413B1 FR2773413B1 (fr) | 2000-05-19 |
Family
ID=25527992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9815131A Expired - Fee Related FR2773413B1 (fr) | 1997-12-01 | 1998-12-01 | Reseaux de phonemes dependant du contexte pour coder des informations vocales |
Country Status (9)
Country | Link |
---|---|
US (1) | US6182038B1 (fr) |
EP (1) | EP0954856B1 (fr) |
AT (1) | ATE237176T1 (fr) |
AU (1) | AU1465099A (fr) |
DE (1) | DE69813180T2 (fr) |
FR (1) | FR2773413B1 (fr) |
GB (1) | GB2331826B (fr) |
TW (1) | TW462037B (fr) |
WO (1) | WO1999028899A1 (fr) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2901299A (en) * | 1998-03-09 | 1999-09-27 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for simultaneous multimode dictation |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US20050261907A1 (en) | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6687689B1 (en) | 2000-06-16 | 2004-02-03 | Nusuara Technologies Sdn. Bhd. | System and methods for document retrieval using natural language-based queries |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US20020087313A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented intelligent speech model partitioning method and system |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7697673B2 (en) * | 2003-11-17 | 2010-04-13 | Apptera Inc. | System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system |
US20050163136A1 (en) * | 2003-11-17 | 2005-07-28 | Leo Chiu | Multi-tenant self-service VXML portal |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
KR100901640B1 (ko) * | 2006-05-10 | 2009-06-09 | 주식회사 케이티 | 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법 |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP4318463A3 (fr) | 2009-12-23 | 2024-02-28 | Google LLC | Entrée multimodale sur un dispositif électronique |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
WO2012177662A1 (fr) * | 2011-06-19 | 2012-12-27 | Mmodal Ip Llc | Extension de document dans un workflow de création de document basé sur la dictée |
CA2839265A1 (fr) | 2011-06-19 | 2012-12-27 | Mmodal Ip Llc | Reconnaissance vocale faisant appel a des modeles de reconnaissance sensibles au contexte |
HK1158011A2 (en) * | 2012-02-03 | 2012-06-22 | Gilkron Ltd | An online procurement system for the provision of intellectually oriented services |
JP6388864B2 (ja) | 2012-08-13 | 2018-09-12 | エムモーダル アイピー エルエルシー | 自由形式テキストに含まれる情報に対応する離散データ表現の維持 |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US10885043B2 (en) * | 2014-05-15 | 2021-01-05 | Nec Corporation | Search device, method and program recording medium |
KR102281178B1 (ko) * | 2014-07-09 | 2021-07-23 | 삼성전자주식회사 | 멀티-레벨 음성 인식 방법 및 장치 |
US9721564B2 (en) | 2014-07-31 | 2017-08-01 | Rovi Guides, Inc. | Systems and methods for performing ASR in the presence of heterographs |
US9830321B2 (en) | 2014-09-30 | 2017-11-28 | Rovi Guides, Inc. | Systems and methods for searching for a media asset |
WO2016082133A1 (fr) * | 2014-11-26 | 2016-06-02 | GM Global Technology Operations LLC | Transmission à variation continue |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN111312253A (zh) * | 2018-12-11 | 2020-06-19 | 青岛海尔洗衣机有限公司 | 语音控制方法、云端服务器及终端设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB224023A (en) | 1923-08-23 | 1924-11-06 | William Forber | Improvements in surface finishing tools for white metal or the like |
GB8908205D0 (en) | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
US5497319A (en) | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
DE4131387A1 (de) * | 1991-09-20 | 1993-03-25 | Siemens Ag | Verfahren zur erkennung von mustern in zeitvarianten messsignalen |
US5502790A (en) * | 1991-12-24 | 1996-03-26 | Oki Electric Industry Co., Ltd. | Speech recognition method and system using triphones, diphones, and phonemes |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
US5515475A (en) * | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
US5745649A (en) * | 1994-07-07 | 1998-04-28 | Nynex Science & Technology Corporation | Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories |
US5715367A (en) * | 1995-01-23 | 1998-02-03 | Dragon Systems, Inc. | Apparatuses and methods for developing and using models for speech recognition |
US5754671A (en) | 1995-04-12 | 1998-05-19 | Lockheed Martin Corporation | Method for improving cursive address recognition in mail pieces using adaptive data base management |
AU709376B2 (en) * | 1996-05-03 | 1999-08-26 | British Telecommunications Public Limited Company | Automatic speech recognition |
US5867817A (en) * | 1996-08-19 | 1999-02-02 | Virtual Vision, Inc. | Speech recognition manager |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
-
1997
- 1997-12-01 US US08/980,954 patent/US6182038B1/en not_active Expired - Lifetime
-
1998
- 1998-11-19 AT AT98958652T patent/ATE237176T1/de not_active IP Right Cessation
- 1998-11-19 WO PCT/US1998/024727 patent/WO1999028899A1/fr active IP Right Grant
- 1998-11-19 AU AU14650/99A patent/AU1465099A/en not_active Abandoned
- 1998-11-19 EP EP98958652A patent/EP0954856B1/fr not_active Expired - Lifetime
- 1998-11-19 DE DE69813180T patent/DE69813180T2/de not_active Expired - Lifetime
- 1998-12-01 TW TW087119918A patent/TW462037B/zh not_active IP Right Cessation
- 1998-12-01 FR FR9815131A patent/FR2773413B1/fr not_active Expired - Fee Related
- 1998-12-01 GB GB9826231A patent/GB2331826B/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
Non-Patent Citations (1)
Title |
---|
"SPECIALIZED LANGUAGE MODELS FOR SPEECH RECOGNITION", IBM TECHNICAL DISCLOSURE BULLETIN, vol. 38, no. 2, February 1995 (1995-02-01), pages 155 - 157, XP000502428 * |
Also Published As
Publication number | Publication date |
---|---|
GB2331826A (en) | 1999-06-02 |
AU1465099A (en) | 1999-06-16 |
TW462037B (en) | 2001-11-01 |
EP0954856A1 (fr) | 1999-11-10 |
GB2331826B (en) | 2001-12-19 |
EP0954856B1 (fr) | 2003-04-09 |
DE69813180T2 (de) | 2003-10-23 |
GB9826231D0 (en) | 1999-01-20 |
ATE237176T1 (de) | 2003-04-15 |
WO1999028899A1 (fr) | 1999-06-10 |
DE69813180D1 (de) | 2003-05-15 |
FR2773413B1 (fr) | 2000-05-19 |
US6182038B1 (en) | 2001-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2773413A1 (fr) | Reseaux de phonemes dependant du contexte pour coder des informations vocales | |
US11429346B2 (en) | Graphical user interface rendering management by voice-driven computing infrastructure | |
JP6027052B2 (ja) | インテリジェント自動アシスタントによる能動的入力導出 | |
US7640160B2 (en) | Systems and methods for responding to natural language speech utterance | |
US8838457B2 (en) | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility | |
US8620659B2 (en) | System and method of supporting adaptive misrecognition in conversational speech | |
US20080288252A1 (en) | Speech recognition of speech recorded by a mobile communication facility | |
US20090030688A1 (en) | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application | |
EP2126902A2 (fr) | Reconnaissance de paroles enregistrées par un dispositif de communication mobile | |
US11514907B2 (en) | Activation of remote devices in a networked system | |
CA2531496A1 (fr) | Reconnaissance vocale pour les larges vocabulaires dynamiques | |
EP1803116B1 (fr) | Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant | |
EP1531407A1 (fr) | Procédé et système d'interrogation d'une base de données multimédia à partir d'un terminal de télécommunication | |
FR3089027A1 (fr) | Dispositif assistant, Procédé de réponse à des questions, Dispositif agent de réponse et Procédé de fourniture d’un élément de réponse | |
FR2824944A1 (fr) | Procede de commande vocale et systeme parametrable a commande vocale | |
FR2991077A1 (fr) | Systeme interactif de resolution contextuelle d'informations provenant d'un systeme semantique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TP | Transmission of property |
Owner name: MOTOROLA MOBILITY, INC., US Effective date: 20110912 |
|
PLFP | Fee payment |
Year of fee payment: 18 |
|
ST | Notification of lapse |
Effective date: 20170831 |