FR2534719A1 - Analyseur de parole a modele de markov cache - Google Patents
Analyseur de parole a modele de markov cache Download PDFInfo
- Publication number
- FR2534719A1 FR2534719A1 FR8316194A FR8316194A FR2534719A1 FR 2534719 A1 FR2534719 A1 FR 2534719A1 FR 8316194 A FR8316194 A FR 8316194A FR 8316194 A FR8316194 A FR 8316194A FR 2534719 A1 FR2534719 A1 FR 2534719A1
- Authority
- FR
- France
- Prior art keywords
- speech
- signals
- configuration
- signal
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 6
- 230000007704 transition Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 6
- 241000238876 Acari Species 0.000 claims description 2
- 230000015654 memory Effects 0.000 abstract description 22
- 238000004891 communication Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 19
- 239000013598 vector Substances 0.000 description 11
- 108010076504 Protein Sorting Signals Proteins 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 210000004081 cilia Anatomy 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
L'INVENTION CONCERNE LES TECHNIQUES DE RECONNAISSANCE DE LA PAROLE. UN ANALYSEUR DE PAROLE COMPORTE NOTAMMENT UNE MEMOIRE 360 QUI ENREGISTRE UN ENSEMBLE DE CONFIGURATIONS DE REFERENCE A MODELE DE MARKOV CACHE ET RESTREINT, ET UNE MEMOIRE 370 QUI ENREGISTRE UN ENSEMBLE DE SIGNAUX REPRESENTATIFS DE CARACTERISTIQUES ACOUSTIQUES PREDETERMINEES. L'ANALYSEUR GENERE UN SIGNAL REPRESENTATIF DE LA PROBABILITE QU'UNE CONFIGURATION DE PAROLE APPLIQUEE A L'ENTREE CORRESPONDE A CHAQUE CONFIGURATION DE REFERENCE, EN TRAVAILLANT SOUS LA DEPENDANCE CONJOINTE DES CONFIGURATIONS DE REFERENCE A MODELE DE MARKOV ET D'UNE SEQUENCE DE SIGNAUX DE CARACTERISTIQUES ACOUSTIQUES SELECTIONNES. L'IDENTIFICATION DE LA CONFIGURATION DE PAROLE D'ENTREE EST EFFECTUEE SUR LA BASE DES SIGNAUX DE PROBABILITE. APPLICATION A LA COMMUNICATION HOMME-MACHINE.
Description
-2534719
La présente invention concerne la reconnaissance de
configurations, et porte plus particulièrement sur des struc-
tures pour identifier automatiquement des configurations de parole. Dans les systèmes de télécommunications, d'informa- tique et des systèmes similaires, il est souvent souhaitable d'utiliser des structures d'interface audio On peut utiliser une entrée faisant appel à la parole et une sortie vocale synthétisée pour des demandes, des ordres et l'échange de
données et d'autres informations Une interface du type uti-
lisant la parole permet de communiquer avec un équipement de type informatique à partir d'emplacements éloignés, sans
nécessiter de terminaux actionnés manuellement, et elle per-
met l'accomplissement simultané d'autres fonctions par l'utilisateur Cependant, la complexité des configurations
de parole et les variations qu'elles comportent entre locu-
teurs, font qu'il est difficile de parvenir à une reconnais-
sance précise Bien que des résultats acceptables aient été obtenus dans des applications spécialisées restreintes à des personnes particulières et à des vocabulaires limités, l'imprécision de la reconnaissance indépendante du locuteur
a limité son utilisation.
De façon générale, les structures de reconnaissance
de la parole sont conçues de façon à transformer une configu-
ration de parole inconnue en une séquence de signaux de caractéristiques acoustiques déterminés Ces signaux de
caractéristiques sont ensuite comparés à des ensembles enre-
gistrés préalablement de signaux de caractéristiques -acousti-
ques qui sont représentatifs de configurations de référence
identifiées Sous l'effet de la comparaison, la configura-
tion de parole inconnue est identifiée à la configuration de
référence présentant la meilleure correspondance, conformé-
ment à des critères de reconnaissance prédéterminés La pré-
cision de tels systèmes de reconnaissance dépend fortement
des caractéristiques sélectionnées et des critères de recon-
25347 19
naissance La comparaison entre la séquence de caractéristi-
ques de configuration de parole d'entrée et une séquence de référence peut être directe Il est cependant bien connu que
la vitesse et l'articulation de la parole sont très varia-
bles. Certaines techniques de reconnaissance de l'art
antérieur utilisent la programmation dynamique pour détermi-
ner un alignement optimal entre des configurations dans le processus de comparaison De cette manière, les effets de différences dans la vitesse et l'articulation de la parole
sont atténués Les structures de traitement de signal utili-
sées pour l'alignement temporel dynamique et la comparaison sont complexes et prennent beaucoup de temps, du fait que le temps nécessaire pour la reconnaissance est fonction de la taille du vocabulaire de référence et du nombre de gabarits
de caractéristiques de référence pour chaque mot du vocabu-
laire Il en résulte que la reconnaissance indépendante du locuteur pour des vocabulaires de l'ordre de 50 mots est
difficile à réaliser en temps réel.
Une autre approche de la reconnaissance de la paro-
le est basée sur des modèles probabilistes de Markov qui utilisent des ensembles d'états et de transitions d'états basés sur des estimations statistiques On a imaginé des structures de reconnaissance indépendantes du locuteur dans lesquelles des séquences de caractéristiques spectrales sont générées et évaluées dans une série de modèles de Markov hiérarchisés portant sur les caractéristiques, les mots et le langage Les séquences de caractéristiques sont analysées
dans des modèles de Markov d'éléments phonémiques Les modè-
les sont enchaînés en éléments acoustiques plus grands, par exemple en mots Les résultats sont ensuite appliqués à une hiérarchie de modèles de Markov, par exemple une hiérarchie faisant intervenir le contexte syntaxique, pour obtenir une
identification de configurations de parole Cependant, l'uti-
lisation de modèles d'éléments phonémiques enchaînés et la
25347 1 9
complexité qui apparaît dans des systèmes utilisant des modè-
les de Markov hiérarchiques non restreints, exigent un
apprentissage important du système avec les locuteurs identi-
fiés, pour obtenir un nombre suffisant d'éléments caractéris-
tiques des modèles, pour rendre les modèles de Markov vali- des Un but de l'invention est de procurer une reconnaissance
de la parole automatique perfectionnée,-basée sur une modéli-
sation probabiliste, qui ne dépend pas du locuteur et qui
peut fonctionner plus rapidement.
L'invention porte sur une structure de reconnais-
sance de la parole qui comprend un ensemble de signaux de configurations de référence enregistrés, correspondant à des modèles de Markov cachés et restreints On analyse une émission de parole pour former une séquence d'intervalles de
temps de signaux de caractéristiques acoustiques représenta-
tifs de cette émission On génère une séquence de signaux de caractéristiques prédéterminés sélectionnés, correspondant à la configuration de parole de l'émission de parole inconnue,
en partant par exemple d'un ensemble de signaux de caracté-
ristiques prédéterminés enregistrés, et de la séquence de
signaux de caractéristiques de la configuration de parole.
Sous la dépendance conjointe de la séquence de signaux de
caractéristiques prédéterminés sélectionnés de la configura-
tion de parole, et des signaux de modèle de Markov caché et restreint pour chaque configuration de référence, on produit
un signal représentatif de la probabilité que la configura-
tion de parole soit la configuration de référence On identi-
fie la configuration de parole inconnue à l'une des configu-
rations de référence, sous la dépendance des signaux repré-
sentatifs de la probabilité.
L'invention sera mieux comprise à la lecture de la
description qui va suivre d'un mode de réalisation et en se
référant aux dessins annexés sur lesquels: La figure 1 montre un schéma d'un exemple de modèle de Markov de mot caché et restreint, tel qu'on l'utilise dans l'invention; La figure 2 représente un organigramme général qui illustre un mode de réalisation de l'invention; La figure 3 représente un schéma synoptique d'un circuit de reconnaissance de parole conforme à l'invention; Les figures 4, 5 et 6 sont des, organigrammes plus détaillés montrant des parties du fonctionnement du circuit de reconnaissance de parole de la figure 3; et La figure 7 montre un diagramme en treillis qui
illustre le fonctionnement du circuit de la figure 3.
Comme il est bien connu dans la technique, on peut utiliser un modèle de Markov caché pour évaluer une séquence d'observations O J, %, O X dans laquelle chaque observation est un symbole discret parmi un nombre fini de symboles On peut modéliser la séquence d'observations sous la forme d'une fonction probabiliste d'une chaîne de Markov sous-jacente, ayant des transitions d'états qui ne sont pas
directement observables La figure 1 illustre un tel modèle.
Sur la figure 1, il y a N, par exemple 5, états et M, par exemple 64, symboles de sortie Les transitions entre -états sont représentées par une matrice de transitions
A=laijl Chaque terme aij est la probabilité d'accomplisse-
ment d'une transition vers l'état j, sachant que le modèle est dans l'état i La probabilité de symbole de sortie du modèle est représentée par une matrice B=lbj(Ot)l, dans laquelle bj(Ot) est la probabilité d'émission du symbole Ot' sachant que le modèle est dans l'état j On peut utiliser le modèle de Markov caché pour établir un ensemble de modèles
de configuration de référence, à raison d'un pour chaque con-
figuration dans l'ensemble formant le vocabulaire, et pour classer une séquence d'observations en l'identifiant à l'une
des configurations-de référence, sur la base de la probabi-
lité de génération des observations inconnues à partir de
chaque modèle de configuration de référence.
Dans la reconnaissance de la parole, on analyse la configuration de parole d'entrée pour générer une séquence de caractéristiques acoustiques Chaque caractéristique peut être un vecteur de coefficients de prédiction linéaire, ou d'autres caractéristiques acoustiques bien connues dans la technique On compare les vecteurs de caractéristiques géné- rés à un ensemble fini de signaux de caractéristiques de
coefficients de prédiction linéaire (CPL) enregistrés précé-
demment, et on les transforme en une séquence de signaux
vectoriels de CPL quantifiés, représentatifs de la configu-
ration de parole d'entrée Chacun des signaux de caractéris-
tiques quantifiés est un symbole d'un ensemble fini de M
symboles qu'on peut utiliser dans le modèle de Markov caché.
Dans le mode de reconnaissance, la séquence de caractéristi-
ques consistant en vecteurs de CPL quantifiés pour une émission de parole, par exemple un mot ou un membre de phrase, forme la séquence d'observations 0, et la probabilité que O ait été généré par un modèle de configuration de référence K,
par exemple un mot ou un membre de phrase d'un ensemble for-
mant un vocabulaire, est établie conformément à la relation suivante: P(OIM) Pl bil( 1)a i i 2 bi 2 ( 2) a bi (O 1) 1 i 12 2 T-1 l T T dans laquelle il, i 2 i T est la séquence à vraisemblance maximale des états du modèle de Markov, et 01, 02 ', O Test
la séquence observée On peut écrire l'équation 1 en utili-
sant la probabilité partielle en avant /t(i) définie par: /t(i) = P( 0102 O t et la séquence à vraisemblance maximale se terminant dans l'état i à l'instant t 1 K) ( 2)
On peut alors évaluer et+l(j) de la façon suivan-
te: t() = max { $t(i)aijbj(Ot+l)l t=l, 2, T-1 t+ 1 pour 11 j ZN et max { 1, j-2}_ izj avec
b (O) pour i=-
0 autrement ( 3) ce qui fait que l'équation 1 devient P(o IK) = P = e T(N) ( 4)
Une fois qu'on a généré le signal de probabilité pour cha-
que modèle de configuration de référence, on peut identifier
la configuration de parole d'entrée au modèle de configura-
tion de référence qui correspond au signal de probabilité le
plus élevé.
La figure 2 montre un organigramme général qui illustre le fonctionnement d'un circuit de reconnaissance de parole à modèle de Markov caché Lorsque le circuit de reconnaissance est disponible (case 205), la configuration de parole d'entrée est convertie en une séquence de signaux numériques représentatifs de cette configuration, ce qui
correspond à la case 210 Les signaux numériques représenta-
tifs de la parole (case 210) sont ensuite transformés en une
séquence temporelle de signaux de caractéristiques de prédic-
tion linéaire (case 215) Bien que les signaux générés par l'opération de la case 215 correspondent aux caractéristiques acoustiques de la configuration de parole d'entrée, les
signaux obtenus ne sont pas limités à un ensemble fini.
L'opération de la case 220 compare les caractéristiques acoustiques de la configuration de parole à un ensemble fini de vecteurs de caractéristiques de prédiction linéaire, et sélectionne le vecteur enregistré qui correspond le plus
étroitement à chaque signal de caractéristiques de configu-
ration de parole De cette manière, on obtient un signal de caractéristiques vectoriel quantifié à partir d'un ensemble fini prédéterminé, pour chaque intervalle de temps successif
t de la configuration de parole Le signal de caractéristi-
25347 1 9
ques vectoriel quantifié est alors le signal d'entrée d'obser-
vations pour le -traitement par modèle de Markov caché dans
l'intervalle de temps t.
On enregistre un ensemble de modèles prédéterminé.
Un seul modèle est établi pour chaque configuration de réfé- rence dans le vocabulaire du circuit de reconnaissance- Le modèle de configuration de référence comprend une matrice de signaux de symboles de sortie d'état pour chaque état du
modèle, et une matrice de signaux de probabilité de transi-
tion correspondant à toutes les transitions possibles entre
des états pour le modèle de la configuration de référence.
Les modèles de configuration de référence sont sélectionnés séquentiellement, ce qui correspond à la case 225, et la probabilité que la séquence de caractéristiques quantifiées de vecteur de CPL de la configuration de parole d'entrée
soit obtenue à partir du modèle de mot de référence sélec-
tionné est générée et enregistrée (case 230) Une fois que
le dernier modèle de configuration de référence a été sélec-
tionné et que le signal de probabilité correspondant a été produit, le signal maximal parmi les signaux de probabilité est sélectionné, et un signal identifiant la configuration
de parole considérée à la meilleure configuration de réfé-
rence est transféré vers un dispositif d'utilisation tel
qu'un processeur de données ou un système de commande.
On restreint le modèle de Markov caché pour chaque
configuration de référence, de façon que l'état 1 soit tou-
jours l'état initial du premier intervalle de temps, que seul un ensemble déterminé de transitions d'état de'la gauche vers la droite soit possible, et qu'il existe un état final
prédéterminé à partir duquel il ne peut pas y avoir de tran-
sitions vers d'autres états Ces restrictions sont représen-
tées sur le diagramme d'états de la figure 1 Sur la figure 1, l'état 1 est l'état initial, l'état 5 est l'état final ou
état d'absorption, et les transitions déterminées de la gau-
che vers la droite sont indiquées par les lignes de -direction
entre les états.
D'après le diagramme d'états de la figure 1, lorsqu'on est à l'état 1, on peut seulement retourner à l'état 1 par le chemin 111,-passer à l'état 2 par le chemin 112, ou passer à l'état 3 par le chemin 113 De façon généra-
le, les transitions sont restreintes au retour à l'état cou-
rant, ou au passage à l'un des deux états suivants On a trouvé que ces restrictions permettent une reconnaissance rapide et précise de configurations de parole La génération des modèles de configurations de référence d'émissions de parole identifiées pour le circuit de reconnaissance n'est pas restreinte aux configurations de parole d'un locuteur identifié, mais peut être effectuée à partir d'émissions sonores provenant de nombreux locuteurs différents, ce qui fait que la reconnaissance de la parole est indépendante du locuteur. La figure 3 montre un schéma synoptique général
d'un circuit de reconnaissance de parole qui illustre l'in-
vention Le circuit de la figure 3 est conçu de façon à reconnaître des configurations de parole appliquées à un -transducteur électroacoustique 300 et à appliquer des signaux de commande déterminés à un dispositif d'utilisation 3.80, en fonction de la configuration identifiée Sur la figure 3, un circuit filtre/échantillonneur 310 reçoit un * 25 signal électrique analogique provenant du transducteur 300 et il accomplit un filtrage passe-bas du signal, de façon à éliminer le bruit indésirable de fréquence supérieure La fréquence de coupure du filtre peut être fixée à 3,2 k Hz Le signal filtré est ensuite échantillonné à une cadence de
6,7 k Hz, comme il est bien connu dans la technique.
Le signal échantillonné est appliqué au convertis-
seur analogique-numérique 320, dans lequel chaque échantillon
successif est transformé en un signal codé sous forme numéri-
que, représentatif de la valeur de l'échantillon correspon-
dant La séquence de signaux codés est appliquée au généra-
25347 1 9
teur de signaux de caractéristiques de CPL 330 Comme il est bien connu dans la technique' le générateur 330 enregistre temporairement la séquence de signaux numériques codés, les groupe en intervalles successifs en chevauchement, d'une durée de 45 ms, et produit un ensemble de P signaux de para- mètres de prédiction linéaire pour chaque intervalle Chaque
ensemble de ces signaux de CPL est représentatif de caracté-
ristiques acoustiques de l'intervalle correspondant Il faut cependant noter que l'homme de l'art peut utiliser des signaux de caractéristiques acoustiques de type spectral, ou autre.
Le générateur de caractéristiques 330 détecte éga-
lement la fin de la configuration de parole d'entrée qui est appliquée au transducteur 300, sur la base d'une analyse d'énergie de la séquence de signaux de caractéristiques La
détection de fin peut être celle qui est décrite dans le bre-
vet US 3 909 532 On peut également utiliser d'autres techni-
ques de détection de fin qui sont bien connues.
Sous l'effet de la détection d'un fin de configu-
ration de parole dans le générateur de caractéristiques 330,
le signal de commande ST est validé et est émis vers le pro-
cesseur de reconnaissance-340 pour déclencher ses opéra-
tions Le processeur de reconnaissance peut consister en un microprocesseur du type MC 68000 décrit dans le document
MC 68000 16 Bit Microprocessor Useris Manual, seconde édi-
tion, Motorola Inc, 1980 La séquence de fonctionnement du processeur 340 est commandée par le jeu d'instructions
enregistré de façon permanente dans la mémoire morte de pro-
gramme 355.
La mémoire de signaux de caractéristiques acousti-
ques 370 reçoit la séquence d'intervalles de signaux de
coefficients de CPL qui est représentative de la configura-
tion de parole d'entrée provenant du générateur 330, et elle enregistre les signaux de caractéristiques dans l'ordre des séquences de trames adressables, pour l'utilisation-par le
25347 19
processeur de reconnaissance 340 La mémoire de signaux pro-
totypes 365 contient des signaux représentatifs d'un ensemble
de signaux de caractéristiques prototypes de CPL prédétermi-
nés, qui couvrent la plage des signaux de caractéristiques de -5 CPL attendus dans la configuration de parole d'entrée Ces signaux prototypes fournissent un ensemble fini de symboles
pour le traitement au moyen de modèles de Markov.
La mémoire de modèles de Markov 360 contient un ensemble de signaux codés correspondant aux modèles de
Markov de mots cachés des configurations de référence possi-
bles pour l'émission de parole inconnue qui est appliquée au
transducteur 300 Chaque modèle de Markov comprend un ensem-
ble de signaux, aij, correspondant à la probabilité de trah-
sitions entre des états du modèle, et des signaux b (Ot)
correspondant à la probabilité de symbole de sortie dans cha-
que état Les symboles de sortie Ot, à raison d'un pour cha-
que intervalle de configuration de parole t, correspondent aux signaux prototypes dans la mémoire 365 Chacune des mémoires 360 et 365 peut consister en une mémoire morte adressable par le processeur 340 Les mémoires mortes 360 et 365 enregistrent de façon permanente les signaux de modèles et les signaux prototypes La mémoire 370 peut être une mémoire vive adressable par le processeur 340 On utilise la mémoire vive 350 en tant que mémoire intermédiaire pour les
opérations de traitement de signal du processeur de recon-
naissance, et l'interface 345 établit une interface de commu-
nication entre le processeur de reconnaissance et les dispo-
sitifs de la figure 3 Le bus 345 peut être constitué par la structure de câblage de fond de panier du type HBFA-SBC 614, fabriquée par Hybricon Corporation Selon une variante, le processeur 340, le bus 345, la mémoire de commande 350 et la mémoire vive 355 peuvent être constitués par l'ordinateur en une seule carte du type OB 68 K 1 A MC 68000/MULTIBUS, fabriqué par Omnibyte Corporation, West Chicago, Illinois On pourrait également utiliser une configuration de bus Q.
25347 1 9
On peut utiliser le circuit de la figure 3 pour
reconnaître de nombreux types différents de configurations.
A titre d'exemple, on décrit une structure destinée à la reconnaissance de chiffres, par exemple des chiffres d'un numéro de téléphone ou d'un numéro de carte de crédit On supposera qu'une émission de parole correspondant au chiffre "neuf" en anglais, soit "nine", est appliquéeau transducteur 300 Conformément aux cases 207 et 210 de l'organigramme de la figure 2, la configuration de parole d'entrée est filtrée et échantillonnée dans le circuit filtre/échantillonneur 310,-et elle est transformée en signaux numériques dans le convertisseur analogique- numérique 320 La séquence de
signaux numériques codés est appliquée à l'entrée du généra-
teur de signaux de caractéristiques 330, dans lequel des
signaux de caractéristiques de coefficients de CPL sont pro-
duits pour les intervalles de temps successifs de la confi-
guration de parole "nine", ce qui correspond à la case 215.
Les signaux de caractéristiques de CPL générés sont transfé-
rés vers la mémoire de signaux de caractéristiques acousti-
ques 370, qui est adressée par l'index d'intervalle t, par
l'intermédiaire de la ligne 332 On passe pour chaque inter-
valle à la case de décision 21-8, pour déterminer si la fin de la configuration a été atteinte Au moment de la détection de la fin, le signal ST est généré dans le générateur de signaux de caractéristiques et il est émis vers le processeur
de reconnaissance 340.
Sous l'effet du signal ST, le processeur 340 est placé dans son mode de quantification de vecteurs, dans lequel les signaux de caractéristiques de CPL présents dans la mémoire 370 sont quantifiés de façon à correspondre aux signaux prototypes présents dans la mémoire morte 365, ce
qui correspond à la case d'opération 220 Le mode de quanti-
fication est représenté de façon plus détaillée sur l'orga-
nigramme de la figure 4.
En considérant la figure 4, on note que l'index d'intervalle de signaux de caractéristiques de CPL, t, dans le processeur 340, est initialement restauré à 0, ce qui correspond à la case 401 On passe ensuite à la boucle 403 pour initialiser la fixation de l'index de prototype m Dans la boucle 403, l'index d'intervalle t est incrémenté (case
405) et ltindex d'intervalle incrémenté est comparé au der-
nier intervalle (T) de la configuration de parole d'entrée (case 410) On passe à la case 415 jusqu'à ce que la relation
t> T soit satisfaite, de façon que le signal de caractéristi-
ques de CPL Ut, de la configuration de parole d'entrée de l'intervalle courant, dans la mémoire 370, soit adressé par le processeur 340 et transféré de cette mémoire vers la mémoire vive 350 Le signal représentatif de la distance
minimale entre le signal prototype et le signal caractéristi-
que (D Min) est fixé initialement à l'infini (case 420) et l'index de prototype m est fixé à O dans le processeur 340 (case 425) On passe ensuite à la case 430 dans-laquelle
l'index de prototype m est incrémenté dans le processeur 340.
L'index incrémenté m+l est ensuite comparé au dernier index
M= 64, ce qui correspond à la case 435.
A ce moment, le signal prototype courant dans la mémoire 365 est adressé et transféré vers la mémoire vive 350 par l'intermédiaire du processeur de reconnaissance
(case 440) Le processus de détermination du signal prototy-
pe R qui correspond le plus étroitement au signal de carac-
m téristiques de la configuration de parole courante, Ut, peut alors commencer dans le processeur 340 Le processeur est conditionné de façon à générer de manière itérative le
signal métrique de distance d'Itakura, bien connu, de la for-
me âVâ d(Ut, RM) = log ( 5) m a Va pour chaque signal prototype Dans cette expression, â est un vecteur de CPL provenant de Ut, a est un vecteur de CPL
provenant de RM et V est la matrice d'autocorrélation prove-
nant de R Le signal métrique de distance d(Ut Rm) et le signal d'index de caractéristiques p sont initialement fixés à zéro, ce qui-correspond aux cases 445 et 450 On passe ensuite à la boucle de formation de signal de distance, 452,
et pour chaque index de caractéristiques, le signal de dis-
tance est incrémenté conformément à la relation P d(Ut RM) = ln I Ut(p) RM(p) ( 6) p=l ce qui correspond à la case d'opération 455 Le signal d'index p est incrémenté dans le processeur 340 (case 460)
et on retourne à la case 455 en passant par la case de déci-
sion 465, jusqu'à ce que p >P, en désignant par P le signal d'index de caractéristiques final Le signal de distance est converti sous forme logarithmique (case 468), puis il est comparé à Dmin à la case de décision 470 Dans le cas o le signal de distance prototype courant est supérieur ou égal à Dmin' on retourne à la case 430 sans changer D min Dans le cas contraire, le signal d'index prototype m est enregistré
comme étant représentatif du signal quantifié de la configu-
ration de parole pour l'intervalle t, et-le signal-de distan-
ce pour le prototype m est enregistré en tant que Dmi dans
la mémoire vive 350 On retourne ensuite à la case 430.
Lorsque m >M dans la case 435, Ot=m est alors sélectionné en tant que signal quantifié ayant la meilleure correspondance,
et on passe à la boucle 403 par la case 405, de façon à pou-
voir commencer la quantification pour l'intervalle suivant.
Lorsque l'index d'intervalle de configuration de parole t devient supérieur à l'intervalle de configuration de parole final T, conformément à la détermination faite à la case 410, une séquence d'index de signaux quantifiés 1 '
02 lot' O T a été produite pour la configuration de paro-
le présente dans le processeur 340 et enregistrée dans la mémoire vive 350 La configuration de parole correspondant à
253471 9
l'émission de parole pour le mot "nine" peut avoir par exem-
ple 36 intervalles, et on choisit pour chaque intervalle l'un des 64 signaux prototypes possibles De cette manière, la configuration de parole est convertie en une séquence de signaux quantifiés appartenant à un ensemble fini Chaque index de signal quantifié Ot correspond à un ensemble de P
coefficients de prédiction linéaire qui représente la carac-
téristique acoustique quantifiée d'un intervalle de la con-
* figuration de parole Pour l'émission de parole correspondant au chiffre "nine" par un locuteur non identifié, la séquence de signaux de caractéristiques quantifiés peut être celle
indiquée dans le Tableau 1.
Tableau 1
NO d'inter Signal NO d'inter Signal valle quantifié valle quantifié t t t O t
1 14 19 52
2 14 20 52
3 13 21 52
4 9 22 51
1 23 51
6 25 24 40
7 26 25 46
8 28 26 57
9 28 27 57
28 28 57
il 29 29 57
12 29 30 57
13 19 31 57
14 19 32 47
34 33 17
16 34 34 3
17 50 35 18
18 51 36 42
2 534719 Une fois que la quantification est terminée, le processeur 340 quitte le
mode de quantification et passe dans son mode d'évaluation de modèle de Markov, qui correspond aux
cases 225, 230 et 235 sur la figure 2.
Dans le mode d'évaluation de modèle, les modèles de Markov pour l'ensemble de configurations de référence, par
exemple les chiffres 0,1,2,,9, sont sélectionnés successi-
vement Chaque modèle comprend une matrice A des signaux de probabilité de transition et une matrice B des signaux de probabilité de symbole de sortie Les matrices A pour les chiffres 0, 5 et 9, prononcés en anglais, sont représentées
à titre d'exemple dans les Tableaux respectifs 2, 3 et 4.
Des astérisques représentent des transitions qui sont inter-
dites par le modèle et sont évaluées à la valeur zéro.
Tableau 2
Chiffre O Matrice A Etat i 1 2 3 4 5 i
1 0,821 * *
2 0,143 0,801 * * *
3 0,036 0,199 0,800 * *
4 * 0,000 0,079 0,880 *
* * 0,122 0,120 1,000
25347 19
Tableau 3
Chiffre 5 Matrice A Etat i 1 2 3 4 5 i
1 0,852 * * * *
2 0,136 0,932 * * *
3 0,013 0,067 0,800 * *
4 * 0,000 0,054 0,922 *
5 * * 0,146 0,078 1,000
Tableau 4
Chiffre 9 Matrice A Etat i 1 2 3 4 5 j
1 0,793 * * * *
2 0,10 o 60,939 * * *
3 0,100 0,061 0,690 * *
4 * 0,000 0,142 0,930 *
5 * * 0,168 0,070 1,000
Chacun des tableaux relatifs à la matrice A est une matrice 5 x 5 représentative des probabilités de toutes les transitions entre les cinq états du modèle de la figure 1 Comme il est indiqué dans les Tableaux 2, 3 et 4, seules les transitions de la gauche vers la droite sur la figure 1 qui n'ont pas des valeurs * ou zéro sont possibles, d'après les restrictions du modèle Les matrices B pour les chiffres 0, 5 et 9 sont représentées respectivement dans les Tableaux , 6 et 7 Chaque rubrique d'une colonne dans le Tableau 5 représente la probabilité d'un signal prototype particulier dans l'état correspondant pour des émissions de parole
correspondant au chiffre "zero", prononcé en anglais.
Tableau
Etat Etat m 2 3 4 5 m 2 3 4
1 5
1 01059 0,011 o> 001 0,001 0,015 3 '3 o,015 o 9155 0,001 0,001 0,001
2 0, 025 0,001 0,015 0,001 0,004 34 0,040 0,001 0,014 0,021 0,004
3 0, 001 0,001 0,001 0,001 0,048 35 0,001 0,001 0,001 0,001 0,021
4 0, 007 0,001 0,001 0,103 0,001 36 0,026 0,002 0,001 0,001 0,003
0, 002 0 > 001 0,001 0,001 0,007 37 0,006 0,040 0,032 0,001 0,001
6 O 4 046 0,,001 0,001 0,001 0,003 38 0,110 0,011, 0,060 0,003 0,002
7 0, 001 0,001 0 > 001 oj,059, 0,001 39 0,001 0,001 01001 0,001 0,004
8 0, 001 0,001 0,001 0,018 0,001 40 0,005 0,-001 0,001 0,022 0,062
9 0, 001 0,001 0,001 0,001 0,004 41 0,001 0,001 0,001 0,001 o,033
0, 006 0,028 0,014 0,008 0,008 42 0,001 0,003 0,042 0,017 01001
il 0, 001 O " 001 O; 1001 0,001 0,101 4 3 0,044 0,062 0,001 0,001 0,001
1 2 0, 012 O '001 O 1001 OA 01 0,001 44 0,001 0,001 0,001 01001 0,044
1 3 0, 001 0,001 0,001 0,001 0,025 4 5 01066 01058 01012 O 001 0,001
l 4 0, 007 O '001 0,001 0,001 0,007 46 0,002 0,002 OJ,006 0,305 0,001 0, 001 O '001 0,001 0,001 0,008 47 o,001 0,001 0,001 0,001 0,034
16 (), 007 O '001 O 001 0,001 0,006 48 0,022 0,027 0,001 0,001 01001
17 0, 031 O '155 O 001 0,001 0,010 4 9 0,019 0,001 01001 01001 01001
18 0, 001 0,001 0,001 0,001 0,009 50 01016 01005 01001 0,001 0,047
1 9 O,028 05 001 0,001 0,076 0,006 51 0,017 0,006 0,132 0,223 0,009
(), 00 1 O'001 0:> O O 1 0,001 0,021 52 0,035 0,006 O 003 0,001 0,001
21 O,005 O 105 0,011 0,019 0,003 53 0,015 0,010 0,'022 O 5004 0,004
22 0, 001 O '001 0,001 0,001 0,090 54 0,001 OM 1 01001 01003 01090
23 O,078 0,019 0,001 0,001 0,001 55 0,011 O,141 0,001 0,001 0,006
2 4 0, 063 0,001 0,017 0,001 0,001 56 0,001 01001 01001 01001 0,04 5
0, 001 0, 001 0,001 0,001 0,090 57 0,028 0,00 i ( 1268 0,0 ()6 o'ool 26 0, 054 0, 001 0,001 0,001 0,002 58 0,001 0,001 0,001 0,ool 0,020 27 0, 002 O ''001 O > 137 0,029 0,008 59 0,001 o 001 01001 0,001 0,006 28 0, 001 O '007 0,001 0,001 0,010 60 O Cil 0,'069 0,001 0,001 O,016 29 0, 011 M 35 o, 001 OÈO 1 0,001 61 O '001 0,001 Oool 0 9003 OOOÉ 0, 002 o; 001 0,001 0, 001 O, O 1 62 O' 004 0,001 0,001 0,028 OA 05 31 0, 021 0, 001 O; 1 169 0, 013 0,001 63 0,004 0,001 0,001 0,001 Oool 32 0, 001 0, Pol O > 001 MOI 0, 030 64 0,016 01001 0,001 0,001 0,002
Tableau 6
Etat Etat m 2 3 4 2 3 4 5 1 o,005 0,003 0,002 0,001 0,020 33 0,003 0,001 0,001 0,001 0,026
2 0,001 0,001 0,001 0,001 0,005 34 0,001 0,001 0,001 0,001 0,026
3 0,001 0,001 0,001 0,014 0,001 35 0,001 0,032 0,096 0,441 0,001
4 0,001 0,001 0,001 0,001 0,001 36 0,001 0,001 0,001 0,001 0,017
0,001 0,001 0,004 0,001 0,023 37 o,001 o,001 o,001 o,001 0,007
6 0,001 0,001 0,001 0,001 0,009 38 0,001 0,001 0,001 0,001 0,068
7 0,001 0,001 0,001 0,001 0,001 39 0,001 0,001 0,066 0,066 0,001
8 0,001 0,001 0,001 0,001 0,001 40 0,003 o,001, o,360 o,128 0,013
9 0,001 0,002 0,010 0,038 0,004 41 0,001 0,005 0,001 0,001 0,001
0, 001 0,001 0,001 0,001 0,004 42 0,001 0,001 0,001 0, 001 0,001
11 O,001 0, 001 0,012 0,001 0,011 43 0,591 0,001 0,001 0,001 0,136
12 0, 001 0,001 0,001 0,001 0,001 44 O, 001 0,001 MOI 0,001 0,001
13 0,001 O 004 0,001 0,038 0,001 45 0,003 0,001 0,001 0,001 0,012
14 0, 001 O,010 0,004 0,001 0,031 46 0,001 0,001 0,001 0,001 0,004 00
0, ooi O,098 0,001 0,001 0,001 47 0,003 0,242 0,001 0,003 0,001
16 0, 004 (, 001 0,075 0,001 0, 004 48 0,001 0,001 0,001 (,001 0,025
17 0, 016 0, 001 0,001 0,001 0,014 49 0, 001 0,001 0,001 0,001 0,008
18 01 001 01 001 01 ooi 01001 01001 50 0,036 0,012 0,149 0,004 0,047
19 0, 001 0, 001 0, 002 0,077 0,022 51 0,001 0,001 0,001 0,001 0,058
0, 001 0, 396 0, 019 0,009 0,001 52 0,009 0,001 0,001 0,001 0,005
21 0, 001 0, 001 0, 001 0,001 0, 029 53 0, 001 0, 001 0,001 0,001 0,021
22 0, 001 0, 001 0, 001 0,001 0, 001 54 0, 003 0, 028 0,009 0,001 0,001
23 0, 001 0, 001 0, 001 0, 001 0, 001 55 C), 064 0, 001 0, 001 0,001 0, 029
24 0, 001 0, 001 01 001 0, 001 0, 012 56 0, 003 0, 01-2 0, 133 0,001 0, 001
0, 001 0, 102 01 001 01 060 01 001 57 0, 001 0, 001 0, 001 0,001 0,021
26 0, 001 0, 001 0, 001 0, 001 0, 010 58 0, 001 0, 001 0, 001 0, 001 0, 001
27 0, 001 0, 001 0, 003 0, 001 0, 012 59 0, 001 0, 005 0,003 0,072 0,001
28 0, 001 0, 001 0, 001 0, 001 0, 001 60 0, 112 0, 001 0,001 0,001 0, 053
29 0, 098 0, 001 0, 001 0, 001 0, 125 61 0, 001 0, 001 0, 001 0,001 0,001
0, 001 0, 001 0, 001 0, 001 0, 001 1 62 0, 001 -0, 001 0, 001 0,001 0, 009
31 0, 001 0, 001 0, 005 0, 001 0, 048 63 0, 001 0, 001 0, 001 0, 001 0, 001
32 0, 001 0,001 0, 001 0, 001 0, 001 64 0, 001 0, 001 0, 001 0, 001 0,004
loo 'O Poo 'O loo '(
6 EO 9,
O 900 Co Co Poo Co loo (O Co ú 00 Co
P 90 O
-Loo O C O Poo C O
OZO 'O
Oúz Co Co 6 WO Co 1 00 Co t'Io 'O Co Co Co Co
9 ZOCO
ESTC O
Too Co eo CO 6 poeo
SúO 170
Co
800 10
910 10
800 10
TOO C O
C O
101 10
ZOO C O
zio C O
900 10
10
ZOO C O
SEICO 10 610 Co TPO Co Co ZúO Co 9:10 Co TOOCO PIOCO
L 1 O 1 O
úToco Co
1 ú 010
6 Z Oeo 980 eo TOOCO 610 co OCOCO -9 Toc le O CO 'O 10 10 LOO Co 'O 10 ffl Co ,7 O
810 10
Co O le O ,7 O ,70 IOOCO
081 'O
,7 O TOOCO OZO'o
1001 '0
eo eo PS O le O szolo
10017 O
'o Toolo
6 ú O O
IOOCO T
TOC e O-
10 Co Co Z 90 1 o
TOO CO
Co "O sio, Co Co Co Co Co Too Co úúO Co Co 'O CO' loo Co le O Co TOOCO CO TOO'O 6 ZO'o ITOCO spolo looco Toolo eo
6 TO'O
eo Y Ti V El Tl zi V il il 9 ' il Il il il Ti El il il Tl il il T' il il zi il Il il Pl il il toc 170 sco e O zoo Co SPO Co 800 Co Pooeo TTO le O CO OZO Co 900 O Loo Co PZ O Co Co 800 Co Co 800 Co Loo Co eo zoolo CO
ú 00 CO
co OúOeo
ú 00,0
900 CO
sooco iloco
6 TO'O
LTO le O Too O 600 co 6 O Oe O C O loo Co Co Co (O Too Co TOO Co Zúo Co le O IOOCO soo Co c O
LT 'O
zoo C O 'O TOOCO
4 PO C O
EOICO C O sioeo ,0 eo C O C O CO
TOO C O
le O eo 910,0
TOOC O
eo C zoo O
POO C O
loo 'O Pzo C O 'O olo Co
TOC 'O
C O 810 Co 'O
S ú'O C O
Co P 90 Co soll Co Vol) Co O TOO Co Too 'O Loo Co Loo 'O Co P 80 Co Co 'O Co eo Co 900 Co 1 oo "O Poo "O ú 10 cc) m Ln cm Doco nioco Pq CO To Deo úq "'O seoco E 9 Doeo imeo T 9 Jo'o 100 co 09 To Oc O 69 Doco 900 co 89 Do Co O P O C O Ls roco 10040 99 DOCO POO'o 99 Do'o oco'o PS Doco Ploco Es Doeo 100 CO zs DOCO TOZCO Tg Boeo 100 '0 os J 060 Oso C O 6 t, D 040 T 00 eo Sv Doco 100 eo: a, l'o DE O C O 9 v Doco Poolo SP roco Tooeo vp JOCO zooeo Ev Doco 800 eo ZP joco 100 co IV Oco 100 co op E Ec O 100 e O 6 ú Doeo szoeo 8 ú Doco 010 eo Lú-i Doeo SOTC O 9 ú l
BTCO 100 CO SE
Doco zsoco Pú Doeô 900 eo Y Loo O loo O O
-100 'O
C O vio C O Too 'O loo e O 'O 'O
ZúO 'O
loo ',O
Z 60 'O
'O 910 Co e O Loo '70 910 Co 210 Co eo co RZO Co Ir O isoeo O O Tooeo zzoeo 600 e O eo zc TE oú 6 Z ez Lz 9 z sz z EZ zz Tz ' oz 6 1 a 1 Li S 1 P 1 E T z 1 1 1 L ' P z T w S P E z 1 1 ne Gjq 1 ej,
253471 9
Il y a 64 probabilités de prototype dans chaque colonne d'état, ce qui fait que la taille de la matrice est 55 x 64 w Les Tableaux 6 et 7 correspondant aux chiffres "five" et
l?ninell sont organisés d'une manière similaire.
Comme il est indiqué dans l'organigramme de la figure 2, les modèles de Markov enregistrés dans la mémoire morte 360 sont lus successivement dans cette mémoire, en étant adressés par l'index de configuration k Pour chaque modèle, on forme un signal représentatif de la probabilité que la séquence de signaux de caractéristiques quantifiés de la configuration de parole corresponde au modèle Les
structures de formation de signal de probabilité sont repré-
sentées de façon plus détaillée sur les figures 5 et 6 De façon générale, on sélectionne tout d'abord un modèle de Markov Pour la configuration de parole à reconnaître, on évalue le modèle intervalle par intervalle, en appliquant à l'entrée la séquence de signaux quantifiés O 1 '02 ' '0 t' O T' A l'achèvement de l'évaluation pour le dernier intervalle
de la configuration de parole, on génère un signal corres-
pondant à la probabilité maximale que la séquence de signaux quantifiés de la configuration de parole ait été déduite du modèle. Les restrictions du modèle de Markov de mot caché
avec transitions de la gauche vers la droite, qui est utili-
sé dans le circuit de la figure 3,exigent que l'état initial pour l'intervalle t= 1 soit uniquement l'état 1 sur la figure 1, et que le signal de probabilité logarithmique dans l'état initial soit: 1 () = ln(b (O 1)) ( 7) La valeur #1 (l) est obtenue à partir de la rubrique m= 14 de
la colonne de l'état-1 de la matrice B pour le chiffre consi-
déré Les signaux de probabilité logarithmique il(i), i= 2, 3, 4 et 5 pour l'intervalle t= 1 sont fixés à -OO,
25347 1 9
du fait que ces états ne sont pas permis dans le modèle On forme ensuite les signaux ln($ 2 (j)) pour l'intervalle t= 2, conformément à (j) = max {#l(i) + ln(a b ( 02)O ( 8) 2 i 1 i pour max { 1,j-21 Ki Éj en utilisant les signaux de probabilité de transition dans la matrice A pour le chiffre considéré, et les signaux de probabilité de symbole dans la matrice B, correspondant à
l'index de signal quantifié m du second intervalle de confi-
guration de parole du Tableau 1 Pour chaque état de desti-
nation j de l'intervalle de configuration de parole 2, on enregistre le signal de probabilité logarithmique maximal
#2 (j) On génère ensuite les signaux de probabilité logarith-
miques pour les états successifs dans la séquence d'inter-
valles, en utilisant les signaux des matrices A et B du modè-
le de chiffre, et la séquence d'intervalles correspondant aux
index de signaux de configuration de parole quantifiés, t.
Après le traitement du dernier intervalle T, on détermine le signal de probabilité logarithmique maximal pour le modèle du
chiffre, à partir de l'état final 5 dans lequel des transi-
tions vers d'autres états ne sont pas permises L'état 5 est
l'état d'absorption On-accomplit successivement le traite-
ment des signaux pour l'ensemble de chiffres, et on conserve
en mémoire le plus grand des signaux de probabilité logarith-
mique maximaux, ainsi que le signal d'identification de
chiffre correspondant A l'achèvement du traitement d'évalua-
tio-n de modèle pour le chiffre ?ininell, la configuration de parole est identifiée au code d'identification de chiffre correspondant au signal de probabilité logarithmique maximal
qui a été conservé.
Le traitement d'évaluation de modèle de Markov des cases 225, 230, 235 et 240 de la figure 2 est accompli par le circuit processeur 340, comme le montre l'organigramme de la figure 5 On passe initialement de la case 220 à la case 501,
2 534719
à la terminaison du mode de quantification Le signal de pro-
babilité logarithmique maximal est fixé à sa valeur minimale -30, et l'index de configuration de référence sélectionné k* est fixé à -1 L'index de configuration de référence k est restauré à -1 (case 505) et il est incrémenté jusqu'à O (case 507) L'index de configuration de référence courant k est
ensuite comparé à la valeur d'index finale K, à la case 510.
Du fait qu'à cet instant, k= 0, la case 515 est choisie et les signaux des matrices A et B pour le chiffre k= 0, c'est-à-dire "zero" sont adressés et sont transférés de la mémoire de signaux de modèles de Markov de configuration de référence, 360, vers la mémoire vive 350, par l'intermédiaire du circuit
processeur 340 (case 315) Le signal de probabilité logarith-
mique pour le chiffre zéro, soit ln P 0, est ensuite généré à la case 520 Comme mentionné précédemment, le signal ln PO représente la probabilité que la configuration de parole d'entrée quantifiée soit obtenue à partir du modèle de Markov pour le chiffre zéro L'organigramme de la figure 6 montre
les structures détaillées pour la formation du signal ln Pk.
Sur la figure 6, le signal d 11 ( 1) est fixé à ln(b 1 (O 1)) (case 601), ce qui correspond au signal m= 14 de la colonne 1 dans la matrice B du Tableau 5 L'index d'état
d'origine i est fixé à 1 (case 605) et incrémenté (case 607).
lne 1 (i) pour i= 2,3, N est fixé à -oc, jusqu'à ce qu'on ait i >N, ce qui correspond à l'état final 5 L'ensemble formé par les signaux #1 (l), e $( 2), 1 ( 5) est enregistré dans la
mémoire vive 350 Ces signaux d 1 (i) correspondent à la res-
triction qui consiste en ce que le modèle de Markov démarre
dans son premier état dans le premier intervalle de configu-
ration de parole La figure 7 montre un diagramme du type en treillis qui illustre la séquence d'états du modèle de Markov pour les intervalles de temps de parole d'entrée successifs 1, 2, 3 et 4 La colonne 710 correspond au premier intervalle, dans lequel le signal d'index quantifié de configuration de parole est O = 14 Les colonnes 720, 730 et 740 représentent
respectivement les second, troisième et quatrième intervalles.
Les états de Markov sont indiqués en ordre ascendant dans chaque colonne Comme le montre la figure 7, seul l'état 1
est possible dans le premier intervalle de temps.
Après la formation des signaux #1 (i) du premier intervalle de temps, on passe successivement aux cases 615 et
620, de façon que l'index d'intervalle de temps de configura-
tion de parole d'entrée, t, soit fixé à l et incrémenté Du fait que l'index d'intervalle de temps t n'est pas supérieur à celui correspondant à l'intervalle de'temps final T (case de décision 625), l'index d'état de destination j est fixé à zéro à la case 630 L'index de destination j est incrémenté jusqu'à 1 dans la case 635 et il est comparé à l'état final N= 5 (case de décision 640) Conformément aux restrictions du
modèle de Markov de mot caché qui est représenté sur la figu-
re 1, seules des transitions vers les deux états immédiate-
ment suivants sont possibles Par conséquent, l'index d'état d'origine i est fixé à zéro (case 650) et incrémenté jusqu'à l (case 652), pour correspondre aux restrictions du-modèle de Markov (, c'est-à-dire le signal #2 (i) maximal, est fixé
initialement à (case 650).
* L'index d'état d'origine incrémenté, i, est compa-
ré à l'index d'état de destination courant, j=l, à la case 654, et on passe à la case de formation de signal 660 pour l'intervalle de temps de configuration de parole t= 2, l'index d'état d'origine i=l de l'intervalle précédent et l'index d'état de destination j=l Le signal OC dans la case 660 correspond au chemin allant dé l'état 1 dans la colonne 710 (t=l) à l'état 1 dans la colonne 720 (t= 2), et sa valeur est obtenue en faisant la somme du signal généré précédemment el(l) et de ln(ailb 1 (O 2)) L'index de signal O 2 est le signal de configuration de parole quantifié pour l'intervalle t= 2 dans le Tableau 1; le signal ail est obtenu à partir des signaux de la matrice A du Tableau 2, dans la colonne i=l et la ligne j=l, et b( 02) est obtenu à partir de la rubrique m= 14 de la colonne de l'état 1 de la matrice B pour le chiffre zéro dans le Tableau 5 A ce moment, " = -10,2, et est fixé à cette valeur, ce qui correspond aux cases 665 et 670 On repasse ensuite à l'incrémentation de l'index d'état d'origine (case 652), ce qui fait que i devient 2.
Du fait que l'index d'état d'origine i est main-
tenant supérieur à l'index d'état de destination j=l, 2 ( 1) est fixé égal à P (cases 654 et 656) et l'index d'état de destination j est incrémenté jusqu'à 2 (case 635) L'index d'état d'origine i est restauré à O et incrémenté jusqu'à 1 aux cases 650 et 652 Le signal O pour les index t= 2, i=l, j= 2 est formé à la case 660 De cette manière, le chemin allant de l'état 1, colonne 710, à l'état 2, colonne 720, est parcouru sur la figure 7 La valeur t= 2, i=l, j= 2 de CC
remplace le signal i oo (cases 665 et 670).
Lorsque le signal o X est formé pour t= 2, i= 2 et
j= 2, il est inférieur à P du fait que e 1 ( 2)=-ç Par consé-
quent, 2 n'est pas changé à la case 670 L'index d'état d'origine i est ensuite incrémenté (case 652) L'index incrémenté i= 3 est maintenant supérieur à i= 2 et e 2 ( 2) est fixé à la valeur de 3 qui est obtenue pour t= 2, i=l et j= 2 (case 656) De façon similaire, 2 ( 3) est fixé à la valeur du signal î pour t= 2, i=l et j= 3, comme il est indiqué sur
la figure 7 Les signaux dl(i) pour i> 1 ont été fixés à -
-0 Par conséquent, les signaux #2 (j) pour je 3 sont fixés à -o Les Tableaux 8, 9 et 10 donnent la liste des signaux de probabilité logarithmique et(j) pour les états de modèle
de Markov dans chaque intervalle de temps t.
i i i i i i
O agi-
ú CE DI-
L I's E I-
L euvi-
Z '6 ú I-
L CLET-
1 eg El-
E CLTI-
S z
9 Ctll-
E Cú 11-
9 C 901-
L C 66-
8 CZ 16 _
1 CBS-
9 le 9 S-
L c 1 s-
z e 9 L-
1 CIL-
1 119 9-
9 e 69-
1 CES-
S sp-
6 C E V-
P c 6 ú-
E CE E_
6 c OE-
9 '?Z-
0 elz-
P e 691-
em- CESI-
S Cs t, I-
L Cipi-
O Ce El-
z Cp E 1-
, Con-
O Cszi-
9 c 6 ll-
9 CEIT-
Z '601-
9 le S O 1-
1 CZOI-
9 c 86-
ú c P 6-
106- c 8 s_
E: CES-
, Cg L-
z '69-
1 CZ 9-
S Css-
6 c t S-
L c 6 t,-;-
9 ci> p-
S 'Ep-
E: cgú-
6 COú-
z egz-
O 6 1-
6 CET-
z esgi-
O e,9 T-
6 '7991-
8 e 6 bpl-
L CZ 17 T_
l c 6 ci-
6 'LE T-
E Cq El-
9 Cn 1-
6 '76 Z 1-
9 ct'z'i-
p 16 TI-
D' csl T-
g CTIT-
6 le 1 T T_
6 c E Tl-
8 CSOT-
L 86-
9 c 16-
0 e 06-
6 E 8-
6 c SL-
6 e>L-
Z 'ZL-
0 eúL-
a e Lq-
9,Zq-
9 c LS-
Lt P-
T CPDI-
0 c Lú-
6 c 6 Z-
ei>z-
CS 9 I-
O ezgl-
s ctsi-
9 'L Dl 1-
p Com-
E CE E I_
L CIET-
z C O E -
9 ceti-
1 c L ? T-
g 'úET-
O C t, z 1-
8 Cg IT-
L C 601-
> 17 L Oi-
9 e LOT-
E CPOT-
L c 86-
9 Z 6-
1 cú 6-
8 C 98-
ú C z q-
8 c LL-
9 COL-
T CL 9-
S e Eg-
E 17 qs-
1 CES-
O C 8 v-
9 Ct V-
L c Lú-
L 'en-
9 c LZ-
t Coz-
E CS T-
p C 9 LI
C c 69,-
i: CZ 91-
0 CSSI-
Cg, p T-
t, Co vr-
9 Cgú 1-
6 2: E: T-
T '6 Z T-
c 'S Z T-
g 'TZT-
T 9 T 1-
9 O 1 T_
c C 90 T-
1 Z O T-
S '8 6-
0 19 6-
e T 6-
z CLS-j
8 IZ 8-
P '6 L-
O Cg L
z CZL-
p 199-
8 Cú 9-
T c 69-
6 e Tg-
8, p t-
L c Lú-
9 Pú- LZ- C Li-
z C 01-
O S- 9 ú SE DE E E z ú 1 E 0 E 6 Z ez L z 9 z 9 z t'z ú z z z 1 z 0 z 8 1 L 1 9 T t, 1 E 1 z 1 1 1 0 1 L p z T Ch 1 %_ le to VI$ CM 1-n CI,l gl In Aagq UI
Y 1410,42
S -nvg Tqul
Tableau 9
Et at 1 2 3 4 I Ente rvalle
2 -14,1 -13,5 -16,8 **
3 -21, 2 -19, 1 -23, 2 -22, 9 -25,6
4 -28, 3 -25, 3 -26, 4 -26, 3 -30,7
-33, 8 -31, 3 -32, 9 -33, 3 -32, 2
6 -40, 9 -33, 6 -40, 1 -36, 2 -39, 2
7 -47, 6 -40,7 -43, 3 -43, 3 -43, 4
8 -54, 8 -47, 7 -50, 3 -50, 3 -50, 3
9 -61, 9 -54, 7 -57, 3 -57, 3 -57, 3
-69, 0 -61,7 -64,4 -64, 4 -64, 2
il -71, 5 -68, 3 -71, 4 -71, 4 -66,3
12 -74,0 -74,9 -78,0 -78,5 -68,3
13 -81, 1 -81, 9 -83,9 -81, 1 -72,2
14 -88, 2 -89,0 -90, 3 -83, 8 -76,0
-95, 3 -96,0 -97, 5 -90, 8 -79, 6
16 -102, 4 -103, O -104, 7 -97, 8 -53 > 2
17 -105, 9 -107, 5 -106, 8 -103, 5 -86, 3
18 -113, O -114, 5-114, O -110, 5 -89, 2
19 -117, 9 -121 > 5 -121, 2 -117, 6 -94 > 4
-122, 8 -126, 9 -128, 3 - 124, 6 -9-9 e 7
21 -127, 8 -131, 8 -134, 2 -13 L 7 -10-5, O
22 -134, 9 -136 e 7 -139, 1 -138, 7 -i 07 h 8
23 -142,0 -143,7 -146,2 -145,7 -110,7
24 -148,0 -150,8 -147,4 -147,9 115,0
-154,0 -157,0 -148,6 -150,0 -119,4
26 -160,7 -163,0 -155,8 -157,0 -123,3
27 -167,5 -169,7 -163,0 -164,1 -127,1
28 -174,2 -176,4 -170,2 -171,1 -13 li O
29 -180,9 -183,1 -177,3 -178,2 -134,8
-187,6 -189,8 -184,5 -185,2 -138,7
31 -194,3 -196,6 -191,7 -192,2 -142,5
32 -200,3 -197,8 -198,19 -198,2 -149 > 4
33 -204 e 6 -204 e 8 -206,1 -205,2 -153 ',7
34 -211,7 -211,8 -213,2 -209,6 -160,6
-218,9 -218,8 -220,4 -216,6 -167,5
36 -226,0 -225,8 -227,6 -223,7 -174,5
6 e 9 gl-
L e 6 LI-
9 'ec Li-
s e 991-
tpe Z 91-
6 e SST-
Se ssl-
oc zsi-
9 e 8 vi-
se z Pi-
re SE-1-
se LZT-
6 CEZT-
s eszi-
L eúzl-
e 9 il-
e 6 ol-
Z ezol-
6 C 96-
9 e 65-
0 'LS-
SCE S"
Lcos-
ECE L-
Oegg- ezq-
ze T 5-
6 CES-
9 C 9,tr-
ú e 6 ú-
6 clú-
O egz-
9 ezz-
Z e 6 T--
6 C Il-
z e t'si-
*Z e LLI-
0 eúLl-
C " 691-
El Z 91-
6, 891-
V ssi-
01 zsi-
le L>T-
il opi-
le úúT-
le 9 zi-
z IEZT-
CçZT- eúzl-
e 9 li-
C 601-
1 CZOT-
9 C 96-
9 C 88-
6 c 68-
L '98-
9 CE 8-
eos- cúL-
T C 99-
1 ez 9-
L CS s-
L es P-
L cl P-
L c>ú-
6 CLZ-
6 c OZ-
8 'LT-
Z C E T-
6 'ES 1-
O 1,991-
te 091-
TC úsi-
Le 6 >T-
Z, 9 tpi-
se zT-
E c 6 ú 1-
6 c SEI-
ve ZEI-
CS z 1-
CSTT-
C 91 1-
U 7 CP 1 1-
z CLOT-
1 COOI-
6 CZ 6-,
T c 16
6 CE 8-
L CO 9-
s CL L-
P et, L-
Z c IL-
O C 9-
6 " 99-
6 c Zg-
0 c 6 P-
O 19 p-
z Co t'-
O CVE-
v Cs z-
E CIZ-
1 C v 1-
6 c 9-
9 ú sú, Pú EE Zr TE O E 6 Z 8 z L Z ' 9 z 9 Z z ú z z z 1 z 0 z a 1 L 1 9.1 I t? 1 ú 1 z 1 1 1 0 1 L s P E z T
6 c 991-
8 17 zs 1-
gespi-
6 es El-
le Kl-
ze LZI-
6 e z T-
9 e zzi-
Ee'ozi-
oc 811-
Le si T-
t', ú 1 1-
1 '601-
L-etpoi-
L 'EOT-
L e OOI-
8 et,6-
6 eg S-
1 C Es-
0,719-
P e 9 L-
9 ez L-
9 e 89-
6 es 9-.
8 ess-
L c t G-
e Lf 7-
CE 17-
esú- PE 9, -
T e 6 Z-
s egz-
9 COZ-
9 e 9 si-
9 e 6 LT-
9 ez Li-
9 C 691
9 C Z 91-
VP 91-
6 ' 09 1-
6 c 9 T-
6 6 P 1-
se z I T-
se g El-
se Szi-
loci- CZET-
yles z 1-
C 811-
Cili- oi- 986- 696-
LIIZ 6-
Ec LS-
E Cos-
0 le ? L-
EC T
0 C 99-
0 '69-
6 clg-
6 'ctl>-
6 c LE-
6 c OE-
a C 6 z-
8 CEZ-
1 C 91-
e- il,- Tli k A C 14 r- C'l GIIV Aagq UI 1 14 le 149 p OT nrg Tq'el La ligne 2 du Tableau 8 indique les valeurs pour 92 ( 1),
$ 2 ( 2), 42 ( 3), 2 ( 4) et 92 ( 5) qui sont obtenues dans le traite-
ment des signaux de modèle de Markov qui est indiqué sur la
figure 6 pour le second intervalle de parole.
Le traitement du second intervalle de parole est terminé lorsque l'état de destination j devient supérieur à l'état final N= 5 à la case de décision 640 A ce moment, l'index d'intervalle de parole t est incrémenté jusqu'à 3 (case 620), et le traitement des signaux #3 (j) est entrepris à la case 630 Comme le montre la figure 7, les transitions possibles dans l'intervalle de configuration de parole t= 3 comprennent des transitions de l'état 1 de l'intervalle 2 (colonne 720) vers les états 1, 2 et 3 de l'intervalle 3 (colonne 730), de l'état 2 de l'intervalle 2 (colonne 720) vers les états 2, 3 et 4 de l'intervalle 3 (colonne 730), et de l'état 3 de l'intervalle 2 (colonne 720) vers les états 3, 4 et 5 de l'intervalle 3 (colonne 730) Le traitement des signaux #3 (j) est effectué de la manière décrite en relation
avec les intervalles de temps de configuration de parole pré-
cédents, conformément à l'équation 8 Cependant, dans l'intervalle t= 3 et les intervalles suivants, il peut y avoir plus d'un état d'origine pour chaque état de destination Par exemple, sur la figure 7, l'état 2 de la colonne 730 peut être atteint à partir des états 1 et 2 de la colonne 720, et l'état 3 de la colonne 730 peut être atteint à partir des
états 1, 2 ou 3 de la colonne 720 Pour chaque état de desti-
nation, le signal " maximal qui est généré est conservé en tant que signal e 3 (j) pendant toutes les opérations des cases 665 et 670 En ce qui concerne l'état 2 de la colonne 730, on a: ( 2 ( 1) + ln(a 12 b 2 ( 03)) 03 ( 2) = max 02 ( 2) + ln(a 22 b 2 ( 03)) Les signaux 03 ( 1), e 3 ( 2), e 3 ( 3), 03 ( 4) et 03 ( 5) qui sont
34719
obtenus dans l'intervalle t= 3 sont indiqués à la troisième ligne du Tableau 8 et les signaux e 4 (j) qui résultent du traitement de l'intervalle t= 4 sont indiqués à la quatrième
ligne du Tableau 8.
Le traitement de signal qui est représenté sur la figure 6 pour les intervalles de parole successifs est accompli conformément aux restrictions du modèle de Markov
de mot caché, pour obtenir la probabilité maximale que la- configuration de parole d'entrée "nine" soit déduite des signaux des
matrices A et B du modèle pour le chiffre "zero"
pour chaque état, dans l'intervalle de temps de la configu-
ration de parole Une fois que o< a été obtenu pour les index t= 36, i= 5 et j= 5, le traitement du dernier intervalle de temps (T= 36) est achevé par les cases 665, 670, 652, 654 et 656 Le signal e T(N)= 158,0 pour l'état final N= 5 est ensuite généré (case 656) Ce signal représente la probabilité logarithmique maximale que la configuration de parole soit déduite du modèle de Markov pour le chiffre "zero", et il est indiqué dans la dernière position de la ligne finale
(t= 36) dans le Tableau 8.
Lorsque l'intervalle t devient supérieur au der-
nier intervalle de configuration de parole T= 36, la case de
décision 625 dirige vers la case 628, et le signal de proba-
bilité maximal pour "zero" est enregistré On retourne ensui-
te à la case 507 de la figure 5, et le traitement de Markov pour le chiffre "one" est entrepris Les Tableaux 9 et 10 illustrent respectivement le traitement d'évaluation des
modèles de Markov pour les chiffres "five" et "nine".
Conformément aux cases 525 et 530, une fois que le signal de probabilité logarithmique maximal pour chaque chiffre a été formé, il est comparé à la plus grande des valeurs de probabilité du chiffre précédent, et seule la
plus grande valeur et son code d'identité k* sont enregistrés.
Lorsque le traitement pour le chiffre "zero" est terminé, le signal ln P est fixé à -158,0 (Tableau 8) et k* est fixé max à 0, ce qui correspond à la case 530 Les signaux in Pk pour l'ensemble de chiffres obtenu dans la structure de la figure 3 pour la configuration de parole d'entrée '"nine" sont ceux
pour l'état d'absorption final 5 dans l'intervalle t= 36.
chiffre k ln (P chiffre k ln (Pj
O -158,0 6 -175,3
1 -160,4 7 -160,4
2 -184,9 8 -168,9
3 -158,8 9 -156,9
4 -186,0
-174,5
Par conséquent, ln P Max et k* sont inchangés depuis le chiffre "zero" jusqu'à ce que le signal de probabilité logarithmique maximal pour le modèle du chiffre "nine" soit comparé à ln P dans la case de décision 525 L'opération max de comparaison effectuée à la case 525 fait passer à la case 530 Le signal ln Pmax est fixé à -156,9 et k* est fixé à 9 A la fin du mode d'évaluation des modèles de Markov, le signal de probabilité maximal qui est enregistré
est -156,9 et le chiffre sélectionné est k*= 9.
On peut utiliser la structure de reconnaissance de chiffres qui vient d'être décrite pour reconnaître une série d'émissions de parole correspondant à des lettres, des
chiffres ou des mots, comme dans le cas d'un numéro de télé-
phone ou de carte de crédit Après la sélection du modèle de référence avec le signal de probabilité maximal P(OIK), ce qui correspond à la case 240 sur la figure 2, un signal d'index de référence est généré (case 245) et est transmis au dispositif d'utilisation 280 qui peut être un équipement de commutation téléphonique ou un processeur de données pour des transactions commerciales On passe ensuite à la case de décision 205, de façon à pouvoir traiter la configuration de parole suivante du message d'entrée parlé On peut développer
la structure de la figure 3 pour reconnaître d'autres confi-
25347 1 9
gurations de parole, comme des membres de phrases ou des
phrases, en sélectionnant des gabarits de référence appro-
priés pour les modèles de Markov Contrairement aux structu-
res antérieures de reconnaissance de la parole par modèles de Markov, dans lesquelles on utilise des modèles de petits éléments de parole, par exemple des phonèmes, l'invention utilise un seul modèle de l'ensemble de la configuration de référence, par exemple un mot ou un membre de phrase, pour identifier une émission de parole à une configuration de référence On bénéficie des avantages consistant en ce que le nombre d'états exigés pour la reconnaissance est réduit, les difficultés dans l'encha nement de modèles phonémiques ou d'autres segments élémentaires de parole sont évitées, et on parvient à un fonctionnement indépendant du locuteur à
partir de bases de données disponibles Les gabarits de modè-
les de Markov qui sont enregistrés dans la mémoire morte 360 sont générés à partir d'émissions de parole correspondant à des configurations de parole identifiées qui peuvent venir de n'importe quelle source et de différents locuteurs On peut utiliser des configurations provenant de banques de
données aisément disponibles d'émissions de parole enregis-
trées, pour générer des modèles de Markov pour le locuteur, pour la structure de reconnaissance indépendante du locuteur
qui est représentée sur la figure 3.
Il va de soi que de nombreuses modifications peuvent être apportées au dispositif décrit et représenté,
sans sortir du cadre de l'invention.
Claims (6)
1 Analyseur de parole destiné à identifier une émission de parole à l'une des configurations d'un ensemble de configurations de référence, comprenant des moyens pour enregistrer un ensemble de signaux, chacun d'eux correspon-
dant à un modèle de Markov caché et restreint d'une configu-
ration de référence; et des moyens qui réagissent à l'émission de parole en formant une séquence d'intervalles
de temps de signaux de caractéristiques acoustiques repré-
sentatifs de la configuration de parole de cette émission; caractérisé en ce qu'il comprend des moyens qui réagissent
aux signaux de caractéristiques de la configuration de paro-
le en générant une séquence de signaux de caractéristiques
prédéterminés sélectionnés représentatifs de cette configu-
ration de parole; qui réagissent conjointement à la séquen-
ce de signaux de caractéristiques sélectionnés et aux signaux
de modèle de Markov caché et restreint de chaque configura-
tion de référence, en générant un signal représentatif de
la probabilité que la configuration de parole soit la confi-
guration de référence; et qui réagissent aux signaux
représentatifs de la probabilité en identifiant la configura-
tion de parole à l'une des configurations de référence.
2 Analyseur de parole selon la revendication 1,
caractérisé en ce que les moyens destinés à enregistrer cha-
cun des signaux de modèle de Markov caché et restreint de configuration de référence comprennient des moyens destinés à enregistrer un ensemble de signaux correspondant à des états de modèle de Markov comprenant un signal qui correspond à un état initial, plusieurs signaux correspondant à des états intermédiaires, et un signal correspondant à un état final, des moyens destinés à enregistrer un ensemble de signaux correspondant chacun à la probabilité de transition entre une
paire d'états prédéterminée, et des moyens destinés à enre-
gistrer un ensemble de signaux représentant chacun la proba-
bilité d'apparition d'un signal de caractéristiques prédéter-
miné dans un état déterminé.
3 Analyseur de parole selon la revendication 2, caractérisé en ce que les moyens de génération de signaux représentatifs de probabilité pour chaque modèle de configu- ration de référence génèrent successivement des signaux de
période de traitement d'intervalles de configuration de paro-
le; pendant la période de traitement d'intervalle de confi-
guration de parole courant, ils réagissent au signal repré-
sentatif de caractéristiques prédéterminées de l'intervalle de configuration de parole courant, et aux signaux de modèle de Markov de la configuration de référence, en produisant un ensemble de signaux représentatifs de la vraisemblance du fait que le modèle de Markov de la configuration de référence soit dans un état déterminé pendant l'intervalle de parole considéré; et pendant la période de traitement du dernier intervalle de configuration de parole, ils réagissent au signal représentatif de la vraisemblance, qui correspond à
la vraisemblance du fait que le modèle de Markov de la con-
figuration de référence soit dans l'état final pendant le dernier intervalle de configuration de parole, en formant un signal représentatif de la probabilité que la configuration de parole soit obtenue à partir du modèle de Markov de la
configuration de référence -
4 Analyseur de parole selon la revendication 3, caractérisé en ce que les moyens destinés à produire les
signaux représentatifs de la vraisemblance dans chaque pério-
de de traitement d'intervalle de configuration de parole réagissent aux signaux d'état de modèle de Markov, aux
signaux de probabilité de transition et aux signaux de proba-
bilité d'apparition de signaux de caractéristiques, en géné-
rant un ensemble de signaux représentatifs de la probabilité que le modèle de Markov de la configuration de référence correspondant à la partie de configuration de parole allant jusqu'à l'intervalle courant soit dans chacun des états-du
modèle de Markov de la configuration de référence.
Analyseur de parole selon la revendication 4,
caractérisé en ce qu'il comprend des moyens destinés à enre-
gistrer l'ensemble prédéterminé de signaux représentatifs de caractéristiques acoustiques, comportant des moyens destinés
à enregistrer'un nombre déterminé de signaux de caractéristi-
ques acoustiques couvrant la plage de caractéristiques acous-
tiques des configurations de référence.
6 Analyseur de parole selon la revendication 5, caractérisé en ce que les moyens destinés à enregistrer le nombre déterminé de signaux de caractéristiques acoustiques comprennent des moyens destinés à enregistrer un nombre
déterminé de signaux prototypes de caractéristiques de pré-
diction linéaire couvrant la plage de caractéristiques acous-
-15 tiques des configurations de référence; et les moyens desti-
nés à former une séquence de signaux de caractéristiques acoustiques représentatifs de la configuration de parole comprennent des moyens destinés à former une séquence de signaux de caractéristiques de paramètres de prédiction linéaire qui sont représentatifs de-la configuration de parole. 7 Analyseur de parole selon la revendication 4,
caractérisé en ce que les signaux de probabilité de transi-
tion correspondant à des transitions depuis un premier état distinct i vers un second état distinct j pour jei et j >i+ 2
sont des signaux de valeur zéro.
8 Analyseur de parole selon l'une quelconque des
revendications 1 à 7, caractérisé en ce que la configuration
de parole est une émission de parole correspondant à un mot, et chaque configuration de référence est une-configuration
correspondant à un mot prononcé identifié.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/434,516 US4587670A (en) | 1982-10-15 | 1982-10-15 | Hidden Markov model speech recognition arrangement |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2534719A1 true FR2534719A1 (fr) | 1984-04-20 |
FR2534719B1 FR2534719B1 (fr) | 1986-09-19 |
Family
ID=23724541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR8316194A Expired FR2534719B1 (fr) | 1982-10-15 | 1983-10-12 | Analyseur de parole a modele de markov cache |
Country Status (5)
Country | Link |
---|---|
US (1) | US4587670A (fr) |
JP (1) | JPS5991500A (fr) |
CA (1) | CA1187995A (fr) |
DE (1) | DE3337353C2 (fr) |
FR (1) | FR2534719B1 (fr) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0191354A1 (fr) * | 1985-01-31 | 1986-08-20 | International Business Machines Corporation | Procédé pour la reconnaissance de la parole |
FR2579357A1 (fr) * | 1985-03-21 | 1986-09-26 | American Telephone & Telegraph | Procede et dispositif d'analyse de la parole par modele de markov cache |
Families Citing this family (185)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US4852171A (en) * | 1984-11-09 | 1989-07-25 | Alcatel Usa Corp. | Apparatus and method for speech recognition |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US5165007A (en) * | 1985-02-01 | 1992-11-17 | International Business Machines Corporation | Feneme-based Markov models for words |
CA1243779A (fr) * | 1985-03-20 | 1988-10-25 | Tetsu Taguchi | Systeme de traitement de la parole |
JPH0632012B2 (ja) * | 1985-03-25 | 1994-04-27 | 株式会社東芝 | 音声認識装置 |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
US4833712A (en) * | 1985-05-29 | 1989-05-23 | International Business Machines Corporation | Automatic generation of simple Markov model stunted baseforms for words in a vocabulary |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
GB2179483B (en) * | 1985-08-20 | 1989-08-02 | Nat Res Dev | Apparatus and methods for analysing data arising from conditions which can be represented by finite state machines |
GB8527913D0 (en) * | 1985-11-12 | 1985-12-18 | Pa Consulting Services | Analysing transitions in finite state machines |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
CA1311059C (fr) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Appareil de reconnaissance de paroles programme par la parole pouvant distinguer des mots ressemblants |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
US4918733A (en) * | 1986-07-30 | 1990-04-17 | At&T Bell Laboratories | Dynamic time warping using a digital signal processor |
US4852180A (en) * | 1987-04-03 | 1989-07-25 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech recognition by acoustic/phonetic system and technique |
US4811199A (en) * | 1987-05-08 | 1989-03-07 | Kuechler William L | System for storing and manipulating information in an information base |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
GB8908205D0 (en) * | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
US5278911A (en) * | 1989-05-18 | 1994-01-11 | Smiths Industries Public Limited Company | Speech recognition using a neural net |
DE3916478A1 (de) * | 1989-05-20 | 1990-11-22 | Standard Elektrik Lorenz Ag | Neuronale netzwerkarchitektur |
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
US5119425A (en) * | 1990-01-02 | 1992-06-02 | Raytheon Company | Sound synthesizer |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
DE4110300C2 (de) * | 1991-03-28 | 1995-04-06 | Telefonbau & Normalzeit Gmbh | Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung |
JP2979711B2 (ja) * | 1991-04-24 | 1999-11-15 | 日本電気株式会社 | パターン認識方式および標準パターン学習方式 |
US5276766A (en) * | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5371779A (en) * | 1992-03-13 | 1994-12-06 | Nec Corporation | Call initiating system for mobile telephone units |
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
US5297183A (en) | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
US5535305A (en) * | 1992-12-31 | 1996-07-09 | Apple Computer, Inc. | Sub-partitioned vector quantization of probability density functions |
US5515475A (en) * | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
GB2285700B (en) * | 1994-01-12 | 1998-06-24 | Drallim Ind | Monitoring apparatus and method |
CN1063554C (zh) * | 1994-03-03 | 2001-03-21 | 李琳山 | 中文电脑的汉语语音输入系统及其方法 |
US5825978A (en) * | 1994-07-18 | 1998-10-20 | Sri International | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
JP3703164B2 (ja) * | 1995-05-10 | 2005-10-05 | キヤノン株式会社 | パターン認識方法及びその装置 |
US5752001A (en) * | 1995-06-01 | 1998-05-12 | Intel Corporation | Method and apparatus employing Viterbi scoring using SIMD instructions for data recognition |
JPH10513033A (ja) * | 1995-11-17 | 1998-12-08 | エイ・ティ・アンド・ティ・コーポレーション | 電気通信網に基づく音声ダイヤル呼び出しのための自動語彙作成 |
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US5865626A (en) * | 1996-08-30 | 1999-02-02 | Gte Internetworking Incorporated | Multi-dialect speech recognition method and apparatus |
DE19640587A1 (de) * | 1996-10-01 | 1998-04-02 | Siemens Ag | Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
US6253178B1 (en) | 1997-09-22 | 2001-06-26 | Nortel Networks Limited | Search and rescoring method for a speech recognition system |
US6157731A (en) * | 1998-07-01 | 2000-12-05 | Lucent Technologies Inc. | Signature verification method using hidden markov models |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6850888B1 (en) * | 2000-10-06 | 2005-02-01 | International Business Machines Corporation | Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
JP4048741B2 (ja) * | 2001-07-24 | 2008-02-20 | セイコーエプソン株式会社 | Hmmの出力確率演算方法および音声認識装置 |
EP1564721A1 (fr) * | 2002-11-21 | 2005-08-17 | Matsushita Electric Industrial Co., Ltd. | Dispositif de creation d'un modele standard et procede de creation d'un modele standard |
DE102004017548B4 (de) * | 2004-04-07 | 2007-12-27 | Medav Gmbh | Verfahren zur Erkennung und Analyse von Funksignalen |
US7542949B2 (en) * | 2004-05-12 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models |
US8521529B2 (en) * | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (fr) | 2013-03-15 | 2014-09-18 | Apple Inc. | Système et procédé pour mettre à jour un modèle de reconnaissance de parole adaptatif |
WO2014144949A2 (fr) | 2013-03-15 | 2014-09-18 | Apple Inc. | Entraînement d'un système à commande au moins partiellement vocale |
WO2014197334A2 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix |
WO2014197335A1 (fr) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3149728B1 (fr) | 2014-05-30 | 2019-01-16 | Apple Inc. | Procédé d'entrée à simple énoncé multi-commande |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9530412B2 (en) * | 2014-08-29 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for multi-agent architecture for interactive machines |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9741342B2 (en) | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
US4348553A (en) * | 1980-07-02 | 1982-09-07 | International Business Machines Corporation | Parallel pattern verifier with dynamic time warping |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
-
1982
- 1982-10-15 US US06/434,516 patent/US4587670A/en not_active Ceased
-
1983
- 1983-09-29 CA CA000437886A patent/CA1187995A/fr not_active Expired
- 1983-10-12 FR FR8316194A patent/FR2534719B1/fr not_active Expired
- 1983-10-14 DE DE3337353A patent/DE3337353C2/de not_active Expired - Fee Related
- 1983-10-15 JP JP58191711A patent/JPS5991500A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
Non-Patent Citations (3)
Title |
---|
BELL SYSTEM TECHNICAL JOURNAL, vol. 62, no. 4, partie 1, avril 1983, pages 1075-1106, Murray Hill, New Jersey (USA); L.R.RABINER et al.: "On the application of vector quantization and hidden Markov models to speaker-independent, isolated word recognition". * |
ICASSP 82, (Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 3-5 mai 1982, Paris), vol. 1, IEEE, pages 574-577, New York (USA); R.BILLI: "Vector quantization and Markov source models applied to speech recognition". * |
PROCEEDINGS OF THE IEEE, vol. 64, no. 4, avril 1976, pages 532-536, New York (USA); F.JELINEK: "Continuous speech recognition by statistical methods". * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0191354A1 (fr) * | 1985-01-31 | 1986-08-20 | International Business Machines Corporation | Procédé pour la reconnaissance de la parole |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
FR2579357A1 (fr) * | 1985-03-21 | 1986-09-26 | American Telephone & Telegraph | Procede et dispositif d'analyse de la parole par modele de markov cache |
Also Published As
Publication number | Publication date |
---|---|
DE3337353A1 (de) | 1984-04-19 |
FR2534719B1 (fr) | 1986-09-19 |
CA1187995A (fr) | 1985-05-28 |
JPS5991500A (ja) | 1984-05-26 |
DE3337353C2 (de) | 1996-05-09 |
US4587670A (en) | 1986-05-06 |
JPH0422276B2 (fr) | 1992-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2534719A1 (fr) | Analyseur de parole a modele de markov cache | |
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
EP2609587B1 (fr) | Système et procédé de reconnaissance d'une instruction vocale d'utilisateur dans un environnement bruyant | |
EP0818036B1 (fr) | Procede de reconnaissance vocale en ambiance severe, et dispositif de mise en oeuvre | |
CN106683677B (zh) | 语音识别方法及装置 | |
Makhoul et al. | State of the art in continuous speech recognition. | |
Zen et al. | Statistical parametric speech synthesis based on speaker and language factorization | |
JP2021507312A (ja) | 音声認識システム及び音声認識システムを用いる方法 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US5659662A (en) | Unsupervised speaker clustering for automatic speaker indexing of recorded audio data | |
US5719997A (en) | Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars | |
CN107077842A (zh) | 用于语音转录的系统和方法 | |
US20230154467A1 (en) | Sequence-to-sequence speech recognition with latency threshold | |
CN111261141A (zh) | 一种语音识别方法以及语音识别装置 | |
WO2022093386A1 (fr) | Modèle de langue interne pour modèles e2e | |
EP1642264B1 (fr) | Reconnaissance vocale pour les larges vocabulaires dynamiques | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
WO2020260797A1 (fr) | Procede et dispositif d'obtention d'une reponse a partir d'une question orale posee a une interface homme-machine | |
Furui et al. | Ubiquitous speech processing | |
EP1803116A1 (fr) | Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant | |
CN113724690A (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
Lee et al. | Voice access of global information for broad-band wireless: technologies of today and challenges of tomorrow | |
Lohrenz et al. | BLSTM-Driven Stream Fusion for Automatic Speech Recognition: Novel Methods and a Multi-Size Window Fusion Example. | |
Ebrahim Kafoori et al. | Robust recognition of noisy speech through partial imputation of missing data | |
Gamm et al. | The development of a command-based speech interface for a telephone answering machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |