FR2520913A1 - Procede et appareil de reconnaissance de mots-cles dans des paroles - Google Patents

Procede et appareil de reconnaissance de mots-cles dans des paroles Download PDF

Info

Publication number
FR2520913A1
FR2520913A1 FR8216620A FR8216620A FR2520913A1 FR 2520913 A1 FR2520913 A1 FR 2520913A1 FR 8216620 A FR8216620 A FR 8216620A FR 8216620 A FR8216620 A FR 8216620A FR 2520913 A1 FR2520913 A1 FR 2520913A1
Authority
FR
France
Prior art keywords
acoustic signal
keyword
word
recognition
silence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR8216620A
Other languages
English (en)
Other versions
FR2520913B1 (fr
Inventor
Lawrence George Bahler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exxon Mobil Corp
Original Assignee
Exxon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exxon Corp filed Critical Exxon Corp
Publication of FR2520913A1 publication Critical patent/FR2520913A1/fr
Application granted granted Critical
Publication of FR2520913B1 publication Critical patent/FR2520913B1/fr
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Telephonic Communication Services (AREA)

Abstract

L'INVENTION CONCERNE LA RECONNAISSANCE DE PAROLE. ELLE SE RAPPORTE A UN PROCEDE ET UN APPAREIL DESTINES A RECONNAITRE UN SILENCE DANS DES SIGNAUX ACOUSTIQUES RECUS. PLUS PRECISEMENT, DIFFERENTES QUALITES DE SILENCE PEUVENT ETRE EVALUEES PAR L'APPAREIL, D'APRES DES PAROLES PRONONCEES PAR DIVERSES PERSONNES. L'APPAREIL PERMET AINSI UNE DECOMPOSITION D'INTERVALLES PERMETTANT LA RECONNAISSANCE DE MOTS-CLES QUI N'APPARTIENNENT PAS A SON PROPRE VOCABULAIRE. APPLICATION AUX PROCEDES ET APPAREILS DE RECONNAISSANCE AUTOMATIQUE DE PAROLE.

Description

La présente invention concerne un procédé et un appareil de reconnaissance
de parole, et plus précisément, un procédé et un appareil de reconnaissance en temps réel
de mots-clés dans un signal acoustique continu.
On a déjà proposé divers systèmes de reconnais- sance de parole destinés à reconnaître des émissions sonores isolées par comparaison d'un signal acoustique isolé inconnu,
convenablement traité, à une ou plusieurs représentations, -
préparées préalablement de mots-clés connus Dans le présent mémoire, le terme "mot-clé" est utilisé pour désigner un groupe connecté de phonèmes et de sons, et il peut s'agir par exemple d'une partie d'une syllabe, d'un mot, d'une file de mots, d'un membre de phrase, etc Bien que de nombreux systèmes n'aient rencontré qu'un succès limité, l'un d'eux en particulier a été utilisé de manière satisfaisante, dans
des applications commerciales, pour la reconnaissance de mots-
clés isolés Un tel système met en oeuvre pratiquement le procédé décrit dans le brevet des Etats-Unis d'Amérique
n O 4 038 503 qui constitue un procédé satisfaisant de recon-
naissance d'un mot-clé choisi dans un vocabulaire restreint
de tels mots-clés, pourvu que les limites des données repré-
sentant le signal acoustique inconnu soient formées soit par un silence, soit par un bruit de fond, pendant la mesure par l'appareil de reconnaissance Le fonctionnement repose sur l'hypothèse d'une bonne délimitation de l'intervalle dans lequel apparalt le signal acoustique inconnu et d'un contenu
correspondant à une seule émission sonore de mot-clé.
Dans un signal acoustique continu, par exemple les paroles d'une conversation continue dans lesquelles les limites des mots-clés ne sont pas à priori connues ou marquées, plusieurs procédés ont été mis au point pour la segmentation
des données acoustiques reçues, c'est-à-dire pour la détermi-
nation des limites des éléments linguistiques tels que les phonèmes, les syllabes, les mots, les phrases, etc, avant
le début d'un processus de reconnaissance des mots-clés Ce-
pendant, ces systèmes mettant en oeuvre des paroles continues n'ont rencontré qu'un succès limité en partie à cause de l'indisponibilité d'une segmentation satisfaisante D'autres problèmes importants se posent aussi, et on peut citer par exemple le fait que seuls des vocabulaires limités peuvent être reconnus de manière fiable avec un taux suffisamment faible de fausses alarmes, le fait que la précision de la
reconnaissance dépend beaucoup des différences entre les ca-
ractéristiques vocales des différentes personnes qui parlent,
et le fait que les appareils sont très sensibles à la distor-
sion des signaux acoustiques analysés, provoquée par exemple
dans les signaux acoustiques transmis par les appareils habi-
tuels de communication téléphonique.
Les procédés de reconnaissance de parolescontinurs décrits dans les brevets des Etats-Unis d'Amérique nus 4 227 176, 4 241 329 et 4 227 177 comprennent des procédures efficaces
et acceptables commercialement pour la reconnaissance satis-
faisante, en temps réel, de mots-clés contenus dans des pa-
roles continues Les procédés généraux décrits dans ces bre-
vets sont actuellement utilisés commercialement et ils ont montré, expérimentalement et au cours d'essais réalisés en pratique, qu'ils donnaient une grande fiabilité et un faible
taux d'erreur, dans un environnement indépendant de la per-
sonne qui parle Néanmoins, bien que ces systèmes se trouvent à la pointe de la technologie actuelle, ils présentent des
inconvénients portant à la fois sur le taux de fausses alar-
mes et sur les caractéristiques d'indépendance par rapport aux personnes qui parlent, ces inconvénients étant aussi dus
aux principes selon lequel ils fonctionnent.
Les procédés de reconnaissance de parolescontinues décrits dans les brevets précités concernent essentiellement un environnement à "vocabulaire ouvert" dans lequel l'un de
plusieurs mots-clés de paroles continues est reconnu ou dé-
terminé Un "vocabulaire ouvert" est tel que tout le vocabu-
laire reçu n'est pas connu de l'appareil Dans une applica-
tion particulière, une file continue de mots peut être recon-
nue, et le résultat du processus de reconnaissance est l'iden-
tité pour chacun des éléments individuels des mots de la file
continue Une file continue, dans ce contexte, comprend plu-
sieurs éléments reconnaissables (un "vocabulaire"), limités
par un silence Il s'agit par exemple de l'appareillage coin-
mercial indiqué précédemment, appliqué à des mots isolés dans lesquels les limites sont à priori connues Cependant, les limites, c'est-à-dire les silences, ne sont pas connues et doivent être déterminées par le système de reconnaissance
lui-même En outre, les éléments examinés ne sont plus de sim-
ples éléments de mots mais plusieurs éléments"enchaînés"
les uns aux autres et formant une file de mots.
Bien qu'on ait suggéré l'utilisation de divers
procédés et appareils pour la reconnaissance de paroles conti-
nues,-on a attaché peu d'attention à la formation automatique des propriétés de l'appareil pour la création des paramètres
nécessaires à une reconnaissance précise de la parole En ou-
tre, les procédés et appareils de détermination des silences, mis en oeuvre dans les appareils connus, et l'utilisation d'une syntaxe grammaticale dans un tel appareil, bien qu'ils soient suffisants dans une application voulue, peuvent être
perfectionnés de façon très importante.
L'invention concerne un procédé et un appareil de reconnaissance de parole ayant une excellente efficacité pour la formation des propriétés de l'appareil destinéeâ
créer de nouveaux motifs de reconnaissance L'invention con-
cerne aussi un procédé et un appareil de reconnaissance ef-
ficace des silences compris dans des données d'un signal acous-
tique inconnu d'entrée, par mise en oeuvre d'une syntaxe grammaticale au cours du processus de reconnaissance, les résultats étant aussi bons quelle que soit la personne qui parle et les caractéristiques vocales, les opérations étant réalisées avec une grande fiabilité, un faible taux d'alarme
et en temps réel.
Plus précisément, l'invention concerne un procédé et un appareil d'analyse de parole destinés à reconnaître au moins un mot-clé dans un signal acoustique Elle concerne en particulier un procédé de reconnaissance des silences dans le signal acoustique reçu Le procédé comprend la création d'au moins une première et une seconde matrice objet représentant
des descriptions alternées de silences dans le signal acousti-
que reçu, la comparaison du signal acoustique reçu à la pre-
mière et à la seconde matrice objet, la création d'une mesu-
re numérique représentant le résultat des comparaisons, et le décodage de la détection d'un silence suivant le résultat des mesures numériques.
L'invention concerne aussi un procédé de recon-
naissance des silences d'un signal acoustique, comprenant la création d'une mesure numérique de la vraisemblance de la correspondance de la partie actuelle du signal acoustique reçu avec un motif de référence représentant un silence, la
modification de la mesure numérique d'après une détermina-
tion qui dépend d'une syntaxe, cette détermination repré-
sentant la reconnaissance d'une partie de signal acoustique qui précède immédiatement, d'après une syntaxe grammaticale, et la détermination du fait que la partie actuelle du signal
correspond à un silence d'après la cote modifiée.
L'invention concerne aussi un procédé de forma-
tion de motifs de référence représentant des mots-clés connus et adaptés à une personne *qui parle Le procédé comprend la formation de motifs de référence indépendants de la personne qui parle et représentant les motsclés, la détermination
des limites des mots-clés dans les signaux acoustiques pro-
noncés par la personne qui parle, à l'aide des motifs de ré-
férence indépendants de la personne qui parle, et la forma-
tion des propriétés de l'appareil d'analyse de parole en fonc-
tion de la personne qui parle, à l'aide des limites détermi-
nées par l'appareil pour les mots-clés prononcés par la
personne qui parle.
Le procédé selon l'invention concerne aussi la
formation de motifs de référence représentant un mot-clé incon-
nu antérieurement, ce procédé comprenant la formation de motifs de référence indépendants de la personne qui parle et représentant des motsclés déjà connus de l'appareil, la détermination de limites du mot-clé inconnu à l'aide des motifs de référence indépendants de la personne qui parle, et la formation des propriétés de l'appareil d'analyse de parole à l'aide des limites déterminées antérieurement par l'appareil pour le motclé inconnu auparavant afin qu'il crée une
fonction statistique décrivant le mot-clé inconnu précédemment.
Elle concerne aussi une reconnaissancede parole dans laquelle la séquence de mots-clés reconnus est décrite
par une syntaxe grammaticale qui est caractérisée par plu-
sieurs noeuds de décision reliés les uns aux autres Le procé- dé de reconnaissance comprend la formation d'une séquence
de cotes numériques destinées à la reconnaissance de mots-
clés dans le signal acoustique, l'utilisation d'une program-
mation dynamique, et l'utilisation de la syntaxe grammaticale l' pour la détermination des cotes qui forment des progressions acceptables au cours du processus de reconnaissance, et la réduction du nombre de progressions acceptablesautrement par réduction des noeuds de décision dépendant de la syntaxe
afin que des progressions qui, par ailleurs, seraient accep-
tables, soient écartées en fonction de la syntaxe réduite.
L'invention concerne aussi des appareils destinés
à la mise en oeuvre des procédés précédents.
D'autres caractéristiques et avantages de l'in-
vention ressortiront mieux de la description qui va suivre,
faite en référence aux dessins annexés sur lesquels
la figure 1 est un diagramme synoptique repré-
sentant sous forme générale la séquence d'opérations exécutées lors de la mise en oeuvre de l'invention la figure l A est un diagramme synoptique d'un appareil réalisé-selon un mode de réalisation avantageux de l'invention;
la figure 2 est un diagramme synoptique d'un ap-
pareil électronique destiné à exécuter certaines opérations
de traitement préalable pendant le processus global représen-
té sur la figure 1; la figure 3 est un organigramme représentant un programme d'un ordinateur exécutant certaines procédures au cours d'un examen du procédé représenté sur la figure 1;
la figure 4 représente schématiquement une opé-
ration d'alignement de motifs selon l'invention;
la figure 5 est un diagramme synoptique d'un proces-
seur mettant en oeuvre une fonction de vraisemblance, dans un mode de réalisation avantageux de l'invention
la figure 6 est un diagramme synoptique d'un cir-
cuit de soustraction et de détermination d'une valeur absolue, incorporé à un appareil dans un mode de réalisation avantageux de l'invention; la figure 7 est un diagramme synoptique d'un circuit logique de détection de débordement selon un mode de réalisation avantageux de l'invention la figure 8 est une table de vérité illustrant le fonctionnement du circuit de la figure 7;
la figure 9 est un diagramme synoptique d'un proces-
seur de syntaxe destiné selon l'invention; la figure 9 A est un diagramme synoptique analogue pour la reconnaissance d'une file limitée par un silence la figure 9 B est un diagramme synoptique analogue mais Enliée ou à nombre de noeud réduit; et
la figure 10 est un diagramme synoptique représen-
tant la configuration d'un circuit séquentiel d'alignement
de motifs et de décodages selon un mode de réalisation avan-
tageux de l'invention.
Sur les diverses figures, les références identi-
ques désignent des éléments analogues.
Dans un mode de réalisation particulièrement avan-
tageux de l'invention, décrit dans le présent mémoire, la reconnaissance de paroles et la formation sont exécutées
dans un appareil complet qui comporte un ensemble électroni-
que de construction particulière, destiné à exécuter certains traitements analogiques et numériques des signaux acoustiques reçus constituant des données, en général des paroles, et un ordinateur d'emploi universel, programmé selon l'invention afin qu'il exécute certaines autres opérations de réduction de données, et certaines évaluations numériques La division des taches entre le matériel et le logiciel, dans l'ensemble, est assurée de manière que l'ensemble puisse exécuter la
reconnaissance de parole en temps réel et à un coût modéré.
Cependant, il faut noter que certaines des tâches réalisées
dans le matériel dans l'ensemble particulier considéré, peu-
vent être exécutées par un logiciel, et certaines des tâches remplies par la programmation, dans l'exemple considéré, peuvent etre exécutées par un circuit spécialisé, dans un autre mode de réalisation A cet égard, on décrit à la fois le matériel et le logiciel, dans certains cas o tous deux
sont possibles.
L'invention concerne en particulier un appareil qui reconnaît un mot-clé dans des signaux formant des paroles continues, malgré la distorsion éventuelle de ces signaux,
par exemple due à une ligne téléphonique Ainsi, comme l'in-
dique la figure 1, un signal vocal d'entrée portant la réfé-
rence 10 peut être considéré comme un signal vocal formé par un microphone téléphonique à élément de carbone et par un récepteur après transmission par une ligne téléphonique comprenant un nombre quelconque de centraux intermédiaires, et à une distance arbitraire Une application de l'invention est donc en particulier la reconnaissance de files continues de mots contenues dans des données acoustiques provenant d'une source inconnue (ensemble indépendant de la personne
qui parle), les données étant reçues par le réseau téléphoni-
que D'autre part, le signal reçu peut aussi ttre un signal de données acoustiques quelconques, par exemple un signal
vocal provenant d'une liaison de communication radioélectri-
que, par exemple, d'un poste de diffusion commerciale, d'une
liaison privée, ou d'un opérateur placé près de l'appareil.
Comme l'indique la description qui suit, le pro-
cédé et l'appareil selon l'invention concernent la reconnais-
sance des signaux de paroles contenant une séquence de sons ou de phonèmes, ou d'autres signes reconnaissables Dans la
description qui suit et dans les revendications, on se réfère
à "un mot", "un élément", "une séquence de motifs objets",
"un motif matrice", ou "une matrice d'élément", mais ces ter-
mes et expressions sont génériques et équivalents Ils dési-
gnent commodément l'expression d'une séquence reconnaissable de sons ou de représentations acoustiques qui se combinent pour la constitution d'un mot-clé qui peut être détecté et reconnu selon l'invention Ces termes etexpressions désignent R donc de façon générale et générique des éléments allant d'un simple phonème, d'une simple syllabe o d'un simple
son, à toute une série de mots (au sens grammatical du ter-
me), ou à un seul mot.
Un convertisseur analogique-numérique 13 reçoit le signal analogique acoustique formant les données reçues par la ligne 10 et il met l'amplitude du signal reçu sous forme numérique Le convertisseur représenté est destiné à
transformer les données d'entrée en une représentation numé-
riqueâ douze bits, les conversions étant réalisées à une
fréquence de 8000 par seconde (Dans d'autres modes de réali-
sation, on peut utiliser d'autres fréquences d'échantillonnage
par exemple, on peut utiliser une fréquence de 16 K Hz lors-
qu'un signal de qualité élevée est disponible) Le convertis-
seur 13 transmet son signal de sortie à un auto-corrélateur 17 par l'intermédiaire des lignes 15 Cet autocorrélateur 17 traite les signaux d'entrée afin qu'ils forment une fonction d'autocorrélation de courte période d'une centaine de fois par seconde, et il transmet son signal de sortie,
comme indiqué, à des lignes 19 Chaque fonction d'auto-
corrélation comporte deux valeurs ou canaux, chaque valeur
étant calculée avec une résolution de 30 bits L'autocorréla-
teur est décrit plus en détail dans la suite du présent mé-
moire en référence à la figure 2.
Les fonctions d'autocorrélation, transmises par les lignes 19, subissent une transformation de Fourier
dans un appareil 21 afin qu'elles forment des spectres d'éner-
gie correspondants dans une fenêtre de faible durée 23 Les spectres sont formés à la même fréquence de répétition que les fonctions de corrélation, c'est-à-dire à raison de fois par seconde, et chaque spectre d'énergie de courte durée a trente et un termes numériques ayant une résolution de 16 bits chacun Il faut noter que chacun des trente et un -termes-du spectre représente l'énergie du signal dans une
-35 bande de fréquence.
L'appareil de transformation de Fourier comprend aussi de préférence une fonction fenêtre analogue ou de Hanning
destinée à réduire les réponses parasites dues aux bandes ad-
jacentes. Dans le premier mode de réalisation représenté, la transformation de Fourier et les opérations suivantes de traitement sont exécutées de préférence sous la commande d'un ordinateur d'emploi universel convenablement programmé
et mettant en oeuvre un processeur d'un arrangement périphé-
rique destiné à accélérer les opérations arithmétiques qui
doivent être répétées, selon le procédé de l'invention.
lu L'ordinateur particulier est du type PDP-ll fabriqué par
The Digital Equipment Corporation, Maynard, Massachusetts.
Le processeur particulier utilisé est décrit dans le brevet des EtatsUnis d'Amérique NI 4 228 498 La programmation décrite dans la suite du présent mémoire en référence à la figure 3 correspond sensiblement aux possibilités et aux caractéristiques, de-ces ensembles de traitement numérique
qui sont disponibles.
Les spectres d'énergie correspondant à une fenê-
tre de courte durée subissent une égalisation de leur réponse
en fréquence, comme indiqué par la référence 25, cette éga-
lisation étant réalisée en fonction des amplitudes de crête obtenues dans chaque canal ou chaque bande de fréquence comme
décrit plus en détail dans la suite du présent mémoire.
Les spectres ayant des réponses en fréquence égalisées et
transmis par les lignes 26 sont formés à raison d'une centai-
ne par seconde et chaque spectre a trente et un termes numé-
riques évalués avec une précision de 16 bits Les spectres égalisés et transmis par les lignes 26 sont soumis à une transformation d'amplitude comme l'indique la référence 35, imposant une transformation non linéaire des amplitudes des
spectres reçus afin que l'évaluation finale des données acous-
tiques reçues soit facilitée Cette transformation est dé-
crite plus en détail dans la suite du présent mémoire, mais on peut noter qu'elle améliore la précision avec laquelle le signal acoustique inconnu reçu peut être adapté aux matrices des motifs objets dans un vocabulaire de référence Dans le
mode de réalisation représenté, cette transformation est ef-
fectuée sur tous les spectres qui ont subi l'égalisation et le traitement par une fenêtre, à un moment antérieur à la comparaison des spectres avec les motifs représentant les
éléments du vocabulaire de référence.
Ces spectres de courte durée, égalisés et dont
l'amplitude est transformée et qui'sont transmis par les li-
gnes 38, sont alors comparés aux matrices d'éléments comme l'indique la référence 40 et comme décrit en détail dans la
suite du présent mémoire Les motifs 42 de référence repré-
sentent les éléments du vocabulaire de référence d'une ma-
nière statistique, les spectres transformés et égalisés pouvant leur être comparés Chaque fois qu'un "silence" est détecté, une décision est prise quant à l'identité de la file de mots qui vient juste d'être reçue Cette opération est repérée par la référence 44 Des mots candidats sont alors choisis en fonction de l'écart donné par la comparaison et, dans le mode de réalisation représenté, le processus de sélection est destiné à réduire au minimum la probabilité
de la perte d'un mot-clé ou de la substitution d'un tel mot-
clé.
On se réfère maintenant à la figure l A qui indi-
que qu'un ensemble de reconnaissance de parole selon l'inven-
tion romporte un organe 45 de commande qui peut ttre par exem-
ple un ordinateur d'emploi universel tel qu'un ordinateur PDP-ll ou un organe matériel de commande réalisé spécialement pour l'ensemble Dans le mode de réalisation représenté, l'organe 45 de commande reçoit des données acoustiques traitées préalablement d'un processeur préalable 46 qui est décrit
plus en détail en référence à la figure 2 Ce processeur préa-
lable 46 reçoit des signaux analogiques acoustiques par une ligne 47 et transmet des données traitées par des lignes 48
de couplage au processeur de commande.
La vitesse de fonctionnement du processeur de commande, lorsqu'il s'agit d'un élément d'emploi universel, n'est en général pas suffisamment grande pour le traitement
des données reçues en temps réel En conséquence, on peut avan-
tageusement utiliser divers circuits spécialisés pour l'aug-
mentation réelle de la vitesse de traitement de l'élément 45.
En particulier, un circuit 48 a de traitement vectoriel, tel que décrit dans le brevet précité des Etats-l Unis d'Amérique NO 4 228 498, donne des possibilités nettement accrues de
traitement matriciel par utilisation d'un effet de circula-
tion En outre, comme l'indiquent plus en détail les figures 4, 5 et 6, un processeur 48 b de fonction de vraisemblance, peut être utilisé avec le processeur vectoriel afin que la vitesse de fonctionnement de l'appareil soit multipliée par
un facteur 10.
Alors que, dans un mode de réalisation avantageux de l'invention, le processeur 45 est un ordinateur, dans un autre mode de réalisation décrit en référence à la figure 10,
une partie importante du traitement est exécutée à l'exté-
rieur du processeur de commande dans un processeur séquentiel 49 de décodage La structure de ce processeur est décrite plus en détail en référence à la figure 10 Ainsi, l'appareil destiné à exécuter la reconnaissance de parole et représenté a une grande souplesse à la fois quant à sa vitesse et quant à son aptitude à être réalisé en matériel, en logiciel, ou
en une combinaison avantageuse de matériel et de logiciel.
Processeur préalable Dans l'appareil représenté sur la figure 2, une fonction d'autocorrélation avec l'opération de formation d'une moyenne intrinsèque, est exécutée numériquement dans le courant de données numériques créé par le convertisseur 13 qui traite les données acoustiques analogiques reçues par la ligne 10, en général un signal vocal Le convertisseur 13
transmet un signal numérique par les lignes 15 Les fonc-
tions de traitement numérique et de conversion analogique-
numérique sont synchronisées par un oscillateur 51 d'horloge.
Celui-ci transmet un signal de synchronisation fondamental de 256 000 impulsions par seconde, et ce signal parvient à un circuit diviseur de fréquence 52 qui donne un second signal de synchronisation à 8000 impulsions par seconde Le signal de synchronisation plus lent commande le convertisseur 13 et un registre 53 à bascule qui contient les résultats à 12 bits de la dernière conversion jusqu'à ce que la conversion
suivante soit terminée.
Les produits d'autocorrélation sont formés par un circuit multiplicateur numérique 56 qui multiplie le nombre
contenu dans le registre 53 par le signal de sortie d'un re-
gistre à décalage 58 à trente deux mots Ce registre 58 est commandé d'une manière circulante et il est piloté à la
fréquence d'horloge la plus grande, si bien qu'une circula-
tion complète des données du registre à décalage est réalisée pour chaque conversion analogique-numérique Un signal d'entrée dans le registre 58 est prélevé dans le registre 53 une fois par chaque cycle complet de circulation Un signal d'entrée du circuit multiplicateur 56 est prélevé directement dans
le registre 53 et l'autre signal d'entrée du circuit multi-
plicateur est prélevé (à une exception près indiquée dans la suite du présent mémoire) à la sortie actuelle du registre à décalage par t'intermédiaire d'un multiplexeur 59 Les
multiplications sont exécutées à la fréquence élevée d'horloge.
Ainsi, chaque valeur obtenue par conversion analogique-numérique est multipliée par chacune des trente et une valeurs précédentes de conversion Comme le notent les hommes du métier, les signaux ainsi créés équivalent à la multiplication du signal d'entrée par lui-m Mini, retarde dans le temps par trente deux temps élémentaires différents (l'un
ayant un retard nul) Le multiplexeur 59 provoque la multipli-
cation de la valeur actuelle du registre 53 par elle-même au moment o chaque nouvelle valeur est introduite dans le registre à décalage afin qu'il forme la corrélation avec un
retard zéro, c'est-à-dire l'énergie du signal Cette fonc-
tion de synchronisation est indiquée par la référence 60.
Comme le savent les hommes du métier, les produits d'une conversion unique avec ses 31 prédécesseurs,
ne constituent pas une représentation véritable de la répar-
tition d'énergie ou du spectre dans un intervalle raisonna-
ble d'échantillonnage L'appareil de la figure 2 forme donc
la moyenne de ces jeux de produits.
Une opération d'accumulation qui permet la réa-
lisation de la moyenne, est assurée par un registre à décalage 63 à trente deux mots qui est relié à un additionneur 65 afin qu'il forme un jeu de trente deux accumulateurs Ainsi, chaque mot peut circuler après avoir été ajouté à l'élément
correspondant provenant du circuit multiplicateur numérique.
La boucle de circulation passe dans une porte 67 qui est commandée par un circuit 69 de division par N piloté par le
signal d'horloge à basse fréquence Le circuit diviseur 69.
divise le signal d'horloge à basse fréquence par un facteur
qui détermine le nombre de fonctions instantanées d'auto-
corrélation qui sont cumulées avant formation de la moyenne
*avant lecture du registre 63.
Dans le mode de réalisation représenté, quatre vingts échantillons sont cumulés avant d'être lus En d'autres termes, le nombre N du circuit 69 est égal à quatre-vingts.
Après la corrélation et l'accumulation des quatre-vingts échantillons de conversion, le circuit 69 commande un circuit 71 d'interruption de l'ordinateur par une ligne 72 A ce moment, le contenu du registre 63 est successivement transmis à la
mémoire de l'ordinateur par un circuit convenable 73 de cou-
plage, les trente deux mots successifs du registre étant présentés suivant une séquence ordonnée à l'ordinateur par
le circuit 73 Comme le savent les hommes du métier, ce trans-
fert de données par un périphérique, c'est-à-dire le proces-
seur préalable d'autocorrélation, à l'ordinateur, peut être exécuté par exemple par une procédure d'accès direct à la mémoire A une fréquence initiale d'échantillonnage de 8000 échantillons par seconde, et d'après une moyenne sur
quatre-vingts échantillons, on note que 100 fonctions moyen-
nées d'autocorrélation sont transmises à l'ordinateur à cha-
que seconde.
Pendant que le contenu du registre à décalage
est transmis à l'ordinateur, la porte 67 est fermée de ma-
nière que chacun des mots du registre soit remis en fait à
zéro et permette à l'accumulation de recommencer.
L'opération mise en oeuvre par l'appareil de la figure 2 peut être représentée mathématiquement sous la
forme suivante.
On suppose que le convertisseur analogique-
numérique forme la série temporelle S(t) dans laquelle t = O, To, 2 To,, To étant l'intervalle d'échantillonnage (soit 1/8000 S dans le mode de réalisation considéréS), et le circuit numérique de corrélation représenté sur la figure 2 peut être considére comme calculant la fonction de corrélation a(j, t)= E S(t+k T o) S(t+(k-j) T o) ( 1) k=O (dans laquelle j = O, 1, 2,, 31 et t est égal à 80 T 0, T,, 80 N To,, si l'on néglige les ambiguïtés à la mise en route Ces fonctions d'autocorrélation correspondent aussi à des corrélations transmises par les lignes 19 de la
figure 1.
Sur la figure 3, le corrélateur numérique fonc-
tionne de façon continue et transmet à l'ordinateur une série
de blocs de données à raison d'une fonction complète d'auto-
corrélation toutes les 10 millisecondes La référence 77 (figure 3) représente cette opération Chaque bloc de données
-représente la fonction d'autocorrélation tirée d'un sous-
intervalle correspondant de temps Comme indiqué prdcédem-
ment, les fonctions d'autocorrdlation représentées sont transmises à l'ordinateur à raison de 100 fonctions de trente deux mots par seconde Cet intervalle d'analyse est appelé "trame" dans la suite du présent mémoire. Dans le premier mode de réalisation représenté, le traitement des données des fonctions d'autocorrélation est réalisé par un ordinateur spécialisé, programmé de façon convenable L'organigramme qui comprend la fonction assurée par le programme, est représenté sur la figure 3 Cependant, il faut noter que diverses opérations peuvent être exécutées par les circuits et non par un logiciel et que certaines fonctions exécutées par l'appareil de la figure 2 peuvent être exécutées par un logiciel, l'organigramme de la figure
3 étant modifié de manière correspondante.
Bien que le corrélateur numérique de la figure
2 forme la moyenne au cours du temps des fonctions d'auto-
corrélation créées d'une manière instantanée, les fonctions moyennes transmises à l'ordinateur peuvent encore contenir certaines irrégularités ou discontinuités anormales qui peuvent perturber le traitement et l'évaluation ordonnés
des échantillons Ainsi, chaque bloc de données, c'est-à-
dire chaque fonction d'autocorrélation a(j,t) est d'abord
lissée dans le temps La référence 78 indique cette opéra-
tion dans l'organigramme de la figure 3 L'opération de lis-
sage est de préférence telle que la fonction lissée a s(j,t) est as(j, t) = CO a(j,t) + C 1 a(j, t T) + C 2 a(j,t 2 T) ( 2) a(j,t) étant la fonction non lissée donnée par l'équation ( 1), as(j,t) étant la fonction lissée d'autocorrélation alors
que j désigne le retard temporel, t le temps réel et T l'in-
tervalle de temps séparant les fonctions consécutives d'auto-
corrélation (trames) cet intervalle étant égal à 0,01 seconde dans un mode de réalisation avantageux Les fonctions de pondération Co, C 1, C 2, sont de préférence choisies de manière
qu'elles correspondent à 1/4, 1/2, 1/4 dans le mode de réali-
tion considéré, bien que d'autres valeurs puissent être choisies.
Par exemple, une fonction de lissage correspondant sensible-
ment à une réponse impulsionnelle gaussienne à une fréquence de coupure de 20 Hz par exemple, peut être mise en oeuvre par le logiciel Cependant, les expériences montrent que la fonction de lissage représentée qui est facile à mettre en oeuvre comme l'indique l'équation ( 2) donne'des résultats satisfaisants Comme indiqué, la fonction de lissage est
exécuté e séparément pour chaque valeur j de retard.
La description qui suit montre que l'analyse
suivante implique diverses opérations sur le spectre d'énergie de Fourier de courte durée du signal de parole et, pour des
raisons de simplicité des circuits et de vitesse de traite-
ment, la transformation de la fonction d'autocorrélation dans le domaine de fréquence est exécutée arithmétiquement sur 8 bits dans le mode de réalisation représenté Dans la partie haute de la bande passante, près de 3 K Hz, la densité spectrale diminue à une valeur pour laquelle la résolution
ne convient pas sous forme de quantités à 8 bits En consé-
quence, la réponse en fréquence de l'ensemble est modifiée d'une manière croissante à raison de 6 d B par octave La référence 79 indique cette opération Cette accentuation des fréquences élevéesest réalisée à l'aide de la dérivée seconde de la fonction d'autocorrélation par rapport à son argument, c'est-à-dire au retard temporel L'opération de dérivation est b(j,t) = -a(j+l, t) + 2 a(j,t) a(j-l,t) ( 3) On suppose, pour l'évaluation de la dérivée pour j = 0, que la fonction d'autocorrélation est symétrique par rapport à 0, si bien que a(-j,t) = a(+j,t) En outre il n'y a pas de données pour a( 32), si bien que la dérivée pour j = 31
est égale à la dérivée pour j = 30.
Comme indiqué dans l'organigramme de la figure 3,
le pas suivant dans la procédure d'analyse, après l'accentua-
tion des fréquences élevées, est l'estimation de l'énergie du signal dans l'intervalle actuel de trame par détermination de la valeur absolue de crête de l'autocorrélation L'estimation de l'énergie P(t) est P(t) = max Ib(i,t)I ( 4) i
La fonction lissée d'autocorrélation est norma-
lisée par blocs par rapport à P(t)(pour 80) et les 8 bits les plus significatifs de chaque valeur normalisée sont
transmis au circuit d'analyse du spectre afin que l'auto-
corrélation soit préparée pour l'analyse du spectre avec bits La fonction normalisée (et lissée) d'autoccrrélation est donc c(j,t) = 127 b(j,t)/P(t) ( 5)
Comme indiqué par la référence 81, une transfor-
mation de Fourier du type cosinus est alors appliquée à cha-
que fonction d'autocorrélation lissée dans le temps, accentuée en fréquence et normalisée c(j,t) afin qu'un spectre d'énergie à 31 points soit formé La matrice des valeurs cosinus est donnée par (i,j) = 126 g(i) (cos ( 2 i/8000)f(j)), j = 0, 1, 2,, 31 ( 6) avec S(i,j) désignant l'énérgie spectrale dans une bande centrée à f(j) Hz, au temps t, et g(i) = ( 1 + cos 2 i/63) est l'enveloppe de la fonction fenêtre (de Hanning) afin que les lobes latéraux soient réduits, et f(j): 30 + 1000 ( 0,0552 j + 0,438) 1/0,63 Hz ( 7) j= 0, 1, 2,, 31 cette équation indiquant les fréquences d'analyse qui sont également réparties sur la courbe "mel" des sons musicaux
subjectifs On sait que ces fréquences correspondent à une-
hauteur subjective (échelle en mel) avec un espacement suivant l'axe des fréquences pour les fréquences qui se trouvent dans
la bande passante d'un exemple de canal de communication d'en-
viron 300 à 3500 Hz.
Comme l'analyse spectrale nécessite la somma-
tion sur des retards allant de -31 à + 31, dans l'hypothèse o l'autocorrélation est symétrique autour de zéro, seules les valeurs positives de j sont nécessaires Cependant, la matrice des signes est réglée de manière qu'elle évite le comptage en double du terme de retard zéro sous la forme S( 0,j) = 126/2 = 63, pour tous les j ( 8) Ainsi, le spectre calculé d'énergie est donné par -131 S'(jt) -E a(i,t) S (i,j), j = O, 1,, 31 ( 9) j=O le jième résultat correspondant à la fréquence f(j). On note ainsi que chaque point ou valeur, dans
chaque spectre, représente une bande correspondante de fré-
quences Bien que cette transformation de Fourier puisse être effectuée totalement dans les circuits classiques, l'opération
peut être considérablement accélérée par utilisation d'un dis-
positif périphérique externe formant un multiplicateur ou
un appareil de transformation rapide de Fourier La construc-
tion et le fonctionnement de tels circuits sont bien connus
et oar ne les décrit donc pas La fonction de lissage des fré-
quences est avantageusement incorporée à ce circuit périphé-
rique de transformation, chacun des spectres étant lissé en
fréquence d'après la fonction fenêtre avantageuse de pondéra-
tion g(i) indiquée précédemment (Hamming) L'opération est in-
diquée par la référence 83 du bloc 85 qui correspond à la
réalisation de la transformation de Fourier par des circuits.
Lorsque le bruit de fond est important, une esti-
mation du spectre d'énergie du bruit de fond doit être sous-
traite de S'(j,t) à ce moment La trame ou les trames choisies pour la représentation du bruit ne doivent pas contenir de signaux de parole La règle optimale pour la sélection des intervalles des trames de bruit varie avec l'application Si
la personne qui parle participe à une communication bidirec-
tionnelle par exemple avec une machine commandéepar l'appareil de reconnaissance de parole, il est par exemple commode de choisir une trame arbitrairement dans l'intervalle, juste après que la machine a fini de parler à l'aide de son ensemble de réponse vocale Dans des situations moins contraignantes, la trame de bruit peut être déterminée par sélection d'une trame d'amplitude minimale pendant la période d'une ou deux
secondes du signal acoustique reçu qui vient de s'écouler.
1 ')
Comme décrit plus en détail dans la suite du pré-
sent mémoire, l'utilisation du motif de "silence" d'amplitude minimale et en fait de deux motifs alternés de "silence",
permet un fonctionnement très avantageux de l'appareil.
Les spectres successifs lissés d'énergie sont
reçus à partir du dispositif périphérique 85 et une égalisa-
tion du canal de communication est obtenue par détermination d'une enveloppe du spectre d'énergie de crête (différent de façon générale) à partir des spectres du dispositif 85 et
par modification du signal de sortie de l'appareil de trans-
formation rapide de Fourier, comme décrit dans la suite du présent mémoire Chaque spectre d'amplitude de crête qui
vient d'être créé p (j, t) correspondant à un spectre d'éner-
gie reçu S'(j, t) et remis à jour par ce dernier, j dési-
gnant les différentes bandes de fréquence suspectes,est le rÉésultat d'une attaque rapide, d'une décroissance lente, d'une fonction de détection de crête pour chacune des bandes ou chacun des canaux du spectre Les spectres d'énergie ayant subi le traitement par la fonction fenêtre sont normalisés par rapport aux termes correspondants du spectre respectif
d'amplitudede crête comme l'indique la référence 87.
Dans le'mode de réalisation représenté, les valeursde l'"ancien" spectre d'amplitude de crête p(j, t T) déterminées avant réception d'un nouveau spectre traité, sont comparées sur une bande de fréquence et pour chaque bande de fréquence avec le nouveau spectre reçu 5 '(j, t) Le nouveau spectre de crête p(j,t) est alors formé d'après les règles suivantes L'amplitude de l'énergie dans chaque bande pour le
spectre ancien est multipliée par une fraction fixe, par exem-
ple 1023/1024 dans l'exemple considéré Ceci correspond à la partie de décroissance lente de la fonction de détection de crête Si l'amplitude d'énergie dans la bande j du spectre S'(j,t) est supérieure à l'amplitude de l'énergie dans la bande correspondante de fréquence du spectre décroissant, la valeur du spectre décroissant pour cette bande de fréquence (ou plusieurs) est remplacée par la valeur du spectre de la bande correspondante du spectre traité reçu Ceci correspond
à l'attaque rapide de la fonction de détection de crête.
Mathématiquement, la fonction de détection de crête peut être représentée sous la forme p(j,t) = max p(j,t-T) ( 1-E); P(t) S'(j,t) j=D, 1,,31 ( 10) dans laquelle j désigne chacune des bandes de fréquence, p(j,t) représente le spectre de crête résultant, p(j, t-T) le spectre ancien ou antérieur, S'(j,t) le nouveau spectre partiellement traité, P(t) l'estimation d'énergie au temps t et E le paramètre de décroissance.
Selon l'équation ( 10), le spectre de crête dé-
croit normalement, à part une plus grande valeur d'entrée du
spectre, d'un facteur 1 E Par exemple, E est égal à 1/1024.
Cependant, il peut ne pas être souhaitable que le spectre diminue pendant les intervalles de silence, surtout si on ne prévoit aucun changement rapide des caractéristiques vocales ou du canal On peut utiliser la méthode déjà utilisée pour la sélection des trames du bruit de fond pour déterminer la trame de silence Les amplitudes (racine carrée de P(t)> des 128 trames passées sont inspectées et la valeur minimale
est déterminée Si l'amplitude de la trame en cours est infé-
rieure à quatre fois cette valeur minimale, la trame en
cours est déterminée comme représentant un silence et la va-
leur "zéro" remplace E qui est égale à 1/1024.
Après formation du spectre de crête, le spectre résultant p(jt) subit un lissage en fréquence comme indiqué par la référence 89 par formation de la moyenne des valeurs de crête de la bande de fréquence, les valeurs de crtte
correspondant aux fréquences adjacentes des spectres nouvel-
lement créés, la largeur de la bande globale de fréquence contribuant à la valeur moyenne étant à peu près égale à la
séparation des fréquences entre les fréquences des formants.
Comme le savent les spécialistes en reconnaissance de parole, la séparation est de l'ordre de 1000 Hz environ La formation de la moyenne de cette manière conserve l'information utile des spectres, c'est-à-dire des variations locales indiquant les résonances des formants alors que l'accentuation globale
du spectre de fréquence est supprimée Dans un mode de réalisa-
tion avantageux, le spectre de crête est lissé par rapport à la fréquence à l'aide d'une fonction moyenne mobile recouvrant cette bande adjacente de fréquence La fonction de formation de moyenne est j+ 3 e(j,t) = h(j) E p(k,t) ( 1 k =j-3 Aux extrémités de la bande passante, p(k,t) est rendu égal à O pour k inférieur à O et k supérieur à 31 L'enveloppe
de normalisation h(j) tient compte du nombre d'éléments va-
lables de données réellement additionnées et on a ainsi h(O) = 7/4, h(l) = 7/5, h( 2) = 7/6, h( 3) = 1, h( 28) = 1, h( 29) = 7/6, h( 30) = 7/5, et h( 31) = 7/4 Le spectre lisse résultant e(j,t) est alors utilisé pour la normalisation et l'égalisation des fréquerces du spectre d'énergie qui vient d'être reçu S'(j,t) par division de l'amplitude de chaque
bande de fréquence du spectre lissé reçu S'(j,t) par la va-
leur correspondante de la bande de fréquence du spectre lis-
sé de crête e(j,t) Mathématiquement, l'opération est sn(j,t) (S'(j,t) / e(j,t)) 32767 ( 12) sn (j,t) étant le spectre lissé et normalisé et j désignant toutes les bandes de fréquence Cette opération est repérée
par la référence 91 Il se forme ainsi une séquence de spec-
-20 tre d'énergie égalisée en fréquence et normalisée, de courte durée et qui accentue les variations du contenu en fréquence des signaux acoustiques reçus tout en supprimant la distorsion ou l'accentuation généralisée des fréquences sur une grande durée Ce procédé de compensation des fréquences est très avantageux pour la reconnaissance des signaux de paroles transmis par des liaisons de communication qui déforment les fréquences telles que les lignes téléphoniques, par rapport aux systèmes plus courants de compensation dans lesquels
l'opération repose sur le niveau moyen en énergie soit du si-
gnal global, soit dans chaque bande de fréquence.
Il est utile de noter que, bien que les spectres successifs soient traités et égalisés de diverses manières,
les données représentant les signaux acoustiques reçus compren-
nent encore des spectres qui ont une fréquence de 100 par
seconde.
Les spectres normalisés et égalisés en fréquence 91 subissent une transformation d'amplitude 93 qui provoque un
changement d'échelle non linéaire des amplitudes spectrales.
Si l'on appelle S n(j,t) (de l'équation 12) les spectres égali-
sés et normalisés individuels, j correspondant aux différen-
tes bandes de fréquence du spectre et t le temps réel, le spectre non linéaire décalé x(j,t) est déterminé par la fonction linéaire sous forme d'une fraction x(j,t) = 128 5 (jt) A j-d O, 1,, 30 ( 13) sn(j,t) + A A étant la valeur moyenne du spectre sn(j,t) pour j= O à j= 31 et étant déterminée sous la forme A = 1 31 sn(j t) ( 14) 32 j=O j désignant toutes les bandes dé fréquence du spectre
d'énergie.
Le trente et unième terme du spectre est rempla-
cé par le logarithme de A si bien que l'on a x( 31,t) = 16 log 2 A ( 15) La fonction de décalage de l'équation 13 donne un effet de seuil peu accentué et de saturation progressive
des intensités spectrales qui s'écartent beaucoup de la moyen-
ne A de courte durée Mathématiquement, pour les intensités proches de la moyenne, la fonction est à peu près linéaire alors que, pour les intensités plus éloignées, la variation est presque logarithmique et, pour les valeurs extrêmes de l'intensité, la valeur est pratiquement constante Sous une forme logarithmique, la fonction x(j,t) est symétrique par rapport à zéro et elle présente un seuil et un phénomène de saturation qui suggèrent la fonction d'excitation du nerf
auditif En pratique, l'ensemble de reconnaissance a un fonc-
tionnement meilleur avec cette fonction non linéaire d'échelle qu'avec une fonction linéaire ou logarithmique des amplitudes spectrales. Une séquence de spectres d'énergie de courte
durée, d'amplitude transformée, égalisés en fréquence et nor-
malisés x(j,t) est ainsi formée, t étant égal à 0,01, 0,02, 0,03,,seconde et j étant égal à 0,, 30 (correspondant
aux bandes de fréquence des spectres formés d'énergie).
Trente deux mots sont formés pour chaque spectre et la valeur
de A <équation 15), c'est-à-dire la valeur moyenne des spec-
tres, est conservée comme trente-deuxième mot Les spectres transformés appelés "trames" sont conservés comme indiqué
en 95 dans une mémoire circulant du type premier entré-
premier sorti ayant une capacité de mémoire de 256 spectres
de trente-deux mots dans le mode de réalisation considéré.
2,56 secondes du signal acoustique reçu peuvent donc être
analysées dans ce mode de réalisation Cette capacité de mé-
moire donne à l'ensemble de reconnaissance une souplesse permettant le cas échéant la sélection de spectres à des temps réels différents, en vue de leur analyse et de leur évaluation, si bien que l'analyse peut aller vers l'avant ou
vers l'arrière dans le temps, le cas échéant.
Ainsi,'les trames des 2,56 dernières secondes sont conservées dans la mémoire circulante et disponibles à volonté Lors du fonctionnement, chaque trame est conservée pendant 2,56 secondes Ainsi, une trame qui pénètre au temps t 1 dans la mémoire circulante, est décalée ou perdue pour la mémoire 2,56-secondes plus tard lorsqu'une nouvelle trame
correspondant au temps t 1 + 2,56 secondes est conservée.
Les trames circulant dans la mémoire sont compa-
rées de préférence en temps réel à un vocabulaire connu de mots afin que les données soient déterminées et identifiées dans des groupes de mots formant une "file"de mots Chaque
mot du vocabulaire est représenté par un motif matr-ice repré-
sentant statistiquement plusieurs spectres traités d'énergie
formant plusieurs motifs à plusieurs trames (trois de préfé-
rence) qui ne se recouvrent pas Ces motifs sont de préféren-
ce choisis afin qu'ils représentent au mieux les événements acoustiques significatifs des mots du vocabulaire et ils suont
conservés comme indiqué par la référence lot).
Les spectres formant les motifs l't Jn jeu de dessins sont créés à partir des mots prononcés dans différents contextes
avec l'appareil décrit précédemment afin que la parole incon-
nue et continue parvenant par la ligne 10 comme représenté sur F
la figure 1, puisse être traitée.
Ainsi, chaque mot de vocabulaire est associé à plusieurs séquences de motifs d'un jeu de dessins P(i)l,
P(i)2,, qui représentent dans un domaine de spectres d'éner-
gie de courte durée, une désignation de ce iième mot-clé.
La collection des motifs du jeu de dessins pour chaque mot-
clé forme là base statistique de la création des motifs objets.
Dans ce mode de réalisation les motifs du jeu de dessins P(i) peuvent être considérés chacun comme un arrangement à 96 éléments comprenant trois trames choisies
placées en série Les trames du motif sont de préférence sé-
parées d'au moins 30 millisecondes afin qu'une corrélation parasite ne puisse pas être due au lissage des domaines Dans
d'autres modes de réalisation, d'autres stratégies d'échan-
tillonnage peuvent etre utilisées pour la sélection des tra-
mes; cependant, la stratégie la plus avantageuse est la
sélection de trames séparées par un temps constant de 30 mil-
lisecondes par exemple, et l'espacement des motifs de jeux de dessins qui ne se recouvrent pas dans l'intervalle de temps formant le mot-clé Ainsi, un premier motif Pl correspond à une partie d'un mot-clé près du début, un second P 2 dans une partie ultérieure, etc, et les motifs P 1, P forment la base statistique de la série de motifs objets, la matrice de mot par rapport à laquelle les données acoustiques reçues sont
adaptées Les motifs t 1 i t 2 p Ont chacun des données statisti-
ques créées à partir des valeurs P(i) correspondantes, dans l'hypothèse o ces dernières sont formées d-e variables
laplaciennes indépendantes permettant la création d'une statis-
tique-de vraisemblance entre les trames reçues, comme indi-
qué précédemment, et les motifs objets Ainsi, ces derniers forme-nt un arrangement dans lequel les entrées comportent la
moyenne, l'écart type et le facteur de normalisation en sur-
face de la collection correspondante d'entrée dans l'arran-
gement de motifs On décrit dans la suite du présent mémoire
une statistique de vraisemblance qui est plus élaborée.
Les hommes du métier peuvent noter que pratique-
ment tous les mots ont plus d'une prononciation dépendant du
contexte et/ou de la région et peuvent donc être "émis" sui-
vant plusieurs motifs Ainsi, un mot du vocabulaire prononcé sous la forme P 1, P 2 comme indiqué précédemment, peut en réalité être exprimé sous la forme générale p(i)1, p(i)2, i 1, 2,, M dans laquelle chaque terme p(i) j constitue
une description possible de la jièmie classe de motifs d'un
jeu de dessins, avec au total M prononciations différentes
du mot.
Les motifs objets t 1, t 2, ti représentent donc, sous la forme la plus générale, plusieurs prononciations statistiques différentes pour le iième groupe de motifs ou
la iième classe de motifs Dans le mode de réalisation con-
sidéré, l'expression "motif objet" est ainsi utilisée dans le sens le plus général et chaque motif objet peut donc
avoir plusieurs "prononciations statistiques".
Le traitement préalable des signaux acoustiques inconnus reçus et la formation des motifs de référence sont
alors terminés.
Traitement des spectres mémorisés Une étude plus profonde de la reconnaissance de mots-clés par des motifs phonétiques chaînés dans des mots détectés, comme décrit dans les brevets précités des Etats-Unis d'Amérique N O S 4 241 329, 4 227 176 et 4 227 177, a montré qu'il s'agit d'un cas particulier d'un procédé plus général et sans doute meilleur de reconnaissance Comme l'indique la figure 4, la recherche de reconnaissance des
mots peut être représentée sous forme du problème de la dé-
couverte d'un trajet convenable dans un espace d'états abstrait.
Sur la figure, chaque cercle représente un état possible, qu'on peut aussi considérer comme une position pendant un temps
d'arrêt ou un registre, et le processus de décision doit pas-
ser Daf ces états L'espace compris entre les traits verticaux
, 122 représente chacun des états hypothétiques par les-
quels le processus de décision peut passer pour la détermi-
nation de l'accord ou non d'un motif avec un phonème actuel.
Cet espace est divisé en une partie nécessaire d'arrêt 124 et une partie éventuelle d'arrêt 126 La partie d'arrêt nécessaire et la durée minimale du motif ou phonème "actuel" particulier La partie éventuelle représente la durée maximale supplémentaire d'un motif Chaque cercle des parties d'arrêt
représente la durée d'une trame du continuum des trames for-
mées et correspond à des intervalles de 0,01 seconde, d'une trame à l'autre Ainsi, chaque cercle identifie une position hypothétique phonétique actuelle dans la prononciation d'un mot et, avec le nombre de trames de 0,01 seconde supposé écoulé depuis le début du phonème actuel, correspondant au nombre de cercles ou position antérieure dans ce phonème ou motif objet, représente la durée actuelle du motif Après le début d'un motif (phonème) et l'écoulement de l'intervalle minimal d'arrêt, plusieurs trajets d'avance vers le premier noeud ou la première position 128 (cercle) du motif objet
suivant (phonème) sont possibles Le trajet dépend de la dé-
cision d'atteindre le motif suivant (phonème) qui est prononcé.
Ces possibilités de décision sont représentées sur la figure par plusieurs flèches parvenant au cercle 128 Une transition vers le motif suivant (phonème) dont le début est représenté par le cercle 128, peut commencer à un noeud ou une position quelconque pendant le temps éventuel d'arrêt du motif en cours (phonème) ou au dernier noeud de l'intervalle d'arrêt nécessaire.
Le procédé de reconnaissance de mots-clés dé- crit dans les brevets précités des Etats-Unis d'Amérique nas 4 241 329, 4
227 176 et 4 227 177 détermine la transition au premier noeud pour lequel la cote de vraisemblance par rapport au motif suivant (phonème) est supérieure à la cote de vraisemblance du motif actuel (phonème) Ainsi, une trame
correspond au phonème suivant mieux qu'au phonème actuel.
La cote totale du mot est cependant la moyenne des cotes des motifs par trame (c'est-à-dire par noeud compris dans le trajet) Cette même définition de la "cote totale" appliquée à une cote de mots jusqu'au noeud actuel peut être utilisée pour décider le moment de la transition, c'est à-dire que la transition au motif suivant a lieu à la première opportunité, correspondant par exemple à une ligne 130 de transition, ou à un moment ultérieur correspondant par exemple à une ligne 132 de transition Le trajet optimal est choisi vers le motif ou phonème suivant pour lequel la cote moyenne par noeud est la meilleure Comme le procédé de traitement de mots-clés décrit dans les brevets précités des Etats- Unis d'Amérique n'examine pas les trajets potentiels après la décision de passer aux motifs suivants, il peut prendre une
décision qui n'est pas optimale, comme l'indique la cote moyen-
ne par noeud.
Ainsi, l'invention met en oeuvre une stratégie
de détermination d'une cote moyenne par noeud pour la recon-
naissance de mots-clés Lors de l'utilisation d'une reconnais-
sance de files de mots comme décrit en détail dans la suite du présent mémoire, un problème se pose car on doit normaliser tous les scores partiels des mots par le nombre de noeuds incorporés, selon un procédé de calcul peu efficace, ou on
doit modifier l'accumulation afin qu'une normalisation expli-
cite ne soit pas indispensable Une modification naturelle
à utiliser dans le cas d'un vocabulaire fermé est l'utilisa-
tion de la cote non normalisée pour le mot le meilleur se ter-
minant au moment actuel de l'analyse, et les cotes accumulées à tous les noeuds sont toujours la somme d'un même nombre de
cotes de motifs élémentaires En outre, la cote est transfor-
mée, par cette modification, en cote de la meilleure file de
mots aboutissant au noeud actuel d'analyse.
Cette stratégie de décision d'après la cote
moyenne par noeud est efficacement mise en oeuvre par le pro-
cesseur vectoriel décrit dans le brevet précité des Etats-Unis
d'Amérique NO 4 228 498, à l'aide d'une technique de program-
mation dynamique Lors de l'utilisation d'une telle programma-
tion, la vitesse de traitement est quelque peu supérieure à celle du procédé classique de reconnaissance de mots-clés décrit dans les brevets des Etats-Unis d'Amérique précités NOS 4 241 329, 4 227 176 et 4 227 177, bien que plus de tests
soient nécessaires en fonction des hypothèses.
* De façon générale, lors de la reconnaissance de files de mots, le programme se rappelle le nom du meilleur
mot supposé de vocabulaire aboutissant à chaque noeud d'ana-
lyse Il se rappelle aussi le noeud (temps) auquel commence
le meilleur mot La meilleure file de mots est alors déter-
minée par retour depuis l'extrémité de l'émission sonore, le nom du mot mémorisé étant noté et le mot précédent étant
déterminé au moment indiqué pour le début du mot actuel.
L'incorporation du silence comme mot de vocabu-
laire ne nécessite pas la spécification du nombre de mots
contenu dans la file de mots L'opération de retour permet-
tant la détermination de la file est exécutée chaque fois que le mot de silence a la cote de mot la plus élevée, et l'opération se termine au silence détecté suivant Ainsi,
une file est déterminée chaque fois que la personne qui par-
le s'arrête pour reprendre sa respiration.
Le procédé de reconnaissance de files de mots
décrit dans le présent mémoire correspond à un niveau d'abstrac-
tion supérieure à la détection des mots-clés individuels.
Comme la formation des cotes des files de mots nécessite lin-
corporation de toutes les paroles de l'émission sonore dans
un mot ou un autre de la file, le procédé présente un avanta-
ge par rapport au procédé plus simple de découverte d'un mot quti détecte souvent des mots erronés dans des mots plus longs.
Aucun diagramme de synchronisation n'est avanta-
geusement nécessaire dans le cas des files de mots, puisque le circuit de chaînage des mots transmet un temps de début de mot pour chaque hypothèse de fin de mot Le circuit le
plus simple de chaînage de file suppose que ces temps de dé-
but de mot sont convenables Lors de la détection d'un silence, il suppose que la file de mots vient juste de se terminer
et que le début du dernier mot constitue la fin du mot pré-
cèdent (qui peut être un silence) Il est alors simple de revenir en arrière dans toute la file, en sélectionnant le mot ayant la meilleure cote finale à chaque limite de mot Comme il existe habituellement une transition qui dépend du contexte entre chaque paire de mots de la file, il peut être préférable de permettre à l'appareil de rechercher le voisinage de chaque
début de mot pour la meilleure fin du mot précédent.
On considère maintenant plus en détail le procédé et l'appareil selon l'invention, sous forme de matériel et
de logiciel.
Comme l'indique la figure 3, les spectres ou tra-
mes mémorisés en 95, représentant les données acoustiques con-
tinues reçues, sont comparés à la matrice mémorisée des
motifs objets an 96, représentant les mots-clés du vocabu-
laire, par mise en oeuvre du procédé suivant.
Pour chaque trame de 10 milliseconde S,un motif des-
tiné à être comparé aux motifs mémorisés de référence est formé comme indiqué par la référence 97, par association du vecteur s(j,t) du spectre actuel, du spectre s(j,t -0,03) antérieur de trois trames, et du spectre s(j,t-O,06) antérieur de six trames, afin que l'ensemble constitue un motif à 96 éléments: ( s(j,t-0,06), j: 0,,31 x(j,t) = ( s(j-32,t-0,03), j= 32,,63 ( s(j-64,t), j= 64,,95 Comme indiqué précédemment, les motifs mémorisés
de référence sont formés des valeurs moyennes, des écarts-
types, et des termes de normalisation des surfaces des
motifs à 96 éléments collectés antérieurement et apparte-
nant aux diverses classes de motifs de parole à reconnaltre.
La comparaison est réalisée à l'aide d'un modèle de probabi-
lité des valeurs x(j,t) prévues et la parole reçue appartient
à une classe particulière.
Bien qu'on puisse utiliser une distribution gaussienne comme modèle de probabilité (selon les brevets des Etats-Unis d'Amérique précités N s 4 241 329, 4 227 176 et 4 227 177), une distribution de Laplace p(x) = (i 12 s') exp-( { 2 x-ml /S')
(dans laquelle m désigne la moyenne statistique et s' l'écart-
type de la variable x) nécessite moins de calcul et on constate qu'elle a des résultats presque aussi bons qu'une répartition gaussienne par exemple dans le cas du procédé de reconnaissance de mots isolés avec indépendance par rapport à la personne qui parle, décrit dans le brevet des Etats-Unis d'Amérique N 4 038 503 Le degré de similitude L(x| k) entre un motif inconnu reçu x et le kième motif mémorisé de référence est
proportionnel au logarithme de la probabilité et on l'esti-
me à 100 par la formule suivante: 96 |xi Uik I L(x k) = +Ak ( 17) i=l s' ik avec 2 96 Ak -= Log s' ik 2 i:l La cote L(x Ik) pour chaque trame est réglée par soustraction de la meilleure cote (la plus petite) de tous les motifs de référence pour cette trame afin de combiner les cotes de vraisemblance t d'une séquence de motifs et de former la cote de vraisemblance d'un mot ou d'une phrase énoncée, de la manière suivante: L'(x 1 k) = L(x k) minil(x x i) ( 18) Ainsi, le motif qui s'adapte le mieux à chaque
trame a une cote égale à zéro Les cotes réqgées correspon-
dant à une séquence supposée de motifs de t'éférence peuvent
être cumulées d'une trame à la suivante afin qu'elles for-
ment une cote de séquence directement reliée à la probabilité pour qu'une décision en faveur de la séquence indiquée
soit une décision convenable.
La comparaison des motifs du spectre inconnu
d'entrée à des motifs connus mémorisés est réalisée par cal-
cul de la fonction q = E " ik l xi Uikl + ck ( 19) i=l (dans laquelle sik est égal à 1/s'ik) pour le kième motif de référence Dans un calcul normal par logiciel, les instructions
suivantes sont exécutées pour le calcul de la fonction algé-
brique S I x-u (de l'équation 19): 1 calculer x-u 2 vérifier le signe de x-u 3 si ce signe est négatif, changer le signe afin de former la valeur absolue 4 multiplier par s ajouter le résultat dans un accumulateur. Dans un exemple d'ensemble de reconnaissance de parole ayant un vocabulaire de 20 mots, il y aurait environ 222 motifs différents de référence Le nombre de pas nécessaires pour leur évaluation est alors égal à 5 x 96 x 222 = 106560, non comprises les opérations d'en-tête, et ces pas doivent être exécutés en moins de 10 millisecondes afin que la fréquence
de trame du spectre en temps réel soit respectée Le proces-
seur doit donc pouvoir exécuter près de 11 millions d'instruc-
tions par seconde afin d'évaluer uniquement les fonctions de vraisemblance Etant donné la vitesse nécessaire, un module spécialisé 200 de calcul de fonction de vraisemblance
(figure 4), compatible au processeur vectoriel tel que dé-
crit dans le brevet des Etats-Unis d'Amérique No 4 228 498,
est utilisé.
Dans ce circuit spécialisé, les cinq premières
opérations indiquées précédemment sont exécutées simultané-
ment avec deux jeux des arguments s, x, u, si bien que, en fait, dix instructions sont exécutées pendant le temps
qu'il faut normalement pour l'exécution d'une seule instruc-
tion Comme le processeur vectoriel fondamental fonctionne à une fréquence de 8 millions d'instructions par seconde,
la fréquence efficace de calcul de la fonction de vraisemblan-
ce devient de l'ordre de 80 millions d'instructions par se-
conde lors de l'utilisation du module spécialisé 200.
Le module spécialisé 200, comme indiqué sur la figure 5, comprend une combinaison de traitement en parallèle et par circulation permettant l'exécution simultanée des dix pas Deux parties identiques 202, 204 exécutent chacune cinq pas arithmétiques sur ces arguments indépendants des données reçues et les deux résultats sont combinés dans un additionneur 206 relié à leurs sorties L'accumulation des résultats de l'additionneur 206 forme la somme de 1 à 96 de l'équation 19 et elle est traitée par l'ensemble arithmétique
du processeur vectoriel décrit dans le brevet des Etats-
Unis d'Amérique NO 4 288 498.
Lors du fonctionnement, les registres de traite-
ment par circulation contiennent les données intermédiaires auxstades suivants du traitement: 1 arguments reçus (registres 208, 210, 212, 211 , 216 218 commandés par les signaux d'horloge) 2 valeur absolue de x-u (registres 220 et 222 commandés par les signaux d'horloge) 3 sortie du circuit multiplicateur (registres
224, 226 commandés par les signaux d'horloge).
Les données reçues étant contenues dans les regis-
tres 208 à 218, l'amplitude de x-u est déterminée par les circuits 228, 230 de soustraction et de détermination de la valeur absolue Comme l'indique la figure 6, ces circuits 228, 230 contiennent chacun un premier et un second circuits 232, 234 de soustraction, l'un destiné à déterminer x-u et
l'autre u-x, et un multiplexeur 236 qui sélectionne le résul-
tat positif Les arguments x et u transmis par les lignes 238, 240 provenant des registres 208, 210, sont des nombres à 8 bits allant de 128 à + 127 Comme le signal différence du circuit de soustraction à 8 bits peut déborder à 9 bits (par exemple 127 -(-128) = 255), un circuit supplémentaire est
nécessaire pour le cas du débordement arithmétique (La condi-
tion est déterminée par un détecteur 235 de débordement dont les signaux de sortie sont le signe de "x"(par une ligne 235 a), le signe de "u" (par une ligne 235 b) et le signe de "x-u"
(par une ligne 235 c)).
Les détecteurs de débordement, représentés sur la figure 7, sont, dans ce mode de réalisation, les circuits
combinatoires comprenant des portes ET 268, 270 à trois en-
trées et une porte OU 272 La table de vérité de la figure 8 détermine la condition de débordement en fonction de ses signaux
d'entrée.
La condition de débordement est respectée par les quatre possibilités du multiplexeur 236 qui sélectionne le signal positif de sortie du circuit de soustraction Les choix sont déterminés par les niveaux des signaux binaires des lignes 242 et 244 Le niveau du signal de la ligne 242 représente le signe de x-u Le signe du signal de la ligne 244 représente un débordement lorsqu'il s'agit d'un signal " 1 ". Ainsi, les possibilités de sélection sont les suivantes Ligne 242 Ligne 244 0 O choix du circuit 232 1 O choix du circuit 234 O 1 choix du circuit 232 décalé d'un bit
1 1 choix du circuit 234 décalé d'un bit.
Le multiplexeur est ainsi commandé afin qu'il joue le rôle d'un commutateur électrique à huit poles et quatre positions L'opération de "décalage" est réalisée dé façon combinatoire par connexion des signaux de sortie des circuits de soustraction (par des portes) aux entrées
convenables du multiplexeur Le décalage a pour effet d'ef-
fectuer une division arithmétique par deux.
En cas de débordement pendant la soustraction, le signal de sortie du multiplexeur est celui d'un circuit de soustraction divisé par deux Il faut donc se rappeler cette condition ultérieurement dans le calcul afin que le résultat
final puisse etre multiplié par deux et que le facteur compta-
ble d'échelle soit rétabli Ce rétablissement s'effectue
à la sortie du circuit multiplicateur, après le registre fi-
nal de circulation En conséquence, un bit supplémentaire est transmis dans les registres 220, 222, 224, 226 afin qu'ils commandent des seconds multiplexeurs 248, 250 qui décalent respectivement le produit de la multiplication formée par un multiplexeur 252, 254 à 8 x 8 bits, d'un bit vers le haut, afin d'assurer une multiplication par deux, chaque fois que le bit de débordement est établi (est égal à " 1 " 1) La
multiplication arithmétique est réalisée dans un circuit in-
tégré classique, par exemple du type MPY-8-HJ de TRW, qui
peut recevoir deux nombres à 8 bits et transmettre leur produit.
Les circuits multiplicateurs 252, 254 forment ainsi le produit de S et lxu l à chaque impulsion d'horloge
2520913
(la valeur de S étant convenablement synchronisée par les registres supplémentaires de données 256, 258) Les signaux de sortie des circuits multiplicateurs 252, 254 sont transmis dans des registres tampons 224, 226 et ils parviennent aux circuits restants par les lignes 260 et 262 et par l'inter-
médiaire de l'additionneur 206.
Le module spécialisé 200 est aussi utilisé pour le calcul du produit interne de deux vecteurs, nécessaire dans une multiplication matricielle L'opération est réalisée par commande de circuits 264, 266 qui permettent le passage
en dérivation des éléments 228, 230, dans le circuit de sous-
traction et de détermination de valeur absolue Dans ce mode de fonctionnement, les lignes communes d'entrée de données x et S transmettent directement leurs signaux aux registres
220, 222, formant les signaux d'entrée du circuit multiplica-
teur. Alignement des motifs de niveau de mot
Une opération de programmation dynamique (repé-
rée par la référence 101) est de préférence utilisée pour l'op-
timisation de la correspondance entre la parole reçue inconnue et chaque matrice de mot du vocabulaire Chaque matrice de mot comprend non seulement la séquence des éléments statistiques de motifs de référence indiqués précédemment, mais aussi un temps d'arrêt minimal et maximal associe à chaque motif de référence Selon cette programmation dynamique, un jeu de
registres de mémoire est utilisé pour chaque mot de vocabulaire.
Le nombre de registres est égal à la somme des temps maximaux d'arrêt des dessins de référence formant ce mot, c'est-à-dire qu'il est proportionnel à la plus grande durée permise pour un mot Ces registres correspondent aux cercles de la figure 4
à raison d'un registre par cercle.
Pour chaque trame des paroles reçues, une lecture et une écriture sont réalisées dans chaque registre Chaque registre contient, comme décrit en détail dans la suite du présent mémoire, la cote cumulée de vraisemblance correspondant à l'hypothèse selon laquelle le mot indiqué de vocabulaire est prononcé et la position actuelle dans le mot correspond
au motif particulier de référence et au temps d'arrêt asso-
cié à ce registre Tous les registres sont initialisés afin qu'ils contiennent les mauvaises cotes de vraisemblance
indiquant que, initialement, aucune des hypothèses représen-
tées ne risque d'être acceptable. Les règles de remise à jour des registres sont les suivantes Le premier registre de chaque matrice de mot (c'est-à-dire le registre correspondant à l'hypothèse selon laquelle le mot commence juste à être prononcé) contient la somme d'une part de la cote de vraisemblance de la trame actuelle par rapport au premier motif de référence du mot, et d'autre part de la meilleure cote de tous les derniers registres de tous les mots de vocabulaire (c'est-à-dire la cote cumulée de vraisemblance dans l'hypothèse o un mot
a été terminé à la trame précédente).
Le second registre d'une matrice de mot contient la somme d'une part de la cote de vraisemblance de la trame actuelle par rapport au premier motif de référence du mot et d'autre part, du contenu du premier registre pour la trame précédente Ainsi, le second registre contient la cote del'hypothèse selon laquelle le mot indiqué est en cours de
prononciation et commence à la trame précédente.
Pendant l'opération de remise à jour des registres correspondant à des temps d'arrêt compris entre la durée minimale et la durée maximale (intervalles d'arrêt éventuels), un registre séparé de mémoire est utilisé afin qu'il conserve la meilleure cote cumulée de vraisemblance (contenu du registre)
dans les registres correspondant à l'intervalle d'arrêt éven-
tuel pour chaque "trame actuelle" successive Cette meilleure cote, déterminée pendant la durée de la trame précédente,
est utilisée pour le calcul du contenu suivant du premier re-
gistre correspondant à l'intervalle d'arrêt nécessaire d'une matrice ou d'un motif objet suivant pour ce mot Ainsi, le
contenu actuel du premier registre du motif suivant de réfé-
rence est formé par addition de la meilleure cote (du motif objet précédent) à la cote de vraisemblance de la trame actuelle
reçue par rapport au motif objet ou de référence suivant.
Sur la figure 4, les flèches multiples parvenant au premier registre 128 de l'intervalle d'arrêt nécessaire d'un motif de référence indiquent que la transition de l'état ou registre éventuel à l'état ou registre d'arrêt nécessaire peut avoir lieu à tout moment pendant l'intervalle d'arrêt éventuel ou à partir du dernier registre de l'intervalle d'arrêt nécessaire Ainsi, d'après l'information actuelle, la meilleure correspondance entre une matrice de mot et les
motifs reçus est celle selon laquelle, lorsque le motif sui-
vant commence juste, le motif antérieur a eu une durée cor-
respondant au registre contenant la meilleure cote dans l'in-
tervalle d'arrêt éventuel précédent (additionné du dernier registre de l'intervalle nécessaire précédent, c'est-à-dire le registre 300 dans le mode de réalisation considéré) Suivant
la théorie de la programmation dynamique, il n'est pas né-
cessaire de conserver les cotes cumulées précédemment et cor-
respondant à tous les temps d'arrêt possibles puisque, selon cette théorie, toute transition de temps d'arrêt qui donne une cote moins bonne continue à donner des cotes moins bonnes
dans tous les stades ultérieurs du traitement.
L'analyse se poursuit de la manière décrite à l'aide de tous les registres de tous les motifs de référence de toutes les matrices de mots Le ou les derniers registres du dernier motif de chaque matrice de mot contient la cote
de l'hypothèse selon laquelle le mot vient juste de se terminer.
Pendant l'accumulation des cotes de vraisemblance, une séquence de nombres de durée est conservée afin qu'elle
permette la détermination de la durée du meilleur mot se termi-
narnt au moment de chaque trame Le nombre commence à "un" dans le premier registre du premier motif de matrice du mot Pour le second registre et chacun des suivants, dans le cas d'un motif matrice, le nombre associé au registre précédent est
augmenté d'une unité Cependant, pour chaque registre corres-
pondant au début d'un motif de référence (autre que le premier
motif de référence d'un mot), c'est-à-dire par exemple le pre-
mier registre 128 de l'intervalle nécessaire d'arrêt, c'est le nombre du registre d'arrêt éventuel (ou du dernier registre d'arrêt nécessaire) du motif précédent de référence, ayant la meilleure cote de vraisemblance pendant la durée de la trame précédente, qui progresse et forme le nombre représentatif
de la durée pour ce registre.
Un mécanisme de retour tel que décrit plus en détail dans la suite du présent mémoire est mis en oeuvre,
pendant la durée de chaque trame, par transfert de l'identi-
fication du mot donnant le meilleur score, se terminant à
ce moment et de sa durée à une mémoire tampon circulante.
Lorsqu'une séquence de mots se termine, les durées des mots mémorisés permettent un retour depuis l'extrémité du dernier
"meilleur mot" par l'intermédiaire de sa durée, jusqu'au meil-
leur mot précédent se terminant juste avant le "dernier mot",
etc, jusqu'à ce que tous les mots de la file aient été iden-
tifiés.
Des files de mots de vocabulaire émis de façon continue sont limitées par le silence A cet égard, le "silence" joue le rôle d'un mot de commande qui délimite l'étendue des "mots de vocabulaire", l'ensemble étant sensible au silence et le reconnaissant Comme indiqué précédemment, il n'est pas rare qu'un appareil détecte un signal d'amplitude
minimalependant une certaine période et l'appelle "silence".
Cepend"ant, selon l'invention, l'une des matrices de mot correspond au silence ou à un bruit de fond Chaque
fois que le mot de silence a la meilleure cote de vraisemblan-
ce, on suppose qu'une séquence de mots vient juste d'être terminée (et une nouvelle séquence commence bientôt) Un registre d'étiquette est étudié afin que le fait qu'un mot autre que le silence à la meilleure cote soit déterminé, depuis la dernière initialisation de la reconnaissance Si au moins un mot autre que le silence a une meilleure cote ( 103), la file de mots du registre circulant est étudiée en retour ( 105) et le message reconnu résultant est transmis
à un dispositif d'affichage ou un autre appareillage commandé.
Le circuit-tampon circulant est alors effacé afin que le message ne puisse pas être répété, et le registre d'étiquette
est effacé L'appareil est alors initialisé afin qu'il recon-
naisse la "file de mots" suivante ( 107).
Il est avantageux, comme avec les autres épella-
tions de "mot clé" que plus d'une épellation de silence
puisse être utilisée dans un mode de réalisation avantageux.
Ainsi, l'appareil ne se limite pas à la simple détection du silence lorsqu'il correspond à un jeu de critères à priori, c'est-à-dire lorsqu'il détermine l'accord dun motif objet déterminé à priori, mais il peut aussi utiliser une matrice ou un motif objet variant dynamiquement pour l'amélioration de l'aptitude de l'appareil à reconnaître un "silence" Ainsi, comme noté précédemment, une partie précédente d'une ou deux secondes de la parole peut être examinée périodiquement et un modèle de "silence" variant dynamiquement peut être déterminé par exemple par sélection de motifs ayant une amplitude minimale pendant les quelques dernières secondes afin qu'un modèle dynamique précédent de silence soit remis à jour ou qu'un nouveau modèle dynamique de silence soit formé avec le processus de formation décrit dans la suite du présent mémoire Ainsi, le "silence" peut être déterminé par plus d'une'6 pellation" de motifs objets et la vraisemblance
de la détection précise du silence est accrue.
Formation aux motifs de référence Un certain nombre d'émissions de chaque mot du
vocabulaire sont introduites dans l'ensemble de reconnaissan-
ce et les fonctions statistiques d'ensemble des trames des spectres correspondants traités préalablement sont évaluées afin que les moyennes u et les variances s' des échantillons nécessaires à la construction des motifs de référence soient
obtenues La sélection des trames des spectres reçus qui cor-
respondent aux motifs objets ou de référence est primordiale
pour le fonctionnement satisfaisant de l'appareillage.
En l'absence d'une meilleure information, telle que des phonèmes acoustiques significatifs choisis manuellement pour le mot reçu, l'intervalle de temps entre le début et la fin d'un mot parlé est -divisé en un certain nombre de
sous-intervalles uniformément espacés Chacun de ces sous-
intervalles est mis en correspondance avec un motif de réfé-
rence unique Un ou plusieurs motifs à trois trames commen-
çant dans chaque intervalle sont alors formés et classés
d'après le motif de référence associé à cet intervalle.
Les exemples suivants du même mot de vocabulaire sont divisés
de manière analogue en un nombre identique d'espaces unifor-
mément espacés Les valeurs des moyennes et des variantes
des éléments des motifs à trois trames extraits des inter-
valles ordonnés de manière correspondante sont accumulées pour tous les exemples disponibles du mot du vocabulaire
afin qu'elles forment le jeu de motifs de référence correspon-
dant à ce mot Le nombre d'intervalles (nombre de motifs de référence) doit être de l'ordre de deux ou trois par phonème
linguistique contenu dans le mot de vocabulaire.
Lorsque les résultats doivent être les meilleurs, le début et la fin de chaque mot de vocabulaire sont marqués par une procédure qui comprend l'examen manuel de la forme
d'onde acoustique enregistrée et des trames des spectres.
La mise en oeuvre automatique de cette procédure nécessite la prononciation des mots un par un, avec des silences de part et d'autre, afinque 1 ' appareil détermine avec précision les limites des mots Les motifs de référence peuvent être
Initialisésèà l'aide d'un tel échantillon de chaque mot pronon-
cé isolément, toutes les variances étant mises à une constante commodedans les motifs de référence Ensuite, la matière de formation peut comporter des émissions caractéristiques de celles qui doivent être reconnues, avec des limites de mots
et de segments déterminées par le processus de reconnaissance.
Après l'accumulation des fonctions statistiques correspondant à un nombre convenable d'émissions de formation, des motifs de référence ainsi déterminés remplacent les motifs Initiaux de référence La matière de formation est alors soumise à un second passage Les mots sont alors divisés en intervalles d'après les décisions prises par le processeur de reconnaissance comme indiqué sur la figure 3 Chaque motif reçu à trois trames (ou un motif reçu pour chaque motif de référence) est associé à un motif de référence par le procédé d'alignement de motifs décrit précédemment Les valeurs des moyennes et des variances sont accumulées une seconde fois afin qu'elles forment le jeu final de motifs de référence tirés d'une manière tout à fait compatible avec le procédé
avec lequel ils sont utilisés dans l'appareil de reconnais-
sance. A chaque passage de formation, il est préférable qu'un membre de phrase de formation qui n'est pas convenablement reconnu par le processeur de reconnaissance, soit ignoré puisqi'une émission reconnue de façon erronée risque d'avoir des limites d'intervalles placées de façon erronée A la fin
d'un passage de formation, les membres de phrase antérieure-
ment reconnus de façon erronée peuvent être traités à nouveau avec les nouveaux motifs de référence, et ces derniers peuvent être encore remis à jour si la reconnaissance est
alors satisfaisante.
La formation d'une matrice de mot multiple pour chaque émission de formation peut aussi remplacer l'ignorance
des membres de phrase mal reconnus Cette matrice est simple-
ment un chaînage des matrices pour chacun des mots de l'émis-
sion dans l'ordre convenable La personne qui parle est munie d'un manuscrit afin qu'elle prononce la séquence indiquée de mots, et le processeur de reconnaissance ne prend en référence
que la matrice multiple et la matrice de silence; Le classe-
ment des motifs de référence et des limites de mot est alors optimal pour le manuscrit donné et les motifs de référence disponibles Un inconvénient de ce procédé est qu'il peut nécessiter un plus grande nombre de passages du manuscrit
de formation.
Il est préférable de commencer la procédure de
formation par un Jeu de motifs de référence déterminé préala-
blement et indépendant de la personne qui parle pour le
vocabulaire à reconnaître afin que la précision de la recon-
naissance soit la plus élevée possible Les motifs indépen-
dants des personnes qui parlent sont obtenus à l'aide de phrases analogues à celles qui doivent être reconnues, prononcées par au moins plusieurs personnes différentes Les limites des mots peuvent alors être déterminées par examen manuel des formes d'onde acoustique enregistrées La procédure en deux étapes décrites précédemment est alors utilisée pour la formation des motifs indépendantsdes personnes qui parlent dans le premier passage, des sous-intervalles sont espacés unifor-mément dans chaque mot et, dans le second passage, les sous-intervalles sont tels que déterminés par le processus de reconnaissance mettant en oeuvre les motifs de référence du
premier passage Les fonctions statistiques d'ensemble corres-
pondant à toutes les personnes qui parlent sont formées dans
chaque passage.
L'appareil peut alors être avantageusement formé a une personne particulière utilisant les motifs indépendants des personnes qui parlent et créés précédemment pour la détermination, en combinaison avec la matrice de silence, des
limites de paroles reçues dépendant de la personne qui parle.
De préférence, ces paroles dépendant de la personne qui parle sont transmises non sous forme isolée, mais sous forme
de files continues de mots L'utilisation de paroles conti-
nues pendant la formation permet l'obtention de résultats plus précis Ainsi, l'utilisation des motifs de référence indépendants des personnes qui parlent et disponibles dans l'appareil permet la détermination des limites de paroles dépendant de la personne qui parle et le processus à plusieurs passages, décrit précédemment pour la formation de l'appareil, est alors utilisé, c'est-à-dire que des sous-intervalles uniformément espacés sont placés dans chaque mot pendant un
premier passage et, dans-le second passage, des sous-interval-
les sont déterminés par le processus de reconnaissance à
l'aide des motifs formés dans le premier passage.
De manière surprenante, un procédé analogue peut être avantageusement utilisé pour des mots de vocabulaire
inconnus précédemment Ainsi, les limites d'un mot de vocabu-
laire inconnu Jusqu'à présent sont déterminées à l'aide ( 1)
des motifs indépendants des personnes qui parlent correspon-
dant aux autres mots de vocabulaire afin que le mot-clé inconnu soit reconnu, et ( 2) d'une connaissance à priori du fait que l'apparition d'un silence au début et à la fin du mot délimite le mot Les limites sont alors déterminées avec une cote meilleure qui est formée pour l'adaptation des motifs de référence indépendants de la personne qui parle au mot de vocabulaire inconnu, et non au "silence" Les limites du mot inconnu de vocabulaire peuvent alors être établies
avec ce résultat et l'opération en deux étapes décrites précé-
demment peut ensuite être utilisée, par division uniforme du
mot en sous-intervalles pendant un premier passage, avec for-
mati Qn de fonctions statistiques d'ensemble, et par l'utili-
sation du processus normal de reconnaissance dans le second passage, avec les motifs de référence formés pendant le premier passage Le procédé automatique est avantageux par rapport par exemple à l'établissement manuel des limites du
mot inconnu antérieurement.
Il est évident que la reconnaissance du "silence" par mise en oeuvre d'au moins deux épellations différentes de silence, dont l'une est de préférence déterminée dynamiquement, présente un avantage très important pour la préparation pendant
la formation de l'appareil à une nouvelle personne qui parle.
Il-est aussi important de noter à cet égard que le "mot" de silence constitue un mot de commande pour le déclenchement d'une réponse par l'appareil D'autres "mots de commande" peuvent aussi être utilisés, pourvu que leur reconnaissance soit suffisamment sûre et, dans certains cas, plusieurs mots de commande peuvent être utilisés afin qu'ils constituent des
"poteaux indicateurs" pendant le processus de reconnaissance.
* Cependant, dans un mode de réalisation avantageux, le "mot de vocabulaire" silence est de préférence le seul mot de commande utilisé.
Les temps d'arrêt minimal (nécessaire) et maxi-
mal (nécessaires plus éventuels) sont de préférence déter-
minés pendant le processus de formation Dans un mode de réalisation avantageux de l'invention, l'appareil subit la formation telle que décrite précédemment, à l'aide de plusieurs
personnes qui parlent En outre, comme décrit précédemment,.
le processus de reconnaissance détermine automatiquement, pendant la formation, les limites de motifs d'après le procédé indiqué Ces limites sont enregistrées et des temps d'arrêt
pour chaque mot-clé identifié par l'appareil sont mémorisés.
A la fin d'une séance de formation, les temps d'arrêt pour chaque motif sont examinés et les temps d'arrêt
minimal ou maximal pour ce motif sont choisis Dans un mode de-
réalisation avantageux de l'invention, un histogramme des
temps d'arrêt est formé et les temps d'arrêt minimal et maxi-
mal sont réglés au vingt-cinquième et au soixante-quinzième percent Jles La précision de reconnaissance est alors élevée pour un faible taux de fausses alarmes Dans une variante, on peut choisir d'autres temps d'arrêt minimal et maximal, avec un compromis entre la précision de la reconnaissance et le taux de fausses alarmes Ainsi, lorsqu'on choisit un faible temps d'arrêt minimal et un grand temps d'arrêt maximal, la précision de reconnaissance est accrue mais au détriment d'un e
taix plus élevé de fausses alarmes.
Processeur de syntaxe
Le chaînage de deux ou plusieurs matrices parti-
culières de mot est un exemple trivial d'une commande syntaxe dans le processus de décision Comme l'indique la figure 9, un circuit 308 de syntaxe est destiné à détecter des séquences de mot contenant un nombre impair de mots ( 1,3,5,7,) et il a deux jeux indépendants de registres 310, 312 d'alignement de motifs, pour chaque mot de vocabulaire La cote introduite pour la première matrice est la meilleure des cotes choisies parmi la cote du silence et la meilleure cote du jeu des secondes matrices La cote introduite pour la seconde matrice est la meilleure cote tirée du premier jeu de matrices Cette cote parvient aussi à une seconde matrice de détection de silence au noeud 313 Après détection du silence à la fin de l'émission comme Indiqué par la matrice de détection au noeud 313, les labels et durées des mots émis peuvent être étudiés en retour à l'aide des circuits-tampons de retour du premier et du second jeu de matrices Il est important de noter que la position de la matrice de détection de silence est telle que seul un silence après une séquence de mots ayant un nombre
impair de mots peut être détecté.
Des circuits plus complexes de syntaxe peuvent être réalisés par association, à chaque noeud de syntaxe tels que les noeuds 313 a et 313 b de la figure 9, d'une liste de longueur acceptable de files de mots Par exemple, dans le circuit de syntaxe de la figure 9 qui accepte toute file contenant un nombre impair de mots, la longueur de la file peut être fixée à un nombre impair particulier tel que 5, par examen de la longueur de la file à l'entrée du second registre 313 a de silence Si la longueur de la file à ce moment
n'est pas égale à 5, le registre devient inactif (dans l'inter-
valle actuel d'analyse) et aucune cote de file ne peut être reportée pour ce registre; cependant, si la longueur de la
file est égale à 5, une détection de file peut être reportée.
De manière analogue, le premier registre 310 de vocabulaire peut être rendu actif si la longueur de la file reçue est égale à 0, 2 ou 4 mots et le second registre uniquement lorsque la M longueur de la file reçue est de 1 ou 3 mots Bien que les résultats optimaux pour une file à 5 mots nécessitent 5 jeux complets d'accumulateurs de programmation dynamique, ce procédé permet à un plus petit nombre d'accumulateurs de remplir une tâche multiple avec une réduction seulement faible
de la précision de reconnaissance.
Dans le mode de réalisation particulier consi-
déré, l'appareil est destiné à reconnaître soit une file de cinq chiffres, soit un mot connu de vocabulaire qui n'est pas ID un chiffre Dans un exemple, cette syntaxe grammaticale est représentée sur la figure 9 A Sur celle-ci, chacun des noeuds
314 a, 314 b 314 h représente un stade du processus de recon-
naissance Les noeuds 314 a et 314 g représentent la reconnais-
sance du silence, les noeuds 314 b à 314 f représentent la reconnaissance d'un chiffre et le noeud 314 h représente la reconnaissance d'un mot de vocabulaire qui n'est pas un chiffre et qui n'est pas un silence Ainsi, avec la commande de syntaxe de l'appareil, lesilence doit être reconnu d'abord, en correspondance avec le noeud 314 a, et à ce moment la reconnaissance d'un chiffre passe au noeud 314 b alors que la reconnaissance d'un élément autre qu'un chiffre passe au noeud 314 h (ces déplacements représentent des progressions acceptables ou "licites" de la syntaxe grammaticale) Au noeud 314 b, la seule progression acceptable partant du noeud rejoint le noeud 314 c qui est un noeud de chiffre alors que, au noeud 314 h, la seule progression acceptable rejoint le noeud 314 g
qui est un silence Il s'agit des seules progressions accepta-
bles ou licites permises par le processeur 308 décrit en référence à la figure 10 Il est important de noter, que comme sur la figure 9, le processeur de la figure 9 A peut être notablement simplifié par repli sur lui-même (réduction de la structure des noeuds) et par utilisation d'augments peur la commande de la progression ou du passage dans une structure repliée ou réduite du circuit des noeuds de syntaxe (figure 9 B) Ainsi, la figure 9 A peut être réécrite sous forme de la figure 9 B pourvu que le déplacement d'un noeud à un autre le long des segments de connexion
respecte certaines restrictions.
La figure 9 B représente schématiquement la struc-
ture réduite à augments des noeuds de syntaxe Ainsi, un noeud 314 x devient le seul noeud de silence, les noeuds 314 u, 314 v et 314 W sont les nouveaux noeuds de chiffres (correspondant aux anciens noeuds 3111 b à 314 f) et le noeud
314 h reste le noeud qui n'est ni un chiffre ni un silence.
Le noeud de silence a alors une "fonction double" Ainsi, le-noeud 314 x de silence représente soit un silence au début
de la reconnaissance d'une file de mots soit un silence ter-
minant cette reconnaissance De même, les noeuds 314 u et 31 jv ont une double fonction, le noeud 314 u représentant le premier ou le quatrième chiffre d'une file de mots et le
noeud 314 v représentant le second ou le troisième chiffre.
Lors du fonctionnement, l'arrivée à chaque noeud est accep-
tée en fonction du nombre de mots du chiffre Les noeuds de la figure 9 B représentent le calcul réalisé en parallèle pour des hypothèses différentes Les arcs de cercle représentent la dépendance des hypothèses les uncs des autres Sur la figure 9 B, seules trois hypothèses de chiffres sont maintenues actives au lieu des cinq indiquées sur la figure 9 A Lors du fonctionnement, la réduction du nombre d'hypothèses actives
est obtenu par acceptation de données, le long d'un arc d'en-
trée uniquement si le nombre convenable de mots est associé, c'est-à-dire si l'un des nombres de mots acceptables du jeu de nombres de mots de cet arc est obtenu Ainsi, le noeud 314 u accepte les données du noeud 314 x uniquement lorsque le nombre associé de mots est égal à zéro, ce qui est toujours le cas parce que les données qui se trouvent sur les arcs de cercle partant du noeud de silence ont un nombre de mots mis à zéro Le noeud 314 u accepte aussi les donnêes du noeud 314 W lorsque le nombre associé est égal à 3 Un noeud
choisit les données de meilleure cote parmi toutes les infor-
mations acceptables Ainsi, le noeud 314 u représente soit l'hypothèse de l'accord d'un chiffre avec le premier chiffre de l'émission soit de l'accord d'un chiffre avec le quatrième chiffre de l'émission suivant que les données du noeud 314 x ou 314 W sont choisies De même le noeud de silence accepte les données du noeud 314 Vlorsque celui-ci est associé à un nombre de mots égal à cinq En outre, le noeud de silence accepte les données du noeud 314 h et de lui-même, c'est-à-dire noeud 314 x Le noeud de silence choisit alors les données donnant la meilleure cote pour ces données acceptables d'entrée. L'effet d'une structure "repliée" est augmenter de syntaxe et de réduire la quantité de mémoire nécessaire et les calculs que doit exécuter l'appareil D'autre part, l'élimination de certaines données et la prise forcée d'une décision présentent le risque d'éliminer l'information
erronée et de provoquer la prise d'une décision erronée.
Cependant, lorsque la précision de reconnaissance est grande,(? comme dans l'appareil considéré, la vraisemblance de l'écart de données "bonnes" est très faible Par exemple lorsque le noeud 314 u écarte les données du noeud 314 x en faveur de celles du noeud 314 w, l'effet et l'écart de données bien moins probables provenant du noeud de silence Il s'agit d'un procédé avantageux puisque, à un moment particulier, il suffit que l'appareil décide si la file commence juste ou si trois mots ont déjà été prononcés La probabilité d'une erreur sur cette décision est très faible La syntaxe repliée ou réduite ne nécessite pas un registre supplémentaire par
mot pour la conservation du nombre de mots déjà reconnus.
(Dans le cas le plus général, le nombre peut être égal au nombre de mots reconnus dans une file suivant une syntaxe
grammaticale) Les avantages de la syntaxe réduite, c'est-à-
dire la réduction de la quantité de mémoire et du nombre de
calculs, compense cependant les inconvénients précités.
Un autre avantage de l'utilisation d'une "syntaxe" dans le reconnaissance des mots-clés est que la décision de l'apparition d'un silence ou non est réalisée à
l'aide d'une connaissance à priori (la syntaxe grammaticale).
Dans le mode de réalisation représenté, cette syntaxe néces-
site que ce silence précède et suive une file de mots Cette syntaxe permet à l'appareil de détecter de façon fiable le silence et de déterminer avec précision les limites entre la file continue et le silence L'élément primordial du procédé selon l'invention est la détection du silence en combinaison avec la file de mots Ainsi, à la fin d'une file de mots, le silence est détecté de manière fiable parce que la cote accu- mulée pour les "épellations" du silence a une "bonne cote
de vraisemblance" pour le signal acoustique reçu antérieure-
ment, lorsqu'il correspond à une reconnaissance de la file de
mot qui satisfait aux critères de la syntaxe grammaticale.
C'est cette détermination du silence, dans sa syntaxe, qui
permet une reconnaissance plus précise et plus fiable.
Il s'agit d'un avantage très net par exemple par rapport à la reconnaissance du silence comme étant un minimum d'amplitude
quelle que soit la syntaxe de la parole.
Ensemble réalisé par mise en oeuvre du procédé de reconnais-
sance de parole
Comme indiqué précédemment, un mode de réali-
sation avantageux de l'invention est réalisé de manière que la manipulation des signaux et des données, en plus de celle
qui est assurée par le processeur préalable de la figure 2.
est réalisée et commandée par un ordinateur PDP- 11 de Digital Equipment Corporation, fonctionnant en combinaison avec le processeur vectoriel spécialisé décrit dans le brevet des
Etats-Unis d'Amérique N O 4 228 498.
On peut aussi utiliser selon l'invention une
réalisation sous forme de circuit à la place de la programma-
tion d'un ordinateur.
Lors du fonctionnement, l'appareil de la figure 10 met en oeuvre une technique de programmation dynamique Chaque nouvelle séquence de cotes de vraisemblance, c'est-à-dire la séquence des cotes de vraisemblance relative à chaque motif de référence dans un ordre prédéterminé connu, en provenance de l'ordinateur par les lignes 320, est ajoutée aux cotes existantes dans l'une des mémoires 322 et 324 Ces
mémoires ont des fonctions qui alternent comme décrit précé-
demment sous la commande (a) du processeur 309 de syntaxe qui reçoit les cotes correspondant à la fin de chaque mot possible, (b) d'un registre 326 de cote minimale qui peut remplacer le signal *de sortie des mémoires 322 et 324 d'après les signaux de phonème suivant et de sélection de mémoire, et (c) d'autres
signaux de commande et d'horloge.
Lors du fonctionnement, le circuit suit les règles de remise à jour des registres correspondant à chacun des "cercles de la figure 4 " afin que, à chaque reconnaissance d'un silence ou d'un repos, un mécanisme de décision permette
la détermination du meilleur accord.
Les mémoires 322 et 324 ont la même configu-
ration et elles sont échangées toutes les dix millisecondes,
c'est-à-dire chaque fois qu'une nouvelle trame est analysée.
Les mémoires contiennent chacune plusieurs mots à 32 bits, le nombre de mots à 32 bits correspondant au nombre total de registres (ou au nombre de cercles sur la figure 4) associés aux mots du vocabulaire de la machine Initialement, une première mémoire, par exemple la mémoire 322, est chargée de "mauvaises cotes" de vraisemblance, c'est-à-dire des cotes qui, dans l'exemple considéré, ont une grande valeur Ensuite, la mémoire 322 est lue séquentiellement, suivant une séquence prédéterminée qui correspond à la séquence de nouvelles cotes de vraisemblance provenant du processeur vectoriel par la ligne 320,et les cotes sont alors remises à jour comme décrit dans la suite du présent mémoire et réécrites dans l'autre mémoire 324 Dans la trame suivante de dix millisecondes, les cotes alors anciennes tirées de la mémoire 324 sont lues et de nouvelles cotes sont écrites dans l'autre mémoire 322 Cette relation ou fonction qui alterne se poursuit sous la commande du processeur de syntaxe, du registre 326 de cotes minimales çt des autres signaux de commande et d'horloge Comme indiqué précédemment, chaque mot des mémoires 322 et 324 est un nombre à trente deux bits Les seize bits inférieurs 0-15 contiennent les cotes accumulées de vraisemblance En outre, les bits
16-23 enregistrent la durée du phonème et les bits 24-31 con-
servent les durées du mot dans ce registre.
Les cotes reçues de vraisemblance provenant de l'ordinateur sont conservées, pour 'a durée de chaque trame, dans une mémoire 328 de cote de motifs Cette information est transmise par l'ordinateur sous forme d'une "salve", à une fréquence de transfert de données très élevée, et elle est retirée de la mémoire des cotes de motifs à une fréquence plus faible utilisée par le circuit de la figure 10 Ainsi, mise à part une commande intermédiaire par le processeur de syntaxe ou le registre de cote minimal ou le signal de sortie de la mémoire choisie 322 ou 324 est appliquée aux lignes 334 par l'intermédiaire de la porte correspondante 330 ou 332 Les l O lignes 334 sont reliées à des additionneurs 336, 338, 340 destinés à remettre à jour la cote de vraisemblance, le nombre de durée du phonème ou du motif objet, et le nombre de durée
de mots respectivement Ainsi, la cote de vraisemblance cor-
respondant à la cote de la trame précédente provenant de l'une des mémoires 322, 324 est transmise par la mémoire de cote de motif par les lignes 342, est ajoutée à l'ancienne cote de vraisemblance et est alors conservée dans la mémoire qui n'est pas utilisée pour l'écriture La fonction de sélection de
mémoire est assurée par le signal des lignes 344 Simultanié-
ment, les nombres du durée de mots et de phonèmes augmentent
d'une unité.
De cette manière, le compteur de durée de mot, le nombre de durée de phonème et les cotes de vraisemblance
sont normalement remises à jour.
Les deux exceptions à la règle habituelle de remise à jour indiquées précédemment correspondent au début d'un nouveau phonème et au début d'un nouveau mot Au début d'un nouveau phonème qui est le début d'un nouveau mot, le premier registre du phonème n'est pas remis à jour d'après la règle habituelle mais la cote de vraisemblance transmise par la ligne 342 est ajoutée à la cote minimale provenant des registres de temps d'arrêt éventuel du phonème ou de la trame de référence précédente, ou du dernier registre du temps d'arrêt nécessaire du phonème précédent L'opération est réalisée à l'aide du
registre 326 de cote minimale Le signal de ce registre repré-
sente la cote minimale pendant la durée de la trame précédente pour le phonème antérieur Cette cote est obtenue par remise à Jour continue du contenu du registre de cote minimale chaque fois qu'une nouvelle cote minimale est formée La nouvelle cote minimale est chargée dans le registre de cote minimale à l'aide du signal de bit de signe d'un circuit arithmétique 346 de soustraction Celui-ci compare la cote minimale actuelle à la nouvelle cote minimale du registre qui vient d'être remis à jour Le registre de cote minimale conserve encore le nombre de durée de mots et le nombre de durée de
phonème correspondant aux registres ayant la cote minimale.
Toute cette Information est transmise par les lignes 334 au début d'un nouveau phonème Ce processus est commandé par un circuit porte 348 préparé au début d'un nouveau phonème en combinaison avec les signaux de commande transmis aux portes 332 et 330 et qui empêchent l'excitation de celles-ci pendant
le début d'un nouveau phonème.
Le processeur 308 de syntaxe (correspondant a la figure 9 B) est utilisé pour la remise à jour du premier registre du premier phonème pour un nouveau mot, avec la
meilleure cote, compte tenu de la syntaxe, d'un mot se termi-
nant dans la trame précédente Ainsi, lorsque la cote de registre correspondant au premier registre du premier phonème d'un nouveau mot doit être remis à jour par une cote reçue de vraisemblance, elle n'est pas transmise par l'une des mémoires 322, 324 Au contraire, elle est sous forme de la meilleure cote de vraisemblance, compte tenu de la syntaxe correspondant aux mots se terminant dans la trame précédente Cette fonction
est permise par la fermeture des portes 330 et 332 et prépara-
tion simultanée de la porte 350 afin que la meilleure cote disponible, conservée dans un registre 352, soit transmise par
les lignes 334 et puissent être ajoutées à la cote de vraisem-
blance du motif reçu par les lignes 342.
Ainsi, chaque registre correspondant à un temps d'arrêt d'une trame de référence est remis à jour de façon continue dans ce mode de réalisation sous forme de circuit réel Lorsque les cotes de probabilité représentent le mot
de silence, le processeur de syntaxe assure la commande néces-
saire pour que les circuits ou l'ordinateur reviennent en
arrière et déterminent les mots reconnus.
Il est bien entendu que l'invention n'a été décrite et représentée qu'à titre d'exemple préférentiel et qu'on pourra apporter toute équivalence technique dans ses éléments constitutifs sans pour autant sortir de son cadre.

Claims (12)

    REVENDICATIONS l Procédé de reconnaissance du silence dans un signal acoustique reçu par un appareil d'analyse de parole destiné à reconnaître un mot-clé dans un signal acous- tique, ledit procédé étant caractérisé en ce qu'il comprend la création d'au moins une première et une seconde matrice objet représentant des descriptions diffé- rentes d'un silence dans le signal acoustique reçu, la comparaison du signal acoustique reçu aux première et seconde matrices objets, la création d'une mesure numérique représentant le résultat des comparaisons, et la décision de la détection d'un silence d'après les mesures numériques au moins.
  1. 2 Procédé selon la revendication 1, caractérisé en ce que la création des matrices comprend la création pour l'une des première et seconde matrices objets, d'une matrice objet de silence qui varie dynamiquement et qui est
    formée en fonction du signal acoustique reçu.
  2. 3 Procédé de reconnaissance du silence dans un signal acoustique dans un appareil d'analyse de parole destiné à la reconnaissance d'au moins un mot-clé dans un signal acoustique, caractérisé en ce qu'il comprend
    la création d'une mesure numérique de vraisem-
    blance avec laquelle la partie actuelle du signal acoustique reçu correspond à un motif de référence représentant le silence, la modification de la mesure numérique suivant une détermination dépendant de la syntaxe et représentant la reconnaissance d'une partie immédiatement précédente du signal acoustique selon une syntaxe grammaticale, et la détermination du fait que la partie actuelle
    de signal correspond au silence d'après la mesure modifiée.
  3. 4 Procédé de formation de motifs de référence représentant des mots-clés et adaptés à une personne qui parle, dans un appareil d'analyse de parole destiné à la reconnaissance d'au moins un mot-clé dans un signal acoustique chaque mot-clé étant caractérisé par une matrice ayant au moins un motif objet, ledit procédé étant caractérisé en ce qu'il comprend: la formation de motifs de référence indépendants de la personne qui parle, ces mots repr Csentant les mots-clés, la détermination des limites des mots-clés dans les signaux acoustiques prononcés par la personne qui parle à l'aide des motifs de référence indépendants de la personne qui parle, et la formation de l'appareil d'analyse de parole aux
    caractéristiques de la personne qui parle, à l'aide des limi-
    tes déterminées par l'appareil pour les mots-clés prononcés
    par la personne qui parle.
    Procédé selon la revendication 4, caractérisé en ce que l'opération de formation de l'appareil comprend: la division d'un mot-clé représentant un signal
    acoustique reçu d'une personne qui parle en plusieurs sous-
    intervalles à l'aide des limites des mots-clés,
    la mise forcée en correspondance de chaque sous-
    intervalle avec un motif unique de référence, la répétition des opérations de division et de mise en correspondance sur plusieurs signaux acoustiques représentant le même mot-clé, la formation de fonctions statistiques décrivant le motif de référence associé à chaque sous- intervalle, et
    le traitement des signaux acoustiques d'entrée repré-
    sentant le mot-clé une seconde fois à l'aide des fonctions statistiques assemblées afin que des sous-intervalles soient
    formés par la machine pour les mots-clés.
  4. 6 Procédé de formation de motifs de référence
    représentant un mot-clé antérieurement inconnu dans un appa-
    reil d'analyse de parole destiné à la reconnaissance d'au moins un motclé dans un signal acoustique, chaque mot-clé étant caractérisé par une matrice ayant au moins un motif objet, ledit procédé étant caractérisé en ce qu'il comprend: la formation de motifs de référence indépendants de la personne qui parle et représentant des mots-clés déjà connus de l'appareil, la détermination des limites du mot-clé inconnu à l'aide des motifs de référence indépendant de la personne qui parle, et la formation de l'appareil d'analyse de parole, à l'aide des limites déjà déterminées par l'appareil pour le mot inconnu antérieurement, afin que des fonctions statistiques
    décrivant le-mot inconnu précédemment soient formées.
  5. 7 Procédé selon la revendication 6, carac-
    térisé en ce qu'il comprend en outre la formation d'un signal
    acoustique représentant le mot-clé inconnu et prononcé isolé-
    ment par la personne qui parle.
  6. 8 Procédé selon la revendication 6, caractérisé en ce que la formation de l'appareil comprend
    la division d'un signal acoustique reçu correspon-
    dant au mot inconnu précédemment en plusieurs sous-intervalles à l'aide desdites limites,
    la mise en correspondance forcée de chaque sous-
    intervalle avec un motif unique de référence, la répétition des opérations de division et de mise en correspondance sur plusieurs signaux acoustiques reçus représentant le même mot-clé, la création de fonctions statistiques décrivant le motif de référence associé à chaque sous- intervalle, le traitement des signaux acoustiques d'entrée représentant le mot inconnu précédemment une seconde fois, à l'aide des fonctions statistiques assemblées, afin que des sous-intervalles crées par la machine soient formés pour
    le mot-clé.
  7. 9 Procédé d'analyse de parole destiné à la reconnaissance de plusieurs mots-clés dans un signal acoustique, chaque mot-clé étant caractérisé par une matrice ayant au moins un motif objet, chaque séquence de mot-clé du signal acoustique étant décrite par une syntaxe grammaticale
    cette syntaxe étant caractérisée par plusieurs noeuds connec-
    tés de décision, ledit procédé étant caractérisé en ce qu'il comprend la formation d'une séquence de cote numérique destinée à la reconnaissance de mots-clés dans le signal acoustique, par programmation dynamique, l'utilisation de la syntaxe grammaticale pour la détermination des cotes qui forment des progressions acceptables au cours du processus de reconnaissance, et la réduction du nombre de noeuds de décision par réduction de la syntaxe de manière que la charge de calcul
    de l'appareil utilisé soit réduite.
  8. 10 Appareil de reconnaissance du silence dans un signal acoustique reçu, destiné à un appareil d'analyse de parole assurant la reconnaissance d'au moins un mot-clé dans un signal acoustique, ledit appareil étant caractérisé en ce qu'il comprend: un dispositif destiné à former au moins des premières
    et des secondes matrices objets représentant des descriptions
    différentes du silence dans le signal acoustique reçu, un dispositif de comparaison du signal acoustique reçu aux première et seconde matrices objets, un dispositif destiné à former une mesure numérique représentant le résultat de ces comparaisons, et un dispositif destiné à décider si un silence a
    été détecté au moins d'après lesdites mesures numériques.
  9. 11 Appareil selon la revendication 10, caractc-risé en ce que le dispositif destiné à former des matrices comprend un dispositif destiné à former, pour l'une des première et seconde
    matrices objets, une matrice objet de silence qui varie dynamique-
    ment et qui est formée en fonction du signal acoustique rcçu.
  10. 12 Appareil de reconnaissance de silence dans un signal acoustique, destiné à un appareil d'analyse de parole destiné à la reconnaissance d'au moins un mot-clé dans un signal acoustique, caractérisé en ce qu'il comprend un dispositif destiné à former une mesure numérique de la vraisemblance pouf que la partie actuelle reçue du signal acoustique corresponde à un motif de référence représentant un silence,
    un dispositif destiné à ajouter, à la mesure numé-
    rique, une valeur numérique dépendant d'une syntaxe afin que l'ensemble forme une cote, la valeur dépendant d'une syntaxe
    représentant la reconnaissance d'une partie immédiatement précé-
    dente du signal acoustique selon une syntaxe grammaticale,et un dispositif destiné à déterminer si la partie actuelle du signal correspond à un silence d'après la cote obtenue. 13.Appareil destiné à former des motifs de référcoce représentant des mots-clés et adaptés à une personne qui parle, dans un appareil d'analyse de parole destiné à la reconnaissance
    d'au moins un mot-clé dans un signal acoustique, chaque mot-
    clé étant caractérisé par une matrice ayant au moins un motif objet, ledit appareil étant caractérisé en ce qu'il comprend
    un dispositif destiné à former des motifs de réfé-
    rence indépendants d'une personne qui parle et représentant les mots-clés, un dispositif destiné à déterminer des limites des mots-clés dans des signaux acoustiques prononcés par la
    personne qui parle, à l'aide des motifs de référence indépen-
    dants de la personne qui parle, et un dispositif destiné à former l'appareil d'analyse de parole aux caractéristiques de la personne qui parle à
    l'aide des limites déterminées par l'appareil pour les mots-
    clés prononcés par la personne qui parle.
  11. 14 Appareil selon la revendication 13, carac-
    térisé en ce que le dispositif de formation comprend un dispositif destiné à diviser de manière répétée un mot-clé représentant un signal acoustique reçu de la personne
    qui parle correspondant à un mot-clé, en plusieurs sous-
    intervalles à l'aide des limites de mot-clé, un dispositif destiné à mettre en correspondance forcée chaque sous-intervalle avec un motif de référence unique,
    un dispositif destiné à former des fonctions statis-
    tiques décrivant le motif de référence associé à chaque sous-
    intervalle, et
    un dispositif destiné à assurer un second traite-
    ment des signaux acoustiques d'entrée représentant le mot-
    clé, à l'aide des fonctions statistiques assemblées, pour des
    sous-intervalles crés par la machine pour les mots-clés.
    Appareil de formation de motifs de référence
    représentant un mot-clé précédemment inconnu, dans un appa-
    reil d'analyse de parole destiné à la reconnaissance d'au moins un motclé dans un signal acoustique, chaque mot-clé étant caractérisé par une matrice ayant au moins unl motif objet, ledit appareil étant caractérisé en ce qu'il comprend
    un dispositif destiné à former des motifs de réfé-
    rence indépendants de la personne qui parle et représentant des mots-clés connus antérieurement de l'appareil, un dispositif destiné à déterminer des limites du mot-clé inconnu à l'aide des motifs de référence indépendants de la personne qui parle, et un dispositif destiné à former l'appareil d'analyse
    de parole à l'aide des limites déjà déterminées par l'appa-
    reil pour le mot-clé inconnu afin qu'il crée des fonctions
    statistiques décrivant ce mot-clé précédemment inconnu.
  12. 16 Appareil selon la revendication 15,caractérisé en ce qu'il comprend en outre un dispositif destiné à former un signal acoustique représentant le mot-clé inconnu prononcé
    sous forme isolée par la personne qui parle.
    17.Appareil selon la revendication 15, caractérisé en ce que le dispositif de formation comprend: un dispositif destiné à diviser de manière répétée un signal acoustique reçu correspondant au mot-clé précédemment inconnu en plusieurs sous-intervalles à l'aide desdites limites, un dispositif destiné à mettre en correspondance forcée chaque sous-intervalle avec un motif unique de référence,
    un dispositif destiné à former des fonctions statis-
    tiques décrivant le motif de référence associé à chaque sous-intervalle, et un dispositif destiné à traiter une seconde fois
    les signaux acoustiques d'entrée représentant le mot-clé précé-
    demment inconnu, à l'aide des fonctions statistiques assemblées, afin qu'ils forment des sous-intervalles créés par la machine
    pour le mot-clé.
    18.Appareil d'analyse de parole destiné à la recon-
    naissance de plusieurs mots-clés dans un signal acoustique, chaque motclé étant caractérisé par une matrice ayant au moins un motif objet et chaque séquence des mots-clés du signal acoustique étant décrite par une syntaxe grammaticale, la syntaxe étant caractérisée par plusieurs noeuds connectés de décision, ledit appareil étant caractérisé en ce qu'il comrprend
    un dispositif destiné à utiliser la syntaxe gram-
    maticale pour la détermination des cotes qui forment des progressions acceptables dans le processus de reconnaissance, et un dispositif destiné à réduire le nombre de noeuds de décision afin que la charge de calcul de l'appareil soit
    réduite.
    19.Appareil d'analyse de parole destiné à recon-
    naitre plusieurs mots-clés dans un signal acoustique, chaque mot-clé étant caractérisé par une matrice ayant au moins
    un motif objet et chaque séquence de mots-clés du signal acous-
    tique étant décrite par une syntaxe grammaticale, la syntaxe étant caractérisée par plusieurs noeuds connectés de décision, ledit appareil étant caractérisé en ce qu'il comprend un dispositif destiné à former une séquence de cotes numériques destinées à la reconnaissance de mots-clés dans le signal acoustique à l'aide d'une programmation dynamique,
    un dispositif destiné à utiliser la syntaxe gram-
    maticale pour la détermination des cotes qui forment des progres-
    sions acceptables dans le processus de reconnaissance, et un dispositif destiné à utiliser des
    augments afin qu'il préserve les progressions accepta-
    bles, des progressions qui seraient autrement acceptables
    étant ainsi éliminées par mise en oeuvre de la syntaxe.
    Procédé de reconnaissance, destiné à un appareil d'analyse de parole utilisé pour la reconnaissance
    de plusieurs mots-clés dans un signal acoustique, chaque mot-
    clé étant caractérisé par une matrice ayant au moins un motif o'ijet et chaque séquence de mot-clé du signal acoustique étant
    décrite par une syntaxe grammaticale, la syntaxe étant carac-
    térisée par plusieurs noeuds connectés de décision, ledit procédé -étant caractérisé en ce qu'il comprend la formation d'une séquence de cotes numériques destinées à la reconnaissance de mots-clés dans le signal acous- tique à l'aide d'une programmation dynamique, l'utilisation de la syntaxe grammaticale pour la détermination des cotes qui forment des progressions acceptables dans le processus de reconnaissance, et l'utilisation d'augments pour la préservation de progressions acceptables, des progressions autrement acceptables
    étant éliminées selon cette syntaxe.
FR8216620A 1981-10-05 1982-10-04 Procede et appareil de reconnaissance de mots-cles dans des paroles Expired FR2520913B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/309,209 US4481593A (en) 1981-10-05 1981-10-05 Continuous speech recognition

Publications (2)

Publication Number Publication Date
FR2520913A1 true FR2520913A1 (fr) 1983-08-05
FR2520913B1 FR2520913B1 (fr) 1986-12-19

Family

ID=23197172

Family Applications (1)

Application Number Title Priority Date Filing Date
FR8216620A Expired FR2520913B1 (fr) 1981-10-05 1982-10-04 Procede et appareil de reconnaissance de mots-cles dans des paroles

Country Status (6)

Country Link
US (1) US4481593A (fr)
JP (3) JPS58134700A (fr)
CA (1) CA1182223A (fr)
DE (1) DE3236834C2 (fr)
FR (1) FR2520913B1 (fr)
GB (1) GB2107100B (fr)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
EP0139642B1 (fr) * 1983-03-28 1989-09-13 Exxon Research And Engineering Company Procedes et dispositifs de reconnaissance de la parole
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4868879A (en) * 1984-03-27 1989-09-19 Oki Electric Industry Co., Ltd. Apparatus and method for recognizing speech
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
FR2639737B1 (fr) * 1988-11-30 1991-01-11 Bull Sa Circuit integre de programmation dynamique
JP3002204B2 (ja) * 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置
US5761639A (en) * 1989-03-13 1998-06-02 Kabushiki Kaisha Toshiba Method and apparatus for time series signal recognition with signal variation proof learning
US4994983A (en) * 1989-05-02 1991-02-19 Itt Corporation Automatic speech recognition system using seed templates
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
CA2015410C (fr) * 1989-05-17 1996-04-02 Chin H. Lee Reconnaissance vocale utilisant un modele a mots-cles et un modele sans moto-cles
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
DE69432570T2 (de) * 1993-03-25 2004-03-04 British Telecommunications P.L.C. Spracherkennung
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5642444A (en) * 1994-07-28 1997-06-24 Univ North Carolina Specialized image processing system architecture and method for image data arrays
DE4432632A1 (de) * 1994-09-14 1996-03-21 Philips Patentverwaltung System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
AU5738296A (en) * 1995-05-26 1996-12-11 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocab ulary speech recognition system and for use of constraints f rom a database in a large vocabulary speech recognition syst em
US5806034A (en) * 1995-08-02 1998-09-08 Itt Corporation Speaker independent speech recognition method utilizing multiple training iterations
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
DE19624988A1 (de) * 1996-06-22 1998-01-02 Peter Dr Toma Verfahren zur automatischen Erkennung eines gesprochenen Textes
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
DE19633693C1 (de) * 1996-08-21 1997-11-20 Max Planck Gesellschaft Verfahren und Vorrichtung zur Erfassung von Targetmustern in einer Textur
WO1998014934A1 (fr) * 1996-10-02 1998-04-09 Sri International Procede et systeme d'evaluation automatique de la prononciation independamment du texte pour l'apprentissage d'une langue
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US5903675A (en) * 1996-12-20 1999-05-11 Apple Computer, Inc. System and method for compressing data using a dynamically changing compression window
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US6011854A (en) * 1997-09-18 2000-01-04 Sony Corporation Automatic recognition of audio information in a broadcast program
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
US6393399B1 (en) 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
DE19854341A1 (de) 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US20020069064A1 (en) * 1999-02-08 2002-06-06 Dejaco Andrew P. Method and apparatus for testing user interface integrity of speech-enabled devices
US6233557B1 (en) 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US7080011B2 (en) * 2000-08-04 2006-07-18 International Business Machines Corporation Speech label accelerators and techniques for using same
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
DE10120168A1 (de) * 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen
US7133827B1 (en) 2002-02-06 2006-11-07 Voice Signal Technologies, Inc. Training speech recognition word models from word samples synthesized by Monte Carlo techniques
EP1363271A1 (fr) 2002-05-08 2003-11-19 Sap Ag Méthode et système pour le traitement et la mémorisation du signal de parole d'un dialogue
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1361740A1 (fr) * 2002-05-08 2003-11-12 Sap Ag Méthode et système de traitement des informations de la parole d'un dialogue
US7340392B2 (en) * 2002-06-06 2008-03-04 International Business Machines Corporation Multiple sound fragments processing and load balancing
US7788097B2 (en) * 2002-06-06 2010-08-31 Nuance Communications, Inc. Multiple sound fragments processing and load balancing
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
WO2010019831A1 (fr) * 2008-08-14 2010-02-18 21Ct, Inc. Modèle de markov caché pour un traitement de la parole avec procédé de mise en pratique
EP2609587B1 (fr) * 2010-08-24 2015-04-01 Veovox SA Système et procédé de reconnaissance d'une instruction vocale d'utilisateur dans un environnement bruyant
US9711133B2 (en) * 2014-07-29 2017-07-18 Yamaha Corporation Estimation of target character train
US9462456B2 (en) 2014-11-19 2016-10-04 Qualcomm Incorporated Method and apparatus for creating a time-sensitive grammar
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
JP2018170539A (ja) * 2017-03-29 2018-11-01 ソニー株式会社 スピーカ装置、オーディオデータ供給装置及びオーディオデータ再生システム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
JPS592040B2 (ja) * 1976-08-24 1984-01-17 日本電信電話株式会社 音声認織装置
US4228498A (en) * 1977-10-12 1980-10-14 Dialog Systems, Inc. Multibus processor for increasing execution speed using a pipeline effect
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4238597A (en) * 1979-04-26 1980-12-09 General Electric Company Process for producing copolyester-carbonates
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
JPS56121100A (en) * 1980-02-29 1981-09-22 Nissan Motor Voice identification driving device
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
DE3236000A1 (de) * 1982-09-29 1984-03-29 Blaupunkt-Werke Gmbh, 3200 Hildesheim Verfahren zum klassifizieren von audiosignalen

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ICASSP 81 (IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. 2, 30 mars - 1 avril 1981, Atlanta, US), pages 720-723, IEEE, New York, US; H. NEY: "An optimization algorithm for determining the endpoints of isolated utterances" *
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. ASSP-24, no. 3, juin 1976, pages 201-212, New York, US; B.S. ATAL: "A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition" *
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, vol. ASSP-28, no. 2, avril 1980, pages 129-136, IEEE, New York, US; S. FURUI: "A training procedure for isolated word recognition systems" *
IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, vol. SMC-2, no. 1, janvier 1972, pages 66-72, New York, US; C.C. TAPPERT: "A preliminary investigation of adaptive control in the interaction between segmentation and segment classification in automatic recognition of continuous speech" *
THE BELL SYSTEM TECHNICAL JOURNAL, vol. 54, no. 2, février 1975, pages 297-315, New York, US; L.R. RABINER et al.: "An algorithm for determining the endpoints of isolated utterances" *

Also Published As

Publication number Publication date
FR2520913B1 (fr) 1986-12-19
DE3236834C2 (de) 1995-09-28
GB2107100A (en) 1983-04-20
JPH05232984A (ja) 1993-09-10
JPS58134700A (ja) 1983-08-10
JPH0816187A (ja) 1996-01-19
GB2107100B (en) 1985-09-11
CA1182223A (fr) 1985-02-05
DE3236834A1 (de) 1983-10-06
US4481593A (en) 1984-11-06

Similar Documents

Publication Publication Date Title
FR2520913A1 (fr) Procede et appareil de reconnaissance de mots-cles dans des paroles
FR2520912A1 (fr) Procede et appareil de reconnaissance de parole continue
FR2520911A1 (fr) Procede et appareil d&#39;analyse pour la reconnaissance de parole
US9093081B2 (en) Method and apparatus for real time emotion detection in audio interactions
KR910002198B1 (ko) 음성인식방법과 그 장치
EP0363233B1 (fr) Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d&#39;onde
EP0594480B1 (fr) Procédé de détection de la parole
EP1159737B9 (fr) Reconnaissance du locuteur
EP0867856A1 (fr) &#34;Méthode et dispositif de detection d&#39;activité vocale&#34;
US9058384B2 (en) System and method for identification of highly-variable vocalizations
Barnard et al. Real-world speech recognition with neural networks
Räsänen et al. Comparison of syllabification algorithms and training strategies for robust word count estimation across different languages and recording conditions
EP0621582B1 (fr) Procédé de reconnaissance de parole à apprentissage
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
US5794191A (en) Neural network based speech recognition method utilizing spectrum-dependent and time-dependent coefficients
KR20200090601A (ko) 사운드 이벤트 탐지 모델 학습 방법
JPS59126599A (ja) 連続ワ−ドストリング認識方法および装置
WO2005112000A1 (fr) Procede et systeme de reconnaissance vocale par modelisation contextuelle d’unites vocales
CA1199730A (fr) Methode et appareil de reconnaissance de chaines de mots continues
FR2689292A1 (fr) Procédé et système de reconnaissance vocale à réseau neuronal.
CN113921024A (zh) 发音特征的提取方法、装置、设备及存储介质
FR2691829A1 (fr) Système de reconnaissance de la parole.
FR2684226A1 (fr) Procede et dispositif de decision de voisement pour vocodeur a tres faible debit.
FR2751776A1 (fr) Procede d&#39;extraction de la frequence fondamentale d&#39;un signal de parole
JPS59127099A (ja) 連続音声認識の改良

Legal Events

Date Code Title Description
ST Notification of lapse