FR2520912A1 - Procede et appareil de reconnaissance de parole continue - Google Patents

Procede et appareil de reconnaissance de parole continue Download PDF

Info

Publication number
FR2520912A1
FR2520912A1 FR8216619A FR8216619A FR2520912A1 FR 2520912 A1 FR2520912 A1 FR 2520912A1 FR 8216619 A FR8216619 A FR 8216619A FR 8216619 A FR8216619 A FR 8216619A FR 2520912 A1 FR2520912 A1 FR 2520912A1
Authority
FR
France
Prior art keywords
keyword
word
pattern
motif
downtime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR8216619A
Other languages
English (en)
Other versions
FR2520912B1 (fr
Inventor
Stephen Lloyd Moshier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VERBEX CORP
Original Assignee
VERBEX CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VERBEX CORP filed Critical VERBEX CORP
Publication of FR2520912A1 publication Critical patent/FR2520912A1/fr
Application granted granted Critical
Publication of FR2520912B1 publication Critical patent/FR2520912B1/fr
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)

Abstract

L'INVENTION CONCERNE LA RECONNAISSANCE DE FILES DE MOTS DANS UN SIGNAL ACOUSTIQUE CONTINU. LES FILES DE MOTS SONT FORMEES DE PLUSIEURS ELEMENTS TELS QUE DES MOTS REPRESENTES PAR DES MATRICES AYANT PLUSIEURS MOTIFS OBJETS. CHAQUE MOTIF OBJET EST REPRESENTE PAR PLUSIEURS FONCTIONS STATISTIQUES QUI DECRIVENT LE COMPORTEMENT PREVU D'UN GROUPE DE SPECTRES OBTENUS PAR TRAITEMENT DU SIGNAL ACOUSTIQUE RECU. LES SPECTRES TRAITES SONT COMPARES A DES MOTIFS OBJETS DES MATRICES D'ELEMENTS. UNE TECHNIQUE DE CHAINAGE ET DE PROGRAMMATION DYNAMIQUE PERMET LA DETERMINATION DES MOTS D'UNE FILE DE MOTS. APPLICATION AUX PROCEDES ET APPAREILS DE RECONNAISSANCE DE PAROLE CONTINUE.

Description

La présente invention concerne un procédé et un appareil de reconnaissance
de parole, et plus précisément un procédé et un appareil de reconnaissance en temps réel de
files de mots d'un signal acoustique continu.
On a déjà proposé divers systèmes de reconnaissance
de parole destinés à reconnaître des émissions isolées par com-
paraison d'un signal acoustique inconnu isolé, convenablement
traité, à une ou plusieurs représentations préparées préa-
lablement de mots-clés connus Dans ce présent mémoire; le terme "mot-clé" est utilisé pour désigner un groupe connecté de phonèmes et de sons et il peut s'agir par exemple d'une partie d'une syllabe, d'un mot, d'un membre de phrase, etc. Bien que de nombreux systèmes n'aient rencontré qu'un succès limité, un système en particulier a été utilisé de façon
satisfaisante dans des applications commerciales pour la re-
connaissance de mots-clés isolés Ce système fonctionne pra-
tiquement comme décrit dans le brevet des Etats-Unis d'Améri-
que ne 4 038 503, et le procédé décrit permet la reconnaissance satisfaisante d'un mot-clé d'un vocabulaire limité, pourvu que les limites des données du signal acoustique inconnu soient formées par un silence ou par un bruit de fond, dans la mesure par l'appareil de reconnaissance Celui-ci repose sur l'hypothèse selon laquelle l'intervalle pendant lequel le
signal acoustique inconnu apparaît est bien délimité et ne con-
tient qu'une seule émission de mot-clé.
Dans un signal acoustique continu, tel qu'une con-
versation continue, dans laquelle les limites des mots-clés ne sont pas a priori connues ou marquées, on a mis au point
plusieurs procédés pour la segmentation des données acous-
tiques reçues, c'est-à-dire pour la détermination des limites d'éléments linguistiques tels que les phonèmes, les syllabes, les mots, les phrases, etc, avant le début d'un processus
de reconnaissance des mots-clés Ces ensembles de recon-.
naissance de parole continue n'ont cependant rencontré qu'un succès limité en partie parce qu'on ne connaît pas de procédé satisfaisant de segmentation D'autres problèmes importants se posent encore Par exemple, seuls des vocabulaires limités peuvent être reconnus de façon fiable avec un faible taux de fausses alarmes La précision de la reconnaissance dépend beaucoup des différences entre les caractéristiques vocales des différentes personnes qui parlent Enfin, les ensembles sont très sensibles à la distorsion des signaux acoustiques
analysés, par exemple due à la transmission des signaux acous-
tiques par un appareil ordinaire de communication téléphonique.
Les procédés de reconnaissance de parole continue décrits dans les brevets des Etats-Unis d'Amérique
n 4 227 176, 4 241 329 et 4 227 177 sont des procédures ef-
ficaces et acceptables commercialement pour la reconnais-
sance satisfaisante et en temps réel de mots-clés de parole continue Les procédés généraux décrits dans ces brevets sont actuellement utilisés commercialement et ils ont montré, expérimentalement et au cours d'essais pratiques, qu'ils donnaient une grande fiabilité et un faible taux d'erreurs dans des conditions dlindépendance par rapport à la personne qui parle Néanmoins, ces appareils eux-mêmes, bien qu'ils soient à la pointe de la technologie actuelle, et le principe sur lequel ils reposent présentent des inconvénients portant
à la fois sur le taux des fausses alarmes et sur les caracté-
ristiques d'indépendance par rapport à la personne qui parle.
Les procédés de reconnaissance de parole continue décrits dans les brevets précités des Etats-Unis d'Amérique concernent essentiellement la reconnaissance ou le repérage d'un mot-clé parmi plusieurs dans une parole continue Dans d'autres applications, une file continue de mots peut être
reconnue, si bien que le résultat du processus de reconnais-
sance est l'identité de chacun des éléments individuels des mots de la file continue Une file continue de mots, dans ce contexte, comprend plusieurs éléments reconnaissables qui
sont limités par du silence Il s'agit par-exemple de l'ap-
pareillage commercial indiqué précédemment dans son applica-
tion à des mots isolés dans lesquels les limites sont a priori connues Cependant, dans le cas considéré selon l'invention, les limites, c'est-àdire, le silence, sont inconnues et doivent être déterminées par l'appareil de reconnaissance lui-même En outre, les éléments examinés ne sont plus des éléments de mots-clés mais plusieurs éléments enchaînés sous forme d'une file de mots On a suggéré divers procédés et
appareils pour la reconnaissance des files continues de mots.
cependant, ils présentent divers inconvénients tels que un taux élevé de fausses alarmes, de mauvaises caractéristiques
d'indépendance par rapport à la personne qui parle, et l'ab-
sence d'un fonctionnement en temps réel.
L'invention concerne un procédé et un appareil, de reconnaissance de parole ayant une grande efficacité pour la
"connaissance de files continues de mots dans un signal acous-
tique continu et non marqué Elle concerne aussi un procédé et un appareil relativement peu sensible à la distorsion de
phase et d'amplitude du signal acoustique inconnu reçu, re-
lativement peu sensible aux variations de la fréquence d'ar-
ticulation des signaux acoustiques inconnus reçus, ayant une réponse également bonne aux différentes personnes qui parlent et donc aux différentes caractéristiques vocales, fiable, ayant
un faible taux de fausses alarmes et permettant un fonction-
nement en temps réel.
Ainsi, l'invention concerne un procédé et un appareil d'analyse de signaux acoustiques Plus précisément, le signal acoustique est un signal de parole et le procédé et l'appareil reconnaissent des mots-clés dans la parole Chaque mot-clé est caractérisé par une matrice de mot-clé ayant au moins un motif objet Chaque motif objet représente au moins un spectre
d'énergie de courte durée et chaque motif est en outre asso-
cié à au moins un temps d'arrêt nécessaire suivi par au moins un temps d'arrêt éventuel En général, chaque motif objet a
plusieurs temps d'arrêt nécessaires et éventuels.
Le procédé de reconnaissance comprend la formation, à une fréquence de trame, d'une séquence de motifs de trame dérivée du signal acoustique et représentant celui-ci Des mesures numériques de la similitude de chaque motif de trame
et de chaque motif objet sont alors formées Le procédé com-
prend en outre l'accumulation, pour chaque motif objet né-
cessaire et chaque temps d'arrêt éventuel, et à l'aide des
mesures numériques, d'une valeur numérique représentant l'ali-
gnement du motif de trame qui vient juste d'être formé pour la représentation du signal acoustique sur les temps d'arrêt
des motifs objets, et la prise d'une décision de reconnais-
sance d'après les vapeurs numériques lorsqu'un évènement prédéterminé apparaît dans le signal acoustique Cet évènement
déterminé est de préférence la reconnaissance d'un "silence".
Dans un autre mode de réalisation, l'opération d'accumulation comprend ( 1) l'accumulation, pour un second temps d'arrêt et les temps ultérieurs d'arrêt pour chaque motif cible, de la somme de la cote accumulée pour le temps d'arrêt du motif cible précédent pendant le temps de la trame précédente et de la mesure numérique actuelle associée au motif cible, ( 2)l'accumulation, pour le premier temps d'arrêt nécessaire du premier motif objet de chaque mot-clé, de la
-.somme de la meilleure cote accumulée pendant la trame anté-
rieure qui est associée à la fin d'un mot-clé et de la mesure actuelle associée au premier motif objet du mot-clé, et ( 3) l'accumulation, pour le premier temps d'arrêt de chaque autre motif objet, de la somme de la meilleure valeur accumulée de fin pour le motif objet antérieur du même mot-clé et de la
mesure numérique actuelle associée au motif objet.
-Le procédé comprend en outre la mémorisation, avec
chaque temps de trame, de l'identité et de la durée du mot-
clé ayant la meilleure cote et une fin valable au temps de la trame, par rapport au temps de trame, et la conservation, en association avec la cote accumulée pour chaque temps d'arrêt, d'un nombre représentant la durée d'un mot et correspondant à
la longueur dans le temps du mot-clé associé à la cote accu-
mulée au temps d'arrêt De cette manière, la prise de décision -comprend en outre le retour dans l'identité des mots-clés et l'information de durée qui sont mémorisés, afin que chaque
mot-clé d'une file de mots puisse être déterminé.
L'invention concerne aussi un procédé qui comprend la conservation, en association avec chaque code accumulé correspondant aux temps d'arrêt, d'un nombre représentant la durée d 'un mot-clé Ce nombre de durées correspond au nombre de mesures numériques, c'est-à-dire au nombre de temps d'arrêt qui ont été accumulées pour la formation de la cote de temps d'arrêt pour le motif actuel de mot-clé Dans un autre mode de réalisation, le procédé dirige le transfert des cotes accumulées en fonction des ordres d'un circuit
commandé par une syntaxe.
L'appareil selon l'invention peut être réalisé uni-
quement sous forme de circuit, uniquement sous forme d'un lo-
giciel ou par mise en oeuvre d'un mélange des deux Les cir-
cuits matériels utilisés pour la mise en oe'uvredu procédé selon l'invention sont décrits plus en détail dans la suite
du présent mémoire.
D'autres caractéristiques et avantages de l'inven-
tion ressortiront mieux de la description qui va suivre, faite
en référence aux dessins annexés sur lesquels la figure 1 est un organigramme représentant sous forme'générale la séquence d'opérations exécutées lors de la mise en oeuvrede l'invention
la figure l A est un diagramme synoptique d'un appa-
reil selon un mode de téalisation avantageux de l'invention; la figure 2 est un diagramme synoptique d'un appareil
électronique destiné à exécuter certaines opérations de trai-
tement préalable du processus global représenté sur la figure 1; la figure 3 est un organigramme d'un programme d'un ordinateur exécutant certaines procédures du procédé de la figure 1
la figure 4 est une représentation graphique illus-
trant l'alignement des motifs selon l'invention
la figure 5 est un diagramme synoptique d'un pro-
cesseur d'une fonction de vraisemblance selon un mode de ré-
alisation avantageux de l'invention; la figure 6 est un diagramme synoptique d'un circuit de soustraction et de mesure de vapeur absolue selon un mode de réalisation avantageux de l'invention; la figure 7 est un diagramme synoptique d'un circuit logique de détection de débordement selon l'invention la figure 8 est une table de vérité du circuit de la figure 7
la figure 9 est un diagramme synoptique d'un pro-
cesseur de syntaxe selon un mode de réalisation particulier de l'invention; et
la figure 10 est un diagramme synoptique représen-
tant la configuration d'un circuit d'alignement de motifs et
de décodage séquentiel, selon un mode de réalisation avanta-
geux de l'invention.
Sur les diverses figures, les références identiques
désignent des éléments analogues.
Dans un mode de réalisation particulièrement avan-
tageux de l'invention, décrit dans la suite du présent mémoire, la reconnaissance de parole est effectuée par un appareil qui comprend à la fois un circuit électronique spécialisé destiné à assurer certains traitement analogiques et numériques des
signaux acoustiques reçus, en général de la parole, et un or-
dinateur d'amploi universel programmé selon l'invention afin qu'il exécute certaines autres opérations de réduction de données et des évaluations numériques La division des tâches entre les circuits et le logiciel, dans cet appareil, est telle que l'ensemble permet une reconnaissance de parole en temps réel et à un coût modéré Cependant, il faut noter que certaines des tâches réalisées par les circuits, dans cet appareil particulier, peuvent être exécutéesnpar un logiciel et que certaines des tâches exécutées par un logiciel, dans
l'exemple considéré, peuvent aussi Are exécutées par des cir-
cuits spécialisés, dans d'autres modes de réalisation de l'invention A cet égard,Yon décrit à la fois les réalisations
sous forme de circuits et de logiciel le cas échéant.
L'invention concerne ainsi un appareil qui reconnaît une file de mots dans des signaux de parole continue malgré
la distorsion de ces signaux par exemple vers une ligne télé-
phonique Ainsi, comme l'indique la figure 1, le signal vocal reçu 10 peut être considéré comme un signal vocal formé par un combiné téléphonique à microphone de carbone relié par une ligne téléphonique de distance arbitraire et comprenant
un nombre quelconque de centraux intermédiaires Une appli-
cation de l'invention est donc la reconnaissance de files continues de mots dans des données acoustiques provenant
d'une source inconnue reliée par un réseau téléphonique.
D'autre part, le signal reçu peut aussi être un signal acous- tique quelconque, par exemple un signal vocal, provenant d'une
liaison radioélectrique, par exemple d'une station de radio-
diffusion, d'une liaison privée ou d'un opérateur placé à
côté de l'appareil.
Comme l'indique la description qui suit, le procédé
et l'appareil selon l'invention concerne la reconnaissance de signaux de parole contenant une séquence de sons ou phonèmes,
ou d'autres signes reconnaissables Dans la présente descrip-
tion et dans les revendications, les termes et expressions
"mots", "éléments", "séquence de motifs objets", "motif
matrice" et "matrice d'élément" sont considérés comme géné-
riques et équivalents Ces mots et expressions sont commodes pour la désignation d'une séquence reconnaissable de sons
acoustiques ou de leurs représentations, se combinant en for-
mant des files de mots qui peuvent être détectés et reconnus selon l'inventicn Ainsi, ces mots et expressions désignent de façon générale des génériques d'un élément linguistique allant d'un simple phonème, d'une simple syllabe ou d'un simple son à une série de mots (considérés au sens grammatical) aussi
bien qu'un mot unique.
Un convertisseur analogique-numérique 13 reçoit le signal acoustique analogique reçu par la ligne 10 et met
l'amplitude du signal reçu sous forme numérique Le conver-
tisseur représenté est destiné à transformer le signal reçu en une représentation à 12 bits, les convergents étant effectués à raison de 8000 par seconde (Dans d'autres modes
de réalisation, on peut utiliser d'autres fréquences d'é-
chantillonnage telles que 16 k Hz dans le cas o le signal disponible a une bonne qualité) Le convertisseur 13 transmet son signal de sortie à un circuit 17 d'autocorrélation par l'intermédiaire'des lignes 15 Ce circuit 17 traite les signaux numériques et forme une fonction d'autocorrélation de courte durée 100 fois par seconde et transmet son signal
de sortie par des lignes 19 Chaque fonction d'autocorré-
lation a 32 valeurs ou canaux calculés chacun avec une réso-
lution de 30 bits Le circuit d'autocorrélation est décrit plus en détail dans la suite du présent mémoire en réfé-
rence à la figure 2.
Les fonctions d'autocorrélation transmises par les
lignes 19 subissent une transformation de Fourier dans l'ap-
pareil 21 afin que des spectres d'énergie de courte durée,
ayant subi un traitement par une fonction fenêtre et corres-
pondant aux fonctions initiales, soient transmis par les lignes 23 Les spectres sont formés à la même fréquence de répétition que les fonctions d'autôcorrélation, c'est-à-dire à rason de par seconde, et chaque spectre d'énergie de courte durée
a 31 termes numériques ayant chacun une résolution de 16 bits.
Il faut noter que chacun des 31 termes du spectre représente l'énergie du signal dans une bande de fréquence L'appareil
de transformation-met aussi de préférence en oeuvre une fonc-
tion fenêtre de Hamming ou analogue afin que les réponses pa-
rasites dues aux bandes adjacentes soient réduites.
Danes un premier mode de réalisation considéré, la transformation de Fourier et les opérations suivantes de traitement sont exécutées de préférence sous la commande d'un ordinateur d'emploi universel convenablement programmé, à l'aide d'un processeur à arrangements périphériques destiné à accélérer les opérations arithmétiques qui doivent être
répétées par mise en oeuvre du procédé de l'invention L'ordi-
nateur utilisé est du type PDP-ll fabriqué par the Digital Equipment Corporation, Maynard, Massachusetts Le processeur d'arrangement particulier utilisé est décrit dans le brevet
des Etats-Unis d'Amérique né 4 228 498 La programmation dé-
crite dans la suite du présent mémoire en référence à la
figure 3, correspond pratiquement aux possibilités et carac-
téristiques de ces ensembles de traitement qui sont disponibles
dans le-commerce.
Les spectres d'énergie de courte durée traités par la fonction fenêtre subissent une égalisation de leur réponse en fréquence comme indiqué par la référence 25, en fonction des amplitudes de crête dans chaque canal ou bande de fréquence comme décrit plus en détail dans la suite du présent mémoire Les spectres ayant subi l'égalisation transmis par les lignes 26, ont une fréquence de 100 par seconde et chaque spectre a 31 termes numériques évalués à
une précision de 16 bits Les spectres ayant subi l'égalisa-
tion et le traitement, transmis par la ligne 26, subissent une transformation d'amplitude 35 sous une forme non linéaire afin que l'évaluation finale des données acoustiques reçues soit facilitée La transformation est décrite en détail dans la suite du présent mémoire, mais on peut déjà noter qu'elle
augmente la précision d'adaptation du signal acoustique incon-
nu reçu aux matrices des motifs objets dans le vocabulaire de
référence Dans le mode de réalisation considéré, cette trans-
formation est exécutée sur tous les spectres ayant subi l'é-
galisation et le traitement, avant la comparaison des spectres avec les motifs représentant les éléments du vocabulaire de référence. Les spectres ayant ainsi subi la transformation et l'égalisation, transmis par les lignes 38, sont alors comparés aux matrices d'éléments 40 comme décrit en détail dans la suite du présent mémoire Les motifs de référence 42 représentent les éléments du vocabulaire de référence d'une manière statistique, auxquels les spectres transformés et égalisés peuvent être
comparés Chaque fois qu'un "silence" est détecté, une déci-
sion est prise quant à l'identité de la file de mots qui vient d'être reçue comme indiqué en 44 Les mots candidats sont alors choisis d'après l'étroitesse de la comparaison et,
dans le mode de-réalisation représenté, le processus de sé-
lection est destiné à réduire au minimum la probabilité pour
qu'un mot-clé soit oublié.
Comme l'indique la figure l A, un appareil de re-
connaissance de parole selon l'invention comporte un organe 45 de commande qui-peut être par exemple un ordinateur d'emploi universel tel que l'ordinateur PDP-ll ou unorgane matériel construit spécialement Dans le mode de réalisation considéré, l'organe 45 reçoit les données acoustiques ayant subi le traitement préalable d'un processeur préalable 46 décrit plus en'détail en référence à la figure 2 Ce processeur 46 reçoit les àgnaux analogiques acoustiques par une ligne 47 et transmet les signaux traités par des lignes 48 de couplage
à l'ordinateur de commande.
La vitesse de fonctionnement de l'ordinateur de commande, lorsqu'il s'agit d'un ordinateur d'emploi universel, n'est pas suffisamment grande en général pour que les données reçues soient traitées en temps réel En conséquence, divers circuits spécialisés peuvent être avantageusement utilisés afin que la vitesse de traitement de l'élément 45 soit accrue En particulier, un processeur vectoriel 48 a tel que décrit dans le brevet précité des Etats-Unis d'Amérique N O 4 228 498 permet une augmentation très importante du traitement d'arrangement par mise en oeuvre d'un essai de circulation En outre, comme
décrit plus en détai L en référence aux figures 4 à 6, un pro-
cesseur 48 b mettant en oeuvre une fonction de vraisemblance
peut être utilisé avec le processeur vectoriel afin que la vi-
tesse de fonctionnement de l'appareil soit multipliée par un
facteur dix.
Bien que le processeur 45 de commande soit un ordi-
nateur dans un mode de réalisation avantageux, une partie importante des possibilités de traitement peut être externe au processeur de commande, dans un processeur 49 de décodage
séquentiel dans un autre mode de réalisation particulier dé-
crit en référence à la figure 10 La structure de ce processeur est décrite plus en détail dans la suite Ainsi, l'appareil de reconnaissance de parole a une grande souplesse, puisque sa vitesse peut être très variable et puisqu'il peut être réalisé soit sous forme de matériel seul, soit sous forme de logiciel seul soit sous forme d'une combinaison avantageuse de matériel
et de logiciel.
Processeur préalable Dans l'appareil représenté sur la figure 2, une fonction d'autocorrélation avec l'opération de formation d'une moyenne intrinsèque, est exécutée numériquement dans le courant de données numériques créé par le convertisseur 13 qui traite-les données acoustiques analogiques reçues par la ligne l J,-en général un signal vocal Le convertisseur 13
transmet un signal numérique par les lignes 15 Les fonc-
tions de traitement numérique et de conversion analogique-
numérique sont synchronisées par un oscillateur 51 d'horlor 1 e.
Celui-ci transmet un signal de synchronisation fondamental de 256 000 impulsions par seconde, et ce signal parvient à un circuit diviseur de fréquence 52 qui donne un second signal de synchronisation à 8000 impulsions par seconde Le signal de synchronisation plus lent commande le convertisseur 13 et un registre 53 à-bascule qui contient les résultats à 12 bits de la dernière conversion jusqu'à ce que la conversion
suivante soit terminée.
Les produits d'autocorrélatior sont formés par un circuit multiplicateur numérique 56 qui multiplie le nombre
contenu dans le registre 53 par le signal de sortie d'un re-
gistre à décalage 58 à trente deux mots Ce registre 58 est commandé d'un'e manière circulante et il est piloté à la
fréquence d'horloge la plus grande, si bien qu'une circula-
tion complète des données du registre à décalage est réalisée pour chaque conversion analogique-numérique Un signal d'entrée dans le registre 58 est prélevé dans le registre 53 une fois par chaque cycle complet de circulation Un signal d'entrée du circuit multiplicateur 56 est prélevé directement dans
le registre 53 et l'autre signal d'entrée du circuit mtilti-
plicateur est prélevé (à une exception près indiquée dans la suite du présent mémoire) à la sortie actuelle du registre à décalage par l'intermédiaire d'un multiplexeur 59 Les
multiplications sont exécutées à la fréquence élevée d'horloge.
Ainsi, chaque valeur obtenue par conversion analogique-numérique est multipliée par chacune des trente et une valeurs précédentes de conversion Comme le notent les I? hommes du métier, les signaux ainsi crtés équivalent Il la multiplication du signal d'entrée par lui-même, retardé dans le temps par trente deux temps élémentaires différents (l'un
ayant un retard nul), Le multiplexeur 59 provoque la multipli-
cation de la valeur actuelle du registre 53 par elle-même au moment o chaque nouvelle valeur est introduite dans le registre à décalage afin' qu'il forme la corrélation avec un'
retard zéro, c'est-à-dire l'énergie du signal Cette fonc-
tion de synchronisation est indiquée par la référence 60.
Comme le savent les hommes du métier, les produits d'une conversion unique avec ses 31 prédécesseurs,
ne constituent pas une représentation véritable de la répar-
tition d'énergie ou du spectre dans un intervalle raisonna-
ble d'échantillonnage L'appareil de la figure 2 forme donc
la moyenne de ces jeux de produits.
Une opération d'accumulation qui permet la réa-
lisation de la moyenne, est assurée par un registre à décalage 63 à trente deux mots qui est relié à un additionneur 65 afin qu'il forme un jeu de trente deux accumulateurs Ainsi, chaque mot peut circuler après avoir été ajouté à l'élément
correspondant provenant du circuit multiplicateur numérique.
La boucle de circulation passe dans une porte 67 qui est commandée par un circuit 69 de division par N piloté par le signal d'horloge à basse fréquence Le circuit diviseur 69 divise le signal d'horloge à basse fréquence par un facteur
qui détermine le nombre de fonctions instantanées d'auto-
corrélation qui sont cumulées avant formation de la moyenne
avant lecture du registre 63.
Dans le mode de réalisation représenté, quatre vingts échantillons sont cumulés avant d'être lus En d'autres
termes, le nombre N du circuit 69 est égal à quatre-vingts.
Après la corrélation et l'accumulation des quatre-vingts échantillons de conversion, le circuit 69 commande un circuit 71 d'interruption de l'ordinateur par une ligne 72 A ce moment, le contenu du-registre 63 est successivement transmis à la
mémoire de l'ordinateur par un circuit convenable 73 de cou-
plage, les trente deux mots successifs du registre étant
H S 2520912
présentés suivant une séquence ordonnée h 1 'o Vrdirinteur par
le circuit 73 Comme le savent les hommes du métier, ce trans-
fert de données par un périphérique, c'est-à-dire le proces-
seur préalable d'autocorrélation, à l'ordinateur, peut être exécuté par exemple par une procédure d'accès direct à la mémoire A une fréquence initiale d'échantillllonnage de 8000 échantillons par seconde, et d'après une moyenne sur
quatre-vingts échantillons, on note que 100 fonctions moyen-
nées d'sutocorrélation sont transmises à l'ordinateur à cha-
que seconde.
Pendant que le contenu du registre à décalage
est transmis à l'ordinateur, la porte 67 est Fermée de ma-
nière que chacun des mots du registre soit remis en fait à
zéro et permette à l'accumulation de recommencer.
L'opération mise en oeuvre par l'appareil de la figure 2 peut être représentée mathématiquement sous la
forme suivante.
On suppose que le convertisseur analogique-
numérique forme la série temporelle S(t) dans laquelle t = O, To, 2 To, To étant l'intervalle d'échantillonnage (soit 1/8000 S dans le mode de réalisation considéré), et le circuit numérique de corrélation représentésur la figure 2 peut Ptre considéré comme calculant la fonction de corrélation a(j, t) = S(t+k To) S(t+(k-j) To) (i) k=O (dans laquelle j = O, 1, 2,, 31 et t est égal à 80 To, To,, 80 N To,, si l'on néglige les ambiguïtés b la mise en route Ces fonctions d'autocorrélation correspondent aussi à des corrélations transmises par les lignes 19 de la
figure 1.
Sur la figure 3, le corrélatetir numériquec finnc-
tionne de façon continue et transmet à l'ordinateur une série
de blocs de données à raison d'une fonction complète d'auto-
corrélation toutes les 10 millisecondes La référence 77 (figure 3) représente cette opération Chaque bloc de données
représente la fonction d'autocorrélation tirée d'un sous-
intervalle correspondant de temps Comme indiqué précédei,-
-; -ment, les fonctions d'autocorrélation représentées sont transmises à l'ordinateur à raison de 10 U fonctions de trente deux mots par seconde Cet intervalle d'analyse est appelé "trame" dans la suite du présent mémoire. Dans le premier mode de réalisation représenté, :.: le traitement des données des fonctions d'autocorrélation -: est réalisé par un ordinateur spécialisé, programmé de façon È convenable L'organigramme qui comprend la fonction assurée par le programme, est représenté sur la figure 3 Cependant, il faut noter que diverses opérations peuvent être exécutées par les circuits et non par un loqiciel et que certaines fonctions exécutées par l'appareil de la figure 2 peuvent -L être exécutées par un logiciel, l'organigramme de la figure
3 étant modifié de manière correspondante.
Bien que le corrélateur numérique de la figure
2 forme la moyenne au cours du temps des fonctions d'auto-
corrélation créées d'une manière instantanée, les fonctions moyennes transmises à l'ordinateur peuvent encore contenir certaines irrégularités ou discontinuités anormales qui peuvent perturber le traitement et l'évaluation ordonnés
X des échantillons Ainsi, chaque bloc de données, c'est-à-
-' dire chaque fonction d'autocorrélation a(j,t) est d'abord
lissée dans le temps La référence 78 indique cette opéra-
tion dans l'organigramme de la figure 3 L'opération de lis-
sage est de préférence telle que la fonction lissée a (j,t) - est as(j, t) = C a(j,t) + C 1 a(j, t T) + C 2 a(j,t 2 T) ( 2) a(j,t) étant la fonction non lissée donnée par l'équation ( 1), as(j,t) étant la fonction lissée d'autocorrélation alors
* que j désigne le retard temporel, t le temps réel et T l'in-
tervalle de temps séparant les fonctions consécutives d'auto-
corrélation (trames) cet intervalle étant écal à 0,01 seconde dans un mode de réalisation avantageux Les fonctions de pondération CO, C 1, C 2, sont de préférence choisies de manière
qu'elles correspondent à 1/4, 1/2, 1/4 dans le mode de réali-
: tion considéré, bien que d'autres valeurs puissent être choisies.
À ')
Par exemple, une fonction de lissage correspondant sensible-
ment à une réponse impulsionnelle gaussienne à une frétquence de coupure de 20 Hz par exemple, peut être mise en oeuvre par le logiciel Cependant, les expériences montrent que la fonction de lissage représentée qui est facile à mettre en oeuvre comme l'indique l'équation ( 2) donne des résultats satisfaisants Comme indiqué, la fonction de lissage est
exécutée séparément pour chaque valeur j de retard.
La description qui suit montre que l'analyse
suivante implique diverses opérations sur le spectre d'énergie de Fourier de courte durée du signal de parole et, pour des
raisons de simplicité des circuits et de vitesse de traite-
ment, la transformation de la fonction d'autocorrélation dans le domaine de fréquence est exécutée arithmétiquement sur 8 bits dans le mode de réalisation représenté Dans la partie haute de la bande passante, près de 3 K Hz, la densité spectrale diminue à une valeur pour laquelle la résolution
ne convient pas sous forme de quantités à 8 bits En consé-
quence, la réponse en fréquence de l'ensemble est modifiée d'une manière croissante à raison de 6 d B par octave La référence 79 indique cette opération Cette accentuation des fréquences élevéesest réalisée à l'aide de la dérivée seconde de la fonction d'autocorrélation par rapport à son argument, c'est-à-dire au retard temporel L'opération de dérivation est b(j,t) = -a(j+l, t) + 2 a(j,t) a(j-l,t) ( 3) On suppose, pour l'évaluation de la dérivée pour j = O, que la fonction d'autocorrélation est symétrique par rapport à 0, si bien que a(-j,t) = a(+j,t) En -outre il n'y a pas de données pour a( 32), si bien que la dérivée pour j = 31
est égale à la dérivée pour j = 30.
Comme indiqué dnns l'or ganiqranimne (de la fi(ure( 3,
le pas suivant dans la procédure d'analyse, après l'accentua-
tion des fréquences élevées, est l'estimation de l'énergie du signal dans l'intervalle actuel de trame par détermination de la valeur absolue de crête de l'autocorrélation L'estimation de l'énergie P(t) est P(t) = max Ib(i,t L ( 4) i
La fonction lissée d'autocorrélation est norma-
lisée par blocs par rapport à P(t)(pour 80) et les 8 bits les plus significatifs de chaque valeur normalisée sont
transmis au circuit d'analyse du spectre afin que l'auto-
corrélation soit préparée pour l'analyse du spectre avec bits La fonction normalisée (et lissée) d'autocorrélation est donc c(j,t) = 127 b(j,t)/P(t) ( 5)
Comme indiqué par la référence 81, une transfor-
mation de F-ourier du type cosinus est alors appliqu 6 e à cha-
que fonction d'aptocorrélation lissée dans le temps, accentuée en fréquence et normalisée c(j,t) afin qu'un spectre d'énergie à 31 points soit formé La matrice des valeurs cosinus est donnée par S(i,j) = 126 g(i) (cos ( 2 i/8000)f(j)), j = 0, 1, 2,, 31 ( 6) avec S(i,j) désignant l'énérgie spectrale dans une bande centrée à f(j) Hz, au temps t, et g(i) = (l + cos 2 'i/63) est l'enveloppe de la fonction fenêtre (de Hanning) afin que les lobes latéraux soient réduits, et f(j) = 30 + 1000 ( 0,0552 j + 0,438) 1/0,63 Hz ( 7) j=O 0, 1, 2,, 31 cette équation indiquant les fréquences d'analyse qui sont également réparties sur la courbe "mel" des sons musicaux subjectifs On sait que ces fréquences correspondent à une hauteur subjective (échelle en mel) avec un espacement suivant l'axe des fréquences pour les fréquences qui se trouvent dans
la bande passante d'un exemple de canal de communication d'en-
viron 300 b 3500 Hz.
Comme l'analyse spectrale nécessite la somma-
tion sur des retards allant de -31 3 + 31, dans l'hypothèse o l'autocorrélation est symétrique autour de zéro, seules les valeurs positives de j sont nécessaires Cependant, la matrice des signes est réglée de manière qu'elle évite le comptage en double du terme de retard zéro sous la forme S(O,j) = 126/2 = 63, pour tous les j ( 8) Ainsi, le spectre calcul d',énergi est donné par 31 S'(j,t): a(i,t) S (i,j), j = O, 1,, 31 ( 9) le jième résultat correspondant à la fréquence f(j). On note ainsi que chaque point ou valeur, dans
chaque spectre, représente une bande correspondante de fré-
quences Bien que cette transformation de Fourier puisse être effectuée totalement dans les circuits classiques, l'opération
peut 'tre considérablement accélérée par utilisation d'un dis-
positif périphérique externe formant un multiplicateur ou
un appareil de transformation rapide de Fourier La construc-
tion et le fonctionnement de tels circuits sont bien connus
et on ne les décrit donc pas La fonction de lissage des fré-
quences est avantageusement incorporée à ce circuit périphé-
rique de transformation, chacun des spectres étant lissé en
fréquence d'après la fonction fenêtre avantageuse de pondéra-
tion g(i) indiquée précédemment (Hamming) L'opération est in-
diquée par la référence 83 du bloc 85 qui correspond à la
réalisation de la transformation de Fourier par des circuits.
Lorsque le bruit de fond est important, une esti-
mation du spectre d'énergie du bruit de fond doit être sous-
traite de S'(j,t) à ce moment La trame ou les trames choisies pour la représentation du bruit ne doivent pas contenir de signaux de parole La règle optimale pour la sélection des intervalles des trames de bruit varie avec l'application Si
la personne qui parle participe à une communication bidirec-
tionnelle par exemple avec une machine commandéepar l'appareil de reconnaissance de parole, il est par exemple commode de choisir une trame arbitrairement dans l'intervalle, juste après que la machine a fini de parler à l'aide de son ensemble de réponse vocale Dans des situations moins contraignantes, la trame de bruit peut être déterminée par sélection d'une trame d'amplitude minimale pendant la période d'une ou deux
secondes du signal acoustique reçu qui vient de s'écouler.
is N 2520912 Les spectres successifs lissés d'énergie sont
reçus à partir du dispositif périphérique 85 et une égalisa-
tion du canal de communication est obtenue par détermination d'une enveloppe du spectre d'énergie de crête (différent de façon générale) à partir des spectres du dispositif 85 et
par modification du signal de sortie de l'appareil de trans-
formation rapide de Fourier, comme décrit dans la suite du présent mémoire Chaque spectre d'amplitude de crête qui
vient d'être créé p (j, t) correspondant à un spectre d'éner-
gie reçu S'(j, t) et remis à jour par ce dernier, j dési-
gnant les différentes bandes de fréquence suspectes,est le résultat d'une attaque rapide, d'une décroissance lente, d'une fonction de détection de crête pour chacune des bandes ou chacun des canaux du spectre Les spectres d'énergie ayant subi le traitement par la fonction fenêtre sont normalisés par rapport aux termes correspondants du spectre respectif
d'amplitudede crête comme l'indique la référence 87.
Dans le mode de réalisation représenté, les valeurs de l'"ancien" spectre d'amplitude de crête p(j, t T) déterminées avant réception d'un nouveau spectre traité, sont comparées-sur une bande de fréquence et pour chaque bande de fréquence avec le nouveau spectre reçu S'(j, t) Le nouveau spectre de crête p(jt) est alors formé d'après les règles suivantes L'amplitude de l'énergie dans chaque bande pour le
spectre ancien est multipliée par une fraction fixe, par exem-
ple 1023/1024 dans l'exemple considéré Ceci correspond à la partie de décroissance lente de la fonction de détection de crête Si l'amplitude d'énergie dans la bande j du spectre S'(j,t) est supérieure à l'amplitude de l'énergie dans la bande correspondante de fréquence du spectre décroissant, la valeur du spectre décroissant pour cette bande de fréquence (ou plusieurs) est remplacée par la valeur du spectre de la bande correspondante du spectre traité reçu Ceci correspond
à l'attaque rapide de la fonction de détection de r F Ate.
Mathématiquement, la fonction de détection de crête peut être représentée sous la forme p(j,t) = max p(j,t-T) ( 1-E); P(t) S'(j,t) j= 0, 1,,31 ( 10)
19 2520912
dans laquelle j désigne chacune des bandes (de F,'éïiumce, p(j,t) représente le spectre de crête résultant, p(j, t-T) le spectre ancien ou antérieur, S'(j,t) le nouveau spectre partiellement traité, P(t) l'estimation d'énergie au temps t et E le paramètre de décroissance.
Selon l'équation ( 10), le spectre de crête dé-
crolt normalement, à part une plus grande valeur d'entrée du
spectre, d'un facteur 1 E Par exemple, E est égal à 1/1024.
Cependant, il peut ne pas être souhaitable que le spectre diminue pendant les intervalles de silence, surtout si on ne prévoit aucun changement rapide des caractéristiques vocales ou du canal On peut utiliser la méthode déjà utilisée pour la sélection des trames du bruit de fond pour déterminer la trame de silence Les amplitudes (racine carrée de P(t)) des 128 trames passées sont inspectées et la valeur minimale
est déterminée Si l'amplitude de la trame en cours est infé-
rieure à quatre fois cette valeur minimale, la trame en
cours est déterminée comme représentant un silence et la va-
leur "zéro" remplace E qui est égale à 1/1024.
Après formation du spectre de crête, le spectre résultant p(j,t) subit un lissage en fréquence comme indiqué par la référence 89 par formation de la moyenne des valeurs de crête de la bande de fréquence, les valeurs de crête
correspondant aux fréquences adjacentes des spectres nouvel-
lement créés, la largeur de la bande globale de fréquence contribuant à la valeur moyenne étant à peu près égale à la
séparation des fréquences entre les fréquences des formants.
Comme le savent les spécialistes en reconnaissance de parole, la séparation est de l'ordre de 1000 Hz environ La formation de la moyenne de cette manière conserve l'information utile des spectres, c'est-à-dire des variations locales indiquant les résonances des Formants alors que l'accentuation globale
du spectre de fréquence est supprimée Dans unt mode de réalisa-
tion avantageux, le spectre de crête est lissé par rapport à la fréquence à l'aide d'une fonction moyenne mobile recouvrant cette bande adjacente de fréquence La fonction de formation de moyenne est e(j,t) = h(j) >_ p(k, L) (-11) k=j-3 Aux extrémités de la bande passante, p(k,t) est rendu égal b O pour-k inférieur à O et k supérieur à 31 L'enveloppe
de normalisation h(j) tient compte du nombre d'éléments va-
lables de données réellement additionnées et on a ainsi h(O) = 7/4, h(l) = 7/5, h( 2) = 7/6, h( 3) = 1, h( 28) = 1, h( 29) = 7/6, h( 30) = 7/5, et h( 31) = 7/4 Le spectre lissé résultant e(j,t) est alors utilisé pour la normalisation et l'égalisation des fréquerres du spectre d'énergie qui vient d'être reçu S'(j,t) par division de l'amplitude de chaque
bande de fréquence du spectre lissé reçu S'(j,t) par la va-
leur correspondante de la bande de fréquence du spectre lis-
sé de'crite e(j,t) Mathématiquement, l'opération est sn(j,t) = (S'(j,t) / e(j,t)) 32767 ( 12) Sn(j,t) étant le spectre lissé et normalisé et j désignant toutes les bandes de fréquence Cette opération est repérée
par la référence 91 Il se forme ainsi une séquence de spec-
tre d'énergie égalisée en fréquence et normalisée, de courte durée et qui accentue les variations du contenu en fréquence des signaux acoustiques reçus tout en supprimant la distors;ion ou l'accentuation généralisée des fréquences sur une grande durée Ce procédé de compensation des fréquences est très avantageux pour la reconnaissance des signaux de paroles transmis par des liaisons de communication qui déforment les fréquences telles que les lignes téléphoniques, par, rapport aux systèmes plus courants de compensation dans lesquels
l'opération repose sur le niveau moyen en énergie soit du si-
gnal global, soit dans chaque bande de fréquence.
Il est utile de noter que, bien que les spectres stuccessifs soient traités et égalisés de diverses manières,
les données représentant les signaux acoustiques reçus comipren-
nent encore des spectres qui ont une fréquence de 100 par
seconde.
Les spectres normalisés et égali:és en fréquence 91 subissent une transformation d'amplitude 93 qui provoque un 2.1
changement d'échelle non linéaire des amplitudes spectrales.
Si l'on appelle sn(j,t) (de l'équation 12) les spectres éqali-
sés et normalisés individuels, j correspondant aux différen-
tes bandes de fréquence du spectre et t le temps réel, le spectre non linéaire décalé x(j,t) est déterminé par la fonction linéaire sous forme d'une fraction x(j,t) = 128 sn(j,t) -A j=O, 1,, 30 ( 13) s (j,t) + A n A étant la valeur moyenne du spectre sn(j,t) pour j= O à j= 31 et étant déterminée sous la forme: A 1 E 31 Sn(j,t) ( 14) 32 j: O j désignant toutes les bandes de fréquence du spectre
d'énergie.
Le trente et unième terme du spectre est rempla-
cé par le logarithme de A si bien que l'on a x( 31,t) = 16 loq 2 A ( 15) La fonction de décalage de l'équation 13 donne un effet de seuil peu accentué et de saturation progressive
des intensités spectrales qui s'écartent beaucoup de la moyen-
ne A de courte durée Mathématiquement, pour les intensités proches de la moyenne, la fonction est à peu près linéaire alors que, pour les intensités plus éloignées, la variation est presque logarithmique et, pour les valeurs extrêmes de l'intensité, la valeur est pratiquement constante Sous une forme logarithmique, la fonction x(j,t) est symétrique par rapport à zéro et elle présente un seuil et un phénomène de saturation qui suggèrent la fonction d'excitation du nerf
auditif En pratique, l'ensemble de reconnaissance a un fonc-
tionnement meilleur avec cette fonction non linéaire d'échelle qu'avec une fonction linéaire ou logarithmique des amplitudes spectrales. Une séquence de spectres d'énergie de courte
durée, d'amplitude transformée, égalisés en fréquence et nor-
malisés x(j,t) est ainsi formée, t étant égal à 0,01, 0,02, 0,03,,seconde et j étant égal à O,, 30 (correspondant
aux bandes de fréquence des spectres formés d'énergie).
Trente deux mots sont formés pour chaque spectre et la valeur
de A (équation 15), c'est-à-dire la valeur moyenne des spec-
tres, est conservée comme trente-deuxième mot -Les spectres transformésappelés "trames" sont conservés comme indiqué
en 95 dans une-mémoire circulant du type premier entré-
premier sorti ayant une capacité de mémoire de 256 spectres
de trente-deux mots dans le mode de réalisation considéré.
2,56 secondes du signal acoustique reçu peuvent donc être
analysées dans ce mode de réalisation Cette capacité de mé-
moire donne à l'ensemble de reconnaissance une souplesse permettant le cas échéant la sélection de spectres à des -temps réels différents, en vue de leur analyse et de leur évaluation, si bien que l'analyse peut aller vers l'avant ou
vers l'arrière dans le temps, le cas échéant.
Ainsi,'les trames des 2,56 dernières secondes sont conservées dans la mémoire circulante et disponibles à volonté Lors du fonctionnement, chaque trame est conservée
pendant 2,56 secondes Ainsi, une trame qui pénètre au temps -
t 1 dans la mémoire circulante, est décalée ou perdue pour la mémoire 2, 56 secondes plus tard lorsqu'une nouvelle trame
correspondant au temps t 1 + 2,56 secondes est conservée.
Les trames circulant dans la mémoire sont compa-
rées de préférence en temps réel à un vocabulaire connu de mots afin que les données soient déterminées et identifiées dans des groupes de mots formant une "file"de mots Chaque
mot du vocabulaire est représenté par un motif matrice repré-
sentant statistiquement plusieurs spectres traités d'énergie
formant plusieurs motifs à plusieurs trames (trois de préfé-
3 B rence) qui ne se recouvrent pas Ces motifs sont de préféren-
ce choisis afin qu'ils représentent au mieux les événements acoustiques significatifs des mots du vocabulaire et ils sont
conservés comme indiqué par la référence 1 (.
Les spectres formant les moutifs 'jru jeu de dessins sont créés à partir des mots prononcés dans différents contextes
avec l'appareil décrit précédemment afin que la parole incon-
nue et continue parvenant par la ligne 10 comme représenté sur
À-' 2520912
la figure 1, puisse être traitée.
Ainsi, chaque mot de vocabulaire est: associé à plusieurs séquences de motifs d'un jeu de dessins P(i)l,
P(i)2,, qui représentent dans un domaine de spectres d'éner-
gie de courte durée, une désignation de ce iibme mot-clé.
La collection des motifs du jeu de dessins pour chaque mot-
clé forme là base statistique de la création des motifs objets.
Dans ce mode de réalisation les motifs du jeu de dessins P(i)j peuvent être considérés chacun comme un arrangement à 96 éléments comprenant trois trames choisies
placées en série Les trames du motif sont de préférence sé-
parées d'au moins 30 millisecondes afin qu'une corrélation parasite ne puisse pas être due au lissage des domaines Dans
d'autres modes de réalisation, d'autres stratégies d'échan-
tillonnage peuvent etre utilisées pour la sélection des tra-
mes; cependant, la-stratégie la plus avantageuse est la
sélection de trames séparées par un temps constant dé 30 mil-
lisecondes par exemple, et l'espacement des motifs de jeux de dessins qui ne se recouvrent pas dans l'intervalle de temps formant le mot-clé Ainsi, un premier motif Pl correspond à une partie d'un mot-clé près du début, un second P 2 dans une partie ultérieure, etc, et les motifs P 1, P 2 forment la base statistique de la série de motifs objets, la matrice de mot par rapport à laquelle les données acoustiques reçues sont
adaptées Les motifs t 1, t 2-,ont chacun des données statisti-
ques créées à partir des valeurs P(i)j correspondantes, dans l'hypothèse o ces dernières sont formées de variables
laplaciennes indépendantes permettant la création d'une statis-
tique de vraisemblance entre les-trames reçues, comme indi qué précédemment, et les motifs objets Ainsi, ces derniers forment un arrangement dans lequel les entrées comportent la
moyenne, l'écart type et le facteur de normalisation en sur-
face de la collection correspondante d'entrée dans l'arran-
gement de motifs On décrit dans la suite du présent mémoire
une statistique de vraisemblance qui est plus dlaborée.
Les hommes du métier peuvent rnoter qcue pratique-
ment tous les mots ont plus d'une prononciation dépendant ldu ? 4
contexte et/ou de la région et peuvent donc ltr "'mi '" su Ji-
vant plusieurs motifs Ainsi, un mot du vocabulairc prononcé sous la forme P 1, P 2 comme indiqué précédemment, peut en réalité être exprimé sous la forme générale p(i), p(i)2, i = 1, 2,, M dans laquelle chaque terme p(i)j constitue
une description possible de la jième classe de motifs d'un
jeu de dessins, avec au total M prononciations différentes
du mot.
Les motifs objets tl, t 2, ti représentent donc, sous la forme la plus générale, plusieurs prononciations statistiques différentes pour le iième groupe de motifs ou
la iième classe de motifs Dans le mode de réalisation con-
sidéré, l'expression "motif objet" est ainsi utilisée dans le sens le plus général et chaque motif objet peut donc
avoir plusieurs "prononciations statistiques".
Le traitement préalable des signaux acoustiques inconnus reçus et la formation des motifs de référence sont
alors terminés.
Traitement des spectres mémorisés Une étude plus profonde de la reconnaissance de mots-clés par des motifs phonétiques chaunés dans des mots détectés, comme décrit dans les brevets précités des Etats-Unis d'Amérique N s 4 241 329, 4 227 176 et 4 227 177, a montré qu'il s'agit d'un cas particulier d'un procédé plus général et sans doute meilleur de reconnaissance Comme l'indique la figure 4, la recherche de reconnaissance des
mots peut être représentée sous forme d(lu problème de la dé-
couverte d'un trajet convenable dans un espace d'états abstrait.
Sur la figure, chaque cercle représente uir état possible, qu'on peut aussi considérer comme une position pendant un temps
d'arrêt ou un registre, et le processus de décision doit pas-
ser par ces états L'espace compris entre les traits verticaux
, 122 représente-chacun des états hypothétiques par les-
quels le processus de décision peut passer pour la détermi-
nation de l'accord ou non d'un motif avec un phonême actuelr.
Cet espace est divisé en une partie nécessaire d'arr 8 t 124 et une partie éventuelle d'arrêt 126 La partie d'arrêt 252 o 91 j nécessaire et la durée minimale du motif ou phonème "actuel" particulier La partie éventuelle représente la durée maximale supplémentaire d'un motif Chaque cercle des parties d'arrêt
représente la durée d'une trame du continuum des trames for-
mées et correspond à des'intervalles de 0,01 seconde, d'une trame à l'autre Ainsi, chaque cercle identifie une position hypothétique phonétique actuelle dans la prononciation d'un mot et, avec le nombre de trames de 0,01 seconde supposé écoulé depuis le début du phonème actuel, correspondant au nombre de cercles ou position antérieure dans ce phonème ou motif objet, représente la durée actuelle du motif Après le début d'un motif (phonème) et l'écoulement de l'intervalle minimal d'arrêt, plusieurs trajets d'avance vers le premier noeud ou la première position 128 (cercle) du motif objet
suivant (phonème) sont possibles Le trajet dépend de lp dé-
cision d'atteindre Ye motif suivant (phonème) qui est prononcé.
Ces possibilités de décision sont représentées sur la figure par plusieurs flèches parvenant au cercle 128 Une transition vers le motif suivant (phonème) dont le début est représenté par Ie cercle 128, peut commencer à un noeud ou une position quelconque pendant le temps éventuel d'arrt du motif en cours (phonème) ou au dernier noeud de l'intervalle d'arrët nécessaire.
Le procédé de reconnaissance de mots-clés dé -
crit dans les brevets précités des Etats-Unis d'Amérique n Os 4 241 329, 4 227 176 et 4 227 177 détermine la transition au premier noeud pour lequel la cote de vraisemblance par rapport au motif suivant (phonème) est supérieure à la cote de vraisemblance du motif actuel (phonème) Ainsi, une trame
correspond au phonème suivant mieux qu'au phonème actuel.
La cote totale du mot est cependant la moyenne des cotes des motifs par trame (c'est-à-dire par noeud compris dains lr traejet) Cette même définition de la "cote totale" appliquée à une cote de mots jusqu'au noeud actuel peut être utilisée pour décider le moment de la transition, c'est à-dire que la transition au motif suivant a lieu à la première opportunité, correspondant par exemple à une ligne 130 de transition, ou à un moment ultérieur correspondant par exemple à une ligne 132 de transition Le trajet optimal est choisi vers le motif ou phonème suivant pour lequel la cote moyenne par noeud est la meilleure Comme le procédé de traitement de mots-clés décrit dans les brevets précités des Etats- Unis d'Amérique n'examine pas les trajets potentiels après la décision de passer aux motifs suivants, il peut prendre une
décision qui n'est pas optimale, comme l'indique la cote moyen-
ne par noeud.
Ainsi, l'invention met en oeuvre une stratégie
de détermination d'une cote moyenne par noeud pour la recon-
naissance de mots-clés Lors de l'utilisation d'une reconnais-
sance de files de mots comme décrit en détail dans la suite du présent mémoire, un problème se pose car on doit normaliser tous les scores partiels des mots par le nombre de noeuds incorporés, selon un'procédé de calcul peu efficace, ou on
doit modifier l'accumulation afin qu'une normalisation expli-
cite ne soit pas indispensable Une modification naturelle à utiliser dans le cas d'un vocabulaire fermé est l'utilisa-
tion de la cote non normalisée pour le mot le meilleur se ter-
minant au moment actuel de l'analyse, et les cotes accumulées à tous les noeuds sont touiours la somme d'un même nombre de
cotes-de motifs élémentaires En outre, la cote est Lransfor-
mée, par cette modification, en cote de la meilleure file de
mots aboutissant au noeud actuel d'analyse.
Cette stratégie de décision d'après la cote
moyenne par noeud est efficacement mise en oeuvre par le pro-
cesseur vectoriel décrit dans le brevet précité des Etats-Unis
d'Amérique NO 4 228 498, à l'aide d'une technique de program-
mation dynamique Lors de l'utilisation d'une telle programma-
tion, la vitesse de traitement est quelque peu supérieure à celle du procédé classique de reconnnaisnanc de mots-clé( décrit dans les brevets des Etats-Unis d'Amérique précités NOS 4 241 329, 4 227 176 et 4 227 177, bien que plus de tests
soient nécessaires en fonction des hypothèses.
De façon générale, lors de la reconnaissance de files de mots, le programme se rappelle le nom du meilleur
mot supposé de vocabulaire aboutissant à chaque noeud d'ana-
lyse Il se rappelle aussi le noeud (temps) auquel commence
le meilleur mot La meilleure file de mots est alors déter-
minée par retour depuis l'extrémité de l'émission sonore, le nom du mot mémorisé étant noté et le mot précédent étant
déterminé au moment indiqué pour le début du mot actuel.
L'incorporation du silence comme mot de vocabu-
laire ne nécessite pas la spécification du nombre de mots
contenu dans la file de mots L'opération de retour permet-
tant la détermination de la file est exécutée chaque fois que le mot de silence a la cote de mot la plus élevée, et l'opération se termine au silence détecté suivant Ainsi,
une file est déterminée chaque fois que la personne qui par-
le s'arrête pour reprendre sa respiration.
Le procédé de reconnaissance de files de mots
décrit dans le présent mémoire correspond à un niveau' d'abstrac-
tion supérieure à la détection des mots-clés individuels.
Comme la formation des cotes des files de mots nécessite l'in-
corporation de toutes les paroles de l'émission sonore dans
2,0 un mot ou un autre de la file, le procédé présente un avanta-
ge par rapport au procédé plus simple de découverte d'un mot qui détecte souvent des mots erronés dans des mots plus longs.
Aucun diagramme de synchronisation n'cst avanta-
geusement nécessaire dans le cas des files de mots, puisque le circuit de chalnage des mots transmet un temps de début de mot pour chaque hypothèse de fin de mot Le circuit le
plus simple de chainage de file suppose que ces temps de dé-
but de mot sont convenables Lors de la détection d'un silence, il suppose que la file de mots vient juste de se terminer
et que le début du dernier mot constitue la fin du mot pré-
cédent (qui peut être un silence) Il est alors simple de( revenir en arrière dans toute la file, en sélectionnant le mot ayant la meilleure cote finale à chaque limite de mot Fomme il existe habituellement une transition q(lui dépend du contrxte entre chaque paire de mots de la file, il pett Ptre préférable da permettre à l'appareil de rechercher le voisinage de chaque
283 2520912
début de mot pour la meilleure fin du mot: précedenlt.
On considère maintenant plus en détail le procédé et l'appareil selon l'invention, sous Forme de matériel et
de logiciel.
Comme l'indique la fiqure 3, les spectres ou tra-
mes mémorisés en 95, représentant les données acoustiques con-
tinues reçues, sont comparés à la matrice mémorisée des
motifs objets en 96, représentant les mots-clés du vocabu-
laire, par mise en oeuvre du procédé suivant.
Pour chaque trame de 10 milliseconde S,un motif des-
tiné à être comparé aux motifs mémorisés de référence est formé comme indiqué par la référence 97, par association du vecteur s(j,t) du spectre actuel, du spectre s(j,t -0,03) antérieur de trois trames, et du spectre s(j,t-0,06) antérieur de six trames, afin que l'ensemble constitue un motif à 96 éléments: ( s(j,t-O,06), j= 0,,31 x(j,t) = ( s(j-32,t-O,03), j= 32,,63 ( s(j-64,t), j= 64,,95 Comme indiqué précédemment, les motifs mémorisés
de référence sont formés des valeurs moyennes, des écarts-
types, et des termes de normalisation des surfaces des
* motifs à 96 éléments collectés antérieurement et apparte-
nant aux diverses classes de motifs de parole à reconnaître.
La comparaison est réalisée à l'aide d'un modèle de probabi-
lité des valeurs x(j,t) prévues et la parole reçue appartient
à une classe particulière.
Bien qu'on puisse utiliser une distribution gaussienne comme modèle de probabilité (selon les brevets des Etats-Uinis d'Amérique précités N Is 4 241 329, 4 227 176 et 4 227 177), une distribution de Laplace p(x) = ( 1/ 2 s') exp-(J 2 ix-m I /s')
(dans laquelle m désigne la moyenne statistique et s' l'écart-
type de la variable x) nécessite moins de calcul et on constate qu'elle a des résultats presque aussi bons qu'une répartition gaussienne par exemple dans le cas du procédé de reconnaissance de mots isolés avec indépendance par rapport à la personne qui parle, décrit dans le brevet des Ftats-Unis d'Amiérique N 4 038 503 Le degré de similitude L(x| k) entre un motif inconnu reçu x et le kième motif mémorisé de référence est
proportionnel au logarithme de la probabilité et on l'esti-
me à 100 par la formule suivante: 96 lxi Uikl L(x I k) = +Ak ( 17) i=l S'ik s've c avec A k 2 96 Ak = E Log s' ik 2 i: l La cote L(x I k) pour chaque trame est réglée par soustraction de la meilleure cote (la plus petite) de tous les motifs de référence pour cette trame afin de combiner les cotes de vraisemblance L d'une séquence de motifs et de former la cote de vraisemblance d'un mot ou d'une phrase énoncée, de la manière suivante: L'(x I k) L(x I k) mini L(x i) ( 18) Ainsi, le motif qui s'adapte le mieux à chaque
trame a une cote égale à zéro Les cotes réglées correspon-
dant à une séquence supposée de motifs de référence peuvent
être cumulées d'une trame à la suivante afin qu'elles for-
ment une cote de séquence directement reliée à la probabilité pour qu'une décision en faveur de la séquence indiquée
soit une décision convenable.
La comparaison des motifs du spectre inconnu
d'entrée à des motifs connus mémorisés est réalisée par cal-
cul de la fonction q= I sik l xi Uikl k ( 19) i=l (dans laquelle sik est égal à l/s'ik) pour le kième motif de référence Dans un calcul normal par logiciel, les instructions
suivantes sont exécutées pour le calcul de la fonction algé-
brique S |x-u I (de l'équation 19): 1 calculer x-u 2 vérifier le signe de x-u 3 si ce signe est négatif, changer le signe afin de former la valeur absolue 4 multiplier par s ajouter le résultat dans un accumulateur. Dans un exemple d'ensemble de reconnaissance de parole ayant un vocabulaire de 20 mots, il y aurait environ 222 motifs différents de référence Le nombre de pas nécessaires pour leur évaluation est alors égal à 5 x 96 x 222 = 106560, non comprises les opérations d'en-tête, et ces pas doivent ttre exécutés en moins de 10 millisecondes afin que la fréquence
de trame du spectre en temps réel soit respectée Le proces-
seur doit donc pouvoir exécuter près de 11 millions d'instruc-
tions'par seconde afin d'évaluer uniquement les fonctions de vraisemblance Etant donné la vitesse nécessaire, un module spécialisé 200 de calcul de fonction de vraisemblance
(figure 4), compatible au processeur vectoriel tel que dé-
crit dans le brevet des Etats-Unis d'Amérique NO 4 228 498,
est utilisé.
Dans ce circuit spécialisé, les cinq premières
opérations indiquées précédemment, sont exécutées simultané-
ment avec deux jeux des arguments s, x, u, si bien que, en fait, dix instructions sont exécutées pendant le temps
qu'il faut normalement pour l'exécution d'une seule instruc-
tion Comme le processeur vectoriel fondamental fonctionne à une fréquence de 8 millions d'instructions par seconde,
la fréquence efficace de calcul de la fonction de vraisemblan-
ce devient de l'ordre de 80 millions d'instructions par se-
conde lors de l'utilisation du module spécialisé 200.
Le module spécialisé 200, comme indiqué sur la figure 5, comprend une combinaison de traitement en parallèle et par circulation permettant l'exécution simultanée des dix pas Deux parties identiques 202, 2014 exdcutent chacurir einq pas arithmétiques sur ces arguments indépendants des données reçues et les deux résultats sont combinés dans un additionneur 206 relié à leurs sorties L'accumulation des résultats de l'additionneur 206 forme la somme de 1 à 96 de l'équation 19 et elle est traitée par l'ensemble arithmétique
du processeur vectoriel décrit dans le brevet des Ftats-
Unis d'Amérique N 4 288 498.
Lors du fonctionnement, les registres de traite-
ment par circulation contiennent les données intermédiaires auxstades suivants du traitement: 1 arguments reçus (registres 208, 210, 212, 21 à, 216 218 commandés par les signaux d'horloge) 2 valeur absolue de x-u (registres 220 et 222 commandés par les signaux d'horloge) 3 sortie du circuit multiplicateur (registres
224, 226 commandés par les signaux d'horloge).
Les données reçues étant contenues dans les regis-
tres 208 à 218, l'amplitude de x-u est déterminée par les circuits 228, 230 de soustraction et de détermination de la valeur absolue Comme l'indique la figure 6, ces circuits 228, 230 contiennent chacun un premier et un second circuits 232, 234 de soustraction, l'un destiné à déterminer x-u et
l'autre u-x, et un multiplexeur 236 qui sélectionne le résul-
tat positif Les arguments x et u transmis par les lignes 238, 240 provenant des registres 208, 210, sont des nombres ả 8 bits allant de 128 à + 127 Comme le signal différence du circuit de soustraction à 8 bits peut déborder à 9 bits (par exemple 127 -(-128) = 255), un circuit supplémentaire est
nécessaire pour le cas du débordement arithmétique (La condi-
tion est déterminée par un détecteur 235 de débordement dont les signaux de sortie sont le signe de "x"(par une ligne 235 a), le signe de "u" (par une ligne 235 b) et le signe de "x-u"
(par une ligne 235 c)).
Les détecteurs de débordement, représentés sur la figure 7, sont, 'dans ce mode de réalisation, les circuits
combinatoires comprenant des portes ET 268, 270 à trois en-
trées et une porte OU 272 La table de vérité de la figure 8 détermine la condition de débordement en fonction de ses signaux
d'entrée.
La condition de débordement est respectée par les quatre possibilités du multiplexeur 236 qui sélectionne le signal positif de sortie du circuit de soustracti Lon Les choix sont déterminés par les niveaux les signaux binaires des lignes 242 et 244 Le niveau du signal de la ligne 242 représente le signe de x-u Le signe du signal de la ligne 244 représente un débordement lorsqu'il s'agit d'un signal " 1 ". Ainsi, les possibilités de sélection sont les suivantes Ligne 242 Ligne 244 0 O choix du circuit 232 1 O choix du circuit 234 O 1 choix du circuit 232 décalé d'un bit
1 1 choix du circuit 234 décalé d'un bit.
Le multiplexeur est ainsi commandé afin qu'il joue le rôle d'un commutateur électrique à huit poles et quatre positions L'opération de "décalage" est réalisée de façon combinatoire par connexion des signaux de sortie des circuits de soustraction (par des portes) aux entrées
convenables du multiplexeur Le décalage a pour effet d'ef-
fectuer une division arithmétique par deux.
En cas de débordement pendant la soustraction, le signal de sortie du multiplexeur est celui d'un circuit de soustraction divisé par deux Il faut donc se rappeler cette condition ultérieurement dans le calcul afin que le résultat
final puisse etre multiplié par ceux et que le facteur compta-
ble d'échelle soit rétabli Ce rétablissement s'effectue
à la sortie du circuit multiplicateur, après le registre fi-
nal de circulation tn conséquence, un bit supplémentaire est transmis dans les registres 220, 222, 224, 226 afin qu'ils commandent des seconds multiplexeurs 248, 250 qui décalent respectivement le produit de la multiplication formée par un multiplexeur 252, 254 à 8 x 8 bits, d'un bit vers le haut, afin d'assurer une multiplication par deux, chaque fois que le bit de débordement est établi (est égal a " 1 ") La
multiplication arithmétique est réalisée dans un circuit in-
tégré classique, par exemple du type MPY-8-113 de TRW, qui
peut recevoir deux nombres à 8 bits et transmettre leur produit.
Les circuits multiplicateurs 252, 254 forment ainsi le produit de S et Ixul à chaque impulsion d'horloge (la valeur de S étant convenablement:ynch Ilrui,;c par l e;'; registres supplémentaires de données 256, 258) Les signaux de sortie des circuits multiplicateurs 252, 254 sont transmis dans des registres tampons 224, 226 et ils parviennent aux circuits restants par les lignes 260 et 262 et par l'inter-
médiaire de l'additionneur 206.
Le module spécialisé 200 est aussi utilisé pour le calcul du produit interne de deux vecteurs, nécessaire dans une multiplication matricielle L'opération est réalisée par commande de circuits 264, 266 qui permettent le passage
en-dérivation des éléments 228, 230, dans le circuit de sous-
traction et de détermination de valeur absolue Dans ce mode de fonctionnement, les lignes communes d'entrée de données x et S transmettent directement leurs signaux aux registres
220, 222, formant les signaux d'entrée du circuit multiplica-
teur. Alignement des motifs de niveau de mot
Une opération de programmation dynamique (repé-
rée par la référence 101) est de préférence utilisée pour l'op-
timisation de la correspondance entre la parole reçue inconnue et chaque matrice de mot du vocabulaire Chaque matrice de mot comprend non seulement la séquence des éléments statistiques de motifs de référence indiqués précédemment, mais aussi un temps d'arrêt minimal et maximal associs à chaque motif de référence Selon cette programmation dynamique, un jeu de
registres de mémoire est utilisé pour chaque mot de vocabulaire.
Le nombre de registres est égal à la somme des temps maximaux d'arrêt des jessins de référence formant ce mot, c'est-à-dire qu'il est proportionnel à la plus grande durée permise pour un mot Ces registres correspondent aux cercles de la figure 4
à raison d'un registre par cercle.
Pour chaque trame des paroles reçues, une lecture et une écriture sont réalisées dans chaque rerlistre Chaque registre contient, comme décrit en détail dans la suite du présent mémoire, la cote cumulée de vraisemblance correspondant à l'hypothèse selon laquelle le mot indiqué de vocabulaire est prononcé et la position actuelle dans le mot correspond
au motif particulier de référence et au temps d' arr PL asso-
cié à ce registre Tous les registres sont initialisés afin qu' ils contiennent les mauvaises cotes de vraisemblance
indiquant que, initialement, aucune des hypothèses représen-
tées ne risque d'être acceptable. Les règles de remise à jour des registres sont les suivantes Le premier registre de chaque matrice de mot (c'est-à-dire le registre correspondant à l'hypothèse selon laquelle le mot commence juste à être prononcé) contient la somme d'une part de la cote de vraisemblance de la trame actuelle par rapport au premier motif de référence du mot, et d'autre part de la meilleure cote de tous les derniers registres de tous les mots de vocabulaire (c'est-à-dire la cote cumulée de vraisemblance dans l'hypothèse o un mot
a été terminé à la trame précédente).
Le second registre d'une matrice de mot contient la somme d'une part de la cote de vraisemblance de la trame actuelle par rapport au premier motif de référence du mot et d'autre part, du contenu du premier registre pour la trame-précédente Ainsi, le second registre contient la cote del'hypothèse selon laquelle le mot indiqué est en cours de
prononciation et commence à la trame précédente.
Pendant l'opération de remise à jour des registres correspondant à des temps d'arrêt compris entre la durée minimale et la durée maximale (intervalles d'arrêt éventuels), un registre séparé de mémoire est utilisé afin qu'il conserve la meilleure cote cumulée de vraisemblance (contenu du registre)
dans lcs registres correspondant à l'intervalle d'arrêt éven-
tuel pour chaque "trame actuelle" successive Cette meilleure 3 C cote, déterminée pendant la durée de la trame précédente,
est utilisée pour le calcul du contenu suivant du premier re-
gistre correspondant à l'intervalle d'arrtt nécessaire d'une matrice au d'un motif objet suivant pour ce mot Ainsi, le
contenu actuel du premier registre du motif suivant de réfé-
rence est formé par addition de la meilleure cote (du motif objet précédent) à la'cote de vraisemblance de la trame actuelle
reçue par rapport au motif objet ou de référence suivant.
J Sur la figure 4, les flèches multiples parvenant au premier registre 128 de l'intervalle d'arrêt nécessaire d'un motif de référence indiquent que la transition de l'état ou registre éventuel à l'état ou registre d'arrêt nécessaire peut avoir lieu à tout moment pendant l'intervalle d'arrêt éventuel ou à partir du dernier registre de l'intervalle d'arrêt nécessaire Ainsi, d'après l'information actuelle, la meilleure correspondance entre une matrice de mot et les
motifs reçus est celle selon laquelle, lorsque le motif sui-
vant commence juste, le motif antérieur a eu une durée cor-
respondant au registre contenant la meilleure cote dans l'in-
tervalle d'arrêt éventuel précédent (additionné du dernier registre de l'intervalle nécessaire précédent, c'est-à-dire le registre 300 dans le mode de réalisation considéré) Suivant
la théorie de la programmation dynamique, il n'est pas né-
cessaire de conserver les cotes cumulées précédemment e-t cor-
respondant à tous les temps d'arrêt possibles puisque, selon cette théorie, toute transition de temps d'arrêt qui donne une cote moins bonne continue à donner des cotes moins bonnes
dans tous 'les stades ultérieurs du traitement.
L'analyse se poursuit de la manière décrite à l'aide de tous les registres de tous les motifs de référence de toutes les matrices de mots Le ou les derniers registres du dernier motif de chaque matrice de mot contient la cote
de l'hypothèse selon laquelle le mot vient juste de se terminer.
Pendant l'accumulation des cotes de vraisemblance, une séquence de nombres de durée est conservée afin qu'elle
permette la détermination de la durée du meilleur mot se termi-
nant au moment de chaque trame Le nombre commence à "un" dans le premier registre du premier motif de matrice du mot Pour le second registre et chacun des suivants, dans le cas d'un motif matrice, le nombre associé au registre précédent est
augmenté d'une unité Cependant, pour chaque registre corres-
pondant au début d'un motif de référence (autre que le premier
motif de référence d'un mot), c'est-à-dire par exempile le pre-
mier registre 128 de l'intervalle nécessaire d'arrêt, c'esl le nombre du registre d'arrêt éventuel (ou du dernier registre 252091 i h d'arrêt ndcessaire) du motif précédent de référence, ayant la meilleure cote de vraisemblance pendant la d(urée de la trame précédente, qui progresse et forme le nombre représentatif
de la durée pour ce registre.
Un mécanisme de retour tel que décrit plus en détail dans la suite du présent mémoire est mis en oeuvre,
pendant la durée de chaque trame, par transfert de l'identi-
fication du mot donnant le meilleur score se terminant à
ce moment et de sa durée à une mémoire tampon circulante.
Lorsqu'une séquence de mots se termine, les durées des mots mémorisés permettent un retour depuis l'extrémité du dernier
"meilleur mot" par l'intermédiaire de sa durée, jusqu'au meil-
leur mot précédent se terminant juste avant le "dernier mot",
etc, jusqu'à ce que tous les mots de la file aient été iden-
tifiés.
Des files de mots émis de façon continue et appar-
tenant au vocabulaire sont délimitées par des silences Une ou plusieurs matrices de mots correspondent donc au silence ou à un bruit de fond Chaque fois que le mot "silence" a la meilleure cote de vraisemblance, on suppose qu'une sé- quence de mots vient juste de se terminer Un registre
d'étiquette est vérifié afin que la présence d'un mot quel-
conque, autre que le silence, ayant une meilleure cote soit
détectée, depuis la dernière initialisation de la reconnais-
sance Si au moins un mot autre qu'un silence a une meilleure
cote (référence 103), la file de mots du circuit tampon cir-
culant est étudiée en remontant (référence 105) et le message reconnu résultant est transmis à un appareillage d'affichage ou autre Le circuit tampon circulant est alors effacé afin que le message ne puisse pas être transmis une autre fois, et le registre d'étiquette est effacé L'appareil est ainsi initialisé pour la reconnaissance de la "file de mots" suivante
(référence 107).
Formation aux motifs de référence
Un certain nombre d'émissions de chaque mot de vo-
cabulaire sont introduites dans l'appareil de reconnaissance de parole et les fonctions statistiques d'ensemble des trames correspondantes des spectres traités préalablement sont évaluées afin que les moyennes u et les variances s' des échantillons
soient obtenues pour la construction des motifs de référence.
La sélection des trames des spectres reçus qui correspondent aux motifs objets ou de référence est primordiale pour un
fonctionnement satisfaisant de l'appareillage.
En l'absence d'une meilleure information telle
que des phonèmes acoustiques significatifs choisis manuelle-
ment comme mots reçus, l'intervalle de temps compris entre le début et la fin d'un mot prononcé est divisé en un certain nombre de sous-intervalles uniformément espacés Chacun des sous-intervalles correspond obligatoirement à un motif de
référence unique Un ou plusieurs motifs à trois trames com-
mençant dans chaque intervalle sont alors formés et classés
en fonction du motif de référence associé à cet intervalle.
Les exemples suivants du même mot de vocabulaire sont
diviss de manière analogue en un nombre analogue d'inter-
valles uniformément espacés Les valeurs des moyennes et des variances des éléments des motifs à trois trames retirés des intervalles ordonnés de façon correspondante sont accumulées pour tous les exemples disponibles du mot de vocabulaire afin
qu'elles forment le jeu de motifs de référence pour ce mot.
Le nombre d'intervalles (nombre de motifs de référence) doit être de l'ordre de deux ou trois par phonème linguistique
contenu dans le mot de vocabulaire.
On obtient les meilleurs résultats lorsque le début et la fin de chaque mot de vocabulaire sont marqués par une procédure mettant en oeuvre un examen manuel des formes d'onde acoustiques enregistrées et des trames des spectres La mise
en oeuvre automatique de cette procédure nécessite la pro-
nonciation des mots un par un, les mots étant limités par du silence afin que l'appareil puisse déterminer avec précision les limites des mots Les motifs de référence peuvent être initialisés à partir d'un tel échantillon de chaque mot prononcé isolément, toutes les variances étant fixées à une
valeur constante commode dans les motifs de référence.
Ensuite, la matière utilisée pour la formation peut comprendre des émissions propres à celles qui doivent être reconnues, les limites des mots et des segments étant déterminées par
le processus de reconnaissance.
Après l'accumulation des fonctions statistiques correspondant à un nombre convenable d'émissions de formation, les motifs de référence ainsi déterminés remplacent les motifs initiaux de référence Un second passage est alors exécuté sur la matière utilisée pour la formation Cette fois, les mots sont divisés en intervalles d'après les décisions prises par le processeur de reconnaissance comme indiqué sur la figure 3 Chaque motif reçu a trois trames (ou un exemple de motif reçu pour haque motif de référence) est associé à un motif de référence par mise en oeuvre du procédé précité d'alignement de motifs Les valeurs moyennes et les variances sont accumulées une seconde fois afin qu'elles forment le jeu final de motifs de référence tiré d'une manière tout à fait
compatible avec le procédé qui doit être utilisé par l'ap-
pareil de reconnaissance.
Pendant chacun des passages de formation, il est préférable d'ignorer tout membre de phrase de formation qui n'est pas reconnu convenablement par le processeur de reconnaissance puisqu'une émission reconnue de façon erronée risque d'avoir des limites d'intervalles placées de façon erronée A la fin du passage de formation, les membres de phrase qui ont été mal reconnus antérieurement peuvent être traités à nouveau avec les nouveaux motifs de référence, et les motifs de référence peuvent être à nouveau mis à jour
lorsque la reconnaissance est alors satisfaisante.
Une variante de cette absence de prise en consi-
dération des membres de phrase mal reconnus est la formation d'une matrice correspondant à plusieurs mots pour chaque émission de formation Cette matrice est simplement un chaînage des matrices pour chacun des mots de l'émission, dans l'ordre convenable La personne qui parleest incitée par un manuscrit à prononcer la séquence indiquée de mots et le processeur de reconnaissance ne prend en référence que la matrice multiple et la matrice de silence Les limites de mots et les classements des motifs de référence sont alors optimaux pour le manuscrit donné et les motifs de référence disponibles Un inconvénient de cette opération est qu'un plus grand nombre de passages du manuscritde formation peut
être nécessaire.
Il est préférable de commencer la procédure de for-
mation avec un jeu de motifs de référence déterminés anté-
rieurement et indépendants de la personne qui parle, pour le
vocabulaire à reconnaître afin que la précision de recon-
naisance soit la plus élevée possible Les motifs indépendants de la personne qui parle sont obtenus à partirde membres de
phrase correspondant à ceux qui doivent être reconnus et pro-
noncés par plusieurs personnes différentes au moins Les limites des mots peuvent être déterminées par examen manuel des formes d'onde acoustiques enregistrées La procédure en deux étapes qui vient d'être décrite est alors utilisée pour la formation des motifs indépendants des personnes qui parlent: dans le
premier passage, les sous-intervalles sont espacés uniformé- ment dans chaque mot et, dans le second passage, les sus-
intervalles sont déterminés par le processus de reconnaissance
à partir des motifs de référence du premier passage Des fonc-
tions statistiques d'ensemble correspondant à toutes les per- sonnes qui parlent sont formées à chaque passage Les motifs indépendants des personnes qui parlent sont utilisés comme
s'ils étaient formés du produit du premier passage de forma-
tion et seule la procédure du second passage est exécutée (éventuellement deux fois) lorsque l'appareil doit être formé
à une personne particulière.
Les temps d'arrêt minimal (nécessaire) et maximal (nécessaire plus éventuel) sont de préférence déterminés pendant
la formation Dans le mode de réalisation avantageux, l'appa-
reil subit une formation comme décrit précédemment, avec plu-
sieurs personnes qui parlent En outre, comme indiqué précé-
demment, le processus de reconnaissance détermine automatique-
ment les limites des motifs selon le procédé indiqué, pendant la procécure de formation Ces limites sont enregistrées et les temps d'arrêt pour chacun des mots-clés identifiés par
l'appareil, sont mémorisés.
A la fin d'une opération de formation, les temps d'arrêt pour chaque motif sont examinés et les temps d'arrêt minimal et maximal pour le motif sont choisis Dans un mode de réalisation avantageux, un histogramme des temps d'arrêt est formé et les temps d'arrêt minimal et maximal sont fixés
au 25 ème et ai, 75 ème percentiles La précision de recon-
naissance est alors élevée avec un faible taux de fausses
alarmes Dans une variante, les temps d'arrêt minimal et.
maximal peuvent être choisis d'une autre manière, suivant un compromis entre la précision de reconnaissance et le taux de fausses alarmes Ainsi, si l'on choisit un faible temps d'arrêt minimal et un grand temps d'arrêt maximal, on obtient en général une plus grande précision de reconnaissance, mais
au détriment du taux de fausses alarmes qui est alors élevé.
Processeur de syntaxe
Le chaînage de deux ou plusieurs matrices particu-
lières de mots est un exemple trivial d'une commande de syntaxe dans le processus de décision Comme l'indique la figure 9, un circuit 308 de syntaxe destiné à détecter des séquences de mots contenant un nombre impair de mots ( 1, 3, 5, 7,) a deux jeux indépendants de registres 310, 312 d'alignement de motifs, pour chaque mot de vocabulaire La cote introduite pour la première matrice est la meilleure de la cote du silence et de la meilleure cote du jeu de secondes matrices La cote introduite pour la seconde matrice est la meilleure cote tirée du premier jeu de matrices Cette cote parvient aussi à une seconde matrice de détection de silence, au noeud 313 Après détection du silence à la fin de l'émission comme indiqué par la matrice de détection au noeud 313, les labels et les durées des môts émis peuvent être étudiés en retour dans les circuits
tampons du premier et du second jeu de matrices Il est impor-
tant de noter que la position de la matrice de détection de silence est telle que seul un silence suivant une séquence de
mots ayant un nombre-impair de mots peut être détecté.
Des circuits de syntaxe plus complexes peuvent être réalisés par association, à chaque noeud de syntaxe tels que
les noeuds 313 a et 313 b de la figure 9, d'une liste de lon-
gueur acceptable de files de mots Par exemple, dans le cir-
cuit de syntaxe de la figure 9 qui accepte toute file contenant un nombre impair de mots, la longueur de la file peut être fixée à un nombre impair particulier, cinq par exemple, par examen de la longueur de la file à l'entréedu second registre de silence 313 a Si la longueur de la file n'est pas égale
à cinq à ce moment, le registre devient inactif (pour l'in-
tervalle actuel d'analyse) et aucune cite de file ne peut être reportée pour ce registre; cependant, si la longueur de la file est égale à 5, une détection de file peut être reportée De manière analogue, le premier registre 310 de vocabulaire peut être rendu actif si la longueur de la file
reçue est égale à 0, 2 ou 4 mots et le second registre uni-
quement si lalongueur de la file reçue est égale à 1 ou 3 mot O Bien que des résultats optimaux, pour une file à 5
mots, nécessitent cinq jeux complets d'accumulateurs à pro-
grammation dynamique, ce procédé permet à un plus petit nombre d'accumulateurs d'exécuter une tâche multiple avec
une réduction seulement faible de la précision de reconnais-
sance. Ensemble réalisé par mise en oeuvre du procédé de reconnaissance de parole Comme indiqué précédemment, on réalise un modede
réalisation avantageux de l'invention dans lequel la manipu-
lation des signaux et des données, en plus de celle qui est exécutée par le processeur préalable de la figure 2, est assurée et commandée par un ordinateur PDP-ll de Digital Equipment
Corporation, en combinaison avec le processeur vectoriel spé-
cialisé décrit dans le brevet des Etats-Unis d'Améique
n 4228 498.
On peut utiliser, en plus de la programmation selon
l'invention, des circuits spécialisés à cet effet.
Lors du fonctionnement, l'appareil de la figure met en oeuvre une programmation dynamique Chaque nouvelle séquence de cotes de vraisemblance, c'est-à-dire la séquence
des cotes de vraisemblance relatives à chaque motif de réfé-
rence dans un ordre prédéterminé connu, provenant de l'ordina-
teur par des lignes 320, est ajoutée aux cotes existantes dans l'une des mémoires 322 et 324 Ces mémoires ont des fonctions qui alternent comme décrit dans la suite du présent mémoire, sous la commande (a) du processeur 308 de syntaxe qui reçoit les cotes correspondant à la fin de chaque mot possible, (b) d'un registre 326 de cote minimale qui peut remplacer le signal de sortie des mémoires 322 et 324 d'après les signaux de phonème suivants et de sélection de mémoire et (c) des autres
signaux de commande et d'horloge.
Lors du fonctionnement, le circuit suit les règles de remise à jour des registres correspondant à chacun des
"cercles" de la figure 4 afin qu'il forme à chaque recon-
naissance d'un repos ou d'un silence, un mécanisme de décision
grâce auquel le meilleur "accord" peut être obtenu.
Les mémoires 322 et 324 ont la même configuration et elles sont échangées toutes les 10 ms, c'est-à-dire chaque
fois qu'une nouvelle trame est analysée Les mémoires con-
tiennent chacune plusieurs mots à 32 bits, le nombre de mots à 32 bits correspondant au nombre total de registres (ou de cercles) sur la figure 4 associés aux mots du vocabulaire machine Initialement, une mémoire telle que la mémoire 322, est remplie à l'aide des "mauvaises" cotes de vraisemblance, c'est-à-dire les cotes qui, dans l'exemple considéré, ont une
grande valeur Ensuite, la mémoire 322 est lue séquentielle-
ment, dans une séquence prédéterminée qui correspond à la sé-
quence de nouvelles cotes de vraisemblance provenant du pro-
cesseur vectoriel par la ligne 320 et les cotes sont alors remises à jour comme décrit dans la suite du présent mémoire et réécrites dans l'autre mémoire 324 Dans la trame suivante de 10 ms, les anciennes cotes tirées de la mémoire 324 sont lues et de nouvelles cotes sont écrites dans l'autre mémoire 322 Cette relation ou fonction d'alternance se poursuit sous la commande du processeur de syntaxe, du registre 326 de cote minimale et des autres signaux de commande et d'horloge Comme indiqué précédemment, chaque mot des mémoires 322 et 324 est un nombre à 32 bits Les 16 bits inférieurs 0-15 sont utilisés
pour la conservation des cotes accumulées de vraisemblance.
En outre, les bits 16 à 23 sont utilisés pour l'enregistrement
de la durée du phonème et les bits 24 à 31 pour l'enregistre-
ment des durées des mots dans chaque registre.
Les cotes de vraisemblance reçues de l'ordinateur sont conservées pour chaque trame dans une mémoire 328 de
cote de motif Cette information est transmise par l'ordina-
teur sous forme d'une "salve", à une fréquence très élevée de transfert de données, et elle est lue dans la mémoire de cote de motif à une plus faible fréquence, utilisée dans le
circuit de la figure 10 Ainsi, à part une commande intermé-
diaire par le processeur de syntaxe ou le registre de cote minimale, le signal transmis par la mémoire choisie 322 ou 324, par l'intermédiaire d'une porte correspondante 330 ou 332, parvient aux lignes 334 Celles-ci sont reliées à des additionneurs 336, 338, 340 qui remettent à jour la cote de vraisemblance, le nombre de durées du motif objet ou du phonème, et le nombre de durées du mot respectivement Ainsi, la cote de vraisemblance correspondant à la cote de la "trame précédente" provenant de l'une des mémoires 322, 324, est transmise pa la mémoire de cote de motif par les lignes 342, est ajoutée à l'ancienne cote de vraisemblance et est alors conservée dans la mémoire qui n'est pas utilisée pour l'écriture La fonction de sélection de mémoire est remplie par le niveau du signal des lignes 344 Simultanément, les nombres représentant les durées du mot et du phonème progresent d'une unité. De cette manière, le compteur de durée de mot, le nombre de durée de phonème et les cotes de vraisemblance sont
normalement remis à jour.
Les deux exceptions à la règle habituelle de remise
à jour indiquée précédemment correspondent au début d'un nou-
l Sveau phonème et au début d'un nouveau mot Au début d'un nouveauphonème qui est le début d'un nouveau mot, le premier registre du phonème n'est pas remis à jour d'après la règle habituelle mais au contraire, la cote de vraisemblance de la ligne 342 est ajoutée à la cote minimale correspondant aux registres de temps d'arrêt éventuel du phonème ou de la trame
de référence précédent, ou du dernier registre du temps d'ar-
rêt nécessaire du phonème précédent L'opération est réalisée à l'aide du registre 326 de cote minimale Le signal de ce dernier représente la cote minimale dans la trame précédente, pour le phonème antérieur Cette cote est obtenue par remise à jour continue du contenu du registre de cote minimale chaque fois qu'une nouvelle cote minimale est formée La nouvelle cote minimale est chargée dans le registre de cote minimale à l'aide du signal représentant le bit de signe du circuit arithmétique 346 de soustraction Celui-ci compare la cote minimale actuelle à la nouvelle cote minimale provenant du registre qui vient d'être remis à jour Ce registre conserve en outre le nombre de durée de mot et le nombre de durée de
* phonème correspondant au registre ayant la cote minimale.
Toute cette information est transmise par des lignes 334 au début d'un nouveau phonème Ce processus de transmission est commandé par le circuit porte 348 préparée au début d'un nouveau phonème, en combinaison avec des signaux de commande transmis aux portes 332 et 330 afin que celles-ci ne puisent pas
fonctionner pendant le début d'un nouveau phonème.
Le processeur 308 de syntaxe est utilisé pour la remise à jour du registre du premier phonème d'un nouveau mot, avec la meilleure cote d'un mot se terminant dans la trame précédente, compte tenu de la syntaxe Ainsi,lorsque la cote d'un registre correspondant au premier registre d'un premier phonème d'un nouveau mot doit être remise à jour par une cote reçue de vraisemblance, ce n'est pas le signal de l'une des mémoires 322, 324 qui est utilisé Au contraire, c'est la meilleure cote de vraisemblance, de préférence compte tenu
de la syntaxe, pour les mots se terminant dans la trame pré-
cédente Cette fonction est remplie par fermeture des portes
330, 332 et préparation simultanée de la porte 350 de ma-
nière que la meilleure cote disponible conservée dans le re-
gistre 352 soit transmise par les lignes 334 et soit ajoutée
à la cote de vraisemblance du motif reçu par les lignes 342.
Ainsi, chaque registre correspondant à un temps d'arrêt d'une trame de référence est constamment remis à jour dans cette réalisation Lorsque les cotes de vraisemblance représentent le mot de silence, le processeur de syntaxe
assure les fonctions nécessaires de commande pour qu'il per-
mette à l'ordinateur ou aux circuits de revenir en arrière et
de déterminer les mots reconnus.
Il est bien entendu que l'invention n'a été décrite et représentée qu'à titre d'exemple préférentiel et qu'on pourra apporter toute équivalence technique dans ses éléments
constitutifs sans pour autant sortir de son cadre.
952 0912

Claims (17)

REVENDICATIONS
1 Procédé d'analyse de parole destiné à la recon-
naissance d'au moins un mot-clé dans un signal acoustique, chaque mot-clé étant caractérisé par une matrice ayant au moins un motif objet, chaque motif objet représentant au moins un spectre d'énergie de courte durée, chaque motif objet étant associé à au moins un temps d'arrêt nécessaire et à au moins un temps d'arrêt éventuel, ledit procédé étant caractérisé en ce qu'il comprend
la formation, à une fréquence de trame, d'une se-
quence de motifs de trame tirée du signal acoustique et re-
présentant celui-ci, la création d'une mesure numérique de la similitude de chaque motif de trame à chaque motif objet, l'accumulation, pour les temps d'arrêt nécessaire et éventuel de chaque motif objet et à l'aide desdites mesures numériques, d'une valeur numérique représentant l'alignement du motif de trame qui vient juste d'être formé sur le temps d'arrêt du motif objet correspondant, et la prise d'une décision de reconnaissance d'après
les valeurs numériques lorsqu'une séquence prédéterminée appa-
raît dans le signal acoustique.
2 Procédé selonlarevendication 1, caractérisé en ce que l'opération d'accumulation comprend
l'accumulation,pour le second temps d'arrêt né-
cessaire et les temps suivants d'arrêt nécessaire pour chaque motif objet et pour le temps d'arrêt éventuel de chaque motif objet, de la somme de la cote accumulée pour le temps d'arrêt du motif objet précédent pendant la trame précédente e de la mesure numérique actuelle associée au motif objet,
l'accumulation, pour le premier temps d'arrêt né-
cessaire du premier motif objet de chaque mot-clé, de la somme
de la meilleure cote cumulée pendant la trame précédente as-
sociée à la fin d'un mot-clé, et de la mesure numérique ac-
tuelle associée au premier motif objet du mot-clé, et * l'accumulation, pour le premier temps d'arrêt nécessiare de chaque autre motif objet, de la somme de la meilleure cote accumulée de fin du motif objet antérieur du même mot-clé et de la mesure numérique actuelle associée au
motif objet.
3 Procédé selon la revendication 2, caractérisé en ce qu'il comprend la conservation en mémoire, avec chaque temps de trame, de l'identité et de la durée, en temps de trame, du mot-clé ayant'la meilleure cote et d'une fin valable à chaque durée de trame, et
la prise de décision comprend le retour dans l'in-
formation mémorisée d'identité et de durée de mot-clé afin
que chaque mot-clé d'une file de mots soit déterminé.
4 Procédé selon la revendication 3, caractérisé en ce qu'il comprend aussi laconservation en mémoire, avec la cote cumulée pour chaque temps d'arrêt, d'un nombre de durée
de mot correspondant à la longueur dans le temps du mot-
clé associé à la cote accumulée 'au temps d'arrêt.
Procédé selon la revendication 4, caractérisé en ce qu'il comprend en outre la conservation en mémoire, avec la cote accumulée pour chaque temps d'arrêt, d'un nombre de durée de motif objet correspondant à la séquence de temps
d'arrêt dans le motif objet.
6 Procédé selon la revendication 1, caractérisé en ce que la prise de décision et l'accumulation comprennent la direction du transfert des cotes accumulées par un circuit
générateur d'une syntaxe.
7 Appareil de reconnaissance d'au moins un mot-clé dans un signal acoustique de parole, chaque mot-clé étant caractérisé par une matrice ayant au moins un motif objet, chaque motif représentant au moins un spectre d'énergie de courte durée et chaque motif objet étant associé à au moins un temps d'arrêt nécessaire et au moins un temps d'arrêt éventuel', ledit appareil de reconnaissance étant caractérisé en ce qu'il comprend un dispositif destiné à former, à une fréquence de trame, une séquence de motifs de trame tirée du signal acoustique et représentant celui-ci, un dispositif générateur d'une mesure numérique de la similitude de chaque motif de trame et de chaque motif
objet,-
un dispositif destiné à accumuler, pour chaque temps d'arrêt nécessaire et éventuel de motif de trame et
à l'aide des mesures numériques, une valeur numérique re-
présentant l'alignement du motif de trame représentant le signal acoustique et qui vient juste d'être formé sur le temps d'arrêt du motif objet correspondant, et
un dispositif de prise d'une décision de reconnais-
sance d'après les valeurs numériques accumulées lorsqu'une
séquence prédéterminée apparaît dans le signal acoustique.
8 Appareil selon larevendication 7, caractérisé en ce qu'il comprend un dispositif de reconnaissance de la séquence
prédéterminée dans le signal acoustique.
9 Appareil selon la revendication 8, caractérisé en ce
que la séquence prédéterminée est un motif de silence.
Appareil selon la revendication 7, caractérisé en ce que le dispositif d'accumulation comprend un premier dispositif d'accumulation, pour le second
temps d'arrêt nécessaireet les temps d'arrêt nécessaires sui-
vants de chaque motif objet et pour le temps d'arrêt éventuel de chaque motif objet, de la somme de la cote accumulée pour le temps d'arrêt du motif objet précédent pendant la trame précédente et de la mesure numérique actuelle associée au motif objet, un second dispositif d'accumulation, pour chaque premier temps d'arrêt nécessaire d'un premier motif objet de chaque mot-clé, de la somme de la meilleure cote accumulée pendant la trame précédente qui est associée à la fin d'un mot-clé et de la mesure numérique actuelle associée au premier motif objet du mot-clé, et un troisième dispositif destiné à accumuler, pour le premier temps d'arrêt nécessaire de chaque autre premier -motif-objet, la somme de la meilleure cote accumulée de fin pour le motif objet précédent du même motclé et de la mesure
numérique actuelle associée au motif objet.
11 Appareil selon la revendication 10, caractérisé en ce qu'il comprend en outre un dispositif destiné à conserver, avec chaque temps de trame, l'identité et la durée, en temps de trame, du mot-clé ayant la meilleure cote et une fin valable à chaque temps de trame, et
le dispositif de prise de décision comprend un dis-
positif destiné à remonter dans l'information mémorisée d'iden-
tité et de durée de mot-clé afin qu'il identifie chaque mot-
clé dans une file de mots.
12 Appareil selon la revendication 11, caractérisé en ce qu'il comprend en outre un dispositif destiné à conserver, avec chaque cote accumulée de temps d'arrêt, un nombre de durée de mot correspondant à la longueur dans le temps du
mot-clé associé à la cote accumulée au temps d'arrêt.
13 Appareil selon la revendication 12, caractérisé en ce
qu'il comprend en outre un second dispositif destiné à mémo-
riser, avec chaque cote accumulée de temps d'arrêt, un nombre de durée de motif objet correspondant au temps d'arrêt dans
le motif objet.
14 Appareil selonlarevendication 7, caractérisé en ce
que le dispositif de prise de décision et d'accumulation com-
prend un dispositif destiné à diriger le transfert des cotes
accumulées sous la commande d'un circuit générateur de syntaxe.
15 Procédé de représentation du silence dans un signal acoustique reçu par un appareil d'analyse de parole destiné à reconnaître au moins un mot- clé dans un signal acoustique, ledit procédé étant caractérisé en ce qu'il comprend le contrôle de l'amplitude de parties prédéterminées de courte durée du signal acoustique reçu pendant-une durée choisie supérieure à une seconde environ, et la sélection d'une trame de bruit par sélection
d'une trame d'amplitude minimale pendant cette durée.
16 Procédé selon la revendication 15, caractérisé en ce que chaque motclé est caractérisé par une matrice ayant au moins un motif objet, chaque motif objet représentant au
moins un spectre d'énergie de courte durée, le procédé com-
prenant en outre
la formation, à une fréquence de trame, d'une sé-
quence de motifs de trame tirée du signal acoustique et repré-
sentant celui-ci, et l'examen des trames pendant la durée prédéterminée *et la sélection de l'une des trames comme représentant un bruit
de fond dans le signal acoustique reçu.
17 Procédé de réglage d'un signal acoustique inconnu reçu par un appareil d'analyse de parole destiné à reconnaître au moins un mot-clé dans un signal acoustique ledit procédé étant caractérisé en ce qu'il comprend la réception du signal acoustique et la formation d'un signal de sortie chaque fois qu'un mot connu et spécifié de commande est déterminé, et
l'utilisation du signal de sortie comme mot de com-
mande pour un traitement supplémentaire de reconnaissance du
signal acoustique reçu.
18 Procédé de formation de motifs de référence repré-
sentant des mots-clés dans un appareil d'analyse de parole destiné à reconnaître au moinsun mot-clédans un signal acoustique, chaque mot-clé étant caractérisé par une matrice
ayant au moins un motif objet, chaque motif objet représen-
tant au moins un spectre d'énergie de courte durée, et chaque
motif objet étant associé à au moins un temps d'arrêt né-
cessaire et au moins un temps d'arrêt éventuel, ledit procédé étant caractérisé en ce qu'il comprend
la division d'un signal acoustique reçu correspon-
dant à un mot-clé en plusieurs sous-intervalles, -la mise en correspondance de chaque-sous-intervale avec un motif unique de référence,
la répétition des opérations précédentes sur plu-
sieurs signaux acoustiques reçus représentant le même mot-
clé, la création de fonctions statistiques décrivant le motif de référence associé à chaque sous-intervalle, et
un traitement à l'aide d'un second passage des si-
gnaux acoustiques reçus représentant le mot-clé, à l'aide des
fonctions statistiques assemblées de manière que des sous-
intervalles soient formés par la machine pour les mots-clés.
19 Procédé selon la revendication 18, caractérisé en ce
que les sous-intervalles sont initialement uniformément espa-
cés du début à la fin d'un mot-clé du signal acoustique reçu.
FR8216619A 1981-10-05 1982-10-04 Procede et appareil de reconnaissance de parole continue Expired FR2520912B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/309,208 US4489435A (en) 1981-10-05 1981-10-05 Method and apparatus for continuous word string recognition

Publications (2)

Publication Number Publication Date
FR2520912A1 true FR2520912A1 (fr) 1983-08-05
FR2520912B1 FR2520912B1 (fr) 1987-02-27

Family

ID=23197169

Family Applications (1)

Application Number Title Priority Date Filing Date
FR8216619A Expired FR2520912B1 (fr) 1981-10-05 1982-10-04 Procede et appareil de reconnaissance de parole continue

Country Status (6)

Country Link
US (1) US4489435A (fr)
JP (2) JPS58134699A (fr)
CA (1) CA1182222A (fr)
DE (1) DE3236832C2 (fr)
FR (1) FR2520912B1 (fr)
GB (2) GB2159997B (fr)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
EP0243479A4 (fr) * 1985-10-30 1989-12-13 Central Inst Deaf Procedes et appareil de traitement de la parole.
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
US5159637A (en) * 1988-07-27 1992-10-27 Fujitsu Limited Speech word recognizing apparatus using information indicative of the relative significance of speech features
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US5592389A (en) * 1990-12-03 1997-01-07 Ans, Llp Navigation system utilizing audio CD player for data storage
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5379420A (en) * 1991-12-26 1995-01-03 Trw Inc. High-speed data searching apparatus and method capable of operation in retrospective and dissemination modes
WO1993018484A1 (fr) * 1992-03-10 1993-09-16 Oracle Corporation Procede et appareil de comparaison de chaines de donnees
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
US5671328A (en) * 1992-12-30 1997-09-23 International Business Machines Corporation Method and apparatus for automatic creation of a voice recognition template entry
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5642444A (en) * 1994-07-28 1997-06-24 Univ North Carolina Specialized image processing system architecture and method for image data arrays
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
DE19540859A1 (de) * 1995-11-03 1997-05-28 Thomson Brandt Gmbh Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
US5926652A (en) * 1996-12-20 1999-07-20 International Business Machines Corporation Matching of wild card patterns to wild card strings associated with named computer objects
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
DE19723293A1 (de) * 1997-06-04 1998-12-10 Siemens Ag Mustererkennungsverfahren
JP4279909B2 (ja) * 1997-08-08 2009-06-17 ドーサ アドバンスズ エルエルシー 音声認識装置における認識対象表示方式
US6272455B1 (en) * 1997-10-22 2001-08-07 Lucent Technologies, Inc. Method and apparatus for understanding natural language
US7085710B1 (en) * 1998-01-07 2006-08-01 Microsoft Corporation Vehicle computer system audio entertainment system
DE19804047C2 (de) * 1998-02-03 2000-03-16 Deutsche Telekom Mobil Verfahren und Einrichtung zur Erhöhung der Erkennungswahrscheinlichkeit von Spracherkennungssystemen
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
US6393399B1 (en) 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US20020069064A1 (en) * 1999-02-08 2002-06-06 Dejaco Andrew P. Method and apparatus for testing user interface integrity of speech-enabled devices
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6493667B1 (en) * 1999-08-05 2002-12-10 International Business Machines Corporation Enhanced likelihood computation using regression in a speech recognition system
JP3834169B2 (ja) * 1999-09-22 2006-10-18 日本放送協会 連続音声認識装置および記録媒体
US6931292B1 (en) * 2000-06-19 2005-08-16 Jabra Corporation Noise reduction method and apparatus
US7080011B2 (en) * 2000-08-04 2006-07-18 International Business Machines Corporation Speech label accelerators and techniques for using same
US6832194B1 (en) * 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
EP1363271A1 (fr) 2002-05-08 2003-11-19 Sap Ag Méthode et système pour le traitement et la mémorisation du signal de parole d'un dialogue
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7286987B2 (en) * 2002-06-28 2007-10-23 Conceptual Speech Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US20040064315A1 (en) * 2002-09-30 2004-04-01 Deisher Michael E. Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
US6960098B1 (en) * 2004-07-13 2005-11-01 Mei-Chuan Tseng Pipe component pre-embedded socket structure
WO2007057879A1 (fr) * 2005-11-17 2007-05-24 Shaul Simhi Detection d'activite vocale personnalisee
US20080177536A1 (en) * 2007-01-24 2008-07-24 Microsoft Corporation A/v content editing
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
EP2128641B1 (fr) * 2008-05-26 2010-09-22 U-blox AG Procédé de traitement d'un signal numérique dérivé à partir d'un signal d'entrée analogique d'un récepteur GNSS, un circuit de bande de base du récepteur GNSS pour mettre en place le procédé et un récepteur GNSS
CN101887720A (zh) * 2009-05-13 2010-11-17 鸿富锦精密工业(深圳)有限公司 声讯语义辨识系统及方法
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
JPS592040B2 (ja) * 1976-08-24 1984-01-17 日本電信電話株式会社 音声認織装置
US4107460A (en) * 1976-12-06 1978-08-15 Threshold Technology, Inc. Apparatus for recognizing words from among continuous speech
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4228498A (en) * 1977-10-12 1980-10-14 Dialog Systems, Inc. Multibus processor for increasing execution speed using a pipeline effect
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4238597A (en) * 1979-04-26 1980-12-09 General Electric Company Process for producing copolyester-carbonates
JPS56116148A (en) * 1980-02-15 1981-09-11 Nec Corp Audio typewriter
JPS57174093A (en) * 1981-04-21 1982-10-26 Syst Nogyo Center:Kk Methane fermentation method and apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IBM TECHNICAL DISCLOSURE BULLETIN, vol. 4, no. 4, septembre 1961, page 26, New York, US; R. BAKIS: "Interpretation of speech sound sequences" *
IEEE TRANSACTIONS ON AUDIO AND ELECTROACOUSTICS, vol. AU-21, no. 3, juin 1973, pages 239-249, New York, US; S. ITAHASHI et al.: "Discrete-word recognition utilizing a word dictionary and phonological rules" *

Also Published As

Publication number Publication date
GB8501044D0 (en) 1985-02-20
JPH0736475A (ja) 1995-02-07
GB2107101B (en) 1986-01-15
FR2520912B1 (fr) 1987-02-27
DE3236832C2 (de) 1995-10-19
US4489435A (en) 1984-12-18
CA1182222A (fr) 1985-02-05
GB2159997B (en) 1986-05-29
JPS58134699A (ja) 1983-08-10
DE3236832A1 (de) 1983-09-01
GB2159997A (en) 1985-12-11
GB2107101A (en) 1983-04-20

Similar Documents

Publication Publication Date Title
FR2520912A1 (fr) Procede et appareil de reconnaissance de parole continue
FR2520913A1 (fr) Procede et appareil de reconnaissance de mots-cles dans des paroles
FR2520911A1 (fr) Procede et appareil d'analyse pour la reconnaissance de parole
FR2522179A1 (fr) Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
EP1159737B9 (fr) Reconnaissance du locuteur
EP0594480A1 (fr) Procédé de détection de la parole
Vogl et al. Drum transcription from polyphonic music with recurrent neural networks
FR2579357A1 (fr) Procede et dispositif d'analyse de la parole par modele de markov cache
FR2553555A1 (fr) Procede de codage de la parole et dispositif pour sa mise en oeuvre
FR2496951A1 (fr) Procede et dispositif de determination des extremites d'une emission de parole
EP0018861A1 (fr) Procédé et dispositif de saisie sous forme numérique d'une information vidéo représentative d'un produit en feuille
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN112397093A (zh) 一种语音检测方法与装置
EP0685833B1 (fr) Procédé de codage de parole à prédiction linéaire
Sigona et al. Validation of an ECAPA-TDNN system for Forensic Automatic Speaker Recognition under case work conditions
EP0052041B1 (fr) Procédé de détection de la fréquence de mélodie dans un signal de parole, et dispositif destiné à la mise en oeuvre de ce procédé
JP2001520764A (ja) スピーチ分析システム
Räsänen et al. Comparison of syllabification algorithms and training strategies for robust word count estimation across different languages and recording conditions
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
KR20200090601A (ko) 사운드 이벤트 탐지 모델 학습 방법
Tsiaras et al. Video and audio based detection of filled hesitation pauses in classroom lectures
EP1741092B1 (fr) Reconnaissance vocale par modelisation contextuelle d'unites vocales
Pop et al. Towards detection of synthetic utterances in romanian language speech forensics
JPS59126599A (ja) 連続ワ−ドストリング認識方法および装置
Yurt et al. Fricative phoneme detection with zero delay

Legal Events

Date Code Title Description
ER Errata listed in the french official journal (bopi)

Free format text: 31/83

ST Notification of lapse