FR2520912A1

FR2520912A1 - Procede et appareil de reconnaissance de parole continue

Info

Publication number: FR2520912A1
Application number: FR8216619A
Authority: FR
Inventors: Stephen Lloyd Moshier
Original assignee: VERBEX CORP
Current assignee: VERBEX CORP
Priority date: 1981-10-05
Filing date: 1982-10-04
Publication date: 1983-08-05
Also published as: GB2107101B; JPS58134699A; GB2107101A; GB8501044D0; GB2159997A; DE3236832C2; DE3236832A1; FR2520912B1; JPH0736475A; GB2159997B; US4489435A; CA1182222A

Abstract

L'INVENTION CONCERNE LA RECONNAISSANCE DE FILES DE MOTS DANS UN SIGNAL ACOUSTIQUE CONTINU. LES FILES DE MOTS SONT FORMEES DE PLUSIEURS ELEMENTS TELS QUE DES MOTS REPRESENTES PAR DES MATRICES AYANT PLUSIEURS MOTIFS OBJETS. CHAQUE MOTIF OBJET EST REPRESENTE PAR PLUSIEURS FONCTIONS STATISTIQUES QUI DECRIVENT LE COMPORTEMENT PREVU D'UN GROUPE DE SPECTRES OBTENUS PAR TRAITEMENT DU SIGNAL ACOUSTIQUE RECU. LES SPECTRES TRAITES SONT COMPARES A DES MOTIFS OBJETS DES MATRICES D'ELEMENTS. UNE TECHNIQUE DE CHAINAGE ET DE PROGRAMMATION DYNAMIQUE PERMET LA DETERMINATION DES MOTS D'UNE FILE DE MOTS. APPLICATION AUX PROCEDES ET APPAREILS DE RECONNAISSANCE DE PAROLE CONTINUE.

Description

La présente invention concerne un procédé et un appareil de reconnaissance

de parole, et plus précisément un procédé et un appareil de reconnaissance en temps réel de

files de mots d'un signal acoustique continu.

On a déjà proposé divers systèmes de reconnaissance

de parole destinés à reconnaître des émissions isolées par com-

paraison d'un signal acoustique inconnu isolé, convenablement

traité, à une ou plusieurs représentations préparées préa-

lablement de mots-clés connus Dans ce présent mémoire; le terme "mot-clé" est utilisé pour désigner un groupe connecté de phonèmes et de sons et il peut s'agir par exemple d'une partie d'une syllabe, d'un mot, d'un membre de phrase, etc. Bien que de nombreux systèmes n'aient rencontré qu'un succès limité, un système en particulier a été utilisé de façon

satisfaisante dans des applications commerciales pour la re-

connaissance de mots-clés isolés Ce système fonctionne pra-

tiquement comme décrit dans le brevet des Etats-Unis d'Améri-

que ne 4 038 503, et le procédé décrit permet la reconnaissance satisfaisante d'un mot-clé d'un vocabulaire limité, pourvu que les limites des données du signal acoustique inconnu soient formées par un silence ou par un bruit de fond, dans la mesure par l'appareil de reconnaissance Celui-ci repose sur l'hypothèse selon laquelle l'intervalle pendant lequel le

signal acoustique inconnu apparaît est bien délimité et ne con-

tient qu'une seule émission de mot-clé.

Dans un signal acoustique continu, tel qu'une con-

versation continue, dans laquelle les limites des mots-clés ne sont pas a priori connues ou marquées, on a mis au point

plusieurs procédés pour la segmentation des données acous-

tiques reçues, c'est-à-dire pour la détermination des limites d'éléments linguistiques tels que les phonèmes, les syllabes, les mots, les phrases, etc, avant le début d'un processus

de reconnaissance des mots-clés Ces ensembles de recon-.

naissance de parole continue n'ont cependant rencontré qu'un succès limité en partie parce qu'on ne connaît pas de procédé satisfaisant de segmentation D'autres problèmes importants se posent encore Par exemple, seuls des vocabulaires limités peuvent être reconnus de façon fiable avec un faible taux de fausses alarmes La précision de la reconnaissance dépend beaucoup des différences entre les caractéristiques vocales des différentes personnes qui parlent Enfin, les ensembles sont très sensibles à la distorsion des signaux acoustiques

analysés, par exemple due à la transmission des signaux acous-

tiques par un appareil ordinaire de communication téléphonique.

Les procédés de reconnaissance de parole continue décrits dans les brevets des Etats-Unis d'Amérique

n 4 227 176, 4 241 329 et 4 227 177 sont des procédures ef-

ficaces et acceptables commercialement pour la reconnais-

sance satisfaisante et en temps réel de mots-clés de parole continue Les procédés généraux décrits dans ces brevets sont actuellement utilisés commercialement et ils ont montré, expérimentalement et au cours d'essais pratiques, qu'ils donnaient une grande fiabilité et un faible taux d'erreurs dans des conditions dlindépendance par rapport à la personne qui parle Néanmoins, ces appareils eux-mêmes, bien qu'ils soient à la pointe de la technologie actuelle, et le principe sur lequel ils reposent présentent des inconvénients portant

à la fois sur le taux des fausses alarmes et sur les caracté-

ristiques d'indépendance par rapport à la personne qui parle.

Les procédés de reconnaissance de parole continue décrits dans les brevets précités des Etats-Unis d'Amérique concernent essentiellement la reconnaissance ou le repérage d'un mot-clé parmi plusieurs dans une parole continue Dans d'autres applications, une file continue de mots peut être

reconnue, si bien que le résultat du processus de reconnais-

sance est l'identité de chacun des éléments individuels des mots de la file continue Une file continue de mots, dans ce contexte, comprend plusieurs éléments reconnaissables qui

sont limités par du silence Il s'agit par-exemple de l'ap-

pareillage commercial indiqué précédemment dans son applica-

tion à des mots isolés dans lesquels les limites sont a priori connues Cependant, dans le cas considéré selon l'invention, les limites, c'est-àdire, le silence, sont inconnues et doivent être déterminées par l'appareil de reconnaissance lui-même En outre, les éléments examinés ne sont plus des éléments de mots-clés mais plusieurs éléments enchaînés sous forme d'une file de mots On a suggéré divers procédés et

appareils pour la reconnaissance des files continues de mots.

cependant, ils présentent divers inconvénients tels que un taux élevé de fausses alarmes, de mauvaises caractéristiques

d'indépendance par rapport à la personne qui parle, et l'ab-

sence d'un fonctionnement en temps réel.

L'invention concerne un procédé et un appareil, de reconnaissance de parole ayant une grande efficacité pour la

"connaissance de files continues de mots dans un signal acous-

tique continu et non marqué Elle concerne aussi un procédé et un appareil relativement peu sensible à la distorsion de

phase et d'amplitude du signal acoustique inconnu reçu, re-

lativement peu sensible aux variations de la fréquence d'ar-

ticulation des signaux acoustiques inconnus reçus, ayant une réponse également bonne aux différentes personnes qui parlent et donc aux différentes caractéristiques vocales, fiable, ayant

un faible taux de fausses alarmes et permettant un fonction-

nement en temps réel.

Ainsi, l'invention concerne un procédé et un appareil d'analyse de signaux acoustiques Plus précisément, le signal acoustique est un signal de parole et le procédé et l'appareil reconnaissent des mots-clés dans la parole Chaque mot-clé est caractérisé par une matrice de mot-clé ayant au moins un motif objet Chaque motif objet représente au moins un spectre

d'énergie de courte durée et chaque motif est en outre asso-

cié à au moins un temps d'arrêt nécessaire suivi par au moins un temps d'arrêt éventuel En général, chaque motif objet a

plusieurs temps d'arrêt nécessaires et éventuels.

Le procédé de reconnaissance comprend la formation, à une fréquence de trame, d'une séquence de motifs de trame dérivée du signal acoustique et représentant celui-ci Des mesures numériques de la similitude de chaque motif de trame

et de chaque motif objet sont alors formées Le procédé com-

prend en outre l'accumulation, pour chaque motif objet né-

cessaire et chaque temps d'arrêt éventuel, et à l'aide des

mesures numériques, d'une valeur numérique représentant l'ali-

gnement du motif de trame qui vient juste d'être formé pour la représentation du signal acoustique sur les temps d'arrêt

des motifs objets, et la prise d'une décision de reconnais-

sance d'après les vapeurs numériques lorsqu'un évènement prédéterminé apparaît dans le signal acoustique Cet évènement

déterminé est de préférence la reconnaissance d'un "silence".

Dans un autre mode de réalisation, l'opération d'accumulation comprend ( 1) l'accumulation, pour un second temps d'arrêt et les temps ultérieurs d'arrêt pour chaque motif cible, de la somme de la cote accumulée pour le temps d'arrêt du motif cible précédent pendant le temps de la trame précédente et de la mesure numérique actuelle associée au motif cible, ( 2)l'accumulation, pour le premier temps d'arrêt nécessaire du premier motif objet de chaque mot-clé, de la

-.somme de la meilleure cote accumulée pendant la trame anté-

rieure qui est associée à la fin d'un mot-clé et de la mesure actuelle associée au premier motif objet du mot-clé, et ( 3) l'accumulation, pour le premier temps d'arrêt de chaque autre motif objet, de la somme de la meilleure valeur accumulée de fin pour le motif objet antérieur du même mot-clé et de la

mesure numérique actuelle associée au motif objet.

-Le procédé comprend en outre la mémorisation, avec

chaque temps de trame, de l'identité et de la durée du mot-

clé ayant la meilleure cote et une fin valable au temps de la trame, par rapport au temps de trame, et la conservation, en association avec la cote accumulée pour chaque temps d'arrêt, d'un nombre représentant la durée d'un mot et correspondant à

la longueur dans le temps du mot-clé associé à la cote accu-

mulée au temps d'arrêt De cette manière, la prise de décision -comprend en outre le retour dans l'identité des mots-clés et l'information de durée qui sont mémorisés, afin que chaque

mot-clé d'une file de mots puisse être déterminé.

L'invention concerne aussi un procédé qui comprend la conservation, en association avec chaque code accumulé correspondant aux temps d'arrêt, d'un nombre représentant la durée d 'un mot-clé Ce nombre de durées correspond au nombre de mesures numériques, c'est-à-dire au nombre de temps d'arrêt qui ont été accumulées pour la formation de la cote de temps d'arrêt pour le motif actuel de mot-clé Dans un autre mode de réalisation, le procédé dirige le transfert des cotes accumulées en fonction des ordres d'un circuit

commandé par une syntaxe.

L'appareil selon l'invention peut être réalisé uni-

quement sous forme de circuit, uniquement sous forme d'un lo-

giciel ou par mise en oeuvre d'un mélange des deux Les cir-

cuits matériels utilisés pour la mise en oe'uvredu procédé selon l'invention sont décrits plus en détail dans la suite

du présent mémoire.

D'autres caractéristiques et avantages de l'inven-

tion ressortiront mieux de la description qui va suivre, faite

en référence aux dessins annexés sur lesquels la figure 1 est un organigramme représentant sous forme'générale la séquence d'opérations exécutées lors de la mise en oeuvrede l'invention

la figure l A est un diagramme synoptique d'un appa-

reil selon un mode de téalisation avantageux de l'invention; la figure 2 est un diagramme synoptique d'un appareil

électronique destiné à exécuter certaines opérations de trai-

tement préalable du processus global représenté sur la figure 1; la figure 3 est un organigramme d'un programme d'un ordinateur exécutant certaines procédures du procédé de la figure 1

la figure 4 est une représentation graphique illus-

trant l'alignement des motifs selon l'invention

la figure 5 est un diagramme synoptique d'un pro-

cesseur d'une fonction de vraisemblance selon un mode de ré-

alisation avantageux de l'invention; la figure 6 est un diagramme synoptique d'un circuit de soustraction et de mesure de vapeur absolue selon un mode de réalisation avantageux de l'invention; la figure 7 est un diagramme synoptique d'un circuit logique de détection de débordement selon l'invention la figure 8 est une table de vérité du circuit de la figure 7

la figure 9 est un diagramme synoptique d'un pro-

cesseur de syntaxe selon un mode de réalisation particulier de l'invention; et

la figure 10 est un diagramme synoptique représen-

tant la configuration d'un circuit d'alignement de motifs et

de décodage séquentiel, selon un mode de réalisation avanta-

geux de l'invention.

Sur les diverses figures, les références identiques

désignent des éléments analogues.

Dans un mode de réalisation particulièrement avan-

tageux de l'invention, décrit dans la suite du présent mémoire, la reconnaissance de parole est effectuée par un appareil qui comprend à la fois un circuit électronique spécialisé destiné à assurer certains traitement analogiques et numériques des

signaux acoustiques reçus, en général de la parole, et un or-

dinateur d'amploi universel programmé selon l'invention afin qu'il exécute certaines autres opérations de réduction de données et des évaluations numériques La division des tâches entre les circuits et le logiciel, dans cet appareil, est telle que l'ensemble permet une reconnaissance de parole en temps réel et à un coût modéré Cependant, il faut noter que certaines des tâches réalisées par les circuits, dans cet appareil particulier, peuvent être exécutéesnpar un logiciel et que certaines des tâches exécutées par un logiciel, dans

l'exemple considéré, peuvent aussi Are exécutées par des cir-

cuits spécialisés, dans d'autres modes de réalisation de l'invention A cet égard,Yon décrit à la fois les réalisations

sous forme de circuits et de logiciel le cas échéant.

L'invention concerne ainsi un appareil qui reconnaît une file de mots dans des signaux de parole continue malgré

la distorsion de ces signaux par exemple vers une ligne télé-

phonique Ainsi, comme l'indique la figure 1, le signal vocal reçu 10 peut être considéré comme un signal vocal formé par un combiné téléphonique à microphone de carbone relié par une ligne téléphonique de distance arbitraire et comprenant

un nombre quelconque de centraux intermédiaires Une appli-

cation de l'invention est donc la reconnaissance de files continues de mots dans des données acoustiques provenant

d'une source inconnue reliée par un réseau téléphonique.

D'autre part, le signal reçu peut aussi être un signal acous- tique quelconque, par exemple un signal vocal, provenant d'une

liaison radioélectrique, par exemple d'une station de radio-

diffusion, d'une liaison privée ou d'un opérateur placé à

côté de l'appareil.

Comme l'indique la description qui suit, le procédé

et l'appareil selon l'invention concerne la reconnaissance de signaux de parole contenant une séquence de sons ou phonèmes,

ou d'autres signes reconnaissables Dans la présente descrip-

tion et dans les revendications, les termes et expressions

"mots", "éléments", "séquence de motifs objets", "motif

matrice" et "matrice d'élément" sont considérés comme géné-

riques et équivalents Ces mots et expressions sont commodes pour la désignation d'une séquence reconnaissable de sons

acoustiques ou de leurs représentations, se combinant en for-

mant des files de mots qui peuvent être détectés et reconnus selon l'inventicn Ainsi, ces mots et expressions désignent de façon générale des génériques d'un élément linguistique allant d'un simple phonème, d'une simple syllabe ou d'un simple son à une série de mots (considérés au sens grammatical) aussi

bien qu'un mot unique.

Un convertisseur analogique-numérique 13 reçoit le signal acoustique analogique reçu par la ligne 10 et met

l'amplitude du signal reçu sous forme numérique Le conver-

tisseur représenté est destiné à transformer le signal reçu en une représentation à 12 bits, les convergents étant effectués à raison de 8000 par seconde (Dans d'autres modes

de réalisation, on peut utiliser d'autres fréquences d'é-

chantillonnage telles que 16 k Hz dans le cas o le signal disponible a une bonne qualité) Le convertisseur 13 transmet son signal de sortie à un circuit 17 d'autocorrélation par l'intermédiaire'des lignes 15 Ce circuit 17 traite les signaux numériques et forme une fonction d'autocorrélation de courte durée 100 fois par seconde et transmet son signal

de sortie par des lignes 19 Chaque fonction d'autocorré-

lation a 32 valeurs ou canaux calculés chacun avec une réso-

lution de 30 bits Le circuit d'autocorrélation est décrit plus en détail dans la suite du présent mémoire en réfé-

rence à la figure 2.

Les fonctions d'autocorrélation transmises par les

lignes 19 subissent une transformation de Fourier dans l'ap-

pareil 21 afin que des spectres d'énergie de courte durée,

ayant subi un traitement par une fonction fenêtre et corres-

pondant aux fonctions initiales, soient transmis par les lignes 23 Les spectres sont formés à la même fréquence de répétition que les fonctions d'autôcorrélation, c'est-à-dire à rason de par seconde, et chaque spectre d'énergie de courte durée

a 31 termes numériques ayant chacun une résolution de 16 bits.

Il faut noter que chacun des 31 termes du spectre représente l'énergie du signal dans une bande de fréquence L'appareil

de transformation-met aussi de préférence en oeuvre une fonc-

tion fenêtre de Hamming ou analogue afin que les réponses pa-

rasites dues aux bandes adjacentes soient réduites.

Danes un premier mode de réalisation considéré, la transformation de Fourier et les opérations suivantes de traitement sont exécutées de préférence sous la commande d'un ordinateur d'emploi universel convenablement programmé, à l'aide d'un processeur à arrangements périphériques destiné à accélérer les opérations arithmétiques qui doivent être

répétées par mise en oeuvre du procédé de l'invention L'ordi-

nateur utilisé est du type PDP-ll fabriqué par the Digital Equipment Corporation, Maynard, Massachusetts Le processeur d'arrangement particulier utilisé est décrit dans le brevet

des Etats-Unis d'Amérique né 4 228 498 La programmation dé-

crite dans la suite du présent mémoire en référence à la

figure 3, correspond pratiquement aux possibilités et carac-

téristiques de ces ensembles de traitement qui sont disponibles

dans le-commerce.

Les spectres d'énergie de courte durée traités par la fonction fenêtre subissent une égalisation de leur réponse en fréquence comme indiqué par la référence 25, en fonction des amplitudes de crête dans chaque canal ou bande de fréquence comme décrit plus en détail dans la suite du présent mémoire Les spectres ayant subi l'égalisation transmis par les lignes 26, ont une fréquence de 100 par seconde et chaque spectre a 31 termes numériques évalués à

une précision de 16 bits Les spectres ayant subi l'égalisa-

tion et le traitement, transmis par la ligne 26, subissent une transformation d'amplitude 35 sous une forme non linéaire afin que l'évaluation finale des données acoustiques reçues soit facilitée La transformation est décrite en détail dans la suite du présent mémoire, mais on peut déjà noter qu'elle

augmente la précision d'adaptation du signal acoustique incon-

nu reçu aux matrices des motifs objets dans le vocabulaire de

référence Dans le mode de réalisation considéré, cette trans-

formation est exécutée sur tous les spectres ayant subi l'é-

galisation et le traitement, avant la comparaison des spectres avec les motifs représentant les éléments du vocabulaire de référence. Les spectres ayant ainsi subi la transformation et l'égalisation, transmis par les lignes 38, sont alors comparés aux matrices d'éléments 40 comme décrit en détail dans la suite du présent mémoire Les motifs de référence 42 représentent les éléments du vocabulaire de référence d'une manière statistique, auxquels les spectres transformés et égalisés peuvent être

comparés Chaque fois qu'un "silence" est détecté, une déci-

sion est prise quant à l'identité de la file de mots qui vient d'être reçue comme indiqué en 44 Les mots candidats sont alors choisis d'après l'étroitesse de la comparaison et,

dans le mode de-réalisation représenté, le processus de sé-

lection est destiné à réduire au minimum la probabilité pour

qu'un mot-clé soit oublié.

Comme l'indique la figure l A, un appareil de re-

connaissance de parole selon l'invention comporte un organe 45 de commande qui-peut être par exemple un ordinateur d'emploi universel tel que l'ordinateur PDP-ll ou unorgane matériel construit spécialement Dans le mode de réalisation considéré, l'organe 45 reçoit les données acoustiques ayant subi le traitement préalable d'un processeur préalable 46 décrit plus en'détail en référence à la figure 2 Ce processeur 46 reçoit les àgnaux analogiques acoustiques par une ligne 47 et transmet les signaux traités par des lignes 48 de couplage

à l'ordinateur de commande.

La vitesse de fonctionnement de l'ordinateur de commande, lorsqu'il s'agit d'un ordinateur d'emploi universel, n'est pas suffisamment grande en général pour que les données reçues soient traitées en temps réel En conséquence, divers circuits spécialisés peuvent être avantageusement utilisés afin que la vitesse de traitement de l'élément 45 soit accrue En particulier, un processeur vectoriel 48 a tel que décrit dans le brevet précité des Etats-Unis d'Amérique N O 4 228 498 permet une augmentation très importante du traitement d'arrangement par mise en oeuvre d'un essai de circulation En outre, comme

décrit plus en détai L en référence aux figures 4 à 6, un pro-

cesseur 48 b mettant en oeuvre une fonction de vraisemblance

peut être utilisé avec le processeur vectoriel afin que la vi-

tesse de fonctionnement de l'appareil soit multipliée par un

facteur dix.

Bien que le processeur 45 de commande soit un ordi-

nateur dans un mode de réalisation avantageux, une partie importante des possibilités de traitement peut être externe au processeur de commande, dans un processeur 49 de décodage

séquentiel dans un autre mode de réalisation particulier dé-

crit en référence à la figure 10 La structure de ce processeur est décrite plus en détail dans la suite Ainsi, l'appareil de reconnaissance de parole a une grande souplesse, puisque sa vitesse peut être très variable et puisqu'il peut être réalisé soit sous forme de matériel seul, soit sous forme de logiciel seul soit sous forme d'une combinaison avantageuse de matériel

et de logiciel.

Processeur préalable Dans l'appareil représenté sur la figure 2, une fonction d'autocorrélation avec l'opération de formation d'une moyenne intrinsèque, est exécutée numériquement dans le courant de données numériques créé par le convertisseur 13 qui traite-les données acoustiques analogiques reçues par la ligne l J,-en général un signal vocal Le convertisseur 13

transmet un signal numérique par les lignes 15 Les fonc-

tions de traitement numérique et de conversion analogique-

numérique sont synchronisées par un oscillateur 51 d'horlor 1 e.

Celui-ci transmet un signal de synchronisation fondamental de 256 000 impulsions par seconde, et ce signal parvient à un circuit diviseur de fréquence 52 qui donne un second signal de synchronisation à 8000 impulsions par seconde Le signal de synchronisation plus lent commande le convertisseur 13 et un registre 53 à-bascule qui contient les résultats à 12 bits de la dernière conversion jusqu'à ce que la conversion

suivante soit terminée.

Les produits d'autocorrélatior sont formés par un circuit multiplicateur numérique 56 qui multiplie le nombre

contenu dans le registre 53 par le signal de sortie d'un re-

gistre à décalage 58 à trente deux mots Ce registre 58 est commandé d'un'e manière circulante et il est piloté à la

fréquence d'horloge la plus grande, si bien qu'une circula-

tion complète des données du registre à décalage est réalisée pour chaque conversion analogique-numérique Un signal d'entrée dans le registre 58 est prélevé dans le registre 53 une fois par chaque cycle complet de circulation Un signal d'entrée du circuit multiplicateur 56 est prélevé directement dans

le registre 53 et l'autre signal d'entrée du circuit mtilti-

plicateur est prélevé (à une exception près indiquée dans la suite du présent mémoire) à la sortie actuelle du registre à décalage par l'intermédiaire d'un multiplexeur 59 Les

multiplications sont exécutées à la fréquence élevée d'horloge.

Ainsi, chaque valeur obtenue par conversion analogique-numérique est multipliée par chacune des trente et une valeurs précédentes de conversion Comme le notent les I? hommes du métier, les signaux ainsi crtés équivalent Il la multiplication du signal d'entrée par lui-même, retardé dans le temps par trente deux temps élémentaires différents (l'un

ayant un retard nul), Le multiplexeur 59 provoque la multipli-

cation de la valeur actuelle du registre 53 par elle-même au moment o chaque nouvelle valeur est introduite dans le registre à décalage afin' qu'il forme la corrélation avec un'

retard zéro, c'est-à-dire l'énergie du signal Cette fonc-

tion de synchronisation est indiquée par la référence 60.

Comme le savent les hommes du métier, les produits d'une conversion unique avec ses 31 prédécesseurs,

ne constituent pas une représentation véritable de la répar-

tition d'énergie ou du spectre dans un intervalle raisonna-

ble d'échantillonnage L'appareil de la figure 2 forme donc

la moyenne de ces jeux de produits.

Une opération d'accumulation qui permet la réa-

lisation de la moyenne, est assurée par un registre à décalage 63 à trente deux mots qui est relié à un additionneur 65 afin qu'il forme un jeu de trente deux accumulateurs Ainsi, chaque mot peut circuler après avoir été ajouté à l'élément

correspondant provenant du circuit multiplicateur numérique.

La boucle de circulation passe dans une porte 67 qui est commandée par un circuit 69 de division par N piloté par le signal d'horloge à basse fréquence Le circuit diviseur 69 divise le signal d'horloge à basse fréquence par un facteur

qui détermine le nombre de fonctions instantanées d'auto-

corrélation qui sont cumulées avant formation de la moyenne

avant lecture du registre 63.

Dans le mode de réalisation représenté, quatre vingts échantillons sont cumulés avant d'être lus En d'autres

termes, le nombre N du circuit 69 est égal à quatre-vingts.

Après la corrélation et l'accumulation des quatre-vingts échantillons de conversion, le circuit 69 commande un circuit 71 d'interruption de l'ordinateur par une ligne 72 A ce moment, le contenu du-registre 63 est successivement transmis à la

mémoire de l'ordinateur par un circuit convenable 73 de cou-

plage, les trente deux mots successifs du registre étant

H S 2520912

présentés suivant une séquence ordonnée h 1 'o Vrdirinteur par

le circuit 73 Comme le savent les hommes du métier, ce trans-

fert de données par un périphérique, c'est-à-dire le proces-

seur préalable d'autocorrélation, à l'ordinateur, peut être exécuté par exemple par une procédure d'accès direct à la mémoire A une fréquence initiale d'échantillllonnage de 8000 échantillons par seconde, et d'après une moyenne sur

quatre-vingts échantillons, on note que 100 fonctions moyen-

nées d'sutocorrélation sont transmises à l'ordinateur à cha-

que seconde.

Pendant que le contenu du registre à décalage

est transmis à l'ordinateur, la porte 67 est Fermée de ma-

nière que chacun des mots du registre soit remis en fait à

zéro et permette à l'accumulation de recommencer.

L'opération mise en oeuvre par l'appareil de la figure 2 peut être représentée mathématiquement sous la

forme suivante.

On suppose que le convertisseur analogique-

numérique forme la série temporelle S(t) dans laquelle t = O, To, 2 To, To étant l'intervalle d'échantillonnage (soit 1/8000 S dans le mode de réalisation considéré), et le circuit numérique de corrélation représentésur la figure 2 peut Ptre considéré comme calculant la fonction de corrélation a(j, t) = S(t+k To) S(t+(k-j) To) (i) k=O (dans laquelle j = O, 1, 2,, 31 et t est égal à 80 To, To,, 80 N To,, si l'on néglige les ambiguïtés b la mise en route Ces fonctions d'autocorrélation correspondent aussi à des corrélations transmises par les lignes 19 de la

figure 1.

Sur la figure 3, le corrélatetir numériquec finnc-

tionne de façon continue et transmet à l'ordinateur une série

de blocs de données à raison d'une fonction complète d'auto-

corrélation toutes les 10 millisecondes La référence 77 (figure 3) représente cette opération Chaque bloc de données

représente la fonction d'autocorrélation tirée d'un sous-

intervalle correspondant de temps Comme indiqué précédei,-

-; -ment, les fonctions d'autocorrélation représentées sont transmises à l'ordinateur à raison de 10 U fonctions de trente deux mots par seconde Cet intervalle d'analyse est appelé "trame" dans la suite du présent mémoire. Dans le premier mode de réalisation représenté, :.: le traitement des données des fonctions d'autocorrélation -: est réalisé par un ordinateur spécialisé, programmé de façon È convenable L'organigramme qui comprend la fonction assurée par le programme, est représenté sur la figure 3 Cependant, il faut noter que diverses opérations peuvent être exécutées par les circuits et non par un loqiciel et que certaines fonctions exécutées par l'appareil de la figure 2 peuvent -L être exécutées par un logiciel, l'organigramme de la figure

3 étant modifié de manière correspondante.

Bien que le corrélateur numérique de la figure

2 forme la moyenne au cours du temps des fonctions d'auto-

corrélation créées d'une manière instantanée, les fonctions moyennes transmises à l'ordinateur peuvent encore contenir certaines irrégularités ou discontinuités anormales qui peuvent perturber le traitement et l'évaluation ordonnés

X des échantillons Ainsi, chaque bloc de données, c'est-à-

-' dire chaque fonction d'autocorrélation a(j,t) est d'abord

lissée dans le temps La référence 78 indique cette opéra-

tion dans l'organigramme de la figure 3 L'opération de lis-

sage est de préférence telle que la fonction lissée a (j,t) - est as(j, t) = C a(j,t) + C 1 a(j, t T) + C 2 a(j,t 2 T) ( 2) a(j,t) étant la fonction non lissée donnée par l'équation ( 1), as(j,t) étant la fonction lissée d'autocorrélation alors

* que j désigne le retard temporel, t le temps réel et T l'in-

tervalle de temps séparant les fonctions consécutives d'auto-

corrélation (trames) cet intervalle étant écal à 0,01 seconde dans un mode de réalisation avantageux Les fonctions de pondération CO, C 1, C 2, sont de préférence choisies de manière

qu'elles correspondent à 1/4, 1/2, 1/4 dans le mode de réali-

: tion considéré, bien que d'autres valeurs puissent être choisies.

À ')

Par exemple, une fonction de lissage correspondant sensible-

ment à une réponse impulsionnelle gaussienne à une frétquence de coupure de 20 Hz par exemple, peut être mise en oeuvre par le logiciel Cependant, les expériences montrent que la fonction de lissage représentée qui est facile à mettre en oeuvre comme l'indique l'équation ( 2) donne des résultats satisfaisants Comme indiqué, la fonction de lissage est

exécutée séparément pour chaque valeur j de retard.

La description qui suit montre que l'analyse

suivante implique diverses opérations sur le spectre d'énergie de Fourier de courte durée du signal de parole et, pour des

raisons de simplicité des circuits et de vitesse de traite-

ment, la transformation de la fonction d'autocorrélation dans le domaine de fréquence est exécutée arithmétiquement sur 8 bits dans le mode de réalisation représenté Dans la partie haute de la bande passante, près de 3 K Hz, la densité spectrale diminue à une valeur pour laquelle la résolution

ne convient pas sous forme de quantités à 8 bits En consé-

quence, la réponse en fréquence de l'ensemble est modifiée d'une manière croissante à raison de 6 d B par octave La référence 79 indique cette opération Cette accentuation des fréquences élevéesest réalisée à l'aide de la dérivée seconde de la fonction d'autocorrélation par rapport à son argument, c'est-à-dire au retard temporel L'opération de dérivation est b(j,t) = -a(j+l, t) + 2 a(j,t) a(j-l,t) ( 3) On suppose, pour l'évaluation de la dérivée pour j = O, que la fonction d'autocorrélation est symétrique par rapport à 0, si bien que a(-j,t) = a(+j,t) En -outre il n'y a pas de données pour a( 32), si bien que la dérivée pour j = 31

est égale à la dérivée pour j = 30.

Comme indiqué dnns l'or ganiqranimne (de la fi(ure( 3,

le pas suivant dans la procédure d'analyse, après l'accentua-

tion des fréquences élevées, est l'estimation de l'énergie du signal dans l'intervalle actuel de trame par détermination de la valeur absolue de crête de l'autocorrélation L'estimation de l'énergie P(t) est P(t) = max Ib(i,t L ( 4) i

La fonction lissée d'autocorrélation est norma-

lisée par blocs par rapport à P(t)(pour 80) et les 8 bits les plus significatifs de chaque valeur normalisée sont

transmis au circuit d'analyse du spectre afin que l'auto-

corrélation soit préparée pour l'analyse du spectre avec bits La fonction normalisée (et lissée) d'autocorrélation est donc c(j,t) = 127 b(j,t)/P(t) ( 5)

Comme indiqué par la référence 81, une transfor-

mation de F-ourier du type cosinus est alors appliqu 6 e à cha-

que fonction d'aptocorrélation lissée dans le temps, accentuée en fréquence et normalisée c(j,t) afin qu'un spectre d'énergie à 31 points soit formé La matrice des valeurs cosinus est donnée par S(i,j) = 126 g(i) (cos ( 2 i/8000)f(j)), j = 0, 1, 2,, 31 ( 6) avec S(i,j) désignant l'énérgie spectrale dans une bande centrée à f(j) Hz, au temps t, et g(i) = (l + cos 2 'i/63) est l'enveloppe de la fonction fenêtre (de Hanning) afin que les lobes latéraux soient réduits, et f(j) = 30 + 1000 ( 0,0552 j + 0,438) 1/0,63 Hz ( 7) j=O 0, 1, 2,, 31 cette équation indiquant les fréquences d'analyse qui sont également réparties sur la courbe "mel" des sons musicaux subjectifs On sait que ces fréquences correspondent à une hauteur subjective (échelle en mel) avec un espacement suivant l'axe des fréquences pour les fréquences qui se trouvent dans

la bande passante d'un exemple de canal de communication d'en-

viron 300 b 3500 Hz.

Comme l'analyse spectrale nécessite la somma-

tion sur des retards allant de -31 3 + 31, dans l'hypothèse o l'autocorrélation est symétrique autour de zéro, seules les valeurs positives de j sont nécessaires Cependant, la matrice des signes est réglée de manière qu'elle évite le comptage en double du terme de retard zéro sous la forme S(O,j) = 126/2 = 63, pour tous les j ( 8) Ainsi, le spectre calcul d',énergi est donné par 31 S'(j,t): a(i,t) S (i,j), j = O, 1,, 31 ( 9) le jième résultat correspondant à la fréquence f(j). On note ainsi que chaque point ou valeur, dans

chaque spectre, représente une bande correspondante de fré-

quences Bien que cette transformation de Fourier puisse être effectuée totalement dans les circuits classiques, l'opération

peut 'tre considérablement accélérée par utilisation d'un dis-

positif périphérique externe formant un multiplicateur ou

un appareil de transformation rapide de Fourier La construc-

tion et le fonctionnement de tels circuits sont bien connus

et on ne les décrit donc pas La fonction de lissage des fré-

quences est avantageusement incorporée à ce circuit périphé-

rique de transformation, chacun des spectres étant lissé en

fréquence d'après la fonction fenêtre avantageuse de pondéra-

tion g(i) indiquée précédemment (Hamming) L'opération est in-

diquée par la référence 83 du bloc 85 qui correspond à la

réalisation de la transformation de Fourier par des circuits.

Lorsque le bruit de fond est important, une esti-

mation du spectre d'énergie du bruit de fond doit être sous-

traite de S'(j,t) à ce moment La trame ou les trames choisies pour la représentation du bruit ne doivent pas contenir de signaux de parole La règle optimale pour la sélection des intervalles des trames de bruit varie avec l'application Si

la personne qui parle participe à une communication bidirec-

tionnelle par exemple avec une machine commandéepar l'appareil de reconnaissance de parole, il est par exemple commode de choisir une trame arbitrairement dans l'intervalle, juste après que la machine a fini de parler à l'aide de son ensemble de réponse vocale Dans des situations moins contraignantes, la trame de bruit peut être déterminée par sélection d'une trame d'amplitude minimale pendant la période d'une ou deux

secondes du signal acoustique reçu qui vient de s'écouler.

is N 2520912 Les spectres successifs lissés d'énergie sont

reçus à partir du dispositif périphérique 85 et une égalisa-

tion du canal de communication est obtenue par détermination d'une enveloppe du spectre d'énergie de crête (différent de façon générale) à partir des spectres du dispositif 85 et

par modification du signal de sortie de l'appareil de trans-

formation rapide de Fourier, comme décrit dans la suite du présent mémoire Chaque spectre d'amplitude de crête qui

vient d'être créé p (j, t) correspondant à un spectre d'éner-

gie reçu S'(j, t) et remis à jour par ce dernier, j dési-

gnant les différentes bandes de fréquence suspectes,est le résultat d'une attaque rapide, d'une décroissance lente, d'une fonction de détection de crête pour chacune des bandes ou chacun des canaux du spectre Les spectres d'énergie ayant subi le traitement par la fonction fenêtre sont normalisés par rapport aux termes correspondants du spectre respectif

d'amplitudede crête comme l'indique la référence 87.

Dans le mode de réalisation représenté, les valeurs de l'"ancien" spectre d'amplitude de crête p(j, t T) déterminées avant réception d'un nouveau spectre traité, sont comparées-sur une bande de fréquence et pour chaque bande de fréquence avec le nouveau spectre reçu S'(j, t) Le nouveau spectre de crête p(jt) est alors formé d'après les règles suivantes L'amplitude de l'énergie dans chaque bande pour le

spectre ancien est multipliée par une fraction fixe, par exem-

ple 1023/1024 dans l'exemple considéré Ceci correspond à la partie de décroissance lente de la fonction de détection de crête Si l'amplitude d'énergie dans la bande j du spectre S'(j,t) est supérieure à l'amplitude de l'énergie dans la bande correspondante de fréquence du spectre décroissant, la valeur du spectre décroissant pour cette bande de fréquence (ou plusieurs) est remplacée par la valeur du spectre de la bande correspondante du spectre traité reçu Ceci correspond

à l'attaque rapide de la fonction de détection de r F Ate.

Mathématiquement, la fonction de détection de crête peut être représentée sous la forme p(j,t) = max p(j,t-T) ( 1-E); P(t) S'(j,t) j= 0, 1,,31 ( 10)

19 2520912

dans laquelle j désigne chacune des bandes (de F,'éïiumce, p(j,t) représente le spectre de crête résultant, p(j, t-T) le spectre ancien ou antérieur, S'(j,t) le nouveau spectre partiellement traité, P(t) l'estimation d'énergie au temps t et E le paramètre de décroissance.

Selon l'équation ( 10), le spectre de crête dé-

crolt normalement, à part une plus grande valeur d'entrée du

spectre, d'un facteur 1 E Par exemple, E est égal à 1/1024.

Cependant, il peut ne pas être souhaitable que le spectre diminue pendant les intervalles de silence, surtout si on ne prévoit aucun changement rapide des caractéristiques vocales ou du canal On peut utiliser la méthode déjà utilisée pour la sélection des trames du bruit de fond pour déterminer la trame de silence Les amplitudes (racine carrée de P(t)) des 128 trames passées sont inspectées et la valeur minimale

est déterminée Si l'amplitude de la trame en cours est infé-

rieure à quatre fois cette valeur minimale, la trame en

cours est déterminée comme représentant un silence et la va-

leur "zéro" remplace E qui est égale à 1/1024.

Après formation du spectre de crête, le spectre résultant p(j,t) subit un lissage en fréquence comme indiqué par la référence 89 par formation de la moyenne des valeurs de crête de la bande de fréquence, les valeurs de crête

correspondant aux fréquences adjacentes des spectres nouvel-

lement créés, la largeur de la bande globale de fréquence contribuant à la valeur moyenne étant à peu près égale à la

séparation des fréquences entre les fréquences des formants.

Comme le savent les spécialistes en reconnaissance de parole, la séparation est de l'ordre de 1000 Hz environ La formation de la moyenne de cette manière conserve l'information utile des spectres, c'est-à-dire des variations locales indiquant les résonances des Formants alors que l'accentuation globale

du spectre de fréquence est supprimée Dans unt mode de réalisa-

tion avantageux, le spectre de crête est lissé par rapport à la fréquence à l'aide d'une fonction moyenne mobile recouvrant cette bande adjacente de fréquence La fonction de formation de moyenne est e(j,t) = h(j) >_ p(k, L) (-11) k=j-3 Aux extrémités de la bande passante, p(k,t) est rendu égal b O pour-k inférieur à O et k supérieur à 31 L'enveloppe

de normalisation h(j) tient compte du nombre d'éléments va-

lables de données réellement additionnées et on a ainsi h(O) = 7/4, h(l) = 7/5, h( 2) = 7/6, h( 3) = 1, h( 28) = 1, h( 29) = 7/6, h( 30) = 7/5, et h( 31) = 7/4 Le spectre lissé résultant e(j,t) est alors utilisé pour la normalisation et l'égalisation des fréquerres du spectre d'énergie qui vient d'être reçu S'(j,t) par division de l'amplitude de chaque

bande de fréquence du spectre lissé reçu S'(j,t) par la va-

leur correspondante de la bande de fréquence du spectre lis-

sé de'crite e(j,t) Mathématiquement, l'opération est sn(j,t) = (S'(j,t) / e(j,t)) 32767 ( 12) Sn(j,t) étant le spectre lissé et normalisé et j désignant toutes les bandes de fréquence Cette opération est repérée

par la référence 91 Il se forme ainsi une séquence de spec-

tre d'énergie égalisée en fréquence et normalisée, de courte durée et qui accentue les variations du contenu en fréquence des signaux acoustiques reçus tout en supprimant la distors;ion ou l'accentuation généralisée des fréquences sur une grande durée Ce procédé de compensation des fréquences est très avantageux pour la reconnaissance des signaux de paroles transmis par des liaisons de communication qui déforment les fréquences telles que les lignes téléphoniques, par, rapport aux systèmes plus courants de compensation dans lesquels

l'opération repose sur le niveau moyen en énergie soit du si-

gnal global, soit dans chaque bande de fréquence.

Il est utile de noter que, bien que les spectres stuccessifs soient traités et égalisés de diverses manières,

les données représentant les signaux acoustiques reçus comipren-

nent encore des spectres qui ont une fréquence de 100 par

seconde.

Les spectres normalisés et égali:és en fréquence 91 subissent une transformation d'amplitude 93 qui provoque un 2.1

changement d'échelle non linéaire des amplitudes spectrales.

Si l'on appelle sn(j,t) (de l'équation 12) les spectres éqali-

sés et normalisés individuels, j correspondant aux différen-

tes bandes de fréquence du spectre et t le temps réel, le spectre non linéaire décalé x(j,t) est déterminé par la fonction linéaire sous forme d'une fraction x(j,t) = 128 sn(j,t) -A j=O, 1,, 30 ( 13) s (j,t) + A n A étant la valeur moyenne du spectre sn(j,t) pour j= O à j= 31 et étant déterminée sous la forme: A 1 E 31 Sn(j,t) ( 14) 32 j: O j désignant toutes les bandes de fréquence du spectre

d'énergie.

Le trente et unième terme du spectre est rempla-

cé par le logarithme de A si bien que l'on a x( 31,t) = 16 loq 2 A ( 15) La fonction de décalage de l'équation 13 donne un effet de seuil peu accentué et de saturation progressive

des intensités spectrales qui s'écartent beaucoup de la moyen-

ne A de courte durée Mathématiquement, pour les intensités proches de la moyenne, la fonction est à peu près linéaire alors que, pour les intensités plus éloignées, la variation est presque logarithmique et, pour les valeurs extrêmes de l'intensité, la valeur est pratiquement constante Sous une forme logarithmique, la fonction x(j,t) est symétrique par rapport à zéro et elle présente un seuil et un phénomène de saturation qui suggèrent la fonction d'excitation du nerf

auditif En pratique, l'ensemble de reconnaissance a un fonc-

tionnement meilleur avec cette fonction non linéaire d'échelle qu'avec une fonction linéaire ou logarithmique des amplitudes spectrales. Une séquence de spectres d'énergie de courte

durée, d'amplitude transformée, égalisés en fréquence et nor-

malisés x(j,t) est ainsi formée, t étant égal à 0,01, 0,02, 0,03,,seconde et j étant égal à O,, 30 (correspondant

aux bandes de fréquence des spectres formés d'énergie).

Trente deux mots sont formés pour chaque spectre et la valeur

de A (équation 15), c'est-à-dire la valeur moyenne des spec-

tres, est conservée comme trente-deuxième mot -Les spectres transformésappelés "trames" sont conservés comme indiqué

en 95 dans une-mémoire circulant du type premier entré-

premier sorti ayant une capacité de mémoire de 256 spectres

de trente-deux mots dans le mode de réalisation considéré.

2,56 secondes du signal acoustique reçu peuvent donc être

analysées dans ce mode de réalisation Cette capacité de mé-

moire donne à l'ensemble de reconnaissance une souplesse permettant le cas échéant la sélection de spectres à des -temps réels différents, en vue de leur analyse et de leur évaluation, si bien que l'analyse peut aller vers l'avant ou

vers l'arrière dans le temps, le cas échéant.

Ainsi,'les trames des 2,56 dernières secondes sont conservées dans la mémoire circulante et disponibles à volonté Lors du fonctionnement, chaque trame est conservée

pendant 2,56 secondes Ainsi, une trame qui pénètre au temps -

t 1 dans la mémoire circulante, est décalée ou perdue pour la mémoire 2, 56 secondes plus tard lorsqu'une nouvelle trame

correspondant au temps t 1 + 2,56 secondes est conservée.

Les trames circulant dans la mémoire sont compa-

rées de préférence en temps réel à un vocabulaire connu de mots afin que les données soient déterminées et identifiées dans des groupes de mots formant une "file"de mots Chaque

mot du vocabulaire est représenté par un motif matrice repré-

sentant statistiquement plusieurs spectres traités d'énergie

formant plusieurs motifs à plusieurs trames (trois de préfé-

3 B rence) qui ne se recouvrent pas Ces motifs sont de préféren-

ce choisis afin qu'ils représentent au mieux les événements acoustiques significatifs des mots du vocabulaire et ils sont

conservés comme indiqué par la référence 1 (.

Les spectres formant les moutifs 'jru jeu de dessins sont créés à partir des mots prononcés dans différents contextes

avec l'appareil décrit précédemment afin que la parole incon-

nue et continue parvenant par la ligne 10 comme représenté sur

À-' 2520912

la figure 1, puisse être traitée.

Ainsi, chaque mot de vocabulaire est: associé à plusieurs séquences de motifs d'un jeu de dessins P(i)l,

P(i)2,, qui représentent dans un domaine de spectres d'éner-

gie de courte durée, une désignation de ce iibme mot-clé.

La collection des motifs du jeu de dessins pour chaque mot-

clé forme là base statistique de la création des motifs objets.

Dans ce mode de réalisation les motifs du jeu de dessins P(i)j peuvent être considérés chacun comme un arrangement à 96 éléments comprenant trois trames choisies

placées en série Les trames du motif sont de préférence sé-

parées d'au moins 30 millisecondes afin qu'une corrélation parasite ne puisse pas être due au lissage des domaines Dans

d'autres modes de réalisation, d'autres stratégies d'échan-

tillonnage peuvent etre utilisées pour la sélection des tra-

mes; cependant, la-stratégie la plus avantageuse est la

sélection de trames séparées par un temps constant dé 30 mil-

lisecondes par exemple, et l'espacement des motifs de jeux de dessins qui ne se recouvrent pas dans l'intervalle de temps formant le mot-clé Ainsi, un premier motif Pl correspond à une partie d'un mot-clé près du début, un second P 2 dans une partie ultérieure, etc, et les motifs P 1, P 2 forment la base statistique de la série de motifs objets, la matrice de mot par rapport à laquelle les données acoustiques reçues sont

adaptées Les motifs t 1, t 2-,ont chacun des données statisti-

ques créées à partir des valeurs P(i)j correspondantes, dans l'hypothèse o ces dernières sont formées de variables

laplaciennes indépendantes permettant la création d'une statis-

tique de vraisemblance entre les-trames reçues, comme indi qué précédemment, et les motifs objets Ainsi, ces derniers forment un arrangement dans lequel les entrées comportent la

moyenne, l'écart type et le facteur de normalisation en sur-

face de la collection correspondante d'entrée dans l'arran-

gement de motifs On décrit dans la suite du présent mémoire

une statistique de vraisemblance qui est plus dlaborée.

Les hommes du métier peuvent rnoter qcue pratique-

ment tous les mots ont plus d'une prononciation dépendant ldu ? 4

contexte et/ou de la région et peuvent donc ltr "'mi '" su Ji-

vant plusieurs motifs Ainsi, un mot du vocabulairc prononcé sous la forme P 1, P 2 comme indiqué précédemment, peut en réalité être exprimé sous la forme générale p(i), p(i)2, i = 1, 2,, M dans laquelle chaque terme p(i)j constitue

une description possible de la jième classe de motifs d'un

jeu de dessins, avec au total M prononciations différentes

du mot.

Les motifs objets tl, t 2, ti représentent donc, sous la forme la plus générale, plusieurs prononciations statistiques différentes pour le iième groupe de motifs ou

la iième classe de motifs Dans le mode de réalisation con-

sidéré, l'expression "motif objet" est ainsi utilisée dans le sens le plus général et chaque motif objet peut donc

avoir plusieurs "prononciations statistiques".

Le traitement préalable des signaux acoustiques inconnus reçus et la formation des motifs de référence sont

alors terminés.

Traitement des spectres mémorisés Une étude plus profonde de la reconnaissance de mots-clés par des motifs phonétiques chaunés dans des mots détectés, comme décrit dans les brevets précités des Etats-Unis d'Amérique N s 4 241 329, 4 227 176 et 4 227 177, a montré qu'il s'agit d'un cas particulier d'un procédé plus général et sans doute meilleur de reconnaissance Comme l'indique la figure 4, la recherche de reconnaissance des

mots peut être représentée sous forme d(lu problème de la dé-

couverte d'un trajet convenable dans un espace d'états abstrait.

Sur la figure, chaque cercle représente uir état possible, qu'on peut aussi considérer comme une position pendant un temps

d'arrêt ou un registre, et le processus de décision doit pas-

ser par ces états L'espace compris entre les traits verticaux

, 122 représente-chacun des états hypothétiques par les-

quels le processus de décision peut passer pour la détermi-

nation de l'accord ou non d'un motif avec un phonême actuelr.

Cet espace est divisé en une partie nécessaire d'arr 8 t 124 et une partie éventuelle d'arrêt 126 La partie d'arrêt 252 o 91 j nécessaire et la durée minimale du motif ou phonème "actuel" particulier La partie éventuelle représente la durée maximale supplémentaire d'un motif Chaque cercle des parties d'arrêt

représente la durée d'une trame du continuum des trames for-

mées et correspond à des'intervalles de 0,01 seconde, d'une trame à l'autre Ainsi, chaque cercle identifie une position hypothétique phonétique actuelle dans la prononciation d'un mot et, avec le nombre de trames de 0,01 seconde supposé écoulé depuis le début du phonème actuel, correspondant au nombre de cercles ou position antérieure dans ce phonème ou motif objet, représente la durée actuelle du motif Après le début d'un motif (phonème) et l'écoulement de l'intervalle minimal d'arrêt, plusieurs trajets d'avance vers le premier noeud ou la première position 128 (cercle) du motif objet

suivant (phonème) sont possibles Le trajet dépend de lp dé-

cision d'atteindre Ye motif suivant (phonème) qui est prononcé.

Ces possibilités de décision sont représentées sur la figure par plusieurs flèches parvenant au cercle 128 Une transition vers le motif suivant (phonème) dont le début est représenté par Ie cercle 128, peut commencer à un noeud ou une position quelconque pendant le temps éventuel d'arrt du motif en cours (phonème) ou au dernier noeud de l'intervalle d'arrët nécessaire.

Le procédé de reconnaissance de mots-clés dé -

crit dans les brevets précités des Etats-Unis d'Amérique n Os 4 241 329, 4 227 176 et 4 227 177 détermine la transition au premier noeud pour lequel la cote de vraisemblance par rapport au motif suivant (phonème) est supérieure à la cote de vraisemblance du motif actuel (phonème) Ainsi, une trame

correspond au phonème suivant mieux qu'au phonème actuel.

La cote totale du mot est cependant la moyenne des cotes des motifs par trame (c'est-à-dire par noeud compris dains lr traejet) Cette même définition de la "cote totale" appliquée à une cote de mots jusqu'au noeud actuel peut être utilisée pour décider le moment de la transition, c'est à-dire que la transition au motif suivant a lieu à la première opportunité, correspondant par exemple à une ligne 130 de transition, ou à un moment ultérieur correspondant par exemple à une ligne 132 de transition Le trajet optimal est choisi vers le motif ou phonème suivant pour lequel la cote moyenne par noeud est la meilleure Comme le procédé de traitement de mots-clés décrit dans les brevets précités des Etats- Unis d'Amérique n'examine pas les trajets potentiels après la décision de passer aux motifs suivants, il peut prendre une

décision qui n'est pas optimale, comme l'indique la cote moyen-

ne par noeud.

Ainsi, l'invention met en oeuvre une stratégie

de détermination d'une cote moyenne par noeud pour la recon-

naissance de mots-clés Lors de l'utilisation d'une reconnais-

sance de files de mots comme décrit en détail dans la suite du présent mémoire, un problème se pose car on doit normaliser tous les scores partiels des mots par le nombre de noeuds incorporés, selon un'procédé de calcul peu efficace, ou on

doit modifier l'accumulation afin qu'une normalisation expli-

cite ne soit pas indispensable Une modification naturelle à utiliser dans le cas d'un vocabulaire fermé est l'utilisa-

tion de la cote non normalisée pour le mot le meilleur se ter-

minant au moment actuel de l'analyse, et les cotes accumulées à tous les noeuds sont touiours la somme d'un même nombre de

cotes-de motifs élémentaires En outre, la cote est Lransfor-

mée, par cette modification, en cote de la meilleure file de

mots aboutissant au noeud actuel d'analyse.

Cette stratégie de décision d'après la cote

moyenne par noeud est efficacement mise en oeuvre par le pro-

cesseur vectoriel décrit dans le brevet précité des Etats-Unis

d'Amérique NO 4 228 498, à l'aide d'une technique de program-

mation dynamique Lors de l'utilisation d'une telle programma-

tion, la vitesse de traitement est quelque peu supérieure à celle du procédé classique de reconnnaisnanc de mots-clé( décrit dans les brevets des Etats-Unis d'Amérique précités NOS 4 241 329, 4 227 176 et 4 227 177, bien que plus de tests

soient nécessaires en fonction des hypothèses.

De façon générale, lors de la reconnaissance de files de mots, le programme se rappelle le nom du meilleur

mot supposé de vocabulaire aboutissant à chaque noeud d'ana-

lyse Il se rappelle aussi le noeud (temps) auquel commence

le meilleur mot La meilleure file de mots est alors déter-

minée par retour depuis l'extrémité de l'émission sonore, le nom du mot mémorisé étant noté et le mot précédent étant

déterminé au moment indiqué pour le début du mot actuel.

L'incorporation du silence comme mot de vocabu-

laire ne nécessite pas la spécification du nombre de mots

contenu dans la file de mots L'opération de retour permet-

tant la détermination de la file est exécutée chaque fois que le mot de silence a la cote de mot la plus élevée, et l'opération se termine au silence détecté suivant Ainsi,

une file est déterminée chaque fois que la personne qui par-

le s'arrête pour reprendre sa respiration.

Le procédé de reconnaissance de files de mots

décrit dans le présent mémoire correspond à un niveau' d'abstrac-

tion supérieure à la détection des mots-clés individuels.

Comme la formation des cotes des files de mots nécessite l'in-

corporation de toutes les paroles de l'émission sonore dans

2,0 un mot ou un autre de la file, le procédé présente un avanta-

ge par rapport au procédé plus simple de découverte d'un mot qui détecte souvent des mots erronés dans des mots plus longs.

Aucun diagramme de synchronisation n'cst avanta-

geusement nécessaire dans le cas des files de mots, puisque le circuit de chalnage des mots transmet un temps de début de mot pour chaque hypothèse de fin de mot Le circuit le

plus simple de chainage de file suppose que ces temps de dé-

but de mot sont convenables Lors de la détection d'un silence, il suppose que la file de mots vient juste de se terminer

et que le début du dernier mot constitue la fin du mot pré-

cédent (qui peut être un silence) Il est alors simple de( revenir en arrière dans toute la file, en sélectionnant le mot ayant la meilleure cote finale à chaque limite de mot Fomme il existe habituellement une transition q(lui dépend du contrxte entre chaque paire de mots de la file, il pett Ptre préférable da permettre à l'appareil de rechercher le voisinage de chaque

283 2520912

début de mot pour la meilleure fin du mot: précedenlt.

On considère maintenant plus en détail le procédé et l'appareil selon l'invention, sous Forme de matériel et

de logiciel.

Comme l'indique la fiqure 3, les spectres ou tra-

mes mémorisés en 95, représentant les données acoustiques con-

tinues reçues, sont comparés à la matrice mémorisée des

motifs objets en 96, représentant les mots-clés du vocabu-

laire, par mise en oeuvre du procédé suivant.

Pour chaque trame de 10 milliseconde S,un motif des-

tiné à être comparé aux motifs mémorisés de référence est formé comme indiqué par la référence 97, par association du vecteur s(j,t) du spectre actuel, du spectre s(j,t -0,03) antérieur de trois trames, et du spectre s(j,t-0,06) antérieur de six trames, afin que l'ensemble constitue un motif à 96 éléments: ( s(j,t-O,06), j= 0,,31 x(j,t) = ( s(j-32,t-O,03), j= 32,,63 ( s(j-64,t), j= 64,,95 Comme indiqué précédemment, les motifs mémorisés

de référence sont formés des valeurs moyennes, des écarts-

types, et des termes de normalisation des surfaces des

* motifs à 96 éléments collectés antérieurement et apparte-

nant aux diverses classes de motifs de parole à reconnaître.

La comparaison est réalisée à l'aide d'un modèle de probabi-

lité des valeurs x(j,t) prévues et la parole reçue appartient

à une classe particulière.

Bien qu'on puisse utiliser une distribution gaussienne comme modèle de probabilité (selon les brevets des Etats-Uinis d'Amérique précités N Is 4 241 329, 4 227 176 et 4 227 177), une distribution de Laplace p(x) = ( 1/ 2 s') exp-(J 2 ix-m I /s')

(dans laquelle m désigne la moyenne statistique et s' l'écart-

type de la variable x) nécessite moins de calcul et on constate qu'elle a des résultats presque aussi bons qu'une répartition gaussienne par exemple dans le cas du procédé de reconnaissance de mots isolés avec indépendance par rapport à la personne qui parle, décrit dans le brevet des Ftats-Unis d'Amiérique N 4 038 503 Le degré de similitude L(x| k) entre un motif inconnu reçu x et le kième motif mémorisé de référence est

proportionnel au logarithme de la probabilité et on l'esti-

me à 100 par la formule suivante: 96 lxi Uikl L(x I k) = +Ak ( 17) i=l S'ik s've c avec A k 2 96 Ak = E Log s' ik 2 i: l La cote L(x I k) pour chaque trame est réglée par soustraction de la meilleure cote (la plus petite) de tous les motifs de référence pour cette trame afin de combiner les cotes de vraisemblance L d'une séquence de motifs et de former la cote de vraisemblance d'un mot ou d'une phrase énoncée, de la manière suivante: L'(x I k) L(x I k) mini L(x i) ( 18) Ainsi, le motif qui s'adapte le mieux à chaque

trame a une cote égale à zéro Les cotes réglées correspon-

dant à une séquence supposée de motifs de référence peuvent

être cumulées d'une trame à la suivante afin qu'elles for-

ment une cote de séquence directement reliée à la probabilité pour qu'une décision en faveur de la séquence indiquée

soit une décision convenable.

La comparaison des motifs du spectre inconnu

d'entrée à des motifs connus mémorisés est réalisée par cal-

cul de la fonction q= I sik l xi Uikl k ( 19) i=l (dans laquelle sik est égal à l/s'ik) pour le kième motif de référence Dans un calcul normal par logiciel, les instructions

suivantes sont exécutées pour le calcul de la fonction algé-

brique S |x-u I (de l'équation 19): 1 calculer x-u 2 vérifier le signe de x-u 3 si ce signe est négatif, changer le signe afin de former la valeur absolue 4 multiplier par s ajouter le résultat dans un accumulateur. Dans un exemple d'ensemble de reconnaissance de parole ayant un vocabulaire de 20 mots, il y aurait environ 222 motifs différents de référence Le nombre de pas nécessaires pour leur évaluation est alors égal à 5 x 96 x 222 = 106560, non comprises les opérations d'en-tête, et ces pas doivent ttre exécutés en moins de 10 millisecondes afin que la fréquence

de trame du spectre en temps réel soit respectée Le proces-

seur doit donc pouvoir exécuter près de 11 millions d'instruc-

tions'par seconde afin d'évaluer uniquement les fonctions de vraisemblance Etant donné la vitesse nécessaire, un module spécialisé 200 de calcul de fonction de vraisemblance

(figure 4), compatible au processeur vectoriel tel que dé-

crit dans le brevet des Etats-Unis d'Amérique NO 4 228 498,

est utilisé.

Dans ce circuit spécialisé, les cinq premières

opérations indiquées précédemment, sont exécutées simultané-

ment avec deux jeux des arguments s, x, u, si bien que, en fait, dix instructions sont exécutées pendant le temps

qu'il faut normalement pour l'exécution d'une seule instruc-

tion Comme le processeur vectoriel fondamental fonctionne à une fréquence de 8 millions d'instructions par seconde,

la fréquence efficace de calcul de la fonction de vraisemblan-

ce devient de l'ordre de 80 millions d'instructions par se-

conde lors de l'utilisation du module spécialisé 200.

Le module spécialisé 200, comme indiqué sur la figure 5, comprend une combinaison de traitement en parallèle et par circulation permettant l'exécution simultanée des dix pas Deux parties identiques 202, 2014 exdcutent chacurir einq pas arithmétiques sur ces arguments indépendants des données reçues et les deux résultats sont combinés dans un additionneur 206 relié à leurs sorties L'accumulation des résultats de l'additionneur 206 forme la somme de 1 à 96 de l'équation 19 et elle est traitée par l'ensemble arithmétique

du processeur vectoriel décrit dans le brevet des Ftats-

Unis d'Amérique N 4 288 498.

Lors du fonctionnement, les registres de traite-

ment par circulation contiennent les données intermédiaires auxstades suivants du traitement: 1 arguments reçus (registres 208, 210, 212, 21 à, 216 218 commandés par les signaux d'horloge) 2 valeur absolue de x-u (registres 220 et 222 commandés par les signaux d'horloge) 3 sortie du circuit multiplicateur (registres

224, 226 commandés par les signaux d'horloge).

Les données reçues étant contenues dans les regis-

tres 208 à 218, l'amplitude de x-u est déterminée par les circuits 228, 230 de soustraction et de détermination de la valeur absolue Comme l'indique la figure 6, ces circuits 228, 230 contiennent chacun un premier et un second circuits 232, 234 de soustraction, l'un destiné à déterminer x-u et

l'autre u-x, et un multiplexeur 236 qui sélectionne le résul-

tat positif Les arguments x et u transmis par les lignes 238, 240 provenant des registres 208, 210, sont des nombres ả 8 bits allant de 128 à + 127 Comme le signal différence du circuit de soustraction à 8 bits peut déborder à 9 bits (par exemple 127 -(-128) = 255), un circuit supplémentaire est

nécessaire pour le cas du débordement arithmétique (La condi-

tion est déterminée par un détecteur 235 de débordement dont les signaux de sortie sont le signe de "x"(par une ligne 235 a), le signe de "u" (par une ligne 235 b) et le signe de "x-u"

(par une ligne 235 c)).

Les détecteurs de débordement, représentés sur la figure 7, sont, 'dans ce mode de réalisation, les circuits

combinatoires comprenant des portes ET 268, 270 à trois en-

trées et une porte OU 272 La table de vérité de la figure 8 détermine la condition de débordement en fonction de ses signaux

d'entrée.

La condition de débordement est respectée par les quatre possibilités du multiplexeur 236 qui sélectionne le signal positif de sortie du circuit de soustracti Lon Les choix sont déterminés par les niveaux les signaux binaires des lignes 242 et 244 Le niveau du signal de la ligne 242 représente le signe de x-u Le signe du signal de la ligne 244 représente un débordement lorsqu'il s'agit d'un signal " 1 ". Ainsi, les possibilités de sélection sont les suivantes Ligne 242 Ligne 244 0 O choix du circuit 232 1 O choix du circuit 234 O 1 choix du circuit 232 décalé d'un bit

1 1 choix du circuit 234 décalé d'un bit.

Le multiplexeur est ainsi commandé afin qu'il joue le rôle d'un commutateur électrique à huit poles et quatre positions L'opération de "décalage" est réalisée de façon combinatoire par connexion des signaux de sortie des circuits de soustraction (par des portes) aux entrées

convenables du multiplexeur Le décalage a pour effet d'ef-

fectuer une division arithmétique par deux.

En cas de débordement pendant la soustraction, le signal de sortie du multiplexeur est celui d'un circuit de soustraction divisé par deux Il faut donc se rappeler cette condition ultérieurement dans le calcul afin que le résultat

final puisse etre multiplié par ceux et que le facteur compta-

ble d'échelle soit rétabli Ce rétablissement s'effectue

à la sortie du circuit multiplicateur, après le registre fi-

nal de circulation tn conséquence, un bit supplémentaire est transmis dans les registres 220, 222, 224, 226 afin qu'ils commandent des seconds multiplexeurs 248, 250 qui décalent respectivement le produit de la multiplication formée par un multiplexeur 252, 254 à 8 x 8 bits, d'un bit vers le haut, afin d'assurer une multiplication par deux, chaque fois que le bit de débordement est établi (est égal a " 1 ") La

multiplication arithmétique est réalisée dans un circuit in-

tégré classique, par exemple du type MPY-8-113 de TRW, qui

peut recevoir deux nombres à 8 bits et transmettre leur produit.

Les circuits multiplicateurs 252, 254 forment ainsi le produit de S et Ixul à chaque impulsion d'horloge (la valeur de S étant convenablement:ynch Ilrui,;c par l e;'; registres supplémentaires de données 256, 258) Les signaux de sortie des circuits multiplicateurs 252, 254 sont transmis dans des registres tampons 224, 226 et ils parviennent aux circuits restants par les lignes 260 et 262 et par l'inter-

médiaire de l'additionneur 206.

Le module spécialisé 200 est aussi utilisé pour le calcul du produit interne de deux vecteurs, nécessaire dans une multiplication matricielle L'opération est réalisée par commande de circuits 264, 266 qui permettent le passage

en-dérivation des éléments 228, 230, dans le circuit de sous-

traction et de détermination de valeur absolue Dans ce mode de fonctionnement, les lignes communes d'entrée de données x et S transmettent directement leurs signaux aux registres

220, 222, formant les signaux d'entrée du circuit multiplica-

teur. Alignement des motifs de niveau de mot

Une opération de programmation dynamique (repé-

rée par la référence 101) est de préférence utilisée pour l'op-

timisation de la correspondance entre la parole reçue inconnue et chaque matrice de mot du vocabulaire Chaque matrice de mot comprend non seulement la séquence des éléments statistiques de motifs de référence indiqués précédemment, mais aussi un temps d'arrêt minimal et maximal associs à chaque motif de référence Selon cette programmation dynamique, un jeu de

registres de mémoire est utilisé pour chaque mot de vocabulaire.

Le nombre de registres est égal à la somme des temps maximaux d'arrêt des jessins de référence formant ce mot, c'est-à-dire qu'il est proportionnel à la plus grande durée permise pour un mot Ces registres correspondent aux cercles de la figure 4

à raison d'un registre par cercle.

Pour chaque trame des paroles reçues, une lecture et une écriture sont réalisées dans chaque rerlistre Chaque registre contient, comme décrit en détail dans la suite du présent mémoire, la cote cumulée de vraisemblance correspondant à l'hypothèse selon laquelle le mot indiqué de vocabulaire est prononcé et la position actuelle dans le mot correspond

au motif particulier de référence et au temps d' arr PL asso-

cié à ce registre Tous les registres sont initialisés afin qu' ils contiennent les mauvaises cotes de vraisemblance

indiquant que, initialement, aucune des hypothèses représen-

tées ne risque d'être acceptable. Les règles de remise à jour des registres sont les suivantes Le premier registre de chaque matrice de mot (c'est-à-dire le registre correspondant à l'hypothèse selon laquelle le mot commence juste à être prononcé) contient la somme d'une part de la cote de vraisemblance de la trame actuelle par rapport au premier motif de référence du mot, et d'autre part de la meilleure cote de tous les derniers registres de tous les mots de vocabulaire (c'est-à-dire la cote cumulée de vraisemblance dans l'hypothèse o un mot

a été terminé à la trame précédente).

Le second registre d'une matrice de mot contient la somme d'une part de la cote de vraisemblance de la trame actuelle par rapport au premier motif de référence du mot et d'autre part, du contenu du premier registre pour la trame-précédente Ainsi, le second registre contient la cote del'hypothèse selon laquelle le mot indiqué est en cours de

prononciation et commence à la trame précédente.

Pendant l'opération de remise à jour des registres correspondant à des temps d'arrêt compris entre la durée minimale et la durée maximale (intervalles d'arrêt éventuels), un registre séparé de mémoire est utilisé afin qu'il conserve la meilleure cote cumulée de vraisemblance (contenu du registre)

dans lcs registres correspondant à l'intervalle d'arrêt éven-

tuel pour chaque "trame actuelle" successive Cette meilleure 3 C cote, déterminée pendant la durée de la trame précédente,

est utilisée pour le calcul du contenu suivant du premier re-

gistre correspondant à l'intervalle d'arrtt nécessaire d'une matrice au d'un motif objet suivant pour ce mot Ainsi, le

contenu actuel du premier registre du motif suivant de réfé-

rence est formé par addition de la meilleure cote (du motif objet précédent) à la'cote de vraisemblance de la trame actuelle

reçue par rapport au motif objet ou de référence suivant.

J Sur la figure 4, les flèches multiples parvenant au premier registre 128 de l'intervalle d'arrêt nécessaire d'un motif de référence indiquent que la transition de l'état ou registre éventuel à l'état ou registre d'arrêt nécessaire peut avoir lieu à tout moment pendant l'intervalle d'arrêt éventuel ou à partir du dernier registre de l'intervalle d'arrêt nécessaire Ainsi, d'après l'information actuelle, la meilleure correspondance entre une matrice de mot et les

motifs reçus est celle selon laquelle, lorsque le motif sui-

vant commence juste, le motif antérieur a eu une durée cor-

respondant au registre contenant la meilleure cote dans l'in-

tervalle d'arrêt éventuel précédent (additionné du dernier registre de l'intervalle nécessaire précédent, c'est-à-dire le registre 300 dans le mode de réalisation considéré) Suivant

la théorie de la programmation dynamique, il n'est pas né-

cessaire de conserver les cotes cumulées précédemment e-t cor-

respondant à tous les temps d'arrêt possibles puisque, selon cette théorie, toute transition de temps d'arrêt qui donne une cote moins bonne continue à donner des cotes moins bonnes

dans tous 'les stades ultérieurs du traitement.

L'analyse se poursuit de la manière décrite à l'aide de tous les registres de tous les motifs de référence de toutes les matrices de mots Le ou les derniers registres du dernier motif de chaque matrice de mot contient la cote

de l'hypothèse selon laquelle le mot vient juste de se terminer.

Pendant l'accumulation des cotes de vraisemblance, une séquence de nombres de durée est conservée afin qu'elle

permette la détermination de la durée du meilleur mot se termi-

nant au moment de chaque trame Le nombre commence à "un" dans le premier registre du premier motif de matrice du mot Pour le second registre et chacun des suivants, dans le cas d'un motif matrice, le nombre associé au registre précédent est

augmenté d'une unité Cependant, pour chaque registre corres-

pondant au début d'un motif de référence (autre que le premier

motif de référence d'un mot), c'est-à-dire par exempile le pre-

mier registre 128 de l'intervalle nécessaire d'arrêt, c'esl le nombre du registre d'arrêt éventuel (ou du dernier registre 252091 i h d'arrêt ndcessaire) du motif précédent de référence, ayant la meilleure cote de vraisemblance pendant la d(urée de la trame précédente, qui progresse et forme le nombre représentatif

de la durée pour ce registre.

Un mécanisme de retour tel que décrit plus en détail dans la suite du présent mémoire est mis en oeuvre,

pendant la durée de chaque trame, par transfert de l'identi-

fication du mot donnant le meilleur score se terminant à

ce moment et de sa durée à une mémoire tampon circulante.

Lorsqu'une séquence de mots se termine, les durées des mots mémorisés permettent un retour depuis l'extrémité du dernier

"meilleur mot" par l'intermédiaire de sa durée, jusqu'au meil-

leur mot précédent se terminant juste avant le "dernier mot",

etc, jusqu'à ce que tous les mots de la file aient été iden-

tifiés.

Des files de mots émis de façon continue et appar-

tenant au vocabulaire sont délimitées par des silences Une ou plusieurs matrices de mots correspondent donc au silence ou à un bruit de fond Chaque fois que le mot "silence" a la meilleure cote de vraisemblance, on suppose qu'une sé- quence de mots vient juste de se terminer Un registre

d'étiquette est vérifié afin que la présence d'un mot quel-

conque, autre que le silence, ayant une meilleure cote soit

détectée, depuis la dernière initialisation de la reconnais-

sance Si au moins un mot autre qu'un silence a une meilleure

cote (référence 103), la file de mots du circuit tampon cir-

culant est étudiée en remontant (référence 105) et le message reconnu résultant est transmis à un appareillage d'affichage ou autre Le circuit tampon circulant est alors effacé afin que le message ne puisse pas être transmis une autre fois, et le registre d'étiquette est effacé L'appareil est ainsi initialisé pour la reconnaissance de la "file de mots" suivante

(référence 107).

Formation aux motifs de référence

Un certain nombre d'émissions de chaque mot de vo-

cabulaire sont introduites dans l'appareil de reconnaissance de parole et les fonctions statistiques d'ensemble des trames correspondantes des spectres traités préalablement sont évaluées afin que les moyennes u et les variances s' des échantillons

soient obtenues pour la construction des motifs de référence.

La sélection des trames des spectres reçus qui correspondent aux motifs objets ou de référence est primordiale pour un

fonctionnement satisfaisant de l'appareillage.

En l'absence d'une meilleure information telle

que des phonèmes acoustiques significatifs choisis manuelle-

ment comme mots reçus, l'intervalle de temps compris entre le début et la fin d'un mot prononcé est divisé en un certain nombre de sous-intervalles uniformément espacés Chacun des sous-intervalles correspond obligatoirement à un motif de

référence unique Un ou plusieurs motifs à trois trames com-

mençant dans chaque intervalle sont alors formés et classés

en fonction du motif de référence associé à cet intervalle.

Les exemples suivants du même mot de vocabulaire sont

diviss de manière analogue en un nombre analogue d'inter-

valles uniformément espacés Les valeurs des moyennes et des variances des éléments des motifs à trois trames retirés des intervalles ordonnés de façon correspondante sont accumulées pour tous les exemples disponibles du mot de vocabulaire afin

qu'elles forment le jeu de motifs de référence pour ce mot.

Le nombre d'intervalles (nombre de motifs de référence) doit être de l'ordre de deux ou trois par phonème linguistique

contenu dans le mot de vocabulaire.

On obtient les meilleurs résultats lorsque le début et la fin de chaque mot de vocabulaire sont marqués par une procédure mettant en oeuvre un examen manuel des formes d'onde acoustiques enregistrées et des trames des spectres La mise

en oeuvre automatique de cette procédure nécessite la pro-

nonciation des mots un par un, les mots étant limités par du silence afin que l'appareil puisse déterminer avec précision les limites des mots Les motifs de référence peuvent être initialisés à partir d'un tel échantillon de chaque mot prononcé isolément, toutes les variances étant fixées à une

valeur constante commode dans les motifs de référence.

Ensuite, la matière utilisée pour la formation peut comprendre des émissions propres à celles qui doivent être reconnues, les limites des mots et des segments étant déterminées par

le processus de reconnaissance.

Après l'accumulation des fonctions statistiques correspondant à un nombre convenable d'émissions de formation, les motifs de référence ainsi déterminés remplacent les motifs initiaux de référence Un second passage est alors exécuté sur la matière utilisée pour la formation Cette fois, les mots sont divisés en intervalles d'après les décisions prises par le processeur de reconnaissance comme indiqué sur la figure 3 Chaque motif reçu a trois trames (ou un exemple de motif reçu pour haque motif de référence) est associé à un motif de référence par mise en oeuvre du procédé précité d'alignement de motifs Les valeurs moyennes et les variances sont accumulées une seconde fois afin qu'elles forment le jeu final de motifs de référence tiré d'une manière tout à fait

compatible avec le procédé qui doit être utilisé par l'ap-

pareil de reconnaissance.

Pendant chacun des passages de formation, il est préférable d'ignorer tout membre de phrase de formation qui n'est pas reconnu convenablement par le processeur de reconnaissance puisqu'une émission reconnue de façon erronée risque d'avoir des limites d'intervalles placées de façon erronée A la fin du passage de formation, les membres de phrase qui ont été mal reconnus antérieurement peuvent être traités à nouveau avec les nouveaux motifs de référence, et les motifs de référence peuvent être à nouveau mis à jour

lorsque la reconnaissance est alors satisfaisante.

Une variante de cette absence de prise en consi-

dération des membres de phrase mal reconnus est la formation d'une matrice correspondant à plusieurs mots pour chaque émission de formation Cette matrice est simplement un chaînage des matrices pour chacun des mots de l'émission, dans l'ordre convenable La personne qui parleest incitée par un manuscrit à prononcer la séquence indiquée de mots et le processeur de reconnaissance ne prend en référence que la matrice multiple et la matrice de silence Les limites de mots et les classements des motifs de référence sont alors optimaux pour le manuscrit donné et les motifs de référence disponibles Un inconvénient de cette opération est qu'un plus grand nombre de passages du manuscritde formation peut

être nécessaire.

Il est préférable de commencer la procédure de for-

mation avec un jeu de motifs de référence déterminés anté-

rieurement et indépendants de la personne qui parle, pour le

vocabulaire à reconnaître afin que la précision de recon-

naisance soit la plus élevée possible Les motifs indépendants de la personne qui parle sont obtenus à partirde membres de

phrase correspondant à ceux qui doivent être reconnus et pro-

noncés par plusieurs personnes différentes au moins Les limites des mots peuvent être déterminées par examen manuel des formes d'onde acoustiques enregistrées La procédure en deux étapes qui vient d'être décrite est alors utilisée pour la formation des motifs indépendants des personnes qui parlent: dans le

premier passage, les sous-intervalles sont espacés uniformé- ment dans chaque mot et, dans le second passage, les sus-

intervalles sont déterminés par le processus de reconnaissance

à partir des motifs de référence du premier passage Des fonc-

tions statistiques d'ensemble correspondant à toutes les per- sonnes qui parlent sont formées à chaque passage Les motifs indépendants des personnes qui parlent sont utilisés comme

s'ils étaient formés du produit du premier passage de forma-

tion et seule la procédure du second passage est exécutée (éventuellement deux fois) lorsque l'appareil doit être formé

à une personne particulière.

Les temps d'arrêt minimal (nécessaire) et maximal (nécessaire plus éventuel) sont de préférence déterminés pendant

la formation Dans le mode de réalisation avantageux, l'appa-

reil subit une formation comme décrit précédemment, avec plu-

sieurs personnes qui parlent En outre, comme indiqué précé-

demment, le processus de reconnaissance détermine automatique-

ment les limites des motifs selon le procédé indiqué, pendant la procécure de formation Ces limites sont enregistrées et les temps d'arrêt pour chacun des mots-clés identifiés par

l'appareil, sont mémorisés.

A la fin d'une opération de formation, les temps d'arrêt pour chaque motif sont examinés et les temps d'arrêt minimal et maximal pour le motif sont choisis Dans un mode de réalisation avantageux, un histogramme des temps d'arrêt est formé et les temps d'arrêt minimal et maximal sont fixés

au 25 ème et ai, 75 ème percentiles La précision de recon-

naissance est alors élevée avec un faible taux de fausses

alarmes Dans une variante, les temps d'arrêt minimal et.

maximal peuvent être choisis d'une autre manière, suivant un compromis entre la précision de reconnaissance et le taux de fausses alarmes Ainsi, si l'on choisit un faible temps d'arrêt minimal et un grand temps d'arrêt maximal, on obtient en général une plus grande précision de reconnaissance, mais

au détriment du taux de fausses alarmes qui est alors élevé.

Processeur de syntaxe

Le chaînage de deux ou plusieurs matrices particu-

lières de mots est un exemple trivial d'une commande de syntaxe dans le processus de décision Comme l'indique la figure 9, un circuit 308 de syntaxe destiné à détecter des séquences de mots contenant un nombre impair de mots ( 1, 3, 5, 7,) a deux jeux indépendants de registres 310, 312 d'alignement de motifs, pour chaque mot de vocabulaire La cote introduite pour la première matrice est la meilleure de la cote du silence et de la meilleure cote du jeu de secondes matrices La cote introduite pour la seconde matrice est la meilleure cote tirée du premier jeu de matrices Cette cote parvient aussi à une seconde matrice de détection de silence, au noeud 313 Après détection du silence à la fin de l'émission comme indiqué par la matrice de détection au noeud 313, les labels et les durées des môts émis peuvent être étudiés en retour dans les circuits

tampons du premier et du second jeu de matrices Il est impor-

tant de noter que la position de la matrice de détection de silence est telle que seul un silence suivant une séquence de

mots ayant un nombre-impair de mots peut être détecté.

Des circuits de syntaxe plus complexes peuvent être réalisés par association, à chaque noeud de syntaxe tels que

les noeuds 313 a et 313 b de la figure 9, d'une liste de lon-

gueur acceptable de files de mots Par exemple, dans le cir-

cuit de syntaxe de la figure 9 qui accepte toute file contenant un nombre impair de mots, la longueur de la file peut être fixée à un nombre impair particulier, cinq par exemple, par examen de la longueur de la file à l'entréedu second registre de silence 313 a Si la longueur de la file n'est pas égale

à cinq à ce moment, le registre devient inactif (pour l'in-

tervalle actuel d'analyse) et aucune cite de file ne peut être reportée pour ce registre; cependant, si la longueur de la file est égale à 5, une détection de file peut être reportée De manière analogue, le premier registre 310 de vocabulaire peut être rendu actif si la longueur de la file

reçue est égale à 0, 2 ou 4 mots et le second registre uni-

quement si lalongueur de la file reçue est égale à 1 ou 3 mot O Bien que des résultats optimaux, pour une file à 5

mots, nécessitent cinq jeux complets d'accumulateurs à pro-

grammation dynamique, ce procédé permet à un plus petit nombre d'accumulateurs d'exécuter une tâche multiple avec

une réduction seulement faible de la précision de reconnais-

sance. Ensemble réalisé par mise en oeuvre du procédé de reconnaissance de parole Comme indiqué précédemment, on réalise un modede

réalisation avantageux de l'invention dans lequel la manipu-

lation des signaux et des données, en plus de celle qui est exécutée par le processeur préalable de la figure 2, est assurée et commandée par un ordinateur PDP-ll de Digital Equipment

Corporation, en combinaison avec le processeur vectoriel spé-

cialisé décrit dans le brevet des Etats-Unis d'Améique

n 4228 498.

On peut utiliser, en plus de la programmation selon

l'invention, des circuits spécialisés à cet effet.

Lors du fonctionnement, l'appareil de la figure met en oeuvre une programmation dynamique Chaque nouvelle séquence de cotes de vraisemblance, c'est-à-dire la séquence

des cotes de vraisemblance relatives à chaque motif de réfé-

rence dans un ordre prédéterminé connu, provenant de l'ordina-

teur par des lignes 320, est ajoutée aux cotes existantes dans l'une des mémoires 322 et 324 Ces mémoires ont des fonctions qui alternent comme décrit dans la suite du présent mémoire, sous la commande (a) du processeur 308 de syntaxe qui reçoit les cotes correspondant à la fin de chaque mot possible, (b) d'un registre 326 de cote minimale qui peut remplacer le signal de sortie des mémoires 322 et 324 d'après les signaux de phonème suivants et de sélection de mémoire et (c) des autres

signaux de commande et d'horloge.

Lors du fonctionnement, le circuit suit les règles de remise à jour des registres correspondant à chacun des

"cercles" de la figure 4 afin qu'il forme à chaque recon-

naissance d'un repos ou d'un silence, un mécanisme de décision

grâce auquel le meilleur "accord" peut être obtenu.

Les mémoires 322 et 324 ont la même configuration et elles sont échangées toutes les 10 ms, c'est-à-dire chaque

fois qu'une nouvelle trame est analysée Les mémoires con-

tiennent chacune plusieurs mots à 32 bits, le nombre de mots à 32 bits correspondant au nombre total de registres (ou de cercles) sur la figure 4 associés aux mots du vocabulaire machine Initialement, une mémoire telle que la mémoire 322, est remplie à l'aide des "mauvaises" cotes de vraisemblance, c'est-à-dire les cotes qui, dans l'exemple considéré, ont une

grande valeur Ensuite, la mémoire 322 est lue séquentielle-

ment, dans une séquence prédéterminée qui correspond à la sé-

quence de nouvelles cotes de vraisemblance provenant du pro-

cesseur vectoriel par la ligne 320 et les cotes sont alors remises à jour comme décrit dans la suite du présent mémoire et réécrites dans l'autre mémoire 324 Dans la trame suivante de 10 ms, les anciennes cotes tirées de la mémoire 324 sont lues et de nouvelles cotes sont écrites dans l'autre mémoire 322 Cette relation ou fonction d'alternance se poursuit sous la commande du processeur de syntaxe, du registre 326 de cote minimale et des autres signaux de commande et d'horloge Comme indiqué précédemment, chaque mot des mémoires 322 et 324 est un nombre à 32 bits Les 16 bits inférieurs 0-15 sont utilisés

pour la conservation des cotes accumulées de vraisemblance.

En outre, les bits 16 à 23 sont utilisés pour l'enregistrement

de la durée du phonème et les bits 24 à 31 pour l'enregistre-

ment des durées des mots dans chaque registre.

Les cotes de vraisemblance reçues de l'ordinateur sont conservées pour chaque trame dans une mémoire 328 de

cote de motif Cette information est transmise par l'ordina-

teur sous forme d'une "salve", à une fréquence très élevée de transfert de données, et elle est lue dans la mémoire de cote de motif à une plus faible fréquence, utilisée dans le

circuit de la figure 10 Ainsi, à part une commande intermé-

diaire par le processeur de syntaxe ou le registre de cote minimale, le signal transmis par la mémoire choisie 322 ou 324, par l'intermédiaire d'une porte correspondante 330 ou 332, parvient aux lignes 334 Celles-ci sont reliées à des additionneurs 336, 338, 340 qui remettent à jour la cote de vraisemblance, le nombre de durées du motif objet ou du phonème, et le nombre de durées du mot respectivement Ainsi, la cote de vraisemblance correspondant à la cote de la "trame précédente" provenant de l'une des mémoires 322, 324, est transmise pa la mémoire de cote de motif par les lignes 342, est ajoutée à l'ancienne cote de vraisemblance et est alors conservée dans la mémoire qui n'est pas utilisée pour l'écriture La fonction de sélection de mémoire est remplie par le niveau du signal des lignes 344 Simultanément, les nombres représentant les durées du mot et du phonème progresent d'une unité. De cette manière, le compteur de durée de mot, le nombre de durée de phonème et les cotes de vraisemblance sont

normalement remis à jour.

Les deux exceptions à la règle habituelle de remise

à jour indiquée précédemment correspondent au début d'un nou-

l Sveau phonème et au début d'un nouveau mot Au début d'un nouveauphonème qui est le début d'un nouveau mot, le premier registre du phonème n'est pas remis à jour d'après la règle habituelle mais au contraire, la cote de vraisemblance de la ligne 342 est ajoutée à la cote minimale correspondant aux registres de temps d'arrêt éventuel du phonème ou de la trame

de référence précédent, ou du dernier registre du temps d'ar-

rêt nécessaire du phonème précédent L'opération est réalisée à l'aide du registre 326 de cote minimale Le signal de ce dernier représente la cote minimale dans la trame précédente, pour le phonème antérieur Cette cote est obtenue par remise à jour continue du contenu du registre de cote minimale chaque fois qu'une nouvelle cote minimale est formée La nouvelle cote minimale est chargée dans le registre de cote minimale à l'aide du signal représentant le bit de signe du circuit arithmétique 346 de soustraction Celui-ci compare la cote minimale actuelle à la nouvelle cote minimale provenant du registre qui vient d'être remis à jour Ce registre conserve en outre le nombre de durée de mot et le nombre de durée de

* phonème correspondant au registre ayant la cote minimale.

Toute cette information est transmise par des lignes 334 au début d'un nouveau phonème Ce processus de transmission est commandé par le circuit porte 348 préparée au début d'un nouveau phonème, en combinaison avec des signaux de commande transmis aux portes 332 et 330 afin que celles-ci ne puisent pas

fonctionner pendant le début d'un nouveau phonème.

Le processeur 308 de syntaxe est utilisé pour la remise à jour du registre du premier phonème d'un nouveau mot, avec la meilleure cote d'un mot se terminant dans la trame précédente, compte tenu de la syntaxe Ainsi,lorsque la cote d'un registre correspondant au premier registre d'un premier phonème d'un nouveau mot doit être remise à jour par une cote reçue de vraisemblance, ce n'est pas le signal de l'une des mémoires 322, 324 qui est utilisé Au contraire, c'est la meilleure cote de vraisemblance, de préférence compte tenu

de la syntaxe, pour les mots se terminant dans la trame pré-

cédente Cette fonction est remplie par fermeture des portes

330, 332 et préparation simultanée de la porte 350 de ma-

nière que la meilleure cote disponible conservée dans le re-

gistre 352 soit transmise par les lignes 334 et soit ajoutée

à la cote de vraisemblance du motif reçu par les lignes 342.

Ainsi, chaque registre correspondant à un temps d'arrêt d'une trame de référence est constamment remis à jour dans cette réalisation Lorsque les cotes de vraisemblance représentent le mot de silence, le processeur de syntaxe

assure les fonctions nécessaires de commande pour qu'il per-

mette à l'ordinateur ou aux circuits de revenir en arrière et

de déterminer les mots reconnus.

Il est bien entendu que l'invention n'a été décrite et représentée qu'à titre d'exemple préférentiel et qu'on pourra apporter toute équivalence technique dans ses éléments

constitutifs sans pour autant sortir de son cadre.

952 0912

Claims

REVENDICATIONS

1 Procédé d'analyse de parole destiné à la recon-

naissance d'au moins un mot-clé dans un signal acoustique, chaque mot-clé étant caractérisé par une matrice ayant au moins un motif objet, chaque motif objet représentant au moins un spectre d'énergie de courte durée, chaque motif objet étant associé à au moins un temps d'arrêt nécessaire et à au moins un temps d'arrêt éventuel, ledit procédé étant caractérisé en ce qu'il comprend

la formation, à une fréquence de trame, d'une se-

quence de motifs de trame tirée du signal acoustique et re-

présentant celui-ci, la création d'une mesure numérique de la similitude de chaque motif de trame à chaque motif objet, l'accumulation, pour les temps d'arrêt nécessaire et éventuel de chaque motif objet et à l'aide desdites mesures numériques, d'une valeur numérique représentant l'alignement du motif de trame qui vient juste d'être formé sur le temps d'arrêt du motif objet correspondant, et la prise d'une décision de reconnaissance d'après

les valeurs numériques lorsqu'une séquence prédéterminée appa-

raît dans le signal acoustique.

2 Procédé selonlarevendication 1, caractérisé en ce que l'opération d'accumulation comprend

l'accumulation,pour le second temps d'arrêt né-

cessaire et les temps suivants d'arrêt nécessaire pour chaque motif objet et pour le temps d'arrêt éventuel de chaque motif objet, de la somme de la cote accumulée pour le temps d'arrêt du motif objet précédent pendant la trame précédente e de la mesure numérique actuelle associée au motif objet,

l'accumulation, pour le premier temps d'arrêt né-

cessaire du premier motif objet de chaque mot-clé, de la somme

de la meilleure cote cumulée pendant la trame précédente as-

sociée à la fin d'un mot-clé, et de la mesure numérique ac-

tuelle associée au premier motif objet du mot-clé, et * l'accumulation, pour le premier temps d'arrêt nécessiare de chaque autre motif objet, de la somme de la meilleure cote accumulée de fin du motif objet antérieur du même mot-clé et de la mesure numérique actuelle associée au

motif objet.

3 Procédé selon la revendication 2, caractérisé en ce qu'il comprend la conservation en mémoire, avec chaque temps de trame, de l'identité et de la durée, en temps de trame, du mot-clé ayant'la meilleure cote et d'une fin valable à chaque durée de trame, et

la prise de décision comprend le retour dans l'in-

formation mémorisée d'identité et de durée de mot-clé afin

que chaque mot-clé d'une file de mots soit déterminé.

4 Procédé selon la revendication 3, caractérisé en ce qu'il comprend aussi laconservation en mémoire, avec la cote cumulée pour chaque temps d'arrêt, d'un nombre de durée

de mot correspondant à la longueur dans le temps du mot-

clé associé à la cote accumulée 'au temps d'arrêt.

Procédé selon la revendication 4, caractérisé en ce qu'il comprend en outre la conservation en mémoire, avec la cote accumulée pour chaque temps d'arrêt, d'un nombre de durée de motif objet correspondant à la séquence de temps

d'arrêt dans le motif objet.

6 Procédé selon la revendication 1, caractérisé en ce que la prise de décision et l'accumulation comprennent la direction du transfert des cotes accumulées par un circuit

générateur d'une syntaxe.

7 Appareil de reconnaissance d'au moins un mot-clé dans un signal acoustique de parole, chaque mot-clé étant caractérisé par une matrice ayant au moins un motif objet, chaque motif représentant au moins un spectre d'énergie de courte durée et chaque motif objet étant associé à au moins un temps d'arrêt nécessaire et au moins un temps d'arrêt éventuel', ledit appareil de reconnaissance étant caractérisé en ce qu'il comprend un dispositif destiné à former, à une fréquence de trame, une séquence de motifs de trame tirée du signal acoustique et représentant celui-ci, un dispositif générateur d'une mesure numérique de la similitude de chaque motif de trame et de chaque motif

objet,-

un dispositif destiné à accumuler, pour chaque temps d'arrêt nécessaire et éventuel de motif de trame et

à l'aide des mesures numériques, une valeur numérique re-

présentant l'alignement du motif de trame représentant le signal acoustique et qui vient juste d'être formé sur le temps d'arrêt du motif objet correspondant, et

un dispositif de prise d'une décision de reconnais-

sance d'après les valeurs numériques accumulées lorsqu'une

séquence prédéterminée apparaît dans le signal acoustique.

8 Appareil selon larevendication 7, caractérisé en ce qu'il comprend un dispositif de reconnaissance de la séquence

prédéterminée dans le signal acoustique.

9 Appareil selon la revendication 8, caractérisé en ce

que la séquence prédéterminée est un motif de silence.

Appareil selon la revendication 7, caractérisé en ce que le dispositif d'accumulation comprend un premier dispositif d'accumulation, pour le second

temps d'arrêt nécessaireet les temps d'arrêt nécessaires sui-

vants de chaque motif objet et pour le temps d'arrêt éventuel de chaque motif objet, de la somme de la cote accumulée pour le temps d'arrêt du motif objet précédent pendant la trame précédente et de la mesure numérique actuelle associée au motif objet, un second dispositif d'accumulation, pour chaque premier temps d'arrêt nécessaire d'un premier motif objet de chaque mot-clé, de la somme de la meilleure cote accumulée pendant la trame précédente qui est associée à la fin d'un mot-clé et de la mesure numérique actuelle associée au premier motif objet du mot-clé, et un troisième dispositif destiné à accumuler, pour le premier temps d'arrêt nécessaire de chaque autre premier -motif-objet, la somme de la meilleure cote accumulée de fin pour le motif objet précédent du même motclé et de la mesure

numérique actuelle associée au motif objet.

11 Appareil selon la revendication 10, caractérisé en ce qu'il comprend en outre un dispositif destiné à conserver, avec chaque temps de trame, l'identité et la durée, en temps de trame, du mot-clé ayant la meilleure cote et une fin valable à chaque temps de trame, et

le dispositif de prise de décision comprend un dis-

positif destiné à remonter dans l'information mémorisée d'iden-

tité et de durée de mot-clé afin qu'il identifie chaque mot-

clé dans une file de mots.

12 Appareil selon la revendication 11, caractérisé en ce qu'il comprend en outre un dispositif destiné à conserver, avec chaque cote accumulée de temps d'arrêt, un nombre de durée de mot correspondant à la longueur dans le temps du

mot-clé associé à la cote accumulée au temps d'arrêt.

13 Appareil selon la revendication 12, caractérisé en ce

qu'il comprend en outre un second dispositif destiné à mémo-

riser, avec chaque cote accumulée de temps d'arrêt, un nombre de durée de motif objet correspondant au temps d'arrêt dans

le motif objet.

14 Appareil selonlarevendication 7, caractérisé en ce

que le dispositif de prise de décision et d'accumulation com-

prend un dispositif destiné à diriger le transfert des cotes

accumulées sous la commande d'un circuit générateur de syntaxe.

15 Procédé de représentation du silence dans un signal acoustique reçu par un appareil d'analyse de parole destiné à reconnaître au moins un mot- clé dans un signal acoustique, ledit procédé étant caractérisé en ce qu'il comprend le contrôle de l'amplitude de parties prédéterminées de courte durée du signal acoustique reçu pendant-une durée choisie supérieure à une seconde environ, et la sélection d'une trame de bruit par sélection

d'une trame d'amplitude minimale pendant cette durée.

16 Procédé selon la revendication 15, caractérisé en ce que chaque motclé est caractérisé par une matrice ayant au moins un motif objet, chaque motif objet représentant au

moins un spectre d'énergie de courte durée, le procédé com-

prenant en outre

la formation, à une fréquence de trame, d'une sé-

quence de motifs de trame tirée du signal acoustique et repré-

sentant celui-ci, et l'examen des trames pendant la durée prédéterminée *et la sélection de l'une des trames comme représentant un bruit

de fond dans le signal acoustique reçu.

17 Procédé de réglage d'un signal acoustique inconnu reçu par un appareil d'analyse de parole destiné à reconnaître au moins un mot-clé dans un signal acoustique ledit procédé étant caractérisé en ce qu'il comprend la réception du signal acoustique et la formation d'un signal de sortie chaque fois qu'un mot connu et spécifié de commande est déterminé, et

l'utilisation du signal de sortie comme mot de com-

mande pour un traitement supplémentaire de reconnaissance du

signal acoustique reçu.

18 Procédé de formation de motifs de référence repré-

sentant des mots-clés dans un appareil d'analyse de parole destiné à reconnaître au moinsun mot-clédans un signal acoustique, chaque mot-clé étant caractérisé par une matrice

ayant au moins un motif objet, chaque motif objet représen-

tant au moins un spectre d'énergie de courte durée, et chaque

motif objet étant associé à au moins un temps d'arrêt né-

cessaire et au moins un temps d'arrêt éventuel, ledit procédé étant caractérisé en ce qu'il comprend

la division d'un signal acoustique reçu correspon-

dant à un mot-clé en plusieurs sous-intervalles, -la mise en correspondance de chaque-sous-intervale avec un motif unique de référence,

la répétition des opérations précédentes sur plu-

sieurs signaux acoustiques reçus représentant le même mot-

clé, la création de fonctions statistiques décrivant le motif de référence associé à chaque sous-intervalle, et

un traitement à l'aide d'un second passage des si-

gnaux acoustiques reçus représentant le mot-clé, à l'aide des

fonctions statistiques assemblées de manière que des sous-

intervalles soient formés par la machine pour les mots-clés.

19 Procédé selon la revendication 18, caractérisé en ce

que les sous-intervalles sont initialement uniformément espa-

cés du début à la fin d'un mot-clé du signal acoustique reçu.