FR2554623A1

FR2554623A1 - Procede d'analyse de la parole independant du locuteur

Info

Publication number: FR2554623A1
Application number: FR8317738A
Authority: FR
Inventors: Gerard Victor Benbassat
Original assignee: Texas Instruments France SAS
Current assignee: Texas Instruments France SAS
Priority date: 1983-11-08
Filing date: 1983-11-08
Publication date: 1985-05-10
Also published as: EP0146434B1; US4975959A; EP0146434A1; JPH0554959B2; JPS60123000A; DE3477857D1; FR2554623B1

Abstract

SELON CE PROCEDE, LE SIGNAL DE LA PAROLE EST ANALYSE DANS UN QUANTIFIEUR VECTORIEL 1 DANS LEQUEL LES PARAMETRES ACOUSTIQUES SONT CALCULES POUR CHAQUE INTERVALLE DE TEMPS D'UNE VALEUR DETERMINEE ET SONT COMPARES A CHAQUE FORME SPECTRALE CONTENUE DANS UN DICTIONNAIRE DE FORMES 2 EN UTILISANT UN CALCUL DE DISTANCE, LA SEQUENCE OBTENUE A LA SORTIE DU QUANTIFIEUR 1 EST COMPAREE AVEC UN LEXIQUE DE MOTS 5 STOCKES SOUS FORME PHONETIQUE EN UTILISANT DES TABLES 3 DE DISTRIBUTION PHONETIQUE ASSOCIEES A CHAQUE FORME.

Description

La présente invention concerne les disposi-

tifs de reconnaissance de la parole et se rapporte

plus particulièrement à un dispositif de reconnais-

sance de la parole indépendante du locuteur.

Le problème de l'indépendance vis à vis du locuteur est un des problèmes les plus importants à résoudre dans le domaine de la reconnaissance de la parole. Le procédé de reconnaissance globale qui a été très efficace pour la reconnaissance des mots

dépendante du locuteur, conduit à une solution extrê-

mement lourde du point de vue des moyens informatiques mis en oeuvre si elle est appliquée à une technique de

reconnaissance indépendante du locuteur.

En effet, on a montré qu'en utilisant envi-

ron dix formes par mot à reconnaitre, on peut rendre un tel système indépendant du locuteur, (F.E. LEVINSON et Al. Interactive clustering technics for selecting speaker independent reference templates for isolated word recognition" IEEE trans. ASFP Vol. 27, nô 2 April

1979).

Ceci accroit déjà d'un ordre de grandeur la charge du traitement et la taille de la mémoire à accès aléatoire RAM nécessaire, mais ce qui est plus défavorable, les formes sont obtenues à partir d'un

certain nombre de termes prononcés par un grand nom-

bre de locuteurs sélectionnés-avec soin ( 100 envi-

ron). Ceci implique qu'une tâche d'enregistrement

très onéreuse doit être réalisée pour chaque vocabu-

laire constitué. Tout ceci limite considérablement les

possibilités d'applications d'un tel système.

Par ailleurs, la solution analytique dans

laquelle on procède à une tentative de convertir l'en-

trée acoustique en une séquence d'unités phonétiques, ne permet pas encore d'obtenir des performances très élevées. La Demanderesse estime que les raisons de cette situation sont les suivantes.

Dans de nombreux projets, la solution analy-

tique était utilisée dans le contexte d'une reconnais-

sance continue de la parole ( L.D.ERMAN " A functional

description of the HEARSAY II system" Proceeding 1977

IEEE Int. Conf. on ASFP, Hartford C.T Mai 1977, pages 799 à 802. MERIER et Al " KEAL: un système pour le dialogue oral Acte du congrès de l'AFCET à Gif sur

Yvette, 13-15 Nov. 1978, Tome 2, pages 304 à 314).

Bien entendu, ceci ajoute un autre niveau de

difficultés.

Une difficulté importante c'est le vocabu-

laire illimité (ou très vaste) mis en oeuvre, ce qui impose une segmentation à priori en unités phonétiques

et les erreurs commises à ce stade sont très diffici-

les à rattraper.

C'est la raison pour laquelle la Demande-

resse a mis au point une solution analytique même pour un nombre limité de mots, de sorte que la segmentation peut être réalisée de façon optimale pour chaque mot

du vocabulaire en utilisant un algorithme de program-

mation dynamique.

Une autre difficulté essentielle réside dans l'établissement des formes acoustiques représentant

les unités phonétiques à trouver.

Habituellement, de telles formes sont obte-

nues en plaçant les unités phonétiques dans un certain espace acoustique et en trouvant les domaines les plus

représentatifs pour chacune d'entre elles.

Ensuite, les centres de ces domaines sont

associés aux unités phonétiques correspondantes.

Etant donné qu'il y a un grand nombre de chevauchements entre les domaines (déjà pour un seul locuteur mais bien davantage pour une grande variété de locuteurs), on donne généralement à un point de cet

espace acoustique, une probabilité d'être représenta-

tif d'une unité phonétique, qui est proportionnelle à

sa distance au centre du domaine correspondant.

Pour être précis, ceci suppose que la dis-

tance acoustique utilisée est directement liée à la

distance de perception entre les sons.

Ceci n'est pas trop difficile à obtenir pour de courtes distances, mais malheureusement un espace acoustique avec une distance associée dans laquelle

cette notion reste vraie pour des distances plus im-

portantes, n'est pas connu à ce jour.

Ainsi, cette solution nécessite de trouver soit de meilleures représentations acoustiques, soit suffisamment de formes de façon que la distance reste

toujours suffisamment faible.

Ces deux conditions apparaissent tout aussi

difficiles à satisfaire l'une que l'autre.

Un moyen simple de contourner cette diffi-

culté consiste suivant l'invention à accepter qu'un domaine quelconque de l'espace acoustique puisse être

représentatif de plusieurs unités phonétiques.

Alors dans chaque domaine, la probabilité d'association à une unité phonétique est obtenue au

cours d'une phase d'apprentissage.

Les domaines peuvent être définis sur une base acoustique par des procédés permettant de créer

un nombre quelconque de domaines.

Ainsi, ces domaines constituent dans l'es-

pace acoustique une " grille" aussi fine qu'on le

2 54623

souhaite. La distance maximale utilisée pour associer un point à un domaine donné et par conséquent à un certain nombre d'unités phonétiques, peut être rendue aussi courte que nécessaire. Grâce à une telle solution, la nécessité de disposer d'une distance acoustique strictement liée à la perception devient beaucoup moins critique que précédemment et la nécessité d'établir un nombre de formes précises pour chaque unité phonétique peut être évitée. Une telle solution est réalisable au prix d'un plus grand nombre de domaines. Mais à son tour, ceci pourrait permettre d'améliorer considérablement les performances des dispositifs de reconnaissance de

la parole indépendante du locuteur.

L'invention sera mieux comprise à l'aide de

la description qui va suivre, donnée uniquement à

titre d'exemple et faite en se référant aux dessins annexés, sur lesquels:

- la Fig.1 est un schéma synoptique de prin-

cipe d'un système de reconnaissance de mots indépen-

dant du locuteur; - la Fig.2 est un graphique montrant un processus d'établissement d'une correspondance entre un mot à identifier à un mot du lexique représenté sous sa forme phonétique;

- la Fig.3 est un schéma illustrant la for-

mation du dictionnaire de vecteurs destiné à la mise en oeuvre de la reconnaissance de la parole suivant l'invention;

- la Fig.4 illustre le processus de marqua-

ge phonémique du corpus à partir duquel sera formé le dictionnaire de formes acoustiques;

- les Fig.5A et 58 sont des schémas syno-

tiques des moyens d'apprentissage en vue de la reconnaissance indépendante du locuteur suivant l'invention; - la Fig.6 est un graphique représentant le signal analysé et les paramètres qui le constituent

ainsi que son marquage phonémique.

Le dispositif présenté à la Fig.1 comporte un circuit de quantification vectorielle 1 destine à recevoir sur une de ses entrées les signaux de parole

à analyser.

Une autre entrée du circuit quantifieur 1

est connectée à une mémoire 2 contenant un dictionnai-

re de formes spectrales auquel est associé un ensemble 3 de tables de distribution phonétique associées à

chaque forme.

La sortie du quantifieur 1 et la sortie de

l'ensemble de tables 3 sont reliées à des entrées cor-

respondantes d'un dispositif 4 de détermination de la probabilité de correspondance de mots par

programmation dynamique.

A ce dispositif est enfin associée une mé-

moire 5 contenant un lexique de mots sous forme phonémique. Le signal de la parole est analysé dans le quantifieur vectoriel dans lequel les paramètres acoustiques (ici les coefficients cepstraux obtenus par un algorithme linéaire prédictif) sont calculés pour chaque intervalle de temps de 10 à 20 ms et sont comparés à chaque forme du dictionnaire contenu dans la mémoire 2 en utilisant un calcul d'une distance, dans le présent exemple de la distance euclidienne,

afin de trouver le voisin le plus proche.

La séquence d'éléments du dictionnaire obtenue est ensuite comparée avec chacun des mots du lexique de mots contenus dans la mémoire 5 et stockés

sous la forme d'une simple transcription phonétique.

En utilisant la probabilité d'association de phonèmes avec les éléments du dictionnaire contenus dans la séquence, un algorithme de programmantion dynamique permet de calculer la probabilité pour que la séquence à identifier corresponde à une chaine

phonétique du lexique.

Le mot ayant la probabilité la plus élevée

est choisi comme le mot qui est prononcé si la pro-

babilité a une valeur supérieure à un certain seuil.

L'algorithme de programmation dynamique permet de trouver le trajet optimal pour établir la

meilleure correspondance à chaque mot du lexique.

Cette correspondance est obtenue a l'aide du dispo-

sitif d'adaptation 4.

Elle est illustrée par le graphique de la Fig.2, sur lequel on a porté en abcisses le mot à

identifier et en ordonnées les phonèmes.

Le trajet optimal est représenté par la courbe 6 tandis que la grille des contraintes locales

dont il doit être tenu compte pour assurer la corres-

pondance est matérialisée en 7.

On remarquera que cette technique n'impose aucune limitation au nombre de formes associées à un phonème donné. Toutefois, ni la partie stable ni la

transition d'un phonème peut être sautée.

Un trajet- 6 avec une probabilité maximale

d'adaptation est déterminé par programmation dynami-

que.

A chaque étape de la comparaison, la proba-

bilité qu'un tronçon (représenté par une forme sur l'axe des x) fait partie d'un phonème (porté sur l'axe

des y) est trouvée dans une table T associée.

Afin d'aboutir à ce point indiqué en 7., une contrainte locale 7 force le trajet 6 à évoluer soit à partir du point 7a se trouvant immédiatement à gauche, pour former ainsi une partie de trajet horizontale, soit à partir du point 7b précédent situé sur une diagonale ( interdisant ainsi toute longueur de trajet vertical). La probabilité de chacun des trajets est obtenue en multipliant la probabilité de chacun des trajets aboutissant en 7a et 7b parr la probabilité dupoint 7c telle qu'elle est trouvée dans la table T.

Dans le présent exemple, la probabilité pour que l'é-

lément 7x soit représentatif du phonème O est Fl.

Le trajet sélectionné pour aboutir en 7c est

celui de probabilité maximale.

En procédant de cette façon pour chaque point possible de la matrice on parvient au trajet 6

de probabilité maximale.

La longueur du trajet horizontal n'est pas limitée par la contrainte locale, mais elle pourrait

être limitée dans la pratique en utilisant la distri-

bution statistique de la longueur de chaque phonème pour faire intervenir dans le calcul de probabilité le fait que l'association d'un élément de la séquence à

un phonème donné n'est pas indépendante des associa-

tions précédentes.

On va maintenant décrire en référence à la Fig.3, la phase de constitution du dictionnaire et d'apprentissage. Le dictionnaire de formes acoustiques est établi en utilisant un ensemble d'apprentissage de phrases analysées par codage par prédiction linéaire

contenant un nombre équilibré de phonèmes et pronon-

cées par une variété suffisamment importante de locu-

teurs. La sélection des formes peut être faite de telle façon que le dictionnaire fournisse la meilleure représentation de l'ensemble d'apprentissage selon une mesure de distorsion moyenne et pour un nombre donné de formes. La Fig.3 illustre un procédé de sélection selon l'algorithme des nuées dynamiques. Sur cette figure, on a représenté un ensemble d'apprentissage 8 et un dictionnaire de formes spectrales 9; les opérations sont initialisées en sélectionnant dans l'ensemble d'apprentissage des formes spectrales 10 dont la distance à leur voisine la plus proche dans le dictionnaire est supérieure à un certain seuil. La taille du dictionnaire peut être arbitrairement limitée par simple interruption de son processus de croissance. Ensuite, toutes les formes spectrales de l'ensemble d'apprentissage sQnt groupés en classes 11 en fonction de leur voisine la plus proche dans le dictionnaire, après quoi le centre de gravité 12 de

chaque classe 11 est choisi en tant que forme.

Le même processus est répété jusqu'à ce que la distance moyenne soit inférieure à un certain seuil ou que sa variation devienne inférieure à une très

faible valeur, ce qui indique que le processus a con-

vergé. Ainsi le dictionnaire 9 de formes spectrales 13 est l'image des centres 12 des classes 11 de formes

spectrales de l'ensemble d'apprentissage.

Le schéma de la Fig.4 représente la manière dont est réalisé le marquage phonémique des formes

spectrales de l'ensemble d'apprentissage.

La ligne 14 de la Fig.4 illustre une repré-

sentation phonétique d'une phrase.

La ligne 15 montre une segmentation manuelle

en parties stables et transistions.

La ligne 16 est une représentation des tron-

çons des codes par prédiction linéaire LPC.

Ces tronçons codés 17 ont des éléments cor-

respondants 18 dans le dictionnaire de formes spectra-

les 19, ces éléments correspondants étant obtenus par

codage vectoriel utilisant la distance sepctrale.

Enfin, au bas de la Fig.4, on a représenté des tables 20 de distribution phonétique associées à chaque forme spectrale. Ces tables correspondent aux

tables T de la Fig.2, en cours de constitution.

Ces tables de fréquences phonétiques sont

obtenues en comptant le nombre d'apparition des phonè-

mes dans chaque classe 11 (Fig.3).

Ceci suppose que l'ensemble d'apprentissage

a subi une segmentation en phonèmes et a été marqué.

Pour le premier ensemble d'apprentissage, cette opé-

ration doit être exécutée entièrement à la main, mais après qu'un dictionnaire "suffisamment bon" ait été constitué l'algorithme de reconnaissance lui-même peut être utilisé pour assurer une segmentation automatique d'autres termes d'apprentissage, avec seulement une

vérification manuelle.

On va maintenant décrire en référence aux

figures 5A et 5B, les opérations de la phase d'appren-

tissage. La Fig.5A montre les opérations à exécuter

pour constituer un fichier de marquage.

Ces opérations consistent à convertir d'a-

nalogique en numérique en 21, la parole de l'ensem-

ble d'apprentissage, et en 23, à leur analyse par prédiction linéaire. Le signal numérique est en outre

stocké dans le fichier 24.

1 0 Les résultats de l'analyse sont introduits dans un fichier d'analyse 25 puis soumis en 26 à une opération de marquage phonétique faisant appel à une écoute en 27 et à une représentation graphique en 28 illustrée à la Fig.6. et stockées dans un fichier de

marquage 29.

Comme représenté à la Fig.5B, les marques phonétiques contenues dans le fichier de marquage 29 sont combinées en 30 avec les données du fichier d'analyse 25 au cours d'une opération de sélection

optimale de formes spectrales.

Les résultats de cette sélection sont trans-

férés dans un fichier de dictionnaire 31. Les fréquen-

ces d'association entre les phonèmes et les éléments du dictionnaire sont calculées en 32 pour former des

tables de distribution en 33.

La mise en oeuvre du procédé décrit en réfé-

rence à la Fig.SA a nécessité l'écriture d'un program-

me spécifique de repérage phonétique.

Il comporte une réaction audio-graphique avec un ensemble de commandes très souples qui rendent

la segmentation aussi précise que possible et égale-

ment aussi rapide et aisée que possible.

La représentation graphique de la Fig.6 re-

présente la forme d'onde ainsi que les fréquences for-

mantiques et les largeurs de bande, l'énergie et la

fréquence fondamentale en fonction du temps.

Le programme produit un fichier de marquage contenant le nom des phonèmes et leurs limites ainsi que certaines informations relatives aux indices acoustiques. Un autre ensemble de programmes utilise le fichier de marquage 29 et le fichier d'analyse 25 (Fig.5A) produits par l'opération d'analyse par codage *1

par prédiction linéaire pour constituer le dictionnai-

re des formes selon l'algorithme décrite plus haut et

les fréquences phonétiques associées.

Des programmes de sorties peuvent trier les résultats et les présenter sous la forme d'histogram- mes. Un ensemble de phrases d'apprentissage reproduit ci-après à titre d'exemple a été choisi pour contenir une distribution de phonèmes de manière que

les probabilités calculées ne soient pas décalées.

ENSEMBLE D'APPRENTISSAGE

Deux listes de 10 phrases chacune choisies

de manière que le nombre d'apparitions de chaque pho-

nème soit distribué de façon régulière (une moyenne de

16 fois chacun).

LISTE 1

1- est-ce que le conducteur arrête l'auto?

2- c'est toujours comme çà depuis dix ans tu sais.

3- ce cheval peut marcher au pas.

4- la bière est moins forte que la rhum.

5- ici il fait toujours très froid en hiver.

6- j'aime Sylvie quand elle est mignone

7- Diane ne reviendra pas avant lundi.

8- aimez-vous le dessin? 9- j'ai déjà lu la réponse qu'il m'a envoyé par la

poste.

- mes gants sont usés.

LISTE 2

1- que désirons-nous pour ce lunch de lundi? 2- faisons vite notre choix, ce sont de bonnes choses, gatons-nous. 3- on guinche ensemble demain, j'aimerais du pain,

du vin chaud, du boursin, du gateau.

4- Fernand aime voir des feux-follets dans une foret

quand il fait chaud.

5- tu peux causer encore, on ne peux rien faire pour

toi, c'est la loi vois-tu.

6- Guy vient de perdre un gant, une guenille, une guetre, un bonnet, un bandeau, un chapeau, ses

lunettes, ses chaussettes, maintenant il grelotte.

7- ces bonbons sont bons, on en veut encore tonton Jean. 8- que ton chien, ton chat, ton cheval se dépêchent,

quelles chenilles.

9- bébé joyeux fit joujou puis mangea sa bouillie.

10- cuicui fit un oiseau épuisé tombe dans un puit.

Les phrases contenant un total de 568 pho-

nèmes et environ 63000 éléments de 10 ms.

Des locuteurs, femmes et hommes, avec des accents et des timbres différents ont été choisis pour

enregistrer les phrases.

On donne ci-après à titre d'exemple les élé-

ments entrant dans*la constitution du système de re-

connaissance de la Fig.1 et des moyens d'apprentissage

des Fig.5A et 5B.

Svstème de reconnaissance de la Fia.1 N' de référence Nature du constituant 1 Convertisseur A/D + microprocesseur TMS 320 2 Mémoire ROM de 32 à 64 Kbits environ 3 Mémoire ROM de 16 Kbits environ 4 Microprocesseur standard tel que TMS 7000 de Texas Instruments Mémoire RAM ou IPROM Movens d'anorentissage des Fio.SA et 58 N' de référence Nature du constituant 21 Convertisseur A/D 23,26,30,32 Mini oridnateurs DS 990-12 de Texas

Instruments, convenable-

ment programmés 24,25,29 Mémoires RAM, mémoires magnétiques 31,33 Mémoires magnétiques

Claims

REVENDICATIONS

1. Procédé de reconnaissance de la parole indépendante du locuteur, consistant à diviser la parole à analyser en unités phonétiques, et à comparer ces unités phonétiques avec les phonèmes contenus dans

un dictionnaire, caractérisé en ce que l'identifica-

tion des unités phonétiques consiste à diviser l'espa-

ce acoustique en domaines, à rendre des domaines de l'espace acoustique représentatifs chacun de plusieurs unités phonétiques en obtenant au cours d'une période d'apprentissage une probabilité d'association d'une unité phonétique à un domaine correspondant,

2. Procédé suivant la revendication 1, ca-

ractérisé en ce que la distance maximale utilisée pour associer un point à un domaine de l'espace acoustique

et par conséquent à un certain nombre d'unités phoné-

tiques est rendue aussi courte que nécessaire par le

choix d'un nombre de domaines suffisamment grand.

3. Procédé suivant l'une des revendications

1 et 2, caractérisé en ce que le signal de la parole est analysé dans un quantifieur vectoriel {1) dans lequel les paramètres acoustiques sont calculés pour chaque intervalle de temps d'une valeur déterminée et

sont comparés à chaque forme contenue dans un diction-

naire (2) en utilisant un calcul de distance.

4. Procédé suivant la revendication 3, ca-

ractérisé en ce que ledit calcul de distance est un

calcul de distance euclidienne.

5. Procédé suivant l'une des revendications

3 et 4, caractérisé en ce que la séquence obtenue à la sortie du quantifieur vectoriel (1) est comparée avec

un lexique de mots {5) stockés sous forme phoné-

tique, en utilisant des tables (3,T,20) de fréquences

phonétiques associées à chaque forme.

6. Procédé suivant la revendication 5, ca-

ractérisé en ce qu'on utilise un algorithme de pro-

grammation dynamique pour calculer la probabilité de correspondance entre la séquence obtenue à la sortie du quantifieur vectoriel et chaque mot du lexique.

7. Procédé suivant la revendication 6, ca-

ractérisé en ce que le calcul du probabilité est basé

sur l'utilisation des tables de fréquences phonéti-

ques.

8. Procédé suivant l'une quelconque des re-

vendications 1 à 7, caractérisé en ce qu'on sélection-

ne dans un ensemble d'apprentissage (8) des formes spectrales (10) dont la distance à leur voisine la plus proche dans un dictionnaire de formes spectrales (9) est supérieure à un seuil, on groupe les formes spectrales (10) de l'ensemble d'apprentissage en classes (11) en fonction de leur voisine la plus proche dans le dictionnaire et on choisit pour être inséré dans le dictionnaire (9) le centre de gravité (12) de chaque classe, ce processus étant répété jusqu'à ce que la distance moyenne soit inférieure à

un certain seuil ou que sa variation devienne infé-

rieure à une très faible valeur.

9. Procédé suivant l'une quelconque des re-

vendications 1 à 8, caractérisé en ce que la phase d'apprentissage consiste à constituer un fichier d'analyse (25) et un-fichier de marquage (29) à partir de la parole de l'ensemble d'apprentissage prononcée par un nombre déterminé de locuteurs ayant des accents et des timbres différents et convertie en signaux numériques, et à partir des fichiers d'analyse et de

marquage, à constituer des tables de fréquences (33).

10. Procédé suivant l'une des revendications

précédentes, caractérisé en ce que la constitution du fichier d'analyse est assurée par un codage (22) des

signaux numériques résultant de la conversion des si-

gnaux de la parole de l'ensemble d'apprentissage et en analysant les signaux numérisés par une analyse par prédiction linéaire, tandis que la constitution du fichier de marquage (29) est assurée en faisant subir aux données du fichier d'analyse (25) une opération de

marquage phonétique.

11. Procédé suivant la revendication 9, caractérisé en ce que ladite opération de marquage phonétique est effectuée en faisant appel à une écoute (27) et à une représentation graphique temporelle et spectrale (28) simultanées du signal de la parole

numérisé de l'ensemble d'apprentissage de façon à dé-

terminer les limites des parties stables des phonèmes.

12. Procédé suivant l'une des revendications

8 à 10, caractérisé en ce que les tables de fréquences (33) sont obtenue en assurant une sélection optimale

des formes spectrales à partir des contenus des fi-

chiers d'analyse et de marquage (25,29), en plaçant ces formes optimales dans un fichier de dictionnaire

(31) et en calculant les fréquences à partir du con-

tenu du fichier de dictionnaire (31).