FR2554623A1 - Procede d'analyse de la parole independant du locuteur - Google Patents
Procede d'analyse de la parole independant du locuteur Download PDFInfo
- Publication number
- FR2554623A1 FR2554623A1 FR8317738A FR8317738A FR2554623A1 FR 2554623 A1 FR2554623 A1 FR 2554623A1 FR 8317738 A FR8317738 A FR 8317738A FR 8317738 A FR8317738 A FR 8317738A FR 2554623 A1 FR2554623 A1 FR 2554623A1
- Authority
- FR
- France
- Prior art keywords
- phonetic
- dictionary
- file
- marking
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000003595 spectral effect Effects 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000015654 memory Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 101000701908 Bos taurus Spermadhesin-1 Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000238876 Acari Species 0.000 description 1
- 206010008531 Chills Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000001699 lower leg Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000021395 porridge Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- OGPIIGMUPMPMNT-UHFFFAOYSA-M sodium meclofenamate (anhydrous) Chemical compound [Na+].CC1=CC=C(Cl)C(NC=2C(=CC=CC=2)C([O-])=O)=C1Cl OGPIIGMUPMPMNT-UHFFFAOYSA-M 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000009941 weaving Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
SELON CE PROCEDE, LE SIGNAL DE LA PAROLE EST ANALYSE DANS UN QUANTIFIEUR VECTORIEL 1 DANS LEQUEL LES PARAMETRES ACOUSTIQUES SONT CALCULES POUR CHAQUE INTERVALLE DE TEMPS D'UNE VALEUR DETERMINEE ET SONT COMPARES A CHAQUE FORME SPECTRALE CONTENUE DANS UN DICTIONNAIRE DE FORMES 2 EN UTILISANT UN CALCUL DE DISTANCE, LA SEQUENCE OBTENUE A LA SORTIE DU QUANTIFIEUR 1 EST COMPAREE AVEC UN LEXIQUE DE MOTS 5 STOCKES SOUS FORME PHONETIQUE EN UTILISANT DES TABLES 3 DE DISTRIBUTION PHONETIQUE ASSOCIEES A CHAQUE FORME.
Description
La présente invention concerne les disposi-
tifs de reconnaissance de la parole et se rapporte
plus particulièrement à un dispositif de reconnais-
sance de la parole indépendante du locuteur.
Le problème de l'indépendance vis à vis du locuteur est un des problèmes les plus importants à résoudre dans le domaine de la reconnaissance de la parole. Le procédé de reconnaissance globale qui a été très efficace pour la reconnaissance des mots
dépendante du locuteur, conduit à une solution extrê-
mement lourde du point de vue des moyens informatiques mis en oeuvre si elle est appliquée à une technique de
reconnaissance indépendante du locuteur.
En effet, on a montré qu'en utilisant envi-
ron dix formes par mot à reconnaitre, on peut rendre un tel système indépendant du locuteur, (F.E. LEVINSON et Al. Interactive clustering technics for selecting speaker independent reference templates for isolated word recognition" IEEE trans. ASFP Vol. 27, nô 2 April
1979).
Ceci accroit déjà d'un ordre de grandeur la charge du traitement et la taille de la mémoire à accès aléatoire RAM nécessaire, mais ce qui est plus défavorable, les formes sont obtenues à partir d'un
certain nombre de termes prononcés par un grand nom-
bre de locuteurs sélectionnés-avec soin ( 100 envi-
ron). Ceci implique qu'une tâche d'enregistrement
très onéreuse doit être réalisée pour chaque vocabu-
laire constitué. Tout ceci limite considérablement les
possibilités d'applications d'un tel système.
Par ailleurs, la solution analytique dans
laquelle on procède à une tentative de convertir l'en-
trée acoustique en une séquence d'unités phonétiques, ne permet pas encore d'obtenir des performances très élevées. La Demanderesse estime que les raisons de cette situation sont les suivantes.
Dans de nombreux projets, la solution analy-
tique était utilisée dans le contexte d'une reconnais-
sance continue de la parole ( L.D.ERMAN " A functional
description of the HEARSAY II system" Proceeding 1977
IEEE Int. Conf. on ASFP, Hartford C.T Mai 1977, pages 799 à 802. MERIER et Al " KEAL: un système pour le dialogue oral Acte du congrès de l'AFCET à Gif sur
Yvette, 13-15 Nov. 1978, Tome 2, pages 304 à 314).
Bien entendu, ceci ajoute un autre niveau de
difficultés.
Une difficulté importante c'est le vocabu-
laire illimité (ou très vaste) mis en oeuvre, ce qui impose une segmentation à priori en unités phonétiques
et les erreurs commises à ce stade sont très diffici-
les à rattraper.
C'est la raison pour laquelle la Demande-
resse a mis au point une solution analytique même pour un nombre limité de mots, de sorte que la segmentation peut être réalisée de façon optimale pour chaque mot
du vocabulaire en utilisant un algorithme de program-
mation dynamique.
Une autre difficulté essentielle réside dans l'établissement des formes acoustiques représentant
les unités phonétiques à trouver.
Habituellement, de telles formes sont obte-
nues en plaçant les unités phonétiques dans un certain espace acoustique et en trouvant les domaines les plus
représentatifs pour chacune d'entre elles.
Ensuite, les centres de ces domaines sont
associés aux unités phonétiques correspondantes.
Etant donné qu'il y a un grand nombre de chevauchements entre les domaines (déjà pour un seul locuteur mais bien davantage pour une grande variété de locuteurs), on donne généralement à un point de cet
espace acoustique, une probabilité d'être représenta-
tif d'une unité phonétique, qui est proportionnelle à
sa distance au centre du domaine correspondant.
Pour être précis, ceci suppose que la dis-
tance acoustique utilisée est directement liée à la
distance de perception entre les sons.
Ceci n'est pas trop difficile à obtenir pour de courtes distances, mais malheureusement un espace acoustique avec une distance associée dans laquelle
cette notion reste vraie pour des distances plus im-
portantes, n'est pas connu à ce jour.
Ainsi, cette solution nécessite de trouver soit de meilleures représentations acoustiques, soit suffisamment de formes de façon que la distance reste
toujours suffisamment faible.
Ces deux conditions apparaissent tout aussi
difficiles à satisfaire l'une que l'autre.
Un moyen simple de contourner cette diffi-
culté consiste suivant l'invention à accepter qu'un domaine quelconque de l'espace acoustique puisse être
représentatif de plusieurs unités phonétiques.
Alors dans chaque domaine, la probabilité d'association à une unité phonétique est obtenue au
cours d'une phase d'apprentissage.
Les domaines peuvent être définis sur une base acoustique par des procédés permettant de créer
un nombre quelconque de domaines.
Ainsi, ces domaines constituent dans l'es-
pace acoustique une " grille" aussi fine qu'on le
2 54623
souhaite. La distance maximale utilisée pour associer un point à un domaine donné et par conséquent à un certain nombre d'unités phonétiques, peut être rendue aussi courte que nécessaire. Grâce à une telle solution, la nécessité de disposer d'une distance acoustique strictement liée à la perception devient beaucoup moins critique que précédemment et la nécessité d'établir un nombre de formes précises pour chaque unité phonétique peut être évitée. Une telle solution est réalisable au prix d'un plus grand nombre de domaines. Mais à son tour, ceci pourrait permettre d'améliorer considérablement les performances des dispositifs de reconnaissance de
la parole indépendante du locuteur.
L'invention sera mieux comprise à l'aide de
la description qui va suivre, donnée uniquement à
titre d'exemple et faite en se référant aux dessins annexés, sur lesquels:
- la Fig.1 est un schéma synoptique de prin-
cipe d'un système de reconnaissance de mots indépen-
dant du locuteur; - la Fig.2 est un graphique montrant un processus d'établissement d'une correspondance entre un mot à identifier à un mot du lexique représenté sous sa forme phonétique;
- la Fig.3 est un schéma illustrant la for-
mation du dictionnaire de vecteurs destiné à la mise en oeuvre de la reconnaissance de la parole suivant l'invention;
- la Fig.4 illustre le processus de marqua-
ge phonémique du corpus à partir duquel sera formé le dictionnaire de formes acoustiques;
- les Fig.5A et 58 sont des schémas syno-
tiques des moyens d'apprentissage en vue de la reconnaissance indépendante du locuteur suivant l'invention; - la Fig.6 est un graphique représentant le signal analysé et les paramètres qui le constituent
ainsi que son marquage phonémique.
Le dispositif présenté à la Fig.1 comporte un circuit de quantification vectorielle 1 destine à recevoir sur une de ses entrées les signaux de parole
à analyser.
Une autre entrée du circuit quantifieur 1
est connectée à une mémoire 2 contenant un dictionnai-
re de formes spectrales auquel est associé un ensemble 3 de tables de distribution phonétique associées à
chaque forme.
La sortie du quantifieur 1 et la sortie de
l'ensemble de tables 3 sont reliées à des entrées cor-
respondantes d'un dispositif 4 de détermination de la probabilité de correspondance de mots par
programmation dynamique.
A ce dispositif est enfin associée une mé-
moire 5 contenant un lexique de mots sous forme phonémique. Le signal de la parole est analysé dans le quantifieur vectoriel dans lequel les paramètres acoustiques (ici les coefficients cepstraux obtenus par un algorithme linéaire prédictif) sont calculés pour chaque intervalle de temps de 10 à 20 ms et sont comparés à chaque forme du dictionnaire contenu dans la mémoire 2 en utilisant un calcul d'une distance, dans le présent exemple de la distance euclidienne,
afin de trouver le voisin le plus proche.
La séquence d'éléments du dictionnaire obtenue est ensuite comparée avec chacun des mots du lexique de mots contenus dans la mémoire 5 et stockés
sous la forme d'une simple transcription phonétique.
En utilisant la probabilité d'association de phonèmes avec les éléments du dictionnaire contenus dans la séquence, un algorithme de programmantion dynamique permet de calculer la probabilité pour que la séquence à identifier corresponde à une chaine
phonétique du lexique.
Le mot ayant la probabilité la plus élevée
est choisi comme le mot qui est prononcé si la pro-
babilité a une valeur supérieure à un certain seuil.
L'algorithme de programmation dynamique permet de trouver le trajet optimal pour établir la
meilleure correspondance à chaque mot du lexique.
Cette correspondance est obtenue a l'aide du dispo-
sitif d'adaptation 4.
Elle est illustrée par le graphique de la Fig.2, sur lequel on a porté en abcisses le mot à
identifier et en ordonnées les phonèmes.
Le trajet optimal est représenté par la courbe 6 tandis que la grille des contraintes locales
dont il doit être tenu compte pour assurer la corres-
pondance est matérialisée en 7.
On remarquera que cette technique n'impose aucune limitation au nombre de formes associées à un phonème donné. Toutefois, ni la partie stable ni la
transition d'un phonème peut être sautée.
Un trajet- 6 avec une probabilité maximale
d'adaptation est déterminé par programmation dynami-
que.
A chaque étape de la comparaison, la proba-
bilité qu'un tronçon (représenté par une forme sur l'axe des x) fait partie d'un phonème (porté sur l'axe
des y) est trouvée dans une table T associée.
Afin d'aboutir à ce point indiqué en 7., une contrainte locale 7 force le trajet 6 à évoluer soit à partir du point 7a se trouvant immédiatement à gauche, pour former ainsi une partie de trajet horizontale, soit à partir du point 7b précédent situé sur une diagonale ( interdisant ainsi toute longueur de trajet vertical). La probabilité de chacun des trajets est obtenue en multipliant la probabilité de chacun des trajets aboutissant en 7a et 7b parr la probabilité dupoint 7c telle qu'elle est trouvée dans la table T.
Dans le présent exemple, la probabilité pour que l'é-
lément 7x soit représentatif du phonème O est Fl.
Le trajet sélectionné pour aboutir en 7c est
celui de probabilité maximale.
En procédant de cette façon pour chaque point possible de la matrice on parvient au trajet 6
de probabilité maximale.
La longueur du trajet horizontal n'est pas limitée par la contrainte locale, mais elle pourrait
être limitée dans la pratique en utilisant la distri-
bution statistique de la longueur de chaque phonème pour faire intervenir dans le calcul de probabilité le fait que l'association d'un élément de la séquence à
un phonème donné n'est pas indépendante des associa-
tions précédentes.
On va maintenant décrire en référence à la Fig.3, la phase de constitution du dictionnaire et d'apprentissage. Le dictionnaire de formes acoustiques est établi en utilisant un ensemble d'apprentissage de phrases analysées par codage par prédiction linéaire
contenant un nombre équilibré de phonèmes et pronon-
cées par une variété suffisamment importante de locu-
teurs. La sélection des formes peut être faite de telle façon que le dictionnaire fournisse la meilleure représentation de l'ensemble d'apprentissage selon une mesure de distorsion moyenne et pour un nombre donné de formes. La Fig.3 illustre un procédé de sélection selon l'algorithme des nuées dynamiques. Sur cette figure, on a représenté un ensemble d'apprentissage 8 et un dictionnaire de formes spectrales 9; les opérations sont initialisées en sélectionnant dans l'ensemble d'apprentissage des formes spectrales 10 dont la distance à leur voisine la plus proche dans le dictionnaire est supérieure à un certain seuil. La taille du dictionnaire peut être arbitrairement limitée par simple interruption de son processus de croissance. Ensuite, toutes les formes spectrales de l'ensemble d'apprentissage sQnt groupés en classes 11 en fonction de leur voisine la plus proche dans le dictionnaire, après quoi le centre de gravité 12 de
chaque classe 11 est choisi en tant que forme.
Le même processus est répété jusqu'à ce que la distance moyenne soit inférieure à un certain seuil ou que sa variation devienne inférieure à une très
faible valeur, ce qui indique que le processus a con-
vergé. Ainsi le dictionnaire 9 de formes spectrales 13 est l'image des centres 12 des classes 11 de formes
spectrales de l'ensemble d'apprentissage.
Le schéma de la Fig.4 représente la manière dont est réalisé le marquage phonémique des formes
spectrales de l'ensemble d'apprentissage.
La ligne 14 de la Fig.4 illustre une repré-
sentation phonétique d'une phrase.
La ligne 15 montre une segmentation manuelle
en parties stables et transistions.
La ligne 16 est une représentation des tron-
çons des codes par prédiction linéaire LPC.
Ces tronçons codés 17 ont des éléments cor-
respondants 18 dans le dictionnaire de formes spectra-
les 19, ces éléments correspondants étant obtenus par
codage vectoriel utilisant la distance sepctrale.
Enfin, au bas de la Fig.4, on a représenté des tables 20 de distribution phonétique associées à chaque forme spectrale. Ces tables correspondent aux
tables T de la Fig.2, en cours de constitution.
Ces tables de fréquences phonétiques sont
obtenues en comptant le nombre d'apparition des phonè-
mes dans chaque classe 11 (Fig.3).
Ceci suppose que l'ensemble d'apprentissage
a subi une segmentation en phonèmes et a été marqué.
Pour le premier ensemble d'apprentissage, cette opé-
ration doit être exécutée entièrement à la main, mais après qu'un dictionnaire "suffisamment bon" ait été constitué l'algorithme de reconnaissance lui-même peut être utilisé pour assurer une segmentation automatique d'autres termes d'apprentissage, avec seulement une
vérification manuelle.
On va maintenant décrire en référence aux
figures 5A et 5B, les opérations de la phase d'appren-
tissage. La Fig.5A montre les opérations à exécuter
pour constituer un fichier de marquage.
Ces opérations consistent à convertir d'a-
nalogique en numérique en 21, la parole de l'ensem-
ble d'apprentissage, et en 23, à leur analyse par prédiction linéaire. Le signal numérique est en outre
stocké dans le fichier 24.
1 0 Les résultats de l'analyse sont introduits dans un fichier d'analyse 25 puis soumis en 26 à une opération de marquage phonétique faisant appel à une écoute en 27 et à une représentation graphique en 28 illustrée à la Fig.6. et stockées dans un fichier de
marquage 29.
Comme représenté à la Fig.5B, les marques phonétiques contenues dans le fichier de marquage 29 sont combinées en 30 avec les données du fichier d'analyse 25 au cours d'une opération de sélection
optimale de formes spectrales.
Les résultats de cette sélection sont trans-
férés dans un fichier de dictionnaire 31. Les fréquen-
ces d'association entre les phonèmes et les éléments du dictionnaire sont calculées en 32 pour former des
tables de distribution en 33.
La mise en oeuvre du procédé décrit en réfé-
rence à la Fig.SA a nécessité l'écriture d'un program-
me spécifique de repérage phonétique.
Il comporte une réaction audio-graphique avec un ensemble de commandes très souples qui rendent
la segmentation aussi précise que possible et égale-
ment aussi rapide et aisée que possible.
La représentation graphique de la Fig.6 re-
présente la forme d'onde ainsi que les fréquences for-
mantiques et les largeurs de bande, l'énergie et la
fréquence fondamentale en fonction du temps.
Le programme produit un fichier de marquage contenant le nom des phonèmes et leurs limites ainsi que certaines informations relatives aux indices acoustiques. Un autre ensemble de programmes utilise le fichier de marquage 29 et le fichier d'analyse 25 (Fig.5A) produits par l'opération d'analyse par codage *1
par prédiction linéaire pour constituer le dictionnai-
re des formes selon l'algorithme décrite plus haut et
les fréquences phonétiques associées.
Des programmes de sorties peuvent trier les résultats et les présenter sous la forme d'histogram- mes. Un ensemble de phrases d'apprentissage reproduit ci-après à titre d'exemple a été choisi pour contenir une distribution de phonèmes de manière que
les probabilités calculées ne soient pas décalées.
ENSEMBLE D'APPRENTISSAGE
Deux listes de 10 phrases chacune choisies
de manière que le nombre d'apparitions de chaque pho-
nème soit distribué de façon régulière (une moyenne de
16 fois chacun).
LISTE 1
1- est-ce que le conducteur arrête l'auto?
2- c'est toujours comme çà depuis dix ans tu sais.
3- ce cheval peut marcher au pas.
4- la bière est moins forte que la rhum.
5- ici il fait toujours très froid en hiver.
6- j'aime Sylvie quand elle est mignone
7- Diane ne reviendra pas avant lundi.
8- aimez-vous le dessin? 9- j'ai déjà lu la réponse qu'il m'a envoyé par la
poste.
- mes gants sont usés.
LISTE 2
1- que désirons-nous pour ce lunch de lundi? 2- faisons vite notre choix, ce sont de bonnes choses, gatons-nous. 3- on guinche ensemble demain, j'aimerais du pain,
du vin chaud, du boursin, du gateau.
4- Fernand aime voir des feux-follets dans une foret
quand il fait chaud.
5- tu peux causer encore, on ne peux rien faire pour
toi, c'est la loi vois-tu.
6- Guy vient de perdre un gant, une guenille, une guetre, un bonnet, un bandeau, un chapeau, ses
lunettes, ses chaussettes, maintenant il grelotte.
7- ces bonbons sont bons, on en veut encore tonton Jean. 8- que ton chien, ton chat, ton cheval se dépêchent,
quelles chenilles.
9- bébé joyeux fit joujou puis mangea sa bouillie.
10- cuicui fit un oiseau épuisé tombe dans un puit.
Les phrases contenant un total de 568 pho-
nèmes et environ 63000 éléments de 10 ms.
Des locuteurs, femmes et hommes, avec des accents et des timbres différents ont été choisis pour
enregistrer les phrases.
On donne ci-après à titre d'exemple les élé-
ments entrant dans*la constitution du système de re-
connaissance de la Fig.1 et des moyens d'apprentissage
des Fig.5A et 5B.
Svstème de reconnaissance de la Fia.1 N' de référence Nature du constituant 1 Convertisseur A/D + microprocesseur TMS 320 2 Mémoire ROM de 32 à 64 Kbits environ 3 Mémoire ROM de 16 Kbits environ 4 Microprocesseur standard tel que TMS 7000 de Texas Instruments Mémoire RAM ou IPROM Movens d'anorentissage des Fio.SA et 58 N' de référence Nature du constituant 21 Convertisseur A/D 23,26,30,32 Mini oridnateurs DS 990-12 de Texas
Instruments, convenable-
ment programmés 24,25,29 Mémoires RAM, mémoires magnétiques 31,33 Mémoires magnétiques
Claims (12)
1. Procédé de reconnaissance de la parole indépendante du locuteur, consistant à diviser la parole à analyser en unités phonétiques, et à comparer ces unités phonétiques avec les phonèmes contenus dans
un dictionnaire, caractérisé en ce que l'identifica-
tion des unités phonétiques consiste à diviser l'espa-
ce acoustique en domaines, à rendre des domaines de l'espace acoustique représentatifs chacun de plusieurs unités phonétiques en obtenant au cours d'une période d'apprentissage une probabilité d'association d'une unité phonétique à un domaine correspondant,
2. Procédé suivant la revendication 1, ca-
ractérisé en ce que la distance maximale utilisée pour associer un point à un domaine de l'espace acoustique
et par conséquent à un certain nombre d'unités phoné-
tiques est rendue aussi courte que nécessaire par le
choix d'un nombre de domaines suffisamment grand.
3. Procédé suivant l'une des revendications
1 et 2, caractérisé en ce que le signal de la parole est analysé dans un quantifieur vectoriel {1) dans lequel les paramètres acoustiques sont calculés pour chaque intervalle de temps d'une valeur déterminée et
sont comparés à chaque forme contenue dans un diction-
naire (2) en utilisant un calcul de distance.
4. Procédé suivant la revendication 3, ca-
ractérisé en ce que ledit calcul de distance est un
calcul de distance euclidienne.
5. Procédé suivant l'une des revendications
3 et 4, caractérisé en ce que la séquence obtenue à la sortie du quantifieur vectoriel (1) est comparée avec
un lexique de mots {5) stockés sous forme phoné-
tique, en utilisant des tables (3,T,20) de fréquences
phonétiques associées à chaque forme.
6. Procédé suivant la revendication 5, ca-
ractérisé en ce qu'on utilise un algorithme de pro-
grammation dynamique pour calculer la probabilité de correspondance entre la séquence obtenue à la sortie du quantifieur vectoriel et chaque mot du lexique.
7. Procédé suivant la revendication 6, ca-
ractérisé en ce que le calcul du probabilité est basé
sur l'utilisation des tables de fréquences phonéti-
ques.
8. Procédé suivant l'une quelconque des re-
vendications 1 à 7, caractérisé en ce qu'on sélection-
ne dans un ensemble d'apprentissage (8) des formes spectrales (10) dont la distance à leur voisine la plus proche dans un dictionnaire de formes spectrales (9) est supérieure à un seuil, on groupe les formes spectrales (10) de l'ensemble d'apprentissage en classes (11) en fonction de leur voisine la plus proche dans le dictionnaire et on choisit pour être inséré dans le dictionnaire (9) le centre de gravité (12) de chaque classe, ce processus étant répété jusqu'à ce que la distance moyenne soit inférieure à
un certain seuil ou que sa variation devienne infé-
rieure à une très faible valeur.
9. Procédé suivant l'une quelconque des re-
vendications 1 à 8, caractérisé en ce que la phase d'apprentissage consiste à constituer un fichier d'analyse (25) et un-fichier de marquage (29) à partir de la parole de l'ensemble d'apprentissage prononcée par un nombre déterminé de locuteurs ayant des accents et des timbres différents et convertie en signaux numériques, et à partir des fichiers d'analyse et de
marquage, à constituer des tables de fréquences (33).
10. Procédé suivant l'une des revendications
précédentes, caractérisé en ce que la constitution du fichier d'analyse est assurée par un codage (22) des
signaux numériques résultant de la conversion des si-
gnaux de la parole de l'ensemble d'apprentissage et en analysant les signaux numérisés par une analyse par prédiction linéaire, tandis que la constitution du fichier de marquage (29) est assurée en faisant subir aux données du fichier d'analyse (25) une opération de
marquage phonétique.
11. Procédé suivant la revendication 9, caractérisé en ce que ladite opération de marquage phonétique est effectuée en faisant appel à une écoute (27) et à une représentation graphique temporelle et spectrale (28) simultanées du signal de la parole
numérisé de l'ensemble d'apprentissage de façon à dé-
terminer les limites des parties stables des phonèmes.
12. Procédé suivant l'une des revendications
8 à 10, caractérisé en ce que les tables de fréquences (33) sont obtenue en assurant une sélection optimale
des formes spectrales à partir des contenus des fi-
chiers d'analyse et de marquage (25,29), en plaçant ces formes optimales dans un fichier de dictionnaire
(31) et en calculant les fréquences à partir du con-
tenu du fichier de dictionnaire (31).
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8317738A FR2554623B1 (fr) | 1983-11-08 | 1983-11-08 | Procede d'analyse de la parole independant du locuteur |
DE8484402243T DE3477857D1 (en) | 1983-11-08 | 1984-11-07 | A speaker independent speech recognition process |
JP59234856A JPS60123000A (ja) | 1983-11-08 | 1984-11-07 | 話者に影響を受けない音声認識方法 |
EP84402243A EP0146434B1 (fr) | 1983-11-08 | 1984-11-07 | Procédé de reconnaissance de la parole indépendant du locuteur |
US07/320,841 US4975959A (en) | 1983-11-08 | 1989-03-08 | Speaker independent speech recognition process |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8317738A FR2554623B1 (fr) | 1983-11-08 | 1983-11-08 | Procede d'analyse de la parole independant du locuteur |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2554623A1 true FR2554623A1 (fr) | 1985-05-10 |
FR2554623B1 FR2554623B1 (fr) | 1986-08-14 |
Family
ID=9293893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR8317738A Expired FR2554623B1 (fr) | 1983-11-08 | 1983-11-08 | Procede d'analyse de la parole independant du locuteur |
Country Status (5)
Country | Link |
---|---|
US (1) | US4975959A (fr) |
EP (1) | EP0146434B1 (fr) |
JP (1) | JPS60123000A (fr) |
DE (1) | DE3477857D1 (fr) |
FR (1) | FR2554623B1 (fr) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62220998A (ja) * | 1986-03-22 | 1987-09-29 | 工業技術院長 | 音声認識装置 |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
JP3045510B2 (ja) * | 1989-12-06 | 2000-05-29 | 富士通株式会社 | 音声認識処理装置 |
EP0438662A2 (fr) * | 1990-01-23 | 1991-07-31 | International Business Machines Corporation | Procédé et dispositif pour grouper les prononciations d'un phonème dans des catégories dépendantes du contexte basées sur la similitude acoustique pour la reconnaissance automatique de la parole |
JP2852298B2 (ja) * | 1990-07-31 | 1999-01-27 | 日本電気株式会社 | 標準パターン適応化方式 |
US5222188A (en) * | 1990-08-21 | 1993-06-22 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
US5208897A (en) * | 1990-08-21 | 1993-05-04 | Emerson & Stern Associates, Inc. | Method and apparatus for speech recognition based on subsyllable spellings |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
DE4131387A1 (de) * | 1991-09-20 | 1993-03-25 | Siemens Ag | Verfahren zur erkennung von mustern in zeitvarianten messsignalen |
US5546499A (en) * | 1994-05-27 | 1996-08-13 | Kurzweil Applied Intelligence, Inc. | Speech recognition system utilizing pre-calculated similarity measurements |
US5920837A (en) * | 1992-11-13 | 1999-07-06 | Dragon Systems, Inc. | Word recognition system which stores two models for some words and allows selective deletion of one such model |
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5668929A (en) * | 1993-01-21 | 1997-09-16 | Hirsch Electronics Corporation | Speech activated security systems and methods |
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
US5706398A (en) * | 1995-05-03 | 1998-01-06 | Assefa; Eskinder | Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds |
US5640488A (en) * | 1995-05-05 | 1997-06-17 | Panasonic Technologies, Inc. | System and method for constructing clustered dictionary for speech and text recognition |
US5754977A (en) * | 1996-03-06 | 1998-05-19 | Intervoice Limited Partnership | System and method for preventing enrollment of confusable patterns in a reference database |
DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
US5865626A (en) * | 1996-08-30 | 1999-02-02 | Gte Internetworking Incorporated | Multi-dialect speech recognition method and apparatus |
US5946653A (en) * | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
JP3075250B2 (ja) * | 1998-03-04 | 2000-08-14 | 日本電気株式会社 | 話者認識方法及び装置 |
KR100828884B1 (ko) | 1999-03-05 | 2008-05-09 | 캐논 가부시끼가이샤 | 데이터베이스 주석 및 검색 |
JP2001117579A (ja) * | 1999-10-21 | 2001-04-27 | Casio Comput Co Ltd | 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体 |
EP1228452B1 (fr) * | 1999-10-28 | 2007-09-19 | Canon Kabushiki Kaisha | Procede et dispositif d'appariement de motifs |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) * | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) * | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
US7640164B2 (en) * | 2002-07-04 | 2009-12-29 | Denso Corporation | System for performing interactive dialog |
EP1524650A1 (fr) * | 2003-10-06 | 2005-04-20 | Sony International (Europe) GmbH | Mesure de fiabilité dans un système de reconnaissance de la parole |
DE102004055230B3 (de) * | 2004-11-16 | 2006-07-20 | Siemens Ag | Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular |
CN101120397B (zh) * | 2005-01-17 | 2011-08-17 | 日本电气株式会社 | 语音识别系统、语音识别方法 |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
KR100717393B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치 |
WO2009084000A1 (fr) * | 2007-12-31 | 2009-07-09 | Onmobile Global Limited | Procédé et système pour rechercher un contenu multimédia préféré |
JP5681811B2 (ja) * | 2010-12-10 | 2015-03-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム |
CN102779510B (zh) * | 2012-07-19 | 2013-12-18 | 东南大学 | 基于特征空间自适应投影的语音情感识别方法 |
CN103531198B (zh) * | 2013-11-01 | 2016-03-23 | 东南大学 | 一种基于伪说话人聚类的语音情感特征规整化方法 |
CN107407205A (zh) * | 2015-02-18 | 2017-11-28 | 米德尔里弗飞机系统公司 | 声衬以及形成声衬入口的方法 |
CN117456999B (zh) * | 2023-12-25 | 2024-04-30 | 广州小鹏汽车科技有限公司 | 音频识别方法、音频识别装置、车辆、计算机设备和介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4059725A (en) * | 1975-03-12 | 1977-11-22 | Nippon Electric Company, Ltd. | Automatic continuous speech recognition system employing dynamic programming |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
JPS57147781A (en) * | 1981-03-06 | 1982-09-11 | Nec Corp | Pattern matching device |
JPS58100195A (ja) * | 1981-12-10 | 1983-06-14 | 日本電気株式会社 | 連続音声認識装置 |
JPS58105295A (ja) * | 1981-12-18 | 1983-06-23 | 株式会社日立製作所 | 音声標準パタン作成方法 |
JPS58132299A (ja) * | 1982-02-01 | 1983-08-06 | 日本電信電話株式会社 | 不特定話者単語音声認識方法 |
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
-
1983
- 1983-11-08 FR FR8317738A patent/FR2554623B1/fr not_active Expired
-
1984
- 1984-11-07 JP JP59234856A patent/JPS60123000A/ja active Granted
- 1984-11-07 EP EP84402243A patent/EP0146434B1/fr not_active Expired
- 1984-11-07 DE DE8484402243T patent/DE3477857D1/de not_active Expired
-
1989
- 1989-03-08 US US07/320,841 patent/US4975959A/en not_active Expired - Lifetime
Non-Patent Citations (4)
Title |
---|
ICASSP-83, PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL, vol. 3, 14-16 avril 1983, Boston, (US), IEEE, 1025-1028, New York (USA); * |
IEEE TRANS. ACOUST., SPEECH AND SIGNAL PROCESS, vol. ASSP-26, no. 1, février 1978, pages 34-42, New York (USA); * |
PHILIPS TECHNICAL REVIEW, vol. 37, no. 8, 1977, pages 207-219, Eindhoven (NL); * |
PROCEEDINGS OF THE FOURTH INTERNATIONAL JOINT CONFERENCE ON PATTERN RECOGNITION, 7-10 novembre 1978, Kyoto JP, IEEE, pages 1025-1029, New York (USA); * |
Also Published As
Publication number | Publication date |
---|---|
EP0146434B1 (fr) | 1989-04-19 |
US4975959A (en) | 1990-12-04 |
EP0146434A1 (fr) | 1985-06-26 |
JPH0554959B2 (fr) | 1993-08-13 |
JPS60123000A (ja) | 1985-07-01 |
DE3477857D1 (en) | 1989-05-24 |
FR2554623B1 (fr) | 1986-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2554623A1 (fr) | Procede d'analyse de la parole independant du locuteur | |
EP1362343B1 (fr) | Procede, module, dispositif et serveur de reconnaissance vocale | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
WO2005106853A1 (fr) | Procede et systeme de conversion rapides d'un signal vocal | |
CN113239147A (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
WO2012014301A1 (fr) | Dispositif de détermination du niveau d'ivresse et procédé de détermination du niveau d'ivresse | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
CN112530400A (zh) | 基于深度学习的文本生成语音的方法、系统、装置及介质 | |
WO2021166207A1 (fr) | Dispositif de reconnaissance, dispositif d'apprentissage, procédé associé et programme | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
Leng et al. | Prompttts 2: Describing and generating voices with text prompt | |
EP1836699B1 (fr) | Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme | |
CN114125506A (zh) | 语音审核方法及装置 | |
JP7010905B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Ghosh et al. | Neuragen-a low-resource neural network based approach for gender classification | |
Wang | Mandarin spoken document retrieval based on syllable lattice matching | |
CN110310620B (zh) | 基于原生发音强化学习的语音融合方法 | |
CN111061909B (zh) | 一种伴奏分类方法和装置 | |
Guennec | Study of unit selection text-to-speech synthesis algorithms | |
JP2004347732A (ja) | 言語自動識別方法及び装置 | |
Amjad et al. | Data augmentation and deep neural networks for the classification of Pakistani racial speakers recognition | |
EP1490863B1 (fr) | Procede de reconnaissance de parole au moyen d'un transducteur unique | |
FR2713006A1 (fr) | Appareil et procédé de synthèse de la parole. | |
Shahriar et al. | Identification of Spoken Language using Machine Learning Approach | |
CN116312468A (zh) | 一种合成含有情感的语音的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |