FR2554623A1 - Procede d'analyse de la parole independant du locuteur - Google Patents

Procede d'analyse de la parole independant du locuteur Download PDF

Info

Publication number
FR2554623A1
FR2554623A1 FR8317738A FR8317738A FR2554623A1 FR 2554623 A1 FR2554623 A1 FR 2554623A1 FR 8317738 A FR8317738 A FR 8317738A FR 8317738 A FR8317738 A FR 8317738A FR 2554623 A1 FR2554623 A1 FR 2554623A1
Authority
FR
France
Prior art keywords
phonetic
dictionary
file
marking
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR8317738A
Other languages
English (en)
Other versions
FR2554623B1 (fr
Inventor
Gerard Victor Benbassat
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments France SAS
Original Assignee
Texas Instruments France SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments France SAS filed Critical Texas Instruments France SAS
Priority to FR8317738A priority Critical patent/FR2554623B1/fr
Priority to DE8484402243T priority patent/DE3477857D1/de
Priority to JP59234856A priority patent/JPS60123000A/ja
Priority to EP84402243A priority patent/EP0146434B1/fr
Publication of FR2554623A1 publication Critical patent/FR2554623A1/fr
Application granted granted Critical
Publication of FR2554623B1 publication Critical patent/FR2554623B1/fr
Priority to US07/320,841 priority patent/US4975959A/en
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

SELON CE PROCEDE, LE SIGNAL DE LA PAROLE EST ANALYSE DANS UN QUANTIFIEUR VECTORIEL 1 DANS LEQUEL LES PARAMETRES ACOUSTIQUES SONT CALCULES POUR CHAQUE INTERVALLE DE TEMPS D'UNE VALEUR DETERMINEE ET SONT COMPARES A CHAQUE FORME SPECTRALE CONTENUE DANS UN DICTIONNAIRE DE FORMES 2 EN UTILISANT UN CALCUL DE DISTANCE, LA SEQUENCE OBTENUE A LA SORTIE DU QUANTIFIEUR 1 EST COMPAREE AVEC UN LEXIQUE DE MOTS 5 STOCKES SOUS FORME PHONETIQUE EN UTILISANT DES TABLES 3 DE DISTRIBUTION PHONETIQUE ASSOCIEES A CHAQUE FORME.

Description

La présente invention concerne les disposi-
tifs de reconnaissance de la parole et se rapporte
plus particulièrement à un dispositif de reconnais-
sance de la parole indépendante du locuteur.
Le problème de l'indépendance vis à vis du locuteur est un des problèmes les plus importants à résoudre dans le domaine de la reconnaissance de la parole. Le procédé de reconnaissance globale qui a été très efficace pour la reconnaissance des mots
dépendante du locuteur, conduit à une solution extrê-
mement lourde du point de vue des moyens informatiques mis en oeuvre si elle est appliquée à une technique de
reconnaissance indépendante du locuteur.
En effet, on a montré qu'en utilisant envi-
ron dix formes par mot à reconnaitre, on peut rendre un tel système indépendant du locuteur, (F.E. LEVINSON et Al. Interactive clustering technics for selecting speaker independent reference templates for isolated word recognition" IEEE trans. ASFP Vol. 27, nô 2 April
1979).
Ceci accroit déjà d'un ordre de grandeur la charge du traitement et la taille de la mémoire à accès aléatoire RAM nécessaire, mais ce qui est plus défavorable, les formes sont obtenues à partir d'un
certain nombre de termes prononcés par un grand nom-
bre de locuteurs sélectionnés-avec soin ( 100 envi-
ron). Ceci implique qu'une tâche d'enregistrement
très onéreuse doit être réalisée pour chaque vocabu-
laire constitué. Tout ceci limite considérablement les
possibilités d'applications d'un tel système.
Par ailleurs, la solution analytique dans
laquelle on procède à une tentative de convertir l'en-
trée acoustique en une séquence d'unités phonétiques, ne permet pas encore d'obtenir des performances très élevées. La Demanderesse estime que les raisons de cette situation sont les suivantes.
Dans de nombreux projets, la solution analy-
tique était utilisée dans le contexte d'une reconnais-
sance continue de la parole ( L.D.ERMAN " A functional
description of the HEARSAY II system" Proceeding 1977
IEEE Int. Conf. on ASFP, Hartford C.T Mai 1977, pages 799 à 802. MERIER et Al " KEAL: un système pour le dialogue oral Acte du congrès de l'AFCET à Gif sur
Yvette, 13-15 Nov. 1978, Tome 2, pages 304 à 314).
Bien entendu, ceci ajoute un autre niveau de
difficultés.
Une difficulté importante c'est le vocabu-
laire illimité (ou très vaste) mis en oeuvre, ce qui impose une segmentation à priori en unités phonétiques
et les erreurs commises à ce stade sont très diffici-
les à rattraper.
C'est la raison pour laquelle la Demande-
resse a mis au point une solution analytique même pour un nombre limité de mots, de sorte que la segmentation peut être réalisée de façon optimale pour chaque mot
du vocabulaire en utilisant un algorithme de program-
mation dynamique.
Une autre difficulté essentielle réside dans l'établissement des formes acoustiques représentant
les unités phonétiques à trouver.
Habituellement, de telles formes sont obte-
nues en plaçant les unités phonétiques dans un certain espace acoustique et en trouvant les domaines les plus
représentatifs pour chacune d'entre elles.
Ensuite, les centres de ces domaines sont
associés aux unités phonétiques correspondantes.
Etant donné qu'il y a un grand nombre de chevauchements entre les domaines (déjà pour un seul locuteur mais bien davantage pour une grande variété de locuteurs), on donne généralement à un point de cet
espace acoustique, une probabilité d'être représenta-
tif d'une unité phonétique, qui est proportionnelle à
sa distance au centre du domaine correspondant.
Pour être précis, ceci suppose que la dis-
tance acoustique utilisée est directement liée à la
distance de perception entre les sons.
Ceci n'est pas trop difficile à obtenir pour de courtes distances, mais malheureusement un espace acoustique avec une distance associée dans laquelle
cette notion reste vraie pour des distances plus im-
portantes, n'est pas connu à ce jour.
Ainsi, cette solution nécessite de trouver soit de meilleures représentations acoustiques, soit suffisamment de formes de façon que la distance reste
toujours suffisamment faible.
Ces deux conditions apparaissent tout aussi
difficiles à satisfaire l'une que l'autre.
Un moyen simple de contourner cette diffi-
culté consiste suivant l'invention à accepter qu'un domaine quelconque de l'espace acoustique puisse être
représentatif de plusieurs unités phonétiques.
Alors dans chaque domaine, la probabilité d'association à une unité phonétique est obtenue au
cours d'une phase d'apprentissage.
Les domaines peuvent être définis sur une base acoustique par des procédés permettant de créer
un nombre quelconque de domaines.
Ainsi, ces domaines constituent dans l'es-
pace acoustique une " grille" aussi fine qu'on le
2 54623
souhaite. La distance maximale utilisée pour associer un point à un domaine donné et par conséquent à un certain nombre d'unités phonétiques, peut être rendue aussi courte que nécessaire. Grâce à une telle solution, la nécessité de disposer d'une distance acoustique strictement liée à la perception devient beaucoup moins critique que précédemment et la nécessité d'établir un nombre de formes précises pour chaque unité phonétique peut être évitée. Une telle solution est réalisable au prix d'un plus grand nombre de domaines. Mais à son tour, ceci pourrait permettre d'améliorer considérablement les performances des dispositifs de reconnaissance de
la parole indépendante du locuteur.
L'invention sera mieux comprise à l'aide de
la description qui va suivre, donnée uniquement à
titre d'exemple et faite en se référant aux dessins annexés, sur lesquels:
- la Fig.1 est un schéma synoptique de prin-
cipe d'un système de reconnaissance de mots indépen-
dant du locuteur; - la Fig.2 est un graphique montrant un processus d'établissement d'une correspondance entre un mot à identifier à un mot du lexique représenté sous sa forme phonétique;
- la Fig.3 est un schéma illustrant la for-
mation du dictionnaire de vecteurs destiné à la mise en oeuvre de la reconnaissance de la parole suivant l'invention;
- la Fig.4 illustre le processus de marqua-
ge phonémique du corpus à partir duquel sera formé le dictionnaire de formes acoustiques;
- les Fig.5A et 58 sont des schémas syno-
tiques des moyens d'apprentissage en vue de la reconnaissance indépendante du locuteur suivant l'invention; - la Fig.6 est un graphique représentant le signal analysé et les paramètres qui le constituent
ainsi que son marquage phonémique.
Le dispositif présenté à la Fig.1 comporte un circuit de quantification vectorielle 1 destine à recevoir sur une de ses entrées les signaux de parole
à analyser.
Une autre entrée du circuit quantifieur 1
est connectée à une mémoire 2 contenant un dictionnai-
re de formes spectrales auquel est associé un ensemble 3 de tables de distribution phonétique associées à
chaque forme.
La sortie du quantifieur 1 et la sortie de
l'ensemble de tables 3 sont reliées à des entrées cor-
respondantes d'un dispositif 4 de détermination de la probabilité de correspondance de mots par
programmation dynamique.
A ce dispositif est enfin associée une mé-
moire 5 contenant un lexique de mots sous forme phonémique. Le signal de la parole est analysé dans le quantifieur vectoriel dans lequel les paramètres acoustiques (ici les coefficients cepstraux obtenus par un algorithme linéaire prédictif) sont calculés pour chaque intervalle de temps de 10 à 20 ms et sont comparés à chaque forme du dictionnaire contenu dans la mémoire 2 en utilisant un calcul d'une distance, dans le présent exemple de la distance euclidienne,
afin de trouver le voisin le plus proche.
La séquence d'éléments du dictionnaire obtenue est ensuite comparée avec chacun des mots du lexique de mots contenus dans la mémoire 5 et stockés
sous la forme d'une simple transcription phonétique.
En utilisant la probabilité d'association de phonèmes avec les éléments du dictionnaire contenus dans la séquence, un algorithme de programmantion dynamique permet de calculer la probabilité pour que la séquence à identifier corresponde à une chaine
phonétique du lexique.
Le mot ayant la probabilité la plus élevée
est choisi comme le mot qui est prononcé si la pro-
babilité a une valeur supérieure à un certain seuil.
L'algorithme de programmation dynamique permet de trouver le trajet optimal pour établir la
meilleure correspondance à chaque mot du lexique.
Cette correspondance est obtenue a l'aide du dispo-
sitif d'adaptation 4.
Elle est illustrée par le graphique de la Fig.2, sur lequel on a porté en abcisses le mot à
identifier et en ordonnées les phonèmes.
Le trajet optimal est représenté par la courbe 6 tandis que la grille des contraintes locales
dont il doit être tenu compte pour assurer la corres-
pondance est matérialisée en 7.
On remarquera que cette technique n'impose aucune limitation au nombre de formes associées à un phonème donné. Toutefois, ni la partie stable ni la
transition d'un phonème peut être sautée.
Un trajet- 6 avec une probabilité maximale
d'adaptation est déterminé par programmation dynami-
que.
A chaque étape de la comparaison, la proba-
bilité qu'un tronçon (représenté par une forme sur l'axe des x) fait partie d'un phonème (porté sur l'axe
des y) est trouvée dans une table T associée.
Afin d'aboutir à ce point indiqué en 7., une contrainte locale 7 force le trajet 6 à évoluer soit à partir du point 7a se trouvant immédiatement à gauche, pour former ainsi une partie de trajet horizontale, soit à partir du point 7b précédent situé sur une diagonale ( interdisant ainsi toute longueur de trajet vertical). La probabilité de chacun des trajets est obtenue en multipliant la probabilité de chacun des trajets aboutissant en 7a et 7b parr la probabilité dupoint 7c telle qu'elle est trouvée dans la table T.
Dans le présent exemple, la probabilité pour que l'é-
lément 7x soit représentatif du phonème O est Fl.
Le trajet sélectionné pour aboutir en 7c est
celui de probabilité maximale.
En procédant de cette façon pour chaque point possible de la matrice on parvient au trajet 6
de probabilité maximale.
La longueur du trajet horizontal n'est pas limitée par la contrainte locale, mais elle pourrait
être limitée dans la pratique en utilisant la distri-
bution statistique de la longueur de chaque phonème pour faire intervenir dans le calcul de probabilité le fait que l'association d'un élément de la séquence à
un phonème donné n'est pas indépendante des associa-
tions précédentes.
On va maintenant décrire en référence à la Fig.3, la phase de constitution du dictionnaire et d'apprentissage. Le dictionnaire de formes acoustiques est établi en utilisant un ensemble d'apprentissage de phrases analysées par codage par prédiction linéaire
contenant un nombre équilibré de phonèmes et pronon-
cées par une variété suffisamment importante de locu-
teurs. La sélection des formes peut être faite de telle façon que le dictionnaire fournisse la meilleure représentation de l'ensemble d'apprentissage selon une mesure de distorsion moyenne et pour un nombre donné de formes. La Fig.3 illustre un procédé de sélection selon l'algorithme des nuées dynamiques. Sur cette figure, on a représenté un ensemble d'apprentissage 8 et un dictionnaire de formes spectrales 9; les opérations sont initialisées en sélectionnant dans l'ensemble d'apprentissage des formes spectrales 10 dont la distance à leur voisine la plus proche dans le dictionnaire est supérieure à un certain seuil. La taille du dictionnaire peut être arbitrairement limitée par simple interruption de son processus de croissance. Ensuite, toutes les formes spectrales de l'ensemble d'apprentissage sQnt groupés en classes 11 en fonction de leur voisine la plus proche dans le dictionnaire, après quoi le centre de gravité 12 de
chaque classe 11 est choisi en tant que forme.
Le même processus est répété jusqu'à ce que la distance moyenne soit inférieure à un certain seuil ou que sa variation devienne inférieure à une très
faible valeur, ce qui indique que le processus a con-
vergé. Ainsi le dictionnaire 9 de formes spectrales 13 est l'image des centres 12 des classes 11 de formes
spectrales de l'ensemble d'apprentissage.
Le schéma de la Fig.4 représente la manière dont est réalisé le marquage phonémique des formes
spectrales de l'ensemble d'apprentissage.
La ligne 14 de la Fig.4 illustre une repré-
sentation phonétique d'une phrase.
La ligne 15 montre une segmentation manuelle
en parties stables et transistions.
La ligne 16 est une représentation des tron-
çons des codes par prédiction linéaire LPC.
Ces tronçons codés 17 ont des éléments cor-
respondants 18 dans le dictionnaire de formes spectra-
les 19, ces éléments correspondants étant obtenus par
codage vectoriel utilisant la distance sepctrale.
Enfin, au bas de la Fig.4, on a représenté des tables 20 de distribution phonétique associées à chaque forme spectrale. Ces tables correspondent aux
tables T de la Fig.2, en cours de constitution.
Ces tables de fréquences phonétiques sont
obtenues en comptant le nombre d'apparition des phonè-
mes dans chaque classe 11 (Fig.3).
Ceci suppose que l'ensemble d'apprentissage
a subi une segmentation en phonèmes et a été marqué.
Pour le premier ensemble d'apprentissage, cette opé-
ration doit être exécutée entièrement à la main, mais après qu'un dictionnaire "suffisamment bon" ait été constitué l'algorithme de reconnaissance lui-même peut être utilisé pour assurer une segmentation automatique d'autres termes d'apprentissage, avec seulement une
vérification manuelle.
On va maintenant décrire en référence aux
figures 5A et 5B, les opérations de la phase d'appren-
tissage. La Fig.5A montre les opérations à exécuter
pour constituer un fichier de marquage.
Ces opérations consistent à convertir d'a-
nalogique en numérique en 21, la parole de l'ensem-
ble d'apprentissage, et en 23, à leur analyse par prédiction linéaire. Le signal numérique est en outre
stocké dans le fichier 24.
1 0 Les résultats de l'analyse sont introduits dans un fichier d'analyse 25 puis soumis en 26 à une opération de marquage phonétique faisant appel à une écoute en 27 et à une représentation graphique en 28 illustrée à la Fig.6. et stockées dans un fichier de
marquage 29.
Comme représenté à la Fig.5B, les marques phonétiques contenues dans le fichier de marquage 29 sont combinées en 30 avec les données du fichier d'analyse 25 au cours d'une opération de sélection
optimale de formes spectrales.
Les résultats de cette sélection sont trans-
férés dans un fichier de dictionnaire 31. Les fréquen-
ces d'association entre les phonèmes et les éléments du dictionnaire sont calculées en 32 pour former des
tables de distribution en 33.
La mise en oeuvre du procédé décrit en réfé-
rence à la Fig.SA a nécessité l'écriture d'un program-
me spécifique de repérage phonétique.
Il comporte une réaction audio-graphique avec un ensemble de commandes très souples qui rendent
la segmentation aussi précise que possible et égale-
ment aussi rapide et aisée que possible.
La représentation graphique de la Fig.6 re-
présente la forme d'onde ainsi que les fréquences for-
mantiques et les largeurs de bande, l'énergie et la
fréquence fondamentale en fonction du temps.
Le programme produit un fichier de marquage contenant le nom des phonèmes et leurs limites ainsi que certaines informations relatives aux indices acoustiques. Un autre ensemble de programmes utilise le fichier de marquage 29 et le fichier d'analyse 25 (Fig.5A) produits par l'opération d'analyse par codage *1
par prédiction linéaire pour constituer le dictionnai-
re des formes selon l'algorithme décrite plus haut et
les fréquences phonétiques associées.
Des programmes de sorties peuvent trier les résultats et les présenter sous la forme d'histogram- mes. Un ensemble de phrases d'apprentissage reproduit ci-après à titre d'exemple a été choisi pour contenir une distribution de phonèmes de manière que
les probabilités calculées ne soient pas décalées.
ENSEMBLE D'APPRENTISSAGE
Deux listes de 10 phrases chacune choisies
de manière que le nombre d'apparitions de chaque pho-
nème soit distribué de façon régulière (une moyenne de
16 fois chacun).
LISTE 1
1- est-ce que le conducteur arrête l'auto?
2- c'est toujours comme çà depuis dix ans tu sais.
3- ce cheval peut marcher au pas.
4- la bière est moins forte que la rhum.
5- ici il fait toujours très froid en hiver.
6- j'aime Sylvie quand elle est mignone
7- Diane ne reviendra pas avant lundi.
8- aimez-vous le dessin? 9- j'ai déjà lu la réponse qu'il m'a envoyé par la
poste.
- mes gants sont usés.
LISTE 2
1- que désirons-nous pour ce lunch de lundi? 2- faisons vite notre choix, ce sont de bonnes choses, gatons-nous. 3- on guinche ensemble demain, j'aimerais du pain,
du vin chaud, du boursin, du gateau.
4- Fernand aime voir des feux-follets dans une foret
quand il fait chaud.
5- tu peux causer encore, on ne peux rien faire pour
toi, c'est la loi vois-tu.
6- Guy vient de perdre un gant, une guenille, une guetre, un bonnet, un bandeau, un chapeau, ses
lunettes, ses chaussettes, maintenant il grelotte.
7- ces bonbons sont bons, on en veut encore tonton Jean. 8- que ton chien, ton chat, ton cheval se dépêchent,
quelles chenilles.
9- bébé joyeux fit joujou puis mangea sa bouillie.
10- cuicui fit un oiseau épuisé tombe dans un puit.
Les phrases contenant un total de 568 pho-
nèmes et environ 63000 éléments de 10 ms.
Des locuteurs, femmes et hommes, avec des accents et des timbres différents ont été choisis pour
enregistrer les phrases.
On donne ci-après à titre d'exemple les élé-
ments entrant dans*la constitution du système de re-
connaissance de la Fig.1 et des moyens d'apprentissage
des Fig.5A et 5B.
Svstème de reconnaissance de la Fia.1 N' de référence Nature du constituant 1 Convertisseur A/D + microprocesseur TMS 320 2 Mémoire ROM de 32 à 64 Kbits environ 3 Mémoire ROM de 16 Kbits environ 4 Microprocesseur standard tel que TMS 7000 de Texas Instruments Mémoire RAM ou IPROM Movens d'anorentissage des Fio.SA et 58 N' de référence Nature du constituant 21 Convertisseur A/D 23,26,30,32 Mini oridnateurs DS 990-12 de Texas
Instruments, convenable-
ment programmés 24,25,29 Mémoires RAM, mémoires magnétiques 31,33 Mémoires magnétiques

Claims (12)

REVENDICATIONS
1. Procédé de reconnaissance de la parole indépendante du locuteur, consistant à diviser la parole à analyser en unités phonétiques, et à comparer ces unités phonétiques avec les phonèmes contenus dans
un dictionnaire, caractérisé en ce que l'identifica-
tion des unités phonétiques consiste à diviser l'espa-
ce acoustique en domaines, à rendre des domaines de l'espace acoustique représentatifs chacun de plusieurs unités phonétiques en obtenant au cours d'une période d'apprentissage une probabilité d'association d'une unité phonétique à un domaine correspondant,
2. Procédé suivant la revendication 1, ca-
ractérisé en ce que la distance maximale utilisée pour associer un point à un domaine de l'espace acoustique
et par conséquent à un certain nombre d'unités phoné-
tiques est rendue aussi courte que nécessaire par le
choix d'un nombre de domaines suffisamment grand.
3. Procédé suivant l'une des revendications
1 et 2, caractérisé en ce que le signal de la parole est analysé dans un quantifieur vectoriel {1) dans lequel les paramètres acoustiques sont calculés pour chaque intervalle de temps d'une valeur déterminée et
sont comparés à chaque forme contenue dans un diction-
naire (2) en utilisant un calcul de distance.
4. Procédé suivant la revendication 3, ca-
ractérisé en ce que ledit calcul de distance est un
calcul de distance euclidienne.
5. Procédé suivant l'une des revendications
3 et 4, caractérisé en ce que la séquence obtenue à la sortie du quantifieur vectoriel (1) est comparée avec
un lexique de mots {5) stockés sous forme phoné-
tique, en utilisant des tables (3,T,20) de fréquences
phonétiques associées à chaque forme.
6. Procédé suivant la revendication 5, ca-
ractérisé en ce qu'on utilise un algorithme de pro-
grammation dynamique pour calculer la probabilité de correspondance entre la séquence obtenue à la sortie du quantifieur vectoriel et chaque mot du lexique.
7. Procédé suivant la revendication 6, ca-
ractérisé en ce que le calcul du probabilité est basé
sur l'utilisation des tables de fréquences phonéti-
ques.
8. Procédé suivant l'une quelconque des re-
vendications 1 à 7, caractérisé en ce qu'on sélection-
ne dans un ensemble d'apprentissage (8) des formes spectrales (10) dont la distance à leur voisine la plus proche dans un dictionnaire de formes spectrales (9) est supérieure à un seuil, on groupe les formes spectrales (10) de l'ensemble d'apprentissage en classes (11) en fonction de leur voisine la plus proche dans le dictionnaire et on choisit pour être inséré dans le dictionnaire (9) le centre de gravité (12) de chaque classe, ce processus étant répété jusqu'à ce que la distance moyenne soit inférieure à
un certain seuil ou que sa variation devienne infé-
rieure à une très faible valeur.
9. Procédé suivant l'une quelconque des re-
vendications 1 à 8, caractérisé en ce que la phase d'apprentissage consiste à constituer un fichier d'analyse (25) et un-fichier de marquage (29) à partir de la parole de l'ensemble d'apprentissage prononcée par un nombre déterminé de locuteurs ayant des accents et des timbres différents et convertie en signaux numériques, et à partir des fichiers d'analyse et de
marquage, à constituer des tables de fréquences (33).
10. Procédé suivant l'une des revendications
précédentes, caractérisé en ce que la constitution du fichier d'analyse est assurée par un codage (22) des
signaux numériques résultant de la conversion des si-
gnaux de la parole de l'ensemble d'apprentissage et en analysant les signaux numérisés par une analyse par prédiction linéaire, tandis que la constitution du fichier de marquage (29) est assurée en faisant subir aux données du fichier d'analyse (25) une opération de
marquage phonétique.
11. Procédé suivant la revendication 9, caractérisé en ce que ladite opération de marquage phonétique est effectuée en faisant appel à une écoute (27) et à une représentation graphique temporelle et spectrale (28) simultanées du signal de la parole
numérisé de l'ensemble d'apprentissage de façon à dé-
terminer les limites des parties stables des phonèmes.
12. Procédé suivant l'une des revendications
8 à 10, caractérisé en ce que les tables de fréquences (33) sont obtenue en assurant une sélection optimale
des formes spectrales à partir des contenus des fi-
chiers d'analyse et de marquage (25,29), en plaçant ces formes optimales dans un fichier de dictionnaire
(31) et en calculant les fréquences à partir du con-
tenu du fichier de dictionnaire (31).
FR8317738A 1983-11-08 1983-11-08 Procede d'analyse de la parole independant du locuteur Expired FR2554623B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR8317738A FR2554623B1 (fr) 1983-11-08 1983-11-08 Procede d'analyse de la parole independant du locuteur
DE8484402243T DE3477857D1 (en) 1983-11-08 1984-11-07 A speaker independent speech recognition process
JP59234856A JPS60123000A (ja) 1983-11-08 1984-11-07 話者に影響を受けない音声認識方法
EP84402243A EP0146434B1 (fr) 1983-11-08 1984-11-07 Procédé de reconnaissance de la parole indépendant du locuteur
US07/320,841 US4975959A (en) 1983-11-08 1989-03-08 Speaker independent speech recognition process

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR8317738A FR2554623B1 (fr) 1983-11-08 1983-11-08 Procede d'analyse de la parole independant du locuteur

Publications (2)

Publication Number Publication Date
FR2554623A1 true FR2554623A1 (fr) 1985-05-10
FR2554623B1 FR2554623B1 (fr) 1986-08-14

Family

ID=9293893

Family Applications (1)

Application Number Title Priority Date Filing Date
FR8317738A Expired FR2554623B1 (fr) 1983-11-08 1983-11-08 Procede d'analyse de la parole independant du locuteur

Country Status (5)

Country Link
US (1) US4975959A (fr)
EP (1) EP0146434B1 (fr)
JP (1) JPS60123000A (fr)
DE (1) DE3477857D1 (fr)
FR (1) FR2554623B1 (fr)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
EP0438662A2 (fr) * 1990-01-23 1991-07-31 International Business Machines Corporation Procédé et dispositif pour grouper les prononciations d'un phonème dans des catégories dépendantes du contexte basées sur la similitude acoustique pour la reconnaissance automatique de la parole
JP2852298B2 (ja) * 1990-07-31 1999-01-27 日本電気株式会社 標準パターン適応化方式
US5222188A (en) * 1990-08-21 1993-06-22 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5546499A (en) * 1994-05-27 1996-08-13 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing pre-calculated similarity measurements
US5920837A (en) * 1992-11-13 1999-07-06 Dragon Systems, Inc. Word recognition system which stores two models for some words and allows selective deletion of one such model
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5668929A (en) * 1993-01-21 1997-09-16 Hirsch Electronics Corporation Speech activated security systems and methods
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5706398A (en) * 1995-05-03 1998-01-06 Assefa; Eskinder Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds
US5640488A (en) * 1995-05-05 1997-06-17 Panasonic Technologies, Inc. System and method for constructing clustered dictionary for speech and text recognition
US5754977A (en) * 1996-03-06 1998-05-19 Intervoice Limited Partnership System and method for preventing enrollment of confusable patterns in a reference database
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US5946653A (en) * 1997-10-01 1999-08-31 Motorola, Inc. Speaker independent speech recognition system and method
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
KR100828884B1 (ko) 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
EP1228452B1 (fr) * 1999-10-28 2007-09-19 Canon Kabushiki Kaisha Procede et dispositif d'appariement de motifs
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
EP1524650A1 (fr) * 2003-10-06 2005-04-20 Sony International (Europe) GmbH Mesure de fiabilité dans un système de reconnaissance de la parole
DE102004055230B3 (de) * 2004-11-16 2006-07-20 Siemens Ag Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
CN101120397B (zh) * 2005-01-17 2011-08-17 日本电气株式会社 语音识别系统、语音识别方法
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치
WO2009084000A1 (fr) * 2007-12-31 2009-07-09 Onmobile Global Limited Procédé et système pour rechercher un contenu multimédia préféré
JP5681811B2 (ja) * 2010-12-10 2015-03-11 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム
CN102779510B (zh) * 2012-07-19 2013-12-18 东南大学 基于特征空间自适应投影的语音情感识别方法
CN103531198B (zh) * 2013-11-01 2016-03-23 东南大学 一种基于伪说话人聚类的语音情感特征规整化方法
CN107407205A (zh) * 2015-02-18 2017-11-28 米德尔里弗飞机系统公司 声衬以及形成声衬入口的方法
CN117456999B (zh) * 2023-12-25 2024-04-30 广州小鹏汽车科技有限公司 音频识别方法、音频识别装置、车辆、计算机设备和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
JPS58100195A (ja) * 1981-12-10 1983-06-14 日本電気株式会社 連続音声認識装置
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
JPS58132299A (ja) * 1982-02-01 1983-08-06 日本電信電話株式会社 不特定話者単語音声認識方法
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ICASSP-83, PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL, vol. 3, 14-16 avril 1983, Boston, (US), IEEE, 1025-1028, New York (USA); *
IEEE TRANS. ACOUST., SPEECH AND SIGNAL PROCESS, vol. ASSP-26, no. 1, février 1978, pages 34-42, New York (USA); *
PHILIPS TECHNICAL REVIEW, vol. 37, no. 8, 1977, pages 207-219, Eindhoven (NL); *
PROCEEDINGS OF THE FOURTH INTERNATIONAL JOINT CONFERENCE ON PATTERN RECOGNITION, 7-10 novembre 1978, Kyoto JP, IEEE, pages 1025-1029, New York (USA); *

Also Published As

Publication number Publication date
EP0146434B1 (fr) 1989-04-19
US4975959A (en) 1990-12-04
EP0146434A1 (fr) 1985-06-26
JPH0554959B2 (fr) 1993-08-13
JPS60123000A (ja) 1985-07-01
DE3477857D1 (en) 1989-05-24
FR2554623B1 (fr) 1986-08-14

Similar Documents

Publication Publication Date Title
FR2554623A1 (fr) Procede d'analyse de la parole independant du locuteur
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
WO2005106853A1 (fr) Procede et systeme de conversion rapides d'un signal vocal
CN113239147A (zh) 基于图神经网络的智能会话方法、系统及介质
WO2012014301A1 (fr) Dispositif de détermination du niveau d'ivresse et procédé de détermination du niveau d'ivresse
Cooper Text-to-speech synthesis using found data for low-resource languages
CN112530400A (zh) 基于深度学习的文本生成语音的方法、系统、装置及介质
WO2021166207A1 (fr) Dispositif de reconnaissance, dispositif d'apprentissage, procédé associé et programme
CN110930975A (zh) 用于输出信息的方法和装置
Leng et al. Prompttts 2: Describing and generating voices with text prompt
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
CN114125506A (zh) 语音审核方法及装置
JP7010905B2 (ja) 情報処理装置、情報処理方法及びプログラム
Ghosh et al. Neuragen-a low-resource neural network based approach for gender classification
Wang Mandarin spoken document retrieval based on syllable lattice matching
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
CN111061909B (zh) 一种伴奏分类方法和装置
Guennec Study of unit selection text-to-speech synthesis algorithms
JP2004347732A (ja) 言語自動識別方法及び装置
Amjad et al. Data augmentation and deep neural networks for the classification of Pakistani racial speakers recognition
EP1490863B1 (fr) Procede de reconnaissance de parole au moyen d'un transducteur unique
FR2713006A1 (fr) Appareil et procédé de synthèse de la parole.
Shahriar et al. Identification of Spoken Language using Machine Learning Approach
CN116312468A (zh) 一种合成含有情感的语音的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
ST Notification of lapse