FR2689292A1 - Procédé et système de reconnaissance vocale à réseau neuronal. - Google Patents

Procédé et système de reconnaissance vocale à réseau neuronal. Download PDF

Info

Publication number
FR2689292A1
FR2689292A1 FR9203743A FR9203743A FR2689292A1 FR 2689292 A1 FR2689292 A1 FR 2689292A1 FR 9203743 A FR9203743 A FR 9203743A FR 9203743 A FR9203743 A FR 9203743A FR 2689292 A1 FR2689292 A1 FR 2689292A1
Authority
FR
France
Prior art keywords
vocabulary
word
sub
detected
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR9203743A
Other languages
English (en)
Inventor
Henryon Michel
Stoufflet Franck
Anglade Yolande
Fohr Dominique
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sollac SA
Original Assignee
Sollac SA
Lorraine de Laminage Continu SA SOLLAC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sollac SA, Lorraine de Laminage Continu SA SOLLAC filed Critical Sollac SA
Priority to FR9203743A priority Critical patent/FR2689292A1/fr
Publication of FR2689292A1 publication Critical patent/FR2689292A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

L'intégralité d'un mot prononcé est d'abord reconnue par comparaison avec un vocabulaire de mots de référence selon une méthode connue. Afin d'affiner la reconnaissance lorsque des mots de référence sont acoustiquement proches, un circuit (13) sélectionne une portion (TD) du mot prononcé en fonction d'une partie discriminante temporelle dans les mots de référence d'un sous-vocabulaire détecté (ASV) auquel appartient le mot reconnu (IMR). Un analyseur (14) filtre la portion sélectionnée (TD) pour établir des coefficients cepstraux (TF). Ces derniers sont traités dans un moyen à réseau neuronal (15) programmé en fonction de coefficients synaptiques (W) associés au sous-vocabulaire détecté afin que le traitement converge vers l'un (S2) des mots de référence du sous-vocabulaire correspondant au mot prononcé. Cette reconnaissance de parole peut être multilocuteur, et les mots peuvent être des lettres isolées ou des mots enchaînés.

Description

Procéde et système de reconnaissance
vocale à réseau neuronal
La présente invention concerne de manière générale la reconnaissance vocale mono locuteur et multilocuteur.
Les développements récents en reconnaissance de la parole distinguent deux méthodes principales
- la méthode de reconnaissance par programmation dynamique; et
- la méthode de reconnaissance par chaîne de
Markov.
La première méthode précitée consiste à éliminer en grande partie les variations temporelles et spectrales à l'intérieur des mots prononcés. Un mot inconnu est aligné temporellement sur des "prototypes", dits également "références acoustiques" d'un vocabulaire définissant l'ensemble des mots à reconnaître. La référence la plus proche du signal acoustique du mot prononcé détermine le mot reconnu.
Cette méthode par programmation dynamique assure une distorsion spectrale minimale selon un critère de distance acoustique.
La seconde méthode, à la fois plus récente et plus performante, est basée sur des considérations probabilistes de manière à maximiser le produit de probabilités de transitions entre des états stables d'un signal acoustique d'un mot en une suite modélisée d'états et de transitions.
Les deux méthodes globales de reconnaissance précitées ne conduisent pas à des résultats de reconnaissance satisfaisants dans le cas de mots acoustiquement proches, c'est-à-dire de mots ayant sensiblement la même constitution sonore, telles que les lettres A et K, P et T, ou L, M et N par exemple.
Ces méthodes sont néanmoins avantageuses, essentiellement en raison des très courtes durées qu'elles nécessitent pour une reconnaissance d'un mot.
Dans un autre domaine de reconnaissance, la reconnaissance de caractères manuscrits peut mettre en oeuvre des techniques de réseau de neurones formels. Cette technique est pénalisée par ses temps de calcul, et son implantation pour la reconnaissance de la parole semble irréaliste (coût de l'apprentissage des réseaux) pour un vocabulaire évolué.
L'objectif principal de la présente invention consiste à utiliser la technique des réseaux de neurones formels pour affiner la reconnaissance dans un vocabulaire de mots prédéterminés qui sont acoustiquement proches et conduisent à des confusions de reconnaissance par des méthodes conventionnelles.
Le taux moyen de reconnaissance d'un vocabulaire est augmenté de 15 % environ par l'invention comparativement aux méthodes conventionnelles.
A cette fin, un procédé de reconnaissance vocale d'un mot prononcé selon lequel l'intégralité dudit mot prononcé est d'abord reconnue par comparaison avec des mots de référence d'un vocabulaire pour produire un mot reconnu, est caractérisé en ce qu'il comprend en outre
- détection de l'un de sous-vocabulaires prédéterminés de mots de référence auquel est susceptible d'appartenir le mot reconnu, chacun des sous-vocabulaires comprenant des mots de référence acoustiquement proches ayant une partie temporelle discriminante et définissant un ensemble de coefficients synaptiques, et
- lorsque l'un desdits sous-vocabulaires est détecté
1) sélection d'une portion dans le mot prononcé en fonction de la localisation temporelle d'une partie discriminante dans les mots de référence dudit sous-vocabulaire détecté,
2) analyse cepstrale de la portion sélectionnée du mot prononcé afin d'établir une matrice unicolonne de coefficients cepstraux, et
- multiplication matricielle de ladite matrice de coefficients cepstraux par un ensemble de matrices de coefficients synaptiques pour produire un ensemble de sorties respectives auxquelles sont appliquées une fonction non-linéaire afin de produire une matrice unicolonne identifiant l'un des mots de référence dans ledit sous-vocabulaire détecté correspondant audit mot prononcé.
L'invention concerne également un système de reconnaissance vocale de mot prononcé mettant en oeuvre le procédé précédemment défini. Le système comprend
- des moyens pour reconnaître l'intégralité d'un signal acoustique numérisé représentatif dudit mot prononcé comparativement à des données caractérisant des mots de référence d'un vocabulaire afin de produire un identificateur d'un mot de référence reconnu correspondant au mot prononcé,
- des moyens pour comparer l'identificateur de mot reconnu avec des identificateurs de mots de référence de sous-vocabulaires dudit vocabulaire afin de respectivement produire une adresse d'un sousvocabulaire détecté lorsque l'identificateur de mot reconnu appartient au sous-vocabulaire détecté et des coefficients synaptiques associés audit vocabulaire détecté, et retransmettre l'identificateur de mot reconnu lorsque celui-ci n'appartient à aucun desdits sous-vocabulaires,
- des moyens pour sélectionner une portion dans le signal acoustique numérisé en fonction de la localisation temporelle d'une partie discriminante dans les mots de référence du sous-vocabulaire détecté en réponse à l'adresse dudit sous-vocabulaire détecté,
- des moyens d'analyse cepstrale pour transformer ladite portion sélectionnée du signal acoustique numérisé en des coefficients cepstraux, et
- des moyens à réseau neuronal traitant les coefficients cepstraux en dépendance des coefficients synaptiques associés audit sous-vocabulaire détecté et de ladite fonction non-linéaire afin que le traitement converge vers l'identificateur de l'un des mots de référence dans ledit sous-vocabulaire détecté correspondant audit mot prononcé.
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante en référence aux dessins annexés correspondants, dans lesquels
- la figure 1 est un graphe représentant un extrait d'un modèle de chaîne de Markov pour la reconnaissance vocale d'un mot selon la technique antérieure;
- la figure 2 est un graphe de deux courbes énergétiques de signal acoustique relatives respectivement à la prononciation de deux lettres acoustiquement proches;
- la figure 3 est un bloc-diagramme d'un système de reconnaissance vocale à réseaux de neurones formels selon l'invention;
- la figure 4 est un diagramme modélisé connu d'un réseau de neurones formels;
- la figure 5 est un diagramme d'une architecture connue en couche de la représentation modélisée de la figure 4;
- la figure 6 est un diagramme connu de connexions associées à des coefficients synaptiques entre deux couches adjacentes dans un réseau de neurones formels; et
- la figure 7 est un schéma d'un moyen matriciel à réseau de neurones pour la mise en oeuvre d'une reconnaissance vocale de mot de sous-vocabulaire selon l'invention.
Il est rappelé succinctement l'une des méthodes les plus performantes utilisée pour la reconnaissance vocale.
Typiquement, un système de reconnaissance vocale comprend deux parties numériques : une partie de traitement acoustique et une partie de reconnaissance vocale proprement dite. Le traitement acoustique fait appel généralement à un filtrage de signal, appelé analyse cepstrale, permettant de déconvoluer, par un filtre homomorphique, la source sonore (glotte) et la réponse du conduit vocal. Concernant la reconnaissance vocale succédant à cette analyse cepstrale, celle-ci consiste, préalablement lors d'une phase d'apprentissage, à mémoriser pour chaque mot d'une famille de mots d'un vocabulaire donné, une forme acoustique (suite de vecteurs de coefficients acoustiques) qui constitue un "prototype" ou "mot de référence". L'image acoustique de tout mot prononcé inconnu à reconnaître est alors alignée temporellement sur chacun des "prototypes" de la famille de mots par une technique dérivée de la programmation (comparaison) dynamique, qui assure une distorsion spectrale minimale selon un critère de distance spectrale acoustique. Le prototype le plus proche de l'image acoustique du mot à identifier détermine le mot reconnu. Cette technique, lors des "rapprochements" entre mot à reconnaître et prototypes, élimine en partie les aléas dûs aux variations temporelles et spectrales dans des prononciations de mots.
Néanmoins, cette première méthode connue s'est avérée ne pas satisfaire pleinement toutes les attentes dans le domaine de la reconnaissance vocale.
Un nouveau principe est alors apparu et est fondé sur la méthode des modèles à chaînes de Markov cachées.
Comme décrit précédemment, chaque prononciation d'un mot fait l'objet d'une analyse cepstrale à l'issue de laquelle est établie une forme acoustique, suite de vecteurs de coefficients acoustiques. Pour un vocabulaire incluant un nombre donné de mots, chaque mot est associé à un même nombre donné de formes acoustiques. Pour chaque mot du vocabulaire à reconnaître est défini un modèle statistique unique représentant l'ensemble des formes acoustiques du mot. Une chaîne de Markov est schématiquement représentée à la figure 1. A chaque état ... E.
Ri, Ei+î ... représenté par un cercle et représentatif d'un segment vocal stable dans la figure 1, est associé une fonction de densité de probabilité définie sur l'espace des trames acoustiques. Chaque densité de probabilité peut par exemple être définie par des valeurs moyennes et écarts-types des coefficients acoustiques. La reconnaissance d'un mot donné consiste alors pour une forme acoustique inconnue, à identifier le mot dont le modèle issu de la chaîne de Markov suivant des transitions flèches données (flèches T) entre états est le plus probable. Pour chaque état, les transitions peuvent être un retour sur l'état, un transfert vers l'état suivant, et un saut de l'état suivant.
La description ci-après concerne, à titre d'exemple préféré, la reconnaissance vocale de lettres de l'alphabet. Néanmoins, l'invention peut être appliquée à des mots d'un vocabulaire ou lexique de référence plus évolué. Les termes "mots" et "vocabulaire" de la terminologie de la reconnaissance de parole sont ci-après employés dans cet exemple pour désigner respectivement les lettres de l'alphabet et l'alphabet {A à Z}.
L'inconvénient principal relatif aux deux méthodes globales de reconnaissance vocale précitées consiste en la discrimination faible de reconnaissance entre certains mots acoustiquement proches du vocabulaire de référence {A, B, C,..., Y, Z). A titre d'exemple, il peut être cité les couples de mots de référence acoustiquement proches suivants : (A, K), (P, T), et (U, Q). De même, les triplets de mots de référence (B, D, V) et (L, M, N) conduisent à des erreurs de reconnaissance de part leur proximité acoustique. Ces erreurs se traduisent par des confusions de reconnaissance au sein de chacun des sous-vocabulaires (A, K), (P, T), (U, Q), (B, D, V) et (L, M, N) cités à titre d'exemple.
Comme montré sur la figure 2, les signaux acoustiques représentatifs des mots acoustiquement proches d'un sous-vocabulaire donné, telles que les lettres B et V, ne diffèrent sensiblement l'un de l'autre que pendant un intervalle temporel court qui définit la partie discriminante relativement au sousvocabulaire. La partie discriminante peut être composée d'un intervalle de temps ou de plusieurs intervalles de temps disjoints. Une telle partie discriminante est par exemple située au niveau de la barre d'explosion et des transitions formantiques pour les lettres des sous-vocabulaires (A, K), (P,
T), et (U, Q), au niveau de la consonne finale pour les lettres (L, M, N), et à deux niveaux pour les lettres (B, D, V), savoir la barre d'explosion et les transitions formantiques pour les lettres occlusives
B et D et la consonne initiale pour les lettres labiales B et V.
Hormis dans cette partie discriminante, les signaux acoustiques sont quasi-identiques pour des mots acoustiquement proches dans un même sousvocabulaire.
L'invention est précisément basée sur cette dernière observation. En effet, les deux méthodes connues précitées, à savoir "par prototype" et "par chaîne de Markov", produisent des résultats satisfaisant à deux exigences nécessaires à la reconnaissance vocale qui sont
1. des temps de reconnaissance relativement court, et
2. des taux moyens de reconnaissance jusqu'à 80% environ.
Néanmoins, ces méthodes de reconnaissance ne sont pas parfaites et induisent un taux d'erreurs de reconnaissance parmi des mots d'un même sous vocabulaire pouvant atteindre 35 % environ.
Des outils plus puissants, les réseaux de neurones formels, utilisés par exemple dans la reconnaissance de lettres ou chiffres numérisés sous forme de pixels, existent néanmoins mais n'ont jamais été utilisés pour la reconnaissance vocale.
Ce désintérêt pour l'application des réseaux de neurones formels dans la reconnaissance vocale est principalement justifié par la longueur et la complexité des calculs et donc la durée de traitement inhérente aux réseaux de neurones.
Dans le cas où cette application des réseaux de neurones formels est limitée à une partie du signal acoustique à reconnaître, ou plus précisément à une partie discriminante de ce signal permettant de sélectionner l'un de quelques mots de référence acoustiquement proches dans un même sous-vocabulaire, elle apparaît alors particulièrement intéressante puisqu'elle est seulement mise en oeuvre pour une partie du signal acoustique, ou plus précisément pour quelques trames de vecteurs acoustiques qui en sont issues, tout en conférant des performances de reconnaissance supérieures.
La figure 3 montre un bloc-diagramme d'un système de reconnaissance vocale selon l'invention.
Le système comprend un circuit de reconnaissance vocale conventionnel 11, par exemple à base de chaînes de Markov, un circuit de détection 12, un circuit de sélection de partie discriminante 13, un analyseur cepstral 14 et un(ou des) réseau(x) neuronal(ux).
Préalablement, un mot prononcé par un locuteur devant un microphone est échantillonné en un signal entrant numérique puis décomposé en trames acoustiques TA. Ces trames acoustiques sont appliquées à la fois à une entrée du circuit de reconnaissance vocale de type connu 11 et à une entrée de trames ET du circuit de sélection de partie discriminante 13. Le circuit de reconnaissance vocale 11 effectue une reconnaissance vocale sur l'intégralité des trames du mot prononcé par comparaison avec des données (paramètres) caractérisant les mots de référence (A, ... Z} d'un vocabulaire prédéterminé pour produire un mot reconnu dans ce vocabulaire représenté par un identificateur de mot de référence reconnu IMR. Cet identificateur est par exemple un numéro codé de lettre reconnue et est appliqué à une entrée du circuit de vérification 12 de l'identificateur IMR. Le circuit 12 compare l'identificateur IMR avec des identificateurs de mots de référence acoustiquement proches de sousvocabulaires prédéterminés mémorisés, soit dans la présente réalisation : (A, K), (P, T), (U, Q), (L, M,
N) ou (B, D, V).
Si le mot reconnu indiqué par l'identificateur
IMR n'appartient pas à l'un quelconque des sousvocabulaires précités, alors l'identificateur IMR du mot reconnu est retransmis par le circuit 12 à une première sortie S1 du système de reconnaissance vocale selon l'invention.
Si la comparaison est positive dans le circuit 12, c'est-à-dire si l'identificateur de mot reconnu
IMR correspond effectivement à l'un quelconque des mots de référence des sous-vocabulaires de mots de référence acoustiquement proches (A, K), (P, Q), (U,
Q), (L, M, N) ou (B, D, V), alors une sortie de commande SC du circuit 12 délivre une adresse du sous-vocabulaire détecté ASV au circuit de sélection 13 et active celui-ci via une entrée d'activation EA.
Le circuit 12 associe également le sous-vocabulaire détecté à des coefficients synaptiques.
Le circuit de sélection de partie discriminante 13 ayant reçu et mémorisé en mémoire tampon les trames acoustiques issues du signal entrant de mot prononcé pendant leur traitement dans le circuit 11, sélectionne une portion TD desdites trames acoustiques qui est déterminée en fonction de données mémorisées qui sont lues en dépendance de l'adresse
ASV et qui définissent la localisation temporelle de la partie discriminante dans les mots du sousvocabulaire adressé par le circuit 12. Selon l'exemple montré à la figure 2, la partie discriminante des mots B et V appartenant au même sous-vocabulaire est située dans un intervalle temporel d'attaque desdits mots. A la sortie du circuit de sélection 13, des trames acoustiques discriminantes TD sont ainsi produites.
Une analyse cepstrale est effectuée sur les trames TD par l'analyseur 14 afin de déconvoluer celles-ci par traitement numérique en des trames filtrées TF appliquées à une entrée du moyen à réseau neuronal 15. L'analyseur 14 produit par filtrage temporel, transformation de Fourrier et transformée inverse des coefficients cepstraux CC1 - CCN représentatifs des trames filtrées. Lors de la sélection des trames TD, ou lors d'une phase initiale d'apprentissage, la sortie de commande SC du circuit de détection commande le chargement de coefficients synaptiques associés au sous-vocabulaire détecté, destinés au fonctionnement du(ou des) réseau(x) de neurones formels, via une entrée de commande EC de ceux-ci, comme il sera vu par la suite. Le réseau de neurones formels traitant les trames discriminantes filtrées produit un identificateur représentatif du mot reconnu parmi les mots de référence dans le sousvocabulaire détecté, via une seconde sortie S2 du système de reconnaissance vocale.
En référence aux figures 4, 5, 6 et 7 est maintenant décrit le fonctionnement du moyen à réseau neuronal 15.
Un modèle très général de représentation d'un réseau de neurones formels est montré à la figure 4 un certain nombre d'unités élémentaires .... N.
(Si-l)t Ni (Si), Ni+1 (Si+l) .... constitue les noeuds du réseau. Chaque neurone Ni est excité par un "potentiel" défini par l'équation
Figure img00120001
dans laquelle Sj représente un niveau de sortie d'un neurone Nj "connecté" au neurone Ni et Wji désigne un coefficient synaptique de la connexion entre les neurones Nj et Ni. Au potentiel Vi est associé le niveau de sortie Si correspondant du neurone Ni défini par la relation
Si (t + st) = f (Vi (t)),
dans laquelle f est une fonction non linéaire.
Par analogie avec la "structure" du cerveau humain, ces neurones ne sont pas organisés de façon anarchique mais sont regroupés par couches sous forme de "colonnes", des connexions entre deux couches adjacentes étant affectées à une fonction particulière, comme montré dans la figure 5. Cette figure représente N couches de neurones superposées comprenant deux couches extrêmes COUCHE 1 et COUCHE N et (N-2) couches cachées COUCHE 2 à COUCHE (N-l) comprises entre les deux couches extrêmes. La couche extrême 1 est communément dénommée "rétine" ou "couche d'entrée" et reçoit, selon l'invention, un vecteur d'entrée constitué par des coefficients cepstraux tandis que la couche extrême COUCHE N, dite couche de sortie, produit un vecteur de sortie qui selon l'invention, identifie un mot de référence d'un sous-vocabulaire. Dans cette représentation, chaque neurone d'une couche donnée n est connecté à chacun des neurones de la couche supérieure (n+l) immédiatement adjacente, l'entier n étant compris entre 1 et (N-1). Comme précisé, en référence à la figure 4, à chacune de ces connexions est attribué un coefficient synaptique respectif W.
A titre indicatif, ces coefficients synaptiques pour des réalisations particulières sont obtenus par un algorithme dit de rétropropagation du gradient.
Ces coefficients synaptiques sont différents en fonction des sous-vocabulaires.
Comme montré à la figure 6, toutes les connexions affectées à des coefficients synaptiques respectifs entre deux couches adjacentes respectivement de J et J' neurones sont entièrement définies par une unique matrice rectangulaire de dimension (J X J'). Chaque coefficient Wjj, de la matrice rectangulaire, j étant compris entre 1 et J et j' entre 1 et J', correspond à la valeur d'un coefficient synaptique de la connexion entre un neurone de rang j et un neurone de rang j' de deux couches adjacentes respectivement.
En pratique, les réseaux de neurones peuvent être réalisés à base de processeurs connectés en parallèle à la sortie de l'analyseur 14 et activés individuellement par les adresses ASV formées par le circuit 12, chaque processeur contenant initialement les coefficients synaptiques relatifs au sousvocabulaire préalablement à toute reconnaissance de mot prononcé. Une autre variante consiste à n'utiliser qu'un seul processeur qui est programmé en fonction des suites de coefficients synaptiques formées par le circuit 12 respectivement en réponse aux sous-vocabulaires détectés.
En référence aux figures 3 et 7, il est maintenant décrit plus précisément le fonctionnement des réseaux de neurones formels 15.
Comme il a été vu précédemment, lorsque l'identificateur IMR identifie un mot reconnu appartenant à l'un des sous-vocabulaires de mots acoustiquement proches, le circuit de sélection de la partie discriminante 13 est activé. Ce dernier sélectionne dans l'ensemble des trames relatives au mot prononcé, des trames dites discriminantes TD relativement au sous-vocabulaire auquel appartient le mot reconnu. Après analyse cepstrale de ces trames (déconvolution homomorphique), des coefficients cepstraux sont produits par l'analyseur 14. Le moyen à réseau de neurones formels 15, sélectionné ou programmé par le circuit 12, du type de celui présenté à la figure 5 comprend une couche d'entrée de N neurones, N étant égal au nombre de coefficients cepstraux CC1 et CCN représentatifs des trames filtrées et constituant un vecteur d'entrée ou une matrice unicolonne. Comme montré sur la figure 3, la liaison établie entre la sortie de commande SC du circuit de détection 12 et l'entrée de commande EC du moyen à réseau neuronal permet à ce dernier d'être configuré par sélection d'un processeur selon la première variante précitée, ou par programmation de l'unique processeur selon la seconde variante en fonction précisément de l'appartenance du mot reconnu à l'un quelconque des sous-vocabulaires détecté par le circuit 12, et cela par chargement de coefficients synaptiques respectifs.
En référence à la figure 7, lorsque le moyen a réseau neuronal est configuré en fonction de cette appartenance du mot reconnu à un sous-vocabulaire, les coefficients cepstraux sont associés respectivement à des entrées des neurones de la couche d'entrée. Selon une réalisation préférée, le réseau comprend une couche d'entrée à autant de neurones que de coefficients cepstraux, une couche cachée à six neurones, et une couche de sortie à autant de neurones que de mots (lettres) dans le sous-vocabulaire concerné. Chaque couche est équivalente à une "matrice rectangulaire" de coefficients synaptiques. Ainsi, le nombre de coefficients synaptiques NCS nécessaire à cette reconnaissance par réseau de neurones formels est égal pour un sous-vocabulaire donné à
NCS = (nombre de coefficients cepstraux) x 6 x (nombre de mots dans le sous-vocabulaire).
Comme montré à la figure 7, le traitement de coefficients converge vers un vecteur sortant de la couche de sortie qui identifie le mot reconnu par une sortie d'un neurone positionnée à "1" alors que les autres neurones sont positionnés à "O", le vecteur sortant résultant des diverses multiplications matricielles et application d'une fonction non linéaire aux sorties des neurones de chaque couche.
Le vecteur sortant de la couche de sortie est ainsi une matrice unicolonne comprenant un unique "1" dont la position est détectée par un codeur 151 afin de produire l'identificateur du mot reconnu dans le sous-vocabulaire à la sortie S2 du système.
A titre indicatif, le tableau suivant montre des résultats comparatifs ainsi que l'intérêt de l'implantation d'un réseau de neurones formels dans un système de reconnaissance multilocuteur, typiquement 26 locuteurs.
TAUX DE RECONNAISSANCE
Figure img00160001
<tb> SWS-VOCABULAIRE <SEP> METHODES <SEP> CONVENTIONNELLE <SEP> INVENTION
<tb> <SEP> (RESEAU <SEP> DE <SEP> NEURONES <SEP> FORMELS)
<tb> <SEP> P,T <SEP> 80 <SEP> % <SEP> 98 <SEP> %
<tb> <SEP> V,Q <SEP> 97 <SEP> % <SEP> 99 <SEP> %
<tb> <SEP> A,K <SEP> 93 <SEP> % <SEP> 99 <SEP> X <SEP>
<tb> <SEP> B,D,V <SEP> 75 <SEP> % <SEP> 91 <SEP> %
<tb> <SEP> L,M,V <SEP> 62 <SEP> % <SEP> 93 <SEP> X <SEP>
<tb> MOYENNE <SEP> 79 <SEP> X <SEP> 95 <SEP> X <SEP>
<tb>
Dans le cadre de l'invention, l'homme du métier peut compléter l'architecture de base essentiellement à processeurs décrite ci-dessus par des
- algorithmes spécifiques de sélection de trames discriminantes pour un sous-vocabulaire donné;
- l'utilisation de réseaux de neurones pour des vocabulaires plus complexes et élaborés (chiffres, mots isolés, groupes de mots enchaînés.) que les lettres de l'alphabet.

Claims (4)

REVENDICATIONS
1. Procédé de reconnaissance vocale d'un mot prononcé (TA) selon lequel l'intégralité dudit mot prononcé est d'abord reconnue par comparaison avec des mots de référence d'un vocabulaire (A, ... Z) pour produire un mot reconnu (IMR), caractérisé en ce qu'il comprend en outre
- détection de l'un de sous-vocabulaires prédéterminés de mots de référence ((A, K), (P, T), (U, Q), (B, D, V), (L, M, N)) auquel est susceptible d'appartenir le mot reconnu (IMR), chacun des sousvocabulaires comprenant des mots de référence acoustiquement proches ayant une partie temporelle discriminante et définissant un ensemble de coefficients synaptiques (... (W11 - WJJ)...), et
- lorsque l'un desdits sous-vocabulaires est détecté
1) sélection d'une portion (TD) dans le mot prononcé (TA) en fonction de la localisation temporelle d'une partie discriminante dans les mots de référence dudit sous-vocabulaire détecté,
2) analyse cepstrale de la portion sélectionnée (TD) du mot prononcé (TA) afin d'établir une matrice unicolonne de coefficients cepstraux (CC1 - CCN), et
- multiplication matricielle de ladite matrice de coefficients cepstraux par un ensemble de matrices de coefficients synaptiques pour produire un ensemble de sorties respectives auxquelles sont appliquées une fonction non-linéaire afin de produire une matrice unicolonne identifiant l'un des mots de référence dans ledit sous-vocabulaire détecté correspondant audit mot prononcé.
2. Système de reconnaissance vocale de mot prononcé pour la mise en oeuvre du procédé conforme à la revendication 1, comprenant
- des moyens (11) pour reconnaître l'intégralité d'un signal acoustique numérisé (TA) représentatif dudit mot prononcé comparativement à des données caractérisant des mots de référence d'un vocabulaire (A, ... Z) afin de produire un identificateur (IMR) d'un mot de référence reconnu correspondant au mot prononcé,
- des moyens (12) pour comparer l'identificateur de mot reconnu avec des identificateurs de mots de référence de sous-vocabulaires ((A, K), (P, T), (U,
Q), (B, D, V), (L, M, N)) dudit vocabulaire afin de respectivement produire une adresse (ASV) d'un sousvocabulaire détecté lorsque l'identificateur de mot reconnu appartient au sous-vocabulaire détecté et des coefficients synaptiques (... (W1l - W;;,)...) associés audit vocabulaire détecté, et retransmettre l'identificateur de mot reconnu (S1) lorsque celui-ci n'appartient à aucun desdits sous-vocabulaires,
- des moyens (13) pour sélectionner une portion (TD) dans le signal acoustique numérisé (TA) en fonction de la localisation temporelle d'une partie discriminante dans les mots de référence du sousvocabulaire détecté en réponse à l'adresse dudit sous-vocabulaire détecté,
- des moyens d'analyse cepstrale (14) pour transformer ladite portion sélectionnée (TD) du signal acoustique numérisé (TA) en des coefficients cepstraux (CC1 - CCN), et
- des moyens à réseau neuronal (15) traitant les coefficients cepstraux en dépendance des coefficients synaptiques associés audit sous-vocabulaire détecté et de ladite fonction non-linéaire afin que le traitement converge vers l'identificateur (S2) de l'un des mots de référence dans ledit sousvocabulaire détecté correspondant audit mot prononcé.
3. Système conforme à la revendication 2, dans lequel les moyens à réseau neuronal (15) comprennent en parallèle autant de processeurs que de sousvocabulaires, chacun des processeurs mémorisant les coefficients synaptiques associés à l'un respectif des sous-vocabulaires préalablement à toute reconnaissance de mot prononcé et étant adressé par lesdits moyens pour comparer (12) chaque fois que ledit sous-vocabulaire respectif est détecté.
4. Système conforme à la revendication 2, dans lequel les moyens à réseau neuronal (15) comprennent un unique processeur programmé respectivement en fonction des coefficients synaptiques associés audit sous-vocabulaire détecté.
FR9203743A 1992-03-27 1992-03-27 Procédé et système de reconnaissance vocale à réseau neuronal. Pending FR2689292A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR9203743A FR2689292A1 (fr) 1992-03-27 1992-03-27 Procédé et système de reconnaissance vocale à réseau neuronal.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9203743A FR2689292A1 (fr) 1992-03-27 1992-03-27 Procédé et système de reconnaissance vocale à réseau neuronal.

Publications (1)

Publication Number Publication Date
FR2689292A1 true FR2689292A1 (fr) 1993-10-01

Family

ID=9428176

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9203743A Pending FR2689292A1 (fr) 1992-03-27 1992-03-27 Procédé et système de reconnaissance vocale à réseau neuronal.

Country Status (1)

Country Link
FR (1) FR2689292A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19581663T1 (de) * 1994-06-03 1997-05-07 Motorola Inc Verfahren zum Training neuraler Netze, die für eine Spracherkennung verwendet werden
DE19581667T1 (de) * 1994-06-06 1997-05-07 Motorola Inc Spracherkennungssystem das neurale Netze verwendet und Verfahren zur Verwendung desselben

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4715004A (en) * 1983-05-23 1987-12-22 Matsushita Electric Industrial Co., Ltd. Pattern recognition system
EP0435282A2 (fr) * 1989-12-28 1991-07-03 Sharp Kabushiki Kaisha Dispositif de reconnaissance de la parole
US5040215A (en) * 1988-09-07 1991-08-13 Hitachi, Ltd. Speech recognition apparatus using neural network and fuzzy logic

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4715004A (en) * 1983-05-23 1987-12-22 Matsushita Electric Industrial Co., Ltd. Pattern recognition system
US5040215A (en) * 1988-09-07 1991-08-13 Hitachi, Ltd. Speech recognition apparatus using neural network and fuzzy logic
EP0435282A2 (fr) * 1989-12-28 1991-07-03 Sharp Kabushiki Kaisha Dispositif de reconnaissance de la parole

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ICASSP'81 (IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Atlanta, Georgia, 30 mars - 1 avril 1981), vol. 1, pages 724-727, IEEE, New York, US; L.R. RABINER et al.: "Isolated word recognition using a two-pass pattern recognition approach" *
ICASSP'84 (IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, San Diego, California, 19-21 mars 1984), vol. 2, pages 26.9.1 - 26.9.4, IEEE, New York, US; K. SHIRAI et al.: "Phrase speech recognition of large vocabulary using feature in articulatory domain" *
ICASSP'86 (IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Tokyo, 7-11 avril 1986), vol. 4, pages 2687-2690, IEEE, New York, US; T. NOMURA et al.: "Speaker-independent isolated word recognition for telephone voice using phoneme-like templates" *
ICASSP'87 (1987 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Dallas, Texas, 6-9 avril 1987), vol. 2, pages 709-712, IEEE, New York, US; E.A. MARTIN et al.: "Two-stage discriminant analysis for improved isolated-word recognition" *
ICASSP'90 (1990 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Albuquerque, New Mexico, 3-6 avril 1990), vol. 1, pages 41-44, IEEE, New York, US; J.-C. JUNQUA: "Orion: a two pass hybrid system for isolated-words automatic speech recognition" *
ICASSP'91 (1991 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Toronto, Ontario, 14-17 mai 1991), vol. 1, pages 85-88, IEEE, New York, US; M. NAKAMURA et al.: "Phoneme recognition by phoneme filter neural networks" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19581663T1 (de) * 1994-06-03 1997-05-07 Motorola Inc Verfahren zum Training neuraler Netze, die für eine Spracherkennung verwendet werden
DE19581667T1 (de) * 1994-06-06 1997-05-07 Motorola Inc Spracherkennungssystem das neurale Netze verwendet und Verfahren zur Verwendung desselben
DE19581667C2 (de) * 1994-06-06 1999-03-11 Motorola Inc Spracherkennungssystem und Verfahren zur Spracherkennung

Similar Documents

Publication Publication Date Title
CN110246490B (zh) 语音关键词检测方法及相关装置
CA1324670C (fr) Procede et dispositif de synthese de la parole par addition-recouvrement de formes d&#39;onde
EP0867856A1 (fr) &#34;Méthode et dispositif de detection d&#39;activité vocale&#34;
KR20010102549A (ko) 화자 인식 방법 및 장치
WO2009071795A1 (fr) Systeme d&#39;interpretation simultanee automatique
CA2404441C (fr) Parametres robustes pour la reconnaissance de parole bruitee
JP2019200671A (ja) 学習装置、学習方法、プログラム、データ生成方法及び識別装置
Wu et al. Multi-modal hybrid deep neural network for speech enhancement
CA2340028C (fr) Reseau neuronal et son application pour la reconnaissance vocale
Thukroo et al. Spoken language identification system for kashmiri and related languages using mel-spectrograms and deep learning approach
WO2004029934A1 (fr) Procede de reconnaissance vocale avec correction automatique
EP0905678A1 (fr) Procédé d&#39;apprentissage dans un système de reconnaissance de parole
FR2689292A1 (fr) Procédé et système de reconnaissance vocale à réseau neuronal.
Hartmann et al. Alternative networks for monolingual bottleneck features
Berdibayeva et al. Features of Speech Commands Recognition Using an Artificial Neural Network
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
FR2642882A1 (fr) Appareil de traitement de la parole
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning
Vuong Incorporating Modulation Information into Deep Neural Networks for Robust Speech Processing
CN117542378A (zh) 语音情绪识别方法、装置、电子设备及存储介质
Ibrahim et al. North Atlantic Right Whales Up-call Detection Using Multimodel Deep Learning
JP6734233B2 (ja) 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム
FR2751776A1 (fr) Procede d&#39;extraction de la frequence fondamentale d&#39;un signal de parole
EP0428449A2 (fr) Procédé de reconnaissance de formes, notamment de reconnaissance vocale multilocuteur du langage naturel et dispositif pour la mise en oeuvre de ce procédé
Xiong et al. Aligning speech enhancement for improving downstream classification performance