FR2645999A1 - Procede de reconnaissance de la parole - Google Patents

Procede de reconnaissance de la parole Download PDF

Info

Publication number
FR2645999A1
FR2645999A1 FR9004783A FR9004783A FR2645999A1 FR 2645999 A1 FR2645999 A1 FR 2645999A1 FR 9004783 A FR9004783 A FR 9004783A FR 9004783 A FR9004783 A FR 9004783A FR 2645999 A1 FR2645999 A1 FR 2645999A1
Authority
FR
France
Prior art keywords
analysis
indication
words
word
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9004783A
Other languages
English (en)
Other versions
FR2645999B1 (fr
Inventor
Ian Bickerton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smiths Group PLC
Original Assignee
Smiths Group PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smiths Group PLC filed Critical Smiths Group PLC
Publication of FR2645999A1 publication Critical patent/FR2645999A1/fr
Application granted granted Critical
Publication of FR2645999B1 publication Critical patent/FR2645999B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

L'invention concerne un procédé de reconnaissance de la parole qui permet d'identifier des mots prononcés dans des conditions bruyantes. Un signal vocal est soumis à une première analyse au moyen d'un modèle semi-Markov caché et d'un algorithme asymétrique de distorsion de temps. Une seconde analyse est effectuée à l'aide d'un perceptron multicouche en combinaison avec un réseau neuronal. La première analyse est utilisée par la seconde pour identifier les limites entre les mots. Quand la première analyse fournit une indication du mot au-dessus d'un certain niveau de fiabilité, une sortie représentant le mot peut être délivrée sur la base de la première analyse uniquement, la seconde analyse étant employée seulement quand le niveau de fiabilité est trop bas. Application à la commande vocale d'appareils, notamment dans des aéronefs.

Description

PROCEDE DE RECONNAISSANCE DE LA PAROLE
La présente invention concerne un procédé de reconnaissance de la parole dans lequel on effectue une première analyse d'un signal dit vocal, représentatif de la parole, de manière à identifier des limites entre différents mots et à délivrer une première indication des mots prononcés par comparaison avec un vocabulaire mémorisé. Dans un appareil complexe ayant des fonctions multiples, il peut être
utile de pouvoir commander cet appareil par des commandes vocales.
Cela peut aussi être utile quand les mains de l'utilisateur sont occupées à d'autres tâches ou quand l'utilisateur est empêché ou incapable d'utiliser ses mains pour actionner des manettes ou boutons mécaniques classiques. Le problème des appareils à commande vocale est que la reconnaissance de la parole peut être peu fiable, spécialement quand la voix de celui qui parle est altérée par les conditions de l'environnement, par exemple des vibrations. Ceci peut conduire à un non-fonctionnement ou, pire encore,
à un fonctionnement incorrect.
Diverses techniques sont utilisées pour la reconnaissance de la parole.
Une technique emploie des modèles de Markov, qui sont utiles parce qu'ils permettent facilement d'identifier les limites entre les mots dans le discours continu. Dans un environnement bruyant ou lorsque la parole est dégradée par le stress de la personne qui parle, les techniques utilisant les modèles-de Markov ne peuvent pas fournir une identification suffisamment fiable des mots prononcés. On a fait récemment des efforts considérables pour améliorer les performances de ces techniques par compensation de bruits, sélection de syntaxe et diverses autres méthodes. D'autres techniques proposées pour la reconnaissance de la parole
utilisent des réseaux neuronaux. Ces techniques sont capables d'identi-
fier des mots isolés avec une grande précision, même quand la parole est 2- fortement dégradée. Toutefois, elles ne sont pas appropriées pour la reconnaissance du discours continu, car elles ne sont pas capables
d'identifier exactement les limites entre les mots.
La présente invention a pour but de fournir un procédé perfectionné de
reconnaissance de la parole.
Pour ce faire, l'invention concerne un procédé du type indiqué en
préambule, caractérisé en ce que l'on effectue une seconde analyse du-
signal vocal en utilisant une technique à réseau neuronal et l'identi-
fication des limites de mots résultant de la première analyse, pour délivrer une seconde indication des mots prononcés, et l'on délivre un signal de sortie représentatif des mots prononcés, ce signal étant basé au
moins sur la seconde indication.
La première analyse peut être effectuée au moyen d'un modèle de Markov. Le vocabulaire peut contenir des modèles de distorsion de temps dynamique, la première analyse pouvant être effectuée au moyen
d'un algorithme asymétrique de distorsion de temps dynamique.
Dans une forme de réalisation préférée, la première analyse est effectuée au moyen de plusieurs algorithmes différents, chaque algorithme fournit un signal indiquant le mot du vocabulaire mémorisé qui est le plus proche du signal vocal, ainsi qu'une indication de fiabilité de concordance entre le mot ainsi indiqué et le mot prononcé, et une comparaison est effectuée entre les signaux fournis par les différents algorithmes. Au cas o la première indication des mots prononcés est délivrée avec une valeur de fiabilité, le signal de sortie peut être délivré en réponse à la première indication seulement si la valeur de fiabilité
est supérieure à une valeur prédéterminée.
La seconde analyse peut être effectuée au rmoyen d'une technique de
perceptron multicouche en liaison avec un réseau neuronal.
Le signal de sortie peut être utilisé pour fournir une indication en
rétroaction à celui qui a prononcé les mots.
3- On traite le signal vocal au moyen d'un algorithme de reconnaissance de bruit et on effectue une restriction syntaxique sur le vocabulaire
mémorisé en fonction de la syntaxe de mots identifiés auparavant.
On décrira ci-dessous, à titre d'exemple, une forme de réalisation d'un appareil de reconnaissance de la parole appliquant le procédé selon la présente invention, en référence au dessin annexé dont la figure unique
représente un schéma-bloc de l'appareil.
L'appareil de reconnaissance de la parole est indiqué globalement par la référence 1. Il reçoit des signaux vocaux d'entrée provenant d'un microphone 2 qui peut, par exemple, être monté dans le masque respiratoire d'un pilote d'avion ou d'hélicoptère. Des signaux de sortie représentant des mots identifiés sont délivrés par l'appareil I à un dispositif de rétroaction 3 et à un dispositif d'utilisation 4. Le dispositif de rétroaction 3 peut être un affichage visuel ou un dispositif audible, destiné à communiquer à celui qui parle les mots ayant été identifiés par l'appareil 1. Le dispositif d'utilisation 4 peut être agencé pour commander une fonction de l'équipement de l'aéronef en réponse à une commande vocale reconnue par le dispositif d'utilisation dans les signaux
de sortie de l'appareil.
Les signaux provenant du microphone 2 sont transmis à un préamplifi-
cateur 10 comportant un étage de précorrection 1 1 qui produit un spectre vocal plat en moyenne à long terme, afin d'assurer que toutes les sorties des canaux de fréquence occupent une gamme dynamique similaire, la caractéristique étant nominalement plate jusqu'à 1 kHz. Un commutateur 12 peut être actionné pour donner à choix un gain de 3 ou de 6dB/octave dans les fréquences élevées. Le préamplificateur 10 comporte aussi un filtre anti-distorsion 21 sous la forme d'un filtre passe-bas Butterworth du huitième ordre, dont la fréquence de coupure à
-3dB est placée à 4kHz.
Le signal de sortie du préamplificateur 10 est transmis, à travers un convertisseur analogique/numérique 13, à un banc de filtrage numérique -414. Le banc de filtrage 14 comporte dix-neuf canaux réalisés par un logiciel assembleur dans un microprocesseur TMS3201 et il est basé sur le "JSRU Channel Vocoder"l décrit par Holmes, I.N dans IEE proc., vol 127, Pt.F, N 1, Fev. 1980. Le banc de filtrage 14 a des largeurs de canaux inégales, correspondant approximativement aux bandes critiques de la perception auditive dans la gamme de 250 à 4000 Hz. Les réponses de canaux adjacents se croisent approximativement à 3dB en dessous de leur crête. Au centre d'un canal, l'atténuation d'un canal voisin est
d'environ I ldB.
Les signaux sortant du banc de filtrage 14 sont délivrés à une unité 15 d'intégration et de reconnaissance de bruit, qui met en oeuvre un algorithme de reconnaissance de bruit du type décrit par 3.S. Bridle et al. dans "Noise compensating spectrum distance measure applied to
automatic speech recognition. Proc. Inst. Acoust. Windemere, Nov. 1984".
Des techniques adaptativesde suppression de bruit peuvent être mises en oeuvre par l'unité 15 pour réduire le bruit périodique, ce qui peut servir
à réduire par exemple le bruit périodique d'un hélicoptère.
La sortie de l'unité 15 est transmise à une unité 16 de comparaison de
motifs, qui accomplit les divers algorithmes de comparaison de motifs.
L'unité 16 est raccordée à une mémoire de vocabulaire 17 qui contient des motifs de distorsion de temps dynamique {Dynamic Time Warping) appelés cidessous motifs DTW, et des modèles de Markov de chaque mot
du vocabulaire concerné.
Les motifs DTW sont créés au nioyen de techniques monopasses, de techniques à processus de répétition aligné dans le temps (time-aligned
averaging) ou de techniques d'apprentissage intégré (embedded training).
Les motifs représentent la fréquence par rapport au temps et à l'énergie spectrale. Les modèles de Markov sont créés durant l'apprentissage de l'appareil, à partir de nombreuses prononciations du même mot, la variation spectrale et temporelle étant captée au moyen d'un modèle stochastique. Le modèle de Markov est constitué par un certain nombre d'états distincts, - 5 - chaque état comprenant une paire de cadres concernant le spectre et la variance. Le cadre spectral contient dix-neuf valeurs couvrant la gamme de fréquence de 120 Hz à 4kHz; le cadre de variance contient les informations représentant la variance en combinaison avec chaque caractéristique ou vecteur spectral, sous la forme d'une durée moyenne
d'état et d'un écart type.
Les diverses prononciations faites durant l'apprentissage sont analysées afin de classer des états phonétiques stationnaires et leurs transitions spectrales. Les paramètres du modèle sont estimés par un procédé itératif utilisant ltalgorithme de réestimation Viterbi tel que décrit par M.J. Russel et R.H. Moore dans "Explicit modelling of state occupancy in hidden Markov Models for automatic speech recognition", Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Tampa, 26 - 29 mars 1985. Le modèle final du mot englobe la variabilité naturelle du mot prononcé, aussi bien sur le plan temporel qu'au point de vue de l'inflexion. Entre la mémoire 17 et l'unité de comparaison de motif 16, il est prévu une unité de syntaxe 18 qui effectue de manière classique une restriction de syntaxe sur le vocabulaire stocké avec lequel le signal vocal est
comparé, en fonction de la syntaxe de mots précédemment identifiés.
L'unité 16 de comparaison de motifs est également raccordée à une unité 20 à réseau neuronal. L'unité 20 contient un perceptron multicouche (appelé ci-dessous le MLP) tel que décrit par S.M. Peeling et R.H. Moore dans "Experiments in isolated digit recognition using the
multi-layer perceptron", RSRE Memorandum N 4073, 1987.
Le MLP a la propriété de pouvoir reconnaître des motifs incomplets, tels qu'ils peuvent se présenter quand un fort bruit de fond masque une élocution fricative à faible énergie. Le MLP est mis en oeuvre de la manière décrite par D.E. Rumelhart et al. dans "Learning internai representations by error back propagation", Institute for Cognitive
Science, USCD, ICS Report 8506, septembre 1985.
- 6- L'unité 16 de comparaison de motifs utilise trois algorithmes différents, en vue de choisir la meilleure concordance entre le mot prononcé et les
mots du vocabulaire.
Un premier algorithme est un algorithme asymétrique DTW, du type décrit par 3.S. Bridle dans "Stochastic models and template matching: some important relationships between two apparently different techniques for automatic speech recognition", Proc. Inst. of Acoustics, Windemere, Nov. 1984 et par 3.S. Bridle et al. dans "Continuous connected word recognition using whole word templates", The Radio and Electronic Engineer, Vol. 53, N 4, avril 1983. C'est un procédé monopasse efficace qui convient particulièrement pour la reconnaissance de parole en temps réel. L'algorithme fonctionne bien en combinaison
avec les techniques de compensation de bruit appliquées dans l'unité 15.
Un second algorithme utilise des techniques à modèles semi-Markov cachés (appelés ci-dessous HSMM), dans lesquelles les modèles de Markov contenus dans la mémoire de vocabulaire 17 sont comparés aux signaux représentant le mot prononcé. L'information additionnelle contenu dans les modèles' de Markov quant à la variation temporelle et d'inflexion dans les mots prononcés augmente l'efficacité de la reconnaissance durant la comparaison des motifs. En pratique, les algorithmes DTW et HSMM sont intégrés l'un dans l'autre. Les techniques intégrées DTW et HSMM sont capables d'identifier les limites entre les mots adjacents dans
l'élocution continue.
Le troisième algorithme emploie la technique du perceptron multicouche (MLP) en combinaison avec le réseau neuronal 20. Le MLP est contrôlé par l'algorithme DTW/HSMM; il possède une fenêtre variable de vue sur un tampon (non représenté) de signaux vocaux à l'intérieur de l'unité 16, la taille et la position de cette fenêtre étant déterminées par l'algorithme DTW/HSMM. De cette manière, l'algorithme HSMM est utilisé par le MLP pour identifier les limites ou extrémités des mots, puis les segments temporels de spectre, c'est-à-dire les mots supposés, peuvent alors être traités par le MLP. Chaque algorithme délivre un signal indiquant ses conclusions relatives au signal vocal, par exemple en - 7- indiquant le mot du vocabulaire mémorisé que l'algorithme identifie comme le plus proche du mot prononcé, en même temps qu'une valeur de fiabilité. Chaque algorithme peut produire une liste de plusieurs mots avec leurs valeurs de fiabilité respectives. Un logiciel de niveau supérieur, contenu dans l'unité 16, compare les résultats indépendants obtenus par chaque algorithme et délivre des signaux de sortie au dispositif de rétroaction 3 et au dispositif d'utilisation 4 sur la base de
ces résultats, après une pondération quelconque.
De cette manière, l'appareil mettant en oeuvre.l'invention permet d'employer des techniques à réseau neuronal pour la reconnaissance de la parole naturelle continue, ce qui n'était pas possible auparavant. La présente invention a notamment l'avantage de donner un faible temps de réponse et de fournir rapidement une rétroaction à celui qui parle, ce qui
est particulièrement important pour les applications dans les aéronefs.
Il faut remarquer que l'on peut utiliser d'autres algorithmes, étant donné qu'il suffit de prévoir au moins un algorithme capable d'identifier les limites des mots, pour l'employer en combinaison avec un second
algorithme utilisant des techniques à réseau neuronal.
L'algorithme à réseau neuronal n'a pas besoin d'être utilisé pour chaque mot. Certaines formes de réalisation de l'appareil peuvent être agencées de façon que l'algorithme de Markov fournisse les signaux de sortie à lui seul aussi longtemps que la valeur de fiabilité reste au-dessus d'un certain niveau. Quand un mot difficile est prononcé, ou prononcé indistinctement ou sur un fort bruit de fond, la valeur de fiabilité diminuera et l'appareil appliquera l'algorithme à réseau neuronal pour
aboutir à une conclusion indépendante.
On remarquera que les fonctions accomplies par les unités décrites cidessus pourraient être accomplies par programmation d'un ou plusieurs ordinateurs et n'ont pas besoin d'être exécutées par les unités distinctes
mentionnées ci-dessus.
Un tel appareil peut être utilisé dans de nombreuses applications, mais il est spécialement approprié à une utilisation dans des conditions très bruyantes telles que celles de la commande de machines et de véhicules,
en particulier d'aéronefs à voilure fixe ou à voilure tournante.
-9-

Claims (10)

Revendications
1. Procédé de reconnaissance de la parole dans lequel on effectue une première analyse d'un signal dit vocal, représentatif de la parole, de manière à identifier des limites entre différents mots et à délivrer une première indication des mots prononcés par comparaison avec un vocabulaire mémorisé, caractérisé en ce que l'on effectue une seconde analyse du signal vocal en utilisant une technique à réseau neuronal et l'identification des limites de mots résultants de la première analyse, pour délivrer une seconde indication des mots prononcés, et l'on délivre un signal de sortie représentatif des mots prononcés, ce signal étant basé
au moins sur la seconde indication.
2. Procédé selon la revendication 1, caractérisé en ce que la première
analyse est effectuée au moyen d'un modèle de Markov.
3. Procédé selon la revendication I ou 2, caractérisé en ce que ledit
vocabulaire contient des motifs de distorsion de temps dynamique.
4. Procédé selon la revendication 3, caractérisé en ce que la première analyse est effectuée au moyen d'un algorithme asymétrique de
distorsion de temps dynamique.
5. Procédé selon la revendication 1, caractérisé en ce que la première analyse est effectuée au moyen de plusieurs algorithmes différents, en ce que chaque algorithme fournit un signal indiquant le mot du vocabulaire mémorisé qui est le plus proche du signal vocal, ainsi qu'une indication de fiabilité de concordance entre le mot ainsi indiqué et le mot prononcé, et en ce qu'une comparaison est effectuée entre les
signaux fournis par les différents algorithmes.
6. Procédé selon la revendication 1, caractérisé en ce que la première indication des mots prononcés est délivrée avec une valeur de fiabilité, et en ce que le signal de sortie est délivré en réponse à la première indication seulement si la valeur de fiabilité est supérieure à une valeur
- 10 -
prédéterminée.
7. Procédé selon la revendication 1, caractérisé en ce que la seconde analyse est effectuée au moyen d'une technique de perceptron multicouche en liaison avec un réseau neuronal.
8. Procédé selon la revendication 1, caractérisé en ce que le signal de sortie est utilisé pour fournir une indication en rétroaction à celui qui a
prononcé les mots.
9. Procédé selon la revendication 1, caractérisé en ce qu'on traite le
signal vocal au moyen d'un algorithme de reconnaissance de bruit.
10. Procédé selon la revendication 1, caractérisé en ce qu'on effectue une restriction syntaxique sur le vocabulaire mémorisé en fonction de la
syntaxe de mots identifiés auparavant.
FR9004783A 1989-04-12 1990-04-09 Procede de reconnaissance de la parole Expired - Lifetime FR2645999B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB898908205A GB8908205D0 (en) 1989-04-12 1989-04-12 Speech recognition apparatus and methods

Publications (2)

Publication Number Publication Date
FR2645999A1 true FR2645999A1 (fr) 1990-10-19
FR2645999B1 FR2645999B1 (fr) 1993-05-14

Family

ID=10654850

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9004783A Expired - Lifetime FR2645999B1 (fr) 1989-04-12 1990-04-09 Procede de reconnaissance de la parole

Country Status (4)

Country Link
JP (2) JPH02298998A (fr)
DE (1) DE4010028C2 (fr)
FR (1) FR2645999B1 (fr)
GB (2) GB8908205D0 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
DE4120308A1 (de) * 1991-06-20 1992-12-24 Standard Elektrik Lorenz Ag Einrichtung und verfahren zum erkennen von sprache
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
KR100202425B1 (ko) * 1992-08-27 1999-06-15 정호선 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6182038B1 (en) * 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0237934A1 (fr) * 1986-03-19 1987-09-23 Kabushiki Kaisha Toshiba Système pour la reconnaissance de la parole

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5529803A (en) * 1978-07-18 1980-03-03 Nippon Electric Co Continuous voice discriminating device
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
DE3786822T2 (de) * 1986-04-25 1994-01-13 Texas Instruments Inc Spracherkennungssystem.
EP0285352B1 (fr) * 1987-04-03 1995-03-15 AT&T Corp. Calcul neuronique par concentration temporelle

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0237934A1 (fr) * 1986-03-19 1987-09-23 Kabushiki Kaisha Toshiba Système pour la reconnaissance de la parole

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
COMPUTER SPEECH AND LANGUAGE. vol. 2, 1987, LONDON GB pages 321 - 341; WILPON, J.; RABINER, L.: 'Appli *
IBM TECHNICAL DISCLOSURE BULLETIN. vol. 29, no. 4, Septembre 1986, NEW YORK US pages 1686 - 1688; 'Isolated word re *
PROCEEDINGS OF THE INSTITUTE OF ACOUSTICS vol. 6, no. 4, Novembre 1984, pages 307 - 314; BRIDLE, J. ET AL: 'A noise *
RADIO AND ELECTRONIC ENGINEER. vol. 53, no. 4, Avril 1983, LONDON GB pages 166 - 175; BRIDLE, J. ET AL: 'Continuous *
RSRE MEMORANDUM N 4073 17 Dé *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式

Also Published As

Publication number Publication date
DE4010028A1 (de) 1990-10-18
GB8908205D0 (en) 1989-05-24
GB2230370B (en) 1993-05-12
JP2001000007U (ja) 2001-02-09
GB9007067D0 (en) 1990-05-30
FR2645999B1 (fr) 1993-05-14
GB2230370A (en) 1990-10-17
JPH02298998A (ja) 1990-12-11
DE4010028C2 (de) 2003-03-20

Similar Documents

Publication Publication Date Title
EP3607547B1 (fr) Séparation parole-audiovisuel
Girin et al. Audio-visual enhancement of speech in noise
Hermansky et al. RASTA processing of speech
Hansen Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect
US7620546B2 (en) Isolating speech signals utilizing neural networks
Pisoni et al. Some acoustic-phonetic correlates of speech produced in noise
Palomäki et al. Techniques for handling convolutional distortion withmissing data'automatic speech recognition
FR2645999A1 (fr) Procede de reconnaissance de la parole
Maruri et al. V-Speech: noise-robust speech capturing glasses using vibration sensors
Alam et al. Robust feature extraction based on an asymmetric level-dependent auditory filterbank and a subband spectrum enhancement technique
Savchenko Minimum of information divergence criterion for signals with tuning to speaker voice in automatic speech recognition
Exter et al. DNN-Based Automatic Speech Recognition as a Model for Human Phoneme Perception.
Vuong et al. The Application of Learnable STRF Kernels to the 2021 Fearless Steps Phase-03 SAD Challenge.
Chu et al. A causal deep learning framework for classifying phonemes in cochlear implants
FR2647249A1 (fr) Procede de reconnaissance de la parole
Josifovski Robust automatic speech recognition with missing and unreliable data
Abdulqader et al. Hybrid feature extraction MFCC and feature selection CNN for speaker identification using CNN: a comparative study
Székely et al. The effect of soft, modal and loud voice levels on entrainment in noisy conditions
Remes et al. Comparing human and automatic speech recognition in a perceptual restoration experiment
de-la-Calle-Silos et al. Morphologically filtered power-normalized cochleograms as robust, biologically inspired features for ASR
Nossier et al. Environmental Noise Adaptable Hearing Aid using Deep Learning.
Bose et al. Improved language-independent speaker identification in a non-contemporaneous setup
Gabdrakhmanov et al. The Experimental Research Of The Way Acoustic Noise Influences Speech Characteristics
Kleinschmidt et al. Combining monaural noise reduction algorithms and perceptive preprocessing for robust speech recognition
Haderlein et al. Speech recognition with μ-law companded features on reverberated signals

Legal Events

Date Code Title Description
CD Change of name or company name