FR2695246A1 - Système de reconnaissance de la parole. - Google Patents
Système de reconnaissance de la parole. Download PDFInfo
- Publication number
- FR2695246A1 FR2695246A1 FR9310270A FR9310270A FR2695246A1 FR 2695246 A1 FR2695246 A1 FR 2695246A1 FR 9310270 A FR9310270 A FR 9310270A FR 9310270 A FR9310270 A FR 9310270A FR 2695246 A1 FR2695246 A1 FR 2695246A1
- Authority
- FR
- France
- Prior art keywords
- speech
- frequency band
- speech recognition
- recognition system
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000000034 method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Selective Calling Equipment (AREA)
Abstract
Système de reconnaissance de la parole pour reconnaître les télécommandes vocales de téléviseurs et de magnétoscopes comportant un microphone (200) pour recevoir la parole prononcée par un utilisateur, des moyens d'analyse de la parole (210) pour analyser la parole introduite par l'intermédiaire du microphone; des moyens (220) pour détecter une partie vocale de la parole provenant des moyens d'analyse de la parole et effectuer une normalisation selon l'axe des temps et une numérisation de la partie vocale détectée; et un réseau neuronal à couches multiples (230) pour recevoir les données de numérisation provenant des moyens précités et ensuite effectuer l'apprentissage, pour ainsi délivrer le résultat de la reconnaissance de la parole. La présente invention permet d'accroître en conséquence le taux de reconnaissance de la parole.
Description
Système de reconnaissance de la parole.
La présente invention a trait à un système de reconnaissance de la parole, et plus particulièrement à un système de reconnaissance de la parole pour reconnaître les
commandes vocales de télécommande d'appareils électro-
ménagers. Le système classique de reconnaissance de la parole, pour reconnaître des paroles spontanément prononcées par un être humain, doit effectuer une quantité énorme de calculs pour tenir compte d'une variété de caractéristiques de la voix Pour cette raison, le système classique de reconnaissance de la parole présente un inconvénient de mise en pratique et d'applicabilité, et ne permet pas une reconnaissance de la parole en temps réel Par conséquent, un modèle de réseau neuronal a été suggéré pour résoudre les problèmes rencontrés dans la reconnaissance de
configurations, par exemple de reconnaissance de la parole.
Dans le domaine de la reconnaissance de configura-
tions telles que la reconnaissance de la parole, plusieurs modèles de réseaux neuronaux ont été suggérés Parmi ces modèles, un perceptron à couches multiples est largement
utilisé Cependant, le perceptron à couches multiples pré-
sente certains inconvénients en ce qu'il opère dans les minimaux locaux d'apprentissage, auxquels la valeur d'erreur diminue et augmente à nouveau progressivement, pour ainsi déterminer la valeur d'erreur comme étant une solution réelle et que le temps d'apprentissage est trop long Egalement, la réalisation des circuits est difficile à réaliser, de sorte qu'elle ne peut pas être réalisée pour d'autres applications Un réseau neuronal à couches multiples inventé par le présent demandeur surmonte les inconvénients précités du réseau neuronal classique, et son application est envisagée principalement pour le domaine de reconnaissance de formes, par exemple, la reconnaissance de
signes ou la reconnaissance de la parole.
Un des buts de la présente invention est de proposer un système de reconnaissance de la parole pour reconnaître les paroles à distance des appareils électro-ménagers, adoptant le réseau neuronal à couches multiples pouvant minimiser
les erreurs.
Afin d'atteindre le but précité, la présente invention propose un système de reconnaissance de la parole pour
reconnaître les commandes à distance des appareils électro-
ménagers, le système comprenant un microphone pour recevoir la parole prononcée par un utilisateur; des moyens d'analyse de la parole pour analyser la parole introduite par l'intermédiaire du microphone, des moyens pour détecter une partie vocale de la parole délivrée par les moyens d'analyse de la parole et effectuer une normalisation selon l'axe des temps et une numérisation pour la section vocale; et un réseau neuronal à couches multiples pour recevoir les données de numérisation à partir des moyens précités et
ensuite effectuer l'apprentissage par rapport aux don-
nées, pour ainsi délivrer le résultat de la reconnaissance
de la parole.
La présente invention propose un système de re-
connaissance de la parole afin de reconnaître des commandes à distance d'appareils électro-ménagers, ledit système comportant un microphone pour recevoir la parole prononcée par un utilisateur; des moyens d'analyse de la parole pour analyser la parole introduite par l'intermédiaire dudit microphone; des moyens pour détecter une partie vocale de la parole provenant desdits moyens d'analyse de la parole et effectuer une normalisation selon l'axe des temps et une numérisation pour ladite partie de la parole; et un réseau neuronal à couches multiples pour recevoir les données de numérisation provenant desdits moyens, pour effectuer ensuite l'apprentissage, pour ainsi délivrer un résultat de reconnaissance de la parole. Ces buts, caractéristiques, aspects et avantages, ainsi que d'autres de la présente invention ressortiront mieux de
la description détaillée qui va suivre de la présente
invention, en référence aux dessins annexés sur lesquels: la Figure 1 est un schéma synoptique représentant un système de reconnaissance de télécommande d'appareils électro-ménagers, qui utilise un réseau neuronal à couches multiples, selon la présente invention,
la Figure 2 représente les mots cibles de recon-
naissance utilisés dans l'expérience de reconnaissance selon la présente invention la Figure 3 représente les données obtenues après détection de la partie vocale d'une "puissance" de mots cibles de reconnaissance, les Figures 4 A à 4 C sont des schémas représentant des procédés de numérisation selon la présente invention; la Figure 5 A est un tableau représentant un résultat obtenu en numérisant les données représentées sur la Figure 3, selon le procédé représenté sur la Figure 4 A; la Figure 5 B est un tableau représentant un résultat obtenu en numérisant les données représentées sur la Figure 3, selon le procédé représenté sur la Figure 4 C; la Figure 6 est un schéma synoptique représentant la séquence du traitement de données de détection de la partie de parole et de normalisation selon l'axe des temps, conformément à la présente invention la Figure 7 représente un procédé d'apprentissage d'un réseau neuronal à couches multiples pour accroître le rapport de reconnaissance du système de reconnaissance de la parole selon la présente invention; et la Figure 8 représente un résultat obtenu par simulation logicielle de reconnaissance de la parole en ce
qui concerne des commandes de téléviseur et de magnéto-
scope. Avant de décrire le système de reconnaissance de la parole selon la présente invention en référence aux dessins annexés, l'algorithme d'apprentissage du réseau neuronal à couches multiples qui est appliqué à la présente invention sera décrit L'algorithme procède comme suit:
a) initialiser les poids de tous les noeuds.
b) prévoir les valeurs d'entrée et leurs sorties correspondantes. c) totaliser les multiplications des valeurs d'entrée par les poids en chaque noeud, pour ainsi produire une sortie en utilisant une fonction non linéaire à limite fixe: fh(X) = 1:x>O fh(X) =- 1:x:x< O ( 1) N-1 OUT (h( wjixi)) i-O O o fh lest une fonction à limite fixe, Xi est la i-ième entrée, Wj est le poids entre le i-ième noeud et le j-ième
noeud, et OUT, est la valeur de sortie sur le j-ième noeud.
d) comparer la sortie sur le noeud de sortie à la valeur de sortie désirée, pour ainsi calculer l'erreur entre les deux et ensuite mémoriser les variations de poids selon les valeurs d'erreur AW = (D o( 3) dans laquelle AW est un changement de poids, D est la valeur de sortie désirée du j-ième noeud, et o est la J
valeur de sortie du j-ième noeud.
e) Effectuer les étapes b) à d) pour toutes les entrées, et ensuite si toutes les valeurs de sortie sont
identiques aux valeurs désirées, arrêter l'apprentissage.
Autrement, additionner la somme des variations de poids au poids N-1 0 Tji =(T-1)ji i i* dans laquelle W(T 1)j, est le poids avant modification et
W est le poids après la modification.
f) répéter les étapes b) à e) un nombre prédéterminé de fois, ensuite à moins que le résultat désiré ait été obtenu, augmenter le nombre de couches Ensuite, répéter les étapes b) à e) tout en recevant la sortie de la nouvelle couche et l'entrée initiale en tant que nouvelles entrées. Dans l'algorithme d'apprentissage du réseau neuronal à couches multiples, les poids des synapses doivent être des entiers pour bénéficier d'une réalisation de circuit avantageuse, et la fonction à limite fixe est utilisée en tant que fonction de transfert de neurone et son entrée et
sa sortie sont effectuées sous la forme de nombres binai-
res La règle est qu'à moins que l'apprentissage de la couche précédente ait été réussie, le nombre de couches augmente et ensuite l'apprentissage doit être effectué jusqu'à ce que la valeur de sortie devienne identique à la
valeur de sortie désirée.
La Figure 1 est un schéma synoptique représentant un système de reconnaissance de télécommande d'appareils électro-ménagers, adoptant un réseau neuronal à couches multiples selon la présente invention En référence à la
Figure 1, le système comporte un microphone 200 pour rece-
voir la parole, un analyseur de parole 210 pour extraire les caractéristiques de parole traversant le microphone 200, des moyens 220 pour détecter la partie vocale de la parole traitée par l'analyseur de parole 210 et effectuer la normalisation selon l'axe des temps et la numérisation de celle-ci et un réseau neuronal à couches multiples 230 pour recevoir les données de numérisation des moyens 220, effectuer l'apprentissage et ensuite délivrer le résultat
de la reconnaissance de la parole.
Un dispositif de télécommande selon la présente
invention est constitué comme représenté sur la Figure 1.
Le dispositif de télécommande émet un signal de télé-
commande correspondant à la paroi reconnue pour ainsi
mettre en fonctionnement les appareils électroménagers.
Egalement, le signal de parole reconnu est affiché sur l'écran. La Figure 2 énumère les mots cibles de reconnaissance utilisés dans une expérience de la présente invention En
référence à la Figure 2, les mots cibles de reconnaissan-
ce sont constitués de 23 commandes de téléviseur et de
magnétoscope et des nombres "un" à "neuf", respectivement.
La Figure 3 est un tableau représentant les données après détection de la partie vocale dans une "puissance" de
mots cibles de reconnaissance.
La présente invention utilise le signal de sortie d'une série de filtre de bande à 16 canaux de sorte que la partie vocale est divisée en 16 bandes de fréquences Fl-F 16 La
période d'analyse des données de parole est fixée à 16 ms.
A partir des données analysées, le bloc qui présente un niveau d'énergie plus élevé que la valeur de seuil prédéterminée est détecté, de sorte que ces blocs continus
sont groupés en tant que partie vocale.
Puisque le même mot peut être prononcé légèrement plus longuement ou de façon plus courte, les données détectées de la partie vocale sont normalisées selon l'axe des temps dans 30 blocs qui correspondent à la durée moyenne d'un mot à deux ou trois syllabes La normalisation est effectuée en supprimant proportionnellement des parties de blocs d'un mot si le mot est plus long que le bloc de référence, et en ajoutant proportionnellement les parties de blocs si le mot
est plus court que le bloc de référence.
Les Figures 4 A à 4 C représentent le procédé de numérisation selon la présente invention En référence à la Figure 4 A, on suppose que deux bandes de fréquences
adjacentes sont une première et une seconde bande de fré-
quences, respectivement, et si un niveau d'énergie de la première bande de fréquences est supérieur à celui de la seconde bande de fréquences adjacente à la première bande de fréquences, la valeur " 1 " est affectée à la première bande de fréquences, ou la valeur " O " est affectée à la seconde bande de fréquences En référence à la Figure 4 B,
si le niveau d'énergie d'une bande de fréquences est supé-
rieur à ceux de ses deux bandes de fréquences voisines entre lesquelles se trouve ladite bande de fréquences, la valeur " 1 " est affectée à la bande de fréquences, ou la valeur " O " est affectée à la bande de fréquences En référence à la Figure 4 C, les données qui sont divisées en une partie vocale sont normalisées selon une proportion fixée, et si le niveau d'énergie d'une bande de fréquences est supérieur à la valeur de seuil prédéterminée, la valeur " 1 " est affectée à la bande de fréquences, ou la valeur '0 "
est affectée à la bande de fréquences.
La Figure 5 A est un tableau représentant le résultat obtenu par la numérisation des données de la Figure 3, en utilisant le procédé représenté sur la Figure 4 A. La Figure 5 B est un tableau représentant le résultat obtenu par la numérisation des données de la Figure 3, en utilisant le procédé représenté sur la Figure 4 C. Les résultats de numérisation des Figures 5 A et 5 B sont utilisés en tant qu'entrées à un réseau neuronal à couches multiples Le réseau neuronal à couches multiples accomplit l'algorithme décrit ci-dessus en recevant les résultats numérisés. La Figure 6 est un schéma synoptique représentant la séquence selon laquelle les données détectées de la partie vocale et les données normalisées selon l'axe des temps sont traitées En référence à la Figure 6, les données détectées de la partie vocale et normalisées selon l'axe des temps sont numérisées par trois types de circuit de numérisation 300 Tout d'abord, les données numérisées sont traitées par apprentissage au moyen de trois réseaux neuronaux à couches multiples 310, respectivement Les données obtenues par l'apprentissage pénètrent dans chacun
de circuits délivrant une valeur maximum 320, respective-
ment, par conséquent, les valeurs maximum sont produites.
Ensuite, les résultats des circuits de délivrance de valeur maximum 320 sont intégrés par un circuit de reconnaissance de valeur finale 330, le circuit de reconnaissance de
valeur finale produit la valeur finalement reconnue.
Ici, en utilisant trois types différents de procédés de numérisation à la fois, les caractéristiques de la parole peuvent être exprimées plus distinctement, pour ainsi
obtenir un meilleur rapport de reconnaissance à cet effet.
De plus, la présente invention propose un autre procédé
pour obtenir un résultat d'apprentissage plus préférable.
La Figure 7 représente un procédé d'apprentissage pour obtenir un résultat plus préférable, selon la présente invention En référence à la Figure 7, un réseau neuronal à couches multiples comporte un nombre prédéterminé de
réseaux sous-neuronaux, et chacun des réseaux sous-
neuronaux comporte en outre ses propres réseaux sous-
neuronaux, qui peuvent ainsi accroître le rapport de reconnaissance Le système de reconnaissance de la parole selon la présente invention comporte une pluralité de réseaux neuronaux 400 pour effectuer l'apprentissage en recevant les signaux numérisés et une pluralité de réseaux sous-neuronaux 410 qui sont reliés aux réseaux neuronaux 400 Egalement, les réseaux sous-neuronaux peuvent
comporter leurs propres réseaux sous-neuronaux.
En d'autres termes, les sorties qui ne peuvent pas être déterminées par les réseaux neuronaux peuvent être apprises par des réseaux sousneuronaux 410, pour ainsi obtenir le résultat final Les sorties qui ne peuvent pas être déterminées par les réseaux sous-neuronaux 410 peuvent être apprises par leurs propres réseaux sous-neuronaux Par exemple, lorsqu'on effectue l'apprentissage de chiffres coréens /il/ et /chil/, /sahm/ et /pahl/, et /yuk/ et /koo/, dont chaque paire paraît similaire l'une à l'autre et est difficile à prononcer l'une par rapport à l'autre,
ces paires de nombres peuvent être appris une fois de plus.
Ce procédé est introduit par la présente invention, pour accroître le rapport de reconnaissance dans l'apprentissage. La Figure 8 représente une simulation de programme de commandes TV et VCR, qui est affichée sur le moniteur d'un système de calculateur A ce moment, les données d'étude pour le réseau neuronal à couches multiples utilisent 300 données ou plus pour chaque module qui est prononcé par un utilisateur, et au total 10 modules Le laps de temps nécessaire pour la reconnaissance est d'environ 0,2 seconde, ce qui facilite un système en temps réel Après l'apprentissage, les données d'étude présentent un taux de reconnaissance de 100 %, et les données d'essai présentent un taux de reconnaissance de 90 %, qui est considéré comme
étant un taux élevé.
Par conséquent, le système de reconnaissance de la parole et le procédé de reconnaissance de la parole à cet effet selon la présente invention peuvent améliorer le taux
de reconnaissance de la parole.
Bien que la présente invention ait été représentée et
décrite en particulier en référence à des modes de réali-
sation particuliers de celle-ci, l'homme de l'art comprendra que différentes variations de formes et de détail peuvent être effectuées sans s'écarter de l'esprit et de la portée de l'invention telles que définies par les
revendications annexées.
il
Claims (5)
1 Système de reconnaissance de la parole pour reconnaître des télécommandes d'appareils électro-ménagers, ledit système étant caractérisé en ce qu'il comporte: a) un microphone ( 200) pour recevoir la parole prononcée par un utilisateur; b) des moyens d'analyse de la parole ( 210) pour
analyser la parole entrée par l'intermédiaire dudit micro-
phone; c) des moyens ( 220) pour détecter une partie vocale de la parole provenant desdits moyens d'analyse de la parole b) et pour effectuer une normalisation selon l'axe des temps et une numérisation pour ladite partie vocale; et d) un réseau neuronal à couches multiples ( 230) pour recevoir les données de numérisation provenant desdits moyens c), pour effectuer ensuite l'apprentissage, pour
ainsi délivrer un résultat de reconnaissance de la parole.
2 Système de reconnaissance de la parole selon la revendication 1, caractérisé en ce que lesdits moyens c) ( 220) comportent: des premiers moyens pour, si le niveau de sortie d'une première bande de fréquences dans lesdites données détectées de la partie vocale et normalisées selon l'axe des temps est supérieur à celui d'une seconde bande de fréquences adjacente à ladite première bande de fréquences, affecter une première valeur d'état à ladite première bande de fréquences, ou affecter une seconde valeur d'état à ladite première bande de fréquences; des seconds moyens pour, si le niveau de sortie d'une première bande de fréquences dans lesdites données détectées de la partie vocale et normalisées selon l'axe des temps est supérieur à ceux de ses bandes de fréquences voisines entre lesquelles se trouve ladite première bande de fréquences, affecter la première valeur d'état à ladite première bande de fréquences, ou affecter la seconde valeur d'état à ladite première bande de fréquences; et des troisièmes moyens pour normaliser lesdites données détectées de la partie vocale et normalisées selon l'axe des temps selon une proportion prédéterminée, et ensuite, si une valeur de sortie d'une bande de fréquences est supérieure à une valeur de seuil, affecter la première valeur d'état à ladite bande de fréquences, ou affecter la
seconde valeur d'état à ladite bande de fréquences.
3 Système de reconnaissance de la parole selon la revendication 2, caractérisé en ce que ledit réseau neuronal à couches multiples comporte des premier, second et troisième réseaux neuronaux à couches multiples dont chacun est relié auxdits premiers, seconds et troisièmes moyens, respectivement, pour ainsi intégrer les résultats dudit réseau neuronal à couches multiples de manière à être
délivrés.
4 Système de reconnaissance de la parole selon la revendication 3, caractérisé en ce que chacun desdits premier, second et troisième réseaux neuronaux à couches
multiples comporte un nombre prédéterminé de réseaux sous-
neuronaux possédant un nombre prédéterminé d'étapes à l'intérieur, pour ainsi intégrer les sorties desdits
réseaux sous-neuronaux de manière à être délivrées.
5 Système de reconnaissance de la parole selon la revendication, caractérisé en ce que ledit réseau neuronal à couches multiples effectue un apprentissage pour
reconnaître des télécommandes d'appareils électro-
ménagers, ledit apprentissage comportant les étapes consistant à: a) initialiser les poids de tous les noeuds b) fixer les valeurs d'entrée et leurs sorties correspondantes, c) totaliser les multiplications d'entrées par les poids en chaque noeud, pour ainsi produire un signal de sortie en utilisant une fonction non linéaire à limite fixe, d) comparer la valeur de sortie en chaque noeud de sortie à la valeur de sortie désirée, pour ainsi calculer l'erreur entre elles, et ensuite mémoriser la variation de poids selon les valeurs d'erreur, e) exécuter lesdites étapes b) à d) pour la totalité des entrées, et ensuite si la totalité des valeurs de sortie sont identiques aux valeurs désirées, arrêter
l'apprentissage, autrement, additionner les sommes de chan-
gements de poids à chacun desdits poids, respectivement; et f) répéter lesdites étapes b) à e) un nombre prédéterminé de fois, ensuite à moins que le résultat désiré soit obtenu, accroître le nombre de couches, ensuite répéter lesdites étapes b) à e) tout en recevant le signal de sortie de la couche précédente et l'entrée initiale en
tant que nouvelles entrées.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019920015484A KR100202425B1 (ko) | 1992-08-27 | 1992-08-27 | 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2695246A1 true FR2695246A1 (fr) | 1994-03-04 |
FR2695246B1 FR2695246B1 (fr) | 1996-06-21 |
Family
ID=19338592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9310270A Expired - Fee Related FR2695246B1 (fr) | 1992-08-27 | 1993-08-26 | Systeme de reconnaissance de la parole. |
Country Status (5)
Country | Link |
---|---|
US (1) | US5471557A (fr) |
JP (1) | JPH06161496A (fr) |
KR (1) | KR100202425B1 (fr) |
DE (1) | DE4328752B4 (fr) |
FR (1) | FR2695246B1 (fr) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5904697A (en) * | 1995-02-24 | 1999-05-18 | Heartport, Inc. | Devices and methods for performing a vascular anastomosis |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
DE69837034T2 (de) | 1997-07-03 | 2007-10-18 | Kabushiki Kaisha Toshiba, Kawasaki | Satelliten rundfunksystem |
DE19754382A1 (de) * | 1997-12-08 | 1999-06-10 | Siemens Nixdorf Inf Syst | Gerätekombination aus Fernseh- und Rechnerteil mit Zugriff zu einem Kommunikationsnetz sowie Fernbedienung dafür |
US7266498B1 (en) * | 1998-12-18 | 2007-09-04 | Intel Corporation | Method and apparatus for reducing conflicts between speech-enabled applications sharing speech menu |
JP3979556B2 (ja) * | 1998-12-22 | 2007-09-19 | パイオニア株式会社 | 番組選択装置及び番組選択方法 |
US6397186B1 (en) * | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
JP2004505327A (ja) * | 2000-07-28 | 2004-02-19 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声命令で装置を制御するシステム |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US6845357B2 (en) * | 2001-07-24 | 2005-01-18 | Honeywell International Inc. | Pattern recognition using an observable operator model |
WO2003017252A1 (fr) * | 2001-08-13 | 2003-02-27 | Knittel, Jochen | Procede et dispositif de reconnaissance d'une sequence sonore phonetique ou d'une sequence de caracteres |
KR20030034443A (ko) * | 2001-10-23 | 2003-05-09 | 삼성전자주식회사 | 음성 인식 사용자 인터페이스 제어 장치 및 방법 |
KR20030047153A (ko) * | 2001-12-08 | 2003-06-18 | 임소영 | 음성인식을 적용한 전자 기기의 신방식 유저 인터페이스시스템 및 방법 |
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
CN103679185B (zh) * | 2012-08-31 | 2017-06-16 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
KR102392087B1 (ko) | 2017-07-10 | 2022-04-29 | 삼성전자주식회사 | 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2230370A (en) * | 1989-04-12 | 1990-10-17 | Smiths Industries Plc | Speech recognition |
GB2231698A (en) * | 1989-05-18 | 1990-11-21 | Smiths Industries Plc | Speech recognition |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2558682B2 (ja) * | 1987-03-13 | 1996-11-27 | 株式会社東芝 | 知的ワ−クステ−シヨン |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
US5136653A (en) * | 1988-01-11 | 1992-08-04 | Ezel, Inc. | Acoustic recognition system using accumulate power series |
US5214745A (en) * | 1988-08-25 | 1993-05-25 | Sutherland John G | Artificial neural device utilizing phase orientation in the complex number domain to encode and decode stimulus response patterns |
US5086479A (en) * | 1989-06-30 | 1992-02-04 | Hitachi, Ltd. | Information processing system using neural network learning function |
DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
JPH03123399A (ja) * | 1989-10-06 | 1991-05-27 | Ricoh Co Ltd | 音声認識装置 |
-
1992
- 1992-08-27 KR KR1019920015484A patent/KR100202425B1/ko not_active IP Right Cessation
-
1993
- 1993-08-24 JP JP5209702A patent/JPH06161496A/ja active Pending
- 1993-08-26 FR FR9310270A patent/FR2695246B1/fr not_active Expired - Fee Related
- 1993-08-26 DE DE4328752A patent/DE4328752B4/de not_active Expired - Fee Related
- 1993-08-26 US US08/112,037 patent/US5471557A/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2230370A (en) * | 1989-04-12 | 1990-10-17 | Smiths Industries Plc | Speech recognition |
GB2231698A (en) * | 1989-05-18 | 1990-11-21 | Smiths Industries Plc | Speech recognition |
Non-Patent Citations (1)
Title |
---|
P.HAFFNER ET AL.: "Integrating time alignment and neural networks for high performance continuous speech recognition", ICASSP-91, vol. 1, 14 May 1991 (1991-05-14), TORONTO, pages 105 - 108 * |
Also Published As
Publication number | Publication date |
---|---|
US5471557A (en) | 1995-11-28 |
JPH06161496A (ja) | 1994-06-07 |
FR2695246B1 (fr) | 1996-06-21 |
DE4328752B4 (de) | 2004-08-05 |
KR100202425B1 (ko) | 1999-06-15 |
DE4328752A1 (de) | 1994-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2695246A1 (fr) | Système de reconnaissance de la parole. | |
Li et al. | Speaker-invariant affective representation learning via adversarial training | |
EP0446084B1 (fr) | Procédé de classification mis en oeuvre dans un réseau de neurones hiérarchisé | |
CN108960207B (zh) | 一种图像识别的方法、系统及相关组件 | |
EP0608174B1 (fr) | Systeme de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués | |
FR2646575A1 (fr) | Procede et structure pour la compression de donnees | |
CN110556130A (zh) | 语音情绪识别方法、装置及存储介质 | |
EP0473476A1 (fr) | Procédé et dispositif de localisation en temps réel de contours rectilignes dans une image numérisée, notamment pour la reconnaissance de formes dans un traitement d'analyse de scène | |
EP0568145B1 (fr) | Processeur neuronal muni de moyens pour calculer une norme ou une distance | |
EP1232492B1 (fr) | Reseau neuronal et son application pour la reconnaissance vocale | |
FR2719384A1 (fr) | Procédé de trajectographie d'objets et dispositif de mise en Óoeuvre de ce procédé. | |
EP0449353A1 (fr) | Dispositif de traitement de données et procédé pour sélectionner des mots de données contenus dans un dictionnaire | |
EP0446974A1 (fr) | Procédé de classification mis en oeuvre dans un réseau de neurones en couches pour classification multiclasses et réeseau de neurones en couches selon le procédé | |
FR2716279A1 (fr) | Réseau neuronal chaotique récurrent et algorithme d'apprentissage pour celui-ci. | |
EP0568146A1 (fr) | Processeur neuronal muni de moyens pour normaliser des données | |
Karras et al. | A Hybrid Ensemble Deep Learning Approach for Emotion Classification | |
FR3108733A1 (fr) | Procédé de génération d'un flux de fouillis de mer, dispositif programmable et programme d'ordinateur associés. | |
Heinrich et al. | Analysing the multiple timescale recurrent neural network for embodied language understanding | |
EP0447306B1 (fr) | Dispositif de reconnaissance de séquences dans un signal multidimensionnel | |
EP0401927A1 (fr) | Méthode d'apprentissage, réseau de neurones et ordinateur pour simuler ledit réseau de neurones | |
EP0428449A2 (fr) | Procédé de reconnaissance de formes, notamment de reconnaissance vocale multilocuteur du langage naturel et dispositif pour la mise en oeuvre de ce procédé | |
FR3141794A1 (fr) | Dispositif et procédé de reconnaissance vocale | |
Sahu et al. | Modeling of human mood states from voice using adaptively tuned neuro-fuzzy inference system | |
FR2765705A1 (fr) | Procede de construction d'un reseau de neurones pour la modelisation d'un phenomene | |
FR2669137A1 (fr) | Procede de reconnaissance d'objets tridimensionnels par analyse d'image. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20060428 |