FR2743238A1 - Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci - Google Patents
Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci Download PDFInfo
- Publication number
- FR2743238A1 FR2743238A1 FR9615726A FR9615726A FR2743238A1 FR 2743238 A1 FR2743238 A1 FR 2743238A1 FR 9615726 A FR9615726 A FR 9615726A FR 9615726 A FR9615726 A FR 9615726A FR 2743238 A1 FR2743238 A1 FR 2743238A1
- Authority
- FR
- France
- Prior art keywords
- signal
- discriminating
- sequence
- voice
- telecommunication device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 37
- 230000004044 response Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 35
- 238000011161 development Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims description 5
- 230000002146 bilateral effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims 3
- 230000006870 function Effects 0.000 abstract description 21
- 230000001413 cellular effect Effects 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010021703 Indifference Diseases 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2453—Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Nonlinear Science (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
Un dispositif de télécommunication (20) qui réagit à des ordres vocaux est proposé. Le dispositif de télécommunication (20) peut être un radiotéléphone bilatéral, un téléphone cellulaire, un PDA ou un dispositif d'appel de personnes. Le dispositif de télécommunication (20) comporte une interface (22) permettant à un utilisateur d'avoir accès à une voie de télécommunication en fonction d'un signal de commande et un système de reconnaissance vocale (24) permettant de produire le signal de commande en réponse à un ordre vocal. Dans le système de reconnaissance vocale (24) se trouvent un extracteur de caractéristiques (26) et un ou plusieurs classificateurs (28) qui utilisent des fonctions discriminantes polynomiales.
Description
Titre
DISPOSITIF DE TELECOMMUNICATION REAGISSANT A DES ORDRES
VOCAUX ET PROCEDE D'UTILISATION DE CELUI-CI
Le présent document constitue la suite de la demande codépendante NO de série 08/253 893, enregistrée le 31 mai 1994 et cédée au même cessionnaire que celui de la présente invention. Cette demande est incorporée dans le présent document par cette référence.
DISPOSITIF DE TELECOMMUNICATION REAGISSANT A DES ORDRES
VOCAUX ET PROCEDE D'UTILISATION DE CELUI-CI
Le présent document constitue la suite de la demande codépendante NO de série 08/253 893, enregistrée le 31 mai 1994 et cédée au même cessionnaire que celui de la présente invention. Cette demande est incorporée dans le présent document par cette référence.
Domaine technique
La présente invention concerne de façon générale les systèmes de télécommunication et en particulier un dispositif de télécommunication bilatéral qui réagit aux commandes vocales d'un utilisateur de celui-ci.
La présente invention concerne de façon générale les systèmes de télécommunication et en particulier un dispositif de télécommunication bilatéral qui réagit aux commandes vocales d'un utilisateur de celui-ci.
Arrière-plan de l'invention
Depuis des années, les scientifiques essaient de trouver un moyen qui simplifierait l'interface entre l'homme et la machine. Les dispositifs d'entrée tels que les claviers, les souris, les écrans tactiles et les stylos optiques sont les outils les plus couramment utilisés pour mettre en oeuvre une interface homme/machine. Toutefois, une interface plus naturelle et plus simple entre l'homme et la machine peut être la parole humaine. Un dispositif qui reconnaît automatiquement la parole pourrait donner naissance à une telle interface.
Depuis des années, les scientifiques essaient de trouver un moyen qui simplifierait l'interface entre l'homme et la machine. Les dispositifs d'entrée tels que les claviers, les souris, les écrans tactiles et les stylos optiques sont les outils les plus couramment utilisés pour mettre en oeuvre une interface homme/machine. Toutefois, une interface plus naturelle et plus simple entre l'homme et la machine peut être la parole humaine. Un dispositif qui reconnaît automatiquement la parole pourrait donner naissance à une telle interface.
Les applications permettant la reconnaissance vocale automatique comportent les dispositifs de recherche de personnes et la sélection de voies radioélectriques bilatérales utilisant des ordres vocaux, l'entrée vocale pour commander des appareils ménagers tels qu'une télévision ou une chaîne stéréo, et un téléphone cellulaire à composition vocale qui permettrait à un conducteur de se concentrer sur la route tout en composant un numéro.
Malheureusement, la reconnaissance vocale automatique n'est pas facile à obtenir. L'une des raisons est que la parole a tendance à varier considérablement d'une personne à l'autre. Par exemple, le même mot prononcé par plusieurs personnes peut paraître considérablement différent du fait des différences d'accent, du débit de parole, du sexe ou de l'âge. En plus des différences liées au locuteur, les effets de coarticulation, les façons de parler (crier/chuchoter) et les bruits de fond posent d'énormes problèmes aux dispositifs de reconnaissance vocale.
Depuis la fin des années 1960, de nombreuses méthodologies ont été introduites dans le domaine de la reconnaissance vocale automatique. Bien que certains procédés soient fondés sur des techniques compliquées associées à des stratégies heuristiques correspondantes, d'autres sont fondés sur des bases de données vocales et des méthodologies d'apprentissage. Ces dernières comportent la distorsion du temps dynamique (DTW) et la modélisation de Markov cachée (HMM). Ces deux procédés, ainsi que l'utilisation de réseaux neuronaux de temporisation (TDNN), sont traités par la suite.
La distorsion du temps dynamique est une technique qui utilise un principe d'optimisation pour réduire au minimum les erreurs rencontrées entre un mot prononcé inconnu et un modèle mémorisé d'un mot connu. Les données rapportées montrent que la technique DTW est solide et qu'elle produit une bonne reconnaissance. Toutefois, la technique DTW utilise des calculs très complexes. Par conséquent, il n'est pas pratique de mettre en oeuvre couramment la technique DTW pour des applications réelles.
Au lieu de comparer directement un mot prononcé inconnu à un modèle d'un mot connu, la technique de modélisation de Markov cachée utilise des modèles aléatoires pour des mots connus et compare la probabilité que chaque mot inconnu ait été généré par chaque modèle.
Lorsqu'un mot inconnu est prononcé, la technique HMM vérifie la séquence (ou état) du mot et trouve le modèle qui s'en rapproche le plus. La technique HMM est utilisée avec succès dans de nombreuses applications commerciales ; toutefois, la technique présente de nombreux inconvénients. Parmi ces inconvénients, on trouve l'incapacité à différencier des mots semblables du point de vue acoustique, une sensibilité au bruit et des calculs complexes.
Récemment, les réseaux neuronaux ont été utilisés pour des problèmes qui sont très peu structurés, voire intraitables, tels que la reconnaissance vocale. Un réseau neuronal de temporisation est un type de réseau neuronal qui s'occupe des effets temporels de la parole en adoptant des connexions neuronales limitées. Pour une reconnaissance de mots limités, un TDNN présente des résultats légèrement meilleurs que le procédé HMM.
Toutefois, le TDNN présente de gros inconvénients.
Tout d'abord, le temps de formation à la technique
TDNN est très long, de l'ordre de plusieurs semaines.
TDNN est très long, de l'ordre de plusieurs semaines.
Ensuite, l'algorithme de formation pour un TDNN converge souvent vers un minimum local, qui n'est pas la solution globalement optimale.
En résumé, les inconvénients des procédés connus existants de reconnaissance vocale automatique (par exemple des algorithmes qui nécessitent des quantités énormes de calculs, une tolérance limitée aux différences liées aux locuteurs et au bruit de fond, des temps de formation excessifs, etc.) limitent sérieusement l'acceptation et la généralisation de dispositifs de reconnaissance vocale dans plusieurs domaines d'utilisation. Par exemple, les téléphones cellulaires et les radiotéléphones bilatéraux actuellement disponibles sur le marché qui répondent aux ordres vocaux ont des capacités de reconnaissance vocale peu fiables. En conséquence, ils déçoivent les utilisateurs et ne sont pas bien reçus sur le marché de ces dispositifs.
Ainsi, il y a un besoin pour un dispositif de télécommunication qui comporte un système de reconnaissance vocale automatique fournissant un haut niveau de précision, une indifférence au bruit de fond, une formation en une seule session et une insensibilité aux changements de locuteurs.
Brève description des dessins
L'invention est décrite en détail dans les revendications jointes. Toutefois, d'autres caractéristiques de l'invention apparaîtront plus clairement et l'invention sera mieux comprise en faisant référence à la description détaillée suivante conjointement avec les dessins joints sur lesquels
La Figure 1 est un schéma fonctionnel d'un dispositif de télécommunication selon un mode de réalisation de la présente invention.
L'invention est décrite en détail dans les revendications jointes. Toutefois, d'autres caractéristiques de l'invention apparaîtront plus clairement et l'invention sera mieux comprise en faisant référence à la description détaillée suivante conjointement avec les dessins joints sur lesquels
La Figure 1 est un schéma fonctionnel d'un dispositif de télécommunication selon un mode de réalisation de la présente invention.
La Figure 2 représente un organigramme du procédé permettant d'utiliser le dispositif de télécommunication de la figure 1 selon un autre mode de réalisation de la présente invention.
La figure 3 est un schéma fonctionnel d'un dispositif de télécommunication selon un autre mode de réalisation de la présente invention.
La figure 4 est un schéma fonctionnel d'un dispositif de télécommunication selon un autre mode de réalisation de la présente invention.
La figure 5 est une représentation graphique d'une trame.
La figure 6 illustre un système de télécommunication qui utilise un dispositif de télécommunication mettant en oeuvre la présente invention.
Description détaillée d'un mode de réalisation préféré
La présente invention présente l'avantage de proposer un dispositif de télécommunication qui permet à un utilisateur d'avoir accès à une voie de télécommunication en utilisant des commandes vocales, avec un haut degré de fiabilité. La présente invention présente également l'avantage de proposer un dispositif de télécommunication ayant un système de reconnaissance vocale qui ne nécessite pas une formation répétitive et qui est insensible aux bruits de fond et aux changements de locuteurs. Un autre avantage de la présente invention est qu'elle propose un système de reconnaissance vocale qui est mis en oeuvre de façon compacte dans un logiciel, ce qui lui permet d'être incorporé facilement dans un téléphone cellulaire ou un radiotéléphone portable.Un autre avantage de la présente invention est qu'elle propose un dispositif de télécommunication portable qui incorpore un système de reconnaissance vocale qui réduit la quantité nécessaire de données mises en mémoire tampon.
La présente invention présente l'avantage de proposer un dispositif de télécommunication qui permet à un utilisateur d'avoir accès à une voie de télécommunication en utilisant des commandes vocales, avec un haut degré de fiabilité. La présente invention présente également l'avantage de proposer un dispositif de télécommunication ayant un système de reconnaissance vocale qui ne nécessite pas une formation répétitive et qui est insensible aux bruits de fond et aux changements de locuteurs. Un autre avantage de la présente invention est qu'elle propose un système de reconnaissance vocale qui est mis en oeuvre de façon compacte dans un logiciel, ce qui lui permet d'être incorporé facilement dans un téléphone cellulaire ou un radiotéléphone portable.Un autre avantage de la présente invention est qu'elle propose un dispositif de télécommunication portable qui incorpore un système de reconnaissance vocale qui réduit la quantité nécessaire de données mises en mémoire tampon.
La figure 1 est un schéma fonctionnel représentant un dispositif de télécommunication selon un mode de réalisation de la présente invention. Le dispositif de télécommunication 20 comprend une interface 22 et un système de reconnaissance vocale 24. Le système de reconnaissance vocale comporte un extracteur de caractéristiques 26 et un classificateur 28.
L'interface 22 permet à un utilisateur d'avoir accès à une voie de télécommunication en fonction d'un signal de commande qui est généré par le système de reconnaissance vocale 24. L'interface 22 peut être un moyen quelconque permettant à un utilisateur de transférer des données électroniques par l'intermédiaire d'une voie de télécommunication. Par exemple, l'interface peut être un radiotéléphone bilatéral, un téléphone, un agenda numérique personnel (PDA) ou un dispositif d'appel de personnes. Dans ces exemples, la voie de télécommunication est une liaison radioélectrique avec un autre dispositif ou une station de base. Toutefois, la voie de télécommunication peut comprendre n'importe quel troyen comportant, mais n'étant pas limité à, des fibres optiques, des câbles torsadés ou coaxiaux.L'interface 22 peut répondre à plusieurs entrées d'utilisateurs, tels que les entrées par clavier, les entrées par commande vocale, écrans tactiles ou souris.
Le système de reconnaissance vocale 24 produit le signal de commande en réponse à un ordre vocal.
L'extracteur de caractéristiques 26 extrait une pluralité de caractéristiques de l'ordre vocal. Le classificateur 28 génère alors un signal discriminant selon un développement polynomial. Le signal de commande reçu par l'interface 22 est fondé sur le signal discriminant.
Les caractéristiques extraites par l'extracteur de caractéristiques 26 comportent de préférence des coefficients cepstraux des dérivés de premier ordre de coefficients cepstraux et des caractéristiques de niveau de mot, tels que l'énergie normalisée et l'indice de trame. Les caractéristiques de niveau de mot sont décrites plus en détail par la suite, conjointement avec la figure 3.
En réponse à ces caractéristiques, le classificateur 28 génère le signal discriminant selon un déveloonement polynomial représenté par
Dans l'équation 1, xj représente les caractéristiques ; y représente le signal discriminant
Wi représente un coefficient gji représente un exposant ; et i, j, m et n sont des entiers.
Wi représente un coefficient gji représente un exposant ; et i, j, m et n sont des entiers.
Dans un mode de réalisation préféré de la présente invention, la fonction discriminante est un développement polynomial de deuxième ordre présentant la forme suivante
Dans l'équation 2, ao représente un coefficient d'ordre zéro, bi représente un coefficient de premier ordre et cij représente un coefficient de deuxième ordre, xi et xj représentent les caractéristiques, y représente le signal discriminant et i, j, n et m sont des entiers.
Il y a de préférence vingt caractéristiques xO à x19, qui donnent un polynôme de deuxième ordre ayant 231 termes.
Dans plusieurs autres modes de réalisation de la présente invention, la fonction discriminante peut être fondée sur une fonction orthogonale, telle qu'une fonction sinus, cosinus, exponentielle/logarithmique, transformation de Fourier, polynôme de Legendre ou fonction de base non linéaire telle qu'une fonction de
Volterra ou une fonction de base radiale, ou similaire, ou une combinaison de développements polynomiaux et de fonctions orthogonales.
Volterra ou une fonction de base radiale, ou similaire, ou une combinaison de développements polynomiaux et de fonctions orthogonales.
Dans un mode de réalisation préféré de la présente invention, la fonction discriminante polynomiale est adaptée à un ensemble d'échantillons à partir d'un espace de caractéristiques p-dimensionnelles représentant des exemples de paroles entrées. Si le nombre de termes du polynôme est égal au nombre d'exemples, une technique d'inversion matricielle peut être employée pour obtenir la valeur de chaque coefficient. Si le nombre de termes n'est pas égal au nombre d'exemples, une technique d'estimation des plus petits carrés est employée pour trouver la valeur de chaque coefficient.Parmi les techniques d'estimation des plus petits carrés qui conviennent, on peut citer par exemple la méthode des plus petits carrés, la méthode des plus petits carrés étendus, l'algorithme pseudo-inverse, le filtre de
Kalman, l'algorithme de la plus grande vraisemblance, l'estimation bayesienne et similaire.
Kalman, l'algorithme de la plus grande vraisemblance, l'estimation bayesienne et similaire.
En général, le nombre d'exemples vocaux est supérieur au nombre de termes polynomiaux ; ainsi, une technique des plus petits carrés est utilisée pour dériver les coefficients. Toutefois, si le nombre d'exemples vocaux et le nombre de termes sont égaux, la fonction de transfert de discriminants peut être représentée par l'équation matricielle Y = WZ, où Y représente une matrice de signaux discriminants d'exemple, W représente une matrice de coefficients et Z est une matrice représentant les termes, qui peuvent être fonction des entrées d'exemple, telles que les fonctions exponentielles de caractéristiques dérivées. La matrice de coefficients est déterminée par l'équation w = z y, -1 où Z représente la matrice inverse de Z.
La figure 2 représente un organigramme illustrant la commande d'une voie de télécommunication selon un autre mode de réalisation de la présente invention. A la case 40, un ordre vocal est reçu par le système de reconnaissance vocale 24. A la case 42, les caractéristiques sont extraites de l'ordre vocal. A la case 44, un signal discriminant fondé sur une fonction polynomiale présentant la forme donnée par l'équation (1) est généré. Ensuite, à la case 46, la voie de télécommunication est accédée en fonction du signal discriminant.
Un ordre vocal peut être n'importe quel mot, mais dans un mode de réalisation préféré de la présente invention, l'ordre vocal est choisi parmi un chiffre compris entre 0 et 9 ou les mots "aide", "appel de personnes" et "envoi". Lorsque les chiffres sont donnés sous forme d'une séquence, ils peuvent être identifiés pour composer des codes d'accès, tels qu'un numéro de téléphone ou des voies radioélectriques particulières, ce qui permet à l'utilisateur de communiquer avec d'autres dispositifs connectés à la voie de télécommunication. La commande "appel de personnes" peut délimiter le début d'un numéro de voie radioélectrique ou de téléphone alors que la commande "envoi" peut délimiter la fin du numéro et provoquer la transmission, par le dispositif de télécommunication 20, du numéro à travers la voie de télécommunication.
La commande "aide" peut être utilisée pour diffuser un signal d'alarme à travers la voie de télécommunication. Cette caractéristique représente un avantage considérable pour le personnel d'urgence tel que la police et les pompiers.
La figure 3 est un schéma fonctionnel d'un dispositif de télécommunication selon un autre mode de réalisation de la présente invention. Le dispositif de télécommunication 50 comporte une interface 52, un microphone 54, un convertisseur A/N 56, un pré-processeur 58, un détecteur d'activité vocale (SAD) 60, un extracteur de caractéristiques 62, une pluralité de classificateurs 64 à 68, une pluralité d'accumulateurs 70 à 74 et un sélecteur 76.
Dans un mode de réalisation préféré de la présente invention, l'interface 52 est une interface audio bilatérale permettant d'émettre et recevoir des données à travers une voie radioélectrique selon un signal de commande qui est généré par le sélecteur 76.
Le signal de commande est généré en réponse à un ordre vocal émis par l'utilisateur. Le microphone 54 génère un signal audio en réponse à l'ordre vocal. Le convertisseur A/N 56 numérise le signal audio en échantillonnant celui-ci à une vitesse prédéterminée. La fréquence d'échantillonnage est de préférence de 8 à 10 KHz. De plus, le convertisseur A/N 56 peut comporter un filtre anti-repliement du spectre.
Le pré-processeur 52 détermine le signal audio numérisé en utilisant des techniques de traitement du signal et le transforme en une séquence de vecteurs de données qui sont prêts pour l'extraction de caractéristiques. Le pré-processeur 58 peut effectuer une mise en forme de bande sur le signal audio numérisé. La mise en forme de bande règle les fréquences d'échantillonnage pour qu'elles correspondent à la vitesse de traitement nécessaire pour les éléments qui se trouvent en aval, tels que les classificateurs et les accumulateurs 64 à 74. De plus, le pré-processeur 58 préaccentue le signal audio numérisé de façon à égaliser l'inclinaison spectrale inhérente à l'entrée vocale. Un filtre à réponse impulsionnelle finie (FIR) du premier ordre peut être utilisé pour la préaccentuation.La préaccentuation permet d'effectuer une atténuation accrue à des valeurs continues lorsque son coefficient de filtre s'approche de l'unité. Le pré-processeur 58 peut également appliquer une fonction de Hamming à chaque vecteur de données de façon à supprimer les artéfacts spectraux non souhaités. De plus, une auto-corrélation peut être effectuée sur un bloc de vecteurs de données de façon à générer des signaux de corrélation compris dans les vecteurs de données de sortie. Des coefficients de codage prédictif linéaire (LPC) sont calculés en tant que fonctions des signaux de corrélation par l'extracteur de caractéristiques 62. Cela réduit la largeur de bande des données d'entrée nécessaire pour l'extracteur de caractéristiques 62.
A la suite du traitement décrit ci-dessus, le préprocesseur 58 génère une séquence de vecteurs de données qui sont également appelés trames. De préférence, chaque trame représente un intervalle de 20 millisecondes de paroles d'entrée. Dans plusieurs modes de réalisation, les trames peuvent être chevauchées dans le temps pour que l'extracteur de caractéristiques 62 et les classificateurs 64 à 68 fournissent des interprétations plus significatives.
Le directeur d'activité vocale (SAD) 60 produit une sous-séquence de vecteurs comprenant uniquement les vecteurs de données qui représentent l'ordre vocal.
Essentiellement, le SAD 60 sépare les vecteurs de données qui représentent les paroles réelles de ceux qui contiennent un bruit de fond.
Dans un mode de réalisation préféré de la présente invention, ce SAD 60 reçoit en continu la séquence de vecteurs de données. La sous-séquence de vecteurs de sortie comporte uniquement les vecteurs de données d'entrée qui présentent un niveau d'énergie supérieur au seuil de bruit de fond. Les valeurs d'énergie peuvent être dérivées de données produites par le procédé d'autocorrélation du pré-processeur 58. Le seuil de bruit de fond est déterminé à partir des niveaux d'énergie des vecteurs de données dont on sait qu'ils ne contiennent pas de paroles. Le seuil de bruit est de préférence un multiple du niveau moyen d'énergie sur un nombre fini de vecteurs de données ne comportant pas de paroles. Lorsque le niveau d'énergie d'une séquence contiguë de vecteurs d'entrée dépasse l'estimation du bruit de fond, le début d'un mot a été détecté.Le nombre nécessaire de vecteurs contigus est spécifié par un paramètre du système prédéterminé. De même, lorsqu'une séquence contiguë suivante de vecteurs est inférieure à cette estimation, la fin d'un mot a été détectée.
L'extracteur de caractéristiques 62 extrait une séquence de trames de caractéristiques de la sousséquence de vecteurs générée par le SAD 60. De préférence, les trames de caractéristiques comportent des coefficients cepstraux et des dérivés de premier ordre des coefficients cepstraux. Une trame de caractéristiques préférée comporte dix dérivés de premier ordre et dix coefficients cepstraux extraits d'un vecteur de données correspondant.
De plus, les trames de caractéristiques peuvent également comporter des caractéristiques de niveau de mot, telles que l'énergie normalisée et les indices de trames. L'énergie normalisée d'une sous-séquence de vecteurs peut être dérivée de la sortie du procédé d'auto-corrélation du pré-processeur 58. L'indice de trame est un entier indiquant la position relative du vecteur de données (trame) dans une sous-séquence de vecteurs.
L'analyse cepstrale, qui est effectuée sur la sousséquence de vecteurs pour générer les coefficients cepstraux, donne naissance à une représentation du signal vocal qui caractérise les caractéristiques importantes de la parole continue. Elle peut être considérée comme une procédure de réduction de données qui retient les caractéristiques indispensables du signal vocal et élimine les interférences indésirables des caractéristiques inutiles du signal vocal, facilitant ainsi le procédé de prise de décision des classificateurs 64 à 68.
L'analyse cepstrale est effectuée comme suit. Tout d'abord, une analyse de prédiction linéaire d'ordre p (p = 8 à 10 de préférence) est appliquée à la sous-séquence de vecteurs pour générer p coefficients de prédiction. La récurrence de Levinson-Durbin est de préférence utilisée pour effectuer cette analyse. Les coefficients de prédiction sont ensuite convertis en coefficients cepstraux, en utilisant la formule de récurrence suivante
Dans l'équation (3), c(n) représente le nième coefficient cepstral, a(n) représente le nième coefficient de prédiction, 1 < n < p, p est égal au nombre de coefficients cepstraux, n représente un indice entier, k représente un indice entier, a(k) représente le
ième k coefficient de prédiction et c(n-k) représente le
-k)lème cOefficient cepstral.
ième k coefficient de prédiction et c(n-k) représente le
-k)lème cOefficient cepstral.
L'homme du métier comprendra que l'équation (3) ne limite pas nécessairement le nombre de coefficients cepstraux au nombre de coefficients de LPC et que le nombre de coefficients cepstraux peut en fait dépasser le nombre de coefficients de LPC.
Les dérivées de premier ordre des coefficients cepstraux peuvent être estimées en fonction des différences qui existent entre les coefficients cepstraux à partir des vecteurs de données temporairement adjacents. Toutefois, cette technique entraîne des estimations bruyantes. Les dérivées de premier ordre sont de préférence estimées en utilisant un polynôme de deuxième ordre adapté par l'utilisation d'une régression aux coefficients cepstraux d'un nombre prédéterminé de vecteurs de données consécutifs. Les ensembles supplémentaires de caractéristiques peuvent être générés à partir des dérivées d'ordre supérieur.
Les trames de caractéristiques sont réparties entre la pluralité des classificateurs 64 à 68. Un nombre quelconque de classificateurs peut être utilisé pour reconnaître les ordres vocaux. Généralement, chacun des classificateurs désigne un ordre vocal différent et génère un signal discriminant en fonction d'un développement polynomial de deuxième ordre, tel que celui représenté par l'équation (2). Les sorties des classificateurs 64 à 68 sont accumulées dans leurs accumulateurs correspondants 70 à 74. Chaque accumulateur additionne les sorties d'un classificateur respectif.
Cela entraîne la génération d'une pluralité de signaux discriminants accumulés correspondant à chaque classe.
Les signaux discriminants accumulés passent dans le sélecteur 76.
Le sélecteur 76 choisit un signal discriminant accumulé plus grand et génère le signal de commande en conséquence. Le signal de commande est fonction du signal discriminant accumulé le plus grand.
En réponse à un ordre vocal, le dispositif de télécommunication 50 configure l'interface 52 de façon à permettre à l'utilisateur d'accéder à la voie de télécommunication de différentes façons. Par exemple, lorsque la commande "aide" est reçue par le dispositif de télécommunication 50, l'interface 52 génère automatiquement un signal de diffusion d'urgence sur la voie de télécommunication. De plus, les ordres vocaux peuvent être séquentiellement combinés pour produire plusieurs configurations de l'interface 52.
La figure 4 représente un schéma fonctionnel d'un dispositif de télécommunication 82 selon un autre mode de réalisation de la présente invention. Le dispositif de télécommunication 82 représenté sur la figure 4 comporte les éléments 52 à 76 décrits conjointement avec la figure 3. Toutefois, contrairement au dispositif de télécommunication 50 décrit précédemment, le dispositif de télécommunication 82 de la figure 4 comporte un extracteur de caractéristiques modifié 80.
Dans ce mode de réalisation de la présente invention, l'extracteur de caractéristiques modifié 80 précède le SAD 60. Cela est possible du fait que les caractéristiques de niveau de mot ne sont pas extraites par l'extracteur de caractéristiques modifié 80. Le fait de placer l'extracteur de caractéristiques 80 avant le
SAD 60 offre un avantage en ce que cela réduit la quantité de mise en mémoire tampon nécessaire pour le dispositif de télécommunication 82, ce qui réduit par conséquent l'espace de mémoire total requis par le système de reconnaissance vocale.
SAD 60 offre un avantage en ce que cela réduit la quantité de mise en mémoire tampon nécessaire pour le dispositif de télécommunication 82, ce qui réduit par conséquent l'espace de mémoire total requis par le système de reconnaissance vocale.
A l'exception de l'extraction de caractéristiques du niveau de mot, l'extracteur de caractéristiques modifié 80 effectue essentiellement les mêmes fonctions que celles décrites pour l'extracteur de caractéristiques 62 de la figure 3.
La figure 5 est un graphique des niveaux d'énergie d'une séquence de trames de données. Les niveaux d'énergie des trames sont déterminés par la caractéristique d'auto-corrélation du pré-processeur 58.
L'axe X du graphique indique l'ordre temporel de la séquence de trames, alors que l'axe Y indique les niveaux d'énergie des trames. Le seuil de bruit de fond est également indiqué sur l'axe Y.
Le SAD 60 détecte les limites d'un ordre vocal en déterminant des transitions de niveau d'énergie à travers le seuil de bruit de fond.
Dans un mode de réalisation préféré de la présente invention, le SAD 60 associe une limite de début de mot à une transition de niveau d'énergie positif qui est suivie d'un intervalle prédéterminé de vecteurs de données ayant des niveaux d'énergie dépassant le seuil. A l'inverse, le
SAD 60 associe une limite de fin de mot à une transition de niveau d'énergie négatif qui est suivie par les niveaux d'énergie de vecteurs restant inférieurs au seuil de bruit pendant un intervalle de pause suivant.
SAD 60 associe une limite de fin de mot à une transition de niveau d'énergie négatif qui est suivie par les niveaux d'énergie de vecteurs restant inférieurs au seuil de bruit pendant un intervalle de pause suivant.
Lors de l'acquisition en temps réel des ordres vocaux, un système de reconnaissance vocale doit être capable d'accepter des ordres vocaux dont le profil d'énergie est devenu provisoirement nettement inférieur au seuil de bruit. En tenant compte des variations des niveaux d'énergie après une transition, le SAD 60 améliore de façon considérable la précision du système de reconnaissance vocale car il est moins susceptible de détecter de façon fausse une limite de fin de mot.
Dans l'exemple représenté, la trame 4 représente la première trame d'un ordre vocal. La fin de mot est détectée lorsque le niveau d'énergie d'une trame devient inférieur au seuil. Dans ce cas, la trame 10 représente la dernière trame de l'ordre vocal.
L'intervalle de pause ne doit pas être trop court afin d'éviter un déclenchement faux d'une détection de fin de mot, et pas trop long de façon qu'il n'y ait pas une pause trop longue entre les ordres vocaux.
La figure 6 illustre un système de télécommunication qui peut incorporer un dispositif de télécommunication mettant en oeuvre la présente invention. Le système de télécommunication comporte un dispositif de télécommunication 90, une liaison de télécommunication 92 et une station de base 94. Le dispositif de télécommunication 90 comporte l'un des nombreux modes de réalisation de la présente invention, tel que l'un de ceux représentés sur les figures 1, 3 et 4. La liaison de télécommunication peut être une liaison radioélectrique, alors que la station de base 94 peut être un site cellulaire ou une station de base radioélectrique. Le dispositif de télécommunication 90 peut être utilisé pour faire passer des données dans d'autres dispositifs de télécommunication (non représentés) qui sont liés de façon similaire à la station de base 94.
En résumé, le présent document a décrit un concept, ainsi qu'un mode de réalisation préféré, d'un dispositif de télécommunication et d'un procédé pouvant être utilisé pour avoir accès à une voie de télécommunication en fonction d'ordres vocaux. Puisque les différents modes de réalisation du dispositif de télécommunication tel que décrit dans le présent document utilisent des fonctions discriminantes polynomiales, ils sont insensibles aux différences entre interlocuteurs, ce qui permet d'obtenir un haut degré de fiabilité. Puisque les fonctions discriminantes polynomiales sont conçues pour des espaces pris pour exemples, à l'aide d'une estimation des plus petits carrés ou d'une technique d'inversion matricielle, une formation répétitive des classificateurs n est pas nécessaire.
Bien que des modes de réalisation spécifiques de la présente invention aient été représentés et décrits, les spécialistes de la technique comprendront que l'invention décrite peut être modifiée de nombreuses façons et peut accepter de nombreux modes de réalisation autres que le mode préféré spécifiquement décrit et illustré ci-dessus.
Par conséquent, les revendications jointes sont censées recouvrir toutes les modifications de l'invention qui restent dans le véritable esprit et la portée de l'invention.
Claims (10)
1. Dispositif de télécommunication comprenant
une interface permettant à un utilisateur d'avoir accès à une voie de télécommunication en fonction d'un signal de commande ; et
un système de reconnaissance vocale permettant de produire le signal de commande en réponse à un ordre vocal, le système de reconnaissance vocale comportant
un extracteur de caractéristiques permettant d'extraire une pluralité de caractéristiques de l'ordre vocal ; et
un classificateur permettant de générer un signal discriminant selon un développement polynomial présentant la forme suivante
dans lequel le signal de commande est fondé sur le signal discriminant.
ou xj représente la pluralité de caractéristiques, y représente le signal discriminant, Wi représente un coefficient, gji représente un exposant et i, j, m et n sont des entiers ;
2. Dispositif de télécommunication selon la revendication 1, dans lequel l'interface comporte un dispositif choisi parmi un groupe comprenant : un radiotéléphone bilatéral, un téléphone, un PDA et un dispositif d'appel de personnes.
3. Dispositif de télécommunication selon la revendication 1, dans lequel le système de reconnaissance vocale comprend en outre
un pré-processeur, associé de façon opérationnelle à l'extracteur de caractéristiques, permettant de transformer un signal audio, en utilisant des techniques de traitement du signal, en une séquence de vecteurs de données qui représentent l'ordre vocal et à partir desquelles la pluralité de caractéristiques est extraite.
4. Dispositif de télécommunication comprenant
un pré-processeur permettant de transformer un signal audio en une séquence de vecteurs de données ;
un moyen d'extraction permettant d'extraire une pluralité de trames de caractéristiques de la séquence de vecteurs de données
une pluralité de classificateurs permettant de générer une pluralité de signaux discriminants, chaque classificateur de la pluralité de classificateurs désignant un ordre vocal différent et générant un signal discriminant en fonction d'un développement polynomial présentant la formule suivante
une interface audio bilatérale permettant d'émettre et recevoir des données sur une voie de télécommunication en fonction d'un signal de commande, le signal de commande étant fonction du signal discriminant accumulé le plus grand.
un sélecteur permettant de choisir un signal discriminant accumulé le plus grand parmi la pluralité de signaux discriminants accumulés ; et
un accumulateur permettant de générer une pluralité de signaux discriminants accumulés, l'accumulateur générant chacun des signaux discriminants accumulés de la pluralité de signaux discriminants accumulés en additionnant certains des signaux discriminants parmi la pluralité de signaux discriminants produits par un classificateur respectif parmi la pluralité de classificateurs
où xj représente une trame de caractéristiques, y représente le signal discriminant, Wi représente un coefficient, gji représente un exposant et i, j, m et n sont des entiers
5. Dispositif de télécommunication selon la revendication 7, dans lequel le moyen d'extraction comporte
un extracteur de caractéristiques permettant d'extraire une séquence de trames de caractéristiques de la séquence de vecteurs de données ; et
un détecteur d'activité vocale permettant de choisir dans la séquence de trames de caractéristiques la pluralité de trames de caractéristiques représentant un ordre vocal.
6. Dispositif de télécommunication selon la revendication 7, dans lequel le moyen d'extraction comporte
un détecteur d'activité vocale permettant de choisir dans la séquence de vecteurs de données une sousséquence de vecteurs représentant un ordre vocal ; et
un extracteur de caractéristiques permettant d'extraire une pluralité de trames de caractéristiques dans la sous-séquence de vecteurs.
8. Procédé permettant de commander l'accès à une voie de télécommunication, comprenant les étapes suivantes
réception d'un ordre vocal
extraction d'une pluralité de caractéristiques dans l'ordre vocal
génération d'un signal discriminant sur la base d'un développement polynomial présentant la forme suivante
accès à la voie de télécommunication en fonction du signal discriminant.
où xj représente la pluralité de caractéristiques, x représente le signal discriminant, Wi représente un coefficient, gji représente un exposant et i, j, m et n sont des entiers ; et
9. Procédé selon la revendication 20, comprenant en outre les étapes de
transformation d'un signal audio, en utilisant des techniques de traitement du signal, en une séquence de vecteurs de données qui représente l'ordre vocal et à partir de laquelle la pluralité de caractéristiques est extraite.
10. Procédé selon la revendication 20, dans lequel l'étape d'extraction comporte la sous-étape de
génération de la pluralité de caractéristiques choisie parmi un groupe composé de : coefficients cepstraux, dérivées de premier ordre de coefficients oepstraux et caractéristiques de niveau de mot.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/579,714 US5749072A (en) | 1994-06-03 | 1995-12-28 | Communications device responsive to spoken commands and methods of using same |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2743238A1 true FR2743238A1 (fr) | 1997-07-04 |
FR2743238B1 FR2743238B1 (fr) | 1999-04-16 |
Family
ID=24318053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9615726A Expired - Fee Related FR2743238B1 (fr) | 1995-12-28 | 1996-12-20 | Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci |
Country Status (6)
Country | Link |
---|---|
US (1) | US5749072A (fr) |
AR (1) | AR005286A1 (fr) |
AU (1) | AU1330497A (fr) |
FR (1) | FR2743238B1 (fr) |
TW (1) | TW396699B (fr) |
WO (1) | WO1997024710A1 (fr) |
Families Citing this family (202)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3536471B2 (ja) * | 1995-09-26 | 2004-06-07 | ソニー株式会社 | 識別装置および識別方法、並びに音声認識装置および音声認識方法 |
JP3702978B2 (ja) * | 1996-12-26 | 2005-10-05 | ソニー株式会社 | 認識装置および認識方法、並びに学習装置および学習方法 |
US5930748A (en) * | 1997-07-11 | 1999-07-27 | Motorola, Inc. | Speaker identification system and method |
US6154662A (en) * | 1998-02-27 | 2000-11-28 | Lucent Technologies Inc. | Providing voice dialing service for wireless roamers |
US6131089A (en) * | 1998-05-04 | 2000-10-10 | Motorola, Inc. | Pattern classifier with training system and methods of operation therefor |
US6434403B1 (en) * | 1999-02-19 | 2002-08-13 | Bodycom, Inc. | Personal digital assistant with wireless telephone |
US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
US6536536B1 (en) | 1999-04-29 | 2003-03-25 | Stephen F. Gass | Power tools |
US6542721B2 (en) | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
US6560468B1 (en) * | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US6920229B2 (en) * | 1999-05-10 | 2005-07-19 | Peter V. Boesen | Earpiece with an inertial sensor |
US6952483B2 (en) * | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US6879698B2 (en) * | 1999-05-10 | 2005-04-12 | Peter V. Boesen | Cellular telephone, personal digital assistant with voice communication unit |
WO2001011604A1 (fr) | 1999-08-10 | 2001-02-15 | Telogy Networks, Inc. | Estimation de l'energie de fond |
US20020173721A1 (en) * | 1999-08-20 | 2002-11-21 | Novasonics, Inc. | User interface for handheld imaging devices |
US6685645B1 (en) | 2001-10-20 | 2004-02-03 | Zonare Medical Systems, Inc. | Broad-beam imaging |
US6733455B2 (en) * | 1999-08-20 | 2004-05-11 | Zonare Medical Systems, Inc. | System and method for adaptive clutter filtering in ultrasound color flow imaging |
US6490443B1 (en) | 1999-09-02 | 2002-12-03 | Automated Business Companies | Communication and proximity authorization systems |
US7508411B2 (en) * | 1999-10-11 | 2009-03-24 | S.P. Technologies Llp | Personal communications device |
US6970915B1 (en) | 1999-11-01 | 2005-11-29 | Tellme Networks, Inc. | Streaming content over a telephone interface |
US7941481B1 (en) | 1999-10-22 | 2011-05-10 | Tellme Networks, Inc. | Updating an electronic phonebook over electronic communication networks |
US6807574B1 (en) | 1999-10-22 | 2004-10-19 | Tellme Networks, Inc. | Method and apparatus for content personalization over a telephone interface |
US7376586B1 (en) | 1999-10-22 | 2008-05-20 | Microsoft Corporation | Method and apparatus for electronic commerce using a telephone interface |
US6744885B1 (en) * | 2000-02-24 | 2004-06-01 | Lucent Technologies Inc. | ASR talkoff suppressor |
US8131555B1 (en) | 2000-03-21 | 2012-03-06 | Aol Inc. | System and method for funneling user responses in an internet voice portal system to determine a desired item or service |
CA2413657A1 (fr) * | 2000-06-16 | 2001-12-20 | Healthetech, Inc. | Dispositif de reconnaissance vocale pour assistant numerique |
KR100366057B1 (ko) * | 2000-06-26 | 2002-12-27 | 한국과학기술원 | 인간 청각 모델을 이용한 효율적인 음성인식 장치 |
US7143039B1 (en) | 2000-08-11 | 2006-11-28 | Tellme Networks, Inc. | Providing menu and other services for an information processing system using a telephone or other audio interface |
US10390074B2 (en) | 2000-08-08 | 2019-08-20 | The Directv Group, Inc. | One click web records |
US9171851B2 (en) * | 2000-08-08 | 2015-10-27 | The Directv Group, Inc. | One click web records |
JP2004506350A (ja) * | 2000-08-08 | 2004-02-26 | リプレイティブィ・インコーポレーテッド | リモートテレビジョン再生制御 |
US7072328B2 (en) | 2001-01-12 | 2006-07-04 | Voicegenie Technologies Inc. | Computer-implemented voice markup language-based server |
US20020095330A1 (en) * | 2001-01-12 | 2002-07-18 | Stuart Berkowitz | Audio Advertising computer system and method |
US20020095473A1 (en) * | 2001-01-12 | 2002-07-18 | Stuart Berkowitz | Home-based client-side media computer |
US7379973B2 (en) | 2001-01-12 | 2008-05-27 | Voicegenie Technologies, Inc. | Computer-implemented voice application indexing web site |
US6889190B2 (en) * | 2001-01-25 | 2005-05-03 | Rodan Enterprises, Llc | Hand held medical prescription transcriber and printer unit |
US6496709B2 (en) | 2001-03-02 | 2002-12-17 | Motorola, Inc. | Apparatus and method for speed sensitive operation in a wireless communication device |
US8175886B2 (en) | 2001-03-29 | 2012-05-08 | Intellisist, Inc. | Determination of signal-processing approach based on signal destination characteristics |
US20050065779A1 (en) * | 2001-03-29 | 2005-03-24 | Gilad Odinak | Comprehensive multiple feature telematics system |
US20020143611A1 (en) * | 2001-03-29 | 2002-10-03 | Gilad Odinak | Vehicle parking validation system and method |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
USRE46109E1 (en) * | 2001-03-29 | 2016-08-16 | Lg Electronics Inc. | Vehicle navigation system and method |
US6487494B2 (en) * | 2001-03-29 | 2002-11-26 | Wingcast, Llc | System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation |
WO2002091358A1 (fr) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Procede et appareil pour rejeter des resultats de reconnaissance vocale en fonction d'un niveau de confiance |
US7031444B2 (en) * | 2001-06-29 | 2006-04-18 | Voicegenie Technologies, Inc. | Computer-implemented voice markup system and method |
ATE310302T1 (de) * | 2001-09-28 | 2005-12-15 | Cit Alcatel | Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit |
US8527280B2 (en) * | 2001-12-13 | 2013-09-03 | Peter V. Boesen | Voice communication device with foreign language translation |
AU2003248523A1 (en) | 2002-05-16 | 2003-12-02 | Intellisist, Llc | System and method for dynamically configuring wireless network geographic coverage or service levels |
JP4837917B2 (ja) * | 2002-10-23 | 2011-12-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
US7593842B2 (en) * | 2002-12-10 | 2009-09-22 | Leslie Rousseau | Device and method for translating language |
US20040243415A1 (en) * | 2003-06-02 | 2004-12-02 | International Business Machines Corporation | Architecture for a speech input method editor for handheld portable devices |
US20050153596A1 (en) * | 2004-01-13 | 2005-07-14 | Vanwambeke Weston | Power tool battery connector |
US20080154601A1 (en) * | 2004-09-29 | 2008-06-26 | Microsoft Corporation | Method and system for providing menu and other services for an information processing system using a telephone or other audio interface |
US8417185B2 (en) * | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US7885419B2 (en) * | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US20070198271A1 (en) * | 2006-02-23 | 2007-08-23 | Dana Abramson | Method for training a user of speech recognition software |
US8223961B2 (en) * | 2006-12-14 | 2012-07-17 | Motorola Mobility, Inc. | Method and device for answering an incoming call |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20080221884A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US20080221900A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile local search environment speech processing facility |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US9128981B1 (en) | 2008-07-29 | 2015-09-08 | James L. Geer | Phone assisted ‘photographic memory’ |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
US8255218B1 (en) * | 2011-09-26 | 2012-08-28 | Google Inc. | Directing dictation into input fields |
US9367612B1 (en) * | 2011-11-18 | 2016-06-14 | Google Inc. | Correlation-based method for representing long-timescale structure in time-series data |
US8543397B1 (en) | 2012-10-11 | 2013-09-24 | Google Inc. | Mobile device voice activation |
US10234133B2 (en) | 2015-08-29 | 2019-03-19 | Bragi GmbH | System and method for prevention of LED light spillage |
US9755704B2 (en) | 2015-08-29 | 2017-09-05 | Bragi GmbH | Multimodal communication system induction and radio and method |
US10203773B2 (en) | 2015-08-29 | 2019-02-12 | Bragi GmbH | Interactive product packaging system and method |
US10122421B2 (en) | 2015-08-29 | 2018-11-06 | Bragi GmbH | Multimodal communication system using induction and radio and method |
US9813826B2 (en) | 2015-08-29 | 2017-11-07 | Bragi GmbH | Earpiece with electronic environmental sound pass-through system |
US9800966B2 (en) | 2015-08-29 | 2017-10-24 | Bragi GmbH | Smart case power utilization control system and method |
US9905088B2 (en) | 2015-08-29 | 2018-02-27 | Bragi GmbH | Responsive visual communication system and method |
US10194232B2 (en) | 2015-08-29 | 2019-01-29 | Bragi GmbH | Responsive packaging system for managing display actions |
US9949008B2 (en) | 2015-08-29 | 2018-04-17 | Bragi GmbH | Reproduction of ambient environmental sound for acoustic transparency of ear canal device system and method |
US10194228B2 (en) | 2015-08-29 | 2019-01-29 | Bragi GmbH | Load balancing to maximize device function in a personal area network device system and method |
US10409394B2 (en) | 2015-08-29 | 2019-09-10 | Bragi GmbH | Gesture based control system based upon device orientation system and method |
US9866282B2 (en) | 2015-08-29 | 2018-01-09 | Bragi GmbH | Magnetic induction antenna for use in a wearable device |
US9854372B2 (en) | 2015-08-29 | 2017-12-26 | Bragi GmbH | Production line PCB serial programming and testing method and system |
US9972895B2 (en) | 2015-08-29 | 2018-05-15 | Bragi GmbH | Antenna for use in a wearable device |
US9843853B2 (en) | 2015-08-29 | 2017-12-12 | Bragi GmbH | Power control for battery powered personal area network device system and method |
US9949013B2 (en) | 2015-08-29 | 2018-04-17 | Bragi GmbH | Near field gesture control system and method |
US10453450B2 (en) | 2015-10-20 | 2019-10-22 | Bragi GmbH | Wearable earpiece voice command control system and method |
US9866941B2 (en) | 2015-10-20 | 2018-01-09 | Bragi GmbH | Multi-point multiple sensor array for data sensing and processing system and method |
US10506322B2 (en) | 2015-10-20 | 2019-12-10 | Bragi GmbH | Wearable device onboard applications system and method |
US9980189B2 (en) | 2015-10-20 | 2018-05-22 | Bragi GmbH | Diversity bluetooth system and method |
US10175753B2 (en) | 2015-10-20 | 2019-01-08 | Bragi GmbH | Second screen devices utilizing data from ear worn device system and method |
US20170111723A1 (en) | 2015-10-20 | 2017-04-20 | Bragi GmbH | Personal Area Network Devices System and Method |
US10206042B2 (en) | 2015-10-20 | 2019-02-12 | Bragi GmbH | 3D sound field using bilateral earpieces system and method |
US10104458B2 (en) | 2015-10-20 | 2018-10-16 | Bragi GmbH | Enhanced biometric control systems for detection of emergency events system and method |
US10635385B2 (en) | 2015-11-13 | 2020-04-28 | Bragi GmbH | Method and apparatus for interfacing with wireless earpieces |
US9978278B2 (en) | 2015-11-27 | 2018-05-22 | Bragi GmbH | Vehicle to vehicle communications using ear pieces |
US10099636B2 (en) | 2015-11-27 | 2018-10-16 | Bragi GmbH | System and method for determining a user role and user settings associated with a vehicle |
US10104460B2 (en) | 2015-11-27 | 2018-10-16 | Bragi GmbH | Vehicle with interaction between entertainment systems and wearable devices |
US9944295B2 (en) | 2015-11-27 | 2018-04-17 | Bragi GmbH | Vehicle with wearable for identifying role of one or more users and adjustment of user settings |
US10040423B2 (en) | 2015-11-27 | 2018-08-07 | Bragi GmbH | Vehicle with wearable for identifying one or more vehicle occupants |
US10542340B2 (en) | 2015-11-30 | 2020-01-21 | Bragi GmbH | Power management for wireless earpieces |
US10099374B2 (en) | 2015-12-01 | 2018-10-16 | Bragi GmbH | Robotic safety using wearables |
US9980033B2 (en) | 2015-12-21 | 2018-05-22 | Bragi GmbH | Microphone natural speech capture voice dictation system and method |
US9939891B2 (en) | 2015-12-21 | 2018-04-10 | Bragi GmbH | Voice dictation systems using earpiece microphone system and method |
US10206052B2 (en) | 2015-12-22 | 2019-02-12 | Bragi GmbH | Analytical determination of remote battery temperature through distributed sensor array system and method |
US10575083B2 (en) | 2015-12-22 | 2020-02-25 | Bragi GmbH | Near field based earpiece data transfer system and method |
US10154332B2 (en) | 2015-12-29 | 2018-12-11 | Bragi GmbH | Power management for wireless earpieces utilizing sensor measurements |
US10334345B2 (en) | 2015-12-29 | 2019-06-25 | Bragi GmbH | Notification and activation system utilizing onboard sensors of wireless earpieces |
US10200790B2 (en) | 2016-01-15 | 2019-02-05 | Bragi GmbH | Earpiece with cellular connectivity |
US10104486B2 (en) | 2016-01-25 | 2018-10-16 | Bragi GmbH | In-ear sensor calibration and detecting system and method |
US10129620B2 (en) | 2016-01-25 | 2018-11-13 | Bragi GmbH | Multilayer approach to hydrophobic and oleophobic system and method |
US10085091B2 (en) | 2016-02-09 | 2018-09-25 | Bragi GmbH | Ambient volume modification through environmental microphone feedback loop system and method |
US10327082B2 (en) | 2016-03-02 | 2019-06-18 | Bragi GmbH | Location based tracking using a wireless earpiece device, system, and method |
US10667033B2 (en) | 2016-03-02 | 2020-05-26 | Bragi GmbH | Multifactorial unlocking function for smart wearable device and method |
US10085082B2 (en) | 2016-03-11 | 2018-09-25 | Bragi GmbH | Earpiece with GPS receiver |
US10045116B2 (en) | 2016-03-14 | 2018-08-07 | Bragi GmbH | Explosive sound pressure level active noise cancellation utilizing completely wireless earpieces system and method |
US10052065B2 (en) | 2016-03-23 | 2018-08-21 | Bragi GmbH | Earpiece life monitor with capability of automatic notification system and method |
US10334346B2 (en) | 2016-03-24 | 2019-06-25 | Bragi GmbH | Real-time multivariable biometric analysis and display system and method |
US10856809B2 (en) | 2016-03-24 | 2020-12-08 | Bragi GmbH | Earpiece with glucose sensor and system |
US11799852B2 (en) | 2016-03-29 | 2023-10-24 | Bragi GmbH | Wireless dongle for communications with wireless earpieces |
USD821970S1 (en) | 2016-04-07 | 2018-07-03 | Bragi GmbH | Wearable device charger |
USD805060S1 (en) | 2016-04-07 | 2017-12-12 | Bragi GmbH | Earphone |
USD819438S1 (en) | 2016-04-07 | 2018-06-05 | Bragi GmbH | Package |
USD823835S1 (en) | 2016-04-07 | 2018-07-24 | Bragi GmbH | Earphone |
US10015579B2 (en) | 2016-04-08 | 2018-07-03 | Bragi GmbH | Audio accelerometric feedback through bilateral ear worn device system and method |
US10747337B2 (en) | 2016-04-26 | 2020-08-18 | Bragi GmbH | Mechanical detection of a touch movement using a sensor and a special surface pattern system and method |
US10013542B2 (en) | 2016-04-28 | 2018-07-03 | Bragi GmbH | Biometric interface system and method |
USD836089S1 (en) | 2016-05-06 | 2018-12-18 | Bragi GmbH | Headphone |
USD824371S1 (en) | 2016-05-06 | 2018-07-31 | Bragi GmbH | Headphone |
US10045110B2 (en) | 2016-07-06 | 2018-08-07 | Bragi GmbH | Selective sound field environment processing system and method |
US10555700B2 (en) | 2016-07-06 | 2020-02-11 | Bragi GmbH | Combined optical sensor for audio and pulse oximetry system and method |
US10201309B2 (en) | 2016-07-06 | 2019-02-12 | Bragi GmbH | Detection of physiological data using radar/lidar of wireless earpieces |
US10216474B2 (en) | 2016-07-06 | 2019-02-26 | Bragi GmbH | Variable computing engine for interactive media based upon user biometrics |
US10582328B2 (en) | 2016-07-06 | 2020-03-03 | Bragi GmbH | Audio response based on user worn microphones to direct or adapt program responses system and method |
US11085871B2 (en) | 2016-07-06 | 2021-08-10 | Bragi GmbH | Optical vibration detection system and method |
US10888039B2 (en) | 2016-07-06 | 2021-01-05 | Bragi GmbH | Shielded case for wireless earpieces |
US10158934B2 (en) | 2016-07-07 | 2018-12-18 | Bragi GmbH | Case for multiple earpiece pairs |
US10621583B2 (en) | 2016-07-07 | 2020-04-14 | Bragi GmbH | Wearable earpiece multifactorial biometric analysis system and method |
US10516930B2 (en) | 2016-07-07 | 2019-12-24 | Bragi GmbH | Comparative analysis of sensors to control power status for wireless earpieces |
US10165350B2 (en) | 2016-07-07 | 2018-12-25 | Bragi GmbH | Earpiece with app environment |
US10587943B2 (en) | 2016-07-09 | 2020-03-10 | Bragi GmbH | Earpiece with wirelessly recharging battery |
US10397686B2 (en) | 2016-08-15 | 2019-08-27 | Bragi GmbH | Detection of movement adjacent an earpiece device |
US10977348B2 (en) | 2016-08-24 | 2021-04-13 | Bragi GmbH | Digital signature using phonometry and compiled biometric data system and method |
US10104464B2 (en) | 2016-08-25 | 2018-10-16 | Bragi GmbH | Wireless earpiece and smart glasses system and method |
US10409091B2 (en) | 2016-08-25 | 2019-09-10 | Bragi GmbH | Wearable with lenses |
US10887679B2 (en) | 2016-08-26 | 2021-01-05 | Bragi GmbH | Earpiece for audiograms |
US11200026B2 (en) | 2016-08-26 | 2021-12-14 | Bragi GmbH | Wireless earpiece with a passive virtual assistant |
US10313779B2 (en) | 2016-08-26 | 2019-06-04 | Bragi GmbH | Voice assistant system for wireless earpieces |
US11086593B2 (en) | 2016-08-26 | 2021-08-10 | Bragi GmbH | Voice assistant for wireless earpieces |
US10200780B2 (en) | 2016-08-29 | 2019-02-05 | Bragi GmbH | Method and apparatus for conveying battery life of wireless earpiece |
US11490858B2 (en) | 2016-08-31 | 2022-11-08 | Bragi GmbH | Disposable sensor array wearable device sleeve system and method |
USD822645S1 (en) | 2016-09-03 | 2018-07-10 | Bragi GmbH | Headphone |
US10598506B2 (en) | 2016-09-12 | 2020-03-24 | Bragi GmbH | Audio navigation using short range bilateral earpieces |
US10580282B2 (en) | 2016-09-12 | 2020-03-03 | Bragi GmbH | Ear based contextual environment and biometric pattern recognition system and method |
US10852829B2 (en) | 2016-09-13 | 2020-12-01 | Bragi GmbH | Measurement of facial muscle EMG potentials for predictive analysis using a smart wearable system and method |
US11283742B2 (en) | 2016-09-27 | 2022-03-22 | Bragi GmbH | Audio-based social media platform |
US10460095B2 (en) | 2016-09-30 | 2019-10-29 | Bragi GmbH | Earpiece with biometric identifiers |
US10049184B2 (en) | 2016-10-07 | 2018-08-14 | Bragi GmbH | Software application transmission via body interface using a wearable device in conjunction with removable body sensor arrays system and method |
US10942701B2 (en) | 2016-10-31 | 2021-03-09 | Bragi GmbH | Input and edit functions utilizing accelerometer based earpiece movement system and method |
US10698983B2 (en) | 2016-10-31 | 2020-06-30 | Bragi GmbH | Wireless earpiece with a medical engine |
US10455313B2 (en) | 2016-10-31 | 2019-10-22 | Bragi GmbH | Wireless earpiece with force feedback |
US10771877B2 (en) | 2016-10-31 | 2020-09-08 | Bragi GmbH | Dual earpieces for same ear |
US10117604B2 (en) | 2016-11-02 | 2018-11-06 | Bragi GmbH | 3D sound positioning with distributed sensors |
US10617297B2 (en) | 2016-11-02 | 2020-04-14 | Bragi GmbH | Earpiece with in-ear electrodes |
US10062373B2 (en) | 2016-11-03 | 2018-08-28 | Bragi GmbH | Selective audio isolation from body generated sound system and method |
US10205814B2 (en) | 2016-11-03 | 2019-02-12 | Bragi GmbH | Wireless earpiece with walkie-talkie functionality |
US10225638B2 (en) | 2016-11-03 | 2019-03-05 | Bragi GmbH | Ear piece with pseudolite connectivity |
US10821361B2 (en) | 2016-11-03 | 2020-11-03 | Bragi GmbH | Gaming with earpiece 3D audio |
US10045117B2 (en) | 2016-11-04 | 2018-08-07 | Bragi GmbH | Earpiece with modified ambient environment over-ride function |
US10063957B2 (en) | 2016-11-04 | 2018-08-28 | Bragi GmbH | Earpiece with source selection within ambient environment |
US10058282B2 (en) | 2016-11-04 | 2018-08-28 | Bragi GmbH | Manual operation assistance with earpiece with 3D sound cues |
US10045112B2 (en) | 2016-11-04 | 2018-08-07 | Bragi GmbH | Earpiece with added ambient environment |
US10506327B2 (en) | 2016-12-27 | 2019-12-10 | Bragi GmbH | Ambient environmental sound field manipulation based on user defined voice and audio recognition pattern analysis system and method |
US10405081B2 (en) | 2017-02-08 | 2019-09-03 | Bragi GmbH | Intelligent wireless headset system |
US10582290B2 (en) | 2017-02-21 | 2020-03-03 | Bragi GmbH | Earpiece with tap functionality |
US10771881B2 (en) | 2017-02-27 | 2020-09-08 | Bragi GmbH | Earpiece with audio 3D menu |
US11380430B2 (en) | 2017-03-22 | 2022-07-05 | Bragi GmbH | System and method for populating electronic medical records with wireless earpieces |
US11544104B2 (en) | 2017-03-22 | 2023-01-03 | Bragi GmbH | Load sharing between wireless earpieces |
US10575086B2 (en) | 2017-03-22 | 2020-02-25 | Bragi GmbH | System and method for sharing wireless earpieces |
US11694771B2 (en) | 2017-03-22 | 2023-07-04 | Bragi GmbH | System and method for populating electronic health records with wireless earpieces |
US10708699B2 (en) | 2017-05-03 | 2020-07-07 | Bragi GmbH | Hearing aid with added functionality |
US11116415B2 (en) | 2017-06-07 | 2021-09-14 | Bragi GmbH | Use of body-worn radar for biometric measurements, contextual awareness and identification |
US11013445B2 (en) | 2017-06-08 | 2021-05-25 | Bragi GmbH | Wireless earpiece with transcranial stimulation |
US10344960B2 (en) | 2017-09-19 | 2019-07-09 | Bragi GmbH | Wireless earpiece controlled medical headlight |
US11272367B2 (en) | 2017-09-20 | 2022-03-08 | Bragi GmbH | Wireless earpieces for hub communications |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995034063A1 (fr) * | 1994-06-06 | 1995-12-14 | Motorola Inc. | Procede de decoupage d'une sequence de trames de donnees |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
DE69030561T2 (de) * | 1989-12-28 | 1997-10-09 | Sharp Kk | Spracherkennungseinrichtung |
US5365592A (en) * | 1990-07-19 | 1994-11-15 | Hughes Aircraft Company | Digital voice detection apparatus and method using transform domain processing |
US5212765A (en) * | 1990-08-03 | 1993-05-18 | E. I. Du Pont De Nemours & Co., Inc. | On-line training neural network system for process control |
US5408588A (en) * | 1991-06-06 | 1995-04-18 | Ulug; Mehmet E. | Artificial neural network method and architecture |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5487133A (en) * | 1993-07-01 | 1996-01-23 | Intel Corporation | Distance calculating neural network classifier chip and system |
US5509103A (en) * | 1994-06-03 | 1996-04-16 | Motorola, Inc. | Method of training neural networks used for speech recognition |
US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
-
1995
- 1995-12-28 US US08/579,714 patent/US5749072A/en not_active Expired - Fee Related
-
1996
- 1996-12-06 WO PCT/US1996/019488 patent/WO1997024710A1/fr active Application Filing
- 1996-12-06 AU AU13304/97A patent/AU1330497A/en not_active Abandoned
- 1996-12-20 FR FR9615726A patent/FR2743238B1/fr not_active Expired - Fee Related
- 1996-12-27 AR ARP960105907A patent/AR005286A1/es not_active Application Discontinuation
-
1997
- 1997-01-08 TW TW086100144A patent/TW396699B/zh not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995034063A1 (fr) * | 1994-06-06 | 1995-12-14 | Motorola Inc. | Procede de decoupage d'une sequence de trames de donnees |
Non-Patent Citations (3)
Title |
---|
FLAHERTY ET AL.: "Orthogonal transformations of stacked feature vectors applied to HMM speech recognition", IEE PROCEEDINGS I. SOLID- STATE & ELECTRON DEVICES, vol. 140, no. 2 PART I, 1 April 1993 (1993-04-01), pages 121 - 126, XP000362960 * |
FURUI: "Speaker-independent isolated word recognition based on emphasized spectral dynamics", INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 1986, vol. 3, 7 April 1986 (1986-04-07) - 11 April 1986 (1986-04-11), TOKYO, JP, pages 1991 - 1994, XP002062257 * |
SIN-HORNG ET AL.: "Generalized minimal distortion segmentation for ANN-based speech recognition", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 3, no. 2, March 1995 (1995-03-01), US, pages 141 - 145, XP002062665 * |
Also Published As
Publication number | Publication date |
---|---|
AR005286A1 (es) | 1999-04-28 |
US5749072A (en) | 1998-05-05 |
FR2743238B1 (fr) | 1999-04-16 |
TW396699B (en) | 2000-07-01 |
AU1330497A (en) | 1997-07-28 |
WO1997024710A1 (fr) | 1997-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2743238A1 (fr) | Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci | |
US10008197B2 (en) | Keyword detector and keyword detection method | |
EP1154405B1 (fr) | Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant | |
EP0932964B1 (fr) | Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique | |
EP0818036B1 (fr) | Procede de reconnaissance vocale en ambiance severe, et dispositif de mise en oeuvre | |
EP0867856A1 (fr) | "Méthode et dispositif de detection d'activité vocale" | |
CN113470671B (zh) | 一种充分利用视觉与语音联系的视听语音增强方法及系统 | |
FR2522179A1 (fr) | Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
EP1451548A2 (fr) | System de detection de parole dans un signal audio en environnement bruite | |
FR2853126A1 (fr) | Procede de reconnaissance de parole distribuee | |
FR2769118A1 (fr) | Procede de reconnaissance de parole | |
CA2932449A1 (fr) | Procede de detection de la voix | |
CN115472174A (zh) | 声音降噪方法和装置、电子设备和存储介质 | |
EP0692883A1 (fr) | Procédé d'égalisation aveugle et son application à la reconnaissance de la parole | |
EP1543502B1 (fr) | Procede de reconnaissance vocale avec correction automatique | |
EP3627510A1 (fr) | Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale | |
WO2020049263A1 (fr) | Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel | |
FR2681715A1 (fr) | Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire . | |
CN113689886B (zh) | 语音数据情感检测方法、装置、电子设备和存储介质 | |
JP2000276200A (ja) | 声質変換システム | |
CN118338184B (zh) | 基于aigc的耳机智能降噪方法及装置 | |
CN116682416A (zh) | 一种振铃音类型识别方法及装置 | |
EP1665231B1 (fr) | Procede pour le dopage non supervise et le rejet des mots hors vocabulaire en reconnaissance vocale | |
WO2023057384A1 (fr) | Procédé d'analyse d'un signal sonore bruité pour la reconnaissance de mots clé de commande et d'un locuteur du signal sonore bruité analysé |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |