FR2743238A1 - Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci - Google Patents

Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci Download PDF

Info

Publication number
FR2743238A1
FR2743238A1 FR9615726A FR9615726A FR2743238A1 FR 2743238 A1 FR2743238 A1 FR 2743238A1 FR 9615726 A FR9615726 A FR 9615726A FR 9615726 A FR9615726 A FR 9615726A FR 2743238 A1 FR2743238 A1 FR 2743238A1
Authority
FR
France
Prior art keywords
signal
discriminating
sequence
voice
telecommunication device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9615726A
Other languages
English (en)
Other versions
FR2743238B1 (fr
Inventor
Theodore Mazurkiewicz
Gil E Levendel
Shay Ping Thomas Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of FR2743238A1 publication Critical patent/FR2743238A1/fr
Application granted granted Critical
Publication of FR2743238B1 publication Critical patent/FR2743238B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2453Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Nonlinear Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Un dispositif de télécommunication (20) qui réagit à des ordres vocaux est proposé. Le dispositif de télécommunication (20) peut être un radiotéléphone bilatéral, un téléphone cellulaire, un PDA ou un dispositif d'appel de personnes. Le dispositif de télécommunication (20) comporte une interface (22) permettant à un utilisateur d'avoir accès à une voie de télécommunication en fonction d'un signal de commande et un système de reconnaissance vocale (24) permettant de produire le signal de commande en réponse à un ordre vocal. Dans le système de reconnaissance vocale (24) se trouvent un extracteur de caractéristiques (26) et un ou plusieurs classificateurs (28) qui utilisent des fonctions discriminantes polynomiales.

Description

Titre
DISPOSITIF DE TELECOMMUNICATION REAGISSANT A DES ORDRES
VOCAUX ET PROCEDE D'UTILISATION DE CELUI-CI
Le présent document constitue la suite de la demande codépendante NO de série 08/253 893, enregistrée le 31 mai 1994 et cédée au même cessionnaire que celui de la présente invention. Cette demande est incorporée dans le présent document par cette référence.
Domaine technique
La présente invention concerne de façon générale les systèmes de télécommunication et en particulier un dispositif de télécommunication bilatéral qui réagit aux commandes vocales d'un utilisateur de celui-ci.
Arrière-plan de l'invention
Depuis des années, les scientifiques essaient de trouver un moyen qui simplifierait l'interface entre l'homme et la machine. Les dispositifs d'entrée tels que les claviers, les souris, les écrans tactiles et les stylos optiques sont les outils les plus couramment utilisés pour mettre en oeuvre une interface homme/machine. Toutefois, une interface plus naturelle et plus simple entre l'homme et la machine peut être la parole humaine. Un dispositif qui reconnaît automatiquement la parole pourrait donner naissance à une telle interface.
Les applications permettant la reconnaissance vocale automatique comportent les dispositifs de recherche de personnes et la sélection de voies radioélectriques bilatérales utilisant des ordres vocaux, l'entrée vocale pour commander des appareils ménagers tels qu'une télévision ou une chaîne stéréo, et un téléphone cellulaire à composition vocale qui permettrait à un conducteur de se concentrer sur la route tout en composant un numéro.
Malheureusement, la reconnaissance vocale automatique n'est pas facile à obtenir. L'une des raisons est que la parole a tendance à varier considérablement d'une personne à l'autre. Par exemple, le même mot prononcé par plusieurs personnes peut paraître considérablement différent du fait des différences d'accent, du débit de parole, du sexe ou de l'âge. En plus des différences liées au locuteur, les effets de coarticulation, les façons de parler (crier/chuchoter) et les bruits de fond posent d'énormes problèmes aux dispositifs de reconnaissance vocale.
Depuis la fin des années 1960, de nombreuses méthodologies ont été introduites dans le domaine de la reconnaissance vocale automatique. Bien que certains procédés soient fondés sur des techniques compliquées associées à des stratégies heuristiques correspondantes, d'autres sont fondés sur des bases de données vocales et des méthodologies d'apprentissage. Ces dernières comportent la distorsion du temps dynamique (DTW) et la modélisation de Markov cachée (HMM). Ces deux procédés, ainsi que l'utilisation de réseaux neuronaux de temporisation (TDNN), sont traités par la suite.
La distorsion du temps dynamique est une technique qui utilise un principe d'optimisation pour réduire au minimum les erreurs rencontrées entre un mot prononcé inconnu et un modèle mémorisé d'un mot connu. Les données rapportées montrent que la technique DTW est solide et qu'elle produit une bonne reconnaissance. Toutefois, la technique DTW utilise des calculs très complexes. Par conséquent, il n'est pas pratique de mettre en oeuvre couramment la technique DTW pour des applications réelles.
Au lieu de comparer directement un mot prononcé inconnu à un modèle d'un mot connu, la technique de modélisation de Markov cachée utilise des modèles aléatoires pour des mots connus et compare la probabilité que chaque mot inconnu ait été généré par chaque modèle.
Lorsqu'un mot inconnu est prononcé, la technique HMM vérifie la séquence (ou état) du mot et trouve le modèle qui s'en rapproche le plus. La technique HMM est utilisée avec succès dans de nombreuses applications commerciales ; toutefois, la technique présente de nombreux inconvénients. Parmi ces inconvénients, on trouve l'incapacité à différencier des mots semblables du point de vue acoustique, une sensibilité au bruit et des calculs complexes.
Récemment, les réseaux neuronaux ont été utilisés pour des problèmes qui sont très peu structurés, voire intraitables, tels que la reconnaissance vocale. Un réseau neuronal de temporisation est un type de réseau neuronal qui s'occupe des effets temporels de la parole en adoptant des connexions neuronales limitées. Pour une reconnaissance de mots limités, un TDNN présente des résultats légèrement meilleurs que le procédé HMM.
Toutefois, le TDNN présente de gros inconvénients.
Tout d'abord, le temps de formation à la technique
TDNN est très long, de l'ordre de plusieurs semaines.
Ensuite, l'algorithme de formation pour un TDNN converge souvent vers un minimum local, qui n'est pas la solution globalement optimale.
En résumé, les inconvénients des procédés connus existants de reconnaissance vocale automatique (par exemple des algorithmes qui nécessitent des quantités énormes de calculs, une tolérance limitée aux différences liées aux locuteurs et au bruit de fond, des temps de formation excessifs, etc.) limitent sérieusement l'acceptation et la généralisation de dispositifs de reconnaissance vocale dans plusieurs domaines d'utilisation. Par exemple, les téléphones cellulaires et les radiotéléphones bilatéraux actuellement disponibles sur le marché qui répondent aux ordres vocaux ont des capacités de reconnaissance vocale peu fiables. En conséquence, ils déçoivent les utilisateurs et ne sont pas bien reçus sur le marché de ces dispositifs.
Ainsi, il y a un besoin pour un dispositif de télécommunication qui comporte un système de reconnaissance vocale automatique fournissant un haut niveau de précision, une indifférence au bruit de fond, une formation en une seule session et une insensibilité aux changements de locuteurs.
Brève description des dessins
L'invention est décrite en détail dans les revendications jointes. Toutefois, d'autres caractéristiques de l'invention apparaîtront plus clairement et l'invention sera mieux comprise en faisant référence à la description détaillée suivante conjointement avec les dessins joints sur lesquels
La Figure 1 est un schéma fonctionnel d'un dispositif de télécommunication selon un mode de réalisation de la présente invention.
La Figure 2 représente un organigramme du procédé permettant d'utiliser le dispositif de télécommunication de la figure 1 selon un autre mode de réalisation de la présente invention.
La figure 3 est un schéma fonctionnel d'un dispositif de télécommunication selon un autre mode de réalisation de la présente invention.
La figure 4 est un schéma fonctionnel d'un dispositif de télécommunication selon un autre mode de réalisation de la présente invention.
La figure 5 est une représentation graphique d'une trame.
La figure 6 illustre un système de télécommunication qui utilise un dispositif de télécommunication mettant en oeuvre la présente invention.
Description détaillée d'un mode de réalisation préféré
La présente invention présente l'avantage de proposer un dispositif de télécommunication qui permet à un utilisateur d'avoir accès à une voie de télécommunication en utilisant des commandes vocales, avec un haut degré de fiabilité. La présente invention présente également l'avantage de proposer un dispositif de télécommunication ayant un système de reconnaissance vocale qui ne nécessite pas une formation répétitive et qui est insensible aux bruits de fond et aux changements de locuteurs. Un autre avantage de la présente invention est qu'elle propose un système de reconnaissance vocale qui est mis en oeuvre de façon compacte dans un logiciel, ce qui lui permet d'être incorporé facilement dans un téléphone cellulaire ou un radiotéléphone portable.Un autre avantage de la présente invention est qu'elle propose un dispositif de télécommunication portable qui incorpore un système de reconnaissance vocale qui réduit la quantité nécessaire de données mises en mémoire tampon.
La figure 1 est un schéma fonctionnel représentant un dispositif de télécommunication selon un mode de réalisation de la présente invention. Le dispositif de télécommunication 20 comprend une interface 22 et un système de reconnaissance vocale 24. Le système de reconnaissance vocale comporte un extracteur de caractéristiques 26 et un classificateur 28.
L'interface 22 permet à un utilisateur d'avoir accès à une voie de télécommunication en fonction d'un signal de commande qui est généré par le système de reconnaissance vocale 24. L'interface 22 peut être un moyen quelconque permettant à un utilisateur de transférer des données électroniques par l'intermédiaire d'une voie de télécommunication. Par exemple, l'interface peut être un radiotéléphone bilatéral, un téléphone, un agenda numérique personnel (PDA) ou un dispositif d'appel de personnes. Dans ces exemples, la voie de télécommunication est une liaison radioélectrique avec un autre dispositif ou une station de base. Toutefois, la voie de télécommunication peut comprendre n'importe quel troyen comportant, mais n'étant pas limité à, des fibres optiques, des câbles torsadés ou coaxiaux.L'interface 22 peut répondre à plusieurs entrées d'utilisateurs, tels que les entrées par clavier, les entrées par commande vocale, écrans tactiles ou souris.
Le système de reconnaissance vocale 24 produit le signal de commande en réponse à un ordre vocal.
L'extracteur de caractéristiques 26 extrait une pluralité de caractéristiques de l'ordre vocal. Le classificateur 28 génère alors un signal discriminant selon un développement polynomial. Le signal de commande reçu par l'interface 22 est fondé sur le signal discriminant.
Les caractéristiques extraites par l'extracteur de caractéristiques 26 comportent de préférence des coefficients cepstraux des dérivés de premier ordre de coefficients cepstraux et des caractéristiques de niveau de mot, tels que l'énergie normalisée et l'indice de trame. Les caractéristiques de niveau de mot sont décrites plus en détail par la suite, conjointement avec la figure 3.
En réponse à ces caractéristiques, le classificateur 28 génère le signal discriminant selon un déveloonement polynomial représenté par
Figure img00070001
Dans l'équation 1, xj représente les caractéristiques ; y représente le signal discriminant
Wi représente un coefficient gji représente un exposant ; et i, j, m et n sont des entiers.
Dans un mode de réalisation préféré de la présente invention, la fonction discriminante est un développement polynomial de deuxième ordre présentant la forme suivante
Figure img00070002
Dans l'équation 2, ao représente un coefficient d'ordre zéro, bi représente un coefficient de premier ordre et cij représente un coefficient de deuxième ordre, xi et xj représentent les caractéristiques, y représente le signal discriminant et i, j, n et m sont des entiers.
Il y a de préférence vingt caractéristiques xO à x19, qui donnent un polynôme de deuxième ordre ayant 231 termes.
Dans plusieurs autres modes de réalisation de la présente invention, la fonction discriminante peut être fondée sur une fonction orthogonale, telle qu'une fonction sinus, cosinus, exponentielle/logarithmique, transformation de Fourier, polynôme de Legendre ou fonction de base non linéaire telle qu'une fonction de
Volterra ou une fonction de base radiale, ou similaire, ou une combinaison de développements polynomiaux et de fonctions orthogonales.
Dans un mode de réalisation préféré de la présente invention, la fonction discriminante polynomiale est adaptée à un ensemble d'échantillons à partir d'un espace de caractéristiques p-dimensionnelles représentant des exemples de paroles entrées. Si le nombre de termes du polynôme est égal au nombre d'exemples, une technique d'inversion matricielle peut être employée pour obtenir la valeur de chaque coefficient. Si le nombre de termes n'est pas égal au nombre d'exemples, une technique d'estimation des plus petits carrés est employée pour trouver la valeur de chaque coefficient.Parmi les techniques d'estimation des plus petits carrés qui conviennent, on peut citer par exemple la méthode des plus petits carrés, la méthode des plus petits carrés étendus, l'algorithme pseudo-inverse, le filtre de
Kalman, l'algorithme de la plus grande vraisemblance, l'estimation bayesienne et similaire.
En général, le nombre d'exemples vocaux est supérieur au nombre de termes polynomiaux ; ainsi, une technique des plus petits carrés est utilisée pour dériver les coefficients. Toutefois, si le nombre d'exemples vocaux et le nombre de termes sont égaux, la fonction de transfert de discriminants peut être représentée par l'équation matricielle Y = WZ, où Y représente une matrice de signaux discriminants d'exemple, W représente une matrice de coefficients et Z est une matrice représentant les termes, qui peuvent être fonction des entrées d'exemple, telles que les fonctions exponentielles de caractéristiques dérivées. La matrice de coefficients est déterminée par l'équation w = z y, -1 où Z représente la matrice inverse de Z.
La figure 2 représente un organigramme illustrant la commande d'une voie de télécommunication selon un autre mode de réalisation de la présente invention. A la case 40, un ordre vocal est reçu par le système de reconnaissance vocale 24. A la case 42, les caractéristiques sont extraites de l'ordre vocal. A la case 44, un signal discriminant fondé sur une fonction polynomiale présentant la forme donnée par l'équation (1) est généré. Ensuite, à la case 46, la voie de télécommunication est accédée en fonction du signal discriminant.
Un ordre vocal peut être n'importe quel mot, mais dans un mode de réalisation préféré de la présente invention, l'ordre vocal est choisi parmi un chiffre compris entre 0 et 9 ou les mots "aide", "appel de personnes" et "envoi". Lorsque les chiffres sont donnés sous forme d'une séquence, ils peuvent être identifiés pour composer des codes d'accès, tels qu'un numéro de téléphone ou des voies radioélectriques particulières, ce qui permet à l'utilisateur de communiquer avec d'autres dispositifs connectés à la voie de télécommunication. La commande "appel de personnes" peut délimiter le début d'un numéro de voie radioélectrique ou de téléphone alors que la commande "envoi" peut délimiter la fin du numéro et provoquer la transmission, par le dispositif de télécommunication 20, du numéro à travers la voie de télécommunication.
La commande "aide" peut être utilisée pour diffuser un signal d'alarme à travers la voie de télécommunication. Cette caractéristique représente un avantage considérable pour le personnel d'urgence tel que la police et les pompiers.
La figure 3 est un schéma fonctionnel d'un dispositif de télécommunication selon un autre mode de réalisation de la présente invention. Le dispositif de télécommunication 50 comporte une interface 52, un microphone 54, un convertisseur A/N 56, un pré-processeur 58, un détecteur d'activité vocale (SAD) 60, un extracteur de caractéristiques 62, une pluralité de classificateurs 64 à 68, une pluralité d'accumulateurs 70 à 74 et un sélecteur 76.
Dans un mode de réalisation préféré de la présente invention, l'interface 52 est une interface audio bilatérale permettant d'émettre et recevoir des données à travers une voie radioélectrique selon un signal de commande qui est généré par le sélecteur 76.
Le signal de commande est généré en réponse à un ordre vocal émis par l'utilisateur. Le microphone 54 génère un signal audio en réponse à l'ordre vocal. Le convertisseur A/N 56 numérise le signal audio en échantillonnant celui-ci à une vitesse prédéterminée. La fréquence d'échantillonnage est de préférence de 8 à 10 KHz. De plus, le convertisseur A/N 56 peut comporter un filtre anti-repliement du spectre.
Le pré-processeur 52 détermine le signal audio numérisé en utilisant des techniques de traitement du signal et le transforme en une séquence de vecteurs de données qui sont prêts pour l'extraction de caractéristiques. Le pré-processeur 58 peut effectuer une mise en forme de bande sur le signal audio numérisé. La mise en forme de bande règle les fréquences d'échantillonnage pour qu'elles correspondent à la vitesse de traitement nécessaire pour les éléments qui se trouvent en aval, tels que les classificateurs et les accumulateurs 64 à 74. De plus, le pré-processeur 58 préaccentue le signal audio numérisé de façon à égaliser l'inclinaison spectrale inhérente à l'entrée vocale. Un filtre à réponse impulsionnelle finie (FIR) du premier ordre peut être utilisé pour la préaccentuation.La préaccentuation permet d'effectuer une atténuation accrue à des valeurs continues lorsque son coefficient de filtre s'approche de l'unité. Le pré-processeur 58 peut également appliquer une fonction de Hamming à chaque vecteur de données de façon à supprimer les artéfacts spectraux non souhaités. De plus, une auto-corrélation peut être effectuée sur un bloc de vecteurs de données de façon à générer des signaux de corrélation compris dans les vecteurs de données de sortie. Des coefficients de codage prédictif linéaire (LPC) sont calculés en tant que fonctions des signaux de corrélation par l'extracteur de caractéristiques 62. Cela réduit la largeur de bande des données d'entrée nécessaire pour l'extracteur de caractéristiques 62.
A la suite du traitement décrit ci-dessus, le préprocesseur 58 génère une séquence de vecteurs de données qui sont également appelés trames. De préférence, chaque trame représente un intervalle de 20 millisecondes de paroles d'entrée. Dans plusieurs modes de réalisation, les trames peuvent être chevauchées dans le temps pour que l'extracteur de caractéristiques 62 et les classificateurs 64 à 68 fournissent des interprétations plus significatives.
Le directeur d'activité vocale (SAD) 60 produit une sous-séquence de vecteurs comprenant uniquement les vecteurs de données qui représentent l'ordre vocal.
Essentiellement, le SAD 60 sépare les vecteurs de données qui représentent les paroles réelles de ceux qui contiennent un bruit de fond.
Dans un mode de réalisation préféré de la présente invention, ce SAD 60 reçoit en continu la séquence de vecteurs de données. La sous-séquence de vecteurs de sortie comporte uniquement les vecteurs de données d'entrée qui présentent un niveau d'énergie supérieur au seuil de bruit de fond. Les valeurs d'énergie peuvent être dérivées de données produites par le procédé d'autocorrélation du pré-processeur 58. Le seuil de bruit de fond est déterminé à partir des niveaux d'énergie des vecteurs de données dont on sait qu'ils ne contiennent pas de paroles. Le seuil de bruit est de préférence un multiple du niveau moyen d'énergie sur un nombre fini de vecteurs de données ne comportant pas de paroles. Lorsque le niveau d'énergie d'une séquence contiguë de vecteurs d'entrée dépasse l'estimation du bruit de fond, le début d'un mot a été détecté.Le nombre nécessaire de vecteurs contigus est spécifié par un paramètre du système prédéterminé. De même, lorsqu'une séquence contiguë suivante de vecteurs est inférieure à cette estimation, la fin d'un mot a été détectée.
L'extracteur de caractéristiques 62 extrait une séquence de trames de caractéristiques de la sousséquence de vecteurs générée par le SAD 60. De préférence, les trames de caractéristiques comportent des coefficients cepstraux et des dérivés de premier ordre des coefficients cepstraux. Une trame de caractéristiques préférée comporte dix dérivés de premier ordre et dix coefficients cepstraux extraits d'un vecteur de données correspondant.
De plus, les trames de caractéristiques peuvent également comporter des caractéristiques de niveau de mot, telles que l'énergie normalisée et les indices de trames. L'énergie normalisée d'une sous-séquence de vecteurs peut être dérivée de la sortie du procédé d'auto-corrélation du pré-processeur 58. L'indice de trame est un entier indiquant la position relative du vecteur de données (trame) dans une sous-séquence de vecteurs.
L'analyse cepstrale, qui est effectuée sur la sousséquence de vecteurs pour générer les coefficients cepstraux, donne naissance à une représentation du signal vocal qui caractérise les caractéristiques importantes de la parole continue. Elle peut être considérée comme une procédure de réduction de données qui retient les caractéristiques indispensables du signal vocal et élimine les interférences indésirables des caractéristiques inutiles du signal vocal, facilitant ainsi le procédé de prise de décision des classificateurs 64 à 68.
L'analyse cepstrale est effectuée comme suit. Tout d'abord, une analyse de prédiction linéaire d'ordre p (p = 8 à 10 de préférence) est appliquée à la sous-séquence de vecteurs pour générer p coefficients de prédiction. La récurrence de Levinson-Durbin est de préférence utilisée pour effectuer cette analyse. Les coefficients de prédiction sont ensuite convertis en coefficients cepstraux, en utilisant la formule de récurrence suivante
Figure img00130001
Dans l'équation (3), c(n) représente le nième coefficient cepstral, a(n) représente le nième coefficient de prédiction, 1 < n < p, p est égal au nombre de coefficients cepstraux, n représente un indice entier, k représente un indice entier, a(k) représente le
ième k coefficient de prédiction et c(n-k) représente le
-k)lème cOefficient cepstral.
L'homme du métier comprendra que l'équation (3) ne limite pas nécessairement le nombre de coefficients cepstraux au nombre de coefficients de LPC et que le nombre de coefficients cepstraux peut en fait dépasser le nombre de coefficients de LPC.
Les dérivées de premier ordre des coefficients cepstraux peuvent être estimées en fonction des différences qui existent entre les coefficients cepstraux à partir des vecteurs de données temporairement adjacents. Toutefois, cette technique entraîne des estimations bruyantes. Les dérivées de premier ordre sont de préférence estimées en utilisant un polynôme de deuxième ordre adapté par l'utilisation d'une régression aux coefficients cepstraux d'un nombre prédéterminé de vecteurs de données consécutifs. Les ensembles supplémentaires de caractéristiques peuvent être générés à partir des dérivées d'ordre supérieur.
Les trames de caractéristiques sont réparties entre la pluralité des classificateurs 64 à 68. Un nombre quelconque de classificateurs peut être utilisé pour reconnaître les ordres vocaux. Généralement, chacun des classificateurs désigne un ordre vocal différent et génère un signal discriminant en fonction d'un développement polynomial de deuxième ordre, tel que celui représenté par l'équation (2). Les sorties des classificateurs 64 à 68 sont accumulées dans leurs accumulateurs correspondants 70 à 74. Chaque accumulateur additionne les sorties d'un classificateur respectif.
Cela entraîne la génération d'une pluralité de signaux discriminants accumulés correspondant à chaque classe.
Les signaux discriminants accumulés passent dans le sélecteur 76.
Le sélecteur 76 choisit un signal discriminant accumulé plus grand et génère le signal de commande en conséquence. Le signal de commande est fonction du signal discriminant accumulé le plus grand.
En réponse à un ordre vocal, le dispositif de télécommunication 50 configure l'interface 52 de façon à permettre à l'utilisateur d'accéder à la voie de télécommunication de différentes façons. Par exemple, lorsque la commande "aide" est reçue par le dispositif de télécommunication 50, l'interface 52 génère automatiquement un signal de diffusion d'urgence sur la voie de télécommunication. De plus, les ordres vocaux peuvent être séquentiellement combinés pour produire plusieurs configurations de l'interface 52.
La figure 4 représente un schéma fonctionnel d'un dispositif de télécommunication 82 selon un autre mode de réalisation de la présente invention. Le dispositif de télécommunication 82 représenté sur la figure 4 comporte les éléments 52 à 76 décrits conjointement avec la figure 3. Toutefois, contrairement au dispositif de télécommunication 50 décrit précédemment, le dispositif de télécommunication 82 de la figure 4 comporte un extracteur de caractéristiques modifié 80.
Dans ce mode de réalisation de la présente invention, l'extracteur de caractéristiques modifié 80 précède le SAD 60. Cela est possible du fait que les caractéristiques de niveau de mot ne sont pas extraites par l'extracteur de caractéristiques modifié 80. Le fait de placer l'extracteur de caractéristiques 80 avant le
SAD 60 offre un avantage en ce que cela réduit la quantité de mise en mémoire tampon nécessaire pour le dispositif de télécommunication 82, ce qui réduit par conséquent l'espace de mémoire total requis par le système de reconnaissance vocale.
A l'exception de l'extraction de caractéristiques du niveau de mot, l'extracteur de caractéristiques modifié 80 effectue essentiellement les mêmes fonctions que celles décrites pour l'extracteur de caractéristiques 62 de la figure 3.
La figure 5 est un graphique des niveaux d'énergie d'une séquence de trames de données. Les niveaux d'énergie des trames sont déterminés par la caractéristique d'auto-corrélation du pré-processeur 58.
L'axe X du graphique indique l'ordre temporel de la séquence de trames, alors que l'axe Y indique les niveaux d'énergie des trames. Le seuil de bruit de fond est également indiqué sur l'axe Y.
Le SAD 60 détecte les limites d'un ordre vocal en déterminant des transitions de niveau d'énergie à travers le seuil de bruit de fond.
Dans un mode de réalisation préféré de la présente invention, le SAD 60 associe une limite de début de mot à une transition de niveau d'énergie positif qui est suivie d'un intervalle prédéterminé de vecteurs de données ayant des niveaux d'énergie dépassant le seuil. A l'inverse, le
SAD 60 associe une limite de fin de mot à une transition de niveau d'énergie négatif qui est suivie par les niveaux d'énergie de vecteurs restant inférieurs au seuil de bruit pendant un intervalle de pause suivant.
Lors de l'acquisition en temps réel des ordres vocaux, un système de reconnaissance vocale doit être capable d'accepter des ordres vocaux dont le profil d'énergie est devenu provisoirement nettement inférieur au seuil de bruit. En tenant compte des variations des niveaux d'énergie après une transition, le SAD 60 améliore de façon considérable la précision du système de reconnaissance vocale car il est moins susceptible de détecter de façon fausse une limite de fin de mot.
Dans l'exemple représenté, la trame 4 représente la première trame d'un ordre vocal. La fin de mot est détectée lorsque le niveau d'énergie d'une trame devient inférieur au seuil. Dans ce cas, la trame 10 représente la dernière trame de l'ordre vocal.
L'intervalle de pause ne doit pas être trop court afin d'éviter un déclenchement faux d'une détection de fin de mot, et pas trop long de façon qu'il n'y ait pas une pause trop longue entre les ordres vocaux.
La figure 6 illustre un système de télécommunication qui peut incorporer un dispositif de télécommunication mettant en oeuvre la présente invention. Le système de télécommunication comporte un dispositif de télécommunication 90, une liaison de télécommunication 92 et une station de base 94. Le dispositif de télécommunication 90 comporte l'un des nombreux modes de réalisation de la présente invention, tel que l'un de ceux représentés sur les figures 1, 3 et 4. La liaison de télécommunication peut être une liaison radioélectrique, alors que la station de base 94 peut être un site cellulaire ou une station de base radioélectrique. Le dispositif de télécommunication 90 peut être utilisé pour faire passer des données dans d'autres dispositifs de télécommunication (non représentés) qui sont liés de façon similaire à la station de base 94.
En résumé, le présent document a décrit un concept, ainsi qu'un mode de réalisation préféré, d'un dispositif de télécommunication et d'un procédé pouvant être utilisé pour avoir accès à une voie de télécommunication en fonction d'ordres vocaux. Puisque les différents modes de réalisation du dispositif de télécommunication tel que décrit dans le présent document utilisent des fonctions discriminantes polynomiales, ils sont insensibles aux différences entre interlocuteurs, ce qui permet d'obtenir un haut degré de fiabilité. Puisque les fonctions discriminantes polynomiales sont conçues pour des espaces pris pour exemples, à l'aide d'une estimation des plus petits carrés ou d'une technique d'inversion matricielle, une formation répétitive des classificateurs n est pas nécessaire.
Bien que des modes de réalisation spécifiques de la présente invention aient été représentés et décrits, les spécialistes de la technique comprendront que l'invention décrite peut être modifiée de nombreuses façons et peut accepter de nombreux modes de réalisation autres que le mode préféré spécifiquement décrit et illustré ci-dessus.
Par conséquent, les revendications jointes sont censées recouvrir toutes les modifications de l'invention qui restent dans le véritable esprit et la portée de l'invention.

Claims (10)

Revendications
1. Dispositif de télécommunication comprenant
une interface permettant à un utilisateur d'avoir accès à une voie de télécommunication en fonction d'un signal de commande ; et
un système de reconnaissance vocale permettant de produire le signal de commande en réponse à un ordre vocal, le système de reconnaissance vocale comportant
un extracteur de caractéristiques permettant d'extraire une pluralité de caractéristiques de l'ordre vocal ; et
un classificateur permettant de générer un signal discriminant selon un développement polynomial présentant la forme suivante
Figure img00190001
dans lequel le signal de commande est fondé sur le signal discriminant.
ou xj représente la pluralité de caractéristiques, y représente le signal discriminant, Wi représente un coefficient, gji représente un exposant et i, j, m et n sont des entiers ;
2. Dispositif de télécommunication selon la revendication 1, dans lequel l'interface comporte un dispositif choisi parmi un groupe comprenant : un radiotéléphone bilatéral, un téléphone, un PDA et un dispositif d'appel de personnes.
3. Dispositif de télécommunication selon la revendication 1, dans lequel le système de reconnaissance vocale comprend en outre
un pré-processeur, associé de façon opérationnelle à l'extracteur de caractéristiques, permettant de transformer un signal audio, en utilisant des techniques de traitement du signal, en une séquence de vecteurs de données qui représentent l'ordre vocal et à partir desquelles la pluralité de caractéristiques est extraite.
4. Dispositif de télécommunication comprenant
un pré-processeur permettant de transformer un signal audio en une séquence de vecteurs de données ;
un moyen d'extraction permettant d'extraire une pluralité de trames de caractéristiques de la séquence de vecteurs de données
une pluralité de classificateurs permettant de générer une pluralité de signaux discriminants, chaque classificateur de la pluralité de classificateurs désignant un ordre vocal différent et générant un signal discriminant en fonction d'un développement polynomial présentant la formule suivante
Figure img00200001
une interface audio bilatérale permettant d'émettre et recevoir des données sur une voie de télécommunication en fonction d'un signal de commande, le signal de commande étant fonction du signal discriminant accumulé le plus grand.
un sélecteur permettant de choisir un signal discriminant accumulé le plus grand parmi la pluralité de signaux discriminants accumulés ; et
un accumulateur permettant de générer une pluralité de signaux discriminants accumulés, l'accumulateur générant chacun des signaux discriminants accumulés de la pluralité de signaux discriminants accumulés en additionnant certains des signaux discriminants parmi la pluralité de signaux discriminants produits par un classificateur respectif parmi la pluralité de classificateurs
où xj représente une trame de caractéristiques, y représente le signal discriminant, Wi représente un coefficient, gji représente un exposant et i, j, m et n sont des entiers
5. Dispositif de télécommunication selon la revendication 7, dans lequel le moyen d'extraction comporte
un extracteur de caractéristiques permettant d'extraire une séquence de trames de caractéristiques de la séquence de vecteurs de données ; et
un détecteur d'activité vocale permettant de choisir dans la séquence de trames de caractéristiques la pluralité de trames de caractéristiques représentant un ordre vocal.
6. Dispositif de télécommunication selon la revendication 7, dans lequel le moyen d'extraction comporte
un détecteur d'activité vocale permettant de choisir dans la séquence de vecteurs de données une sousséquence de vecteurs représentant un ordre vocal ; et
un extracteur de caractéristiques permettant d'extraire une pluralité de trames de caractéristiques dans la sous-séquence de vecteurs.
7. Dispositif de télécommunication selon la revendication 7, dans lequel le développement polynomial présente la forme suivante
Figure img00210001
où aO représente un coefficient d'ordre zéro, bi représente un coefficient de premier ordre, et représente un coefficient de deuxième ordre.
8. Procédé permettant de commander l'accès à une voie de télécommunication, comprenant les étapes suivantes
réception d'un ordre vocal
extraction d'une pluralité de caractéristiques dans l'ordre vocal
génération d'un signal discriminant sur la base d'un développement polynomial présentant la forme suivante
Figure img00220001
accès à la voie de télécommunication en fonction du signal discriminant.
où xj représente la pluralité de caractéristiques, x représente le signal discriminant, Wi représente un coefficient, gji représente un exposant et i, j, m et n sont des entiers ; et
9. Procédé selon la revendication 20, comprenant en outre les étapes de
transformation d'un signal audio, en utilisant des techniques de traitement du signal, en une séquence de vecteurs de données qui représente l'ordre vocal et à partir de laquelle la pluralité de caractéristiques est extraite.
10. Procédé selon la revendication 20, dans lequel l'étape d'extraction comporte la sous-étape de
génération de la pluralité de caractéristiques choisie parmi un groupe composé de : coefficients cepstraux, dérivées de premier ordre de coefficients oepstraux et caractéristiques de niveau de mot.
FR9615726A 1995-12-28 1996-12-20 Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci Expired - Fee Related FR2743238B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/579,714 US5749072A (en) 1994-06-03 1995-12-28 Communications device responsive to spoken commands and methods of using same

Publications (2)

Publication Number Publication Date
FR2743238A1 true FR2743238A1 (fr) 1997-07-04
FR2743238B1 FR2743238B1 (fr) 1999-04-16

Family

ID=24318053

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9615726A Expired - Fee Related FR2743238B1 (fr) 1995-12-28 1996-12-20 Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci

Country Status (6)

Country Link
US (1) US5749072A (fr)
AR (1) AR005286A1 (fr)
AU (1) AU1330497A (fr)
FR (1) FR2743238B1 (fr)
TW (1) TW396699B (fr)
WO (1) WO1997024710A1 (fr)

Families Citing this family (202)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3536471B2 (ja) * 1995-09-26 2004-06-07 ソニー株式会社 識別装置および識別方法、並びに音声認識装置および音声認識方法
JP3702978B2 (ja) * 1996-12-26 2005-10-05 ソニー株式会社 認識装置および認識方法、並びに学習装置および学習方法
US5930748A (en) * 1997-07-11 1999-07-27 Motorola, Inc. Speaker identification system and method
US6154662A (en) * 1998-02-27 2000-11-28 Lucent Technologies Inc. Providing voice dialing service for wireless roamers
US6131089A (en) * 1998-05-04 2000-10-10 Motorola, Inc. Pattern classifier with training system and methods of operation therefor
US6434403B1 (en) * 1999-02-19 2002-08-13 Bodycom, Inc. Personal digital assistant with wireless telephone
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US6536536B1 (en) 1999-04-29 2003-03-25 Stephen F. Gass Power tools
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6560468B1 (en) * 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6920229B2 (en) * 1999-05-10 2005-07-19 Peter V. Boesen Earpiece with an inertial sensor
US6952483B2 (en) * 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6879698B2 (en) * 1999-05-10 2005-04-12 Peter V. Boesen Cellular telephone, personal digital assistant with voice communication unit
WO2001011604A1 (fr) 1999-08-10 2001-02-15 Telogy Networks, Inc. Estimation de l'energie de fond
US20020173721A1 (en) * 1999-08-20 2002-11-21 Novasonics, Inc. User interface for handheld imaging devices
US6685645B1 (en) 2001-10-20 2004-02-03 Zonare Medical Systems, Inc. Broad-beam imaging
US6733455B2 (en) * 1999-08-20 2004-05-11 Zonare Medical Systems, Inc. System and method for adaptive clutter filtering in ultrasound color flow imaging
US6490443B1 (en) 1999-09-02 2002-12-03 Automated Business Companies Communication and proximity authorization systems
US7508411B2 (en) * 1999-10-11 2009-03-24 S.P. Technologies Llp Personal communications device
US6970915B1 (en) 1999-11-01 2005-11-29 Tellme Networks, Inc. Streaming content over a telephone interface
US7941481B1 (en) 1999-10-22 2011-05-10 Tellme Networks, Inc. Updating an electronic phonebook over electronic communication networks
US6807574B1 (en) 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US7376586B1 (en) 1999-10-22 2008-05-20 Microsoft Corporation Method and apparatus for electronic commerce using a telephone interface
US6744885B1 (en) * 2000-02-24 2004-06-01 Lucent Technologies Inc. ASR talkoff suppressor
US8131555B1 (en) 2000-03-21 2012-03-06 Aol Inc. System and method for funneling user responses in an internet voice portal system to determine a desired item or service
CA2413657A1 (fr) * 2000-06-16 2001-12-20 Healthetech, Inc. Dispositif de reconnaissance vocale pour assistant numerique
KR100366057B1 (ko) * 2000-06-26 2002-12-27 한국과학기술원 인간 청각 모델을 이용한 효율적인 음성인식 장치
US7143039B1 (en) 2000-08-11 2006-11-28 Tellme Networks, Inc. Providing menu and other services for an information processing system using a telephone or other audio interface
US10390074B2 (en) 2000-08-08 2019-08-20 The Directv Group, Inc. One click web records
US9171851B2 (en) * 2000-08-08 2015-10-27 The Directv Group, Inc. One click web records
JP2004506350A (ja) * 2000-08-08 2004-02-26 リプレイティブィ・インコーポレーテッド リモートテレビジョン再生制御
US7072328B2 (en) 2001-01-12 2006-07-04 Voicegenie Technologies Inc. Computer-implemented voice markup language-based server
US20020095330A1 (en) * 2001-01-12 2002-07-18 Stuart Berkowitz Audio Advertising computer system and method
US20020095473A1 (en) * 2001-01-12 2002-07-18 Stuart Berkowitz Home-based client-side media computer
US7379973B2 (en) 2001-01-12 2008-05-27 Voicegenie Technologies, Inc. Computer-implemented voice application indexing web site
US6889190B2 (en) * 2001-01-25 2005-05-03 Rodan Enterprises, Llc Hand held medical prescription transcriber and printer unit
US6496709B2 (en) 2001-03-02 2002-12-17 Motorola, Inc. Apparatus and method for speed sensitive operation in a wireless communication device
US8175886B2 (en) 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
US20050065779A1 (en) * 2001-03-29 2005-03-24 Gilad Odinak Comprehensive multiple feature telematics system
US20020143611A1 (en) * 2001-03-29 2002-10-03 Gilad Odinak Vehicle parking validation system and method
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
USRE46109E1 (en) * 2001-03-29 2016-08-16 Lg Electronics Inc. Vehicle navigation system and method
US6487494B2 (en) * 2001-03-29 2002-11-26 Wingcast, Llc System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation
WO2002091358A1 (fr) * 2001-05-08 2002-11-14 Intel Corporation Procede et appareil pour rejeter des resultats de reconnaissance vocale en fonction d'un niveau de confiance
US7031444B2 (en) * 2001-06-29 2006-04-18 Voicegenie Technologies, Inc. Computer-implemented voice markup system and method
ATE310302T1 (de) * 2001-09-28 2005-12-15 Cit Alcatel Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit
US8527280B2 (en) * 2001-12-13 2013-09-03 Peter V. Boesen Voice communication device with foreign language translation
AU2003248523A1 (en) 2002-05-16 2003-12-02 Intellisist, Llc System and method for dynamically configuring wireless network geographic coverage or service levels
JP4837917B2 (ja) * 2002-10-23 2011-12-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
US7593842B2 (en) * 2002-12-10 2009-09-22 Leslie Rousseau Device and method for translating language
US20040243415A1 (en) * 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20050153596A1 (en) * 2004-01-13 2005-07-14 Vanwambeke Weston Power tool battery connector
US20080154601A1 (en) * 2004-09-29 2008-06-26 Microsoft Corporation Method and system for providing menu and other services for an information processing system using a telephone or other audio interface
US8417185B2 (en) * 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
US7885419B2 (en) * 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US20070198271A1 (en) * 2006-02-23 2007-08-23 Dana Abramson Method for training a user of speech recognition software
US8223961B2 (en) * 2006-12-14 2012-07-17 Motorola Mobility, Inc. Method and device for answering an incoming call
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20080221884A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20080221900A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile local search environment speech processing facility
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US9128981B1 (en) 2008-07-29 2015-09-08 James L. Geer Phone assisted ‘photographic memory’
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US8255218B1 (en) * 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
US9367612B1 (en) * 2011-11-18 2016-06-14 Google Inc. Correlation-based method for representing long-timescale structure in time-series data
US8543397B1 (en) 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation
US10234133B2 (en) 2015-08-29 2019-03-19 Bragi GmbH System and method for prevention of LED light spillage
US9755704B2 (en) 2015-08-29 2017-09-05 Bragi GmbH Multimodal communication system induction and radio and method
US10203773B2 (en) 2015-08-29 2019-02-12 Bragi GmbH Interactive product packaging system and method
US10122421B2 (en) 2015-08-29 2018-11-06 Bragi GmbH Multimodal communication system using induction and radio and method
US9813826B2 (en) 2015-08-29 2017-11-07 Bragi GmbH Earpiece with electronic environmental sound pass-through system
US9800966B2 (en) 2015-08-29 2017-10-24 Bragi GmbH Smart case power utilization control system and method
US9905088B2 (en) 2015-08-29 2018-02-27 Bragi GmbH Responsive visual communication system and method
US10194232B2 (en) 2015-08-29 2019-01-29 Bragi GmbH Responsive packaging system for managing display actions
US9949008B2 (en) 2015-08-29 2018-04-17 Bragi GmbH Reproduction of ambient environmental sound for acoustic transparency of ear canal device system and method
US10194228B2 (en) 2015-08-29 2019-01-29 Bragi GmbH Load balancing to maximize device function in a personal area network device system and method
US10409394B2 (en) 2015-08-29 2019-09-10 Bragi GmbH Gesture based control system based upon device orientation system and method
US9866282B2 (en) 2015-08-29 2018-01-09 Bragi GmbH Magnetic induction antenna for use in a wearable device
US9854372B2 (en) 2015-08-29 2017-12-26 Bragi GmbH Production line PCB serial programming and testing method and system
US9972895B2 (en) 2015-08-29 2018-05-15 Bragi GmbH Antenna for use in a wearable device
US9843853B2 (en) 2015-08-29 2017-12-12 Bragi GmbH Power control for battery powered personal area network device system and method
US9949013B2 (en) 2015-08-29 2018-04-17 Bragi GmbH Near field gesture control system and method
US10453450B2 (en) 2015-10-20 2019-10-22 Bragi GmbH Wearable earpiece voice command control system and method
US9866941B2 (en) 2015-10-20 2018-01-09 Bragi GmbH Multi-point multiple sensor array for data sensing and processing system and method
US10506322B2 (en) 2015-10-20 2019-12-10 Bragi GmbH Wearable device onboard applications system and method
US9980189B2 (en) 2015-10-20 2018-05-22 Bragi GmbH Diversity bluetooth system and method
US10175753B2 (en) 2015-10-20 2019-01-08 Bragi GmbH Second screen devices utilizing data from ear worn device system and method
US20170111723A1 (en) 2015-10-20 2017-04-20 Bragi GmbH Personal Area Network Devices System and Method
US10206042B2 (en) 2015-10-20 2019-02-12 Bragi GmbH 3D sound field using bilateral earpieces system and method
US10104458B2 (en) 2015-10-20 2018-10-16 Bragi GmbH Enhanced biometric control systems for detection of emergency events system and method
US10635385B2 (en) 2015-11-13 2020-04-28 Bragi GmbH Method and apparatus for interfacing with wireless earpieces
US9978278B2 (en) 2015-11-27 2018-05-22 Bragi GmbH Vehicle to vehicle communications using ear pieces
US10099636B2 (en) 2015-11-27 2018-10-16 Bragi GmbH System and method for determining a user role and user settings associated with a vehicle
US10104460B2 (en) 2015-11-27 2018-10-16 Bragi GmbH Vehicle with interaction between entertainment systems and wearable devices
US9944295B2 (en) 2015-11-27 2018-04-17 Bragi GmbH Vehicle with wearable for identifying role of one or more users and adjustment of user settings
US10040423B2 (en) 2015-11-27 2018-08-07 Bragi GmbH Vehicle with wearable for identifying one or more vehicle occupants
US10542340B2 (en) 2015-11-30 2020-01-21 Bragi GmbH Power management for wireless earpieces
US10099374B2 (en) 2015-12-01 2018-10-16 Bragi GmbH Robotic safety using wearables
US9980033B2 (en) 2015-12-21 2018-05-22 Bragi GmbH Microphone natural speech capture voice dictation system and method
US9939891B2 (en) 2015-12-21 2018-04-10 Bragi GmbH Voice dictation systems using earpiece microphone system and method
US10206052B2 (en) 2015-12-22 2019-02-12 Bragi GmbH Analytical determination of remote battery temperature through distributed sensor array system and method
US10575083B2 (en) 2015-12-22 2020-02-25 Bragi GmbH Near field based earpiece data transfer system and method
US10154332B2 (en) 2015-12-29 2018-12-11 Bragi GmbH Power management for wireless earpieces utilizing sensor measurements
US10334345B2 (en) 2015-12-29 2019-06-25 Bragi GmbH Notification and activation system utilizing onboard sensors of wireless earpieces
US10200790B2 (en) 2016-01-15 2019-02-05 Bragi GmbH Earpiece with cellular connectivity
US10104486B2 (en) 2016-01-25 2018-10-16 Bragi GmbH In-ear sensor calibration and detecting system and method
US10129620B2 (en) 2016-01-25 2018-11-13 Bragi GmbH Multilayer approach to hydrophobic and oleophobic system and method
US10085091B2 (en) 2016-02-09 2018-09-25 Bragi GmbH Ambient volume modification through environmental microphone feedback loop system and method
US10327082B2 (en) 2016-03-02 2019-06-18 Bragi GmbH Location based tracking using a wireless earpiece device, system, and method
US10667033B2 (en) 2016-03-02 2020-05-26 Bragi GmbH Multifactorial unlocking function for smart wearable device and method
US10085082B2 (en) 2016-03-11 2018-09-25 Bragi GmbH Earpiece with GPS receiver
US10045116B2 (en) 2016-03-14 2018-08-07 Bragi GmbH Explosive sound pressure level active noise cancellation utilizing completely wireless earpieces system and method
US10052065B2 (en) 2016-03-23 2018-08-21 Bragi GmbH Earpiece life monitor with capability of automatic notification system and method
US10334346B2 (en) 2016-03-24 2019-06-25 Bragi GmbH Real-time multivariable biometric analysis and display system and method
US10856809B2 (en) 2016-03-24 2020-12-08 Bragi GmbH Earpiece with glucose sensor and system
US11799852B2 (en) 2016-03-29 2023-10-24 Bragi GmbH Wireless dongle for communications with wireless earpieces
USD821970S1 (en) 2016-04-07 2018-07-03 Bragi GmbH Wearable device charger
USD805060S1 (en) 2016-04-07 2017-12-12 Bragi GmbH Earphone
USD819438S1 (en) 2016-04-07 2018-06-05 Bragi GmbH Package
USD823835S1 (en) 2016-04-07 2018-07-24 Bragi GmbH Earphone
US10015579B2 (en) 2016-04-08 2018-07-03 Bragi GmbH Audio accelerometric feedback through bilateral ear worn device system and method
US10747337B2 (en) 2016-04-26 2020-08-18 Bragi GmbH Mechanical detection of a touch movement using a sensor and a special surface pattern system and method
US10013542B2 (en) 2016-04-28 2018-07-03 Bragi GmbH Biometric interface system and method
USD836089S1 (en) 2016-05-06 2018-12-18 Bragi GmbH Headphone
USD824371S1 (en) 2016-05-06 2018-07-31 Bragi GmbH Headphone
US10045110B2 (en) 2016-07-06 2018-08-07 Bragi GmbH Selective sound field environment processing system and method
US10555700B2 (en) 2016-07-06 2020-02-11 Bragi GmbH Combined optical sensor for audio and pulse oximetry system and method
US10201309B2 (en) 2016-07-06 2019-02-12 Bragi GmbH Detection of physiological data using radar/lidar of wireless earpieces
US10216474B2 (en) 2016-07-06 2019-02-26 Bragi GmbH Variable computing engine for interactive media based upon user biometrics
US10582328B2 (en) 2016-07-06 2020-03-03 Bragi GmbH Audio response based on user worn microphones to direct or adapt program responses system and method
US11085871B2 (en) 2016-07-06 2021-08-10 Bragi GmbH Optical vibration detection system and method
US10888039B2 (en) 2016-07-06 2021-01-05 Bragi GmbH Shielded case for wireless earpieces
US10158934B2 (en) 2016-07-07 2018-12-18 Bragi GmbH Case for multiple earpiece pairs
US10621583B2 (en) 2016-07-07 2020-04-14 Bragi GmbH Wearable earpiece multifactorial biometric analysis system and method
US10516930B2 (en) 2016-07-07 2019-12-24 Bragi GmbH Comparative analysis of sensors to control power status for wireless earpieces
US10165350B2 (en) 2016-07-07 2018-12-25 Bragi GmbH Earpiece with app environment
US10587943B2 (en) 2016-07-09 2020-03-10 Bragi GmbH Earpiece with wirelessly recharging battery
US10397686B2 (en) 2016-08-15 2019-08-27 Bragi GmbH Detection of movement adjacent an earpiece device
US10977348B2 (en) 2016-08-24 2021-04-13 Bragi GmbH Digital signature using phonometry and compiled biometric data system and method
US10104464B2 (en) 2016-08-25 2018-10-16 Bragi GmbH Wireless earpiece and smart glasses system and method
US10409091B2 (en) 2016-08-25 2019-09-10 Bragi GmbH Wearable with lenses
US10887679B2 (en) 2016-08-26 2021-01-05 Bragi GmbH Earpiece for audiograms
US11200026B2 (en) 2016-08-26 2021-12-14 Bragi GmbH Wireless earpiece with a passive virtual assistant
US10313779B2 (en) 2016-08-26 2019-06-04 Bragi GmbH Voice assistant system for wireless earpieces
US11086593B2 (en) 2016-08-26 2021-08-10 Bragi GmbH Voice assistant for wireless earpieces
US10200780B2 (en) 2016-08-29 2019-02-05 Bragi GmbH Method and apparatus for conveying battery life of wireless earpiece
US11490858B2 (en) 2016-08-31 2022-11-08 Bragi GmbH Disposable sensor array wearable device sleeve system and method
USD822645S1 (en) 2016-09-03 2018-07-10 Bragi GmbH Headphone
US10598506B2 (en) 2016-09-12 2020-03-24 Bragi GmbH Audio navigation using short range bilateral earpieces
US10580282B2 (en) 2016-09-12 2020-03-03 Bragi GmbH Ear based contextual environment and biometric pattern recognition system and method
US10852829B2 (en) 2016-09-13 2020-12-01 Bragi GmbH Measurement of facial muscle EMG potentials for predictive analysis using a smart wearable system and method
US11283742B2 (en) 2016-09-27 2022-03-22 Bragi GmbH Audio-based social media platform
US10460095B2 (en) 2016-09-30 2019-10-29 Bragi GmbH Earpiece with biometric identifiers
US10049184B2 (en) 2016-10-07 2018-08-14 Bragi GmbH Software application transmission via body interface using a wearable device in conjunction with removable body sensor arrays system and method
US10942701B2 (en) 2016-10-31 2021-03-09 Bragi GmbH Input and edit functions utilizing accelerometer based earpiece movement system and method
US10698983B2 (en) 2016-10-31 2020-06-30 Bragi GmbH Wireless earpiece with a medical engine
US10455313B2 (en) 2016-10-31 2019-10-22 Bragi GmbH Wireless earpiece with force feedback
US10771877B2 (en) 2016-10-31 2020-09-08 Bragi GmbH Dual earpieces for same ear
US10117604B2 (en) 2016-11-02 2018-11-06 Bragi GmbH 3D sound positioning with distributed sensors
US10617297B2 (en) 2016-11-02 2020-04-14 Bragi GmbH Earpiece with in-ear electrodes
US10062373B2 (en) 2016-11-03 2018-08-28 Bragi GmbH Selective audio isolation from body generated sound system and method
US10205814B2 (en) 2016-11-03 2019-02-12 Bragi GmbH Wireless earpiece with walkie-talkie functionality
US10225638B2 (en) 2016-11-03 2019-03-05 Bragi GmbH Ear piece with pseudolite connectivity
US10821361B2 (en) 2016-11-03 2020-11-03 Bragi GmbH Gaming with earpiece 3D audio
US10045117B2 (en) 2016-11-04 2018-08-07 Bragi GmbH Earpiece with modified ambient environment over-ride function
US10063957B2 (en) 2016-11-04 2018-08-28 Bragi GmbH Earpiece with source selection within ambient environment
US10058282B2 (en) 2016-11-04 2018-08-28 Bragi GmbH Manual operation assistance with earpiece with 3D sound cues
US10045112B2 (en) 2016-11-04 2018-08-07 Bragi GmbH Earpiece with added ambient environment
US10506327B2 (en) 2016-12-27 2019-12-10 Bragi GmbH Ambient environmental sound field manipulation based on user defined voice and audio recognition pattern analysis system and method
US10405081B2 (en) 2017-02-08 2019-09-03 Bragi GmbH Intelligent wireless headset system
US10582290B2 (en) 2017-02-21 2020-03-03 Bragi GmbH Earpiece with tap functionality
US10771881B2 (en) 2017-02-27 2020-09-08 Bragi GmbH Earpiece with audio 3D menu
US11380430B2 (en) 2017-03-22 2022-07-05 Bragi GmbH System and method for populating electronic medical records with wireless earpieces
US11544104B2 (en) 2017-03-22 2023-01-03 Bragi GmbH Load sharing between wireless earpieces
US10575086B2 (en) 2017-03-22 2020-02-25 Bragi GmbH System and method for sharing wireless earpieces
US11694771B2 (en) 2017-03-22 2023-07-04 Bragi GmbH System and method for populating electronic health records with wireless earpieces
US10708699B2 (en) 2017-05-03 2020-07-07 Bragi GmbH Hearing aid with added functionality
US11116415B2 (en) 2017-06-07 2021-09-14 Bragi GmbH Use of body-worn radar for biometric measurements, contextual awareness and identification
US11013445B2 (en) 2017-06-08 2021-05-25 Bragi GmbH Wireless earpiece with transcranial stimulation
US10344960B2 (en) 2017-09-19 2019-07-09 Bragi GmbH Wireless earpiece controlled medical headlight
US11272367B2 (en) 2017-09-20 2022-03-08 Bragi GmbH Wireless earpieces for hub communications

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034063A1 (fr) * 1994-06-06 1995-12-14 Motorola Inc. Procede de decoupage d'une sequence de trames de donnees

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
DE69030561T2 (de) * 1989-12-28 1997-10-09 Sharp Kk Spracherkennungseinrichtung
US5365592A (en) * 1990-07-19 1994-11-15 Hughes Aircraft Company Digital voice detection apparatus and method using transform domain processing
US5212765A (en) * 1990-08-03 1993-05-18 E. I. Du Pont De Nemours & Co., Inc. On-line training neural network system for process control
US5408588A (en) * 1991-06-06 1995-04-18 Ulug; Mehmet E. Artificial neural network method and architecture
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5487133A (en) * 1993-07-01 1996-01-23 Intel Corporation Distance calculating neural network classifier chip and system
US5509103A (en) * 1994-06-03 1996-04-16 Motorola, Inc. Method of training neural networks used for speech recognition
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034063A1 (fr) * 1994-06-06 1995-12-14 Motorola Inc. Procede de decoupage d'une sequence de trames de donnees

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FLAHERTY ET AL.: "Orthogonal transformations of stacked feature vectors applied to HMM speech recognition", IEE PROCEEDINGS I. SOLID- STATE & ELECTRON DEVICES, vol. 140, no. 2 PART I, 1 April 1993 (1993-04-01), pages 121 - 126, XP000362960 *
FURUI: "Speaker-independent isolated word recognition based on emphasized spectral dynamics", INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 1986, vol. 3, 7 April 1986 (1986-04-07) - 11 April 1986 (1986-04-11), TOKYO, JP, pages 1991 - 1994, XP002062257 *
SIN-HORNG ET AL.: "Generalized minimal distortion segmentation for ANN-based speech recognition", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 3, no. 2, March 1995 (1995-03-01), US, pages 141 - 145, XP002062665 *

Also Published As

Publication number Publication date
AR005286A1 (es) 1999-04-28
US5749072A (en) 1998-05-05
FR2743238B1 (fr) 1999-04-16
TW396699B (en) 2000-07-01
AU1330497A (en) 1997-07-28
WO1997024710A1 (fr) 1997-07-10

Similar Documents

Publication Publication Date Title
FR2743238A1 (fr) Dispositif de telecommunication reagissant a des ordres vocaux et procede d&#39;utilisation de celui-ci
US10008197B2 (en) Keyword detector and keyword detection method
EP1154405B1 (fr) Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
EP0932964B1 (fr) Procede et dispositif d&#39;egalisation aveugle des effets d&#39;un canal de transmission sur un signal de parole numerique
EP0818036B1 (fr) Procede de reconnaissance vocale en ambiance severe, et dispositif de mise en oeuvre
EP0867856A1 (fr) &#34;Méthode et dispositif de detection d&#39;activité vocale&#34;
CN113470671B (zh) 一种充分利用视觉与语音联系的视听语音增强方法及系统
FR2522179A1 (fr) Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
US11521635B1 (en) Systems and methods for noise cancellation
EP1451548A2 (fr) System de detection de parole dans un signal audio en environnement bruite
FR2853126A1 (fr) Procede de reconnaissance de parole distribuee
FR2769118A1 (fr) Procede de reconnaissance de parole
CA2932449A1 (fr) Procede de detection de la voix
CN115472174A (zh) 声音降噪方法和装置、电子设备和存储介质
EP0692883A1 (fr) Procédé d&#39;égalisation aveugle et son application à la reconnaissance de la parole
EP1543502B1 (fr) Procede de reconnaissance vocale avec correction automatique
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
WO2020049263A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
FR2681715A1 (fr) Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire .
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
JP2000276200A (ja) 声質変換システム
CN118338184B (zh) 基于aigc的耳机智能降噪方法及装置
CN116682416A (zh) 一种振铃音类型识别方法及装置
EP1665231B1 (fr) Procede pour le dopage non supervise et le rejet des mots hors vocabulaire en reconnaissance vocale
WO2023057384A1 (fr) Procédé d&#39;analyse d&#39;un signal sonore bruité pour la reconnaissance de mots clé de commande et d&#39;un locuteur du signal sonore bruité analysé

Legal Events

Date Code Title Description
ST Notification of lapse