FR2833103A1 - Systeme de detection de parole dans le bruit - Google Patents

Systeme de detection de parole dans le bruit Download PDF

Info

Publication number
FR2833103A1
FR2833103A1 FR0115685A FR0115685A FR2833103A1 FR 2833103 A1 FR2833103 A1 FR 2833103A1 FR 0115685 A FR0115685 A FR 0115685A FR 0115685 A FR0115685 A FR 0115685A FR 2833103 A1 FR2833103 A1 FR 2833103A1
Authority
FR
France
Prior art keywords
speech
detection
input signal
sep
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0115685A
Other languages
English (en)
Other versions
FR2833103B1 (fr
Inventor
Arnaud Martin
Laurent Mauuary
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0115685A priority Critical patent/FR2833103B1/fr
Priority to US10/497,874 priority patent/US7359856B2/en
Priority to EP02788059A priority patent/EP1451548A2/fr
Priority to PCT/FR2002/003910 priority patent/WO2003048711A2/fr
Priority to AU2002352339A priority patent/AU2002352339A1/en
Publication of FR2833103A1 publication Critical patent/FR2833103A1/fr
Application granted granted Critical
Publication of FR2833103B1 publication Critical patent/FR2833103B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Un système de détection de parole dans un signal d'entrée comporte des moyens (11) pour calculer une information d'énergie du signal d'entrée, des moyens de détection (14) pour discriminer la parole du bruit dans le signal d'entrée en utilisant l'information d'énergie. Ce système comporte en outre des moyens de calcul d'un paramètre de voisement, les moyens de détection utilisant ce paramètre de voisement associé à l'information d'énergie afin de discriminer la parole du bruit dans le signal d'entrée.

Description

<Desc/Clms Page number 1>
La présente invention concerne un système de détection de parole dans le bruit
Le langage parlé est le mode de communication le plus naturel chez l'homme. Avec l'apparition de l'automatisation, la recherche vers une interaction entre l'homme et la machine est apparue très tôt. Ainsi, pour une communication plus aisée les études se sont tournées vers des systèmes de reconnaissance de la parole. La reconnaissance vocale permet un grand nombre d'applications comme les dictées vocales ou les services interactifs vocaux qui sont des services téléphoniques.
Dans le cadre de la reconnaissance vocale, la détection de la parole est une phase préalable ou simultanée au système de reconnaissance de la parole.
Les performances de la détection de parole dans des environnements bruités restent très insuffisantes particulièrement lorsque les bruits sont de courte durée. Dans le domaine de la reconnaissance de parole les erreurs de la détection de parole entraînent une forte dégradation des performances du système de reconnaissance.
Afin d'améliorer les résultats du système de reconnaissance il est donc important de développer des systèmes de détection qui permettent de réduire les erreurs de détection de parole, mais aussi de réduire la sensibilité du réglage du système de détection. Un grand nombre de systèmes de détection ont déjà été proposés dans différents contextes. Dans le contexte de la reconnaissance vocale, il est important d'éviter les détections de bruit qui peuvent parfois être rejetées par le système de reconnaissance, mais également peuvent entraîner des erreurs très perturbatrices pour l'utilisateur.
L'invention décrite ici propose un nouveau système de détection de parole qui associe un nouveau paramètre, dit de voisement, à l'énergie afin de réduire les détections de bruit, et ainsi d'améliorer le système de
<Desc/Clms Page number 2>
reconnaissance, et afin de diminuer la sensibilité du réglage du système de détection.
L'invention proposée s'applique au domaine du traitement du signal de parole. La liste des applications présentées ici est non exhaustive : - reconnaissance de parole robuste à l'environnement acoustique : - reconnaissance de mots isolés (dictée vocale, service téléphonique, etc.), - reconnaissance de parole continue (dialogue homme- machine).
- transmission : - téléphonie, - téléconférence et visioconférence.
- système de réduction de bruit.
- segmentation de bases de données.
D'autres particularités et avantages de l'invention apparaîtront encore dans la description ci-après de modes préférés de réalisation, faite à l'appui des dessins annexés, sur lesquels : - la figure 1 représente la structure générale d'un système de reconnaissance de parole pouvant incorporer la présente invention ; - la figure 2 représente un exemple de machine d'états destinée à gérer le fonctionnement d'un système de détection de parole dans le bruit ; - la figure 3 est une représentation graphique des valeurs d'un paramètre de voisement calculé, selon un mode de réalisation de l'invention, sur des fichiers vocaux de bases de données obtenues en environnement RTC et GSM ; - la figure 4 représente la machine d'états de la figure 2 concernant les états 1,2 et 3, dans laquelle on utilise un paramètre de voisement comme critère additionnel de détection, conformément à l'invention ; - la figure 5 est une représentation graphique des résultats de détection obtenus, conformément à l'invention, sur une base de données de fichiers vocaux enregistrés sur le réseau GSM ;
<Desc/Clms Page number 3>
- la figure 6 est une représentation graphique des résultats de détection obtenus, conformément à l'invention, sur une autre base de données de fichiers vocaux enregistrés sur le réseau RTC ; - la figure 7 est une représentation graphique des résultats de reconnaissance vocale intégrant un processus de détection de parole selon l'invention, sur une base de données de fichiers vocaux enregistrés sur le réseau GSM ; et - la figure 8 est une représentation graphique des résultats de reconnaissance vocale intégrant un processus de détection de parole selon l'invention, sur une base de données de fichiers vocaux enregistrés sur le réseau RTC.
Le système de reconnaissance utilisé est composé d'un module de détection et d'un module de reconnaissance. Le module de détection de parole détermine les périodes du signal où la parole est présente. La structure d'un tel système est décrit sur la figure 1. Le module de reconnaissance est désigné par RECO et le module de détection de Bruit/Parole par DBP.
L'analyse du signal de parole permet d'extraire des coefficients pertinents pour le module de détection de parole et pour le module de reconnaissance. Les coefficients employés dans le système sont les coefficients cepstraux. Dans le système décrit ici, le module de détection et de reconnaissance fonctionnent simultanément. Le module de reconnaissance utilisé pour la reconnaissance de mots isolés et de parole continue est fondé sur les chaînes de Markov. La DBP précise le début, puis la fin de parole au module de reconnaissance. Dès que toutes les trames de parole ont été traitées, le système de reconnaissance indique ce qui a été reconnu.
De nombreux modules de détection pour la reconnaissance vocale utilisent différents types d'automates. Ces automates permettent de modéliser la décision à prendre pour discriminer la parole du bruit. Ces automates peuvent être à deux états dans le cas le plus simple (utilisés par exemple pour la détection d'activité vocale), à trois états, à quatre états ou à cinq états. La décision est prise au niveau de la trame, qui peut être par exemple de 16 ms.
<Desc/Clms Page number 4>
Un grand nombre d'états permet une modélisation plus fine de la décision, en prenant en compte des considérations structurelles de la parole.
Nous décrivons ici un automate à cinq états, qui sont : bruit ou silence, présomption de parole, parole, plosive non voisée ou silence, reprise possible de parole. D'autres automates sont envisageables dans le cadre de cette invention.
Le fonctionnement de l'automate est donné par la figure 2.
Dans la version initiale de l'algorithme de DBP, les passages d'un état à un autre sont conditionnés par un seuil sur l'énergie du signal et par des contraintes structurelles de durée (durée minimum d'une voyelle et durée maximum d'une plosive). D'autres méthodes de passage d'un état à un autre ont été étudiées, nous présentons ci-dessous le critère retenu à titre d'exemple.
Les passages dans l'état parole déterminent les frontières de début de la parole dans le signal. Le module de reconnaissance prend en compte la frontière de début avec une marge de sécurité sur la frontière de début par exemple de 160 ms. La frontière de fin de parole déterminée par l'automate comprend également une marge de sécurité. Cette marge est par exemple de 240 ms, qui est la valeur de Silence Fin dans le cas de la reconnaissance de mots isolés. Dans le cas de la reconnaissance de parole continue, Silence Fin est par exemple de 940 ms, pour modéliser les silences entre mots (ire. ne pas décider à tort de la fin de la phrase). Un décalage de 720 ms avant la frontière de fin de parole permet alors de garder la même marge de sécurité.
L'état bruit ou silence est l'état initial de l'algorithme. Nous faisons ainsi l'hypothèse que la communication débute par une trame de bruit ou de silence.
L'automate reste dans cet état tant qu'il n'y a pas de trame énergétique (ire. une trame dont l'énergie est supérieure au seuil).
Lors de la première trame énergétique, l'automate passe dans l'état présomption de parole. Dans cet état, une trame non énergétique le fait retourner à l'état bruit ou silence. Après être resté un nombre minimum de trames (Parole Minimum) dans l'état présomption de parole, l'automate passe à l'état parole.
<Desc/Clms Page number 5>
Il reste dans l'état parole tant que les trames sont énergétiques. Il passe à l'état plosive non voisée ou silence, dès que la trame courante est non énergétique.
Dans l'état plosive non voisée ou silence, un certain nombre (Silence Fin) de trames non énergétiques confirment le silence et le retour dans l'état bruit ou silence. L'action A 1 fournit le silence après la dernière trame de parole détectée, tandis que l'action A6 réinitialise la durée de silence Durée Silence. Si dans l'état plosive non voisée ou silence, la trame courante est énergétique, l'automate passe dans l'état reprise possible de parole.
Dans ce dernier état, une trame non énergétique le fait retourner dans l'état plosive non voisée ou silence ou dans l'état bruit ou silence si la durée de silence (Durée Silence) qui représente le temps passé dans l'état plosive non voisée ou silence et dans l'état reprise possible de parole, est supérieure à un certain nombre de trames (Silence Fin). Lors du retour à l'état plosive non voisée ou silence, l'action A3 permet de préciser le nombre de trames de silence après la dernière trame de parole de l'état parole pour déterminer la frontière de fin de parole. Lors du retour à l'état bruit ou silence les actions A3 et A6 sont effectuées. Après être resté un nombre minimum (Parole Minimum) de trames énergétiques dans l'état reprise possible de parole, l'automate retourne dans l'état parole.
Les trois états présomption de parole, plosive non voisée ou silence et reprise possible de parole sont introduits pour modéliser les variations énergétiques du signal de parole. L'état présomption de parole permet de ne pas détecter des bruits impulsifs qui sont énergétiques mais de courte durée (i. e. quelques trames). L'état plosive non voisée ou silence modélise les passages peu énergétiques dans le mot ou la phrase, tels que les silences intra-mot ou les plosives. Dans le cas de la reconnaissance de parole continue, l'état reprise possible de parole modélise les silences inter-mots, plus longs que les silences intra-mot.
Le passage d'un état à l'autre peut se faire selon plusieurs critères, qui correspondent à l'utilisation de différents tests possibles pour la condition C1.
<Desc/Clms Page number 6>
Nous présentons ici le critère employé à titre d'exemple, celui-ci étant indépendant de l'invention.
Ici est faite l'hypothèse que le logarithme de l'énergie du bruit suit une loi normale de paramètres (, u, c). Cette hypothèse est souvent considérée dans l'état de l'art, l'expérience montrant qu'elle est valide. Les statistiques du logarithme de l'énergie du bruit sont estimées lorsque l'automate est dans l'état bruit ou silence. La moyenne est estimée par :
Figure img00060001

et l'écart-type par :
Figure img00060002

où n est l'indice de la trame, À est un facteur d'oubli, et E est le logarithme de l'énergie. Ces estimations se font dans l'état bruit ou silence de l'automate. Par exemple, pour l'estimation de la moyenne À. = 0.99, ce qui correspond à une constante de temps de 1600 ms, et pour l'estimation de l'écart-type zu = 0.995, ce qui correspond à une constante de temps de 3200 ms.
Le logarithme de l'énergie de chaque trame est considéré et nous cherchons à vérifier l'hypothèse que nous sommes dans l'état bruit ou silence, qui correspond à l'absence de parole. La décision sera prise en fonction de l'écart du logarithme de l'énergie de cette trame par rapport à la moyenne estimée du
Figure img00060003

bruit, c'est-à-dire selon la v l gn)-Mn) bruit, c'est-à-dire selon la valeur du rapport critique r (n)) = ', comparé o (n) à un seuil : C1 : r (E (n)) > Seuil de détection.
Ce critère fondé sur l'estimation des statistiques du bruit et qui est employé dans la suite de l'étude est appelé critère SB.
La fréquence des vibrations des cordes vocales, peut se définir de différents points de vue. La fréquence de vibration laryngienne fait référence au processus de génération articulatoire. La fréquence fondamentale ou Fo si nous nous plaçons dans le domaine acoustique, est la hauteur de voix si nous nous plaçons dans le domaine perceptif. Le pitch est le terme anglais pour désigner ces trois appellations, et est souvent confondu avec la fréquence fondamentale.
La prosodie est déterminée par trois paramètres, la fréquence, l'intensité et la
<Desc/Clms Page number 7>
durée des segments phonétiques qui, au cours de la prononciation du locuteur peuvent apparaître indépendamment. Il existe cependant un lien entre ces trois paramètres, c'est pourquoi nous nous limitons souvent à l'étude de la fréquence Fo. L'interaction de la fréquence, de l'intensité et de la durée est très complexe à définir.
La fréquence fondamentale varie avec le sexe, l'âge, l'accent, l'état émotif du locuteur, etc. Ses variations peuvent être comprises entre 50 et 200 Hz.
Les sons voisés sont issus de la vibration des cordes vocales. Le voisement est une caractéristique de la majorité de sons de la parole, seules certaines plosives et fricatives ne sont pas voisées. De plus la majorité des bruits ne sont pas voisés. Ainsi un paramètre de voisement peut apporter une information utile pour discriminer les sons issus de la parole et du bruit qui sont en outre énergétiques. Le voisement peut être détecté par l'intermédiaire de la fréquence fondamentale.
Différentes méthodes existent pour détecter la fréquence fondamentale, et ainsi déterminer l'existence de voisement. Nous pouvons définir deux classes de méthodes, celles dans le domaine temporel, qui entraînent généralement le calcul de la fonction d'autocorrélation, et celles dans le domaine fréquentiel qui impliquent le calcul de la transformée de Fourier, ou un calcul similaire. Notons également qu'il existe d'autres méthodes à partir du maximum de vraisemblance et des méthodes à partir de l'analyse temps-échelle.
Sont présentées ci-dessous quelques méthodes utilisant la fréquence fondamentale dans des systèmes de détection de parole, dans différents contextes.
De nombreuses approches utilisent le taux de passage par zéro pour estimer très empiriquement une mesure de la fréquence fondamentale.
Cependant, le taux de passage par zéro est instable sur les parties du signal bruité.
Certaines approches utilisent uniquement les coefficients d'autocorrélation pour la détection de parole. Ces coefficients permettent de déterminer la périodicité du signal et ainsi de détecter les sons voisés des sons
<Desc/Clms Page number 8>
Figure img00080001

non-voisés. Cependant cette approche ne permet pas de détecter les sons nonvoisés du bruit.
Dans certains cas, le pitch est employé uniquement pour l'estimation d'un paramètre énergétique dans un premier temps à court-terme puis à long terme.
Dans d'autres cas, la fréquence fondamentale est employée parmi quatre caractéristiques. Une DBP sensible à la détection des consonnes faibles, fondée sur l'analyse LPC est ainsi proposée. Cette détection est composée d'une première détection des parties non stationnaires du signal, puis d'une discrimination de ces parties en parole ou bruit. La première détection est fondée sur le principe que l'erreur de prédiction finale décroît en fonction du temps lorsque le signal est stationnaire et croît en fonction du temps lorsqu'il est non stationnaire. La méthode de classification ensuite utilisée, considère cinq caractéristiques : la périodicité, la fréquence fondamentale, l'ordre optimal du modèle LPC, et une distance LPC minimale. Ces caractéristiques sont comparées à des seuils pour chaque trame sur les parties détectées non stationnaires. La détection est de la parole, si le pourcentage de trames qui vérifient les cinq conditions est supérieur à un seuil prédéterminé. Cette approche nécessite un grand nombre de seuils, elle est de plus composée de deux détection de parole.
La divergence de Kullback est parfois employée pour déterminer Fo dans le domaine temporel. Il utilise le paramètre ainsi calculé pour une segmentation de parole en segment voisé/non-voisé/silence. Il définit un test à l'aide d'une mesure de convexité du rapport a posteriori de la divergence de Kullback. Dans un premier temps une détection de parole est effectuée à l'aide des coefficients PARCOR, la mesure de convexité permet, dans un second temps, d'affiner cette détection.
Une méthode simple fondée sur l'intervalle des pics énergétiques pour estimer la fréquence fondamentale a également été proposée. Cette valeur est ensuite comparée à un seuil, les faibles valeurs déterminent les états de nonparole, la parole étant supposée périodique. Les coefficients LPC sont combinés avec ce paramètre. Cette combinaison s'effectue à l'aide de
<Desc/Clms Page number 9>
différentes distances pondérées, qui sont comparées dans des environnements de différents RSB. Cette approche a été testée et il en ressort que les performances de cet algorithme restent bonnes. La fréquence fondamentale est ici employée uniquement pour la détection de fin de parole.
Dans d'autres circonstances, les variations Fo sont intégrées pour la détection de frontières de mots. L'étude faite sur les langues indiennes suppose que les mots finissent par une voyelle, ce qui ne peut être supposé pour la langue française. Il est aussi discuté la possibilité d'utiliser cette caractéristique pour une application en reconnaissance de parole continue. Dans ce cas, l'hypothèse faite est qu'en fin de phrase la fréquence fondamentale diminue.
L'énergie du signal et une interpolation de Fo peuvent être combinées pour la détection d'accent et de frontières de phrase de la langue allemande. Les performances de reconnaissance en sont améliorées. Ces travaux sont adaptés pour la reconnaissance de parole continue en japonais, en ajoutant le taux de passage par zéro. Ce système a ensuite conduit à l'utilisation de Fo de la more, qui est un élément vocalique spécifique de certaines langues comme le japonais. Ainsi, les variations de Fo de la more ont été utilisées pour de la reconnaissance de parole continue de la langue japonaise. Cette approche utilisant la more n'est pas envisageable pour la langue française.
Un système de détection de parole non-paramétrique associe également l'énergie à la fréquence fondamentale. Cette association est cependant faite à l'aide de tables, ce qui ne permet pas une bonne adaptation dans le cas d'application telle que la reconnaissance de la parole.
Ces approches proposent des combinaisons de l'énergie et de la fréquence fondamentale à toutes les trames, l'invention propose d'associer un paramètre de voisement à l'énergie pour des trames énergétiques et ainsi de discriminer la parole et les bruits énergétiques.
Dans ce qui précède ont été présentées quelques méthodes utilisant la fréquence fondamentale dans un système de détection. La fréquence fondamentale n'existe que pour les sons voisés. Selon un mode de réalisation il a été choisi d'estimer un paramètre de voisement à l'aide de la fréquence fondamentale, mais l'utilisation d'un autre paramètre de voisement est possible
<Desc/Clms Page number 10>
pour l'invention, ainsi qu'une autre méthode de calcul de la fréquence fondamentale. La méthode utilisée pour illustrer cette invention cherche l'harmonicité du signal par intercorrélation avec une fonction peigne. Différentes distances entre les dents de cette fonction, d'amplitude décroissante, sont employées. Mais la fréquence fondamentale peut également être calculée à partir d'une méthode spectrale.
Cette méthode permet de calculer une valeur toutes les quatre millisecondes sur tout le signal, même dans les périodes de non-parole. Dans les périodes voisées du signal cette valeur est la fréquence fondamentale. Nous utilisons ainsi le terme de fréquence fondamentale par abus de langage pour désigner cette valeur. Toutes les quatre millisecondes, nous calculons la médiane entre la valeur courante et les deux précédentes. Nous prenons la médiane pour éviter les artefacts. Nous obtenons donc pour chaque trame n de 16 ms quatre valeurs med (n,) avec i=1, 2,3, 4. Nous calculons ensuite la moyenne arithmétique de la valeur absolue de la différence de la médiane courante et de la précédente :
Figure img00100001

où N est la taille de la fenêtre arithmétique (par exemple N = 2), med (n,) est ta médiane de la trame n. Cette moyenne, calculée sur les deux dernières valeurs, est un critère de la variation locale de la fréquence fondamentale. Si la fréquence fondamentale varie peu, la trame courante est supposée être une trame de parole. Nous obtenons ainsi une estimation d'un degré de voisement, bmed (n,) =lmed (n,)-med (n,. ) j.
La figure 3 représente la moyenne de ce degré de voisement selon les périodes du signal segmentées manuellement sur des bases de données enregistrées en environnement RTC et GSM. Nous constatons ainsi que ce degré de voisement permet de discriminer la parole des bruits impulsifs.
Ce critère de la variation de la fréquence fondamentale qui est un paramètre de voisement est intégré dans le module de détection en complément de l'énergie afin de discriminer la parole et les bruits qui sont énergétiques. Ce paramètre de voisement peut être intégré à l'énergie pour les
<Desc/Clms Page number 11>
transitions entre tous les états, ou seulement pour les transitions entre certains états. Nous présentons ici à titre d'exemple une intégration du paramètre de voisement pour le début de la détection.
Nous conservons la valeur de la moyenne de l'estimation du degré de voisement toutes les 16 ms bmed (n4), pour se ramener à la longueur de la trame utilisée, mais cette valeur peut être adaptée à toute longueur de trame.
Nous comparons cette moyenne à un seuil fixe, optimisé sur une base de données par les tests de détection, pour le passage de l'état présomption de parole à l'état parole ou à l'état bruit ou silence de l'automate décrit sur la figure 4. Ce seuil peut être adapté aux conditions de bruit du signal par différentes méthodes. Cette intégration cherche à diminuer les détections de bruit, et à obtenir une détection plus précise.
Figure img00110001
Ainsi la condition C4 est : 8med (n4) < seuil8med" Ce seuil peut être fixé à 10.
Il n'est donc possible de passer de l'état présomption de parole à l'état parole, que si les conditions C1, C2 et C4 sont réalisées simultanément.
L'évaluation du module de détection avec ce nouveau critère que nous appelons critère SB+Fo va maintenant être présentée. L'évaluation se fait à l'aide d'une part des résultats du module de détection, d'autre part des résultats du système de reconnaissance avec le module de détection, sur les bases de tests GSMT et AGORA.
Sont d'abord présentées les principales caractéristiques des bases de données utilisées.
Les bases RTC~A et GSM~A ne sont utilisées que pour cette étude et l'apprentissage des paramètres pour les différents critères du module de détection. Les tests pour l'évaluation des résultats se font sur les bases GSM~T et AGORA. La base AGORA de parole continue est enregistrée sur le réseau RTC. Nous l'utilisons principalement comme une base de tests.
La base RTC A
La base RTC~A est une base d'exploitation enregistrée sur le réseau RTC pour une application de serveur interactif vocal (SVI). Elle est composée
<Desc/Clms Page number 12>
Figure img00120001

de 999 appels pour une durée totale de 32 h 25 min. Le vocabulaire est composé de 25 mots. Le nombre de répétition de chaque mot dépend de l'utilisateur du SVI. Elle est constituée de 58% de mots du vocabulaire, 13% de parole autre que le vocabulaire et 29% de bruits divers (bruits de fond, rires, toux, bruits de combiné, etc.). Le nombre total de segments de référence issu de la segmentation manuelle est de 10021.
La base GSM A La base GSM~A est une base de laboratoire enregistrée sur le réseau GSM dans quatre environnements différents : intérieur, extérieur, véhicule à l'arrêt et véhicule roulant. Les locuteurs doivent répéter 53 mots de vocabulaire. Normalement chaque mot est répété une seule fois, excepté s'il y a un bruit important pendant la prononciation du mot. Les occurrences de chaque mot sont donc sensiblement identiques. Le corpus est composé de 68% de mots du vocabulaire, 4% de mots hors vocabulaire et 28% de bruits divers. Le nombre total de segments de référence issu de la segmentation manuelle est de 32042, donc trois fois plus important que la base RTC~A.
La base GSM T Cette base est également une base de laboratoire enregistrée sur le réseau GSM dans quatre environnements différents : intérieur, extérieur, véhicule à l'arrêt et véhicule roulant. Le mode d'enregistrement est le même que pour la base GSM~A. Le vocabulaire est constitué de 65 mots. Les 29558 segments issus de la segmentation manuelle sont répartis en 85% de mots du vocabulaire, 3% de mots hors vocabulaire et 11 % de bruits. Cette base employée pour les évaluations est très proche de la base GSM~A.
La base AGORA La base AGORA est une base d'expérimentation d'une application de dialogue homme-machine, enregistrée sur le réseau RTC. C'est donc une base de parole continue. Nous l'utilisons principalement comme une base de tests. Elle est composée de 64 enregistrements. Les 3115 segments de référence comprennent 12635 mots. Le vocabulaire du modèle de reconnaissance est de 1633 mots. Il n'y a pas de segments de mots hors vocabulaire pour cette base.
<Desc/Clms Page number 13>
Figure img00130001

Les segments de parole constituent 81% des segments de référence et les segments de bruits 19%.
Afin d'évaluer le module de détection nous considérons les résultats de la détection de parole et les résultats de cette détection dans le contexte de la reconnaissance vocale, en étudiant les résultats du système de reconnaissance.
Les résultats de la détection sont étudiés en considérant les erreurs définitives selon les erreurs rejetables. Les erreurs définitives sont composées des omissions de parole, des fragmentations d'un mot ou d'une phrase et des regroupements de plusieurs mots ou plusieurs phrases par le module de détection. Ces erreurs sont dites définitives car elles provoquent des erreurs du module de reconnaissance. Les erreurs rejetables sont composées des insertions de bruit (ou détections de bruit) par le module de détection. Ces erreurs peuvent être rejetées par le modèle de rejet du module de reconnaissance. Dans le cas contraire elle provoque une erreur. Cette approche permet également d'évaluer le module de détection pour un contexte différent de la reconnaissance vocale.
Les résultats du système de reconnaissance utilisant le module de détection sont étudiés en considérant trois erreurs dans le cas de la reconnaissance de mots isolés, et quatre erreurs dans le cas de la reconnaissance de parole continue.
Dans le cas de la reconnaissance de mots isolés, une erreur de substitution représente un mot du vocabulaire reconnu comme un autre mot du vocabulaire. Une erreur de fausse acceptation est une détection de bruit reconnue comme un mot. Une erreur de rejet à tort est un mot du vocabulaire rejeté par le modèle de rejet. Pour une représentation simplifiée, nous étudions la somme pondérée des erreurs de substituions et des erreurs de fausses acceptations selon les erreurs de rejets à tort.
Dans le cas de la reconnaissance de parole continue, une erreur d'insertion est un mot inséré dans une phrase (ou requête), une erreur d'omission est un mot omis dans une phrase, une erreur de substitution est un mot substitué dans une phrase, et une erreur de rejet à tort est une phrase
<Desc/Clms Page number 14>
rejetée à tort par le modèle de rejet. Ces erreurs de rejet à tort sont exprimées en omission de mot dans les phrases. Les erreurs d'insertions, d'omissions et de substitutions sont représentées selon les erreurs de rejets à tort.
Les résultats de détection avec le critère SB+Fo en comparaison du critère SB sont d'abord présentées.
La figure 5 présente les résultats sur la base et GSMT pour les différents RSB qui séparent cette base en partie bruitée et non bruitée.
Sur la figure 6 est représenté le résultat sur la base de parole continue AGORA. Il est clair que le nouveau critère donne de meilleurs résultats sur toutes les bases étudiées. Le tableau 1 montre que toutes les améliorations sont significatives. Pour les seuils donnant un taux minimum d'erreurs pour le critère SB et le critère SB+Fo, nous avons calculé l'intervalle de confiance à 95%. Notons que l'écart est plus important sur la partie bruitée de la base GSMT que sur la partie calme. Il y a également une amélioration importante sur la base AGORA.
Figure img00140001
<tb>
<tb>
Seuil"optimal"Taux <SEP> d'erreur <SEP> Seuil"optimal"Intervalle <SEP> de
<tb> deSB+Fo <SEP> DeSB+Fo <SEP> de <SEP> SB <SEP> confiance <SEP> de
<tb> SB
<tb> GSM <SEP> T <SEP> M18 <SEP> 1, <SEP> 3 <SEP> 15, <SEP> 54% <SEP> 1, <SEP> 9 <SEP> 20, <SEP> 60 <SEP> ; <SEP> 22,14
<tb> GSM~Y <SEP> P18 <SEP> 1, <SEP> 7 <SEP> 05, <SEP> 11% <SEP> 2, <SEP> 5 <SEP> 07, <SEP> 79 <SEP> ; <SEP> 08,69
<tb> AGORA <SEP> 2, <SEP> 1 <SEP> 11, <SEP> 51 <SEP> % <SEP> 3, <SEP> 1 <SEP> 17,49 <SEP> ; <SEP> 20,55
<tb>
Tableau 1-Taux d'erreurs de détection du critère SB+Fo par rapport à l'intervalle de confiance du critère SB.
Les résultats de reconnaissance vont maintenant être présentés.
Pour les seuils optimaux pour la reconnaissance sur les bases GSMT et AGORA, nous comparons le critère SB+Fo au critère SB sur la base GSMT (cf. figure 7), et sur la base AGORA (cf. figure 8).
On remarque que l'amélioration reste faible sur la base GSMT en comparaison des résultats sur les erreurs de la détection, alors que l'amélioration des résultats sur les erreurs de la détection est significative. En
<Desc/Clms Page number 15>
effet, le seuil de reconnaissance "optimal" est un seuil qui provoque plus d'erreurs rejetables que le seuil de détection "optimal" choisi pour la comparaison des résultats. Toutefois les erreurs rejetables sur cette base restent faibles. L'amélioration des résultats de détection sur la base GSMT pouvait laisser à penser que l'amélioration de résultats de reconnaissance serait significative. Or cette faible amélioration n'est pas significative. Ce résultat n'est cependant pas inintéressant. En effet, si les résultats ne sont que faiblement améliorés, c'est parce que le modèle de rejet du module de reconnaissance permet d'éliminer un grand nombre de détections de bruit. Or du point de vu du coût, qui n'est pas évalué ici, il est beaucoup plus avantageux de réduire les détections de bruit à l'aide du module de détection, plutôt qu'avec le système de reconnaissance. Nous avons vu de plus que le critère SB+Fo donne une détection plus précise que le critère SB.
Sur la base AGORA (cf figure 8), l'amélioration est plus marquée. En effet, pour la reconnaissance de parole continue, d'une part une détection plus précise est importante, d'autre part le modèle de rejet du système de reconnaissance est moins performant. Ainsi les améliorations du critère SB+Fo sur les résultats de détection permettent également des améliorations des résultats de reconnaissance. Le taux d'erreurs obtenu avec un seuil de
Figure img00150001

détection optimal, et un poids de rejet nul pour le la base GSMT SB est de 27.08%, l'intervalle de confiance à 95% est : [26. 31 ; 27. 86]. Pour le critère SB+ Fo le taux d'erreurs pour le seuil optimal avec un poids de rejet nul est 26.08%.
Ainsi l'amélioration est significative au sens de l'intervalle de confiance. De plus à la baisse du taux d'erreurs de reconnaissance s'ajoute une baisse des détections de bruit, comme sur la base GSM- T.
La sensibilité du seuil de détection au niveau de bruit va maintenant être étudiée.
Le tableau 2 présente les résultats de reconnaissance sur la base RTC~A, avec un seuil de rejet fixé. L'appartenance du taux d'erreurs de reconnaissance obtenu avec le seuil"optimal"de la partie bruitée (moins de 20 dB) de la base RTC~A à l'intervalle de confiance du taux d'erreurs de reconnaissance obtenu avec le seuil"optimal"de la partie calme (plus de 20
<Desc/Clms Page number 16>
dB) base RTC~A, et inversement, fournit un critère de non-sensibilité au niveau de bruit.
Ce tableau montre une diminution de la sensibilité du seuil de détection au niveau de bruit pour le critère SB+ Fo.
Figure img00160001
<tb>
<tb>
SB <SEP> SB+Fo
<tb> RTC-A <SEP> Intervalle <SEP> 13, <SEP> 77 <SEP> ; <SEP> 16, <SEP> 19 <SEP> 10, <SEP> 78 <SEP> ; <SEP> 12,98
<tb> P20 <SEP> Taux <SEP> d'erreur <SEP> 12, <SEP> 54 <SEP> 10, <SEP> 73
<tb> Sensibilité <SEP> Oui <SEP> Oui
<tb> RTC~A <SEP> I <SEP> Intervalle <SEP> 14, <SEP> 60 <SEP> ; <SEP> 17, <SEP> 47 <SEP> 11, <SEP> 83 <SEP> ; <SEP> 14,47
<tb> M20 <SEP> Taux <SEP> d'erreur <SEP> 18, <SEP> 24 <SEP> 13, <SEP> 34
<tb> Sensibilité <SEP> Oui <SEP> Non
<tb>
Tableau 2 - Sensibilité des critères SB et SB+Fo au niveau de bruit sur la base RTC~A.

Claims (8)

REVENDICATIONS
1. Système de détection de parole dans un signal d'entrée comportant des moyens d'obtention d'une information d'énergie (E (n)) du signal d'entrée, ladite information d'énergie étant utilisée pour détecter de la parole dans le signal d'entrée, caractérisé en ce qu'il comporte en outre des moyens d'obtention d'une information de voisement du signal d'entrée, ladite information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal d'entrée.
2. Système selon la revendication 1, caractérisé en ce que ladite information de voisement est obtenue à partir de valeurs de fréquence fondamentale calculées de manière périodique sur l'ensemble du signal d'entrée.
3. Système selon la revendication 2, dans lequel le signal d'entrée est composé de trames successives n, caractérisé en ce que ladite information de voisement est obtenue selon l'équation suivante :
Figure img00170001
où N est la taille de la fenêtre arithmétique, med (nl) est la ième médiane de la trame n.
4. Système selon l'une quelconque des revendications précédentes, caractérisé en ce que l'opération de détection de parole met en oeuvre l'utilisation combinée de deux critères de détection comprenant un premier critère basé sur ladite information d'énergie du signal d'entrée, et un second critère basé sur ladite information de voisement du signal d'entrée, et en ce que ledit second critère de détection est basé, pour chaque trame du signal d'entrée, sur la comparaison de l'information de voisement correspondante avec un seuil de voisement prédéterminé.
5. Système selon la revendication 4, caractérisé en ce que le premier critère de détection permet de déterminer le caractère énergétique d'une trame du signal d'entrée, et est déterminé selon la comparaison de la valeur d'un
<Desc/Clms Page number 18>
Figure img00180001
rapport critique avec un seuil prédéterminé, le rapport critique étant obtenu selon l'équation suivante :
A A où : u (n) et o (n) désignent respectivement la moyenne et l'écart-type estimés de l'énergie E (n) du bruit, et n est l'indice de la trame.
Figure img00180002
6. Système selon la revendication 4 ou 5, caractérisé en ce que les premier et second critères de détection sont mis en oeuvre dans une machine d'états finis comportant au moins les trois états suivants :"bruit ou silence", "présomption de parole", "parole", en fonction du résultat de détection de parole dans le signal audio ; le passage d'un état à un autre parmi ces trois états étant déterminé par le résultat d'évaluation desdits premier et second critères.
7. Système selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'il est mis en oeuvre pour l'aide à la prise de décision en début de détection de parole dans des trames énergétiques du signal d'entrée.
8. Système de reconnaissance vocale, caractérisé en ce qu'il inclut un système de détection de parole selon l'une quelconque des revendications précédentes.
FR0115685A 2001-12-05 2001-12-05 Systeme de detection de parole dans le bruit Expired - Fee Related FR2833103B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR0115685A FR2833103B1 (fr) 2001-12-05 2001-12-05 Systeme de detection de parole dans le bruit
US10/497,874 US7359856B2 (en) 2001-12-05 2002-11-15 Speech detection system in an audio signal in noisy surrounding
EP02788059A EP1451548A2 (fr) 2001-12-05 2002-11-15 System de detection de parole dans un signal audio en environnement bruite
PCT/FR2002/003910 WO2003048711A2 (fr) 2001-12-05 2002-11-15 System de detection de parole dans un signal audio en environnement bruite
AU2002352339A AU2002352339A1 (en) 2001-12-05 2002-11-15 Speech detection system in an audio signal in noisy surrounding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0115685A FR2833103B1 (fr) 2001-12-05 2001-12-05 Systeme de detection de parole dans le bruit

Publications (2)

Publication Number Publication Date
FR2833103A1 true FR2833103A1 (fr) 2003-06-06
FR2833103B1 FR2833103B1 (fr) 2004-07-09

Family

ID=8870113

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0115685A Expired - Fee Related FR2833103B1 (fr) 2001-12-05 2001-12-05 Systeme de detection de parole dans le bruit

Country Status (5)

Country Link
US (1) US7359856B2 (fr)
EP (1) EP1451548A2 (fr)
AU (1) AU2002352339A1 (fr)
FR (1) FR2833103B1 (fr)
WO (1) WO2003048711A2 (fr)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2856506B1 (fr) * 2003-06-23 2005-12-02 France Telecom Procede et dispositif de detection de parole dans un signal audio
FR2864319A1 (fr) * 2005-01-19 2005-06-24 France Telecom Procede et dispositif de detection de parole dans un signal audio
CN1815550A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
KR100930039B1 (ko) * 2007-12-18 2009-12-07 한국전자통신연구원 음성 인식기의 성능 평가 장치 및 그 방법
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
JP5234117B2 (ja) * 2008-12-17 2013-07-10 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
JP5712220B2 (ja) * 2009-10-19 2015-05-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声活動検出のための方法および背景推定器
KR20140026229A (ko) * 2010-04-22 2014-03-05 퀄컴 인코포레이티드 음성 액티비티 검출
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
US20150281853A1 (en) * 2011-07-11 2015-10-01 SoundFest, Inc. Systems and methods for enhancing targeted audibility
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
EP3089157B1 (fr) * 2013-12-26 2020-09-16 Panasonic Intellectual Property Management Co., Ltd. Dispositif de traitement de reconnaissance vocale, procédé de traitement de reconnaissance vocale, et dispositif d'affichage
PL3309784T3 (pl) 2014-07-29 2020-02-28 Telefonaktiebolaget Lm Ericsson (Publ) Szacowanie szumu tła w sygnałach audio
CN111739515B (zh) * 2019-09-18 2023-08-04 北京京东尚科信息技术有限公司 语音识别方法、设备、电子设备和服务器、相关系统
KR20210089347A (ko) * 2020-01-08 2021-07-16 엘지전자 주식회사 음성 인식 장치 및 음성데이터를 학습하는 방법
CN111599377B (zh) * 2020-04-03 2023-03-31 厦门快商通科技股份有限公司 基于音频识别的设备状态检测方法、系统及移动终端
CN111554314A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 噪声检测方法、装置、终端及存储介质
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US5276765A (en) 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US5819217A (en) * 1995-12-21 1998-10-06 Nynex Science & Technology, Inc. Method and system for differentiating between speech and noise
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6122531A (en) * 1998-07-31 2000-09-19 Motorola, Inc. Method for selectively including leading fricative sounds in a portable communication device operated in a speakerphone mode
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MARTIN A ET AL: "Robust speech/non-speech detection using LDA applied to MFCC", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS (CAT. NO.01CH37221), 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS, SALT LAKE CITY, UT, USA, 7-11 MAY 2001, 2001, Piscataway, NJ, USA, IEEE, USA, pages 237 - 240 vol.1, XP002245514, ISBN: 0-7803-7041-4 *
MARTIN P: "COMPARISON OF PITCH DETECTION BY CEPSTRUM AND SPECTRAL COMB ANALYSIS", INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH & SIGNAL PROCESSING. ICASSP. PARIS, MAY 3 - 5, 1982, NEW YORK, IEEE, US, vol. 1 CONF. 7, 3 May 1982 (1982-05-03), pages 180 - 183, XP002906644 *
MORENO-BILBAO A ET AL: "PITCH DETECTOR IN SPEECH SIGNALS CORRUPTED BY NOISE", SIGNAL PROCESSING THEORIES AND APPLICATIONS. BARCELONA, SEPT. 18 - 21, 1990, PROCEEDINGS OF THE EUROPEAN SIGNAL PROCESSING CONFERENCE, AMSTERDAM, ELSEVIER, NL, vol. 2 CONF. 5, 18 September 1990 (1990-09-18), pages 1163 - 1166, XP000365761 *
RAMANA RAO G V ET AL: "Word boundary detection using pitch variations", PROCEEDINGS ICSLP 96. FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING (CAT. NO.96TH8206), PROCEEDING OF FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING. ICSLP '96, PHILADELPHIA, PA, USA, 3-6 OCT. 1996, 1996, New York, NY, USA, IEEE, USA, pages 813 - 816 vol.2, XP002245515, ISBN: 0-7803-3555-4 *

Also Published As

Publication number Publication date
AU2002352339A8 (en) 2003-06-17
WO2003048711A2 (fr) 2003-06-12
FR2833103B1 (fr) 2004-07-09
US20050143978A1 (en) 2005-06-30
AU2002352339A1 (en) 2003-06-17
WO2003048711A3 (fr) 2004-02-12
EP1451548A2 (fr) 2004-09-01
US7359856B2 (en) 2008-04-15

Similar Documents

Publication Publication Date Title
FR2833103A1 (fr) Systeme de detection de parole dans le bruit
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
EP1154405B1 (fr) Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
Zeng et al. Robust GMM based gender classification using pitch and RASTA-PLP parameters of speech
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
CN109964270B (zh) 用于关键短语识别的系统和方法
EP0867856A1 (fr) &#34;Méthode et dispositif de detection d&#39;activité vocale&#34;
JP4914295B2 (ja) 力み音声検出装置
JPH0990974A (ja) 信号処理方法
EP2363852A1 (fr) Procédé informatisé et système pour évaluer l&#39;intelligibilité de la parole
US20020128834A1 (en) Speech recognition system using spectrogram analysis
JPH075892A (ja) 音声認識方法
CN111640456A (zh) 叠音检测方法、装置和设备
Shrawankar et al. Adverse conditions and ASR techniques for robust speech user interface
Korkmaz et al. Unsupervised and supervised VAD systems using combination of time and frequency domain features
JP2797861B2 (ja) 音声検出方法および音声検出装置
JP4852129B2 (ja) 音声認識装置とその方法と、プログラム
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
Yoma et al. Bayes-based confidence measure in speech recognition
Soon et al. Evaluating the effect of multiple filters in automatic language identification without lexical knowledge
US20210225366A1 (en) Speech recognition system with fine-grained decoding
Dutta et al. A comparative study on feature dependency of the Manipuri language based phonetic engine
Zeng et al. Robust children and adults speech classification
JP3049711B2 (ja) 音声処理装置

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 15

ST Notification of lapse

Effective date: 20170831