FR2856506A1 - Speech detection method for voice recognition system, involves calculating parameter representative of frame unit at group of fixed frame corresponding to speech frame with respect to another group of frame corresponding to noise frame - Google Patents
Speech detection method for voice recognition system, involves calculating parameter representative of frame unit at group of fixed frame corresponding to speech frame with respect to another group of frame corresponding to noise frame Download PDFInfo
- Publication number
- FR2856506A1 FR2856506A1 FR0307556A FR0307556A FR2856506A1 FR 2856506 A1 FR2856506 A1 FR 2856506A1 FR 0307556 A FR0307556 A FR 0307556A FR 0307556 A FR0307556 A FR 0307556A FR 2856506 A1 FR2856506 A1 FR 2856506A1
- Authority
- FR
- France
- Prior art keywords
- frame
- speech
- class
- noise
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 239000000203 mixture Substances 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
Procédé et dispositif de détection de parole dans un signal audioMethod and device for detecting speech in an audio signal
La présente invention a trait aux systèmes de reconnaissance de parole dans un signal audio, en particulier en environnement bruité. The present invention relates to speech recognition systems in an audio signal, in particular in a noisy environment.
Plus particulièrement, l'invention concerne un procédé et un système de détection de parole dans un signal audio. More particularly, the invention relates to a method and a system for detecting speech in an audio signal.
La détection de l'activité vocale est une composante majeure du traitement de la parole dans un système de télécommunication. Elle constitue une phase préalable ou simultanée à la reconnaissance de la 10 parole qui peut dès lors s'effectuer sur des mots isolés. Speech activity detection is a major component of speech processing in a telecommunications system. It constitutes a phase prior to or simultaneous with speech recognition which can therefore be carried out on isolated words.
Dans un environnement bruité, la détection de parole est souvent mise en défaut, les erreurs de détection de parole pouvant entraîner une forte dégradation des performances du système de reconnaissance de parole. In a noisy environment, speech detection is often faulted, speech detection errors can lead to a serious deterioration in the performance of the speech recognition system.
Afin de pallier cet inconvénient, il a été proposé de réaliser une détection de parole dans un environnement bruité en analysant l'énergie d'une trame de signal audio, en supposant que la distribution de l'énergie dans la parole et dans le bruit suit une distribution gaussienne. Cette technique est essentiellement basée sur un calcul de 20 rapport de vraisemblance pour le signal étudié, dans chacune des hypothèses bruit et parole. On pourra à cet égard se référer au document " Solutions for Robust Speech/Non-speech Detection in Wireless Environment ", Karray L., Mokbel C. et Monné J.; Interactive Wireless Technology for Telecommunication Application, 25 IVTTA 98 proceedings, 1998 IEEE 4th workshop. Toutefois, l'hypothèse sur laquelle se base cette technique, qui suppose que la distribution de l'énergie dans la parole et dans le bruit suit une distribution gaussienne, est assez peu réaliste et conduit à une très faible amélioration de la détection de parole par rapport à une 30 détection fondée uniquement sur une estimation de l'énergie dans le bruit. In order to overcome this drawback, it has been proposed to carry out speech detection in a noisy environment by analyzing the energy of an audio signal frame, assuming that the distribution of energy in speech and in noise follows a Gaussian distribution. This technique is essentially based on a likelihood ratio calculation for the signal studied, in each of the noise and speech hypotheses. In this regard, reference may be made to the document "Solutions for Robust Speech / Non-speech Detection in Wireless Environment", Karray L., Mokbel C. and Monné J .; Interactive Wireless Technology for Telecommunication Application, 25 IVTTA 98 proceedings, 1998 IEEE 4th workshop. However, the hypothesis on which this technique is based, which supposes that the distribution of energy in speech and in noise follows a Gaussian distribution, is quite unrealistic and leads to very little improvement in speech detection by compared to detection based solely on an estimate of energy in noise.
Selon une autre technique, il a été proposé de modéliser la parole non plus à partir d'un paramètre énergétique seul, mais en utilisant un ensemble de paramètres. On pourra par exemple se référer au brevet américain US 5, 732, 392 qui décrit une technique de 5 détection de parole en élaborant, à partir d'une trame de signal, un vecteur de paramètres spectraux qui est utilisé pour classer la trame soit dans une catégorie " parole ", soit dans une catégorie " bruit ", par comparaison avec un dictionnaire de quantification. Cette technique, qui utilise une modélisation de la catégorie " parole " en 10 utilisant un dictionnaire de quantification est nettement plus riche que la modélisation unimodale précédemment évoquée. Elle présente cependant un inconvénient majeur, dans la mesure o le bruit n'est plus modélisé, d'o la difficulté de définir un seuil sur la distorsion de quantification pour la parole, cette distorsion pouvant être très 15 différente, selon que l'on se trouve en milieu bruité ou non. According to another technique, it has been proposed to model speech no longer from an energy parameter alone, but using a set of parameters. Reference may for example be made to American patent US Pat. No. 5,732,392 which describes a technique for detecting speech by developing, from a signal frame, a vector of spectral parameters which is used to classify the frame either in a "speech" category, or in a "noise" category, by comparison with a quantization dictionary. This technique, which uses a modeling of the "speech" category using a quantization dictionary is clearly richer than the unimodal modeling previously mentioned. However, it has a major drawback, since the noise is no longer modeled, hence the difficulty of defining a threshold on the quantization distortion for speech, this distortion being able to be very different, depending on whether one is in a noisy environment or not.
Le but de l'invention est donc de pallier les inconvénients de l'état de la technique et de fournir un procédé et un système de détection de parole présentant des performances accrues. The object of the invention is therefore to overcome the drawbacks of the state of the art and to provide a method and a system for detecting speech having increased performance.
L'invention a donc pour objet un procédé de détection de 20 parole dans un signal audio comprenant les étapes consistant à calculer, pour chaque trame de signal audio, un paramètre représentatif de l'appartenance de la trame à une première classe de trames prédéterminées correspondant à des trames de parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit, et à 25 analyser ledit paramètre pour en déduire la nature de la trame de signal audio, les classes de trames étant présentées chacune par un mélange de gaussiennes représentant des densités de probabilité de chaque classe. The subject of the invention is therefore a method for detecting speech in an audio signal comprising the steps consisting in calculating, for each frame of audio signal, a parameter representative of the membership of the frame in a first class of corresponding predetermined frames. speech frames, relative to a second class of frames corresponding to noise frames, and analyzing said parameter to deduce the nature of the audio signal frame, the frame classes each being presented by a mixture of gaussians representing probability densities of each class.
Selon une autre caractéristique de l'invention, les mélanges de 30 gaussiennes des première et deuxième classes de trames sont extraites d'un système de reconnaissance vocale utilisant un modèle de Markov caché (HMM). According to another characteristic of the invention, the mixtures of Gaussians of the first and second frame classes are extracted from a voice recognition system using a hidden Markov model (HMM).
Par exemple, la trame de signal audio est représentée par un vecteur de coefficients cepstraux. For example, the audio signal frame is represented by a vector of cepstral coefficients.
Selon un mode de réalisation, ledit paramètre représentatif de l'appartenance de la trame à la première classe de trame est élaboré à 5 partir de la vraisemblance de la trame dans chacune des classes. Par exemple, on calcule le paramètre en calculant le rapport de la vraisemblance de la trame dans la première classe sur la vraisemblance de la trame dans la deuxième classe. According to one embodiment, said parameter representative of the membership of the frame in the first frame class is developed from the likelihood of the frame in each of the classes. For example, the parameter is calculated by calculating the ratio of the likelihood of the frame in the first class to the likelihood of the frame in the second class.
Selon un autre mode de réalisation, on détermine 10 l'appartenance de la trame à l'une des première et deuxième classes à partir d'une sommation de la vraisemblance calculée pour chacune des gaussiennes de chaque classe. According to another embodiment, the membership of the frame is determined in one of the first and second classes from a summation of the likelihood calculated for each of the Gaussians of each class.
On peut également déterminer l'appartenance de la trame à l'une des première et deuxième classes à partir d'une méthode de 15 détermination du plus proche voisin dans chacune des classes. It is also possible to determine the membership of the frame in one of the first and second classes using a method of determining the nearest neighbor in each of the classes.
Dans un mode de réalisation avantageux, l'analyse dudit paramètre est utilisée conjointement avec une analyse du niveau énergétique de la trame pour la détection de la parole dans le signal. In an advantageous embodiment, the analysis of said parameter is used in conjunction with an analysis of the energy level of the frame for the detection of speech in the signal.
Dans un mode de mise en oeuvre de l'invention, la détection de 20 la parole est effectuée au moyen d'un automate à états finis dont les états comprennent au moins un état correspondant à un bruit ou un silence, un état correspondant à une présomption de parole et un état correspondant à de la parole, les transitions entre les états étant gouvernés par le résultat d'évaluations de critères énergétique de la 25 trame et par le résultat de l'étape d'analyse dudit paramètre. In one embodiment of the invention, speech detection is carried out by means of a finite state machine whose states include at least one state corresponding to noise or silence, one state corresponding to one speech presumption and a state corresponding to speech, the transitions between the states being governed by the result of evaluations of energy criteria of the frame and by the result of the step of analyzing said parameter.
Selon l'invention, il est également proposé un dispositif de détection de parole dans un signal audio comprenant des moyens de calcul d'un paramètre représentatif de l'appartenance d'un signal audio à une première classe de trames prédéterminées correspondant à 30 des trames de parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit, les classes de trames étant représentées chacune par un mélange de gaussiennes représentant des densités de probabilité de chaque classe, les moyens de calcul étant en outre adaptés pour analyser ledit paramètre pour en déduire la nature de la trame de signal audio. According to the invention, there is also proposed a device for detecting speech in an audio signal comprising means for calculating a parameter representative of the membership of an audio signal in a first class of predetermined frames corresponding to 30 frames speech, with respect to a second class of frames corresponding to noise frames, the classes of frames each being represented by a mixture of Gaussians representing probability densities of each class, the calculation means being further adapted to analyze said parameter to deduce the nature of the audio signal frame.
Les moyens de calcul comportent des moyens de calcul de 5 vraisemblance de la trame dans chacune des classes de trame. Ils peuvent en outre comporter des moyens d'analyse du niveau énergétique de la trame de signal audio, la détection de la parole dans le signal étant effectuée conjointement au moyen de l'analyse dudit paramètre et au moyen de l'analyse du niveau d'énergie de la trame. The calculation means include means for calculating the likelihood of the frame in each of the frame classes. They may also include means for analyzing the energy level of the audio signal frame, the detection of speech in the signal being carried out jointly by means of the analysis of said parameter and by means of the analysis of the level of energy of the frame.
D'autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: la figure 1 représente la structure générale d'un système de 15 reconnaissance vocale incorporant un dispositif de détection de parole conforme à l'invention; - la figure 2 représente une machine à état entrant dans la constitution du dispositif de détection de parole conforme à l'invention; et - la figure 3 est une courbe illustrant les performances du dispositif de détection conforme à l'invention. Other objects, characteristics and advantages of the invention will appear on reading the following description, given solely by way of nonlimiting example, and made with reference to the appended drawings, in which: FIG. 1 represents the general structure d a voice recognition system incorporating a speech detection device according to the invention; - Figure 2 shows a state machine entering into the constitution of the speech detection device according to the invention; and - Figure 3 is a curve illustrating the performance of the detection device according to the invention.
Sur la figure 1, on a représenté la structure générale d'un système de reconnaissance de parole, désigné par la référence numérique générale 10. Le système de reconnaissance représenté 25 comprend un module de détection de parole 12 et un module de reconnaissance vocale 14. La fonction du module de détection de parole 12 est de détecter dans un signal audio incident S les périodes de parole afin d'éviter au module de reconnaissance vocale 14 de chercher à reconnaître de la parole sur des périodes du signal d'entrée 30 S correspondant à des phases de silence ou à des phases de bruit. Sa présence permet alors à la fois d'améliorer les performances et de réduire la coût du système de reconnaissance vocale. FIG. 1 shows the general structure of a speech recognition system, designated by the general reference numeral 10. The recognition system shown 25 comprises a speech detection module 12 and a speech recognition module 14. The function of the speech detection module 12 is to detect the speech periods in an incident audio signal S in order to prevent the speech recognition module 14 from seeking to recognize speech over periods of the corresponding input signal 30 S to phases of silence or to phases of noise. Its presence then makes it possible both to improve performance and to reduce the cost of the voice recognition system.
Cette détermination est précédée par l'analyse du signal audio S par un module d'analyse 16, de façon à en extraire des coefficients pertinents pour le module de détection 12 et pour le module de reconnaissance 14. This determination is preceded by the analysis of the audio signal S by an analysis module 16, so as to extract from it coefficients relevant for the detection module 12 and for the recognition module 14.
Selon un mode de réalisation, les coefficients extraits sont des coefficients cepstraux, encore appelés coefficients MFCC (" MEl Frequency Cepstrum Coefficients "). Par exemple, le module d'analyse 16 comporte un banc de huit filtres délivrant huit coefficients cepstraux, lesquels sont complétés par un paramètre d'énergie, et 10 calcule les dérivés temporelles d'ordre 1 et 2 des neuf coefficients ainsi élaborés pour délivrer, en sortie du module d'analyse 16, des vecteurs de 27 coefficients. According to one embodiment, the extracted coefficients are cepstral coefficients, also called MFCC coefficients ("MEl Frequency Cepstrum Coefficients"). For example, the analysis module 16 includes a bank of eight filters delivering eight cepstral coefficients, which are supplemented by an energy parameter, and 10 calculates the temporal derivatives of order 1 and 2 of the nine coefficients thus developed to deliver, at the output of the analysis module 16, vectors of 27 coefficients.
En amont, le système de reconnaissance de parole 10 est en outre pourvu d'un étage de détection 18 destiné à subdiviser le signal 15 S incident en un ensemble de trames audio. Par exemple, ce module de détection 18 comporte une fenêtre de Hanning assurant le découpage du signal S en trame de 32 ms avec un recouvrement de 16 ms. Ainsi, selon cet exemple, le module d'analyse 16 élabore, pour chaque trame, un vecteur de 27 coefficients, lequel est utilisé par le module de 20 détection de parole 12 et par le module de reconnaissance 14 pour, d'une part, la reconnaissance de mots isolés et de parole continue et, d'autre part, fournir le résultat R de la reconnaissance par l'intermédiaire d'un module de décision 20. Upstream, the speech recognition system 10 is further provided with a detection stage 18 intended to subdivide the incident signal 15 S into a set of audio frames. For example, this detection module 18 comprises a Hanning window ensuring the cutting of the signal S into a 32 ms frame with an overlap of 16 ms. Thus, according to this example, the analysis module 16 develops, for each frame, a vector of 27 coefficients, which is used by the speech detection module 12 and by the recognition module 14 for, on the one hand, the recognition of isolated words and of speech continues and, on the other hand, provide the result R of the recognition by means of a decision module 20.
Les modules de reconnaissance vocale 14 et de décision 20 du 25 système de reconnaissance de parole sont constitués par des modules de type classique, à la portée d'un homme du métier. Ils ne seront donc pas décrits en détail par la suite. The voice recognition 14 and decision 20 modules of the speech recognition system are constituted by modules of conventional type, within the reach of a person skilled in the art. They will therefore not be described in detail below.
En ce qui concerne le module de détection de parole 12, celuici comporte essentiellement, selon un exemple de mise en oeuvre de 30 l'invention, un automate à états finis. Un tel automate peut, par exemple, être constitué par un automate à deux états, dans le cas le plus simple, lorsqu'il s'agit simplement de détecter une activité vocale, ou à trois ou quatre états, voire à cinq états. As regards the speech detection module 12, this essentially comprises, according to an exemplary implementation of the invention, a finite state machine. Such an automaton can, for example, be constituted by an automaton with two states, in the simplest case, when it is simply a question of detecting voice activity, or with three or four states, or even with five states.
La décision quant à l'appartenance ou non de la trame à de la parole est prise au niveau de chacune des trames du signal d'entrée, 5 dont la cadence peut être de 16 ms, comme indiqué dans l'exemple évoqué précédemment. De manière générale, l'utilisation d'un automate ayant un grand nombre d'états finis permet une modélisation plus fine de la décision à prendre, par la prise en compte des considérations structurelles de la parole. The decision as to whether or not the frame belongs to speech is taken at the level of each of the frames of the input signal, the rate of which may be 16 ms, as indicated in the example mentioned above. In general, the use of an automaton with a large number of finite states allows finer modeling of the decision to be taken, by taking into account structural considerations of speech.
On a représenté sur la figure 2 un exemple d'automate à cinq états finis pouvant être utilisé pour la réalisation du module de détection de parole 12. Un tel automate peut être réalisé conformément à l'enseignement du document intitulé " Amélioration des performances de serveurs vocaux interactifs " de L. Mauuary, thèse de 15 doctorat, Université de Rennes 1, 1994. Bien entendu, d'autres automates de détection peuvent également être utilisés dans le cadre de la présente invention. FIG. 2 shows an example of a automaton with five finite states which can be used for the production of the speech detection module 12. Such an automaton can be produced in accordance with the teaching of the document entitled "Improvement of server performance interactive voices "by L. Mauuary, doctoral thesis, University of Rennes 1, 1994. Of course, other automatic detection systems can also be used in the context of the present invention.
Les cinq états de l'automate sont définis comme suit - état 1 " bruit ou silence "; - état 2 " présomption de parole " - état 3 " parole "; - état 4 " plosive non voisée ou silence " ; et - état 5 " reprise possible de parole ". The five states of the PLC are defined as follows - state 1 "noise or silence"; - state 2 "presumption of speech" - state 3 "speech"; - state 4 "plosive unvoiced or silence"; and - state 5 "possible speech recovery".
Conformément à une caractéristique de l'invention, les 25 transitions entre les états sont gouvernées par le résultat d'évaluations effectuées sur des critères énergétiques, de durée de parole et de silence et par le résultat de l'analyse d'un paramètre associé à chaque trame incidente représentative de l'appartenance de la trame à une première classe de trames déterminées correspondant à des trames de 30 parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit. According to a characteristic of the invention, the transitions between the states are governed by the result of evaluations carried out on energy, speech and silence duration criteria and by the result of the analysis of a parameter associated with each incident frame representative of the belonging of the frame to a first class of determined frames corresponding to speech frames, with respect to a second class of frames corresponding to noise frames.
L'élaboration d'un tel paramètre est essentiellement basée sur le calcul de vraisemblance statistique de la trame courante dans chacune des classes de trames dites " Bruit " et " Parole ". Plus particulièrement, dans un exemple de mise en oeuvre, l'appartenance 5 de la trame courante à la classe Bruit ou à la classe Parole est déterminée sur la base du calcul du rapport des vraisemblances calculées, d'une part, dans la classe de trames Parole, et, d'autre part, dans la classe de trames Bruit. The development of such a parameter is essentially based on the calculation of statistical likelihood of the current frame in each of the frame classes called "Noise" and "Speech". More particularly, in an exemplary implementation, the membership 5 of the current frame in the noise class or in the speech class is determined on the basis of the calculation of the likelihood ratio calculated, on the one hand, in the class of speech frames, and, on the other hand, in the noise frame class.
On notera que les classes de trames Bruit et Parole sont 10 représentées par un mélange ou mixture de gaussiennes, c'est-à-dire un ensemble de densités de probabilités gaussiennes pondérées correspondant chacune à une densité de probabilité d'appartenance à la classe Bruit ou Parole, sur la base d'un paramètre caractéristique. It will be noted that the Noise and Speech frame classes are represented by a mixture or mixture of Gaussians, that is to say a set of weighted Gaussian probability densities each corresponding to a probability density of belonging to the Noise class. or Word, based on a characteristic parameter.
Une telle modélisation par mélange de gaussiennes est une 15 modélisation répandue, à la portée d'un homme du métier. Elle ne sera donc pas décrite en détail par la suite. Such modeling by mixing of Gaussians is a widespread modeling, within the reach of a person skilled in the art. It will therefore not be described in detail below.
On notera néanmoins que différentes techniques peuvent être utilisées pour la création de la mixture de gaussiennes caractérisant les classes Bruit et Parole. Ces techniques sont basées sur l'utilisation 20 d'un modèle de Markov caché, HMM (" Hidden Markov model "). Ce modèle est constitué d'un ensemble d'états, de transition entre ces états et de densités de probabilité gaussiennes d'émission dans l'espace acoustique lié aux transitions. Chaque fonction de densité de probabilité possède trois paramètres, à savoir un vecteur des 25 moyennes, une matrice de covariance et une probabilité à priori. Un tel modèle est largement utilisé dans tout système de reconnaissance de parole et ne sera donc pas davantage détaillé. Note, however, that different techniques can be used for the creation of the Gaussian mixture characterizing the Noise and Speech classes. These techniques are based on the use of a hidden Markov model, HMM ("Hidden Markov model"). This model is made up of a set of states, of transition between these states and of Gaussian probability densities of emission in the acoustic space linked to the transitions. Each probability density function has three parameters, namely a vector of the means, a covariance matrix and an a priori probability. Such a model is widely used in any speech recognition system and will therefore not be further detailed.
Pour l'élaboration de ces gaussiennes de référence, selon une première technique, un ensemble de trames d'apprentissage sont 30 élaborées à partir de sons prononcés par des locuteurs. Afin de pouvoir apprendre de façon fiable des gaussiennes de parole qui représentent bien toutes les composantes de la parole possibles indépendamment du locuteur, on utilise un grand nombre de trames d'exemple, typiquement de l'ordre de plusieurs centaines de milliers de trames. Il en est de même pour les trames de Bruit. On étiquette alors manuellement les trames appartenant aux classes Bruit et Parole et 5 l'on apprend alors, à partir de ces trames, les paramètres des mixtures de gaussiennes Bruit ou Parole, à partir du modèle HMM. Comme on le conçoit, une telle technique, qui nécessite d'écouter un grand nombre de trames, est relativement fastidieuse à mettre en oeuvre. For the development of these reference Gaussians, according to a first technique, a set of learning frames are developed from sounds pronounced by speakers. In order to be able to reliably learn speech Gaussians which represent all the possible speech components independently of the speaker, a large number of example frames is used, typically of the order of several hundreds of thousands of frames. It is the same for the Noise screens. We then manually label the frames belonging to the Noise and Speech classes and 5 we then learn, from these frames, the parameters of the Noise or Speech Gaussian mixtures, from the HMM model. As will be appreciated, such a technique, which requires listening to a large number of frames, is relatively tedious to implement.
De préférence, le système de reconnaissance de parole est 10 utilisé pour étiqueter automatiquement les trames en classe Bruit ou Parole. Dans ce cas, il est nécessaire d'utiliser des trames dont on connaît la séquence de mots prononcés. Ainsi, en alignant la séquence de mots prononcés avec sa référence dans la modélisation HMM, on obtient les frontières des phonèmes et donc la classification des trames 15 en classe Bruit ou Parole. Le modèle HMM se charge alors, comme précédemment, de récupérer les paramètres des mixtures de gaussienne, bruit ou parole. Preferably, the speech recognition system is used to automatically label the Noise or Speech class frames. In this case, it is necessary to use frames of which the sequence of spoken words is known. Thus, by aligning the sequence of words spoken with its reference in the HMM modeling, one obtains the boundaries of the phonemes and therefore the classification of the frames 15 in Noise or Speech class. The HMM model then takes care, as before, of recovering the parameters of the Gaussian, noise or speech mixtures.
Enfin, selon un troisième exemple, on utilise, pour la génération de la mixture de gaussiennes, les gaussiennes des modèles 20 de phonèmes et des modèles de silence et de bruit dont dispose déjà le modèle HMM. On utilise ainsi toutes les gaussiennes des modèles de phonèmes de la modélisation HMM ainsi que toutes les gaussiennes des modèles de silence et de bruit de la modélisation HMM. Finally, according to a third example, the Gaussians of the phoneme models and of the silence and noise models which the HMM model already has are used for the generation of the mixture of gaussians. One thus uses all the Gaussian models of phonemes of the HMM modeling as well as all the Gaussian models of silence and noise of the HMM modeling.
A partir des mixtures de gaussiennes préalablement élaborées 25 ou récupérées, on calcule tout d'abord, pour chaque trame courante représentée par son vecteur de coefficients cepstraux tel qu'élaboré par le module analyse 16, la vraisemblance lparole (X) de la trame X dans la classe Parole. From the Gaussian mixtures previously developed or recovered, we first calculate, for each current frame represented by its vector of cepstral coefficients as developed by the analysis module 16, the likelihood lparole (X) of the frame X in the Word class.
Ce calcul est effectué au moyen de la relation 30 parole (X) l=qu, lle.... Nog (X) (1) dans laquelle: - Nparole est le nombre de gaussiennes de la classe Parole, - 7ir désigne la probabilité à priori associée à la gaussienne de parole gi de paramètres (/i,Ei), pour laquelle on calcule la vraisemblance de la trame X; et - Oi=,.,N,,,o,, peut être considéré, par exemple, comme l'opérateur max=., Nparoe ou comme l'opérateur E1 oN l -=1 N parole t ** p En ce qui concerne la gaussienne de parole, celle-ci est donnée par la relation: gi(X)= exp--(X- i)'i. (X-j) (2) (27r)D/2.h i 2 1 Dans chacun des cas, on obtient une vraisemblance particulière, c 'est-à-dire parole (X) = maxi= 1,..,Nparoleigigi(X) parole(X) = =,.. ,Nparolg(X) De même, on calcule la vraisemblance Ibruit(X) de la trame X dans la classe bruit, selon la relation ibruit(X) = ) =Nbî,igi(X) (3) dans laquelle: - Noruit est le nombre de gaussiennes de la classe bruit - ki la probabilité a priori associée à la gaussienne de bruit gÉ 25 de paramètres (i,,,), pour laquelle on calcule la vraisemblance de la trame X; ou,.. N,,, peut être considéré comme l'opérateur max,=.,No ou comme l'opérateur i=1l,..,Nparole En ce qui concerne la gaussienne de bruit, celle-ci est donnée 30 par la relation: ki(x) 1 exp- (X-ii)'Z. (X-;ûi) (4) (2r).Éjh 2i[ Dans chacun des cas, on obtient une vraisemblance particulière, c'est-à-dire: Imax (X)ma îlk bruit (X) = maxi=l..Nb,, 7igi(X) bruit (X) i=,.., rigi(x) On calcule alors le rapport de vraisemblance pour la trame 10 courante à partir de la relation llr(X) - parXle (5) bruit,(X) avec les deux cas particuliers suivants I max X lrmax (X) parole' X) I max{X' bruit (X) llrZ(X)= Parole() Ibruit (X) Dans le premier cas particulier de llrmaX(X), ce rapport 20 correspond au rapport de vraisemblance entre la vraisemblance maximale parmi les gaussiennes de la classe Parole et la vraisemblance maximale parmi les gaussiennes de la classe Bruit. Selon une interprétation géométrique, ceci peut s'interpréter comme une méthode de recherche du plus proche voisin parmi les représentants de la classe 25 Parole et de recherche du plus proche voisin parmi les représentants de la classe Bruit. Le critère d'appartenance de la trame courante X à la classe Parole devient alors une fonction (par exemple, différence ou rapport) de la distance au plus proche voisin de chacune des classes. This calculation is carried out by means of the relation 30 speech (X) l = qu, lle .... Nog (X) (1) in which: - Nparole is the number of Gaussians of the class Word, - 7ir denotes the probability a priori associated with the gaussian of speech gi of parameters (/ i, Ei), for which the likelihood of the frame X is calculated; and - Oi =,., N ,,, o ,, can be considered, for example, as the operator max =., Nparoe or as the operator E1 oN l - = 1 N speech t ** p Regarding concerns the Gaussian of speech, this is given by the relation: gi (X) = exp - (X- i) 'i. (Xj) (2) (27r) D / 2.hi 2 1 In each case, we obtain a particular likelihood, i.e. speech (X) = max = 1, .., Nparoleigigi (X) speech (X) = =, .., Nparolg (X) Similarly, we calculate the likelihood Ibruit (X) of the frame X in the noise class, according to the relation ibruit (X) =) = Nbî, igi (X) (3) in which: - Noruit is the number of Gaussians of the noise class - ki the a priori probability associated with the Gaussian of noise gÉ of parameters (i ,,,), for which the likelihood of the frame X is calculated ; or, .. N ,,, can be considered as the max operator, =., No or as the operator i = 11, .., Nparole Regarding the noise Gaussian, this is given by the relation: ki (x) 1 exp- (X-ii) 'Z. (X-; ûi) (4) (2r). Éjh 2i [In each case, we obtain a particular likelihood, that is to say: Imax (X) ma îlk noise (X) = maxi = l. .Nb ,, 7igi (X) noise (X) i =, .., rigi (x) We then calculate the likelihood ratio for the current frame 10 from the relation llr (X) - parXle (5) noise, (X) with the following two particular cases I max X lrmax (X) speech 'X) I max {X' noise (X) llrZ (X) = Speech () Noise (X) In the first particular case of llrmaX (X ), this ratio 20 corresponds to the likelihood ratio between the maximum likelihood among the Gaussians of the Word class and the maximum likelihood among the Gaussians of the Noise class. According to a geometric interpretation, this can be interpreted as a method of finding the nearest neighbor among the representatives of the speech class and finding the nearest neighbor among the representatives of the noise class. The criterion of membership of the current frame X in the Word class then becomes a function (for example, difference or ratio) of the distance to the nearest neighbor of each of the classes.
On peut également, à partir de la modélisation en gaussiennes, obtenir une modélisation simplifiée, de type " quantification vectorielle ", qui utilise un dictionnaire de quantification dérivé des paramètres des gaussiennes. Il s'agit alors de rechercher le plus proche 5 voisin dans chacune des classes, comme étant celui donnant lieu à une distorsion de quantification minimale. On peut alors en déduire une valeur reflétant l'appartenance de la trame à la classe Parole par rapport à la classe Bruit en prenant, par exemple, le rapport des distorsions minimales pour chacune de ces deux classes. It is also possible, from the Gaussian modeling, to obtain a simplified modeling, of the "vector quantization" type, which uses a quantization dictionary derived from the parameters of the Gaussians. It is then a question of searching for the nearest neighbor 5 in each of the classes, as being that giving rise to a minimal quantization distortion. We can then deduce a value reflecting the membership of the frame in the Speech class compared to the Noise class by taking, for example, the ratio of minimum distortions for each of these two classes.
Comme indiqué précédemment, le rapport de vraisemblance ainsi élaboré est utilisé pour gouverner les transitions de l'automate, conjointement avec une analyse du niveau énergétique de la trame. As indicated previously, the likelihood ratio thus produced is used to govern the transitions of the automaton, together with an analysis of the energy level of the frame.
On va maintenant décrire, en référence à la figure 2, le fonctionnement de l'automate. We will now describe, with reference to FIG. 2, the operation of the automaton.
Les conditions gouvernant les transitions entre les états sont, pour cet automate, les suivantes: Condition C1: cette première condition est basée sur un critère énergétique, lui-même basé sur l'utilisation des statistiques du bruit. On fait l'hypothèse classique selon laquelle le logarithme de 20 l'énergie du bruit E(n) suit une loi normale de paramètres (ôt, 12). The conditions governing the transitions between the states are, for this automaton, the following: Condition C1: this first condition is based on an energy criterion, itself based on the use of noise statistics. We make the classic assumption that the logarithm of the noise energy E (n) follows a normal law of parameters (ôt, 12).
Dans cet exemple, le logarithme de l'énergie du bruit E(n) d'une trame n est le logarithme de l'énergie à court terme du bruit, c'est-à-dire le logarithme de la somme des carrés des échantillons de la trame n. Les statistiques du logarithme de l'énergie du bruit sont 25 estimés lorsque l'automate est dans un état 1 " bruit " ou " silence ". In this example, the logarithm of the noise energy E (n) of a frame n is the logarithm of the short-term energy of the noise, i.e. the logarithm of the sum of the squares of the samples of frame n. The noise energy logarithm statistics are estimated when the controller is in a "noise" or "silence" state.
La moyenne et l'écart type sont respectivement estimés par les équations (6) et (7) suivantes: /(n) = (n - 1)+ (1 -)(E(n) - /(n - 1)), (6) â(n) = â(n - 1) + (1- ,)(lE(n) - ft(n - 1)l-â(n - 1)), (7) dans lesquelles n représente l'indice de la trame, E est un facteur d'oubli (typiquement égal à 0,995), et E(n) est le logarithme de l'énergie pour la trame courante. The mean and the standard deviation are respectively estimated by the following equations (6) and (7): / (n) = (n - 1) + (1 -) (E (n) - / (n - 1)) , (6) â (n) = â (n - 1) + (1-,) (lE (n) - ft (n - 1) l-â (n - 1)), (7) in which n represents the frame index, E is a forgetting factor (typically 0.995), and E (n) is the logarithm of the energy for the current frame.
On considère le logarithme de l'énergie de chaque trame et l'on 5 cherche à vérifier l'hypothèse selon laquelle l'automate est dans l'état " bruit " ou " silence ", ce qui correspond à une absence de parole. La décision sera alors prise en fonction de l'écart du logarithme de l'énergie E(n) de la trame considérée n, par rapport à la moyenne estimée du bruit, c'est-à-dire selon la valeur du rapport critique 10 r(E(n)) défini comme suit r(E(n)) - () (8) 6(n) Le rapport critique est alors comparé à un seuil de détection prédéfini, selon la relation suivante (condition C1): 15 r(E(n))>SeuilE (9) Typiquement, des valeurs de seuil comprises entre 1,5 et 3,5 peuvent être utilisées. We consider the logarithm of the energy of each frame and we seek to verify the hypothesis that the automaton is in the "noise" or "silence" state, which corresponds to an absence of speech. The decision will then be taken as a function of the difference in the logarithm of the energy E (n) of the frame considered n, with respect to the estimated average of the noise, that is to say according to the value of the critical ratio 10 r (E (n)) defined as follows r (E (n)) - () (8) 6 (n) The critical ratio is then compared to a predefined detection threshold, according to the following relation (condition C1): 15 r (E (n))> ThresholdE (9) Typically, threshold values between 1.5 and 3.5 can be used.
Cette première condition, fondée sur l'utilisation d'une information énergétique E(n) du signal d'entrée est appelée " critère SB " dans la suite de la description. Cependant, on notera que d'autres critères utilisant une information d'énergie du signal d'entrée, peuvent également être utilisés dans le cadre de la présente invention. This first condition, based on the use of energy information E (n) of the input signal is called "criterion SB" in the following description. However, it will be noted that other criteria using energy information of the input signal can also be used in the context of the present invention.
- Condition C2: cette condition est basée sur le rapport de vraisemblance calculé pour la trame courante. - Condition C2: this condition is based on the likelihood ratio calculated for the current frame.
Comme indiqué précédemment, cette condition est basée sur un calcul de rapport de vraisemblance, selon la relation 5 précédemment mentionnées. Par exemple, on considère le rapport de vraisemblance 30 llrmax(X) et l'on compare ce rapport à un seuil, selon la relation (10) suivante: llrax (x)>seuilllr (10) En d'autres termes, cet automate utilise essentiellement deux conditions pour gouverner les transitions entre les états et détecte la 5 parole s'il y a eu suffisamment de trames énergétiques consécutives et que si, parmi ces trames, un nombre suffisant de trames ont été classées comme appartenant à la classe de trames Parole en utilisant les mixtures de gaussiennes. As indicated above, this condition is based on a likelihood ratio calculation, according to the relationship 5 previously mentioned. For example, consider the likelihood ratio 30 llrmax (X) and compare this ratio to a threshold, according to the following relation (10): llrax (x)> seuilllr (10) In other words, this automaton essentially uses two conditions to govern the transitions between states and detects speech if there have been enough consecutive energy frames and if, among these frames, a sufficient number of frames have been classified as belonging to the frame class Speak using Gaussian mixtures.
- Condition C3: cette condition est basée sur un contrôle de 10 durée de parole. - Condition C3: this condition is based on a control of 10 speaking times.
Cette condition est basée sur l'utilisation d'un compteur DP incrémenté à chaque décision de l'automate tendant à rester dans l'état " parole ". La condition C2 est vérifiée lorsque le compteur DP atteint une valeur de seuil " parole minimum " prédéterminée. En d'autres 15 termes, selon cette condition, l'automate vérifie qu'il est resté dans l'état " parole " au-delà d'un nombre minimum. This condition is based on the use of a DP counter incremented with each decision of the automaton tending to remain in the "speech" state. The condition C2 is verified when the counter DP reaches a predetermined "minimum speech" threshold value. In other words, according to this condition, the automaton verifies that it has remained in the "speech" state beyond a minimum number.
- Condition C4: cette condition est basée sur une classification de la trame dans la classe de trames Parole. - Condition C4: this condition is based on a classification of the frame in the speech frame class.
Pour valider cette condition, l'automate vérifie que des trames 20 consécutives incidentes ont été classées dans la première classe de trames de parole un nombre de fois supérieur à une valeur de seuil. To validate this condition, the automaton verifies that consecutive incident frames have been classified in the first class of speech frames a number of times greater than a threshold value.
Cette condition utilise un compteur DPGMM et une valeur de seuil " parole minimum GMM ". This condition uses a DPGMM counter and a "GMM minimum speech" threshold value.
-Condition C 5: cette condition est basée sur un contrôle de 25 durée de silence. -Condition C 5: this condition is based on a control of 25 duration of silence.
Cette condition est vérifiée si la durée de silence DS représentée par un compteur est supérieure à une valeur de seuil " silence fin ". This condition is verified if the duration of silence DS represented by a counter is greater than a threshold value "end silence".
L'état initial de l'automate est l'état 1 " bruit ou silence ". 30 L'automate reste dans cet état tant qu'aucune trame énergétique n'est reçue (condition " non_Cl "), c'est-à-dire une trame dont l'énergie est supérieure à un seuil de détection prédéterminé. A chaque réception d'une trame insuffisamment énergétique, l'action A1 est effectuée, c'est-à-dire que le compteur DS est incrémenté. The initial state of the PLC is state 1 "noise or silence". The automaton remains in this state as long as no energy frame is received ("non_Cl" condition), that is to say a frame whose energy is greater than a predetermined detection threshold. At each reception of an insufficiently energetic frame, the action A1 is carried out, that is to say that the counter DS is incremented.
Lors de la réception de la première trame dont l'énergie est supérieure au seuil de détection (condition " C1 "), l'automate passe 5 dans l'état 2 " présomption de parole ". Ce faisant, le compteur DP est positionné à 1 (action A2) et le compteur DPGMM est positionné à 0 (action A3). Dans l'état 2, la réception d'une trame " non énergétique " (condition " non_Cl ") provoque le retour à l'état 1 " bruit ou silence " et l'affectation à la valeur DS de la somme des 10 compteurs DS et DP (action A4). When receiving the first frame whose energy is greater than the detection threshold (condition "C1"), the automaton goes into state 2 "presumption of speech". In doing so, the DP counter is positioned at 1 (action A2) and the DPGMM counter is positioned at 0 (action A3). In state 2, the reception of a "non-energy" frame (condition "non_Cl") causes the return to state 1 "noise or silence" and the allocation to the DS value of the sum of the 10 DS counters and DP (action A4).
On notera que dans l'état " présomption de parole ", l'automate calcule pour chaque trame son rapport de vraisemblance par mixture de gaussiennes. L'automate reste dans l'état " présomption de parole " tant que la condition C1 est remplie et que les conditions C3 et C4 ne 15 sont pas remplies. It will be noted that in the “presumption of speech” state, the automaton calculates for each frame its likelihood ratio by mixture of gaussians. The automaton remains in the "presumption of speech" state as long as condition C1 is fulfilled and conditions C3 and C4 are not fulfilled.
Si les conditions C3 et C4 sont remplies, l'automate passe dans l'état " parole ", c'est-à-dire lorsque l'automate est resté dans l'état 2 pour un nombre minimum " parole minimum " prédéterminé de trames, et qu'un nombre suffisant de trames ont été placées comme paroles en 20 utilisant les mixtures de gaussiennes. Il reste alors dans l'état 3 " parole ", tant que les trames sont énergétiques (condition C1). A chaque réception d'une trame, le compteur DP est incrémenté (action A5). If conditions C3 and C4 are fulfilled, the automaton goes into the "speech" state, that is to say when the automaton has remained in state 2 for a predetermined minimum number "minimum speech" of frames , and that a sufficient number of frames have been placed as lyrics using the Gaussian mixtures. It then remains in state 3 "speech", as long as the frames are energetic (condition C1). Each time a frame is received, the DP counter is incremented (action A5).
En revanche, il passe à l'état 4 " plosive non voisée ou 25 silence " dès que la trame courante est non énergétique (condition " non_Cl "). Dans ce cas, le compteur DS est positionné à 1 (action A7). Dans cet état 4, la réception d'un nombre de trames successives non énergétiques (condition " nonCl ") dont la durée cumulée est supérieure à " silence fin " (condition C5) confirme un état de silence 30 et provoque le retour de l'automate dans l'état 1 " bruit ou silence ". On the other hand, it goes to state 4 "plosive unvoiced or 25 silence" as soon as the current frame is non-energetic (condition "non_Cl"). In this case, the DS counter is set to 1 (action A7). In this state 4, the reception of a number of successive non-energy frames (condition "nonCl") whose cumulative duration is greater than "fine silence" (condition C5) confirms a state of silence 30 and causes the return of the PLC in state 1 "noise or silence".
Les compteurs DS et DP sont alors remis à 0. The DS and DP counters are then reset to 0.
La variable " silence fin " sert par conséquent à confirmer un état de silence dû à la fin de la parole. Par exemple, dans le cas de la parole continue, " silence fin " peut atteindre une seconde. The variable "end silence" is therefore used to confirm a state of silence due to the end of the speech. For example, in the case of continuous speech, "fine silence" can reach one second.
Au contraire, si dans l'état 4 " plosive non voisée ou silence ", 5 la trame courante est énergétique (condition C1), l'automate passe dans l'état 5 " reprise possible de parole ", il reste dans cet état 5 tant que la condition C1 est remplie et que la condition C3 n'est pas remplie. Dans cet état 5, la réception d'une trame non énergétique (condition " non_Cl ") le fait retourner dans l'état 1 " bruit ou 10 silence " ou dans l'état 4 " plosive non voisée ou silence " selon que la durée de silence DS est supérieure (C5) ou non (" nonC5 ") à un nombre prédéterminé de trames (silence fin). La durée de silence représente le temps passé à l'état 4 " plosive non voisée ou silence " et dans l'état " reprise possible de parole ". Enfin, si la condition " C1 15 & C3 " (& désigne le " et " logique) est vérifiée, c'est-à-dire si l'automate est resté durant un nombre minimum (parole minimum) de trames énergétiques dans l'état 5 (" reprise possible de parole "), il retourne alors dans l'état 3 (" parole). On the contrary, if in state 4 "plosive unvoiced or silence", 5 the current frame is energetic (condition C1), the automaton goes into state 5 "possible speech recovery", it remains in this state 5 as long as condition C1 is met and condition C3 is not met. In this state 5, the reception of a non-energetic frame (condition "non_Cl") causes it to return to state 1 "noise or 10 silence" or to state 4 "plosive unvoiced or silence" depending on whether the duration DS silence is greater (C5) or not ("nonC5") than a predetermined number of frames (fine silence). The duration of silence represents the time spent in state 4 "plosive unvoiced or silence" and in state "possible speech recovery". Finally, if the condition "C1 15 & C3" (& denotes the "and" logical) is verified, that is to say if the automaton has remained for a minimum number (minimum speech) of energy frames in the state 5 ("speech possible"), it then returns to state 3 ("speech).
On a représenté sur la figure 3 des courbes montrant la 20 variation de taux d'erreurs définitives en fonction de taux d'erreurs rejetables, d'une part en utilisant un algorithme basé sur des critères énergétiques seuls (courbes Tl et T2) et, d'autre part, en utilisant des critères énergétiques combinés à une classification en utilisant une modélisation par mixture de gaussiennes (courbes T' I et T'2). FIG. 3 shows curves showing the variation in final error rates as a function of rejectable error rates, on the one hand using an algorithm based on energy criteria alone (curves T1 and T2) and, on the other hand, using energy criteria combined with a classification using a modeling by mixture of Gaussians (curves T 'I and T'2).
Par " erreurs définitives ", on entend des erreurs qui entraînent systématiquement des erreurs du module de reconnaissance vocale 14. By "final errors" is meant errors which systematically lead to errors of the voice recognition module 14.
Il s'agit essentiellement de fragmentations, pour lesquelles un mot est découpé en plusieurs détections, d'omissions, pour lesquelles un mot n'est pas détecté, ou de regroupements, pour lesquels plusieurs mots 30 sont regroupés en une seule détection. They are essentially fragments, for which a word is divided into several detections, omissions, for which a word is not detected, or groupings, for which several words are grouped together in a single detection.
Par " erreurs rejetables ", on entend les erreurs qui peuvent éventuellement être rejetées par le module de reconnaissance vocale 14. Il s'agit essentiellement d'insertions, pour lesquelles des bruits sont détectés comme étant de la parole. "Rejectable errors" means errors which may possibly be rejected by the voice recognition module 14. These are essentially insertions, for which noises are detected as being speech.
Pour chacun des algorithmes considérés, on a représenté la variation du taux d'erreurs définitives en fonction du taux d'erreurs 5 rejetables, d'une part dans des conditions fortement bruitées, c'est-àdire pour un rapport Signal/Bruit inférieur à 20 dB (courbes T2 et T'2) et, d'autrepart, dans des conditions faiblement bruitées, c'est-à-dire pour un rapport Signal/Bruit supérieur à 20 dB (dans des conditions faiblement bruitées), c'est-à-dire pour un rapport Signal/Bruit 10 supérieur à 20 dB (courbes T1 et T'1). For each of the algorithms considered, the variation of the final error rate as a function of the rejection error rate 5 is represented, on the one hand under highly noisy conditions, that is to say for a signal / noise ratio less than 20 dB (curves T2 and T'2) and, on the other hand, in low noise conditions, that is to say for a Signal / Noise ratio greater than 20 dB (in low noise conditions), this is ie for a Signal / Noise ratio 10 greater than 20 dB (curves T1 and T'1).
On constate une très nette amélioration des performances de détection de parole en utilisant la classification des trames à partir du calcul du rapport de vraisemblance des mixtures de gaussiennes combinées à un critère énergétique, par rapport à une détection 15 utilisant uniquement un critère énergétique, que ce soit dans des conditions fortement bruitées ou faiblement bruitées. On constate en particulier une chute du taux d'erreurs tant définitives que rejetables. There is a very marked improvement in speech detection performance by using the classification of the frames from the calculation of the likelihood ratio of the Gaussian mixtures combined with an energy criterion, compared with a detection using only an energy criterion, than this. either under very noisy or weakly noisy conditions. In particular, there has been a drop in the rate of both final and rejection errors.
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0307556A FR2856506B1 (en) | 2003-06-23 | 2003-06-23 | METHOD AND DEVICE FOR DETECTING SPEECH IN AN AUDIO SIGNAL |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0307556A FR2856506B1 (en) | 2003-06-23 | 2003-06-23 | METHOD AND DEVICE FOR DETECTING SPEECH IN AN AUDIO SIGNAL |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2856506A1 true FR2856506A1 (en) | 2004-12-24 |
FR2856506B1 FR2856506B1 (en) | 2005-12-02 |
Family
ID=33484649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0307556A Expired - Fee Related FR2856506B1 (en) | 2003-06-23 | 2003-06-23 | METHOD AND DEVICE FOR DETECTING SPEECH IN AN AUDIO SIGNAL |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2856506B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011042502A1 (en) * | 2009-10-08 | 2011-04-14 | Telefonica, S.A. | Method for the detection of speech segments |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020165713A1 (en) * | 2000-12-04 | 2002-11-07 | Global Ip Sound Ab | Detection of sound activity |
WO2003048711A2 (en) * | 2001-12-05 | 2003-06-12 | France Telecom | Speech detection system in an audio signal in noisy surrounding |
-
2003
- 2003-06-23 FR FR0307556A patent/FR2856506B1/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020165713A1 (en) * | 2000-12-04 | 2002-11-07 | Global Ip Sound Ab | Detection of sound activity |
WO2003048711A2 (en) * | 2001-12-05 | 2003-06-12 | France Telecom | Speech detection system in an audio signal in noisy surrounding |
Non-Patent Citations (3)
Title |
---|
KARRAY L ET AL: "Towards improving speech detection robustness for speech recognition in adverse conditions", SPEECH COMMUNICATION, MAY 2003, ELSEVIER, NETHERLANDS, vol. 40, no. 3, pages 261 - 276, XP002267781, ISSN: 0167-6393 * |
MARTIN A ET AL: "Robust speech/non-speech detection using LDA applied to MFCC", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). SALT LAKE CITY, UT, MAY 7 - 11, 2001, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY: IEEE, US, vol. 1 OF 6, 7 May 2001 (2001-05-07), pages 237 - 240vol1, XP002245514, ISBN: 0-7803-7041-4 * |
SECK M ET AL: "Experiments on speech tracking in audio documents using Gaussian mixture modeling", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS (CAT. NO.01CH37221), 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS, SALT LAKE CITY, UT, USA, 7-11 MAY 2001, 2001, Piscataway, NJ, USA, IEEE, USA, pages 601 - 604 vol.1, XP002267782, ISBN: 0-7803-7041-4 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011042502A1 (en) * | 2009-10-08 | 2011-04-14 | Telefonica, S.A. | Method for the detection of speech segments |
CN102687196A (en) * | 2009-10-08 | 2012-09-19 | 西班牙电信公司 | Method for the detection of speech segments |
CN102687196B (en) * | 2009-10-08 | 2014-05-07 | 西班牙电信公司 | Method for the detection of speech segments |
Also Published As
Publication number | Publication date |
---|---|
FR2856506B1 (en) | 2005-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1154405B1 (en) | Method and device for speech recognition in surroundings with varying noise levels | |
EP0867856B1 (en) | Method and apparatus for vocal activity detection | |
Li et al. | Robust endpoint detection and energy normalization for real-time speech and speaker recognition | |
EP2415047B1 (en) | Classifying background noise contained in an audio signal | |
US8831947B2 (en) | Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice | |
EP2419900B1 (en) | Method and device for the objective evaluation of the voice quality of a speech signal taking into account the classification of the background noise contained in the signal | |
EP1159737B9 (en) | Speaker recognition | |
FR2743238A1 (en) | TELECOMMUNICATION DEVICE RESPONDING TO VOICE ORDERS AND METHOD OF USING THE SAME | |
EP1451548A2 (en) | Speech detection system in an audio signal in noisy surrounding | |
FR2944903A1 (en) | SYSTEM AND METHOD FOR DETECTING ABNORMAL AUDIO EVENTS | |
CN111640456B (en) | Method, device and equipment for detecting overlapping sound | |
EP1279166B1 (en) | Robust parameters for noisy speech recognition | |
EP1131813B1 (en) | Speech recognition method in a noisy acoustic signal and implementing system | |
FR2856506A1 (en) | Speech detection method for voice recognition system, involves calculating parameter representative of frame unit at group of fixed frame corresponding to speech frame with respect to another group of frame corresponding to noise frame | |
FR2864319A1 (en) | Speech detection method for voice recognition system, involves validating speech detection by analyzing statistic parameter representative of part of frame in group of frames corresponding to voice frames with respect to noise frames | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
FR2627887A1 (en) | SPEECH RECOGNITION SYSTEM AND METHOD OF FORMING MODELS THAT CAN BE USED IN THIS SYSTEM | |
EP1665231B1 (en) | Method for unsupervised doping and rejection of words not in a vocabulary in vocal recognition | |
EP0595950B1 (en) | Real-time speech recognition device and method | |
EP4413563A1 (en) | Method for analysing a noisy sound signal for the recognition of control keywords and of a speaker of the analysed noisy sound signal | |
Genoud et al. | Simultaneous speech and speaker recognition using hybrid architecture | |
Odriozola Sustaeta et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
WO2002082424A1 (en) | Method and device for extracting acoustic parameters of a voice signal | |
WO2007088299A1 (en) | Confidence measure associated with an automatic voice recognition hypothesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20110228 |