FR2864319A1

FR2864319A1 - Speech detection method for voice recognition system, involves validating speech detection by analyzing statistic parameter representative of part of frame in group of frames corresponding to voice frames with respect to noise frames

Info

Publication number: FR2864319A1
Application number: FR0500557A
Authority: FR
Inventors: Delphine Charlet; Laurent Mauuary
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-01-19
Filing date: 2005-01-19
Publication date: 2005-06-24

Abstract

The method involves analyzing power level of each frame of audio signal for detecting speech in an audio signal. The detection of speech is validated by analyzing a statistic parameter representative of a part of the frame in a group of predetermined frames corresponding to voice frames with respect to another group of frames corresponding to noise frames. An independent claim is also included for a device for detecting speech in an audio signal.

Description

Procédé et dispositif de détection de parole dans un signal audioMethod and device for detecting speech in an audio signal

La présente invention a trait aux systèmes de reconnaissance de parole dans un signal audio, en particulier en environnement bruité. The present invention relates to speech recognition systems in an audio signal, particularly in a noisy environment.

Plus particulièrement, l'invention concerne un procédé et un système de détection de parole dans un signal audio. More particularly, the invention relates to a method and system for detecting speech in an audio signal.

La détection de l'activité vocale est une composante majeure du traitement de la parole dans un système de télécommunication. Elle constitue une phase préalable ou simultanée à la reconnaissance de la 1.0 parole qui peut dès lors s'effectuer sur des mots isolés. The detection of voice activity is a major component of speech processing in a telecommunication system. It constitutes a preliminary or simultaneous phase to the recognition of the speech which can then be carried out on isolated words.

Dans un environnement bruité, la détection de parole est souvent mise en défaut, les erreurs de détection de parole pouvant entraîner une forte dégradation des performances du système de reconnaissance de parole. In a noisy environment, the speech detection is often faulty, the speech detection errors can lead to a significant degradation of the performance of the speech recognition system.

Afin de pallier cet inconvénient, il a été proposé de réaliser une détection de parole dans un environnement bruité en analysant l'énergie d'une trame de signal audio, en supposant que la distribution de l'énergie dans la parole et dans le bruit suit une distribution gaussienne. Cette technique est essentiellement basée sur un calcul de rapport de vraisemblance pour le signal étudié, dans chacune des hypothèses bruit et parole. On pourra à cet égard se référer au document Solutions for Robust Speech/Non-speech Detection in Wireless Environment , Karray L., Mokbel C. et Monné J. ; Interactive Wireless Technology for Telecommunication Application, IVTTA 98 proceedings, 1998 IEEE 4h workshop. Toutefois, l'hypothèse sur laquelle se base cette technique, qui suppose que la distribution de l'énergie dans la parole et dans le bruit suit une distribution gaussienne, est assez peu réaliste et conduit à une très faible amélioration de la détection de parole par rapport à une détection fondée uniquement sur une estimation de l'énergie dans le bruit. In order to overcome this drawback, it has been proposed to perform speech detection in a noisy environment by analyzing the energy of an audio signal frame, assuming that the distribution of energy in speech and in noise follows a Gaussian distribution. This technique is essentially based on a likelihood ratio calculation for the signal studied, in each of the noise and speech hypotheses. In this regard, reference can be made to the Solutions for Robust Speech / Non-Speech Detection in Wireless Environment, Karray L., Mokbel C. and Monné J.; Interactive Wireless Technology for Telecommunication Application, IVTTA 98 proceedings, 1998 IEEE 4h workshop. However, the hypothesis on which this technique is based, which assumes that the distribution of energy in speech and in noise follows a Gaussian distribution, is unrealistic and leads to a very weak improvement of speech detection by compared to a detection based solely on an estimate of the energy in the noise.

Selon une autre technique, il a été proposé de modéliser la parole non plus à partir d'un paramètre énergétique seul, mais en utilisant un ensemble de paramètres. On pourra par exemple se référer au brevet américain US 5, 732, 392 qui décrit une technique de détection de parole en élaborant, à partir d'une trame de signal, un vecteur de paramètres spectraux qui est utilisé pour classer la trame soit dans une catégorie parole , soit dans une catégorie bruit , par comparaison avec un dictionnaire de quantification. Cette technique, qui utilise une modélisation de la catégorie parole en utilisant un dictionnaire de quantification est nettement plus riche que la modélisation unimodale précédemment évoquée. Elle présente cependant un inconvénient majeur, dans la mesure où le bruit n'est plus modélisé, d'où la difficulté de définir un seuil sur la distorsion de quantification pour la parole, cette distorsion pouvant être très différente, selon que l'on se trouve en milieu bruité ou non. According to another technique, it has been proposed to model speech no longer from an energy parameter alone, but by using a set of parameters. For example, reference may be made to US Pat. No. 5,732,392 which describes a speech detection technique by elaborating, from a signal frame, a spectral parameter vector which is used to classify the frame either in a speech category, ie in a noise category, by comparison with a quantization dictionary. This technique, which uses a modeling of the speech category using a quantization dictionary, is much richer than the previously mentioned unimodal modeling. However, it has a major disadvantage, since the noise is no longer modeled, hence the difficulty of defining a threshold on the quantization distortion for speech, this distortion can be very different, depending on whether found in noisy environment or not.

Le but de l'invention est donc de pallier les inconvénients de l'état de la technique et de fournir un procédé et un système de détection de parole présentant des performances accrues. The object of the invention is therefore to overcome the disadvantages of the state of the art and to provide a method and a speech detection system with increased performance.

L'invention a donc pour objet un procédé de détection de parole dans un signal audio selon lequel on analyse le niveau énergétique de chaque trame du signal audio pour détecter la parole dans le signal, et l'on valide la détection de parole en analysant pour chaque trame un paramètre statistique représentatif de l'appartenance de la trame à une première classe de trames prédéterminées correspondant à des trames de parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit, de manière à en déduire la nature de la trame du signal audio. The subject of the invention is therefore a method for detecting speech in an audio signal in which the energy level of each frame of the audio signal is analyzed in order to detect the speech in the signal, and the speech detection is validated by analyzing for each frame a statistical parameter representative of the membership of the frame to a first class of predetermined frames corresponding to speech frames, with respect to a second class of frames corresponding to noise frames, so as to deduce the nature of the the frame of the audio signal.

Selon une autre caractéristique de l'invention, les mélanges de gaussiennes des première et deuxième classes de trames sont extraites d'un système de reconnaissance vocale utilisant un modèle de Markov caché (HMM). According to another characteristic of the invention, the Gaussian mixtures of the first and second classes of frames are extracted from a voice recognition system using a hidden Markov model (HMM).

Par exemple, la trame de signal audio est représentée par un vecteur de coefficients cepstraux. For example, the audio signal frame is represented by a cepstral coefficient vector.

Selon un mode de réalisation, ledit paramètre représentatif de l'appartenance de la trame à la première classe de trame est élaboré à partir de la vraisemblance de la trame dans chacune des classes. Par exemple, on calcule le paramètre en calculant le rapport de la vraisemblance de la trame dans la première classe sur la vraisemblance de la trame dans la deuxième classe. According to one embodiment, said parameter representative of the membership of the frame to the first frame class is developed from the likelihood of the frame in each of the classes. For example, the parameter is computed by calculating the ratio of the likelihood of the frame in the first class to the likelihood of the frame in the second class.

Selon un autre mode de réalisation, on détermine :10 l'appartenance de la trame à l'une des première et deuxième classes à partir d'une sommation de la vraisemblance calculée pour chacune des gaussiennes de chaque classe. According to another embodiment, the belonging of the frame to one of the first and second classes is determined from a summation of the likelihood calculated for each Gaussian of each class.

On peut également déterminer l'appartenance de la trame à l'une des première et deuxième classes à partir d'une méthode de :l5 détermination du plus proche voisin dans chacune des classes. It is also possible to determine the membership of the frame in one of the first and second classes from a method of: determination of the nearest neighbor in each of the classes.

Dans un mode de mise en oeuvre de l'invention, la détection de la parole est effectuée au moyen d'un automate à états finis dont les états comprennent au moins un état correspondant à un bruit ou un silence, un état correspondant à une présomption de parole et un état correspondant à de la parole, les transitions entre les états étant gouvernés par le résultat d'évaluations de critères énergétique de la trame et par le résultat de l'étape d'analyse dudit paramètre. In one embodiment of the invention, the detection of the speech is performed by means of a finite state machine whose states comprise at least one state corresponding to a noise or a silence, a state corresponding to a presumption of speech and a state corresponding to speech, the transitions between the states being governed by the result of energy criterion evaluations of the frame and the result of the step of analyzing said parameter.

Selon l'invention, il est également proposé un dispositif de détection de parole dans un signal audio comprenant des moyens d'analyse du niveau énergétique de la trame de signal audio pour la détection de la parole dans le signal et des moyens de calcul d'un paramètre représentatif de l'appartenance de chaque trame de signal audio à une première classe de trames prédéterminées correspondant à des trames de paroles, par rapport à une deuxième classe de trames correspondant à des trames de bruit, les moyens de calcul étant en outre adaptés pour analyser ledit paramètre pour en déduire la nature de la trame de signal audio et valider la détection de parole effectuée par les moyens d'analyse. According to the invention, there is also provided a device for detecting speech in an audio signal comprising means for analyzing the energy level of the audio signal frame for the detection of speech in the signal and calculation means for a parameter representative of the membership of each audio signal frame to a first class of predetermined frames corresponding to speech frames, compared to a second class of frames corresponding to noise frames, the calculation means being further adapted to analyze said parameter to deduce the nature of the audio signal frame and to validate the speech detection performed by the analysis means.

Il comporte en outre un automate à états finis dont les états comprennent au moins un état correspondant à un bruit ou un silence, un état correspondant à une présomption de parole et un état correspondant à de la parole, les transitions entre les états étant gouvernés par le résultat d'évaluations de critères énergétique de la trame validé par le résultat de l'analyse du paramètre de la trame. It further comprises a finite state machine whose states comprise at least one state corresponding to a noise or a silence, a state corresponding to a presumption of speech and a state corresponding to speech, the transitions between the states being governed by the result of evaluations of energy criteria of the frame validated by the result of the analysis of the parameter of the frame.

D'autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: la figure 1 représente la structure générale d'un système de reconnaissance vocale incorporant un dispositif de détection de parole conforme à l'invention; - la figure 2 représente une machine à état entrant dans la constitution du dispositif de détection de parole conforme à l'invention; et - la figure 3 est une courbe illustrant les performances du 20É dispositif de détection conforme à l'invention. Other objects, features and advantages of the invention will become apparent on reading the following description, given solely by way of nonlimiting example, and with reference to the appended drawings, in which: FIG. 1 represents the general structure of FIG. a voice recognition system incorporating a speech detection device according to the invention; FIG. 2 represents a state machine forming part of the speech detection device according to the invention; and FIG. 3 is a curve illustrating the performance of the detection device according to the invention.

Sur la figure 1, on a représenté la structure générale d'un système de reconnaissance de parole, désigné par la référence numérique générale 10. Le système de reconnaissance représenté comprend un module de détection de parole 12 et un module de reconnaissance vocale 14. La fonction du module de détection de parole 12 est de détecter dans un signal audio incident S les périodes de parole afin d'éviter au module de reconnaissance vocale 14 de chercher à reconnaître de la parole sur des périodes du signal d'entrée S correspondant à des phases de silence ou à des phases de bruit. Sa présence permet alors à la fois d'améliorer les performances et de réduire la coût du système de reconnaissance vocale. FIG. 1 shows the general structure of a speech recognition system designated by the general numerical reference 10. The recognition system represented comprises a speech detection module 12 and a voice recognition module 14. The function of the speech detection module 12 is to detect in an incident audio signal S the speech periods in order to prevent the voice recognition module 14 from seeking to recognize speech over periods of the input signal S corresponding to phases of silence or noise phases. Its presence then makes it possible both to improve the performances and to reduce the cost of the voice recognition system.

Cette détermination est précédée par l'analyse du signal audio S par un module d'analyse 16, de façon à en extraire des coefficients pertinents pour le module de détection 12 et pour le module de reconnaissance 14. This determination is preceded by the analysis of the audio signal S by an analysis module 16, so as to extract coefficients relevant for the detection module 12 and for the recognition module 14.

Selon un mode de réalisation, les coefficients extraits sont des coefficients cepstraux, encore appelés coefficients MFCC ( ME1 Frequency Cepstrum Coefficients ). Par exemple, le module d'analyse 16 comporte un banc de huit filtres délivrant huit coefficients cepstraux, lesquels sont complétés par un paramètre d'énergie, et calcule les dérivés temporelles d'ordre 1 et 2 des neuf coefficients ainsi élaborés pour délivrer, en sortie du module d'analyse 16, des vecteurs de 27 coefficients. According to one embodiment, the extracted coefficients are cepstral coefficients, also called MFCC coefficients (ME1 Frequency Cepstrum Coefficients). For example, the analysis module 16 comprises a bank of eight filters delivering eight cepstral coefficients, which are supplemented by an energy parameter, and calculates the time derivatives of order 1 and 2 of the nine coefficients thus produced to deliver, in output of the analysis module 16, vectors of 27 coefficients.

En amont, le système de reconnaissance de parole 10 est en outre pourvu d'un étage de détection 18 destiné à subdiviser le signal S incident en un ensemble de trames audio. Par exemple, ce module de détection 18 comporte une fenêtre de Hanning assurant le découpage du signal S en trame de 32 ms avec un recouvrement de 16 ms. Ainsi, selon cet exemple, le module d'analyse 16 élabore, pour chaque trame, un vecteur de 27 coefficients, lequel est utilisé par le module de détection de parole 12 et par le module de reconnaissance 14 pour, d'une part, la reconnaissance de mots isolés et de parole continue et, d'autre part, fournir le résultat. R de la reconnaissance par l'intermédiaire d'un module de décision 20. Upstream, the speech recognition system 10 is further provided with a detection stage 18 for dividing the incident signal S into a set of audio frames. For example, this detection module 18 comprises a Hanning window providing the cutting of the signal S in a 32 ms frame with an overlap of 16 ms. Thus, according to this example, the analysis module 16 generates, for each frame, a vector of 27 coefficients, which is used by the speech detection module 12 and by the recognition module 14 for, on the one hand, the recognition of isolated words and continuous speech and, on the other hand, provide the result. R of recognition via a decision module 20.

Les modules de reconnaissance vocale 14 et de décision 20 du système de reconnaissance de parole sont constitués par des modules de type classique, à la portée d'un homme du métier. Ils ne seront donc pas décrits en détail par la suite. The speech recognition module 14 and decision 20 of the speech recognition system consist of modules of conventional type, within the reach of a skilled person. They will not be described in detail later.

En ce qui concerne le module de détection de parole 12, celui-ci comporte essentiellement, selon un exemple de mise en oeuvre de l'invention, un automate à états finis. Un tel automate peut, par exemple, être constitué par un automate à deux états, dans le cas le plus simple, lorsqu'il s'agit simplement de détecter une activité vocale, ou à trois ou quatre états, voire à cinq états. With regard to the speech detection module 12, it essentially comprises, according to an exemplary implementation of the invention, a finite state machine. Such an automaton may, for example, be constituted by a two-state automaton, in the simplest case, when it is simply a question of detecting a vocal activity, or with three or four states, or even five states.

La décision quant à l'appartenance ou non de la trame à de la parole est prise au niveau de chacune des trames du signal d'entrée, dont la cadence peut être de 16 ms, comme indiqué dans l'exemple évoqué précédemment. De manière générale, l'utilisation d'un automate ayant un grand nombre d'états finis permet une modélisation plus fine de la décision à prendre, par la prise en compte des considérations structurelles de la parole. The decision as to whether the frame belongs to speech is taken at each of the frames of the input signal, whose rate may be 16 ms, as indicated in the example mentioned above. In general, the use of an automaton having a large number of finite states allows a finer modeling of the decision to be taken, by taking into account the structural considerations of speech.

On a représenté sur la figure 2 un exemple d'automate à cinq états finis pouvant être utilisé pour la réalisation du module de détection de parole 12. Un tel automate peut être réalisé conformément à l'enseignement du document intitulé Amélioration des performances de serveurs vocaux interactifs de L. Mauuary, thèse de doctorat, Université de Rennes 1, 1994. Bien entendu, d'autres automates de détection peuvent également être utilisés dans le cadre de la présente invention. FIG. 2 shows an example of a finite state machine that can be used for the realization of the speech detection module 12. Such an automaton can be produced in accordance with the teaching of the document entitled Improving the Performance of Voice Servers. of L. Mauuary, doctoral thesis, University of Rennes 1, 1994. Of course, other detection automata can also be used in the context of the present invention.

Les cinq états de l'automate sont définis comme suit: - état 1: bruit ou silence ; - état 2: présomption de parole ; - état 3: parole ; état 4: plosive non voisée ou silence ; et - état 5: reprise possible de parole . The five states of the PLC are defined as follows: - state 1: noise or silence; - state 2: presumption of speech; - state 3: speech; state 4: unvoiced plosive or silence; and - state 5: possible recovery of speech.

Conformément à une caractéristique de l'invention, les transitions entre les états sont gouvernées par le résultat d'évaluations effectuées sur des critères énergétiques, de durée de parole et de silence et par le résultat de l'analyse d'un paramètre associé à chaque trame incidente représentative de l'appartenance de la trame à une première classe de trames déterminées correspondant à des trames de 30;É1- parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit. According to a characteristic of the invention, the transitions between the states are governed by the result of evaluations made on energy criteria, of duration of speech and of silence and by the result of the analysis of a parameter associated with each incident frame representative of the membership of the frame to a first class of determined frames corresponding to frames of 30 E1-speech, with respect to a second class of frames corresponding to noise frames.

L'élaboration d'un tel paramètre est essentiellement basée sur le calcul de vraisemblance statistique de la trame courante dans chacune des classes de trames dites Bruit et Parole . Plus particulièrement, dans un exemple de mise en oeuvre, l'appartenance de la trame courante à la classe Bruit ou à la classe Parole est déterminée sur la base du calcul du rapport des vraisemblances calculées, d'une part, dans la classe de trames Parole, et, d'autre part, dans la classe de trames Bruit. The development of such a parameter is essentially based on the calculation of statistical likelihood of the current frame in each of the classes of frames say Noise and Word. More particularly, in an exemplary implementation, the membership of the current frame to the noise class or to the speech class is determined on the basis of calculating the ratio of the calculated likelihoods, on the one hand, in the class of frames Speech, and, on the other hand, in the class of noise frames.

On notera que les classes de trames Bruit et Parole sont représentées par un mélange ou mixture de gaussiennes, c'est-à-dire un ensemble de densités de prolbabilités gaussiennes pondérées correspondant chacune à une densité de probabilité d'appartenance à la classe Bruit ou Parole, sur la base d'un paramètre caractéristique. It will be noted that the classes of Noise and Word frames are represented by a Gaussian mixture or mixture, that is to say a set of densities of weighted Gaussian prolbabilities each corresponding to a density of probability of belonging to the noise or noise class. Word, based on a characteristic parameter.

Une telle modélisation par mélange de gaussiennes est une modélisation répandue, à la portée d'un homme du métier. Elle ne sera donc pas décrite en détail par la suite. Such modeling by mixing Gaussian is a widespread modeling, within the reach of a skilled person. It will not be described in detail later.

On notera néanmoins que différentes techniques peuvent être utilisées pour la création de la mixture de gaussiennes caractérisant les classes Bruit et Parole. Ces techniques sont basées sur l'utilisation d'un modèle de Markov caché, HMM ( Hidden Markov model ). Ce modèle est constitué d'un ensemble d'états, de transition entre ces états et de densités de probabilité gaussiennes d'émission dans l'espace acoustique lié aux transitions. Chaque fonction de densité de probabilité possède trois paramètres, à savoir un vecteur des moyennes, une matrice de covariance et une probabilité à priori. Un tel modèle est largement utilisé dans tout système de reconnaissance de parole et ne sera donc pas davantage détaillé. It should be noted, however, that different techniques can be used for the creation of the mixture of Gaussians characterizing the classes Noise and Speech. These techniques are based on the use of a hidden Markov model, HMM (Hidden Markov model). This model consists of a set of states, transitions between these states, and Gaussian probability densities of emission in acoustic space related to transitions. Each probability density function has three parameters, namely a vector of means, a covariance matrix and a priori probability. Such a model is widely used in any speech recognition system and therefore will not be further detailed.

Pour l'élaboration de ces gaussiennes de référence, selon une première technique, un ensemble de trames d'apprentissage sont élaborées à partir de sons prononcés par des locuteurs. Afin de pouvoir apprendre de façon fiable des gaussiennes de parole qui représentent bien toutes les composantes de la parole possibles indépendamment du locuteur, on utilise un grand nombre de trames d'exemple, typiquement de l'ordre de plusieurs centaines de milliers de trames. Il en est de même pour les trames de Bruit. On étiquette alors manuellement les trames appartenant aux classes Bruit et Parole et l'on apprend alors, à partir de ces trames, les paramètres des mixtures de gaussiennes Bruit ou Parole, à partir du modèle HMM. Comme on le conçoit, une telle technique, qui nécessite d'écouter un grand nombre de trames, est relativement fastidieuse à mettre en oeuvre. For the development of these Gaussian reference, according to a first technique, a set of training frames are developed from sounds uttered by speakers. In order to be able to reliably learn speech gaussiennes that represent all the possible speech components independently of the speaker, a large number of example frames, typically of the order of several hundreds of thousands of frames, are used. It is the same for noise frames. The frames belonging to the Noise and Word classes are then manually labeled, and the parameters of Gaussian mixtures Noise or Word are then learned from these frames, starting from the HMM model. As is conceivable, such a technique, which requires listening to a large number of frames, is relatively tedious to implement.

De préférence, le système de reconnaissance de parole est utilisé pour étiqueter automatiquement les trames en classe Bruit ou Parole. Dans ce cas, il est nécessaire d'utiliser des trames dont on connaît la séquence de mots prononcés. Ainsi, en alignant la séquence de mots prononcés avec sa référence dans la modélisation HMM, on obtient les frontières des phonèmes et donc la classification des trames 1.5 en classe Bruit ou Parole. Le modèle HMM se charge alors, comme précédemment, de récupérer les paramètres des mixtures de gaussienne, bruit ou parole. Preferably, the speech recognition system is used to automatically label the speech and Noise class frames. In this case, it is necessary to use frames whose known word sequence is known. Thus, by aligning the sequence of pronounced words with its reference in the HMM modeling, we obtain the boundaries of the phonemes and thus the classification of the 1.5 frames in class Noise or Word. The HMM model is then responsible, as before, to recover the parameters of Gaussian mixtures, noise or speech.

Enfin, selon un troisième exemple, on utilise, pour la génération de la mixture de gaussiennes, les gaussiennes des modèles de phonèmes et des modèles de silence et de bruit dont dispose déjà le modèle HMM. On utilise ainsi toutes les gaussiennes des modèles de phonèmes de la modélisation HMM ainsi que toutes les gaussiennes des modèles de silence et de bruit de la modélisation HMM. Finally, according to a third example, the Gaussian mixture of gaussian models of phonemes and models of silence and noise already available in the HMM model are used for the generation of the Gaussian mixture. All gaussian models of HMM modeling phonemes and all the Gaussian models of silence and noise models of HMM modeling are used.

A partir des mixtures de gaussiennes préalablement élaborées ou récupérées, on calcule tout d'abord, pour chaque trame courante représentée par son vecteur de coefficients cepstraux tel qu'élaboré par le module analyse 16, la vraisemblance lpa,oie (X) de la trame X dans la classe Parole. From Gaussian mixtures previously elaborated or recovered, firstly, for each current frame represented by its vector of cepstral coefficients as elaborated by the analysis module 16, the likelihood lpa, oie (X) of the frame is calculated first. X in the class Word.

Ce calcul est effectué au moyen de la relation: lparoie (X) = Oi=i,..,N, ro,e7igi (X) (1) dans laquelle: Nparole est le nombre de gaussiennes de la classe Parole, 7ti désigne la probabilité à priori associée à la gaussienne de parole g, de paramètres pour laquelle on calcule la vraisemblance de la trame X; et Oi=1 Npaa,e peut être considéré, par exemple, comme l'opérateur maxi_1 Nparole ou comme l'opérateur E i=1,..9Nparole En ce qui concerne la gaussienne de parole, celle-ci est donnée par la relation: gl(X)= 1 exp- 1(X--,uj)'E-1(X- l) (2) (27te. Ej 2 1 Dans chacun des cas, on obtient une vraisemblance particulière, c'est-à-dire: l''" parole(X) = mwCi=1,...Nparole7igi(X) This computation is carried out by means of the relation: lparoie (X) = Oi = i, .., N, ro, e7igi (X) (1) in which: Nparole is the number of Gaussian of the class Word, 7ti denotes the probability a priori associated with Gaussian speech g, parameters for which the likelihood of the frame X is calculated; and Oi = 1 Npaa, e can be considered, for example, as the operator maxi_1 Nparol or as the operator E i = 1, .. 9Nolaise With regard to the Gaussian of speech, this one is given by the relation : gl (X) = 1 exp- 1 (X -, uj) 'E-1 (X-1) (2) (27t Ej 2 1 In each case, a particular likelihood is obtained; to say: the "word (X) = mwCi = 1, ... Nparole7igi (X)

IFIF

parole(X)=l.speech (X) = l.

arole(X) = Ei 7r =1,..,NparaiPigi(X) De même, on calcule la vraisemblance lbraif(X) de la trame X dans la classe bruit, selon la relation: 20, lbrui, (X) = 0 i=],.., Nn, a ki gi (x) (3) dans laquelle: Nbrai, est le nombre de gaussiennes de la classe bruit; Tri la probabilité a priori associée à la gaussienne de bruit gi de paramètres pour laquelle on calcule la vraisemblance de la trame X; ei=l Npa peut être considéré comme l'opérateur maxi=l,..,Npa.a,P ou comme l'opérateur Ei=1,..,Nparole En ce qui concerne la gaussienne de bruit, celle-ci est donnée -30 par la relation: l.5 Si(x)= 1 exp-2(X-)'E.'(X-Pl) (4) Dans chacun des cas, on obtiient une vraisemblance particulière, c'est-à-dire: brmuit (X) =maxi=l,..,N ig!(X) 6 ui brui! (X) = Ei=1,..,Na,i Rigi (X) On calcule alors le rapport de vraisemblance pour la trame 10 courante à partir de la relation: llr(X) = lparole(X) lbruit (X) avec les deux cas particuliers suivants Imax X llrux (X) _ parole max(X) bruit l llr(X) = parole(X) bruit (X) Dans le premier cas particulier de llrmax(X), ce rapport correspond au rapport de vraisemblance entre la vraisemblance maximale parmi les gaussiennes de la classe Parole et la vraisemblance maximale parmi les gaussiennes de la classe Bruit. Selon une interprétation géométrique, ceci peut s'interpréter comme une méthode de recherche du plus proche voisin parmi les représentants de la classe Parole et de recherche du plus proche voisin parmi les représentants de la classe Bruit. Le critère d'appartenance de la trame courante X à la classe Parole devient alors une fonction (par exemple, différence ou rapport) de la distance au plus proche voisin de chacune des classes. El arole (X) = Ei 7r = 1, .., NparaiPigi (X) Similarly, we calculate the lbraif likelihood (X) of the frame X in the noise class, according to the relation: 20, lbrui, (X) = 0 i =], .., Nn, a ki gi (x) (3) in which: Nbrai, is the number of Gaussians of the noise class; Sorting the a priori probability associated with the noise Gaussian gi of parameters for which the likelihood of the X-frame is calculated; ei = l Npa can be considered as the operator maxi = l, .., Npa.a, P or as the operator Ei = 1, .., Nparol As far as noise Gaussian is concerned, it is given -30 by the relation: l.5 If (x) = 1 exp-2 (X -) 'E.' (X-Pl) (4) In each case, we obtain a particular likelihood, that is, say: brmuit (X) = maxi = l, .., N ig! (X) 6 ui brui! (X) = Ei = 1,..., Na, i Rigi (X) The likelihood ratio for the current frame 10 is then calculated from the relation: 11r (X) = Iparol (X) noise (X) with the two following special cases Imax X llrux (X) _ speech max (X) noise l llr (X) = speech (X) noise (X) In the first special case of llrmax (X), this ratio corresponds to the likelihood ratio between maximum likelihood among Gaussian speakers of the speech class and maximum likelihood among Gaussians of the noise class. According to a geometric interpretation, this can be interpreted as a search method of the nearest neighbor among the representatives of the Word and search class of the nearest neighbor among the representatives of the class Noise. The criterion of belonging of the current frame X to the word class then becomes a function (for example, difference or ratio) of the distance to the nearest neighbor of each class. El

(27r)%. (5) 15.(27r)%. (5) 15.

On peut également, à partir de la modélisation en gaussiennes, obtenir une modélisation simplifiée, de type quantification vectorielle , qui utilise un dictionnaire de quantification dérivé des paramètres des gaussiennes. Il s'agit alors de rechercher le plus proche voisin dans chacune des classes, comme étant celui donnant lieu à une distorsion de quantification minimale. On peut alors en déduire une valeur reflétant l'appartenance de la trame à la classe Parole par rapport à la classe Bruit en prenant, par exemple, le rapport des distorsions minimales pour chacune de ces deux classes. One can also, from Gaussian modeling, obtain a simplified modeling, of vector quantization type, which uses a quantization dictionary derived from Gaussian parameters. It is then a question of looking for the closest neighbor in each class, as being the one giving rise to a minimal quantization distortion. We can then deduce a value reflecting the belonging of the frame to the Word class relative to the noise class by taking, for example, the ratio of the minimum distortions for each of these two classes.

Comme indiqué précédemment, le rapport de vraisemblance ainsi élaboré est utilisé pour gouverner les transitions de l'automate, conjointement avec une analyse du niveau énergétique de la trame. As indicated above, the likelihood ratio thus developed is used to govern the transitions of the automaton, together with an analysis of the energy level of the frame.

On va maintenant décrire, en référence à la figure 2, le fonctionnement de l'automate. We will now describe, with reference to Figure 2, the operation of the automaton.

Les conditions gouvernant les transitions entre les états sont, pour cet automate, les suivantes: Condition Cl: cette première condition est basée sur un critère énergétique, lui-même basé sur l'utilisation des statistiques du bruit. On fait l'hypothèse classique selon laquelle le logarithme de l'énergie du bruit E(n) suit une loi normale de paramètres ( , E2). The conditions governing the transitions between the states are, for this automaton, the following ones: Condition Cl: this first condition is based on an energetic criterion, itself based on the use of noise statistics. The classical assumption is that the logarithm of the noise energy E (n) follows a normal distribution of parameters (, E2).

Dans cet exemple, le logarithme de l'énergie du bruit E(n) d'une trame n est le logarithme de l'énergie à court terme du bruit, c'est-à-dire le logarithme de la somme des carrés des échantillons de la trame n. Les statistiques du logarithme de l'énergie du bruit sont 25. estimés lorsque l'automate est dans un état 1 bruit ou silence . In this example, the logarithm of the noise energy E (n) of a frame n is the logarithm of the short-term noise energy, that is, the logarithm of the sum of squares of the samples. of the frame n. The statistics of the logarithm of noise energy are 25. estimated when the automaton is in a state 1 noise or silence.

La moyenne et l'écart type sont respectivement estimés par les équations (6) et (7) suivantes: (n) = (n -1)+(1 2.)(E(n) (n -1)), (6) â(n) = 6(n -1) + (1 )t)(IE(n) (n -1)I cs(n -1)), (7) dans lesquelles n représente l'indice de la trame, E est un facteur d'oubli (typiquement égal à 0,995), et E(n) est le logarithme de l'énergie pour la trame courante. Mean and standard deviation are respectively estimated by the following equations (6) and (7): (n) = (n -1) + (1 2.) (E (n) (n -1)), ( 6) (n) = 6 (n -1) + (1) t) (IE (n) (n -1) I cs (n -1)), (7) in which n represents the index of frame, E is a forgetting factor (typically equal to 0.995), and E (n) is the logarithm of energy for the current frame.

On considère le logarithme de l'énergie de chaque trame et l'on cherche à vérifier l'hypothèse selon. laquelle l'automate est dans l'état bruit ou silence , ce qui correspond à une absence de parole. La décision sera alors prise en fonction de l'écart du logarithme de l'énergie E(n) de la trame considérée n, par rapport à la moyenne estimée du bruit, c'est-à-dire selon la valeur du rapport critique r(E(n)) défini comme suit: r(E(n)) = E(n) (n) (8) Le rapport critique est alors comparé à un seuil de détection prédéfini, selon la relation suivante (condition Cl) : r(.E(n))>SeuilE (9) Typiquement, des valeurs de seuil comprises entre 1,5 et 3,5 peuvent être utilisées. We consider the logarithm of the energy of each frame and we try to verify the hypothesis according to. which the automaton is in the noise or silence state, which corresponds to an absence of speech. The decision will then be taken as a function of the difference in the logarithm of the energy E (n) of the frame considered n, relative to the estimated average of the noise, that is to say according to the value of the critical ratio r (E (n)) defined as follows: r (E (n)) = E (n) (n) (8) The critical ratio is then compared with a predefined detection threshold, according to the following relation (condition C1): r (.E (n))> Threshold (9) Typically, threshold values between 1.5 and 3.5 can be used.

Cette première condition, fondée sur l'utilisation d'une information énergétique E(n) du signal d'entrée est appelée critère SB dans la suite de la description. Cependant, on notera que d'autres critères utilisant une information d'énergie du signal d'entrée, peuvent également être utilisés dans le cadre de la présente invention. This first condition, based on the use of an energy information E (n) of the input signal is called SB criterion in the following description. However, it will be appreciated that other criteria utilizing input signal energy information may also be used within the scope of the present invention.

- Condition C2: cette condition est basée sur le rapport de vraisemblance calculé pour la trame courante. - Condition C2: This condition is based on the likelihood ratio calculated for the current frame.

Comme indiqué précédemment, cette condition est basée sur un calcul de rapport de vraisemblance, selon la relation 5 précédemment mentionnées. Par exemple, on considère le rapport de vraisemblance llr"ax(X) et l'on compare ce rapport à un seuil, selon la relation (10) suivante llrmaX (X)> S e u i l r 13 (10) En d'autres termes, cet automate utilise essentiellement deux conditions pour gouverner les transitions entre les états et détecte la parole s'il y a eu suffisamment de trames énergétiques consécutives et que si, parmi ces trames, un nombre suffisant de trames ont été classées comme appartenant à la classe de trames Parole en utilisant les mixtures de gaussiennes. As previously stated, this condition is based on a likelihood ratio calculation, according to the previously mentioned relation. For example, consider the likelihood ratio llr "ax (X) and compare this ratio with a threshold, according to the following relation (10) llrmaX (X)> S euilr 13 (10) In other words, this controller essentially uses two conditions to govern the transitions between the states and detects the speech if there have been enough consecutive energy frames and if, among these frames, a sufficient number of frames have been classified as belonging to the class of Word frames using Gaussian mixtures.

- Condition C3: cette condition est basée sur un contrôle de durée de parole. - Condition C3: This condition is based on a speech time control.

Cette condition est basée sur l'utilisation d'un compteur DP incrémenté à chaque décision de l'automate tendant à rester dans l'état parole . La condition C2 est vérifiée lorsque le compteur DP atteint une valeur de seuil parole minimum prédéterminée. En d'autres termes, selon cette condition, l'automate vérifie qu'il est resté dans l'état parole au-delà d'un nombre minimum. This condition is based on the use of a DP counter incremented at each decision of the PLC tending to remain in the speech state. Condition C2 is verified when the DP counter reaches a predetermined minimum speech threshold value. In other words, according to this condition, the automaton verifies that it has remained in the speech state beyond a minimum number.

- Condition C4: cette condition est basée sur une classification de la trame dans la classe de trames Parole. - Condition C4: This condition is based on a classification of the frame in the Word frame class.

Pour valider cette condition, l'automate vérifie que des trames 20. consécutives incidentes ont été classées dans la première classe de trames de parole un nombre de fois supérieur à une valeur de seuil. To validate this condition, the automaton checks that incident consecutive frames 20 have been classified in the first class of speech frames a number of times greater than a threshold value.

Cette condition utilise un compteur DPGMM et une valeur de seuil parole minimum GMM . This condition uses a DPGMM counter and a GMM minimum speech threshold value.

- Condition C 5: cette condition est basée sur un contrôle de durée de silence. - Condition C 5: This condition is based on a silence time control.

Cette condition est vérifiée si la durée de silence DS représentée par un compteur est supérieure à une valeur de seuil silence fin . This condition is satisfied if the DS silence time represented by a counter is greater than a fine silence threshold value.

L'état initial de l'automate est l'état 1 bruit ou silence . The initial state of the automaton is state 1 noise or silence.

L'automate reste dans cet état tant qu'aucune trame énergétique n'est reçue (condition non_C1 ), c'est-à-dire une trame dont l'énergie est supérieure à un seuil de détection prédéterminé.. A chaque réception 14G d'une trame insuffisamment énergétique, l'action Al est effectuée, c'està-dire que le compteur DS est incrémenté. The automaton remains in this state as long as no energy frame is received (condition not_C1), that is to say a frame whose energy is greater than a predetermined detection threshold. At each reception 14G d an insufficiently energetic frame, the action Al is carried out, that is to say that the counter DS is incremented.

Lors de la réception de la première trame dont l'énergie est supérieure au seuil de détection (condition Cl ), l'automate passe dans l'état 2 présomption de parole . Ce faisant, le compteur DP est positionné à 1 (action A2) et le compteur DPGM:M est positionné à 0 (action A3). Dans l'état 2, la réception d'une trame non énergétique (condition non_C1 ) provoque le retour à l'état 1 bruit ou silence et l'affectation à la valeur DS de la somme des compteurs DS et DP (action A4). When receiving the first frame whose energy is greater than the detection threshold (condition C1), the automaton goes into state 2 presumption of speech. In doing so, the counter DP is set to 1 (action A2) and the counter DPGM: M is set to 0 (action A3). In state 2, the reception of a non-energy frame (condition not_C1) causes the return to state 1 noise or silence and the assignment to the value DS of the sum of counters DS and DP (action A4).

On notera que dans l'état présomption de parole , l'automate calcule pour chaque trame son rapport de vraisemblance par mixture de gaussiennes. L'automate reste dans l'état présomption de parole tant que la condition Cl est remplie et que les conditions C3 et C4 ne sont pas remplies. Note that in the presumptive state of speech, the automaton calculates for each frame its likelihood ratio by gaussian mixture. The automaton remains in the presumptive speech state as long as condition C1 is fulfilled and conditions C3 and C4 are not fulfilled.

Si les conditions C3 et C4 sont remplies, l'automate passe dans l'état parole , c'est-à-dire lorsque l'automate est resté dans l'état 2 pour un nombre minimum parole minimum prédéterminé de trames, et qu'un nombre suffisant de trames ont été placées comme paroles en - utilisant les mixtures de gaussiennes. I1 reste alors dans l'état 3 parole , tant que les trames sont énergétiques (condition Cl). A chaque réception d'une trame, le compteur DP est incrémenté (action A5). If the conditions C3 and C4 are fulfilled, the automaton goes into the speech state, that is to say when the automaton has remained in state 2 for a predetermined minimum minimum number of frames, and that a sufficient number of frames have been placed as words using Gaussian mixtures. I1 then remains in the speech state, as long as the frames are energetic (condition C1). At each reception of a frame, the counter DP is incremented (action A5).

En revanche, il passe à ]'état 4 plosive non voisée ou silence dès que la trame courante est non énergétique (condition non_C1 ). Dans ce cas, le compteur DS est positionné à 1 (action A7). Dans cet état 4, la réception d'un nombre de trames successives non énergétiques (condition non._C1 ) dont la durée cumulée est supérieure à silence fin (condition C5) confirme un état de silence et provoque le retour de l'automate dans l'état 1 bruit ou silence . Les compteurs DS et DP sont alors remis à O. La variable silence fin sert par conséquent à confirmer un état de silence dû à la fin de la parole. Par exemple, dans le cas de la parole continue, silence fin peut atteindre une seconde. On the other hand, it goes to the unvoiced plosive 4 state or silence as soon as the current frame is non-energetic (non_C1 condition). In this case, the DS counter is set to 1 (action A7). In this state 4, the reception of a number of successive non-energetic frames (condition no._C1) whose cumulative duration is greater than fine silence (condition C5) confirms a state of silence and causes the return of the automaton in the state 1 noise or silence. The DS and DP counters are then reset to O. The silence end variable is therefore used to confirm a state of silence due to the end of speech. For example, in the case of continuous speech, end silence can reach a second.

Au contraire, si dans l'état 4 plosive non voisée ou silence , la trame courante est énergétique (condition Cl), l'automate passe dans l'état 5 reprise possible de parole , il reste dans cet état 5 tant que la condition Cl est remplie et que la condition C3 n'est pas remplie. Dans cet état 5, la réception d'une trame non énergétique (condition non_Cl ) le fait retourner dans l'état 1 bruit ou silence ou dans l'état 4 plosive non voisée ou silence selon que la durée de silence DS est supérieure (C5) ou non ( non_C5 ) à un nombre prédéterminé de trames (silence fin). La durée de silence représente le temps passé à l'état 4 plosive non voisée ou silence et dans l'état reprise possible de parole . Enfin, si la condition Cl 15. & C3 (& désigne le et logique) est vérifiée, c'est-à-dire si l'automate est resté durant un nombre minimum (parole minimum) de trames énergétiques dans l'état 5 ( reprise possible de parole ), il retourne alors dans l'état 3 ( parole). On the other hand, if in the non-voiced plosive 4 state or silence, the current frame is energetic (condition C1), the automaton goes into the state of possible speech recovery, it remains in this state as long as the condition Cl is fulfilled and condition C3 is not fulfilled. In this state 5, the reception of a non-energy frame (condition not_Cl) makes it return to the state 1 noise or silence or in the state 4 non-voiced plosive or silence depending on whether the silence duration DS is greater (C5 ) or not (non_C5) to a predetermined number of frames (fine silence). The duration of silence represents the time spent in the non-voiced plosive state 4 or silence and in the state of possible speech recovery. Finally, if the condition Cl 15. & C3 (& denotes the logical and logical) is verified, that is to say if the automaton remained during a minimum number (minimum word) of energy frames in the state 5 ( possible recovery of speech), it then returns to state 3 (speech).

On a représenté sur la figure 3 des courbes montrant la variation de taux d'erreurs définitives en fonction de taux d'erreurs rejetables, d'une part en utilisant un algorithme basé sur des critères énergétiques seuls (courbes Ti et T2) et, d'autre part, en utilisant des critères énergétiques combinés à une classification en utilisant une modélisation par mixture de gaussiennes (courbes T' l et T'2). FIG. 3 shows curves showing the variation of definitive error rates as a function of rejectable error rates, on the one hand using an algorithm based on energy criteria alone (curves Ti and T2) and, d on the other hand, using energetic criteria combined with classification using Gaussian mixture modeling (curves T '1 and T'2).

Par erreurs définitives , on entend des erreurs qui entraînent systématiquement des erreurs du module de reconnaissance vocale 14. Il s'agit essentiellement de fragmentations, pour lesquelles un mot est découpé en plusieurs détections, d'omissions, pour lesquelles un mot n'est pas détecté, ou de regroupements, pour lesquels plusieurs mots sont regroupés en une seule détection. Definitive errors are errors that systematically cause errors in the speech recognition module 14. They are essentially fragmentations, for which a word is divided into several detections, omissions, for which a word is not detected, or groupings, for which several words are grouped into a single detection.

Par erreurs rejetables , on entend les erreurs qui peuvent éventuellement être rejetées par le module de reconnaissance vocale 14. Il s'agit essentiellement d'insertions, pour lesquelles des bruits sont détectés comme étant de la parole. By rejectable errors is meant errors that may possibly be rejected by the voice recognition module 14. These are essentially inserts, for which noises are detected as being speech.

Pour chacun des algorithmes considérés, on a représenté la variation du taux d'erreurs définitives en fonction du taux d'erreurs rejetables, d'une part dans des conditions fortement bruitées, c'est-à-dire pour un rapport Signal/Bruit inférieur à 20 dB (courbes T2 et T'2) et, d'autre part, dans des conditions faiblement bruitées, c'est-à-dire pour un rapport Signal/Bruit supérieur à 20 dB (dans des conditions faiblement bruitées), c'est-à-dire pour un rapport Signal/Bruit supérieur à 20 dB (courbes Tl et T' 1). On constate une très nette amélioration des performances de détection de For each of the algorithms considered, the variation of the definitive error rate is represented as a function of the rejectable error rate, on the one hand under strongly noisy conditions, ie on a lower Signal / Noise ratio. at 20 dB (T2 and T'2 curves) and, on the other hand, under low noise conditions, ie for a signal-to-noise ratio greater than 20 dB (in low noise conditions), c that is, for a Signal / Noise ratio greater than 20 dB (curves T1 and T '1). There is a marked improvement in the detection performance of

parole en utilisant la classification des trames à partir du calcul du rapport de vraisemblance des mixtures de gaussiennes.combinées à un critère énergétique, par rapport à une détection utilisant uniquement un critère énergétique, que ce soit dans des conditions fortement bruitées ou faiblement bruitées. On constate en particulier une chute du taux d'erreurs tant définitives que rejetables. using the classification of the frames from the calculation of the likelihood ratio of Gaussian mixtures with an energetic criterion, compared to a detection using only an energetic criterion, whether under strongly noisy or slightly noisy conditions. In particular, there is a fall in the rate of both definitive and rejectable errors.

- 17 -- 17 -

Claims

A method of detecting speech in an audio signal, characterized in that the energy level of each frame of the audio signal is analyzed to detect the speech in the signal, and the speech detection is validated by analyzing for each frame a statistical parameter representative of the membership of the frame to a first class of predetermined frames corresponding to speech frames, with respect to a second class of frames corresponding to noise frames, so as to deduce the nature of the frame of the audio signal.

2. Method according to claim 1, characterized in that the frame classes are each represented by a mixture of Gaussians representing probability densities of each class.

3. Method according to one of claims 1 and 2, characterized in that the Gaussian mixtures of the first and second classes of frames are extracted from a voice recognition system (14) using a hidden Markov model (HMM).

4. Method according to any one of claims 1 to 3, characterized in that the audio signal frame is represented by a vector of cepstral coefficients.

5. Method according to any one of claims 1 to 4, characterized in that said parameter representative of the membership of the frame to the first frame class is developed from the likelihood of the frame in each class.

6. Method according to claim 5, characterized in that the parameter is constituted by the ratio of the likelihood of the frame in the first class on the likelihood of the frame in the second class.

7. Method according to any one of claims 1 to 5, characterized in that one determines the membership of the frame to one of the first and second classes from a summation of the likelihood calculated for each Gaussian of each class.

8. Method according to any one of claims 1 to 5, characterized in that the membership of the frame is determined to one of the first and second classes from a method of determining the nearest neighbor in each class.

9. Method according to any one of claims 1 to 8, characterized in that the detection of speech is performed by means of a finite state machine (12) whose states include at least 1.0 a state corresponding to a noise or a silence, a state corresponding to a presumption of speech and a state corresponding to speech, the transitions between the states being governed by the result of evaluations of energy criteria of the frame and by the result of the step of analyzing said parameter.

10. Device for detecting speech in an audio signal, characterized in that it comprises means for analyzing the energy level of the audio signal frame for the detection of speech in the signal and means (12) for calculation a parameter representative of the membership of each audio signal frame to a first class of predetermined frames corresponding to speech frames, with respect to a second class of frames corresponding to noise frames, the computing means being in further adapted to analyze said parameter to deduce the nature of the audio signal frame and to validate the speech detection performed by the analysis means.

11. Device according to claim 10, characterized in that the calculation means (12) comprise means for calculating the likelihood of the frame in each of the frame classes.

12. Device according to one. claims 10 and 11, 30. characterized in that it further comprises a finite state machine (12) whose states comprise at least one state corresponding to a noise or a silence, a state corresponding to a presumption of speech and a state corresponding to speech, the transitions between the states being governed by the result of energy criterion evaluations of the frame validated by the result of the analysis of the parameter of the frame.