EP1451548A2 - System de detection de parole dans un signal audio en environnement bruite - Google Patents

System de detection de parole dans un signal audio en environnement bruite

Info

Publication number
EP1451548A2
EP1451548A2 EP02788059A EP02788059A EP1451548A2 EP 1451548 A2 EP1451548 A2 EP 1451548A2 EP 02788059 A EP02788059 A EP 02788059A EP 02788059 A EP02788059 A EP 02788059A EP 1451548 A2 EP1451548 A2 EP 1451548A2
Authority
EP
European Patent Office
Prior art keywords
audio signal
speech
frame
information
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP02788059A
Other languages
German (de)
English (en)
Inventor
Arnaud Martin
Laurent Mauuary
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1451548A2 publication Critical patent/EP1451548A2/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the present invention relates to systems for detecting speech in an audio signal and in particular in a noisy environment.
  • the invention relates to a method of detecting speech in an audio signal comprising a step of obtaining energy information of the audio signal, the energy information being used to detect speech in the signal audio.
  • the invention also relates to a speech detection device capable of implementing such a method.
  • Spoken language is the most natural mode of communication in humans. With the automation of man-machine communication, the dream of a voice interaction between man and machine appeared very early.
  • a voice recognition system conventionally consists of a speech detection module and a speech recognition module.
  • the function of the detection module is to detect the speech periods in an audio input signal, in order to avoid the recognition module from seeking to recognize speech over periods of the input signal corresponding to phases of silence. .
  • the presence of a speech detection module therefore makes it possible both to improve performance and to reduce the cost of the voice recognition system.
  • the operation of a speech detection module in an audio signal is conventionally represented by a finite state machine (also designated by an automaton).
  • the change of states of a detection module involves a criterion based on obtaining and processing energy information relating to the audio signal.
  • Such a speech detection module is described in the document entitled "Improving the performance of interactive voice servers", by L. Mauuary, Doctoral thesis, University of Rennes 1, 1994.
  • the current technical challenges are linked to the recognition of a large number of isolated words (for example, for a voice directory), to the recognition of continuous speech (i.e., of language sentences current) or the transmission / reception of the signal in a noisy environment, for example in the context of mobile telephony.
  • the main objective of the present invention is to provide a speech detection system whose efficiency in a noisy context is better than that of conventional detection systems, and which therefore makes it possible, in this context, to improve performance. of the associated voice recognition system.
  • the proposed detection system is therefore particularly suitable for use in the context of telephone speech recognition robust to surrounding noise.
  • the invention relates, according to a first aspect, to a method of detecting speech in an audio signal comprising a step of obtaining energy information of the audio signal, this energy information being used to detect speech in the audio signal.
  • this method is remarkable in that it further comprises a step of obtaining audio signal information of the audio signal, this voice information being used in conjunction with the energy information for the detection. speech in the audio signal.
  • the invention relates to a speech detection device capable of implementing a detection method as defined succinctly above.
  • this device further comprises means for obtaining voice signal information of the audio signal, this voice information being used in conjunction with the energy information for detecting speech in the audio signal.
  • the combined use of the energy of the input signal and a voicing parameter improves speech detection by reducing noise detections, and thus improves the overall accuracy of the voice recognition system. This improvement is accompanied by a decrease in the dependence of the adjustment of the detection system on the characteristics of the communication.
  • the present invention applies to the general field of processing an audio signal.
  • the invention can be applied, in a non-exhaustive manner:
  • - speech recognition robust to the acoustic environment, for example recognition in the street (mobile telephony), in the car, etc. ;
  • - speech transmission for example within the framework of telephony or else within the framework of teleconference / videoconference;
  • FIG. 3 is a graphical representation of the values of a voicing parameter calculated, according to an embodiment of the invention, on audio files from databases obtained on PSTN and GSM networks;
  • FIG. 4 illustrates the use of a new detection criterion based on a voicing parameter calculated according to the invention and applied to the state machine of Figure 2, according to a preferred embodiment
  • FIG. 5 is a graphic representation of the results obtained by a detection module according to the invention, on a database of audio files recorded on a GSM network;
  • FIG. 6 is a graphical representation of the results obtained by a detection module according to the invention, on another database of audio files recorded on a PSTN network;
  • FIG. 7 is a graphical representation of the results obtained by a voice recognition system incorporating a speech detection module according to the invention, on the basis of audio file data recorded on the PSTN network.
  • Voice - A voiced sound is a sound characterized by the vibration of the vocal cords. Voicing is a characteristic of most speech sounds, only certain plosives and fricatives are not voiced. In addition, the majority of noises are not seen. Consequently, a voicing parameter can provide useful information for discriminating in an input signal, between energetic sounds from speech and energetic noise.
  • Fundamental frequency or pitch The measurement of the fundamental frequency FO (in the sense of Fourier analysis) of the speech signal appears as an estimate of the vibration frequency of the vocal cords.
  • the fundamental frequency F 0 varies with gender, age, accent, emotional state of the speaker, etc. Its variations can be between 50 and 200 Hz.
  • the recognition system shown comprises a speech detection module 14 designated by DBP (Noise / Speech Detection) and a voice recognition module 12 (RECO).
  • DBP Noise / Speech Detection
  • RECO voice recognition module
  • the speech detection module 14 determines the periods of the audio input signal in which speech is present.
  • This determination is preceded by the analysis of the audio signal by an analysis module 11, so as to extract from it coefficients relevant for the detection module 14 and for the recognition module 12.
  • the extracted coefficients are cepstral coefficients, also called MFCC coefficients (Mel Frequency Cepstrum Coefficients).
  • the detection (14) and recognition (12) modules operate simultaneously.
  • the recognition module 12 used for recognizing isolated words and continuous speech, is based on a known method, based on the use of Markov chains.
  • the detection module 14 supplies the start and then end of speech information to the recognition module 12. When all the speech frames have been processed, the speech recognition system provides the recognition result via a decision module 13.
  • DBP speech in noise detection systems
  • a finite state machine or machine For example, a two-state machine can be used in the simplest case (used for example for voice activity detection), three state, four state, or even five state.
  • the decision is made at each of the frames of the input signal, the rate of which can be for example 16 milliseconds (ms).
  • the use of an automaton with a large number of finite states allows finer modeling of the decision to be taken, by taking into account structural considerations of speech.
  • this automaton is modified, in accordance with a preferred embodiment of the invention, so as to incorporate therein a voicing parameter as an additional criterion for changing d 'states.
  • - state 5 "possible speech recovery”.
  • the transitions from one state to another of the automaton are conditioned by a test on the energy of the input signal and by structural constraints of duration (minimum duration of a vowel and maximum duration of a plosive).
  • the transition to state 3 (“speech") determines the boundary at which speech begins in the input signal.
  • the recognition module 12 takes into account the speech start border with a predetermined safety margin on this border, for example 160 ms (10 frames of 16 ms each).
  • the return to state 1 of the PLC means confirmation of the end of speech.
  • the end of speech border is therefore determined during the transition from state 3 or 5 to state 1 of the automaton.
  • the recognition module 12 takes into account the end of speech border with a predetermined safety margin on this border, for example 240 ms (15 frames of 16 ms each).
  • Non_C1 a frame whose energy is greater than a predetermined detection threshold.
  • the automaton enters state 3. when conditions C1 and C2 are fulfilled simultaneously, that is to say when the automaton has remained in state 2 for a predetermined minimum number "Speech Minimum” (condition C2 ) of successive energy frames (condition C1) received. It then remains in the state
  • Non_C1 whose cumulative duration is greater than "End Silence” (condition C3) confirms a state of silence and causes a return to state 1 "noise or silence".
  • the variable "Silence End” is therefore used to confirm a state of silence due to the end of the speech. For example, in the case of continuous speech, Silence End can reach 1 second.
  • condition Non_C1 causes it to return to state 1 "noise or silence” or to state 4 "plosive unvoiced or silence", depending on whether the duration of silence (Silence Duration - DS) is greater (C3) or not (Non_C3) than a predefined number of frames (End Silence).
  • the duration of silence represents the time spent in state 4 "plosive unvoiced or silence” and in state 5 "possible speech recovery”.
  • the state “unvoiced plosive or silence” (4) models low energy passages in a word or a sentence, such as intra-word rests or plosives.
  • a certain number of actions are executed.
  • action A1 indicates the duration of silence after the last detected speech frame
  • action A6 resets the variable "Silence Duration” (DS) intended to count the silences, as well as the variable “Speech Duration” ( DP).
  • action A3 makes it possible to specify the number of frames of silence after the last speech frame of state 3 ( "speech") to determine the end of speech border.
  • speech the last speech frame of state 3
  • actions A3 and A6 are performed.
  • Actions A2 and A5 for their part, set the variables “Duration Speech” (DP) and “Duration Silence” (DS) to “1" respectively. Finally, action A4 increments the variable DP.
  • the condition C1 for changing states is based on a detection criterion which uses energy information from the frames of the input signal: energy information of a given frame of the input signal is compared with a predetermined threshold.
  • condition C1 another condition (C4) based on a second detection criterion using a parameter voicing.
  • the speech detection system (14) comprises means for measuring the energy of the input signal, used to define the energy criterion of the condition C1.
  • this energy criterion is based on the use of noise statistics. We make the classic assumption that the logarithm of the noise energy E (n) follows a normal law of parameters ( ⁇ , ⁇ 2 ).
  • E (n) is the logarithm of the short-term energy of the noise, that is to say the logarithm of the sum of the squares of the samples of a frame n considered of the input signal.
  • the statistics of the logarithm of the noise energy are estimated when the controller is in state 1 "noise or silence".
  • the mean and the standard deviation are estimated respectively by equations (1) and (2) which follow:
  • 0.995; which corresponds to a time constant of 3200 ms.
  • threshold values between 1.5 and 3.5 can be used.
  • criterion SB This first criterion, based on the use of energy information E (n) of the input signal.
  • the speech in noise detection system further comprises means for calculating a voicing parameter which is associated with the energy information for the detection of the speech in noise.
  • this parameter is calculated as follows.
  • the voicing parameter used is estimated from the fundamental frequency.
  • other types of voicing parameter obtained by other methods, can be used in the context of the present invention.
  • the fundamental frequency is calculated from a spectral method. This method searches for the harmonicity of the signal by inter-correlation with a comb function whose distance between the teeth of the comb is varied.
  • the period of the harmonics in the spectrum over the entire input signal is calculated at regular time intervals.
  • the period of the harmonics in the spectrum is calculated every four milliseconds (ms) over the whole of the input signal, that is to say even in the non-speech periods.
  • the period of the harmonics in the spectrum is the fundamental frequency.
  • fundamental frequency is used in the rest of the description to designate the period of the harmonics in the spectrum.
  • the median is then calculated between the current value of fundamental frequency and a predetermined number of previous values of fundamental frequency. In practice, in the chosen implementation, the median is calculated between the current value of fundamental frequency and the two previous values. The use of the median in particular makes it possible to eliminate certain errors in estimating the fundamental frequency.
  • a median, med (m) is calculated for each of the subframes m of the input signal (audio signal).
  • med (m) is the median calculated for the subframe m
  • successive frames of the input signal of length 16 ms are considered, and a median value is calculated every 4 ms, that is to say for each sub-frame of length 4 ms.
  • ⁇ med (m) ⁇ med (m) - med ( m - 1)
  • This average is a criterion for the local variation of the fundamental frequency. If the fundamental frequency varies little, the current frame is assumed to be a speech frame.
  • the arithmetic mean ⁇ med (m) therefore constitutes an estimate of a degree of voicing.
  • FIG. 3 is a plot of curves representing the value of the voicing parameter calculated according to equation (6) above, as a function of the number of audio files of different types (speech, impulsive noises, background noises). More specifically, the curves in FIG. 3 represent the average of the degree of voicing measured on the basis of audio files recorded on PSTN and GSM networks.
  • the voicing parameter makes it possible to discriminate speech from impulsive noises. Indeed, by applying for example a threshold of 15 to this value of the parameter, one can effectively distinguish speech from impulsive noises and background noise.
  • this voicing parameter in addition to the energy information of the input signal, to discriminate speech from noise, is implemented in the detection module (14) by the described decision automaton. above in relation to FIG. 2.
  • the joint use of the energy of the input signal and the voicing parameter then makes it possible to define a more precise criterion for triggering the transitions between all or part of the states of the automaton. .
  • FIG. 4 illustrates, by way of example, the insertion of the new criterion above based on a voicing parameter according to the invention in the state machine of FIG. 2.
  • the present invention can therefore also apply to detection systems whose function is to detect only the start of speech.
  • condition C4 is defined as follows. ⁇ med (P- n + 3) ⁇ threshold- ⁇ (7)
  • Detection tests on a noisy part of a GSM base used audio files were used to determine the value "10" as the threshold value for optimized seu Sn ⁇ ed ⁇ • ⁇ e seu '' had * ® * re adapted to the conditions of noise present in the input signal so as to guarantee precise detection whatever the acoustic environment.
  • the combination of the new condition C4 with the condition C1 thus makes it possible to obtain a double detection criterion, based on a measurement of the energy of the input signal and on a measurement of the voicing.
  • the GSM_T base is a laboratory base registered on a GSM network in four different environments: interior, exterior, stationary vehicle and rolling vehicle. Normally each word is repeated only once, except if there is a loud noise during the pronunciation of the word. The occurrences of each word are therefore substantially identical.
  • the vocabulary consists of 65 words. The 29,558 segments from manual segmentation are divided into 85% vocabulary words, 3% non-vocabulary words and 12% noises.
  • the GSM_T base is composed of two sub-bases defined according to the signal to noise ratio (RSB) of each file making up these sub-bases.
  • RSSB signal to noise ratio
  • the AGORA base is a basis for experimenting with a man-machine dialogue application, recorded on a PSTN switched network. It is therefore a basis for continuous speech.
  • the AGORA base is mainly used as a test base. It is composed of 64 records.
  • the 3,115 reference segments include 12,635 words.
  • the vocabulary of the recognition model is 1633 words. There are no non-vocabulary word segments for this base.
  • the speech segments constitute 81% of the reference segments and the noise segments 19%.
  • the results of the speech detection alone are considered, then the results of this detection in the context of voice recognition, by studying the results obtained by the speech system. recognition.
  • the results of the detection alone are studied by considering the final error rate as a function of the rejection error rate.
  • the final errors generated by the detection module are composed of omitted speech, fragmentations of a word or a sentence, and groupings of several words or several sentences. These errors are said to be "final” because they cause definitive errors at the level of the recognition module.
  • the rejection errors generated by the detection module are composed of noise inserts (or noise detections). A rejectable error can be rejected by a rejection model incorporated in the decision module (fig. 1, 13) of the recognition module. Otherwise, it causes a voice recognition error.
  • the approach consisting in evaluating the detection module alone makes it possible to place oneself in a context independent of voice recognition.
  • the results of the recognition system using a detection module according to the invention are studied by considering three types of error in the case of recognition of isolated words, and four types of error in the case of continuous speech recognition.
  • substitution error represents a word of the vocabulary recognized as being another word of the vocabulary.
  • False acceptance error is a noise detection recognized as being a word.
  • Wrongly rejected error is the rejection of a word from the vocabulary by the rejection model or corresponds to a word not detected by the detection module.
  • a so-called "insertion” error concerns a word inserted in a sentence (or request)
  • a so-called “omission” error concerns a word omitted in a sentence
  • a so-called “error” substitution concerns a substituted word in a sentence
  • an error called” wrongly rejected concerns a sentence wrongly rejected by the rejection model, or not detected by the detection module.
  • These wrongly rejected errors are expressed by a rate of omitting words in sentences.
  • the errors of insertions, omissions and substitutions are represented according to the errors of rejection wrongly.
  • FIG. 5 is a graphic representation of the results obtained by a detection module according to the invention on the GSM_T database of audio files recorded on a GSM network.
  • the curves of FIG. 5 represent, for each sub-base (noisy and non-noisy) of the GSM_T base, the results obtained with the detection automaton of FIG. 2 (condition C1 only), and the results obtained using l detection automaton modified according to FIG. 4 (combination of conditions C1 and C4).
  • the results are expressed as a rejectable error rate compared to the final error rate. For a given rejectable error rate, the lower the final error rate, the better the performance obtained.
  • curves 51 and 52 correspond to the results obtained with the "noiseless" sub-base, that is to say corresponding to a signal to noise ratio (SNR) greater than 18 decibels (dB).
  • SNR signal to noise ratio
  • the curves 53, 54 correspond to the results obtained with the "noise" sub-base, that is to say corresponding to a SNR less than 18 dB.
  • curves 51, 53 correspond to the use only of the "energy” criterion based on the energy of the input signal (condition C1), while curves 52, 54 correspond to the use joint of the energy criterion and the voicing criterion (conditions C1 and C4).
  • FIG. 6 represents the results obtained with a detection module according to the invention on the basis of AGORA continuous speech of audio files recorded on a PSTN network.
  • FIG. 7 is a graphic representation of the results obtained by a voice recognition system integrating a speech detection module according to the invention, on the AGORA basis of audio files recorded on a PSTN network. These results were obtained using the optimal thresholds for recognition. For recognition, the results are assessed by comparing the rate of rejection wrongly with the rate of errors of omission, insertion and substitution of words. In fig.
  • curve 71 represents the results obtained with the sole use of the energy criterion (condition C1); while curve 72 represents the results obtained with the joint use of the energy criterion and the voicing criterion (conditions C1 and C4). It can be observed that the results (curve 72) on the voice recognition are also better with the use of the double energy-voicing criterion for the detection module.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Un procédé de détection de parole dans un signal audio comporte une étape d'obtention d'une information d'énergie du signal audio, cette information d'énergie étant utilisée pour détecter de la parole dans le signal audio. Selon l'invention ce procédé comporte en outre une étape d'obtention d'une information de voisement du signal audio, cette information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio.

Description

SYSTEME DE DETECTION DE PAROLE DANS UN SIGNAL AUDIO EN
ENVIRONNEMENT BRUITE
DESCRIPTION
La présente invention a trait aux systèmes de détection de parole dans un signal audio et en particulier en environnement bruité.
Plus particulièrement, l'invention concerne un procédé de détection de parole dans un signal audio comportant une étape d'obtention d'une information d'énergie du signal audio, l'information d'énergie étant utilisée pour détecter de la parole dans le signal audio. L'invention concerne également un dispositif de détection de parole apte à mettre en œuvre un tel procédé.
Le langage parlé est le mode de communication le plus naturel chez l'homme. Avec l'automatisation de la communication homme-machine, le rêve d'une interaction vocale entre l'homme et la machine est apparu très tôt.
Dans ce but, la recherche sur les systèmes de reconnaissance automatique de la parole (reconnaissance vocale) a débuté dès les années 50, et de nombreuses applications techniques utilisent maintenant de tels systèmes, comme la dictée vocale ou les services vocaux interactifs liés à la téléphonie. Depuis ses débuts, les problèmes techniques liés à la reconnaissance vocale n'ont cessé d'évoluer, avec notamment l'expansion de la téléphonie.
Un système de reconnaissance vocale se compose classiquement d'un module de détection de parole et d'un module de reconnaissance de parole. La fonction du module de détection est de détecter dans un signal d'entrée audio les périodes de parole, afin d'éviter au module de reconnaissance de chercher à reconnaître de la parole sur des périodes du signal d'entrée correspondant à des phases de silence. La présence d'un module de détection de parole permet par conséquent à la fois d'améliorer les performances et de réduire le coût du système de reconnaissance vocale. Le fonctionnement d'un module de détection de parole dans un signal audio, implémenté le plus souvent sous forme logicielle, est classiquement représenté par une machine d'états finis (encore désignée par automate). Typiquement, le changement d'états d'un module de détection fait intervenir un critère basé sur l'obtention et le traitement d'une information d'énergie relative au signal audio. Un tel module de détection de parole est décrit dans le document intitulé " Amélioration des performances des serveurs vocaux interactifs ", de L. Mauuary, Thèse de doctorat, Université de Rennes 1 , 1994. Dans le contexte particulier de la reconnaissance vocale destinée à des applications téléphoniques, les enjeux techniques actuels sont liés à la reconnaissance d'un grand nombre de mots isolés (par exemple, pour un annuaire vocal), à la reconnaissance de la parole continue (c.-à-d., de phrases du langage courant) ou à la transmission/réception du signal en environnement bruité, par exemple dans le cadre de la téléphonie mobile.
Cependant, dans ce contexte, les performances des systèmes de détection actuels demeurent très insuffisantes, particulièrement lorsque les bruits environnants sont de courte durée, les erreurs de détection de parole pouvant alors entraîner des erreurs de reconnaissance vocale très perturbatrices pour l'utilisateur. D'autre part, les systèmes de détection actuels présentent une très grande sensibilité de réglage en fonction des conditions ou la nature de la communication téléphonique (téléphonie fixe, mobile, etc.).
L'objectif principal de la présente invention est de proposer un système de détection de parole dont l'efficacité dans un contexte bruité soit meilleure que celle des systèmes de détection conventionnels, et qui permette par conséquent, dans ce contexte, d'améliorer les performances du système de reconnaissance vocale associé. Le système de détection proposé est donc particulièrement adapté à une utilisation dans le cadre de la reconnaissance vocale téléphonique robuste aux bruits environnants. A cet effet, l'invention concerne, selon un premier aspect, un procédé de détection de parole dans un signal audio comportant une étape d'obtention d'une information d'énergie du signal audio, cette information d'énergie étant utilisée pour détecter de la parole dans le signal audio.
Conformément à l'invention, ce procédé est remarquable en ce qu'il comporte en outre une étape d'obtention d'une information de voisement du signal audio, cette information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio.
Selon un second aspect, l'invention concerne un dispositif de détection de parole apte à mettre en œuvre un procédé de détection tel que défini succinctement supra. Conformément à l'invention, ce dispositif comporte en outre des moyens d'obtention d'une information de voisement du signal audio, cette information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio.
L'utilisation conjuguée de l'énergie du signal d'entrée et d'un paramètre de voisement permet d'améliorer la détection de la parole en réduisant les détections de bruit, et ainsi d'améliorer la précision globale du système de reconnaissance vocale. Cette amélioration s'accompagne d'une diminution de la dépendance du réglage du système de détection vis-à-vis des caractéristiques de la communication.
La présente invention s'applique au domaine général du traitement d'un signal audio. En particulier, l'invention peut s'appliquer, de manière non exhaustive :
- à la reconnaissance de parole robuste à l'environnement acoustique, par exemple la reconnaissance dans la rue (téléphonie mobile), en voiture, etc. ; - à la transmission de parole, par exemple dans le cadre de la téléphonie ou bien la dans le cadre de la téléconférence / visioconférence ;
- à la réduction de bruit ; ou
- à la segmentation automatique de bases de données.
D'autres particularités et avantages de l'invention apparaîtront encore dans la description ci-après de modes préférés de réalisation, faite à l'appui des dessins annexés, sur lesquels : - la figure 1 représente la structure générale d'un système de reconnaissance vocale dans lequel on peut incorporer la présente invention ;
- la figure 2 représente une machine d'états illustrant le fonctionnement d'un module de détection de parole, connu de l'état de la technique ; - la figure 3 est une représentation graphique des valeurs d'un paramètre de voisement calculées, selon un mode de réalisation de l'invention, sur des fichiers audio de bases de données obtenues sur des réseaux RTC et GSM;
- la figure 4 illustre l'utilisation d'un nouveau critère de détection basé sur un paramètre de voisement calculé selon l'invention et appliqué à la machine d'états de la figure 2, selon un mode préféré de réalisation ;
- la figure 5 est une représentation graphique des résultats obtenus par un module de détection conforme à l'invention, sur une base de données de fichiers audio enregistrés sur un réseau GSM ;
- la figure 6 est une représentation graphique des résultats obtenus par un module de détection conforme à l'invention, sur une autre base de données de fichiers audio enregistrés sur un réseau RTC ; et
- la figure 7 est une représentation graphique des résultats obtenus par un système de reconnaissance vocale intégrant un module de détection de parole selon l'invention, sur la base de données de fichiers audio enregistrés sur le réseau RTC.
On donne ci-après la définition de termes, utilisés dans le domaine de la reconnaissance vocale, qui seront utilisés dans la suite de la description.
Voisement - Un son voisé est un son caractérisé par la vibration des cordes vocales. Le voisement est une caractéristique de la majorité de sons de la parole, seules certaines plosives et fricatives ne sont pas voisées. De plus, la majorité des bruits ne sont pas voisés. Par conséquent, un paramètre de voisement peut apporter une information utile pour effectuer une discrimination dans un signal d'entrée, entre des sons énergétiques issus de la parole et du bruit énergétique. Fréquence fondamentale ou pitch - La mesure de la fréquence fondamentale FO (au sens de l'analyse de Fourier) du signal de parole apparaît comme une estimation de la fréquence de vibration des cordes vocales. La fréquence fondamentale F0 varie avec le sexe, l'âge, l'accent, l'état émotif du locuteur, etc. Ses variations peuvent être comprises entre 50 et 200 Hz.
Diverses méthodes de détection de la fréquence fondamentale sont connues de l'état de la technique et ne seront par conséquent pas détaillées dans le cadre de la présente description. De manière générale, on peut cependant définir deux classes de méthodes : celles qui sont applicables au domaine temporel et celles applicables au domaine fréquentiel. Les premières entraînent généralement un calcul de fonction d'autocorrélation, tandis que les secondes impliquent le calcul d'une transformée de Fourier ou un calcul de même nature.
En relation avec la figure 1, on va décrire un exemple de structure générale d'un système de reconnaissance de parole pouvant incorporer la présente invention. Le système de reconnaissance représenté comprend un module de détection de parole 14 désigné par DBP (Détection Bruit/Parole) et un module de reconnaissance vocale 12 (RECO).
Le module de détection de parole 14 détermine les périodes du signal d'entrée audio dans lesquelles la parole est présente.
Cette détermination est précédée par l'analyse du signal audio par un module d'analyse 11 , de façon à en extraire des coefficients pertinents pour le module de détection 14 et pour le module de reconnaissance 12.
Selon un exemple particulier de réalisation, les coefficients extraits sont des coefficients cepstraux, encore appelés coefficients MFCC (Mel Frequency Cepstrum Coefficients). D'autre part, dans l'exemple décrit, les modules de détection (14) et de reconnaissance (12) fonctionnent simultanément. Par ailleurs, dans cet exemple, le module de reconnaissance 12, utilisé pour la reconnaissance de mots isolés et de parole continue, est fondé sur une méthode connue, basée sur l'utilisation des chaînes de Markov. Cependant, d'autres méthodes de reconnaissance de la parole peuvent être utilisées dans le cadre de la présente invention. Le module de détection 14 fournit l'information de début puis de fin de parole au module de reconnaissance 12. Lorsque toutes les trames de parole ont été traitées, le système de reconnaissance de parole fournit le résultat de la reconnaissance via un module de décision 13.
De manière classique le fonctionnement des systèmes de détection de parole dans le bruit (DBP) est déterminé par un automate ou machine d'états finis. On peut utiliser par exemple un automate à deux états dans le cas le plus simple (utilisé par exemple pour la détection d'activité vocale), à trois états, à quatre états, ou encore à cinq états.
La décision est prise au niveau de chacune des trames du signal d'entrée, dont la cadence peut être par exemple de 16 millisecondes (ms). De manière générale, l'utilisation d'un automate ayant un grand nombre d'états finis permet une modélisation plus fine de la décision à prendre, par la prise en compte des considérations structurelles de la parole.
En référence à la figure 2, on va décrire un exemple de machine d'états (ou automate) destinée à gérer le fonctionnement d'un système de détection de parole dans le bruit. Dans ce système de détection, les changements d'états prennent en compte notamment une mesure de l'énergie du signal d'entrée.
Comme on le verra dans la suite de l'exposé en relation avec la figure 3, cet automate est modifié, conformément à un mode préféré de réalisation de l'invention, de manière à y incorporer un paramètre de voisement comme critère additionnel de changement d'états.
Dans cet exemple, il s'agit d'un automate à cinq états, décrit dans le document cité plus haut, intitulé " Amélioration des performances des serveurs vocaux interactifs ", de L. Mauuary, Thèse de doctorat, Université de Rennes 1 ,
1994. Bien sûr, d'autres automates de détection peuvent être utilisés dans le cadre de la présente invention.
Dans l'exemple donné ici, les cinq états de l'automate sont définis comme suit :
- état 1 : "bruit ou silence" ;
- état 2 : "présomption de parole" ; - état 3 : "parole" ;
- état 4 : "plosive non voisée ou silence" ; et
- état 5 : "reprise possible de parole". Les passages d'un état à un autre de l'automate sont conditionnés par un test sur l'énergie du signal d'entrée et par des contraintes structurelles de durée (durée minimum d'une voyelle et durée maximum d'une plosive).
Selon l'exemple représenté à la figure 2, le passage dans l'état 3 ("parole") détermine la frontière de début de la parole dans le signal d'entrée.
Le module de reconnaissance 12 prend en compte la frontière de début de parole avec une marge prédéterminée de sécurité sur cette frontière, par exemple 160 ms (10 trames de 16 ms chacune).
Le retour à l'état 1 de l'automate signifie la confirmation de la fin de parole. La frontière de fin de parole est donc déterminée lors du passage de l'état 3 ou 5 vers l'état 1 de l'automate. Le module de reconnaissance 12 prend en compte la frontière de fin de parole avec une marge prédéterminée de sécurité sur cette frontière, par exemple 240 ms (15 trames de 16 ms chacune).
L'état 1 "bruit ou silence" est l'état initial de l'algorithme de décision. On fait ainsi l'hypothèse que la communication débute par une trame de bruit ou de silence. D'autre part, les variables "Durée Parole" (DP) et "Durée Silence" (DS) dont les valeurs représentent respectivement la durée de parole et la durée de silence, sont initialisées à 0.
L'automate de décision reste dans l'état 1 tant qu'aucune trame énergétique n'est reçue (condition "Non_C1"), c'est-à-dire une trame dont l'énergie est supérieure à un seuil de détection prédéterminé.
Lors de la réception de la première trame dont l'énergie est supérieure au seuil de détection (condition "C1"), l'automate passe dans l'état 2
"présomption de parole". Dans l'état 2, la réception d'une trame "non énergétique" (condition "Non_C1") provoque le retour à l'état 1 "bruit ou silence".
L'automate passe dans l'état 3. lorsque les conditions C1 et C2 sont réalisées simultanément, c'est-à-dire lorsque l'automate est resté dans l'état 2 pour un nombre minimum "Parole Minimum" prédéterminé (condition C2) de trames successives énergétiques (condition C1 ) reçues. Il reste alors dans l'état
3 ("parole") tant que les trames sont énergétiques (condition C1). En revanche, il passe à l'état 4 "plosive non voisée ou silence", dès que la trame courante est non énergétique (condition "Non_C1"). Dans l'état 4, la réception d'un nombre de trames successives non énergétiques (condition
Non_C1 ) dont la durée cumulée est supérieure à "Silence Fin" (condition C3) confirme un état de silence et provoque le retour dans l'état 1 "bruit ou silence". La variable "Silence Fin" sert par conséquent à confirmer un état de silence dû à la fin de la parole. Par exemple, dans le cas de la parole continue, Silence Fin peut atteindre 1 seconde.
Si dans l'état 4 "plosive non voisée ou silence", la trame courante est énergétique (condition C1), l'automate passe dans l'état 5 "reprise possible de parole".
Dans l'état 5, la réception d'une trame non énergétique (condition Non_C1) le fait retourner dans l'état 1 "bruit ou silence" ou dans l'état 4 "plosive non voisée ou silence", selon que la durée de silence (Durée Silence - DS) est supérieure (C3) ou non (Non_C3) à un nombre prédéfini de trames (Silence Fin). La durée de silence représente le temps passé dans l'état 4 "plosive non voisée ou silence" et dans l'état 5 "reprise possible de parole".
Enfin, lorsque la condition "C1&C2" ("&" désigne le "et" logique) est vérifiée, c'est-à-dire si l'automate est resté durant un nombre minimum (Parole Minimum) de trames énergétiques dans l'état 5 ("reprise possible de parole"), ij retourne alors dans l'état 3 ("parole").
Les trois états "présomption de parole" (2), "plosive non voisée ou silence" (4) et "reprise possible de parole" (5), permettent de modéliser les variations énergétiques du signal de parole. Plus particulièrement, l'état "présomption de parole" (2) permet de ne pas détecter des bruits impulsifs énergétiques mais de très courte durée (c'est-à- dire pendant quelques trames). L'état "plosive non voisée ou silence" (4) modélise quant à lui les passages peu énergétiques dans un mot ou une phrase, tels que les silences intra-mot ou les plosives. Comme illustré à la figure 2, conjointement aux conditions (C1 , C2, etc.) déterminant le passage d'un état à un autre ou le maintien dans un état donné, un certain nombre d'actions (A1-A6) sont exécutées. Ainsi, l'action A1 indique la durée du silence après la dernière trame de parole détectée, tandis que l'action A6 réinitialise la variable "Durée Silence" (DS) destinée à compter les silences, ainsi que la variable "Durée Parole" (DP).
Lors du retour de l'état 5 à l'état 4 "plosive non voisée ou silence", l'exécution de l'action A3 permet de préciser le nombre de trames de silence après la dernière trame de parole de l'état 3 ("parole") afin de déterminer la frontière de fin de parole. Lors du retour de l'état 5 à l'état 1 "bruit ou silence" les actions A3 et A6 sont effectuées.
Les actions A2 et A5, quant à elles, mettent à "1" respectivement les variables "Durée Parole" (DP) et "Durée Silence" (DS). Enfin, l'action A4 incrémente la variable DP.
Dans le module de détection dont le fonctionnement est illustré par la figure 2, la condition C1 de changement d'états est basé sur un critère de détection qui utilise une information d'énergie des trames du signal d'entrée : une information d'énergie d'une trame donnée du signal d'entrée est comparée à un seuil prédéterminé.
Comme cela sera exposé plus loin en liaison avec la figure 4, la machine d'états de la figure 1 est modifiée selon l'invention pour adjoindre à la condition C1 une autre condition (C4) basée sur un second critère de détection utilisant un paramètre de voisement.
Critère énergétique (condition C1 )
Le système de détection de parole (14) comporte des moyens de mesure de l'énergie du signal d'entrée, utilisée pour définir le critère énergétique de la condition C1. Selon un mode de réalisation de l'invention, ce critère énergétique est basé sur l'utilisation des statistiques du bruit. On fait l'hypothèse classique selon laquelle le logarithme de l'énergie du bruit E(n) suit une loi normale de paramètres (μ, σ2).
Dans cet exemple, E(n) est le logarithme de l'énergie à court-terme du bruit, c'est-à-dire le logarithme de la somme des carrés des échantillons d'une trame n considérée du signal d'entrée. Les statistiques du logarithme de l'énergie du bruit sont estimées lorsque l'automate est dans l'état 1 "bruit ou silence". La moyenne et l'écart-type sont respectivement estimés par les équations (1) et (2) qui suivent :
An) = A 7-1) + (1-Λ)(E(n) - l)) (1)
S(π) = l ) + (1 -XMβ(n) ~ )l - S( M )) (2) où : μ(n) et σ(n) désignent respectivement la moyenne et l'écart-type estimés de l'énergie du bruit E(n), n est l'indice de la trame, et λ est un facteur d'oubli.
Ces estimations sont effectuées dans l'état 1 "bruit ou silence" de l'automate. Par exemple, pour l'estimation de la moyenne, on peut choisir : λ = 0,99 ; ce qui correspond à une constante de temps de
1600 ms. Pour l'estimation de l'écart-type, on peut choisir : λ = 0,995 ; ce qui correspond à une constante de temps de 3200 ms.
On considère le logarithme de l'énergie de chaque trame et on cherche à vérifier l'hypothèse selon laquelle l'automate est dans l'état "bruit ou silence", ce qui correspond à une absence de parole. La décision sera alors prise en fonction de l'écart du logarithme de l'énergie E(n) de la trame considérée n, par rapport à la moyenne estimée du bruit, c'est-à-dire selon la valeur du rapport critique r(E(n)) défini comme suit :
Le rapport critique est alors comparé à un seuil de détection prédéfini : r(E(n)) > Seuil de détection (condition C1) (4)
Typiquement des valeurs de seuil comprises entre 1.5 et 3.5 peuvent être utilisées.
Ce premier critère, fondé sur l'utilisation d'une information d'énergie E(n) du signal d'entrée est appelé "critère SB" dans la suite de la description.
Cependant, d'autres critères utilisant une information d'énergie du signal d'entrée peuvent être utilisés dans le cadre de la présente invention.
Comme exposé plus haut, le système de détection de parole dans le bruit selon l'invention comporte en outre des moyens de calcul d'un paramètre de voisement qui est associé à l'information d'énergie pour la détection de la parole dans le bruit. Selon un mode de réalisation préféré de l'invention, ce paramètre est calculé comme suit.
Calcul d'un paramètre de voisement
Le paramètre de voisement utilisé est estimé à partir de la fréquence fondamentale. Cependant, d'autres types de paramètre de voisement, obtenus selon d'autres procédés, peuvent être utilisés dans le cadre de la présente invention.
Dans le mode de réalisation décrit ici, la fréquence fondamentale est calculée à partir d'une méthode spectrale. Cette méthode recherche l'harmonicite du signal par inter-corrélation avec une fonction peigne dont on fait varier la distance entre les dents du peigne.
La méthode utilisée est proche de celle exposée dans le document "Compa son of itch détection by cepstrum and spectral combination analysis", de P. Martin - International Conférence on Acoustics, Speech, and Signal Processing, pp. 180-183 - 1982.
Dans ce mode de réalisation, on calcule à intervalles de temps réguliers la période des harmoniques dans le spectre sur l'ensemble du signal d'entrée.
Selon une implémentation préférée, on calcule la période des harmoniques dans le spectre toutes les quatre millisecondes (ms) sur l'ensemble du signal d'entrée, c'est-à-dire même dans les périodes de non-parole.
Dans les périodes voisées du signal, la période des harmoniques dans le spectre est la fréquence fondamentale. Dans un but de simplification, on utilise, dans la suite de l'exposé, le terme de fréquence fondamentale pour désigner la période des harmoniques dans le spectre. Dans ce mode de réalisation, on calcule alors la médiane entre la valeur courante de fréquence fondamentale et un nombre prédéterminé de valeurs précédentes de fréquence fondamentale. En pratique, dans l'implémentation choisie, on calcule la médiane entre la valeur courante de fréquence fondamentale et les deux valeurs précédentes. L'utilisation de la médiane permet notamment de supprimer certaines erreurs d'estimation de la fréquence fondamentale. Chacune des trames n du signal d'entrée étant subdivisée en un nombre prédéfini de sous-trames m, on calcule une médiane, med(m), telle que définie ci-dessus, pour chacune des sous-trames m du signal d'entrée (signal audio).
On calcule ensuite, pour chacune des sous-trames m (ou segments de trame), la moyenne arithmétique δmed(m) des valeurs absolues des différences entre une médiane courante et la médiane précédente, calculées pour les N sous-trames précédant la sous-trame considérée m. Cette moyenne arithmétique est calculée selon l'équation suivante : i ΛΓ-I δmed(m) = — \ med(m-k)-med(m-k-ï) \ (5)
N i=0 où :
- N est (par conséquent) la taille de la fenêtre arithmétique (par exemple N = 1 ) ; med(m) est la médiane calculée pour la sous-trame m ; et
- m- d (d : entier naturel) désigne la dèmô sous-trame précédant la sous-trame courante m ;
- m = P-n+i avec P définissant le nombre de sous-trames par trame n, et i = 0, 1 , 2, ... , P-1.
Dans une implémentation préférée de l'invention, on considère des trames successives du signal d'entrée de longueur 16 ms, et on calcule une valeur de médiane toutes les 4 ms, c'est-à-dire pour chaque sous-trame de longueur 4 ms. Dans cette implémentation, on a : m = An+i avec i=0, 1, 2, 3. Avec une fenêtre arithmétique de taille Ν égale à 1 , on obtient : δmed(m) =\ med(m) - med(m - 1) | (6)
Cette moyenne, calculée sur les deux dernières valeurs de médiane, est un critère de la variation locale de la fréquence fondamentale. Si la fréquence fondamentale varie peu, la trame courante est supposée être une trame de parole. La moyenne arithmétique δmed(m) constitue par conséquent une estimation d'un degré de voisement.
La figure 3 est un tracé de courbes représentant la valeur du paramètre de voisement calculé selon l'équation (6) ci-dessus, en fonction du nombre de fichiers audio de différents types (parole, bruits impulsifs, bruits de fond). Plus précisément, les courbes de la figure 3 représentent la moyenne du degré de voisement mesuré sur des bases de fichiers audio enregistrés sur des réseaux RTC et GSM.
On constate d'après la figure 3, que le paramètre de voisement dont les valeurs sont représentées sur les courbes permet de discriminer la parole des bruits impulsifs. En effet, en appliquant par exemple un seuil de 15 sur cette valeur du paramètre, on peut distinguer efficacement la parole des bruits impulsifs et du bruit de fond.
L'utilisation de ce paramètre de voisement, en complément de l'information d'énergie du signal d'entrée, pour discriminer la parole du bruit, est mis en œuvre dans le module de détection (14) par l'automate de décision décrit plus haut en relation avec la figure 2. L'utilisation conjointe de l'énergie du signal d'entrée et du paramètre de voisement permet alors de définir un critère plus précis pour le déclenchement des transitions entre tout ou partie des états de l'automate.
La figure 4 illustre, à titre d'exemple, l'insertion du nouveau critère ci- dessus basé sur un paramètre de voisement selon l'invention dans la machine d'états de la figure 2.
Des expérimentations menées par les inventeurs ont montré que pour améliorer les performances du processus de reconnaissance de la parole, le processus de détection doit être moins sensible aux bruits impulsifs de courte durée, par conséquent l'apport de ce nouveau critère doit s'effectuer de préférence au début du processus de détection.
A ce titre, la présente invention peut donc s'appliquer également aux systèmes de détection dont la fonction est de détecter uniquement les débuts de parole.
Les meilleurs résultats de détection ont été obtenus avec l'intégration de ce nouveau critère au niveau de l'état 2 "présomption de parole". Ainsi, à la figure 4 seuls les états 1, 2 et 3 sont représentés, et une nouvelle condition, C4, correspondant à ce critère intervient dans le passage de l'état 2
"présomption de parole" à l'état 3 "parole" et à l'état 1 "bruit ou silence". Dans le mode de réalisation représenté à la figure 4, la condition C4 est définie comme suit. δmed (P- n + 3) < seuil- ^ (7)
δmed(P- n + 3) représente, pour une trame n considérée du signal d'entrée, la valeur de la moyenne (cf. équation (6) supra) correspondant à la dernière sous-trame (i=3).
Des tests de détection sur une partie bruitée d'une base de fichiers audio GSM utilisée ont permis de déterminer la valeur "10" comme valeur optimisée pour le seuil seu^Snιed • ^e seu'' eu* ®*re adapté aux conditions de bruit présent dans le signal d'entrée de manière à garantir une détection précise quel que soit l'environnement acoustique.
Dans la machine d'états de la figure 2, la combinaison de la nouvelle condition C4 avec la condition C1 permet ainsi d'obtenir un critère de détection double, basé sur une mesure de l'énergie du signal d'entrée et sur une mesure du voisement.
Comme on peut le voir sur la figure 4, dans l'exemple présenté il n'est possible de passer de l'état 2 "présomption de parole" à l'état 3 "parole", que si les conditions C1 , C2 et C4 sont réalisées simultanément.
En liaison avec les figures 5, 6 et 7, on va maintenant présenter des résultats expérimentaux obtenus avec un module de détection (fig. 1 , 14) utilisant un critère de voisement en complément du critère relatif à l'énergie du signal d'entrée. On va d'abord présenter les résultats obtenus avec le module de détection seul, d'une part, sur une base de données de fichiers audio enregistrés sur un réseau GSM (figure 5), d'autre part sur une base de données de fichiers audio enregistrés sur un réseau RTC (figure 6).
Enfin, on présentera (figure 7) les résultats obtenus, sur une base de données de fichiers audio enregistrés sur un réseau RTC, par un module de reconnaissance vocale (fig. 1 , 12-13), lorsqu'il est couplé avec un module de détection de parole (14) selon l'invention. Les résultats présentés ont été obtenus avec les bases de données décrites ci-après et désignées respectivement par "GSM_T" et "AGORA". La base GSM_T est une base de laboratoire enregistrée sur un réseau GSM dans quatre environnements différents : intérieur, extérieur, véhicule à l'arrêt et véhicule roulant. Normalement chaque mot est répété une seule fois, excepté s'il y a un bruit important pendant la prononciation du mot. Les occurrences de chaque mot sont donc sensiblement identiques. Le vocabulaire est constitué de 65 mots. Les 29558 segments issus de la segmentation manuelle sont répartis en 85% de mots du vocabulaire, 3% de mots hors vocabulaire et 12% de bruits. La base GSM_T est composée de deux sous- bases définies en fonction du rapport signal à bruit (RSB) de chaque fichier composant ces sous-bases.
La base AGORA est une base d'expérimentation d'une application de dialogue homme-machine, enregistrée sur un réseau commuté RTC. Il s'agit donc d'une base de parole continue. La base AGORA est utilisée principalement comme une base de tests. Elle est composée de 64 enregistrements. Les 3115 segments de référence comprennent 12635 mots. Le vocabulaire du modèle de reconnaissance est de 1633 mots. Il n'y a pas de segments de mots hors vocabulaire pour cette base. Les segments de parole constituent 81 % des segments de référence et les segments de bruits 19%.
Afin d'évaluer le module de détection (14) selon l'invention, on considère les résultats de la détection seule de parole, puis les résultats de cette détection dans le contexte de la reconnaissance vocale, en étudiant les résultats obtenus par le système de reconnaissance.
Les résultats de la détection seule sont étudiés en considérant le taux d'erreurs définitives en fonction du taux d'erreurs rejetables. Les erreurs définitives générées par le module de détection sont composées des omissions de parole, des fragmentations d'un mot ou d'une phrase, et des regroupements de plusieurs mots ou plusieurs phrases. Ces erreurs sont dites "définitives" car elles provoquent des erreurs définitives au niveau du module de reconnaissance. Les erreurs rejetables générées par le module de détection sont composées des insertions de bruit (ou détections de bruit). Une erreur rejetable peut être rejetée par un modèle de rejet incorporé dans le module de décision (fig. 1, 13) du module de reconnaissance. Dans le cas contraire, elle provoque une erreur de reconnaissance vocale.
L'approche consistant à évaluer le module de détection seul, permet de se placer dans un contexte indépendant de la reconnaissance vocale. Les résultats du système de reconnaissance utilisant un module de détection selon l'invention sont étudiés en considérant trois types d'erreur dans le cas de la reconnaissance de mots isolés, et quatre types d'erreur dans le cas de la reconnaissance de parole continue.
Dans le cas de la reconnaissance de mots isolés, une erreur dite "de substitution" représente un mot du vocabulaire reconnu comme étant un autre mot du vocabulaire. Une erreur dite "de fausse acceptation" est une détection de bruit reconnue comme étant un mot. Une erreur dite "de rejet à tort" est le rejet d'un mot du vocabulaire par le modèle de rejet ou correspond à un mot non détecté par le module de détection. Pour simplifier la représentation, on étudie la somme pondérée des erreurs de substitution et des erreurs de fausse acceptation en fonction des erreurs de rejet à tort.
Dans le cas de la reconnaissance de parole continue, une erreur dite "d'insertion" concerne un mot inséré dans une phrase (ou requête), une erreur dite "d'omission" concerne un mot omis dans une phrase, une erreur dite "de substitution" concerne un mot substitué dans une phrase, et une erreur dite "de rejet à tort" concerne une phrase rejetée à tort par le modèle de rejet, ou non détectée par le module de détection. Ces erreurs de rejet à tort sont exprimées par un taux d'omission de mots dans les phrases. Les erreurs d'insertions, d'omissions et de substitutions sont représentées en fonction des erreurs de rejet à tort.
La figure 5 est une représentation graphique des résultats obtenus par un module de détection conforme à l'invention sur la base de données GSM_T de fichiers audio enregistrés sur un réseau GSM.
Les courbes de la figure 5 représentent, pour chaque sous-base (bruitée et non bruitée) de la base GSM_T, les résultats obtenus avec l'automate de détection de la figure 2 (condition C1 uniquement), et les résultats obtenus en utilisant l'automate de détection modifié selon la figure 4 (combinaison des conditions C1 et C4). Les résultats sont exprimés en taux d'erreur rejetable par rapport au taux d'erreur définitive. Pour un taux d'erreur rejetable donné, plus le taux d'erreur définitive est faible, meilleures sont les performances obtenues. Ainsi, les courbes 51 et 52 correspondent aux résultats obtenus avec la sous-base "non bruitée", c'est-à-dire correspondant à un rapport signal à bruit (RSB) supérieur à 18 décibels (dB). En revanche, les courbes 53, 54 correspondent aux résultats obtenus avec la sous-base "bruitée", c'est-à-dire correspondant à un RSB inférieur à 18 dB.
D'autre part, les courbes 51, 53 correspondent à l'utilisation seulement du critère "d'énergie" basé sur l'énergie du signal d'entrée (condition C1), tandis que les courbes 52, 54 correspondent à l'utilisation conjointe du critère d'énergie et du critère de voisement (conditions C1 et C4).
Comme on peut le voir sur la fig. 5, les résultats obtenus sont meilleurs avec l'utilisation du critère double énergie-voisement (courbes 52, 54), pour les deux sous-bases.
La figure 6 représente les résultats obtenus avec un module de détection conforme à l'invention sur la base de parole continue AGORA de fichiers audio enregistrés sur un réseau RTC.
A la fig. 6, la courbe 61 représente les résultats obtenus avec l'utilisation seule du critère d'énergie (condition C1 ) ; tandis que la courbe 62 représente les résultats obtenus avec l'utilisation conjointe du critère d'énergie et du critère de voisement (conditions C1 et C4). Là encore, on peut observer que les résultats sont nettement meilleurs avec l'utilisation du critère double énergie- voisement (courbe 62). La figure 7 est une représentation graphique des résultats obtenus par un système de reconnaissance vocale intégrant un module de détection de parole selon l'invention, sur la base AGORA de fichiers audio enregistrés sur un réseau RTC. Ces résultats ont été obtenus en utilisant les seuils optimaux pour la reconnaissance. Pour la reconnaissance, les résultats sont appréciés en comparant le taux de rejet à tort avec le taux d'erreurs d'omission, d'insertion et de substitution de mots. A la fig. 7, la courbe 71 représente les résultats obtenus avec l'utilisation seule du critère d'énergie (condition C1 ) ; tandis que la courbe 72 représente les résultats obtenus avec l'utilisation conjointe du critère d'énergie et du critère de voisement (conditions C1 et C4). On peut observer que les résultats (courbe 72) sur la reconnaissance vocale sont également meilleurs avec l'utilisation du critère double énergie- voisement pour le module de détection.
Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits ici, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.

Claims

REVENDICATIONS
1. Procédé de détection de parole dans un signal audio comportant une étape d'obtention d'une information d'énergie du signal audio, ladite information d'énergie étant utilisée pour détecter de la parole dans le signal audio, caractérisé en ce qu'il comporte en outre une étape d'obtention d'une information de voisement du signal audio, ladite information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio.
2. Procédé selon la revendication 1 , caractérisé en ce que ladite information de voisement est obtenue à partir de valeurs de fréquence fondamentale calculées de manière périodique sur l'ensemble du signal audio.
3. Procédé selon la revendication 2, caractérisé en ce que le signal audio est composé de trames successives n, chaque trame n étant subdivisée en P sous-trames m, m = P-n+i avec i variant de 0 à P-1 , et en ce que l'étape d'obtention de ladite information de voisement comprend les sous-étapes suivantes :
- calcul, pour chaque sous-trame m, de la valeur médiane, med(m), d'un nombre prédéterminé de valeurs de fréquence fondamentale du signal audio ;
- calcul, pour chaque sous-trame m, de la moyenne arithmétique δmed(m) des valeurs absolues des différences entre une valeur médiane courante et la valeur médiane précédente, lesdites différences étant calculées pour les N sous-trames précédant la sous-trame courante m, ladite moyenne arithmétique étant obtenue selon l'équation suivante : 1 N-l δmed(m) = — \ med(m-k)-med(m-k-ï) \
N /fc=0 où : N est la taille de la fenêtre arithmétique ; med(m) est la valeur médiane calculée pour la sous-trame m ; m - d (d : entier naturel) désigne la dème sous-trame précédant la sous-trame courante m ; et m = P-n +i avec i = 0, 1 , 2, ... , P-1 ; ladite information de voisement calculée sur l'ensemble du signal audio étant constituée desdites moyennes arithmétiques δmed(m), chacune desquelles constituant un paramètre de voisement indicatif du degré de voisement du signal audio pour la sous-trame m considérée.
4. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que ladite information d'énergie du signal audio est obtenue pour chaque trame du signal audio, par un calcul du logarithme de la somme des amplitudes mises au carré des échantillons de la trame considérée.
5. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'opération de détection de parole met en œuvre l'utilisation combinée de deux critères de détection comprenant un premier critère basé sur ladite information d'énergie du signal audio, et un second critère basé sur ladite information de voisement du signal audio, et en ce que ledit second critère de détection est basé, pour chaque sous-trame m du signal audio, sur la comparaison du paramètre de voisement δmed(m) associé à la sous-trame m, avec un seuil de voisement prédéterminé.
6. Procédé selon la revendication 5, caractérisé en ce que le premier critère de détection permet de déterminer le caractère énergétique d'une trame du signal audio, et est déterminé selon la comparaison de la valeur d'un rapport critique avec un seuil prédéterminé, le rapport critique étant obtenu selon l'équation suivante :
,_. .. E(n) - μ(n) r(E(n)) = Λ, , σ(n) où : μ(n) et σ(n) désignent respectivement la moyenne et l'écart-type estimés de l'énergie E(n) du bruit, et n est l'indice de la trame.
7. Procédé selon l'une quelconque des revendications 5 à 6, caractérisé en ce que les premier et second critères de détection sont mis en œuvre dans une machine d'états finis comportant au moins les trois états suivants : "bruit ou silence", "présomption de parole", "parole", en fonction du résultat de détection de parole dans le signal audio ; le passage d'un état à un autre parmi ces trois états étant déterminé par le résultat d'évaluation desdits premier et second critères.
8. Dispositif de détection de parole dans un signal audio comportant des moyens d'obtention d'une information d'énergie du signal audio, ladite information d'énergie étant utilisée pour détecter de la parole dans le signal audio, caractérisé en ce qu'il comporte en outre des moyens d'obtention d'une information de voisement du signal audio, ladite information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio.
9. Dispositif de détection selon la revendication 8, caractérisé en ce qu'il comporte des moyens aptes à mettre en œuvre un procédé de détection de parole dans un signal audio, tel que revendiqué dans l'une quelconque des revendications 2 à 7.
10. Dispositif de reconnaissance vocale, caractérisé en ce qu'il comprend un dispositif de détection de parole selon la revendication 8 ou 9.
EP02788059A 2001-12-05 2002-11-15 System de detection de parole dans un signal audio en environnement bruite Withdrawn EP1451548A2 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0115685 2001-12-05
FR0115685A FR2833103B1 (fr) 2001-12-05 2001-12-05 Systeme de detection de parole dans le bruit
PCT/FR2002/003910 WO2003048711A2 (fr) 2001-12-05 2002-11-15 System de detection de parole dans un signal audio en environnement bruite

Publications (1)

Publication Number Publication Date
EP1451548A2 true EP1451548A2 (fr) 2004-09-01

Family

ID=8870113

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02788059A Withdrawn EP1451548A2 (fr) 2001-12-05 2002-11-15 System de detection de parole dans un signal audio en environnement bruite

Country Status (5)

Country Link
US (1) US7359856B2 (fr)
EP (1) EP1451548A2 (fr)
AU (1) AU2002352339A1 (fr)
FR (1) FR2833103B1 (fr)
WO (1) WO2003048711A2 (fr)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2856506B1 (fr) * 2003-06-23 2005-12-02 France Telecom Procede et dispositif de detection de parole dans un signal audio
FR2864319A1 (fr) * 2005-01-19 2005-06-24 France Telecom Procede et dispositif de detection de parole dans un signal audio
CN1815550A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
KR100930039B1 (ko) * 2007-12-18 2009-12-07 한국전자통신연구원 음성 인식기의 성능 평가 장치 및 그 방법
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
JP5234117B2 (ja) * 2008-12-17 2013-07-10 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
US9202476B2 (en) * 2009-10-19 2015-12-01 Telefonaktiebolaget L M Ericsson (Publ) Method and background estimator for voice activity detection
CN102884575A (zh) * 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
US20150281853A1 (en) * 2011-07-11 2015-10-01 SoundFest, Inc. Systems and methods for enhancing targeted audibility
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
EP3089157B1 (fr) * 2013-12-26 2020-09-16 Panasonic Intellectual Property Management Co., Ltd. Dispositif de traitement de reconnaissance vocale, procédé de traitement de reconnaissance vocale, et dispositif d'affichage
CN112927724B (zh) * 2014-07-29 2024-03-22 瑞典爱立信有限公司 用于估计背景噪声的方法和背景噪声估计器
CN111739515B (zh) * 2019-09-18 2023-08-04 北京京东尚科信息技术有限公司 语音识别方法、设备、电子设备和服务器、相关系统
KR20210089347A (ko) * 2020-01-08 2021-07-16 엘지전자 주식회사 음성 인식 장치 및 음성데이터를 학습하는 방법
CN111599377B (zh) * 2020-04-03 2023-03-31 厦门快商通科技股份有限公司 基于音频识别的设备状态检测方法、系统及移动终端
CN111554314A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 噪声检测方法、装置、终端及存储介质
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US5276765A (en) 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US5819217A (en) * 1995-12-21 1998-10-06 Nynex Science & Technology, Inc. Method and system for differentiating between speech and noise
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6122531A (en) * 1998-07-31 2000-09-19 Motorola, Inc. Method for selectively including leading fricative sounds in a portable communication device operated in a speakerphone mode
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNQUA J -C; MAK B; REAVES B: "A robust algorithm for word boundary detection in the presence of noise", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 2, no. 3, July 1994 (1994-07-01), usa, pages 406 - 412 *
LAMEL L F; RABINER L R; ROSENBERG A E; WILPON J G: "An improved endpoint detector for isolated word recognition", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. ASSP-29, no. 4, August 1981 (1981-08-01), 08-1981, pages 777 - 785, XP002062762, DOI: doi:10.1109/TASSP.1981.1163642 *
See also references of WO03048711A3 *

Also Published As

Publication number Publication date
WO2003048711A3 (fr) 2004-02-12
US20050143978A1 (en) 2005-06-30
FR2833103A1 (fr) 2003-06-06
WO2003048711A2 (fr) 2003-06-12
AU2002352339A1 (en) 2003-06-17
AU2002352339A8 (en) 2003-06-17
US7359856B2 (en) 2008-04-15
FR2833103B1 (fr) 2004-07-09

Similar Documents

Publication Publication Date Title
WO2003048711A2 (fr) System de detection de parole dans un signal audio en environnement bruite
EP1154405B1 (fr) Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
EP0867856B1 (fr) &#34;Méthode et dispositif de detection d&#39;activité vocale&#34;
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
CA2404441C (fr) Parametres robustes pour la reconnaissance de parole bruitee
WO2015082807A1 (fr) Procédé de détection de la voix
EP1131813B1 (fr) Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
Martin et al. Robust speech/non-speech detection based on LDA-derived parameter and voicing parameter for speech recognition in noisy environments
Skorik et al. On a cepstrum-based speech detector robust to white noise
EP1665231B1 (fr) Procede pour le dopage non supervise et le rejet des mots hors vocabulaire en reconnaissance vocale
FR2856506A1 (fr) Procede et dispositif de detection de parole dans un signal audio
FR2864319A1 (fr) Procede et dispositif de detection de parole dans un signal audio
FR2823361A1 (fr) Procede et dispositif d&#39;extraction acoustique d&#39;un signal vocal
WO2001091106A1 (fr) Fenetres d&#39;analyse adaptatives pour la reconnaissance de la parole

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LI LU MC NL PT SE SK TR

17P Request for examination filed

Effective date: 20040617

RIN1 Information on inventor provided before grant (corrected)

Inventor name: MARTIN, ARNAUD

Inventor name: MAUUARY, LAURENT

17Q First examination report despatched

Effective date: 20070620

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/78 20130101AFI20160712BHEP

INTG Intention to grant announced

Effective date: 20160805

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: GRANT OF PATENT IS INTENDED

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20161216

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN