EP1016073B1 - Procede et dispositif de debruitage d'un signal de parole numerique - Google Patents

Procede et dispositif de debruitage d'un signal de parole numerique Download PDF

Info

Publication number
EP1016073B1
EP1016073B1 EP98944000A EP98944000A EP1016073B1 EP 1016073 B1 EP1016073 B1 EP 1016073B1 EP 98944000 A EP98944000 A EP 98944000A EP 98944000 A EP98944000 A EP 98944000A EP 1016073 B1 EP1016073 B1 EP 1016073B1
Authority
EP
European Patent Office
Prior art keywords
noise
speech signal
frame
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP98944000A
Other languages
German (de)
English (en)
Other versions
EP1016073A1 (fr
Inventor
Philip Lockwood
Stéphane LUBIARZ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EADS Defence and Security Networks SAS
Nortel Networks France SAS
Original Assignee
EADS Defence and Security Networks SAS
Matra Nortel Communications SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EADS Defence and Security Networks SAS, Matra Nortel Communications SAS filed Critical EADS Defence and Security Networks SAS
Publication of EP1016073A1 publication Critical patent/EP1016073A1/fr
Application granted granted Critical
Publication of EP1016073B1 publication Critical patent/EP1016073B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to techniques digital denoising of speech signals. She relates more particularly to denoising by nonlinear spectral subtraction.
  • This technique allows acceptable denoising to be obtained for strongly voiced signals, but completely distorts the speech signal. Faced with relatively coherent noise, such as that caused by the contact of car tires or the clicking of an engine, the noise may be more easily predictable as the unvoiced speech signal. We then tend to project the speech signal into part of the noise vector space.
  • the method does disregards the speech signal, especially unvoiced speech areas where predictability is scaled down.
  • predict the speech signal from of a reduced set of parameters does not allow taking counts all the intrinsic richness of speech. We understands here the limits of techniques based only on mathematical considerations forgetting the special character of speech.
  • U.S. Patent 5,228,088 describes a system for denoising operating in the frequency domain, provided with a tone frequency detector. The result of this detection is used on the one hand to adjust coefficients noise cancellation, and on the other hand to locate a "Voice band".
  • the suppression coefficients of noise are used by a subtraction module spectral to weight the noise estimate before the subtract from the signal.
  • the module that adjusts the coefficients delete only uses information according to which a tone frequency was detected or not. But the value taken by the tone frequency has no influence on the suppression coefficients used.
  • the band of voice "determined using the tone frequency detected is the subject of an overall accentuation of the signal.
  • a "noise band” a band in which a global attenuation is then applied.
  • a boost or cut a portion of the spectrum and signal is a very different denoising method than the spectral subtraction.
  • a main object of the present invention is to propose a new denoising technique that takes take into account the characteristics of speech production, thus allowing effective denoising without damaging the speech perception.
  • the invention provides a method as set out in claim 1 and a device as set out in claim 30.
  • a harmonic analysis of the speech signal is performed to estimate a tone frequency of the signal speech on each frame where it presents an activity voice.
  • the parameters on which the quantities depend subtracted include the estimated tone frequency.
  • the speech signal of the frame after having estimated the tone frequency of the speech signal over a frame, we condition the speech signal of the frame by oversampling it at a frequency of multiple oversampling of the tone frequency estimated, and we compute the spectral components of the speech signal on the frame based on the signal conditioned to subtract said quantities from them.
  • This arrangement makes it possible to favor the most frequent frequencies close to the estimated tone frequency compared to other frequencies. This avoids protecting relatively distant harmonics from those of the tone frequency. We therefore preserve the character harmonic of the speech signal.
  • To calculate the spectral components of the speech signal we distribute the signal conditioned by blocks of N samples subjected to a transformation in the frequency domain, and we choose the ratio between the frequency of oversampling and the tone frequency estimated as a divisor of the number N.
  • An additional improvement is that that after processing each frame, we keep, among samples of the denoised speech signal provided by this processing, a number of samples equal to an integer multiple of times the ratio between the frequency sampling frequency and estimated tone frequency. This avoids distortion problems caused by phase discontinuities between frames, which are not generally not fully corrected by techniques overlap-add classics.
  • the fact of having conditioned the signal by the oversampling technique provides good measure of the degree of voicing of the speech signal on the frame, from a calculation of the entropy of the autocorrelation of the spectral components calculated on the basis of the conditioned signal.
  • Signal conditioning of speech accentuates the irregular aspect of the spectrum and therefore variations in entropy, so that the latter is a measure of good sensitivity.
  • the autocorrelations will usually be calculated based on denoised signal to get the best performance. It would however be conceivable to calculate based on the conditioned signal before noising.
  • the spectral components of the noise-suppressed signal obtained by subtracting said quantities from the components speech signal spectral, can be used to calculate a masking curve by applying a auditory perception model.
  • parameters on which the quantity subtracted from a spectral component of the speech signal on a frame then include a difference between the increased estimate of the corresponding spectral component of the noise and the curve calculated masking.
  • This subtracted quantity can in particular be limited to the fraction of the estimate plus the corresponding spectral component of the noise which exceeds the masking curve. This way of proceeding is based on the observation that it is enough to denoise the audible noise frequencies. Conversely, it is only used to nothing to eliminate noise which is masked by speech.
  • each plus estimate of the noise included in the signal speech is obtained by combining a long estimate term of said spectral component of the noise, and a measurement of the variability of said spectral component of noise around its long-term estimate.
  • the denoising system shown in FIG. 1 processes a digital speech signal s.
  • the signal frame is transformed in the frequency domain by a module 11 applying a conventional fast Fourier transform (TFR) algorithm to calculate the module of the signal spectrum.
  • TFR fast Fourier transform
  • the frequency resolution available at the output of the fast Fourier transform is not used, but a lower resolution, determined by a number I of frequency bands covering the band [0 , F e / 2] of the signal.
  • a module 12 calculates the respective averages of the spectral components S n, f of the speech signal in bands, for example by a uniform weighting such that:
  • This averaging reduces the fluctuations between the bands by averaging the noise contributions in these bands, which will decrease the variance of the estimator of noise. In addition, this averaging allows a large reduction of the complexity of the system.
  • the averaged spectral components S n, i are addressed to a voice activity detection module 15 and to a noise estimation module 16. These two modules 15, 16 operate jointly, in the sense that degrees of vocal activity ⁇ n, i measured for the different bands by the module 15 are used by the module 16 to estimate the long-term energy of the noise in the different bands, while these long-term estimates B and n, i are used by module 15 to carry out a priori denoising of the speech signal in the different bands to determine the degrees of vocal activity ⁇ n, i .
  • modules 15 and 16 can correspond to the flowcharts represented in the figures 2 and 3.
  • the module 15 proceeds a priori to denoising the speech signal in the different bands i for the signal frame n.
  • This a priori denoising is carried out according to a conventional process of non-linear spectral subtraction from noise estimates obtained during one or more previous frames.
  • ⁇ 1 and ⁇ 2 are delays expressed in number of frames ( ⁇ 1 ⁇ 1, ⁇ 2 ⁇ 0), and ⁇ '/ n, i is a noise overestimation coefficient whose determination will be explained later.
  • the spectral components pp n, i are calculated according to: where ⁇ p i is a floor coefficient close to 0, conventionally used to prevent the spectrum of the denoised signal from taking negative or too low values which would cause musical noise.
  • Steps 17 to 20 therefore essentially consist in subtracting from the signal spectrum an estimate, increased by the coefficient ⁇ '/ n - ⁇ 1, i , of the noise spectrum estimated a priori.
  • the module 15 calculates, for each band i (0 ⁇ i ⁇ I), a quantity ⁇ E n, i representing the short-term variation of the energy of the noise-suppressed signal in the band i, as well as long-term value E n, i of the energy of the denoised signal in band i.
  • step 25 the quantity ⁇ E n, i is compared with a threshold ⁇ 1. If the threshold ⁇ 1 is not reached, the counter b i is incremented by one unit in step 26.
  • step 27 the long-term estimator ba i is compared to the value of the smoothed energy E n, i . If ba i ⁇ E n, i , the estimator ba i is taken equal to the smoothed value E n, i in step 28, and the counter b i is reset to zero.
  • the quantity ⁇ i which is taken equal to the ratio ba i / E n, i (step 36), is then equal to 1.
  • step 27 shows that ba i ⁇ E n, i
  • the counter b i is compared with a limit value bmax in step 29. If b i > bmax, the signal is considered to be too stationary to support vocal activity.
  • Bm represents an update coefficient between 0.90 and 1. Its value differs depending on the state of a voice activity detection automaton (steps 30 to 32). This state ⁇ n-1 is that determined during the processing of the previous frame.
  • the coefficient Bm takes a value Bmp very close to 1 so that the noise estimator is very slightly updated in the presence of speech. Otherwise, the coefficient Bm takes a lower value Bms, to allow a more significant update of the noise estimator in the phase of silence.
  • the difference ba i -bi i between the long-term estimator and the internal noise estimator is compared to a threshold ⁇ 2. If the threshold ⁇ 2 is not reached, the long-term estimator ba i is updated with the value of the internal estimator bi i in step 35. Otherwise, the long-term estimator ba i remains unchanged . This avoids that sudden variations due to a speech signal lead to an update of the noise estimator.
  • the module 15 After having obtained the quantities ⁇ i , the module 15 proceeds to the voice activity decisions in step 37.
  • the module 15 first updates the state of the detection automaton according to the quantity ⁇ 0 calculated for l of the signal band.
  • the new state ⁇ n of the automaton depends on the previous state ⁇ n-1 and on ⁇ 0 , as shown in Figure 4.
  • the module 15 also calculates the degrees of vocal activity ⁇ n, i in each band i ⁇ 1.
  • This function has for example the appearance shown in FIG. 5.
  • Module 16 calculates the band noise estimates, which will be used in the denoising process, using the successive values of the components S n, i and the degrees of voice activity ⁇ n, i . This corresponds to steps 40 to 42 of FIG. 3.
  • step 40 it is determined whether the voice activity detection machine has just gone from the rising state to the speaking state. If so, the last two estimates B and n -1, i and B and n -2 , i previously calculated for each band i ⁇ 1 are corrected according to the value of the previous estimate B and n -3, i .
  • step 42 the module 16 updates the noise estimates per band according to the formulas: where ⁇ B denotes a forgetting factor such as 0 ⁇ B ⁇ 1.
  • Formula (6) shows how the degree of non-binary vocal activity ⁇ n, i is taken into account.
  • the long-term noise estimates B and n, i are overestimated, by a module 45 (FIG. 1), before proceeding to denoising by nonlinear spectral subtraction.
  • Module 45 calculates the overestimation coefficient ⁇ '/ n, i previously mentioned, as well as an increased estimate B and ' / n, i which essentially corresponds to ⁇ '/ n, i .
  • the organization of the overestimation module 45 is shown in FIG. 6.
  • the increased estimate B and '/ n, i is obtained by combining the long-term estimate B and n, i and a measure ⁇ B max / n, i of the variability of the noise component in band i around its long-term estimate.
  • this combination is essentially a simple sum made by an adder 46. It could also be a weighted sum.
  • the increased estimate B and '/ n, i is finally taken equal to ⁇ ' / n, i . B and n - ⁇ 3, i (multiplier 49).
  • the measure ⁇ B max / n, i of the noise variability reflects the variance of the noise estimator. It is obtained as a function of the values of S n, i and of B and n, i calculated for a certain number of previous frames on which the speech signal does not present any vocal activity in the band i. It is a function of deviations S nk, i - B nk, i calculated for a number K of frames of silence (nk ⁇ n). In the example shown, this function is simply the maximum (block 50).
  • the degree of voice activity ⁇ n, i is compared to a threshold (block 51) to decide whether the difference S or - B or calculated in 52-53, may or may not be loaded into a queue 54 of K locations organized in first in first out (FIFO) mode. If ⁇ n, i does not exceed the threshold (which can be equal to 0 if the function g () has the form of FIG. 5), the FIFO 54 is not supplied, while it is in the opposite case. The maximum value contained in FIFO 54 is then provided as a measure of variability ⁇ B max / n, i .
  • the measure of variability ⁇ B max / n, i can, as a variant, be obtained as a function of the values S n, f (and not S n, i ) and B and n, i .
  • FIFO 54 does not contain S nk, i - B nk, i for each of the bands i, rather is born
  • the enhanced estimator B and '/ n, i provides excellent robustness to musical noise of the denoising process.
  • a first phase of the spectral subtraction is carried out by the module 55 shown in FIG. 1.
  • This phase provides, with the resolution of the bands i (1 i i I I), the frequency response H 1 / n, i of first denoising filter, as a function of the components S n, i and B and n, i and the overestimation coefficients ⁇ '/ n, i
  • the coefficient ⁇ 1 / i represents, like the coefficient ⁇ p i of formula (3), a floor conventionally used to avoid negative or too low values of the denoised signal.
  • the overestimation coefficient ⁇ '/ n, i could be replaced in formula (7) by another coefficient equal to a function of ⁇ ' n, i and a estimation of the signal-to-noise ratio (for example S n, i / B and n, i ), this function being decreasing according to the estimated value of the signal-to-noise ratio.
  • This function is then equal to ⁇ '/ n, i , for the lowest values of the signal-to-noise ratio. Indeed, when the signal is very noisy, it is a priori not useful to reduce the overestimation factor.
  • this function decreases to zero for the highest values of the signal / noise ratio. This protects the most energetic areas of the spectrum, where the speech signal is most significant, the amount subtracted from the signal then tending towards zero.
  • This strategy can be refined by applying it selectively to frequency harmonics pitch of the speech signal when it has voice activity.
  • a second denoising phase is carried out by a module 56 for protecting harmonics.
  • the module 57 can apply any known method of analysis of the speech signal of the frame to determine the period T p , expressed as an integer or fractional number of samples, for example a linear prediction method.
  • the protection provided by the module 56 may consist in carrying out, for each frequency f belonging to a band i:
  • H 2 / n, f 1
  • the quantity subtracted from the component S n, f will be zero.
  • the floor coefficients ⁇ 2 / i express the fact that certain harmonics of the tone frequency f p can be masked by noise, so that n protecting them is useless.
  • This protection strategy is preferably applied for each of the frequencies closest to the harmonics of f p , that is to say for any arbitrary integer.
  • the difference between the ⁇ -th harmonic of the real tonal frequency is its estimate ⁇ ⁇ f p (condition (9)) can go up to ⁇ ⁇ ⁇ ⁇ f p / 2. For high values of ⁇ , this difference can be greater than the spectral half-resolution ⁇ f / 2 of the Fourier transform.
  • the corrected frequency response H 2 / n, f can be equal to 1 as indicated above, which corresponds to the subtraction of a zero quantity in the context of spectral subtraction, that is to say ie full protection of the frequency in question. More generally, this corrected frequency response H 2 / n, f could be taken equal to a value between 1 and H 1 / n, f depending on the degree of protection desired, which corresponds to the subtraction of an amount less than which would be subtracted if the frequency in question was not protected.
  • S 2 / n, f H 2 n, f .
  • S n, f H 2 n, f .
  • This signal S 2 / n, f is supplied to a module 60 which calculates, for each frame n, a masking curve by applying a psychoacoustic model of auditory perception by the human ear.
  • the masking phenomenon is a principle known from functioning of the human ear. When two frequencies are heard simultaneously, it is possible that one of the two is no longer audible. We say then that it is hidden.
  • the masking curve is seen as the convolution of the spectral spreading function of the basilar membrane in the bark domain with the excitatory signal, constituted in the present application by the signal S 2 / n, f .
  • the spectral spreading function can be modeled as shown in Figure 7.
  • R q depends on the more or less voiced character of the signal.
  • designates a degree of voicing of the speech signal, varying between zero (no voicing) and 1 (strongly voiced signal).
  • the denoising system also includes a module 62 which corrects the frequency response of the denoising filter, as a function of the masking curve M n, q calculated by the module 60 and of the increased estimates B and '/ n, i calculated by the module 45.
  • Module 62 decides the level of denoising which must really be reached.
  • the new response H 3 / n, f for a frequency f belonging to the band i defined by the module 12 and to the bark band q, thus depends on the relative difference between the increased estimate B and '/ n, i of the corresponding spectral component of the noise and the masking curve M n, q , as follows:
  • the quantity subtracted from a spectral component S n, f , in the process of spectral subtraction having the frequency response H 3 / n, f is substantially equal to the minimum between on the one hand the quantity subtracted from this spectral component in the spectral subtraction process having the frequency response H 2 / n, f , and on the other hand the fraction of the increased estimate B and '/ n, i of the corresponding spectral component of the noise which, if if necessary, exceeds the masking curve M n, q .
  • FIG. 8 illustrates the principle of the correction applied by the module 62. It schematically shows an example of masking curve M n, q calculated on the basis of the spectral components S 2 / n, f of the noise-suppressed signal, as well as the estimation plus B and '/ n, i of the noise spectrum.
  • the quantity finally subtracted from the components S n, f will be that represented by the hatched areas, that is to say limited to the fraction of the increased estimate B and '/ n, i of the spectral components of the noise which exceeds the curve masking.
  • This subtraction is carried out by multiplying the frequency response H 3 / n, f of the denoising filter by the spectral components S n, f of the speech signal (multiplier 64).
  • TFRI inverse fast Fourier transform
  • FIG. 9 shows a preferred embodiment of a denoising system implementing the invention.
  • This system comprises a certain number of elements similar to corresponding elements of the system of FIG. 1, for which the same reference numbers have been used.
  • modules 10, 11, 12, 15, 16, 45 and 55 provide in particular the quantities S n, i , B and n, i , ⁇ '/ n, i and B and' / n, i and H 1 / n, f to perform selective denoising.
  • the frequency resolution of the fast Fourier transform 11 is a limitation of the system of FIG. 1.
  • the frequency subject to protection by the module 56 is not necessarily the precise tonal frequency f p , but the frequency closest to it in the discrete spectrum. In some cases, it is then possible to protect harmonics relatively far from that of the tone frequency.
  • the system of FIG. 9 overcomes this drawback thanks to an appropriate conditioning of the speech signal.
  • the sampling frequency of the signal is modified so that the period 1 / f p covers exactly an integer number of sample times of the conditioned signal.
  • This size N is usually a power of 2 for putting implementation of the TFR. It is 256 in the example considered.
  • This choice is made by a module 70 according to the value of the delay T p supplied by the harmonic analysis module 57.
  • the module 70 provides the ratio K between the sampling frequencies to three frequency change modules 71, 72, 73 .
  • the module 71 is used to transform the values S n, i , B and n, i ⁇ '/ n, i , B and ' / n, i and H 1 / n, f relating to the bands i defined by the module 12, in the scale of the modified frequencies (sampling frequency f e ). This transformation consists simply in dilating the bands i in the factor K. The values thus transformed are supplied to the module 56 for protecting harmonics.
  • the module 72 performs the oversampling of the frame of N samples provided by the windowing module 10.
  • the conditioned signal frame supplied by the module 72 includes KN samples at the frequency f e . These samples are sent to a module 75 which calculates their Fourier transform.
  • the two blocks therefore have an overlap of (2-K) ⁇ 100%.
  • the autocorrelations A (k) are calculated by a module 76, for example according to the formula:
  • a module 77 then calculates the normalized entropy H, and supplies it to module 60 for the calculation of the masking curve (see SA McClellan et al: “Spectral Entropy: an Alternative Indicator for Rate Allocation?”, Proc. ICASSP'94 , pages 201-204):
  • the normalized entropy H constitutes a measurement of voicing very robust to noise and variations in the tonal frequency.
  • the correction module 62 operates in the same way as that of the system in FIG. 1, taking into account the overestimated noise B and '/ n, 1 rescaled by the frequency change module 71. It provides the response in frequency H 3 / n, f of the final denoising filter, which is multiplied by the spectral components S n, f of the signal conditioned by the multiplier 64. The components S 3 / n, f which result therefrom are brought back into the time domain by the TFRI 65 module. At the output of this TFRI 65, a module 80 combines, for each frame, the two signal blocks resulting from the processing of the two overlapping blocks delivered by the TFR 75. This combination can consist of a weighted sum Hamming of samples, to form a denoised conditioned signal frame of KN samples.
  • the management module 82 controls the windowing module 10 so that the overlap between the current frame and the next one corresponds to NM. This recovery of NM samples will be required in the recovery sum carried out by the module 66 during the processing of the next frame.
  • the tone frequency is estimated in an average way on the frame.
  • the tonal frequency can vary some little over this period. It is possible to take into account these variations in the context of the present invention, in conditioning the signal so as to obtain artificially a constant tone frequency in the frame.
  • the analysis module 57 harmonic provides the time intervals between the consecutive breaks in speech signal due to closures of the glottis of the intervening speaker for the duration of the frame.
  • Usable methods to detect such micro-ruptures are well known in the area of harmonic signal analysis lyrics.
  • the principle of these methods is to perform a statistical test between two models, one in the short term and the other in the long term. Both models are adaptive linear prediction models.
  • the value of this statistical test w m is the cumulative sum of the posterior likelihood ratio of two distributions, corrected by the Kullback divergence. For a distribution of residuals having a Gaussian statistic, this value w m is given by: where e 0 / m and ⁇ 2/0 represent the residue calculated at the time of the sample m of the frame and the variance of the long-term model, e 1 / m and ⁇ 2/1 likewise representing the residue and the variance of the short term model. The closer the two models are, the more the value w m of the statistical test is close to 0. On the other hand, when the two models are distant from each other, this value w m becomes negative, which indicates a break R of the signal.
  • FIG. 10 thus shows a possible example of evolution of the value w m , showing the breaks R of the speech signal.
  • FIG. 11 shows the means used to calculate the conditioning of the signal in the latter case.
  • the harmonic analysis module 57 is produced so as to implement the above analysis method, and to provide the intervals t r relative to the signal frame produced by the module 10.
  • These oversampling reports K r are supplied to the frequency change modules 72 and 73, so that the interpolations are carried out with the sampling ratio K r over the corresponding time interval t r .
  • the largest T p of the time intervals t r supplied by the module 57 for a frame is selected by the module 70 (block 91 in FIG. 11) to obtain a torque p, ⁇ as indicated in table I.
  • This embodiment of the invention also involves an adaptation of the window management module 82.
  • the number M of samples of the denoised signal to be saved on the current frame here corresponds to an integer number of consecutive time intervals t r between two glottal breaks (see FIG. 10). This arrangement avoids the problems of phase discontinuity between frames, while taking into account the possible variations of the time intervals t r on a frame.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Picture Signal Circuits (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

La présente invention concerne les techniques numériques de débruitage de signaux de parole. Elle concerne plus particulièrement le débruitage par soustraction spectrale non linéaire.
Du fait de la généralisation des nouvelles formes de communication, en particulier des téléphones mobiles, les communications se font de plus en plus dans des ambiances fortement bruitées. Le bruit, additionné à la parole, a alors tendance à perturber les communications en empêchant une compression optimale du signal de parole et en créant un bruit de fond non naturel. D'autre part, le bruit rend difficile et fatigante la compréhension du message parlé.
De nombreux algorithmes ont été étudiés pour essayer de diminuer les effets du bruit dans une communication. S. F. Boll («Suppression of acoustic noise in speech using spectral subtraction », IEEE Trans. on Acoustics, Speech and Signal Processing », Vol. ASSP-27, n° 2, avril 1979) a proposé un algorithme basé sur la soustraction spectrale. Cette technique consiste à estimer le spectre du bruit pendant les phases de silence et à le soustraire du signal reçu. Elle permet une réduction du niveau de bruit reçu. Son principal défaut est de créer un bruit musical particulièrement gênant, car non naturel.
Ces travaux, repris et améliorés par D. B. Paul (« The spectral envelope estimation vocoder », IEEE Trans. on Acoustics, Speech and Signal Processing », Vol. ASSP-29, n° 4, août 1981) et par P. Lockwood et J. Boudy (« Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars », Speech Communication, Vol. 11, juin 1992, pages 215-228, et EP-A-0 534 837) ont permis de diminuer sensiblement le niveau de bruit tout en lui conservant un caractère naturel. De plus, cette contribution a eu le mérite d'incorporer pour la première fois le principe de masquage dans le calcul du filtre de débruitage. A partir de cette idée, une première tentative a été faite par S. Nandkumar et J. H. L. Hansen (« Speech enhancement on a new set of auditory constrained parameters », Proc. ICASSP 94, pages I.1-I.4) pour utiliser dans la soustraction spectrale des courbes de masquage calculées explicitement. Malgré les résultats décevants de cette technique, cette contribution a eu le mérite de mettre l'accent sur l'importance de ne pas dénaturer le signal de parole pendant le débruitage.
D'autres méthodes basées sur la décomposition du signal de parole en valeurs singulières, et donc sur une projection du signal de parole dans un espace plus réduit, ont été étudiées par Bart De Moore (« The singular value decomposition and long and short spaces of noisy matrices », IEEE Trans. on Signal Processing, Vol. 41, n° 9, septembre 1993, pages 2826-2838) et par S. H. Jensen et al (« Reduction of broad-band noise in speech by truncated QSVD », IEEE Trans. on Speech and Audio Processing, Vol. 3, n° 6, novembre 1995). Le principe de cette technique est de considérer le signal de parole et le signal de bruit comme totalement décorrélés, et de considérer que le signal de parole a une prédictibilité suffisante pour être prédit à partir d'un jeu restreint de paramètres. Cette technique permet d'obtenir un débruitage acceptable pour des signaux fortement voisés, mais dénature totalement le signal de parole. Face à un bruit relativement cohérent, tel que celui provoqué par le contact de pneus de voitures ou le cliquetis d'un moteur, le bruit peut s'avérer plus facilement prédictible que le signal de parole non voisé. On a alors tendance à projeter le signal de parole dans une partie de l'espace vectoriel du bruit. La méthode ne tient pas compte du signal de parole, en particulier des zones de parole non voisée où la prédictibilité est réduite. De plus, prédire le signal de parole à partir d'un jeu de paramètres réduit ne permet pas de prendre en compte toute la richesse intrinsèque de la parole. On comprend ici les limites de techniques basées uniquement sur des considérations mathématiques en oubliant le caractère particulier de la parole.
D'autres techniques enfin sont basées sur des critères de cohérence. La fonction de cohérence est particulièrement bien développée par J. A. Cadzow et O. M. Solomon (« Linear modeling and the coherence function », IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-35, n° 1, janvier 1987, pages 19-28), et son application au débruitage a été étudiée par R. Le Bouquin.) (« Enhancement of noisy speech signals : application to mobile radio communications », Speech Communication, Vol. 18, pages 3-19). Cette méthode se base sur le fait que le signal de parole a une cohérence nettement plus importante que le bruit à condition d'utiliser plusieurs canaux indépendants. Les résultats obtenus semblent être assez encourageants. Mais malheureusement, cette technique impose d'avoir plusieurs sources de prise de son, ce qui n'est pas toujours réalisé.
Le brevet américain 5 228 088 décrit un système de débruitage fonctionnant dans le domaine fréquentiel, pourvu d'un détecteur de fréquence tonale. Le résultat de cette détection sert d'une part à régler des coefficients de suppression du bruit, et d'autre part à localiser une « bande de la voix ». Les coefficients de suppression de bruit sont utilisés par un module de soustraction spectrale pour pondérer l'estimation du bruit avant de la soustraire du signal. Le module qui règle les coefficients de suppression exploite seulement l'information selon laquelle une fréquence tonale a été détectée ou non. Mais la valeur prise par la fréquence tonale est sans influence sur les coefficients de suppression utilisés. La « bande de la voix » déterminée à l'aide de la fréquence tonale détectée fait l'objet d'une accentuation globale du signal. Elle peut, en variante, servir à déterminer a contrario une « bande du bruit », bande dans laquelle une atténuation globale est alors appliquée. Une telle accentuation ou atténuation d'une portion du spectre et du signal est une méthode de débruitage très différente de la soustraction spectrale.
Un but principal de la présente invention est de proposer une nouvelle technique de débruitage qui prenne en compte les caractéristiques de production de la parole, permettant ainsi un débruitage efficace sans détériorer la perception de la parole. L'invention prévoit un procédé comme énoncé dans la revendication 1 et un dispositif comme énoncé dans la revendication 30.
L'invention propose ainsi un procédé de débruitage d'un signal de parole numérique traité par trames successives, dans lequel :
  • on calcule des composantes spectrales du signal de parole sur chaque trame ;
  • on calcule pour chaque trame des estimations majorées de composantes spectrales du bruit compris dans le signal de parole ;
  • on effectue une soustraction spectrale comportant au moins une étape consistant à soustraire respectivement, de chaque composante spectrale du signal de parole sur la trame, une quantité dépendant de paramètres incluant l'estimation majorée de la composante spectrale correspondante du bruit pour ladite trame.
On peut appliquer au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité.
Une analyse harmonique du signal de parole est effectuée pour estimer une fréquence tonale du signal de parole sur chaque trame où il présente une activité vocale. Les paramètres dont dépendent les quantités soustraites incluent la fréquence tonale ainsi estimée.
La surestimation de l'enveloppe spectrale du bruit est généralement souhaitable pour que l'estimation majorée ainsi obtenue soit robuste aux brusques variations du bruit. Néanmoins, cette surestimation a habituellement l'inconvénient de distordre le signal de parole lorsqu'elle. devient trop importante. Ceci a pour effet d'affecter le caractère voisé du signal de parole en supprimant une partie de sa prédictibilité. Cet inconvénient est très gênant dans les conditions de la téléphonie, car c'est pendant les zones de voisement que le signal de parole est alors le plus énergétique. Le fait de prendre en compte dans le débruitage la fréquence tonale du signal de parole permet de protéger l'harmonicité de ce signal dans ces zones voisées.
En général, pour soustraire d'une composante spectrale donnée du signal de parole, on adoptera une quantité plus faible si ladite composante spectrale correspond à une fréquence protégée, c'est-à-dire la plus proche d'un multiple entier de la fréquence tonale estimée que si ladite composante spectrale ne correspond pas à une telle fréquence protégée. Cette quantité plus faible peut notamment être nulle. Dans ce dernier cas, la soustraction spectrale n'affecte pas le signal à la fréquence tonale estimée et/ou à ses harmoniques. On supprime alors une partie des non-linéarités apportées par la surestimation du bruit, qui sont particulièrement sensibles pour les zones voisées. Les zones non voisées, du fait du caractère plus aléatoire de leur signal d'excitation, y sont moins sensibles.
Dans un mode de réalisation avantageux, après avoir estimé la fréquence tonale du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à une fréquence de suréchantillonnage multiple de la fréquence tonale estimée, et on calcule les composantes spectrales du signal de parole sur la trame sur la base du signal conditionné pour leur soustraire lesdites quantités. Cette disposition permet de privilégier les fréquences les plus proches de la fréquence tonale estimée par rapport aux autres fréquences. On évite ainsi de protéger des harmoniques relativement éloignées de celles de la fréquence tonale. On préserve donc au mieux le caractère harmonique du signal de parole. Pour calculer les composantes spectrales du signal de parole, on distribue le signal conditionné par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et on choisit le rapport entre la fréquence de suréchantillonnage et la fréquence tonale estimée comme un diviseur du nombre N.
La technique précédente peut encore être affinée en estimant la fréquence tonale du signal de parole sur une trame de la manière suivante :
  • on estime des intervalles de temps entre deux ruptures consécutives du signal attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;
  • on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.
Cette façon de procéder construit artificiellement une trame de signal sur laquelle le signal de parole présente des ruptures à intervalles constants. On prend ainsi en compte d'éventuelles variations de la fréquence tonale sur la durée d'une trame.
Une amélioration supplémentaire consiste en ce que, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons égal à un multiple entier de fois le rapport entre la fréquence d'échantillonnage et la fréquence tonale estimée. Ceci évite les problèmes de distorsion provoqués par les discontinuités de phase entre trames, qui ne sont généralement pas corrigées totalement par les techniques classiques de somme à recouvrement (overlap-add).
Le fait d'avoir conditionné le signal par la technique de suréchantillonnage permet d'obtenir une bonne mesure du degré de voisement du signal de parole sur la trame, à partir d'un calcul de l'entropie de l'autocorrelation des composantes spectrales calculées sur la base du signal conditionné. Plus le spectre est perturbé, c'est-à-dire plus il est voisé, plus les valeurs de l'entropie sont faibles. Le conditionnement du signal de parole accentue l'aspect irrégulier du spectre et donc les variations de l'entropie, de sorte que celle-ci constitue une mesure de bonne sensibilité. Les autocorrelations seront généralement calculées sur la base du signal débruité pour obtenir les meilleures performances. Il serait toutefois envisageable de les calculer sur la base du signal conditionné avant débruitage.
Les composantes spectrales du signal débruité, obtenues en soustrayant lesdites quantités des composantes spectrales du signal de parole, peuvent être utilisées pour calculer une courbe de masquage en appliquant un modèle de perception auditive. De préférence, les paramètres dont dépend la quantité soustraite d'une composante spectrale du signal de parole sur une trame incluent alors un écart entre l'estimation majorée de la composante spectrale correspondante du bruit et la courbe de masquage calculée. Cette quantité soustraite peut notamment être limitée à la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage. Cette façon de procéder repose sur l'observation qu'il suffit de débruiter les fréquences de bruit audibles. A contrario, il ne sert à rien d'éliminer du bruit qui est masqué par de la parole.
Dans un mode de réalisation avantageux, chaque estimation majorée du bruit compris dans le signal de parole est obtenue en combinant une estimation à long terme de ladite composante spectrale du bruit, et une mesure de la variabilité de ladite composante spectrale du bruit autour de son estimation à long terme. On obtient ainsi un estimateur de bruit particulièrement robuste aux variations du bruit du fait qu'il combine deux estimateurs distincts, l'un rendant compte des fluctuations à long terme du bruit, et l'autre de sa variabilité à court terme.
D'autres particularités et avantages de la présente invention apparaítront dans la description ci-après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels :
  • la figure 1 est un schéma synoptique d'un système de débruitage mettant en oeuvre la présente invention ;
  • les figures 2 et 3 sont des organigrammes de procédures utilisées par un détecteur d'activité vocale du système de la figure 1 ;
  • la figure 4 est un diagramme représentant les états d'un automate de détection d'activité vocale ;
  • la figure 5 est un graphique illustrant les variations d'un degré d'activité vocale ;
  • la figure 6 est un schéma synoptique d'un module de surestimation du bruit du système de la figure 1 ;
  • la figure 7 est un graphique illustrant le calcul d'une courbe de masquage ;
  • la figure 8 est un graphique illustrant l'exploitation des courbes de masquage dans le système de la figure 1 ;
  • la figure 9 est un schéma synoptique d'un autre système de débruitage mettant en oeuvre la présente invention ;
  • la figure 10 est un graphique illustrant une méthode d'analyse harmonique utilisable dans un procédé selon l'invention ; et
  • la figure 11 montre partiellement une variante du schéma synoptique de la figure 9.
Le système de débruitage représenté sur la figure 1 traite un signal numérique de parole s. Un module de fenêtrage 10 met ce signal s sous forme de fenêtres ou trames successives, constituées chacune d'un nombre N d'échantillons de signal numérique. De façon classique, ces trames peuvent présenter des recouvrements mutuels. Dans la suite de la présente description, on considérera, sans que ceci soit limitatif, que les trames sont constituées de N=256 échantillons à une fréquence d'échantillonnage Fe de 8 kHz, avec une pondération de Hamming dans chaque fenêtre, et des recouvrements de 50% entre fenêtres consécutives.
La trame de signal est transformée dans le domaine fréquentiel par un module 11 appliquant un algorithme classique de transformée de Fourier rapide (TFR) pour calculer le module du spectre du signal. Le module 11 délivre alors un ensemble de N=256 composantes fréquentielles du signal de parole, notées Sn,f, où n désigne le numéro de la trame courante, et f une fréquence du spectre discret. Du fait des propriétés des signaux numériques dans le domaine fréquentiel, seuls les N/2=128 premiers échantillons sont utilisés.
Pour calculer les estimations du bruit contenu dans le signal s, on n'utilise pas la résolution fréquentielle disponible en sortie de la transformée de Fourier rapide, mais une résolution plus faible, déterminée par un nombre I de bandes de fréquences couvrant la bande [0,Fe/2] du signal. Chaque bande i (1≤i≤I) s'étend entre une fréquence inférieure f(i-1) et une fréquence supérieure f(i), avec f(0)=0, et f(I)=Fe/2. Ce découpage en bandes de fréquences peut être uniforme (f(i)-f(i-1)=Fe/2I). Il peut également être non uniforme (par exemple selon une échelle de barks). Un module 12 calcule les moyennes respectives des composantes spectrales Sn,f du signal de parole par bandes, par exemple par une pondération uniforme telle que :
Figure 00090001
Ce moyennage diminue les fluctuations entre les bandes en moyennant les contributions du bruit dans ces bandes, ce qui diminuera la variance de l'estimateur de bruit. En outre, ce moyennage permet une forte diminution de la complexité du système.
Les composantes spectrales moyennées Sn,i sont adressées à un module 15 de détection d'activité vocale et à un module 16 d'estimation du bruit. Ces deux modules 15, 16 fonctionnent conjointement, en ce sens que des degrés d'activité vocale γn,i mesurés pour les différentes bandes par le module 15 sont utilisés par le module 16 pour estimer l'énergie à long terme du bruit dans les différentes bandes, tandis que ces estimations à long terme B andn,i sont utilisées par le module 15 pour procéder à un débruitage a priori du signal de parole dans les différentes bandes pour déterminer les degrés d'activité vocale γn,i.
Le fonctionnement des modules 15 et 16 peut correspondre aux organigrammes représentés sur les figures 2 et 3.
Aux étapes 17 à 20, le module 15 procède au débruitage a priori du signal de parole dans les différentes bandes i pour la trame de signal n. Ce débruitage a priori est effectué selon un processus classique de soustraction spectrale non linéaire à partir d'estimations du bruit obtenues lors d'une ou plusieurs trames précédentes. A l'étape 17, le module 15 calcule, avec la résolution des bandes i, la réponse en fréquence Hpn,i du filtre de débruitage a priori, selon la formule : Hpn,i = Sn,i - α' n-τ1,i . B n-τ1,i S n-τ 2,i où τ1 et τ2 sont des retards exprimés en nombre de trames (τ1≥1, τ2≥0), et α ' / n,i est un coefficient de surestimation du bruit dont la détermination sera expliquée plus loin. Le retard τ1 peut être fixe (par exemple τ1=1) ou variable. Il est d'autant plus faible qu'on est confiant dans la détection d'activité vocale.
Aux étapes 18 à 20, les composantes spectrales Êpn,i sont calculées selon :
Figure 00100001
où βpi est un coefficient de plancher proche de 0, servant classiquement à éviter que le spectre du signal débruité prenne des valeurs négatives ou trop faibles qui provoqueraient un bruit musical.
Les étapes 17 à 20 consistent donc essentiellement à soustraire du spectre du signal une estimation, majorée par le coefficient α ' / n-τ1,i, du spectre du bruit estimé a priori.
A l'étape 21, le module 15 calcule l'énergie du signal débruité a priori dans les différentes bandes i pour la trame n : E n,i = Êp 2 / n,i. Il calcule aussi une moyenne globale En,0 de l'énergie du signal débruité a priori, par une somme des énergies par bande En,i, pondérée par les largeurs de ces bandes. Dans les notations ci-dessous, l'indice i=0 sera utilisé pour désigner la bande globale du signal.
Aux étapes 22 et 23, le module 15 calcule, pour chaque bande i (0≤i≤I), une grandeur ΔEn,i représentant la variation à court terme de l'énergie du signal débruité dans la bande i, ainsi qu'une valeur à long terme E n,i de l'énergie du signal débruité dans la bande i. La grandeur ΔEn,i peut être calculée par une formule simplifiée de dérivation :
Figure 00110001
Quant à l'énergie à long terme E n,i, elle peut être calculée à l'aide d'un facteur d'oubli B1 tel que 0<B1<1, à savoir E n,i = B1. E n -1, i + (1-B1) . En,i.
Après avoir calculé les énergies En,i du signal débruité, ses variations à court terme ΔEn,i et ses valeurs à long terme E n ,i de la manière indiquée sur la figure 2, le module 15 calcule, pour chaque bande i (0≤i≤I), une valeur ρi représentative de l'évolution de l'énergie du signal débruité. Ce calcul est effectué aux étapes 25 à 36 de la figure 3, exécutées pour chaque bande i entre i=0 et i=I. Ce calcul fait appel à un estimateur à long terme de l'enveloppe du bruit bai, à un estimateur interne bii et à un compteur de trames bruitées bi.
A l'étape 25, la grandeur ΔEn,i est comparée à un seuil ε1. Si le seuil ε1 n'est pas atteint, le compteur bi est incrémenté d'une unité à l'étape 26. A l'étape 27, l'estimateur à long terme bai est comparé à la valeur de l'énergie lissée E n,i. Si baiE n,i, l'estimateur bai est pris égal à la valeur lissée E n,i à l'étape 28, et le compteur bi est remis à zéro. La grandeur ρi, qui est prise égale au rapport bai/E n,i (étape 36), est alors égale à 1.
Si l'étape 27 montre que bai<E n,i, le compteur bi est comparé à une valeur limite bmax à l'étape 29. Si bi>bmax, le signal est considéré comme trop stationnaire pour supporter de l'activité vocale. L'étape 28 précitée, qui revient à considérer que la trame ne comporte que du bruit, est alors exécutée. Si bi≤bmax à l'étape 29, l'estimateur interne bii est calculé à l'étape 33 selon : bii = (1-Bm) . E n,i + Bm . bai Dans cette formule, Bm représente un coefficient de mise à jour compris entre 0,90 et 1. Sa valeur diffère selon l'état d'un automate de détection d'activité vocale (étapes 30 à 32). Cet état δn-1 est celui déterminé lors du traitement de la trame précédente. Si l'automate est dans un état de détection de parole (δn-1=2 à l'étape 30), le coefficient Bm prend une valeur Bmp très proche de 1 pour que l'estimateur du bruit soit très faiblement mis à jour en présence de parole. Dans le cas contraire, le coefficient Bm prend une valeur Bms plus faible, pour permettre une mise à jour plus significative de l'estimateur de bruit en phase de silence. A l'étape 34, l'écart bai-bii entre l'estimateur à long terme et l'estimateur interne du bruit est comparé à un seuil ε2. Si le seuil ε2 n'est pas atteint, l'estimateur à long terme bai est mis à jour avec la valeur de l'estimateur interne bii à l'étape 35. Sinon, l'estimateur à long terme bai reste inchangé. On évite ainsi que de brutales variations dues à un signal de parole conduisent à une mise à jour de l'estimateur de bruit.
Après avoir obtenu les grandeurs ρi, le module 15 procède aux décisions d'activité vocale à l'étape 37. Le module 15 met d'abord à jour l'état de l'automate de détection selon la grandeur ρ0 calculée pour l'ensemble de la bande du signal. Le nouvel état δn de l'automate dépend de l'état précédent δn-1 et de ρ0, de la manière représentée sur la figure 4.
Quatre états sont possibles : δ=0 détecte le silence, ou absence de parole ; δ=2 détecte la présence d'une activité vocale ; et les états δ=1 et δ=3 sont des états intermédiaires de montée et de descente. Lorsque l'automate est dans l'état de silence (δn-1=0), il y reste si ρ0 ne dépasse pas un premier seuil SE1, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée (δn-1=1), il revient dans l'état de silence si ρ0 est plus petit que le seuil SE1, il passe dans l'état de parole si ρ0 est plus grand qu'un second seuil SE2 plus grand que le seuil SE1, et il reste dans l'état de montée si SE1 ≤ ρ0 ≤ SE2. Lorsque l'automate est dans l'état de parole (δn-1=2), il y reste si ρ0 dépasse un troisième seuil SE3 plus petit que le seuil SE2, et il passe dans l'état de descente dans le cas contraire. Dans l'état de descente (δn-1=3), l'automate revient dans l'état de parole si ρ0 est plus grand que le seuil SE2, il revient dans l'état de silence si ρ0 est en deçà d'un quatrième seuil SE4 plus petit que le seuil SE2, et il reste dans l'état de descente si SE4≤ρ0≤SE2.
A l'étape 37, le module 15 calcule également les degrés d'activité vocale γn,i dans chaque bande i≥1. Ce degré γn,i est de préférence un paramètre non binaire, c'est-à-dire que la fonction γn,i = g(ρi) est une fonction variant continûment entre 0 et 1 en fonction des valeurs prises par la grandeur ρi. Cette fonction a par exemple l'allure représentée sur la figure 5.
Le module 16 calcule les estimations du bruit par bande, qui seront utilisées dans le processus de débruitage, en utilisant les valeurs successives des composantes Sn,i et des degrés d'activité vocale γn,i. Ceci correspond aux étapes 40 à 42 de la figure 3. A l'étape 40, on détermine si l'automate de détection d'activité vocale vient de passer de l'état de montée à l'état de parole. Dans l'affirmative, les deux dernières estimations B andn -1, i et B andn -2 ,i précédemment calculées pour chaque bande i≥1 sont corrigées conformément à la valeur de l'estimation précédente B and n-3,i . Cette correction est effectuée pour tenir compte du fait que, dans la phase de montée (δ=1), les estimations à long terme de l'énergie du bruit dans le processus de détection d'activité vocale (étapes 30 à 33) ont pu être calculées comme si le signal ne comportait que du bruit (Bm=Bms), de sorte qu'elles risquent d'être entachées d'erreur.
A l'étape 42, le module 16 met à jour les estimations du bruit par bande selon les formules :
Figure 00140001
Figure 00150001
où λB désigne un facteur d'oubli tel que 0<λB<1. La formule (6) met en évidence la prise en compte du degré d'activité vocale non binaire γn,i.
Comme indiqué précédemment, les estimations à long terme du bruit B andn,i font l'objet d'une surestimation, par un module 45 (figure 1), avant de procéder au débruitage par soustraction spectrale non linéaire. Le module 45 calcule le coefficient de surestimation α ' / n,i précédemment évoqué, ainsi qu'une estimation majorée B and ' / n,i qui correspond essentiellement à α ' / n,i.B andn,i
L'organisation du module de surestimation 45 est représentée sur la figure 6. L'estimation majorée B and ' / n,iest obtenue en combinant l'estimation à long terme B andn,i et une mesure ΔB max / n,i de la variabilité de la composante du bruit dans la bande i autour de son estimation à long terme. Dans l'exemple considéré, cette combinaison est, pour l'essentiel, une simple somme réalisée par un additionneur 46. Ce pourrait également être une somme pondérée.
Le coefficient de surestimation α ' / n,i est égal au rapport entre la somme B andn,i + ΔB max / n,i délivrée par l'additionneur 46 et l'estimation à long terme retardée B andn-τ 3, i (diviseur 47), plafonné à une valeur limite αmax, par exemple αmax=4 (bloc 48). Le retard τ3 sert à corriger le cas échéant, dans les phases de montée (δ=1), la valeur du coefficient de surestimation α ' / n,i, avant que les estimations à long terme aient été corrigées par les étapes 40 et 41 de la figure 3 (par exemple τ3=3). L'estimation majorée B and ' / n,iest finalement prise égale à α ' / n,i.B andn -τ3, i (multiplieur 49).
La mesure ΔB max / n,i de la variabilité du bruit reflète la variance de l'estimateur de bruit. Elle est obtenue en fonction des valeurs de Sn,i et de B andn,i calculées pour un certain nombre de trames précédentes sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i. C'est une fonction des écarts Sn-k,i - B n-k,i calculés pour un nombre K de trames de silence (n-k≤n). Dans l'exemple représenté, cette fonction est simplement le maximum (bloc 50). Pour chaque trame n, le degré d'activité vocale γn,i est comparé à un seuil (bloc 51) pour décider si l'écart Sn,i - B n,i calculé en 52-53, doit ou non être chargé dans une file d'attente 54 de K emplacements organisée en mode premier entré-premier sorti (FIFO). Si γn,i ne dépasse pas le seuil (qui peut être égal à 0 si la fonction g() a la forme de la figure 5), la FIFO 54 n'est pas alimentée, tandis qu'elle l'est dans le cas contraire. La valeur maximale contenue dans la FIFO 54 est alors fournie comme mesure de variabilité ΔB max / n,i.
La mesure de variabilité ΔB max / n,i peut, en variante, être obtenue en fonction des valeurs Sn,f (et non Sn,i) et B andn,i . On procède alors de la même manière, sauf que la FIFO 54 contient non pas Sn-k,i - B n-k,i pour chacune des bandes i, nais plutôt
Figure 00160001
Grâce aux estimations indépendantes des fluctuations à long terme du bruit B andn,i , et de sa variabilité à court terme ΔB max / n,i, l'estimateur majoré B and ' / n,i procure une excellente robustesse aux bruits musicaux du procédé de débruitage.
Une première phase de la soustraction spectrale est réalisée par le module 55 représenté sur la figure 1. Cette phase fournit, avec la résolution des bandes i (1≤i≤I), la réponse en fréquence H 1 / n,i d'un premier filtre de débruitage, en fonction des composantes Sn,i et B andn,i et des coefficients de surestimation α ' / n,i Ce calcul peut être effectué pour chaque bande i selon la formule :
Figure 00170001
où τ4 est un retard entier déterminé tel que τ4≥0 (par exemple τ4=0). Dans l'expression (7), le coefficient β 1 / i représente, comme le coefficient βpi de la formule (3), un plancher servant classiquement à éviter les valeurs négatives ou trop faibles du signal débruité.
De façon connue (EP-A-0 534 837), le coefficient de surestimation α ' / n,i pourrait être remplacé dans la formule (7) par un autre coefficient égal à une fonction de α'n,i et d'une estimation du rapport signal-sur-bruit (par exemple Sn,i/B andn,i ), cette fonction étant décroissante selon la valeur estimée du rapport signal-sur-bruit. Cette fonction est alors égale à α ' / n,i, pour les valeurs les plus faibles du rapport signal-sur-bruit. En effet, lorsque le signal est très bruité, il n'est a priori pas utile de diminuer le facteur de surestimation. Avantageusement, cette fonction décroít vers zéro pour les valeurs les plus élevées du rapport signal/bruit. Ceci permet de protéger les zones les plus énergétiques du spectre, où le signal de parole est le plus significatif, la quantité soustraite du signal tendant alors vers zéro.
Cette stratégie peut être affinée en l'appliquant de manière sélective aux harmoniques de la fréquence tonale (« pitch ») du signal de parole lorsque celui-ci présente une activité vocale.
Ainsi, dans la réalisation représentée sur la figure 1, une seconde phase de débruitage est réalisée par un module 56 de protection des harmoniques. Ce module calcule, avec la résolution de la transformée de Fourier, la réponse en fréquence H 2 / n,f d'un second filtre de débruitage en fonction des paramètres H 1 / n,i, α ' / n,i, B andn,i , δn, Sn,i et de la fréquence tonale fp=Fe/Tp calculée en dehors des phases de silence par un module d'analyse harmonique 57. En phase de silence (δn=0), le module 56 n'est pas en service, c'est-à-dire que H 2 / n,f = H 1 / n,i pour chaque fréquence f d'une bande i. Le module 57 peut appliquer toute méthode connue d'analyse du signal de parole de la trame pour déterminer la période Tp, exprimée comme un nombre entier ou fractionnaire d'échantillons, par exemple une méthode de prédiction linéaire.
La protection apportée par le module 56 peut consister à effectuer, pour chaque fréquence f appartenant à une bande i :
Figure 00180001
Δf=Fe/N représente la résolution spectrale de la transformée de Fourier. Lorsque H 2 / n,f=1, la quantité soustraite de la composante Sn,f sera nulle. Dans ce calcul, les coefficients de plancher β 2 / i (par exemple β 2 / i = β 1 / i) expriment le fait que certaines harmoniques de la fréquence tonale fp peuvent être masquées par du bruit, de sorte qu'il n'est pas utile de les protéger.
Cette stratégie de protection est de préférence appliquée pour chacune des fréquences les plus proches des harmoniques de fp, c'est-à-dire pour η entier quelconque.
Si on désigne par δfp la résolution fréquentielle avec laquelle le module d'analyse 57 produit la fréquence tonale estimée fp, c'est-à-dire que la fréquence tonale réelle est comprise entre fp-δfp/2 et fp+δfp/2, alors l'écart entre la η-ième harmonique de la fréquence tonale réelle est son estimation η×fp (condition (9)) peut aller jusqu'à ± η×δfp/2. Pour les valeurs élevées de η, cet écart peut être supérieur à la demi-résolution spectrale Δf/2 de la transformée de Fourier. Pour tenir compte de cette incertitude et garantir la bonne protection des harmoniques de la fréquence tonale réelle, on peut protéger chacune des fréquences de l'intervalle
Figure 00190001
c'est-à-dire remplacer la condition (9) ci-dessus par :
Figure 00190002
Cette façon de procéder (condition (9')) présente un intérêt particulier lorsque les valeurs de η peuvent être grandes, notamment dans le cas où le procédé est utilisé dans un système à bande élargie.
Pour chaque fréquence protégée, la réponse en fréquence corrigée H 2 / n,f peut être égale à 1 comme indiqué ci-dessus, ce qui correspond à la soustraction d'une quantité nulle dans le cadre de la soustraction spectrale, c'est-à-dire à une protection complète de la fréquence en question. Plus généralement, cette réponse en fréquence corrigée H 2 / n,f pourrait être prise égale à une valeur comprise entre 1 et H 1 / n,f selon le degré de protection souhaité, ce qui correspond à la soustraction d'une quantité inférieure à celle qui serait soustraite si la fréquence en question n'était pas protégée.
Les composantes spectrales S 2 / n,f d'un signal débruité sont calculées par un multiplieur 58 : S 2 n,f = H 2 n,f .S n,f
Ce signal S 2 / n,f est fourni à un module 60 qui calcule, pour chaque trame n, une courbe de masquage en appliquant un modèle psychoacoustique de perception auditive par l'oreille humaine.
Le phénomène de masquage est un principe connu du fonctionnement de l'oreille humaine. Lorsque deux fréquences sont entendues simultanément, il est possible que l'une des deux ne soit plus audible. On dit alors qu'elle est masquée.
Il existe différentes méthodes pour calculer des courbes de masquage. On peut par exemple utiliser celle développée par J.D. Johnston («Transform Coding of Audio Signals Using Perceptual Noise Criteria », IEEE Journal on Selected Area in Communications, Vol. 6, No. 2, février 1988). Dans cette méthode, on travaille dans l'échelle fréquentielle des barks. La courbe de masquage est vue comme la convolution de la fonction d'étalement spectral de la membrane basilaire dans le domaine bark avec le signal excitateur, constitué dans la présente application par le signal S 2 / n,f. La fonction d'étalement spectral peut être modélisée de la manière représentée sur la figure 7. Pour chaque bande de bark, on calcule la contribution des bandes inférieures et supérieures convoluées par la fonction d'étalement de la membrane basilaire :
Figure 00210001
où les indices q et q' désignent les bandes de bark (0≤q,q'≤Q), et S 2 / n,q, représente la moyenne des composantes S 2 / n,f du signal excitateur débruité pour les fréquences discrètes f appartenant à la bande de bark q'.
Le seuil de masquage Mn,q est obtenu par le module 60 pour chaque bande de bark q, selon la formule : Mn,q = Cn,q/Rq où Rq dépend du caractère plus ou moins voisé du signal. De façon connue, une forme possible de Rq est : 10.log10(Rq) = (A+q). χ + B.(1-χ) avec A=14,5 et B=5,5. χ désigne un degré de voisement du signal de parole, variant entre zéro (pas de voisement) et 1 (signal fortement voisé). Le paramètre χ peut être de la forme connue :
Figure 00210002
où SFM représente, en décibels, le rapport entre la moyenne arithmétique et la moyenne géométrique de l'énergie des bandes de bark, et SFMmax =-60 dB.
Le système de débruitage comporte encore un module 62 qui corrige la réponse en fréquence du filtre de débruitage, en fonction de la courbe de masquage Mn,q calculée par le module 60 et des estimations majorées B and ' / n,i calculées par le module 45. Le module 62 décide du niveau de débruitage qui doit réellement être atteint.
En comparant l'enveloppe de l'estimation majorée du bruit avec l'enveloppe formée par les seuils de masquage Mn,q, on décide de ne débruiter le signal que dans la mesure où l'estimation majorée B and ' / n,i dépasse la courbe de masquage. Ceci évite de supprimer inutilement du bruit masqué par de la parole.
La nouvelle réponse H 3 / n,f, pour une fréquence f appartenant à la bande i définie par le module 12 et à la bande de bark q, dépend ainsi de l'écart relatif entre l'estimation majorée B and ' / n,i de la composante spectrale correspondante du bruit et la courbe de masquage Mn,q, de la manière suivante :
Figure 00220001
En d'autres termes, la quantité soustraite d'une composante spectrale Sn,f, dans le processus de soustraction spectrale ayant la réponse fréquentielle H 3 / n,f, est sensiblement égale au minimum entre d'une part la quantité soustraite de cette composante spectrale dans le processus de soustraction spectrale ayant la réponse fréquentielle H 2 / n,f, et d'autre part la fraction de l'estimation majorée B and ' / n,i de la composante spectrale correspondante du bruit qui, le cas échéant, dépasse la courbe de masquage Mn,q.
La figure 8 illustre le principe de la correction appliquée par le module 62. Elle montre schématiquement un exemple de courbe de masquage Mn,q calculée sur la base des composantes spectrales S 2 / n,f du signal débruité, ainsi que l'estimation majorée B and ' / n,i du spectre du bruit. La quantité finalement soustraite des composantes Sn,f sera celle représentée par les zones hachurées, c'est-à-dire limitée à la fraction de l'estimation majorée B and ' / n,i des composantes spectrales du bruit qui dépasse la courbe de masquage.
Cette soustraction est effectuée en multipliant la réponse fréquentielle H 3 / n,f du filtre de débruitage par les composantes spectrales Sn,f du signal de parole (multiplieur 64). Un module 65 reconstruit alors le signal débruité dans le domaine temporel, en opérant la transformée de Fourier rapide inverse (TFRI) inverse des échantillons de fréquence S 3 / n,f délivrés par le multiplieur 64. Pour chaque trame, seuls les N/2=128 premiers échantillons du signal produit par le module 65 sont délivrés comme signal débruité final s3, après reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente (module 66).
La figure 9 montre une forme de réalisation préférée d'un système de débruitage mettant en oeuvre l'invention. Ce système comporte un certain nombre d'éléments semblables à des éléments correspondants du système de la figure 1, pour lesquels on a utilisé les mêmes références numériques. Ainsi, les modules 10, 11, 12, 15, 16, 45 et 55 fournissent notamment les quantités Sn,i, B andn,i , α ' / n,i et B and ' / n,i et H 1 / n,fpour effectuer le débruitage sélectif.
La résolution en fréquence de la transformée de Fourier rapide 11 est une limitation du système de la figure 1. En effet, la fréquence faisant l'objet de la protection par le module 56 n'est pas nécessairement la fréquence tonale précise fp, mais la fréquence la plus proche de celle-ci dans le spectre discret. Dans certains cas, on peut alors protéger des harmoniques relativement éloignées de celle de la fréquence tonale. Le système de la figure 9 pallie cet inconvénient grâce à un conditionnement approprié du signal de parole.
Dans ce conditionnement, on modifie la fréquence d'échantillonnage du signal de telle sorte que la période 1/fp couvre exactement un nombre entier de temps d'échantillon du signal conditionné.
De nombreuses méthodes d'analyse harmonique pouvant être mises en oeuvre par le module 57 sont capables de fournir une valeur fractionnaire du retard Tp, exprimé en nombre d'échantillons à la fréquence d'échantillonnage initiale Fe. On choisit alors une nouvelle fréquence d'échantillonnage fe de telle sorte qu'elle soit égale à un multiple entier de la fréquence tonale estimée, soit fe=p.fp=p.Fe/Tp=K.Fe, avec p entier. Afin de ne pas perdre d'échantillons de signal, il convient que fe soit supérieure à Fe. On peut notamment imposer qu'elle soit comprise entre Fe et 2Fe (1≤K≤2), pour faciliter la mise en oeuvre du conditionnement.
Bien entendu, si aucune activité vocale n'est détectée sur la trame courante (δn≠0), ou si le retard Tp estimé par le module 57 est entier, il n'est pas nécessaire de conditionner le signal.
Afin que chacune des harmoniques de la fréquence tonale corresponde également à un nombre entier d'échantillons du signal conditionné, l'entier p doit être un diviseur de la taille N de la fenêtre de signal produite par le module 10 : N=αp, avec α entier. Cette taille N est usuellement une puissance de 2 pour la mise en oeuvre de la TFR. Elle est de 256 dans l'exemple considéré.
La résolution spectrale Δf de la transformée de Fourier discrète du signal conditionné est donnée par Δf=p.fp/N=fp/α. On a donc intérêt à choisir p petit de façon à maximiser α, mais suffisamment grand pour suréchantillonner. Dans l'exemple considéré, où Fe=8 kHz et N=256, les valeurs choisies pour les paramètres p et α sont indiquées dans le tableau I.
500 Hz < fp < 1000 Hz 8 < Tp < 16 p = 16 α = 16
250 Hz < fp < 500 Hz 16 < Tp < 32 p = 32 α = 8
125 Hz < fp < 250 Hz 32 < Tp < 64 p = 64 α = 4
62,5 Hz < fp < 125 Hz 64 < Tp < 128 p = 128 α = 2
31,25 Hz < fp < 62,5 Hz 128 < Tp < 256 p = 256 α = 1
Ce choix est effectué par un module 70 selon la valeur du retard Tp fournie par le module d'analyse harmonique 57. Le module 70 fournit le rapport K entre les fréquences d'échantillonnage à trois modules de changement de fréquence 71, 72, 73.
Le module 71 sert à transformer les valeurs Sn,i, B andn,i α ' / n,i, B and ' / n,i et H 1 / n,f relatives aux bandes i définies par le module 12, dans l'échelle des fréquences modifiées (fréquence d'échantillonnage fe). Cette transformation consiste simplement à dilater les bandes i dans le facteur K. Les valeurs ainsi transformées sont fournies au module 56 de protection des harmoniques.
Celui-ci opère alors de la même manière que précédemment pour fournir la réponse en fréquence H 2 / n,f du filtre de débruitage. Cette réponse H 2 / n,f est obtenue de la même manière que dans le cas de la figure 1 (conditions (8) et (9)), à cette différence près que, dans la condition (9), la fréquence tonale fp=fe/p est définie selon la valeur du retard entier p fourni par le module 70, la résolution en fréquence Δf étant également fournie par ce module 70.
Le module 72 procède au suréchantillonnage de la trame de N échantillons fournie par le module de fenêtrage 10. Le suréchantillonnage dans un facteur K rationnel (K=K1/K2) consiste à effectuer d'abord un suréchantillonnage dans le facteur entier K1, puis un sous-échantillonnage dans le facteur entier K2. Ces suréchantillonnage et sous-échantillonnage dans des facteurs entiers peuvent être effectués classiquement au moyen de bancs de filtres polyphase.
La trame de signal conditionné s' fournie par le module 72 comporte KN échantillons à la fréquence fe. Ces échantillons sont adressés à un module 75 qui calcule leur transformée de Fourier. La transformation peut être effectuée à partir de deux blocs de N=256 échantillons : l'un constitué par les N premiers échantillons de la trame de longueur KN du signal conditionné s', et l'autre par les N derniers échantillons de cette trame. Les deux blocs présentent donc un recouvrement de (2-K)×100%. Pour chacun des deux blocs, on obtient un jeu de composantes de Fourier Sn,f. Ces composantes Sn,f sont fournies au multiplieur 58, qui les multiplie par la réponse spectrale H 2 / n,f pour délivrer les composantes spectrales S 2 / n,f du premier signal débruité.
Ces composantes S 2 / n,f sont adressées au module 60 qui calcule les courbes de masquage de la manière précédemment indiquée.
De préférence, dans ce calcul des courbes de masquage, la grandeur χ désignant le degré de voisement du signal de parole (formule (13)) est prise de la forme χ=1-H, où H est une entropie de l'autocorrelation des composantes spectrales S 2 / n,f du signal conditionné débruité. Les autocorrelations A(k) sont calculées par un module 76, par exemple selon la formule :
Figure 00270001
Un module 77 calcule ensuite l'entropie normalisée H, et la fournit au module 60 pour le calcul de la courbe de masquage (voir S.A. McClellan et al : « Spectral Entropy : an Alternative Indicator for Rate Allocation ? », Proc. ICASSP'94, pages 201-204) :
Figure 00270002
Grâce au conditionnement du signal, ainsi qu'à son débruitage par le filtre H 2 / n,f, l'entropie normalisée H constitue une mesure de voisement très robuste au bruit et aux variations de la fréquence tonale.
Le module de correction 62 opère de la même manière que celui du système de la figure 1, en tenant compte du bruit surestimé B and ' / n,1 remis à l'échelle par le module de changement de fréquence 71. Il fournit la réponse en fréquence H 3 / n,f du filtre de débruitage définitif, qui est multipliée par les composantes spectrales Sn,f du signal conditionné par le multiplieur 64. Les composantes S 3 / n,f qui en résultent sont ramenées dans le domaine temporel par le module de TFRI 65. En sortie de cette TFRI 65, un module 80 combine, pour chaque trame, les deux blocs de signal issus du traitement des deux blocs recouvrants délivrés par la TFR 75. Cette combinaison peut consister en une somme avec pondération de Hamming des échantillons, pour former une trame de signal conditionné débruité de KN échantillons.
Le signal conditionné débruité fourni par le module 80 fait l'objet d'un changement de fréquence d'échantillonnage par le module 73. Sa fréquence d'échantillonnage est ramenée à Fe=fe/K par les opérations inverses de celles effectuées par le module 75. Le module 73 délivre N=256 échantillons par trame. Après la reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente, seuls les N/2=128 premiers échantillons de la trame courante sont finalement conservés pour former le signal débruité final s3 (module 66).
Dans une forme de réalisation préférée, un module 82 gère les fenêtres formées par le module 10 et sauvegardées par le module 66, de façon telle qu'on sauvegarde un nombre M d'échantillons égal à un multiple entier de Tp=Fe/fp. On évite ainsi les problèmes de discontinuité de phase entre les trames. De façon correspondante, le module de gestion 82 commande le module de fenêtrage 10 pour que le recouvrement entre la trame courante et la prochaine corresponde à N-M. Il sera tenu de ce recouvrement de N-M échantillons dans la somme à recouvrement effectuée par le module 66 lors du traitement de la prochaine trame. A partir de la valeur de Tp fournie par le module d'analyse harmonique 57, le module 82 calcule le nombre d'échantillons à sauvegarder M=Tp×E[N/(2Tp)], E[] désignant la partie entière, et commande de façon correspondante les modules 10 et 66.
Dans le mode de réalisation qu'on vient de décrire, la fréquence tonale est estimée de façon moyenne sur la trame. Or la fréquence tonale peut varier quelque peu sur cette durée. Il est possible de tenir compte de ces variations dans le cadre de la présente invention, en conditionnant le signal de façon à obtenir artificiellement une fréquence tonale constante dans la trame.
Pour cela, on a besoin que le module 57 d'analyse harmonique fournisse les intervalles de temps entre les ruptures consécutives du signal de parole attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame. Des méthodes utilisables pour détecter de telles micro-ruptures sont bien connues dans le domaine de l'analyse harmonique des signaux de paroles. On pourra à cet égard consulter les articles suivants : M. BASSEVILLE et al., « Sequential detection of abrupt changes in spectral characteristics of digital signals », IEEE Trans. on Information Theory, 1983, Vol. IT-29, n°5, pages 708-723 ; R. ANDRE-OBRECHT, « A new statistical approach for the automatic segmentation of continuous speech signals », IEEE Trans. on Acous., Speech and Sig. Proc., Vol. 36, N°1, janvier 1988 ; et C. MURGIA et al., « An algorithm for the estimation of glottal closure instants using the sequential detection of abrupt changes in speech signals », Signal Processing VII, 1994, pages 1685-1688.
Le principe de ces méthodes est d'effectuer un test statistique entre deux modèles, l'un à court terme et l'autre à long terme. Les deux modèles sont des modèles adaptatifs de prédiction linéaire. La valeur de ce test statistique wm est la somme cumulée du rapport de vraisemblance a posteriori de deux distributions, corrigée par la divergence de Kullback. Pour une distribution de résidus ayant une statistique gaussienne, cette valeur wm est donnée par :
Figure 00290001
e 0 / m et σ 2 / 0 représentent le résidu calculé au moment de l'échantillon m de la trame et la variance du modèle à long terme, e 1 / m et σ 2 / 1 représentant de même le résidu et la variance du modèle à court terme. Plus les deux modèles sont proches, plus la valeur wm du test statistique est proche de 0. Par contre, lorsque les deux modèles sont éloignés l'un de l'autre, cette valeur wm devient négative, ce qui dénote une rupture R du signal.
La figure 10 montre ainsi un exemple possible d'évolution de la valeur wm, montrant les ruptures R du signal de parole. Les intervalles de temps tr (r = 1,2,...) entre deux ruptures consécutives R sont calculés, et exprimés en nombre d'échantillons du signal de parole. Chacun de ces intervalles tr est inversement proportionnel à la fréquence tonale fp, qui est ainsi estimée localement : fp=Fe/tr sur le r-ième intervalle.
On peut alors corriger les variations temporelles de la fréquence tonale (c'est-à-dire le fait que les intervalles tr ne sont pas tous égaux sur une trame donnée), afin d'avoir une fréquence tonale constante dans chacune des trames d'analyse. Cette correction est effectuée par une modification de la fréquence d'échantillonnage sur chaque intervalle tr, de façon à obtenir, après suréchantillonnage, des intervalles constants entre deux ruptures glottiques. On modifie donc la durée entre deux ruptures en faisant un suréchantillonnage dans un rapport variable, de façon à se caler sur l'intervalle le plus grand. De plus, on fait en sorte de respecter la contrainte de conditionnement selon laquelle la fréquence de suréchantillonnage est multiple de la fréquence tonale estimée.
La figure 11 montre les moyens utilisés pour calculer le conditionnement du signal dans ce dernier cas. Le module 57 d'analyse harmonique est réalisé de façon à mettre en oeuvre la méthode d'analyse ci-dessus, et à fournir les intervalles tr relatifs à la trame de signal produite par le module 10. Pour chacun de ces intervalles, le module 70 (bloc 90 sur la figure 11) calcule le rapport de suréchantillonnage Kr=pr/tr, où l'entier pr est donné par la troisième colonne du tableau I lorsque tr prend les valeurs indiquées dans la deuxième colonne. Ces rapports de suréchantillonnage Kr sont fournis aux modules de changement de fréquence 72 et 73, pour que les interpolations soient effectuées avec le rapport d'échantillonnage Kr sur l'intervalle de temps correspondant tr.
Le plus grand Tp des intervalles de temps tr fournis par le module 57 pour une trame est sélectionné par le module 70 (bloc 91 sur la figure 11) pour obtenir un couple p,α comme indiqué dans le tableau I. La fréquence d'échantillonnage modifiée est alors fe=p.Fe/Tp comme précédemment, la résolution spectrale Δf de la transformée de Fourier discrète du signal conditionné étant toujours donnée par Δf=Fe/(α.Tp). Pour le module de changement de fréquence 71, le rapport de suréchantillonnage K est donné par K=p/Tp (bloc 92). Le module 56 de protection des harmoniques de la fréquence tonale opère de la même manière que précédemment, en utilisant pour la condition (9) la résolution spectrale Δf fournie par le bloc 91 et la fréquence tonale fp=fe/p définie selon la valeur du retard entier p fournie par le bloc 91.
Cette forme de réalisation de l'invention implique également une adaptation du module 82 de gestion des fenêtres. Le nombre M d'échantillons du signal débruité à sauvegarder sur la trame courante correspond ici à un nombre entier d'intervalles de temps tr consécutifs entre deux ruptures glottiques (voir figure 10). Cette disposition évite les problèmes de discontinuité de phase entre trames, tout en tenant compte des variations possibles des intervalles de temps tr sur une trame.

Claims (30)

  1. Procédé de débruitage d'un signal de parole numérique (s) traité par traces successives, dans lequel :
    on effectue une analyse harmonique du signal de parole pour estimer une fréquence tonale (fp) du signal de parole sur chaque trame où il présente une activité vocale ;
    on calcule des composantes spectrales (Sn,f, Sn,i) du signal de parole sur chaque trame ;
    on calcule pour chaque trame, des estimations de composantes spectrales du bruit compris dans le signal de parole ;
    on effectue une soustraction spectrale comportant au moins une étape consistant à soustraire respectivement, de chaque composante spectrale du signal de parole sur la trame (Sn,f), une quantité dépendant de paramètres incluant au moins l'estimation de la composante spectrale correspondante du bruit pour ladite trame et la valeur de la fréquence tonale estimée.
  2. Procédé selon la revendication 1, dans lequel on utilise la valeur de la fréquence tonale estimée (fp) pour sélectionner des fréquences protégées parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, et dans lequel, pour soustraire d'une composante spectrale donnée (Sn,f) du signal de parole, on adopte une quantité plus faible si ladite composante spectrale correspond à une fréquence protégée que si ladite composante spectrale ne correspond pas à une fréquence protégée.
  3. Procédé selon la revendication 2, dans lequel les fréquences protégées sont sélectionnées de façon que la composante spectrale du signal de parole correspondant à chaque fréquence protégée dépasse un niveau de bruit déterminé partir de l'estimation correspondante de la composante spectrale du bruit.
  4. Procédé selon la revendication 2 ou 3, dans lequel chaque fréquence protégée est, parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, la plus proche d'un multiple entier de la fréquence tonale estimée (fp).
  5. Procédé selon la revendication 2 ou 3, dans lequel chaque fréquence protégée est, parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, la plus proche d'une fréquence d'un intervalle de la forme
    Figure 00330001
    fp désignant la fréquence tonale estimée, δfp désignant la résolution en fréquence de l'estimation de la fréquence tonale, et η désignant un entier.
  6. Procédé selon l'une quelconque des revendications 2 à 5, dans lequel la quantité soustraite de la composante spectrale (Sn,f) du signal de parole à une fréquence protégée est sensiblement nulle.
  7. Procédé selon l'une quelconque des revendications 1 à 6, dans lequel, après avoir estimé la fréquence tonale (fp) du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à une fréquence de suréchantillonnage (fe) multiple de la fréquence tonale estimée, et on calcule les composantes spectrales (Sn,f) du signal de parole sur la trame sur la base du signal conditionné (s') pour leur soustraire lesdites quantités.
  8. Procédé selon la revendication 7, dans lequel on calcule des composantes spectrales (Sn,f) du signal de parole en distribuant le signal conditionné (s') par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et dans lequel le rapport (p) entre la fréquence de suréchantillonnage (fe) et la fréquence tonale estimée est un diviseur du nombre N.
  9. Procédé selon la revendication 7 ou 8, dans lequel on estime un degré de voisement (χ) du signal de parole sur la trame à partir d'un calcul de l'entropie (H) de l'autocorrelation des composantes spectrales (S 2 / n,f) calculées sur la base du signal conditionné.
  10. Procédé selon la revendication 9, dans lequel lesdites composantes spectrales (S 2 / n,f) dont on calcule l'autocorrelation sont celles calculées sur la base du signal conditionné (s') après soustraction desdites quantités.
  11. Procédé selon la revendication 9 ou 10, dans lequel le degré de voisement (χ) est mesuré à partir une entropie normalisée H de la forme :
    Figure 00340001
    où N est le nombre d'échantillons utilisés pour calculer les composantes spectrales (S 2 / n,f) sur la base du signal conditionné (s'), et A(k) est l'autocorrelation normalisée définie par :
    Figure 00340002
    S 2 / n,f désignant la composante spectrale de rang f calculée sur la base du signal conditionné.
  12. ' Procédé selon l'une quelconque des revendications précédentes, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) égal à un multiple entier de fois le rapport (Tp) entre la fréquence d'échantillonnage (Fe) et la fréquence tonale estimée (fp).
  13. Procédé selon l'une quelconque des revendications 1 à 11, dans lequel l'estimation de la fréquence tonale du signal de parole sur une trame comporte les étapes suivantes :
    on estime des intervalles de temps (tr) entre deux ruptures consécutives (R) du signal attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;
    on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné (s') résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.
  14. Procédé selon la revendication 13, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) correspondant à un nombre entier d'intervalles de temps estimés (tr).
  15. Procédé selon l'une quelconque des revendications précédentes, dans lequel on estime dans le domaine spectral des valeurs d'un rapport signal-sur-bruit que présente le signal de parole sur chaque trame, et dans lequel les paramètres dont dépendent les quantités soustraites incluent les valeurs estimées du rapport signal-sur-bruit, la quantité soustraite de chaque composante spectrale du signal de parole sur la trame étant une fonction décroissante de la valeur estimée correspondante du rapport signal-sur-bruit.
  16. Procédé selon la revendication 15, dans lequel ladite fonction décroít vers zéro pour les valeurs les plus élevées du rapport signal-sur-bruit.
  17. Procédé selon l'une quelconque des revendications précédentes, dans lequel des composantes spectrales (S 2 / n,f) d'un signal débruité, obtenues en soustrayant lesdites quantités des composantes spectrales (Sn,f) du signal de parole, sont utilisées pour calculer une courbe de masquage (Mn,q) en appliquant un modèle de perception auditive.
  18. Procédé selon les revendications 11 et 17, dans lequel le calcul de la courbe de masquage (Mn,q) fait intervenir le degré de voisement (χ) mesuré par l'entropie normalisée H.
  19. Procédé selon la revendication 17 ou 18, dans lequel les paramètres dont dépend la quantité soustraite d'une composante spectrale (Sn,f) du signal de parole sur une trame incluent un écart entre une estimation majorée (B and ' / n,i) de la composante spectrale correspondante du bruit et la courbe de masquage calculée (Mn,q).
  20. Procédé selon la revendication 19, dans lequel on compare les estimations majorées (B and ' / n,i) des composantes spectrales du bruit pour une trame à la courbe de masquage calculée (Mn,q), et dans lequel la quantité soustraite d'une composante spectrale (Sn,f) du signal de parole, pour l'obtention des composantes (S 3 / n,f) soumises à la transformation vers le domaine temporel, est limitée à la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage.
  21. Procédé selon l'une quelconque des revendications précédentes, dans lequel la soustraction spectrale comporte :
    une première étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (Sn,f) du signal de parole sur la trame, une première quantité dépendant de paramètres incluant une estimation majorée (B and ' / n,i) de la composante spectrale correspondante du bruit pour ladite trame et la fréquence tonale estimée (fp), de manière à obtenir des composantes spectrales (S 2 / n,f) d'un premier signal débruité ;
    le calcul d'une courbe de masquage (Mn,q) en appliquant un modèle de perception auditive à partir des composantes spectrales (S 2 / n,f) du premier signal débruité ;
    la comparaison des estimations majorées (B and ' / n,i) des composantes spectrales du bruit pour la trame à la courbe de masquage calculée (Mn,q) ; et
    une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (Sn,f) du signal de parole sur la trame, une seconde quantité égale au minimum entre ladite première quantité correspondante et la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage, de manière à obtenir des composantes spectrales (S 3 / n,f) d'un second signal débruité.
  22. Procédé selon l'une quelconque des revendications précédentes, dans lequel les estimations de composantes spectrales du bruit prises en compte dans la soustraction spectrale sont des estimations majorées, chaque estimation majorés (B and ' / n,i) d'une composante spectrale du bruit compris dans le signal de parole étant obtenue en combinant une estimation à long terme (B andn,i) de ladite composante spectrale du bruit, et une mesure (ΔB max / n,i) de la variabilité de ladite composante spectrale du bruit autour de son estimation à long terme.
  23. Procédé selon la revendication 22, dans lequel l'estimation à long terme B andn,i d'une composante spectrale du bruit sur une trame n, correspondant à une fréquence incluse dans une bande i, est calculée sous la forme :
    Figure 00380001
    Figure 00380002
    γn,i désigne un degré d'activité vocale non binaire du signal de parole, déterminé pour la trame n relativement à la bande de fréquences i, Sn,i désigne une moyenne de l'amplitude du spectre du signal de parole de la trame n sur la bande i, et λ B désigne un facteur d'oubli.
  24. Procédé selon la revendication 23, dans lequel les degrés d'activité vocale (γ n,i ) pour la trame n sont déterminés en procédant à un débruitage a priori du signal de parole de la trame n sur la base d'estimations du bruit (α ' / n-τ1,i . B andn-τ 1,i ) obtenues lors d'au moins une trame précédente, et en analysant les variations d'énergie du signal débruité a priori.
  25. Procédé selon la revendication 24, dans lequel le degré d'activité vocale (γ n,i ) relativement à une bande de fréquences i est une fonction variant continûment entre 0 et 1.
  26. Procédé selon la revendication 24 ou 25, dans lequel on calcule une estimation à long terme (E n,i) de l'énergie du signal débruité a priori dans la bande de fréquence i, et on compare cette estimation à long terme à une estimation instantanée (En,i) de cette énergie, calculée sur la trame n, pour obtenir le degré d'activité vocale (γ n ,i) du signal de parole pour la trame n dans la bande de fréquence i.
  27. Procédé selon l'une quelconque des revendications 23 à 26, dans lequel la mesure (ΔB max / n,i) de la variabilité d'une composante spectrale du bruit autour de son estimation à long terme (B andn,i ) pour une trame n, ladite composante spectrale correspondant à une fréquence incluse dans une bande i, est une fonction des écarts Sn-k,i - B n-k,i calculés pour un nombre donné de trames n-k ≤ n sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i.
  28. Procédé selon l'une quelconque des revendications 23 à 26, dans lequel la mesure (ΔB max / n,i) de la variabilité d'une composante spectrale du bruit autour de son estimation à long terme (B andn,i ) pour une trame n, ladite composante spectrale correspondant à une fréquence incluse dans une bande i, est une fonction des écarts maximum
    Figure 00390001
    calculés pour un nombre donné de trames n-k≤n sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i, Sn-k,f désignant la composante spectrale correspondant à une fréquence f pour la trame n-k, et l'intervalle de fréquences [f(i-1),f(i)[ correspondant à la bande i.
  29. Procédé selon l'une quelconque des revendications précédentes, dans lequel on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité (s3).
  30. Dispositif de débruitage d'un signal de parole, comprenant des moyens de traitement adaptés pour mettre en oeuvre un procédé selon l'une quelconque des revendications précédentes.
EP98944000A 1997-09-18 1998-09-16 Procede et dispositif de debruitage d'un signal de parole numerique Expired - Lifetime EP1016073B1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9711642 1997-09-18
FR9711642A FR2768546B1 (fr) 1997-09-18 1997-09-18 Procede de debruitage d'un signal de parole numerique
PCT/FR1998/001981 WO1999014739A1 (fr) 1997-09-18 1998-09-16 Procede de debruitage d'un signal de parole numerique

Publications (2)

Publication Number Publication Date
EP1016073A1 EP1016073A1 (fr) 2000-07-05
EP1016073B1 true EP1016073B1 (fr) 2002-03-20

Family

ID=9511229

Family Applications (1)

Application Number Title Priority Date Filing Date
EP98944000A Expired - Lifetime EP1016073B1 (fr) 1997-09-18 1998-09-16 Procede et dispositif de debruitage d'un signal de parole numerique

Country Status (10)

Country Link
EP (1) EP1016073B1 (fr)
JP (1) JP2001516902A (fr)
CN (1) CN1276896A (fr)
AU (1) AU9169098A (fr)
BR (1) BR9812655A (fr)
CA (1) CA2304015A1 (fr)
DE (1) DE69804329T2 (fr)
ES (1) ES2174484T3 (fr)
FR (1) FR2768546B1 (fr)
WO (1) WO1999014739A1 (fr)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2379550A (en) * 2001-09-11 2003-03-12 Barrington Dyer Printed code recording and playing system, for music, speech and sounds
KR101168002B1 (ko) * 2004-09-16 2012-07-26 프랑스 텔레콤 잡음 신호 처리 방법 및 상기 방법을 구현하기 위한 장치
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
KR101320963B1 (ko) * 2009-03-31 2013-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
CN101859569B (zh) * 2010-05-27 2012-08-15 上海朗谷电子科技有限公司 数字音频信号处理降噪的方法
CN104251934B (zh) * 2013-06-26 2018-08-14 华为技术有限公司 谐波分析方法和装置以及确定谐波间杂波的方法和装置
CN114038473A (zh) * 2019-01-29 2022-02-11 桂林理工大学南宁分校 一种单模块数据处理的对讲机系统
CN109817241B (zh) * 2019-02-18 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN116580712B (zh) * 2023-07-14 2023-09-15 深圳攀高医疗电子有限公司 一种语音处理方法、系统及腰部治疗仪

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
EP0459362B1 (fr) * 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Processeur de signal de parole
US5469087A (en) * 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
US5555190A (en) * 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement

Also Published As

Publication number Publication date
FR2768546B1 (fr) 2000-07-21
WO1999014739A1 (fr) 1999-03-25
DE69804329D1 (de) 2002-04-25
DE69804329T2 (de) 2002-11-14
EP1016073A1 (fr) 2000-07-05
CN1276896A (zh) 2000-12-13
AU9169098A (en) 1999-04-05
CA2304015A1 (fr) 1999-03-25
ES2174484T3 (es) 2002-11-01
FR2768546A1 (fr) 1999-03-19
BR9812655A (pt) 2000-08-22
JP2001516902A (ja) 2001-10-02

Similar Documents

Publication Publication Date Title
EP1016072B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
EP2002428B1 (fr) Procede de discrimination et d&#39;attenuation fiabilisees des echos d&#39;un signal numerique dans un decodeur et dispositif correspondant
EP1275108B1 (fr) Appareils et procédés pour l&#39;estimation de valeurs de puissances utilisées dans la réduction de bruit pour un système de communication parlée
EP1016071B1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP1016073B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1279163A1 (fr) Techniques permettant de detecter les mesures de la presence de parole
JP3960834B2 (ja) 音声強調装置及び音声強調方法
EP0490740A1 (fr) Procédé et dispositif pour l&#39;évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit.
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
EP1429316B1 (fr) Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
EP2515300B1 (fr) Procédé et système de réduction du bruit
EP4287648A1 (fr) Dispositif électronique et procédé de traitement, appareil acoustique et programme d&#39;ordinateur associés
FR3051958A1 (fr) Procede et dispositif pour estimer un signal dereverbere
WO2006117453A1 (fr) Procede d’attenuation des pre- et post-echos d’un signal numerique audio et dispositif correspondant

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20000316

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): CH DE ES FI FR GB IT LI SE

RBV Designated contracting states (corrected)

Designated state(s): CH DE ES FI FR GB IT LI SE

17Q First examination report despatched

Effective date: 20001004

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 21/02 A

RTI1 Title (correction)

Free format text: METHOD AND APPARATUS FOR SUPPRESSING NOISE IN A DIGITAL SPEECH SIGNAL

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: EADS DEFENCE AND SECURITY NETWORKS

Owner name: MATRA NORTEL COMMUNICATIONS

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): CH DE ES FI FR GB IT LI SE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020320

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 69804329

Country of ref document: DE

Date of ref document: 20020425

REG Reference to a national code

Ref country code: CH

Ref legal event code: NV

Representative=s name: KELLER & PARTNER PATENTANWAELTE AG

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020620

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: EADS DEFENCE AND SECURITY NETWORKS

Owner name: NORTEL NETWORKS FRANCE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20020826

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20020930

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20020930

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2174484

Country of ref document: ES

Kind code of ref document: T3

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20021223

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030917

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20030930

Year of fee payment: 6

REG Reference to a national code

Ref country code: FR

Ref legal event code: CD

Ref country code: FR

Ref legal event code: CA

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20030917

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050401

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20050817

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20050902

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050916

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20060916

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20070531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060916

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20061002