EP2772916B1 - Procédé de débruitage d'un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement - Google Patents
Procédé de débruitage d'un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement Download PDFInfo
- Publication number
- EP2772916B1 EP2772916B1 EP14155968.2A EP14155968A EP2772916B1 EP 2772916 B1 EP2772916 B1 EP 2772916B1 EP 14155968 A EP14155968 A EP 14155968A EP 2772916 B1 EP2772916 B1 EP 2772916B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- speech
- time frame
- current time
- signal
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 title claims description 34
- 238000000034 method Methods 0.000 title claims description 29
- 230000005236 sound signal Effects 0.000 title claims description 8
- 230000003044 adaptive effect Effects 0.000 title 1
- 230000000694 effects Effects 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 235000021183 entrée Nutrition 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000003800 pharynx Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- KRQUFUKTQHISJB-YYADALCUSA-N 2-[(E)-N-[2-(4-chlorophenoxy)propoxy]-C-propylcarbonimidoyl]-3-hydroxy-5-(thian-3-yl)cyclohex-2-en-1-one Chemical compound CCC\C(=N/OCC(C)OC1=CC=C(Cl)C=C1)C1=C(O)CC(CC1=O)C1CCCSC1 KRQUFUKTQHISJB-YYADALCUSA-N 0.000 description 1
- 241000287531 Psittacidae Species 0.000 description 1
- 241001080024 Telles Species 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Definitions
- the invention relates to the treatment of speech in a noisy environment.
- These devices include one or more microphones sensing not only the voice of the user, but also the surrounding noise, noise that is a disruptive element that can go in some cases to make unintelligible the words of the speaker. It is the same if one wants to implement speech recognition techniques, because it is very difficult to perform a form recognition on words embedded in a high noise level.
- the large distance between the microphone (placed at the dashboard or in an upper corner of the roof of the cockpit) and the speaker (whose distance is constrained by the driving position) leads to the capture of a relatively low level of speech compared to the ambient noise, which makes it difficult to extract the useful signal embedded in the noise.
- the very noisy environment typical of the automotive environment has non-stationary spectral characteristics, that is to say, which evolve unpredictably according to the driving conditions: passage over deformed or paved roads, car radio in operation, etc.
- the device is a headset type microphone / headset combined used for communication functions such as "hands-free" telephony functions, in addition to listening to a source audio (music for example) from a device to which the headphones are connected.
- the headset can be used in a noisy environment (Metro, busy street, train, etc.), so that the microphone will not only pick up the words of the wearer of the helmet, but also the surrounding noise.
- the wearer is certainly protected from this noise by the helmet, especially if it is a model with closed earphones isolating the ear from the outside, and even more if the headset is provided with an "active control of noise”.
- the distant speaker (the one at the other end of the communication channel) will suffer from the noise picked up by the microphone and being superimposed and interfere with the speech signal of the near speaker (the helmet wearer).
- certain speech formers essential to the understanding of the voice are often embedded in noise components commonly encountered in the usual environments.
- the invention relates more particularly to single-channel selective denoising techniques, that is to say operating on a single signal (as opposed to techniques using several microphones whose signals are combined judiciously and are subject to a spatial or spectral coherence analysis, for example by beamforming or other techniques).
- a single signal as opposed to techniques using several microphones whose signals are combined judiciously and are subject to a spatial or spectral coherence analysis, for example by beamforming or other techniques.
- a spatial or spectral coherence analysis for example by beamforming or other techniques.
- it will apply with the same relevance to a signal recomposed from several microphones by a beamforming technique , insofar as the invention presented here applies to a scalar signal.
- the invention aims more particularly at an improvement made to the noise reduction algorithms based on signal processing in the frequency domain (thus after application of an FFT Fourier transformation) of applying a calculated spectral gain according to several estimators of probability of presence of speech.
- the signal y from the microphone is cut into frames of fixed length, overlapping or not, and each frame of index k is transposed into the frequency domain by FFT.
- the resulting frequency signal Y ( k, l ) which is also discrete, is then described by a set of frequency "bins" (frequency bands) of index l , typically 128 bins of positive frequencies.
- the US 7,454,010 B1 also describes a comparable algorithm taking into account, for the calculation of the spectral gains, information of presence or absence of the voice in a current time segment.
- Noise noise is characterized by a non-uniform residual background noise layer, favoring certain specific frequencies.
- the tone of the noise is then no longer natural, which makes listening disturbing.
- This phenomenon results from the fact that the frequency treatment of denoising is operated without dependence between neighboring frequencies during frequency discrimination between speech and noise, because the treatment does not include a mechanism to prevent two very different neighboring spectral gains.
- a uniform attenuation gain is needed to preserve the tone of the noise; but in practice, if the spectral gains are not homogeneous, the residual noise becomes "musical" with the appearance of frequency notes at less attenuated frequencies, corresponding to bins falsely detected as containing useful signal. It should be noted that this phenomenon is all the more marked as it allows the application of significant attenuation gains.
- the parameterization of such an algorithm therefore consists in finding a compromise on the aggressiveness of the denoising, so as to remove a maximum of noise without the undesirable effects of the application of too large attenuation spectral gains becoming too perceptible.
- This last criterion proves however extremely subjective, and on a comparatively large control group of users it is difficult to find a compromise setting that can be unanimous.
- the "OM-LSA" model provides for setting a lower bound G min for the attenuation gain (expressed on a logarithmic scale, this gain of attenuation therefore corresponds in the remainder of this document to a negative value) applied to the zones identified as noise, so as to prevent too much denoising to limit the appearance of the defects mentioned above.
- This solution is however not optimal: it certainly helps to eliminate the undesirable effects of excessive noise reduction, but at the same time it limits the performance of denoising.
- the problem of the invention is to overcome this limitation, by making the noise reduction system more efficient by applying a spectral gain (typically according to an OM-LSA model), while respecting the constraints mentioned above, namely effectively reduce noise without altering the natural appearance of speech (in the presence of speech) or of noise (in the presence of noise).
- a spectral gain typically according to an OM-LSA model
- the undesirable effects of the algorithmic processing must be made imperceptible by the remote speaker, while at the same time attenuating the noise significantly.
- the basic idea of the invention is to modulate the calculation of the spectral gain G OMLSA - calculated in the frequency domain for each bin - by a global indicator observed at the time frame and no longer at a single level. frequency bin.
- This modulation will be performed by a direct transformation of the lower limit G min of the attenuation gain - a terminal which is a scalar commonly referred to as "denoising hardness" - into a time function whose value will be determined according to a temporal descriptor ( or "global variable") reflected by the state of the various estimators of the algorithm.
- denoising hardness a time function whose value will be determined according to a temporal descriptor ( or "global variable" reflected by the state of the various estimators of the algorithm.
- the temporal modulation applied to this logarithmic G min attenuation gain may correspond to either an increment or a decrement: a decrement will be associated with a greater noise reduction hardness (gain logarithmic greater in absolute value), conversely an increment of this negative logarithmic gain will be associated with a smaller absolute value, hence a lower noise reduction hardness.
- a frame-scale observation can often correct certain defects in the algorithm, particularly in very noisy areas where it can sometimes falsely detect a noise frequency as a frequency of speech: thus, if a frame of only noise is detected (at the level of the frame), one will be able to denoise in a more aggressive way without introducing musical noise, thanks to a more homogeneous denoising.
- the global variable is a signal-to-noise ratio of the current time frame evaluated in the time domain.
- the global variable is an average probability of speech, evaluated at the level of the current time frame.
- the global variable is a Boolean voice activity detection signal for the current time frame, evaluated in the time domain by analysis of the time frame and / or by means of an external detector.
- the Figure 1 schematically illustrates, in the form of functional blocks, the manner in which an OM-LSA type denoising treatment according to the state of the art is carried out.
- the digitized signal y ( n ) x (n) + d ( n ) comprising a speech component x ( n ) and a noise component d (n) ( n being the rank of the sample) is cut out (block 10 ) in segments or time frames y ( k ) (k being the frame index) of fixed length, overlapping or not, usually frames of 256 samples for a signal sampled at 8 kHz ( narrowband telephone standard).
- Each time frame of index k is then transposed into the frequency domain by a fast Fourier transform FFT (block 12): the resulting obtained signal or spectrum Y ( k , l ), also discrete, is then described by a set of Frequency bands or "bins" (where l is the bin index), for example 128 bins of positive frequencies.
- the spectral gain G OMLSA (k, l) is calculated (block 16) as a function of a part of a probability of presence of speech p ( k , l ), which is an estimated frequency probability (block 18) for each bin and on the other hand a parameter G min , which is a scalar value of minimum gain, commonly referred to as "denoising hardness".
- This parameter G min sets a lower limit to the attenuation gain applied to the zones identified as noise, in order to avoid that the phenomena of musical noise and robotic voice become too marked due to the application of spectral gains of too much and / or heterogeneous attenuation.
- LSA Log-Spectral Amplitude
- OM-LSA Optimally-Modified LSA improves the computation of the LSA gain by weighting it by the conditional probability p ( k , l ) of presence of speech or SPP ( Speech Presence Probability ), for the computation of the gain final: the noise reduction applied is all the more important (that is to say that the applied gain is even lower) that the probability of presence of speech is low.
- the method described is not intended to identify precisely on which frequency components of which frames the speech is absent, but rather to give a confidence index between 0 and 1, a value 1 indicating that the speech is absent for sure (according to the algorithm) while a value 0 declares the opposite.
- this index is likened to the probability of absence of speech a priori, that is to say the probability that speech is absent on a given frequency component of the frame considered.
- This is of course a non-rigorous assimilation, in the sense that even if the presence of speech is probabilistic ex ante, the signal picked up by the microphone presents at each moment only one of two distinct states: at the moment considered, it can either include speech or not contain it. In practice, however, this assimilation gives good results, which justifies its use.
- the resulting signal X ( k , l ) G OMLSA ( k, l ).
- Y ( k , l ) that is to say the useful signal Y ( k , l ) to which the frequency mask G OMLSA ( k , l ) has been applied, is then subjected to an inverse Fourier transformation. iFFT (block 20), to go back from the frequency domain to the time domain.
- the resulting time frames are then collected (block 22) to give a digitized denoised signal x ( n ).
- the scalar value G min of the minimal gain representative of the denoising hardness was chosen more or less empirically, so that the degradation of the voice remains low audible, while ensuring an acceptable attenuation of the noise.
- G min the scalar value of the minimal gain representative of the denoising hardness
- the scalar value G min is transformed (block 24) into a time function G min ( k ) whose value will be determined according to a global variable (also called "temporal descriptor"). that is, a variable considered globally at the level of the frame and not the frequency bin.
- This global variable can be reflected by the state of one or more different estimators already calculated by the algorithm, which will be chosen according to the case according to their relevance.
- estimators can be: i) a signal-to-noise ratio, ii) an average probability of presence of speech and / or iii) a voice activity detection.
- the denoising hardness G min becomes a time function G min ( k ) defined by the estimators, themselves temporal, making it possible to describe known situations for which it is desired to modulate the value of G min in order to influence on noise reduction by dynamically modifying the signal denoise / degradation compromise.
- the starting point of this first implementation is the observation that a speech signal picked up in a quiet environment has little or no need to be de-noised, and that an energetic denoising applied to such a signal would lead quickly to audible artifacts, without the comfort of listening improved from the point of view of residual noise.
- an excessively noisy signal can quickly become unintelligible or cause progressive listening fatigue; in such a case the benefit of a large denoising will be indisputable, even at the cost of an audible (however reasonable and controlled) degradation of speech.
- the noise reduction will be all the more beneficial for the understanding of the useful signal that the untreated signal is noisy.
- Another relevant criterion for modulating the hardness of the reduction may be the presence of speech for the time frame considered.
- a voice activity detector or VAD (block 30) is used to perform the same type of hardness modulation as in the previous example.
- VAD voice activity detector
- Such a "perfect" detector delivers a binary signal (absence vs. presence of speech), and is distinguished from systems delivering only a probability of presence of variable speech between 0 and 100% continuously or in successive steps, which can introduce false important detections in noisy environments.
- the voice activity detector 30 may be implemented in different ways, of which three examples of implementation will be given below.
- the detection is performed from the signal y ( k ), intrinsically to the signal collected by the microphone; an analysis of the more or less harmonic nature of this signal makes it possible to determine the presence of a vocal activity, because a signal having a strong harmonicity can be considered, with a small margin of error, as being a voice signal, therefore corresponding to a presence of speech.
- the voice activity detector 30 operates in response to the signal produced by a camera, installed for example in the passenger compartment of a motor vehicle and oriented so that its angle of view encompasses in all circumstances the head of the vehicle. driver, considered to be the close speaker.
- the signal delivered by the camera is analyzed to determine from the movement of the mouth and lips whether the speaker speaks or not, as described inter alia in the EP 2 530 672 A1 (Parrot SA) , which can be referred to for further explanation.
- the advantage of this image analysis technique is to have complementary information completely independent of the acoustic noise environment.
- a third example of a sensor that can be used for voice activity detection is a physiological sensor capable of detecting certain vocal vibrations of the speaker that are not or only slightly corrupted by the surrounding noise.
- a sensor may especially consist of an accelerometer or a piezoelectric sensor applied against the cheek or the temple of the speaker. It can be in particular incorporated in the earpad pad of a combined microphone / headset assembly, as described in the EP 2 518 724 A1 (Parrot SA), which can be referred to for more details.
- a vibration propagates from the vocal cords to the pharynx and to the bucco-nasal cavity, where it is modulated, amplified and articulated.
- the mouth, the soft palate, the pharynx, the sinuses and the nasal fossae then serve as a sounding board for this voiced sound and, their wall being elastic, they vibrate in turn and these vibrations are transmitted by internal bone conduction and are perceptible at the cheek and temple.
- the spectral gain G OMLSA - calculated in the frequency domain for each bin - can be modulated indirectly, by weighting the probability of presence of frequency speech p ( k , l ) by an indicator global time observed at the level of the frame (and no longer a single particular frequency bin).
- each frequency probability of speech should be zero, and the local frequency probability can be weighted by a global datum, this global datum making it possible to make a deduction on the real case encountered at the frame scale (speech / phase phase noise alone), that the only data in the frequency domain does not allow to formulate; in the presence of noise alone, we can reduce our to a uniform denoising, avoiding any musicality of the noise, which will keep its "grain" of origin.
- the probability of presence of speech initially frequency will be weighted by a probability of global presence of speech at the scale of the frame: one will then strive to denoise in a homogeneous way the whole of the frame in a absence of speech (denoise uniformly when speech is absent).
- the evaluation of the global data p glob ( k ) is schematized on the Figure 2 by the block 32, which receives as input the data P threshold (parameterizable threshold value) and P speech ( k , l ) (value itself calculated by the block 28, as described above), and outputs the value p glob ( k ) which is applied to the input 4 of the block 24.
- P threshold parameterizable threshold value
- P speech k , l
- a global data item calculated at the level of the frame is used to refine the calculation of the frequency gain of denoising, and this as a function of the case encountered (absence / presence of speech).
- the global data makes it possible to estimate the actual situation encountered at the of the frame (speech phase vs. noise phase alone), which the only frequency data would not allow to formulate. And in the presence of noise alone, we can reduce to a uniform denoising, ideal solution because the perceived residual noise will never be musical.
- the invention is based on the demonstration that the noise denoising / degradation compromise is based on a spectral gain calculation (a function of a minimum gain scalar parameter and a probability of presence of speech) whose model is suboptimal, and proposes a formula involving a temporal modulation of these elements of calculation of the spectral gain, which become a function of relevant temporal descriptors of the noisy speech signal.
- a spectral gain calculation a function of a minimum gain scalar parameter and a probability of presence of speech
- the invention is based on the exploitation of a global datum in order to process each frequency band in a more relevant and adapted manner, the denoising hardness being made variable as a function of the presence of speech on a frame (the noise is no longer disconnected when the risk to have a counterpart is weak).
- each frequency band is treated independently, and for a given frequency is not integrated a priori knowledge of other bands.
- a broader analysis that observes the entire frame to calculate a global indicator characteristic of the frame is a useful means and effective in refining the processing at the frequency band scale.
- the denoising gain is generally adjusted to a compromise value, typically of the order of 14 dB.
- the implementation of the invention makes it possible to adjust this gain dynamically to a value varying between 8 dB (in the presence of speech) and 17 dB (in the presence of noise alone).
- the noise reduction is thus much more energetic, and makes the noise virtually imperceptible (and in any case non-musical) in the absence of speech in most situations commonly encountered. And even in the presence of speech, denoising does not change the tone of the voice, whose rendering remains natural.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
- L'invention concerne le traitement de la parole en milieu bruité.
- Elle concerne notamment le traitement des signaux de parole captés par des dispositifs de téléphonie de type "mains libres" destinés à être utilisés dans un environnement bruité.
- Ces appareils comportent un ou plusieurs microphones captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller dans certains cas jusqu'à rendre inintelligibles les paroles du locuteur. Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
- Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains libres" pour véhicules automobiles, qu'il s'agisse d'équipements incorporés au véhicule ou bien d'accessoires en forme de boitier amovible intégrant tous les composants et fonctions de traitement du signal pour la communication téléphonique.
- En effet, la distance importante entre le micro (placé au niveau de la planche de bord ou dans un angle supérieur du pavillon de l'habitacle) et le locuteur (dont l'éloignement est contraint par la position de conduite) entraine la captation d'un niveau de parole relativement faible par rapport au bruit ambiant, qui rend difficile l'extraction du signal utile noyé dans le bruit. En plus de cette composante stationnaire permanente de bruit de roulement, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.
- Des difficultés du même genre se présentent dans le cas où le dispositif est un casque audio de type micro/casque combiné utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) provenant d'un appareil sur lequel est branché le casque.
- Dans ce cas, il s'agit d'assurer une intelligibilité suffisante du signal capté par le micro, c'est-à-dire du signal de parole du locuteur proche (le porteur du casque). Or, le casque peut être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seulement la parole du porteur du casque, mais également les bruits parasites environnants. Le porteur est certes protégé de ce bruit par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche, le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro et venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque). En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environnements habituels.
- L'invention concerne plus particulièrement les techniques de débruitage sélectif monocanal, c'est-à-dire opérant sur un unique signal (par opposition aux techniques mettant en oeuvre plusieurs micros dont les signaux sont combinés de façon judicieuse et font l'objet d'une analyse de cohérence spatiale ou spectrale, par exemple par des techniques de type beamforming ou autres). Cependant, elle s'appliquera avec la même pertinence à un signal recomposé à partir de plusieurs micros par une technique de beamforming, dans la mesure où l'invention présentée ici s'applique à un signal scalaire.
- Dans le cas présent, il s'agit d'opérer le débruitage sélectif d'un signal audio bruité, généralement obtenu après numérisation du signal recueilli par un micro unique de l'équipement de téléphonie.
- L'invention vise plus particulièrement un perfectionnement apporté aux algorithmes de réduction de bruit reposant sur un traitement du signal dans le domaine fréquentiel (donc après application d'une transformation de Fourier FFT) consistant à appliquer un gain spectral calculé en fonction de plusieurs estimateurs de probabilité de présence de parole.
- Plus précisément, le signal y issu du microphone est découpé en trames de longueur fixe, chevauchantes ou non, et chaque trame d'indice k est transposée dans le domaine fréquentiel par FFT. Le signal fréquentiel résultant Y(k,l), lui aussi discret, est alors décrit par un ensemble de "bins" fréquentiel (bandes de fréquences) d'indice l, typiquement 128 bins de fréquences positives.
- Pour chaque trame de signal, un certain nombre d'estimateurs sont mis à jour pour déterminer une probabilité fréquentielle de présence de parole p(k,l). Si la probabilité est grande, le signal sera considéré comme du signal utile (parole) et donc préservé avec un gain spectral G(k,l) = 1 pour le bin considéré. Dans le cas contraire, si la probabilité est faible le signal sera assimilé à du bruit et donc réduit, voire supprimé par application d'un gain spectral d'atténuation très inférieur à 1.
- En d'autres termes, le principe de cet algorithme consiste à calculer et appliquer au signal utile un "masque fréquentiel" qui conserve l'information utile du signal de parole et élimine le signal parasite de bruit :
- Cette technique peut être notamment implémentée par un algorithme de type OM-LSA (Optimally Modified - Log Spectral Amplitude) telle que ceux décrits par :
- [1] I. Cohen et B. Berdugo, "Speech Enhancement for Non-Stationary Noise Environments", Signal Processing, Vol. 81, No 11, pp. 2403-2418, Nov. 2001 ; et
- [2] I. Cohen, "Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator", IEEE Signal Processing Letters, Vol. 9, No 4, pp. 113-116, Apr. 2002.
- Le
US 7 454 010 B1 décrit également un algorithme comparable prenant en compte, pour le calcul des gains spectraux, une information de présence ou non de la voix dans un segment temporel courant. - On pourra également se référer au
WO 2007/099222 A1 (Parrot ), qui décrit une technique de débruitage mettant en oeuvre un calcul de probabilité de présence de parole. - L'efficacité d'une telle technique réside bien entendu dans le modèle de l'estimateur de probabilité de présence de parole qui doit discriminer parole et bruit.
- Dans la pratique, l'implémentation d'un tel algorithme se heurte à un certain nombre de défauts, dont les deux principaux sont le "bruit musical" et l'apparition d'une "voix robotisée".
- Le "bruit musical" se caractérise par une nappe de bruit de fond résiduel non uniforme, privilégiant certaines fréquences spécifiques. La tonalité du bruit n'est alors plus du tout naturelle, ce qui rend l'écoute perturbante. Ce phénomène résulte de ce que le traitement fréquentiel de débruitage est opéré sans dépendance entre fréquences voisines lors de la discrimination fréquentielle entre parole et bruit, car le traitement n'intègre pas de mécanisme pour prévenir deux gains spectraux voisins très différents. Or, dans les périodes de bruit seul, il faudrait idéalement un gain d'atténuation uniforme pour préserver la tonalité du bruit ; mais en pratique, si les gains spectraux ne sont pas homogènes, le bruit résiduel devient "musical" avec l'apparition de notes fréquentielles aux fréquences moins atténuées, correspondant à des bins faussement détectés comme contenant du signal utile. On notera que ce phénomène est d'autant plus marqué que l'on autorise l'application de gains d'atténuation importants.
- Le phénomène de "voix robotisée" ou "voix métallique", quant à lui, se présente lorsque l'on choisit d'opérer une réduction de bruit très agressive, avec des gains spectraux d'atténuation importants. En présence de parole, des fréquences correspondant à de la parole mais qui sont faussement détectées comme étant du bruit seront fortement atténuées, rendant la voix moins naturelle, voire totalement artificielle ("robotisation" de la voix).
- Le paramétrage d'un tel algorithme consiste donc à trouver un compromis sur l'agressivité du débruitage, de manière à enlever un maximum de bruit sans que les effets indésirables de l'application de gains spectraux d'atténuation trop importants ne deviennent trop perceptibles. Ce dernier critère se révèle toutefois extrêmement subjectif, et sur un groupe témoin d'utilisateurs relativement large il s'avère difficile de trouver un réglage de compromis qui puisse faire l'unanimité.
- Pour minimiser ces défauts, inhérents à une technique de débruitage par application d'un gain spectral, le modèle "OM-LSA" prévoit de fixer une borne inférieure Gmin pour le gain d'atténuation (exprimé suivant une échelle logarithmique, ce gain d'atténuation correspond donc dans la suite de ce document à une valeur négative) appliqué aux zones identifiées comme du bruit, de manière à s'interdire de trop débruiter pour limiter l'apparition des défauts évoqués plus haut. Cette solution n'est cependant pas optimale : certes, elle contribue à faire disparaitre les effets indésirables d'une réduction de bruit excessive, mais dans le même temps elle limite les performances du débruitage.
- Le problème de l'invention est de pallier cette limitation, en rendant plus performant le système de réduction de bruit par application d'un gain spectral (typiquement selon un modèle OM-LSA), tout en respectant les contraintes évoquées plus haut, à savoir réduire efficacement le bruit sans altérer l'aspect naturel de la parole (en présence de parole) ni celui du bruit (en présence de bruit). En d'autres termes, il convient de rendre imperceptibles par le locuteur distant les effets indésirables du traitement algorithmique, tout en atténuant le bruit de manière importante.
- L'idée de base de l'invention consiste à moduler le calcul du gain spectral GOMLSA - calculé dans le domaine fréquentiel pour chaque bin - par un indicateur global, observé au niveau de la trame temporelle et non plus au niveau d'un unique bin de fréquence.
- Cette modulation sera opérée par une transformation directe de la borne inférieure Gmin du gain d'atténuation - borne qui est un scalaire communément désigné "dureté de débruitage" - en une fonction temporelle dont la valeur sera déterminée en fonction d'un descripteur temporel (ou "variable globale") reflété par l'état des divers estimateurs de l'algorithme. Ces derniers seront choisis en fonction de leur pertinence pour décrire des situations connues pour lesquelles on sait que le choix de la dureté de débruitage Gmin peut être optimisé.
- Par la suite et en fonction des cas de figure, la modulation temporelle appliquée à ce gain d'atténuation Gmin logarithmique pourra correspondre soit à un incrément soit à un décrément : un décrément sera associé à une dureté de réduction de bruit plus grande (gain logarithmique plus grand en valeur absolue), inversement un incrément de ce gain logarithmique négatif sera associé à une valeur absolue plus petite donc une dureté de réduction de bruit plus faible.
- En effet, on constate qu'une observation à l'échelle de la trame peut bien souvent permettre de corriger certains défauts de l'algorithme, notamment dans des zones très bruitées où il peut parfois faussement détecter une fréquence de bruit comme étant une fréquence de parole : ainsi, si une trame de bruit seul est détectée (au niveau de la trame), on pourra débruiter de façon plus agressive sans pour autant introduire de bruit musical, grâce à un débruitage plus homogène.
- Inversement, sur une période de parole bruitée, on pourra s'autoriser à moins débruiter afin de parfaitement préserver la voix tout en veillant à ce que la variation d'énergie du bruit de fond résiduel ne soit pas perceptible. On dispose ainsi d'un double levier (dureté et homogénéité) pour moduler l'importance du débruitage selon le cas considéré - phase de bruit seul ou bien phase de parole -, la discrimination entre l'un ou l'autre cas résultant d'une observation à l'échelle de la trame temporelle :
- dans le premier mode de réalisation, l'optimisation consistera à moduler dans le sens adéquat la valeur de la dureté de débruitage Gmin pour mieux réduire le bruit en phase de bruit seul, et mieux préserver la voix en phase de parole ;
- Plus précisément, l'invention propose un procédé de débruitage d'un signal audio par application d'un algorithme à gain spectral variable fonction d'une probabilité de présence de parole, comportant de manière en elle-même connue les étapes successives suivantes :
- a) génération de trames temporelles successives du signal audio bruité numérisé ;
- b) application d'une transformation de Fourier aux trames générées à l'étape a), de manière à produire pour chaque trame temporelle de signal un spectre de signal avec une pluralité de bandes de fréquences prédéterminées ;
- c) dans le domaine fréquentiel :
- c1) estimation, pour chaque bande de fréquences de chaque trame temporelle courante, d'une probabilité de présence de parole ;
- c3) calcul d'un gain spectral, propre à chaque bande de fréquence de chaque trame temporelle courante, en fonction de : i) une estimation de l'énergie du bruit dans chaque bande de fréquences, ii) la probabilité de présence de parole estimée à l'étape c1), et iii) une valeur scalaire de gain minimal représentative d'un paramètre de dureté du débruitage ;
- c4) réduction sélective de bruit par application à chaque bande de fréquences du gain calculé à l'étape c3) ;
- d) application d'une transformation de Fourier inverse au spectre de signal constitué des bandes de fréquences produites à l'étape c4), de manière à délivrer pour chaque spectre une trame temporelle de signal débruité ; et
- e) reconstitution d'un signal audio débruité à partir des trames temporelles délivrées à l'étape d).
- De façon caractéristique de l'invention :
- ladite valeur scalaire de gain minimal est une valeur modulable de manière dynamique à chaque trame temporelle successive ; et
- le procédé comporte en outre, préalablement à l'étape c3) de calcul du gain spectral, une étape de :
- c2) calcul, pour la trame temporelle courante, de ladite valeur modulable en fonction d'une variable globale observée au niveau de la trame temporelle courante pour toutes les bandes de fréquences ; et
- ledit calcul de l'étape c2) comprend l'application, pour la trame temporelle courante, d'un incrément/décrément apporté à une valeur paramétrée nominale dudit gain minimal.
- Dans une première implémentation de l'invention, la variable globale est un rapport signal sur bruit de la trame temporelle courante, évalué dans le domaine temporel.
-
- k étant l'indice de la trame temporelle courante,
- Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,
- Gmin étant ladite valeur nominale paramétrée du gain minimal,
- ΔGmin (k) étant ledit incrément/décrément apporté à Gmin , et
- SNRy (k) étant le rapport signal sur bruit de la trame temporelle courante.
- Dans une deuxième implémentation de l'invention, la variable globale est une probabilité moyenne de parole, évaluée au niveau de la trame temporelle courante.
-
- k étant l'indice de la trame temporelle courante,
- Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,
- Gmin étant ladite valeur nominale paramétrée du gain minimal,
- Pspeech (k) étant la probabilité moyenne de parole évaluée au niveau de la trame temporelle courante,
- Δ1 Gmin étant ledit incrément/décrément, apporté à Gmin en phase de bruit, et
- Δ2 Gmin étant ledit incrément/décrément, apporté à Gmin en phase de parole.
-
- l étant l'indice de la bande de fréquences,
- N étant le nombre de bandes de fréquences dans le spectre, et
- p(k,l) étant la probabilité de présence de parole de la bande de fréquences d'indice l de la trame temporelle courante.
- Dans une troisième implémentation de l'invention, la variable globale est un signal booléen de détection d'activité vocale pour la trame temporelle courante, évalué dans le domaine temporel par analyse de la trame temporelle et/ou au moyen d'un détecteur externe.
-
- k étant l'indice de la trame temporelle courante,
- Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,
- Gmin étant ladite valeur nominale paramétrée du gain minimal,
- VAD (k) étant la valeur du signal booléen de détection d'activité vocale pour la trame temporelle courante, et
- ΔGmin étant ledit incrément/décrément apporté à Gmin .
- On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.
- La
Figure 1 illustre de façon schématique, sous forme de blocs fonctionnels, la manière dont est réalisé un traitement de débruitage de type OM-LSA selon l'état de la technique. - La
Figure 2 illustre le perfectionnement apporté par l'invention à la technique de débruitage de laFigure 1 . - Le processus de l'invention est mis en oeuvre par des moyens logiciels, schématisés sur les figures par un certain nombre de blocs fonctionnels correspondant à des algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. Bien que, pour la clarté de l'exposé, les différentes fonctions soient présentées sous forme de modules distincts, elles mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même logiciel.
- La
Figure 1 illustre de façon schématique, sous forme de blocs fonctionnels, la manière dont est réalisé un traitement de débruitage de type OM-LSA selon l'état de la technique. - Le signal numérisé y(n) = x(n) + d(n) comprenant une composante de parole x(n) et une composante de bruit d(n) (n étant le rang de l'échantillon) est découpé (bloc 10) en segments ou trames temporelles y(k) (k étant l'indice de la trame) de longueur fixe, chevauchantes ou non, habituellement des trames de 256 échantillons pour un signal échantillonné à 8 kHz (standard téléphonique narrowband).
- Chaque trame temporelle d'indice k est ensuite transposée dans le domaine fréquentiel par une transformation rapide de Fourier FFT (bloc 12) : le signal résultant obtenu ou spectre Y(k,l), lui aussi discret, est alors décrit par un ensemble de bandes de fréquences ou "bins" fréquentiels (l étant l'indice de bin), par exemple 128 bins de fréquences positives. Un gain spectral G = GOMLSA (k,l), propre à chaque bin, est appliqué (bloc 14) au signal fréquentiel Y(k,l), pour donner un signal X̂ (k, l) :
- Le gain spectral GOMLSA(k,l) est calculé (bloc 16) en fonction d'une part d'une probabilité de présence de parole p(k,l), qui est une probabilité fréquentielle évaluée (bloc 18) pour chaque bin, et d'autre part d'un paramètre Gmin , qui est une valeur scalaire de gain minimal, dénommée couramment "dureté de débruitage". Ce paramètre Gmin fixe une borne inférieure au gain d'atténuation appliqué sur les zones identifiées comme du bruit, afin d'éviter que les phénomènes de bruit musical et de voix robotisée ne deviennent trop marqués du fait de l'application de gains spectraux d'atténuation trop importants et/ou hétérogènes.
-
- Le calcul du gain spectral et celui de la probabilité de présence de parole sont donc avantageusement implémentés sous forme d'un algorithme de type OM-LSA (Optimally Modified - Log Spectral Amplitude) tel que celui décrit dans l'article (précité) :
- [2] I. Cohen, "Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator", IEEE Signal Processing Letters, Vol. 9, No 4, pp. 113-116, Apr. 2002.
- Essentiellement, l'application d'un gain nommé "gain LSA" (Log-Spectral Amplitude) permet de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole originel. Ce critère se montre adapté, car la distance choisie est en meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats.
- Dans tous les cas, il s'agit de diminuer l'énergie des composantes fréquentielles très parasitées en leur appliquant un gain faible, tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout.
- L'algorithme "OM-LSA" (Optimally-Modified LSA) améliore le calcul du gain LSA en le pondérant par la probabilité conditionnelle p(k,l) de présence de parole ou SPP (Speech Presence Probability), pour le calcul du gain final : la réduction de bruit appliquée est d'autant plus importante (c'est-à-dire que le gain appliqué est d'autant plus faible) que la probabilité de présence de parole est faible.
- La probabilité de présence de parole p(k,l) est un paramètre pouvant prendre plusieurs valeurs différentes comprises entre 0 et 100 %. Ce paramètre est calculé selon une technique en elle-même connue, dont des exemples sont notamment exposés dans :
- [3] I. Cohen et B. Berdugo, "Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio", IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2003, Hong-Kong, pp. 233-236, Apr. 2003.
- Comme fréquemment dans ce domaine, le procédé décrit n'a pas pour objectif d'identifier précisément sur quelles composantes fréquentielles de quelles trames la parole est absente, mais plutôt de donner un indice de confiance entre 0 et 1, une valeur 1 indiquant que la parole est absente à coup sûr (selon l'algorithme) tandis qu'une valeur 0 déclare le contraire. Par sa nature, cet indice est assimilé à la probabilité d'absence de la parole a priori, c'est-à-dire la probabilité que la parole soit absente sur une composante fréquentielle donnée de la trame considérée. Il s'agit bien sûr d'une assimilation non rigoureuse, dans le sens que même si la présence de la parole est probabiliste ex ante, le signal capté par le micro ne présente à chaque instant que l'un de deux états distincts : à l'instant considéré, il peut soit comporter de la parole soit ne pas en contenir. En pratique, cette assimilation donne toutefois de bons résultats, ce qui justifie son utilisation.
- On pourra également se référer au
WO 2007/099222 A1 (Parrot ), qui décrit en détail une technique de débruitage dérivée de ce principe, mettant en oeuvre un calcul de probabilité de présence de parole. - Le signal résultant X̂ (k,l) = GOMLSA (k,l). Y(k,l), c'est-à-dire le signal utile Y(k,l) auquel a été appliqué le masque fréquentiel GOMLSA (k,l), fait ensuite l'objet d'une transformation de Fourier inverse iFFT (bloc 20), pour repasser du domaine fréquentiel au domaine temporel. Les trames temporelles obtenues sont ensuite rassemblées (bloc 22) pour donner un signal débruité numérisé x̂(n).
- La
Figure 2 illustre les modifications apportées à l'algorithme que l'on vient d'exposer. Les blocs portant les mêmes références numériques correspondent à des fonctions identiques ou similaires à celles exposées plus haut, de même que les références des divers signaux traités. - Dans l'implémentation connue de la
Figure 1 , la valeur scalaire Gmin du gain minimal représentatif de la dureté de débruitage était choisie plus ou moins empiriquement, de telle sorte que la dégradation de la voix reste peu audible, tout en assurant une atténuation acceptable du bruit. Comme on l'a exposé en introduction, il est cependant souhaitable de débruiter plus agressivement en phase de bruit seul, mais sans pour autant introduire de bruit musical ; inversement, sur une période de parole bruitée, on peut s'autoriser à moins débruiter afin de parfaitement préserver la voix tout en veillant à ce que la variation d'énergie du bruit de fond résiduel ne soit pas perceptible. - On peut disposer selon le cas (phase de bruit seul ou bien phase de parole) d'un double intérêt à moduler la dureté du débruitage : celle-ci sera modulée en faisant varier dynamiquement la valeur scalaire de Gmin , dans le sens adéquat qui réduira le bruit en phase de bruit seul et préservera mieux la voix en phase de parole.
- Pour ce faire, la valeur scalaire Gmin, initialement constante, est transformée (bloc 24) en une fonction temporelle Gmin (k) dont la valeur sera déterminée en fonction d'une variable globale (également désignée "descripteur temporel"), c'est-à-dire d'une variable considérée globalement au niveau de la trame et non pas du bin fréquentiel. Cette variable globale peut être reflétée par l'état d'un ou plusieurs estimateurs différents déjà calculés par l'algorithme, qui seront choisis selon le cas en fonction de leur pertinence.
- Ces estimateurs peuvent notamment être : i) un rapport signal sur bruit, ii) une probabilité moyenne de présence de parole et/ou iii) une détection d'activité vocale. Dans tous ces exemples, la dureté de débruitage Gmin devient une fonction temporelle Gmin (k) définie par les estimateurs, eux-mêmes temporels, permettant de décrire des situations connues pour lesquelles on souhaite moduler la valeur de Gmin afin d'influer sur la réduction de bruit en modifiant de façon dynamique le compromis débruitage/dégradation du signal.
- On notera incidemment que, pour que cette modulation dynamique de la dureté ne soit pas perceptible par l'auditeur, il convient de prévoir un mécanisme pour prévenir des variations brutales de Gmin (k), par exemple par une technique conventionnelle de lissage temporel. On évitera ainsi que des variations temporelles brusques de la dureté Gmin (k) ne soient audibles sur le bruit résiduel, qui est très souvent stationnaire dans le cas par exemple d'un automobiliste en condition de roulage.
- Le point de départ de cette première implémentation est la constatation de ce qu'un signal de parole capté dans un environnement silencieux n'a que peu, voire pas, besoin d'être débruité, et qu'un débruitage énergique appliqué à un tel signal conduirait rapidement à des artefacts audibles, sans que le confort d'écoute ne soit amélioré du seul point de vue du bruit résiduel.
- À l'inverse, un signal excessivement bruité peu rapidement devenir inintelligible ou susciter une fatigue progressive à l'écoute ; dans un tel cas le bénéfice d'un débruitage important sera indiscutable, même au prix d'une dégradation audible (toutefois raisonnable et contrôlée) de la parole.
- En d'autres termes, la réduction de bruit sera d'autant plus bénéfique pour la compréhension du signal utile que le signal non traité est bruité.
-
- Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,
- Gmin étant une valeur nominale paramétrée de ce gain minimal,
- ΔGmin (k) étant l'incrément/décrément apporté à la valeur Gmin , et
- SNRy (k) étant le rapport signal sur bruit de la trame courante, évalué dans le domaine temporel (bloc 26), correspondant à la variable appliquée sur l'entrée n° ① du bloc 24 (ces "entrées" étant symboliques et n'ayant qu'une valeur illustrative des différentes possibilités alternatives de mise en oeuvre de l'invention).
- Un autre critère pertinent pour moduler la dureté de la réduction peut être la présence de parole pour la trame temporelle considérée.
- Avec l'algorithme conventionnel, lorsqu'on tente d'augmenter la dureté de débruitage Gmin , le phénomène de "voix robotisée" apparait avant celui de "bruit musical". Ainsi, il parait possible et intéressant d'appliquer une dureté de débruitage plus grande dans une phase de bruit seul, en modulant simplement le paramètre de dureté de débruitage par un indicateur global de présence de parole : en période de bruit seul, le bruit résiduel - à l'origine de la fatigue d'écoute - sera réduit par application d'une dureté plus importante, et ce sans contrepartie puisque la dureté en phase de parole peut rester inchangée.
- Comme l'algorithme de réduction de bruit repose sur un calcul de probabilité de présence de parole fréquentielle, il est aisé d'obtenir un indice moyen de présence de parole à l'échelle de la trame à partir des différentes probabilités fréquentielles, de manière à différencier les trames principalement constituées de bruit de celles qui contiennent de la parole utile. On peut par exemple utiliser l'estimateur classique :
- Pspeech (k) étant la probabilité moyenne de parole évaluée au niveau de la trame temporelle courante,
- N étant le nombre de bins du spectre, et
- p(k,l) étant la probabilité de présence de parole du bin d'indice l de la trame temporelle courante.
-
- Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,
- Gmin étant une valeur nominale paramétrée de ce gain minimal, et
- Δ1 Gmin étant un incrément/décrément apporté à Gmin en phase de bruit, et
- Δ2 Gmin étant un incrément/décrément apporté à Gmin en phase de parole.
- L'expression ci-dessus met bien en évidence les deux effets complémentaires de l'optimisation présentée, à savoir :
- l'augmentation de la dureté de la réduction de bruit d'un facteur Δ1 Gmin en phase de bruit afin de réduire le bruit résiduel, typiquement Δ1 > 0, par exemple Δ1 = +6 dB ; et
- la diminution de la dureté de la réduction de bruit d'un facteur Δ2 Gmin en phase de parole afin de mieux préserver la voix, typiquement Δ2 < 0, par exemple Δ2 = -3 dB.
- Dans cette troisième implémentation, un détecteur d'activité vocale ou VAD (bloc 30) est mis à profit pour effectuer le même type de modulation de dureté que dans l'exemple précédent. Un tel détecteur "parfait" délivre un signal binaire (absence vs. présence de parole), et se distingue des systèmes délivrant seulement une probabilité de présence de parole variable entre 0 et 100 % de façon continue ou par pas successifs, qui peuvent introduire des fausses détections importantes dans des environnements bruités.
-
- Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,
- Gmin étant une valeur nominale paramétrée dudit gain minimal,
- VAD (k) étant la valeur du signal booléen de détection d'activité vocale pour la trame temporelle courante, évalué dans le domaine temporel (bloc 30) et appliqué à l'entrée n° ③ du bloc 24, et
- ΔGmin étant l'incrément/décrément apporté à la valeur Gmin.
- Le détecteur d'activité vocale 30 peut être réalisé de différentes manières, dont a va donner ci-dessous trois exemples d'implémentation.
- Dans un premier exemple, la détection est opérée à partir du signal y(k), d'une manière intrinsèque au signal recueilli par le micro ; une analyse du caractère plus ou moins harmonique de ce signal permet de déterminer la présence d'une activité vocale, car un signal présentant une forte harmonicité peut être considéré, avec une faible marge d'erreur, comme étant un signal de voix, donc correspondant à une présence de parole.
- Dans un deuxième exemple, le détecteur d'activité vocale 30 fonctionne en réponse au signal produit par une caméra, installée par exemple dans l'habitacle d'un véhicule automobile et orientée de manière que son angle de champ englobe en toutes circonstances la tête du conducteur, considéré comme le locuteur proche. Le signal délivré par la caméra est analysé pour déterminer d'après le mouvement de la bouche et des lèvres si le locuteur parle ou non, comme cela est décrit entre autres dans le
EP 2 530 672 A1 (Parrot SA) , auquel on pourra se référer pour de plus amples explications. L'avantage de cette technique d'analyse d'image est de disposer d'une information complémentaire totalement indépendante de l'environnement de bruit acoustique. - Un troisième exemple de capteur utilisable pour la détection d'activité vocale est un capteur physiologique susceptible de détecter certaines vibrations vocales du locuteur qui ne sont pas ou peu corrompues par le bruit environnant. Un tel capteur peut être notamment constitué d'un accéléromètre ou d'un capteur piézoélectrique appliqué contre la joue ou la tempe du locuteur. Il peut être en particulier incorporé au coussinet d'un écouteur d'un ensemble combiné micro/casque, comme cela est décrit dans le
EP 2 518 724 A1 (Parrot SA), auquel on pourra se reporter pour plus de détails. - En effet, lorsqu'une personne émet un son voisé (c'est-à-dire une composante de parole dont la production s'accompagne d'une vibration des cordes vocales), une vibration se propage depuis les cordes vocales jusqu'au pharynx et à la cavité bucco-nasale, où elle est modulée, amplifiée et articulée. La bouche, le voile du palais, le pharynx, les sinus et les fosses nasales servent ensuite de caisse de résonance à ce son voisé et, leur paroi étant élastique, elles vibrent à leur tour et ces vibrations sont transmises par conduction osseuse interne et sont perceptibles au niveau de la joue et de la tempe.
- Ces vibrations au niveau de la joue et de la tempe présentent la caractéristique d'être, par nature, très peu corrompues par le bruit environnant. En effet, en présence de bruits extérieurs, même importants, les tissus de la joue et de la tempe ne vibrent quasiment pas, et ceci quelle que soit la composition spectrale du bruit extérieur. Un capteur physiologique qui recueille ces vibrations vocales dépourvues de bruit donne un signal représentatif de la présence ou de l'absence de sons voisés émis par le locuteur, permettant donc de discriminer très bien les phases de parole et les phases de silence du locuteur.
- En variante ou en complément de ce qui précède, le gain spectral GOMLSA - calculé dans le domaine fréquentiel pour chaque bin - peut être modulé de façon indirecte, en pondérant la probabilité de présence de parole fréquentielle p(k,l) par un indicateur global temporel observé au niveau de la trame (et non plus d'un simple bin fréquentiel particulier).
- Dans ce cas, si une trame de bruit seul est détectée, on peut avantageusement considérer que chaque probabilité fréquentielle de parole devrait être nulle, et la probabilité fréquentielle locale pourra être pondérée par une donnée globale, cette donnée globale permettant de faire une déduction sur le cas réel rencontré à l'échelle de la trame (phase de parole/phase de bruit seul), que la seule donnée dans le domaine fréquentiel n'autorise pas à formuler ; en présence de bruit seul, on pourra se ramener à un débruitage uniforme, évitant toute musicalité du bruit, qui gardera son "grain" d'origine.
- En d'autres termes, la probabilité de présence de parole initialement fréquentielle sera pondérée par une probabilité de présence globale de parole à l'échelle de la trame : on s'efforcera alors de débruiter de manière homogène l'ensemble de la trame dans un cas d'absence de parole (débruiter uniformément quand la parole est absente).
- En effet, comme on l'a exposé plus haut, de présence de parole Pspeech (k) (calculée comme la moyenne arithmétique des probabilités fréquentielles de présence de parole) est un indicateur plutôt fiable de la présence de parole à l'échelle de la trame. On peut alors envisager de modifier l'expression conventionnelle du calcul du gain OM-LSA, à savoir :
en pondérant la probabilité fréquentielle de présence de parole par une donnée globale pglob (k) de présence de parole évaluée au niveau de la trame : - GOivfLSA (k,l) étant le gain spectral à appliquer au bin d'indice l de la trame temporelle courante,
- G (k,l) étant un gain de débruitage sous-optimal à appliquer au bin d'indice l,
- p(k,l) étant la probabilité de présence de parole du bin d'indice l de la trame temporelle courante,
- pglob (k) étant la probabilité globale et seuillée de parole, évaluée au niveau de la trame temporelle courante, et
- Gmin étant une valeur nominale paramétrée du gain spectral.
-
- Pseuil étant une valeur de seuil de la probabilité globale de parole, et
- N étant le nombre de bins dans le spectre.
-
- En d'autres termes :
- en présence de parole au niveau de la trame, c'est-à-dire si Pspeech (k) > Pseuil , l'expression conventionnelle du calcul du gain OM-LSA reste inchangée ;
- en l'absence de parole au niveau de la trame, c'est-à-dire si Pspeech (k) < P seui/, les probabilités fréquentielles p(k,l) seront en revanche pondérées par la probabilité globale pglob (k) faible, ce qui aura pour impact d'uniformiser les probabilités en diminuant leurs valeurs ;
- dans le cas asymptotique particulier Pspeech (k) = 0, toutes les probabilités seront nulles et le débruitage sera totalement uniforme.
- L'évaluation de la donnée globale pglob (k) est schématisée sur la
Figure 2 par le bloc 32, qui reçoit en entrée les données Pseuil (valeur de seuil paramétrable) et Pspeech (k,l) (valeur elle-même calculée par le bloc 28, comme décrit plus haut), et délivre en sortie la valeur pglob (k) qui est appliquée à l'entrée ④ du bloc 24. - Ici encore, on utilise une donnée globale calculée au niveau de la trame pour affiner le calcul du gain fréquentiel de débruitage, et ceci en fonction du cas de figure rencontré (absence/présence de parole). En particulier, la donnée globale permet d'estimer la situation réelle rencontrée à l'échelle de la trame (phase de parole vs. phase de bruit seul), ce que la seule donnée fréquentielle ne permettrait pas de formuler. Et en présence de bruit seul, on peut se ramener à un débruitage uniforme, solution idéale car le bruit résiduel perçu ne sera alors jamais musical.
- Comme on vient de l'exposer, l'invention repose sur la mise en évidence de ce que le compromis débruitage/dégradation du signal repose sur un calcul de gain spectral (fonction d'un paramètre scalaire de gain minimal et d'une probabilité de présence de parole) dont le modèle est sous-optimal, et propose une formule impliquant une modulation temporelle de ces éléments de calcul du gain spectral, qui deviennent fonction de descripteurs temporels pertinents du signal de parole bruitée.
- L'invention repose sur l'exploitation d'une donnée globale pour traiter de manière plus pertinente et adaptée chaque bande de fréquence, la dureté de débruitage étant rendue variable en fonction de la présence de parole sur une trame (on débruite plus quand le risque d'avoir une contrepartie est faible).
- Dans l'algorithme OM-LSA conventionnel, chaque bande de fréquence est traitée de manière indépendante, et pour une fréquence donnée on n'intègre pas la connaissance a priori des autres bandes. Or, une analyse plus large qui observe l'ensemble de la trame pour calculer un indicateur global caractéristique de la trame (ici, un indicateur de présence de parole capable de discriminer même grossièrement phase de bruit seul et phase de parole) est un moyen utile et efficace pour affiner le traitement à l'échelle de la bande de fréquences.
- Concrètement, dans un algorithme OM-LSA conventionnel, le gain de débruitage est généralement ajusté à une valeur de compromis, typiquement de l'ordre de 14 dB.
- La mise en oeuvre de l'invention permet d'ajuster ce gain dynamiquement à une valeur variant entre 8 dB (en présence de parole) et 17 dB (en présence de bruit seul). La réduction de bruit est ainsi beaucoup plus énergique, et rend le bruit pratiquement imperceptible (et en tout état de cause non musical) en l'absence de parole dans la majeure partie des situations couramment rencontrées. Et même en présence de parole, le débruitage ne modifie pas la tonalité de la voix, dont le rendu reste naturel.
Claims (8)
- Un procédé de débruitage d'un signal audio par application d'un algorithme à gain spectral variable fonction d'une probabilité de présence de parole, comportant les étapes successives suivantes :a) génération (10) de trames temporelles successives (y(k)) du signal audio bruité numérisé (y(n)) ;b) application d'une transformation de Fourier (12) aux trames générées à l'étape a), de manière à produire pour chaque trame temporelle de signal un spectre de signal (Y(k,l)) avec une pluralité de bandes de fréquences prédéterminées ;c) dans le domaine fréquentiel :c1) estimation (18), pour chaque bande de fréquences de chaque trame temporelle courante, d'une probabilité de présence de parole (p(k,l)) ;c3) calcul (16) d'un gain spectral (GOMLSA (k,l)), propre à chaque bande de fréquence de chaque trame temporelle courante, en fonction de : i) une estimation de l'énergie du bruit dans chaque bande de fréquences, ii) la probabilité de présence de parole estimée à l'étape c1), et iii) une valeur scalaire de gain minimal (Gmin ) représentative d'un paramètre de dureté du débruitage ;c4) réduction sélective de bruit (14) par application à chaque bande de fréquences du gain calculé à l'étape c3) ;d) application d'une transformation de Fourier inverse (20) au spectre de signal (X̂(k,l)) constitué des bandes de fréquences produites à l'étape c4), de manière à délivrer pour chaque spectre une trame temporelle de signal débruité ; ete) reconstitution (22) d'un signal audio débruité à partir des trames temporelles délivrées à l'étape d),procédé caractérisé en ce que :- ladite valeur scalaire de gain minimal (Gmin ) est une valeur (Gmin (k)) modulable de manière dynamique à chaque trame temporelle (y(k)) successive ; et- le procédé comporte en outre, préalablement à l'étape c3) de calcul du gain spectral, une étape de :c2) calcul (24), pour la trame temporelle courante (y(k)), de ladite valeur modulable (Gmin (k)) en fonction d'une variable globale (SNRy (k) ; Pspeech (k); VAD (k)) observée au niveau de la trame temporelle courante pour toutes les bandes de fréquences ; et- ledit calcul de l'étape c2) comprend l'application, pour la trame temporelle courante, d'un incrément/décrément (ΔGmin (k) ; Δ1 Gmin , Δ2 Gmin ; ΔGmin ) apporté à une valeur paramétrée nominale (Gmin ) dudit gain minimal.
- Le procédé de la revendication 1, dans lequel ladite variable globale est un rapport signal sur bruit (SNRy (k)) de la trame temporelle courante, évalué (26) dans le domaine temporel.
- Le procédé de la revendication 2, dans lequel la valeur scalaire de gain minimal est calculée à l'étape c2) par application de la relation :k étant l'indice de la trame temporelle courante,Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,Gmin étant ladite valeur nominale paramétrée du gain minimal,ΔGmin (k) étant ledit incrément/décrément apporté à Gmin , etSNRy (k) étant le rapport signal sur bruit de la trame temporelle courante.
- Le procédé de la revendication 1, dans lequel ladite variable globale est une probabilité moyenne de parole (Pspeech (k)), évaluée (28) au niveau de la trame temporelle courante.
- Le procédé de la revendication 4, dans lequel la valeur scalaire de gain minimal est calculée à l'étape c2) par application de la relation :k étant l'indice de la trame temporelle courante,Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante,Gmin étant ladite valeur nominale paramétrée du gain minimal,Pspeech (k) étant la probabilité moyenne de parole évaluée au niveau de la trame temporelle courante,Δ1 Gmin étant ledit incrément/décrément, apporté à Gmin en phase de bruit, etΔ2 Gmin étant ledit incrément/décrément, apporté à Gmin en phase de parole.
- Le procédé de la revendication 4, dans lequel la probabilité moyenne de parole est évaluée au niveau de la trame temporelle courante par application de la relation :l étant l'indice de la bande de fréquences,N étant le nombre de bandes de fréquences dans le spectre, etp(k,l) étant la probabilité de présence de parole de la bande de fréquences d'indice l de la trame temporelle courante.
- Le procédé de la revendication 1, dans lequel ladite variable globale est un signal booléen de détection d'activité vocale (VAD (k)) pour la trame temporelle courante, évalué (30) dans le domaine temporel par analyse de la trame temporelle et/ou au moyen d'un détecteur externe.
- Le procédé de la revendication 7, dans lequel la valeur scalaire de gain minimal est calculée à l'étape c2) par application de la relation :k étant l'indice de la trame temporelle courante,Gmin (k) étant le gain minimal à appliquer à la trame temporelle courante, Gmin étant ladite valeur nominale paramétrée du gain minimal,VAD (k) étant la valeur du signal booléen de détection d'activité vocale pour la trame temporelle courante, etΔGmin étant ledit incrément/décrément apporté à Gmin.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1351760A FR3002679B1 (fr) | 2013-02-28 | 2013-02-28 | Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement |
Publications (2)
Publication Number | Publication Date |
---|---|
EP2772916A1 EP2772916A1 (fr) | 2014-09-03 |
EP2772916B1 true EP2772916B1 (fr) | 2015-12-02 |
Family
ID=48521235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP14155968.2A Active EP2772916B1 (fr) | 2013-02-28 | 2014-02-20 | Procédé de débruitage d'un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140244245A1 (fr) |
EP (1) | EP2772916B1 (fr) |
CN (1) | CN104021798B (fr) |
FR (1) | FR3002679B1 (fr) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015191470A1 (fr) * | 2014-06-09 | 2015-12-17 | Dolby Laboratories Licensing Corporation | Estimation du niveau de bruit |
US9330684B1 (en) * | 2015-03-27 | 2016-05-03 | Continental Automotive Systems, Inc. | Real-time wind buffet noise detection |
US20160379661A1 (en) * | 2015-06-26 | 2016-12-29 | Intel IP Corporation | Noise reduction for electronic devices |
WO2017068747A1 (fr) | 2015-10-20 | 2017-04-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Dispositif de communication et procédé de communication |
FR3044197A1 (fr) | 2015-11-19 | 2017-05-26 | Parrot | Casque audio a controle actif de bruit, controle anti-occlusion et annulation de l'attenuation passive, en fonction de la presence ou de l'absence d'une activite vocale de l'utilisateur de casque. |
US11270198B2 (en) * | 2017-07-31 | 2022-03-08 | Syntiant | Microcontroller interface for audio signal processing |
CN111477237B (zh) * | 2019-01-04 | 2022-01-07 | 北京京东尚科信息技术有限公司 | 音频降噪方法、装置和电子设备 |
WO2021003334A1 (fr) * | 2019-07-03 | 2021-01-07 | The Board Of Trustees Of The University Of Illinois | Séparation de signaux espace-temps avec des réseaux déplaçables et asynchrones |
CN112564655A (zh) * | 2019-09-26 | 2021-03-26 | 大众问问(北京)信息科技有限公司 | 一种音频信号增益控制方法、装置、设备及存储介质 |
US11557307B2 (en) * | 2019-10-20 | 2023-01-17 | Listen AS | User voice control system |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001059766A1 (fr) * | 2000-02-11 | 2001-08-16 | Comsat Corporation | Reduction du bruit de fond dans des systemes de codage vocal sinusoidaux |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
US7454010B1 (en) * | 2004-11-03 | 2008-11-18 | Acoustic Technologies, Inc. | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation |
GB2426166B (en) * | 2005-05-09 | 2007-10-17 | Toshiba Res Europ Ltd | Voice activity detection apparatus and method |
JP4670483B2 (ja) * | 2005-05-31 | 2011-04-13 | 日本電気株式会社 | 雑音抑圧の方法及び装置 |
CN100419854C (zh) * | 2005-11-23 | 2008-09-17 | 北京中星微电子有限公司 | 一种语音增益因子估计装置和方法 |
US7555075B2 (en) * | 2006-04-07 | 2009-06-30 | Freescale Semiconductor, Inc. | Adjustable noise suppression system |
KR100821177B1 (ko) * | 2006-09-29 | 2008-04-14 | 한국전자통신연구원 | 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법 |
US8081691B2 (en) * | 2008-01-14 | 2011-12-20 | Qualcomm Incorporated | Detection of interferers using divergence of signal quality estimates |
CN101478296B (zh) * | 2009-01-05 | 2011-12-21 | 华为终端有限公司 | 一种多声道系统中的增益控制方法及装置 |
CN101510426B (zh) * | 2009-03-23 | 2013-03-27 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
US8249275B1 (en) * | 2009-06-26 | 2012-08-21 | Cirrus Logic, Inc. | Modulated gain audio control and zipper noise suppression techniques using modulated gain |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
US20110188671A1 (en) * | 2009-10-15 | 2011-08-04 | Georgia Tech Research Corporation | Adaptive gain control based on signal-to-noise ratio for noise suppression |
JP2012058358A (ja) * | 2010-09-07 | 2012-03-22 | Sony Corp | 雑音抑圧装置、雑音抑圧方法およびプログラム |
KR101726737B1 (ko) * | 2010-12-14 | 2017-04-13 | 삼성전자주식회사 | 다채널 음원 분리 장치 및 그 방법 |
FR2976111B1 (fr) * | 2011-06-01 | 2013-07-05 | Parrot | Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" |
US20120316875A1 (en) * | 2011-06-10 | 2012-12-13 | Red Shift Company, Llc | Hosted speech handling |
-
2013
- 2013-02-28 FR FR1351760A patent/FR3002679B1/fr not_active Expired - Fee Related
-
2014
- 2014-02-20 EP EP14155968.2A patent/EP2772916B1/fr active Active
- 2014-02-26 US US14/190,859 patent/US20140244245A1/en not_active Abandoned
- 2014-02-28 CN CN201410163809.6A patent/CN104021798B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
FR3002679B1 (fr) | 2016-07-22 |
US20140244245A1 (en) | 2014-08-28 |
CN104021798A (zh) | 2014-09-03 |
CN104021798B (zh) | 2019-05-28 |
EP2772916A1 (fr) | 2014-09-03 |
FR3002679A1 (fr) | 2014-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2772916B1 (fr) | Procédé de débruitage d'un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement | |
EP2293594B1 (fr) | Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile | |
CA2436318C (fr) | Procede et dispositif de reduction de bruit | |
EP2680262B1 (fr) | Procédé de débruitage d'un signal acoustique pour un dispositif audio multi-microphone opérant dans un milieu bruité | |
EP2309499B1 (fr) | Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile | |
EP1789956B1 (fr) | Procede de traitement d'un signal sonore bruite et dispositif pour la mise en oeuvre du procede | |
EP1830349B1 (fr) | Procédé de débruitage d'un signal audio | |
EP1154405B1 (fr) | Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant | |
EP2530673B1 (fr) | Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire | |
EP2057835B1 (fr) | Procédé de réduction de l'écho acoustique résiduel après suppression d'écho dans un dispositif "mains libres" | |
EP2538409B1 (fr) | Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie "mains libres" | |
FR3012928A1 (fr) | Modificateurs reposant sur un snr estime exterieurement pour des calculs internes de mmse | |
FR3012929A1 (fr) | Modificateur de la presence de probabilite de la parole perfectionnant les performances de suppression du bruit reposant sur le log-mmse | |
CA2932449A1 (fr) | Procede de detection de la voix | |
EP3192073B1 (fr) | Discrimination et atténuation de pré-échos dans un signal audionumérique | |
FR3012927A1 (fr) | Estimation precise du rapport signal a bruit par progression reposant sur une probabilite de la presence de la parole mmse | |
EP0534837B1 (fr) | Procédé de traitement de la parole en présence de bruits acoustiques utilisant la sous traction spectrale non-linéaire et les modèles de Markov cachés | |
EP3627510A1 (fr) | Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale | |
EP2515300B1 (fr) | Procédé et système de réduction du bruit | |
WO2017207286A1 (fr) | Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise | |
FR3085784A1 (fr) | Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel | |
EP4315328A1 (fr) | Estimation d'un masque optimise pour le traitement de donnees sonores acquises | |
FR3113537A1 (fr) | Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé | |
EP4287648A1 (fr) | Dispositif électronique et procédé de traitement, appareil acoustique et programme d'ordinateur associés | |
BE1020218A3 (fr) | Procede pour ameliorer la resolution temporelle des informations fournies par un filtre compose et dispositif correspondant. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20140220 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
AX | Request for extension of the european patent |
Extension state: BA ME |
|
R17P | Request for examination filed (corrected) |
Effective date: 20150209 |
|
RBV | Designated contracting states (corrected) |
Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
RIC1 | Information provided on ipc code assigned before grant |
Ipc: G10L 25/18 20130101ALN20150603BHEP Ipc: G10L 25/84 20130101ALN20150603BHEP Ipc: G10L 21/0208 20130101AFI20150603BHEP |
|
INTG | Intention to grant announced |
Effective date: 20150629 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: PARROT AUTOMOTIVE |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: REF Ref document number: 763939 Country of ref document: AT Kind code of ref document: T Effective date: 20151215 Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: FRENCH |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R096 Ref document number: 602014000497 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 3 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: FP |
|
REG | Reference to a national code |
Ref country code: LT Ref legal event code: MG4D |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MK05 Ref document number: 763939 Country of ref document: AT Kind code of ref document: T Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160302 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: LT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160303 Ref country code: LV Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: RS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20160229 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: PL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CZ Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160404 Ref country code: RO Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: SK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: SM Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: IS Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160402 Ref country code: EE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R097 Ref document number: 602014000497 Country of ref document: DE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20160220 Ref country code: MC Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
26N | No opposition filed |
Effective date: 20160905 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: MM4A |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20160220 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 4 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170228 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170228 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 5 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: HU Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO Effective date: 20140220 Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: HR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 Ref country code: MK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BG Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20151202 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 20190219 Year of fee payment: 6 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MM Effective date: 20200301 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200301 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20230119 Year of fee payment: 10 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20230120 Year of fee payment: 10 Ref country code: GB Payment date: 20230121 Year of fee payment: 10 Ref country code: DE Payment date: 20230119 Year of fee payment: 10 |