EP1830349B1 - Procédé de débruitage d'un signal audio - Google Patents

Procédé de débruitage d'un signal audio Download PDF

Info

Publication number
EP1830349B1
EP1830349B1 EP07290219A EP07290219A EP1830349B1 EP 1830349 B1 EP1830349 B1 EP 1830349B1 EP 07290219 A EP07290219 A EP 07290219A EP 07290219 A EP07290219 A EP 07290219A EP 1830349 B1 EP1830349 B1 EP 1830349B1
Authority
EP
European Patent Office
Prior art keywords
signal
speech
algorithm
noise
noisy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP07290219A
Other languages
German (de)
English (en)
Other versions
EP1830349A1 (fr
Inventor
Guillaume Pinto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Publication of EP1830349A1 publication Critical patent/EP1830349A1/fr
Application granted granted Critical
Publication of EP1830349B1 publication Critical patent/EP1830349B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to the denoising of audio signals picked up by a microphone in a noisy environment.
  • the invention is advantageously applied, but in a nonlimiting manner, to the speech signals picked up by the hands-free telephones or the like.
  • These devices include a sensitive microphone not only capturing the voice of the user, but also the surrounding noise, noise that is a disruptive element that can go, in some cases, to make incomprehensible the speaker's words.
  • the WO-A-98/45997 uses the push-button activation of a phone (for example when the driver wants to answer an incoming call) to detect the beginning of a speech signal and consider that the signal previously received to this support was essentially a noise signal. This last signal, stored, is analyzed to give a weighted average energy spectrum of the noise, then subtract from the noisy speech signal.
  • the US-A-5,742,694 describes another technique, implementing a predictive adaptive filter type mechanism.
  • This filter delivers a "reference signal” corresponding to the predictable part of the noisy signal and an "error signal” corresponding to the prediction error, then attenuates these two signals in variable proportions, and recombines them to provide a signal noised.
  • Still other techniques called beamforming or double-phoning , implement two separate microphones.
  • the first is designed and placed to primarily capture the speaker's voice, while the other is designed and placed to capture a larger noise component than the main microphone.
  • the comparison of the signals captured makes it possible to extract the voice of the ambient noise efficiently, and by relatively simple software means.
  • This technique based on a spatial coherence analysis of two signals, however, has the disadvantage of requiring two remote microphones, which generally confines it to fixed or semi-fixed installations and does not allow to integrate it into a pre-existing device by simply adding a software module. It also assumes that the speaker's position relative to the two microphones is approximately constant, which is generally the case in a car phone used by its driver. In addition, to achieve a near satisfactory denoising, the signals are subjected to a significant pre-filtering, which again has the disadvantage of introducing distortions that degrade the quality of the denoised signal restored.
  • the invention relates to a technique for denoising audio signals picked up by a single microphone recording a voice signal in a noisy environment.
  • the application of a gain called gain LSA makes it possible to minimize the mean square distance between the logarithm of the amplitude of the estimated signal and the logarithm of the amplitude of the original speech signal.
  • This second criterion is superior to the first because the distance chosen is much better suited to the behavior of the human ear and therefore qualitatively gives better results.
  • the essential idea is to reduce the energy of the very noisy frequency components by applying a low gain while leaving intact (by the application of a gain equal to 1) those that are little or no at all.
  • the knowledge of the indices of the frames where the speech is absent makes it possible to evaluate the power of the noise as well as its evolution over time on this segment of the spectrum. It suffices to measure the energy of the raw signal when the speech is absent and to make an average continuously updated these measurements. The main question is therefore when exactly the speech of the speaker is absent from the signal picked up by the microphone.
  • the method described in this article is not intended to identify precisely on which frequency components of which frames the speech is absent, but rather to give a confidence index between 0 and 1, a value of 1 indicating that the speech is absent for sure (according to the algorithm) while a value 0 declares the opposite.
  • this index is likened to the probability of absence of speech a priori , ie the probability that speech is absent on a given frequency component of the frame considered. This is of course a non-rigorous assimilation in the sense that even if the presence of speech is probabilistic ex ante, the signal picked up by the microphone can at any moment only go through two distinct states. It can either (at the moment considered) include speech or not contain it.
  • One of the aims of the invention is to overcome the drawbacks of the methods proposed up to now, by means of an improved denoising method applicable to a speech signal considered in isolation, in particular a signal picked up by a single microphone, a method which is based on the analysis of the temporal coherence of the captured signals.
  • the starting point of the invention lies in the observation that speech generally has a temporal coherence greater than noise and that, as a result, it is clearly more predictable.
  • the invention proposes to use this property to calculate a reference signal where the speech has been more attenuated than the noise, by applying in particular a predictive algorithm which may for example be of the LMS ( Least Mean Squares, Least Mean Squares ) type. ).
  • This reference signal derived from the speech signal to be denoised may be used in a manner comparable to that of the signal of the second microphone of beam-forming techniques. two-way, for example techniques similar to those of Cohen and Berdugo [4, supra].
  • the calculation of a ratio between the respective energy levels of the original signal and the reference signal thus obtained will make it possible to discriminate between the speech components and the nonstationary noise noises, and will provide an estimate of the probability of presence of speech of independently of any statistical model.
  • the technique proposed by the invention implements an "intelligent subtraction” implying, after a linear prediction made on the passed samples of the original signal (and not of a prefiltered signal, thus degraded), a registration phase between the original signal and the predicted signal.
  • the technique of the invention turns out, in practice, sufficiently powerful to provide extremely effective denoising directly on the original signal, freeing distortions introduced by a prefiltering chain, become unnecessary.
  • the predictive algorithm is advantageously a recursive adaptive algorithm of LMS mean least squares type.
  • Step c) advantageously comprises the application of a variable gain algorithm depending on the probability of presence / absence of speech, in particular an OM-LSA optimized modified log-spectral amplitude gain type algorithm.
  • the signal that we want to denoise is a sampled digital signal x (n) , where n denotes the number of the sample ( n is the temporal variable).
  • the noisy signal x (n) is applied as input to a predictive LMS algorithm schematized by block 10, including the application of appropriate delays 12.
  • a predictive LMS algorithm schematized by block 10 including the application of appropriate delays 12. The operation of this LMS algorithm will be described below, with reference to FIG. figure 2 .
  • the short-term Fourier transform of the captured signal x (n) (block 16) and the signal y (n) delivered by the predictive LMS algorithm (block 14) are then calculated. From these two transforms is calculated a reference signal (block 18), which is one of the input variables of an algorithm for calculating the probability of absence of speech (block 24). Meanwhile, the noisy signal transform x (n), from block 16, is also applied to the probability calculation algorithm.
  • Blocks 20 and 22 estimate the pseudo-stationary noise of the reference signal and the noisy signal transform is estimated, and the result is also applied to the probability calculation algorithm.
  • the result of the speech absence probability calculation, as well as the noisy signal transform, are inputted to an OM-LSA gain processing algorithm (block 26), the result of which is subjected to an inverse transformation of Fourier (block 28) to give an estimate of speech de-noiseed.
  • the predictive algorithm LMS (block 10) is schematized on the figure 2 .
  • ⁇ i ⁇ not + 1 ⁇ i not + 2 ⁇ ⁇ not ⁇ x ⁇ not - ⁇ - i + 1 ⁇ being a gain constant which makes it possible to adjust the speed and the stability of the adaptation.
  • the respective signals x (n) and y (n) (noisy speech signal and linear prediction) are split into frames of identical lengths, and their short-term Fourier transform (denoted respectively X and Y ) is calculated for each frame.
  • the algorithm predicts a 50% overlap between consecutive frames, and the samples are multiplied by the coefficients of the Hanning window so that the addition of even and odd fields corresponds to the signal of origin itself.
  • E ⁇ Ref k ⁇ l 2 E ⁇ S k ⁇ l 2 ⁇ ⁇ S k + E ⁇ D t k ⁇ l 2 ⁇ ⁇ D t k + E ⁇ D ps k ⁇ l 2 ⁇ ⁇ D ps k or ⁇ S k ⁇ ⁇ D t k ⁇ ⁇ D ps k represent the attenuation on the reference signal of the three signals in each spectrum segment.
  • S being a smoothed estimate of the instantaneous energy:
  • M being an estimator of the pseudo-stationary energy, which can be obtained for example by a method MCRA ( Minima Controlled Recursive Averaging ) of the same type as that described by Cohen and Berdugo [5, supra] (however, several alternatives exist in the literature).
  • L x and L Ref are transient detection thresholds.
  • ⁇ min (k) and ⁇ m ax (k) are the upper and lower limits for each spectrum segment. These various parameters are chosen so as to correspond to typical situations, close to reality.
  • the next step (corresponding to block 26 of the figure 1 ) consists in operating the denoising itself (reinforcement of the speech component).
  • the estimator just described will be applied to the statistical model described by Ephraim and Malah [2, supra], which assumes that the noise and speech in each spectrum segment are independent Gaussian processes of respective variances ⁇ x ( k, l) and ⁇ d (k, l) .
  • This step may advantageously implement the OM-LSA gain algorithm ( Optimally Modified Log-Spectral Amplitude Gain ) described by Cohen and Berdugo [3, cited above].
  • the G min gain in the absence of speech hypothesis is a lower limit for noise reduction, in order to limit the distortion of speech.
  • the signal obtained at the end of this treatment is subjected to an inverse Fourier transform (block 28) to give the final estimate of the denoised speech.
  • the algorithm of the present invention is particularly effective in noisy environments, parasitized by both mechanical noises, vibrations, etc. as well as by musical noises, characteristic situations encountered in the interior of a car. Spectrograms show that the attenuation of the noise is not only effective, but is done without significant distortion of speech after denoising.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description

    CONTEXTE DE L'INVENTION Domaine de l'invention
  • La présente invention concerne le débruitage des signaux audio captés par un microphone dans un environnement bruité.
  • L'invention s'applique avantageusement, mais de façon non limitative, aux signaux de parole captés par les appareils téléphoniques de type "mains-libres" ou analogues.
  • Ces appareils comportent un microphone sensible captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller, dans certains cas, jusqu'à rendre incompréhensibles les paroles du locuteur.
  • Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, où il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
  • Cette difficulté liée au bruit ambiant est particulièrement contraignante dans le cas des dispositifs "mains-libres" pour véhicules automobiles. En particulier, la distance importante entre le microphone et le locuteur entraîne un niveau relatif de bruit élevé qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.
  • Description de la technique apparentée
  • Diverses techniques ont été proposées pour réduire le niveau de bruit du signal capté par un microphone.
  • Par exemple, le WO-A-98/45997 (Parrot SA) utilise l'appui sur le bouton-poussoir d'activation d'un téléphone (par exemple lorsque le conducteur veut répondre à un appel entrant) pour détecter le début d'un signal de parole et considérer que le signal capté antérieurement à cet appui était essentiellement un signal de bruit. Ce dernier signal, mémorisé, est analysé pour donner un spectre énergétique moyen pondéré du bruit, puis soustrait du signal de parole bruité.
  • Le US-A-5 742 694 décrit une autre technique, mettant en oeuvre un mécanisme de type filtre adaptatif prédictif. Ce filtre délivre un "signal de référence" correspondant à la partie prédictible du signal bruité et un "signal d'erreur" correspondant à l'erreur de prédiction, puis atténue ces deux signaux dans des proportions variables, et les recombine pour fournir un signal débruité.
  • L'inconvénient majeur de cette technique de débruitage réside dans la distorsion importante introduite par le préfiltrage, donnant en sortie un signal très dégradé sur le plan de la qualité acoustique. Elle est en outre mal adaptée aux situations où l'on aurait besoin d'un débruitage énergique avec un signal de parole noyé dans un bruit de nature complexe et imprévisible, avec des caractéristiques spectrales non stationnaires.
  • D'autre techniques encore, dites beamforming ou double-phoning, mettent en oeuvre deux microphones distincts. Le premier est conçu et placé pour capter principalement la voix du locuteur, tandis que l'autre est conçu et placé pour capter une composante de bruit plus importante que le microphone principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant de manière efficace, et par des moyens logiciels relativement simples.
  • Cette technique, fondée sur une analyse de cohérence spatiale de deux signaux, présente cependant l'inconvénient de nécessiter deux microphones distants, ce qui la cantonne généralement à des installations fixes ou semi-fixes et ne permet pas de l'intégrer à un dispositif préexistant par simple adjonction d'un module logiciel. Elle présuppose aussi que la position du locuteur par rapport aux deux microphones soit à peu près constante, ce qui est généralement le cas dans un téléphone de voiture utilisé par son conducteur. De plus, pour obtenir un débruitage à peu près satisfaisant, les signaux sont soumis à un préfiltrage important ce qui présente, ici encore, l'inconvénient d'introduire des distorsions venant dégrader la qualité du signal débruité restitué.
  • L'invention concerne une technique de débruitage des signaux audio captés par un microphone unique enregistrant un signal de voix dans un environnement bruité.
  • Une part importante des méthodes les plus efficaces mises en oeuvre dans les système à un seul microphone se fondent sur le modèle statistique établi par D. Malah et Y. Ephraim dans :
    1. [1] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No 6, pp. 1109-1121, Dec. 1984, et
    2. [2] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-33, No 2, pp. 443-445, April 1985.
  • Faisant l'approximation que la parole et le bruit sont des processus gaussiens non corrélés et présupposant que la puissance spectrale du bruit soit une donnée connue, ces deux articles donnent une solution optimale au problème de réduction de bruit décrit plus haut. Cette solution propose de découper le signal bruité en composantes fréquentielles indépendantes par l'utilisation de la transformée de Fourier discrète, d'appliquer un gain optimal sur chacune de ces composantes puis de recombiner le signal ainsi traité. Les deux articles divergent sur le choix du critère d'optimalité. Dans [1], le gain appliqué est nommé gain STSA et permet de minimiser la distance quadratique moyenne entre le signal estimé (à la sortie de l'algorithme) et le signal de parole originel (non bruité). Dans [2], l'application d'un gain nommé gain LSA permet quant à elle de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole original. Ce second critère se montre supérieur au premier car la distance choisie est en bien meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats. Dans tous les cas, l'idée essentielle est de diminuer l'énergie des composantes fréquentielles très bruités en leur appliquant un gain faible tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout.
  • Bien que séduisant puisque soutenu par une démonstration mathématique rigoureuse, ce procédé ne peut toutefois pas être mis en oeuvre tout seul. En effet, comme indiqué plus haut, la puissance spectrale du bruit est inconnue et imprévisible ex ante. De plus, ce même procédé ne propose pas d'évaluer à quels moments la parole du locuteur est présente dans le signai capté. Il se contente simplement de supposer soit que la parole est toujours présente, soit qu'elle est présente une portion fixe du temps, ce qui peut limiter sérieusement la qualité de la réduction de bruit.
  • Il est donc nécessaire d'utiliser un autre algorithme ayant pour fonction d'évaluer la puissance spectrale du bruit ainsi que les instants où la parole du locuteur est présente sur le signal brut capté. Il s'avère même que cette estimation constitue le facteur déterminant de la qualité de la réduction de bruit opérée, l'algorithme d'Ephraim et Malah n'étant que la manière optimale d'utiliser l'information ainsi obtenue.
  • C'est une solution originale à ce double problème d'évaluation du bruit et des instants de présence du signal de parole qu'apporte la présente invention.
  • Ces deux questions sont en réalité intrinsèquement liées. En effet supposons que le signal brut capté est découpé en trames de longueurs égales, dont on calcule pour chacune la transformée de Fourier à court terme.
  • Pour une composante fréquentielle donnée, la connaissance des indices des trames où la parole est absente permet d'évaluer la puissance du bruit ainsi que son évolution au cours du temps sur ce segment du spectre. Il suffit en effet de mesurer l'énergie du signal brut lorsque la parole est absente et de faire une moyenne continuellement mise à jour de ces mesures. La question principale est donc de savoir quand exactement la parole du locuteur est absente du signal capté par le microphone.
  • Si le bruit est stationnaire ou pseudo-stationnaire, ce problème peut être aisément résolu en déclarant que la parole est absente dans un segment de spectre d'une trame donnée lorsque l'énergie spectrale des données pour ce segment de spectre n'a pas évolué ou a peu évolué par rapport aux dernières trames. Inversement, on déclare que la parole est présente en cas de comportement non stationnaire.
  • Toutefois, dans une environnement réel, a fortiori un environnement automobile dont on a indiqué plus haut que le bruit comportait de nombreuses caractéristiques spectrales non stationnaires, ce procédé est aisément pris en défaut, dans la mesure où aussi bien la parole que le bruit peuvent présenter des comportement transitoires. Or, si l'on décide de conserver toutes les composantes transitoires, il restera du bruit musical résiduel dans les données débruitées ; inversement, si l'on décide de supprimer les composantes transitoires en deçà d'un seuil énergétique donné, les composantes faibles de la parole seront alors effacées, alors que ces composantes peuvent être importantes, tant pour leur contenu informatif que pour l'intelligibilité générale (faible distorsion) du signal débruité restitué après traitement.
  • À cet égard, diverses méthodes ont été proposées. Parmi les plus efficaces, on peut citer celle décrite par :
    • [3] I. Cohen et B. Berdugo, Speech Enhancement for Non-Stationary Noise Environments, Signal Processing, Elsevier, Vol. 81, pp. 2403-2418,2001,
  • Comme fréquemment dans le domaine, le procédé décrit dans cet article n'a pas pour objectif d'identifier précisément sur quelles composantes fréquentielles de quelles trames la parole est absente, mais plutôt de donner un indice de confiance entre 0 et 1, une valeur 1 indiquant que la parole est absente à coup sûr (selon l'algorithme) tandis qu'une valeur 0 déclare le contraire. De par sa nature, cet indice est assimilé à la probabilité d'absence de la parole a priori, c'est à dire la probabilité que la parole soit absente sur une composante fréquentielle donnée de la trame considérée. Il s'agit bien sûr d'une assimilation non rigoureuse dans le sens que même si la présence de la parole est probabiliste ex ante, le signal capté par le microphone ne peut à chaque instant que passer par deux états distincts. Il peut soit (à l'instant considéré) comporter de la parole soit ne pas en contenir. Toutefois cette assimilation donne de bons résultats en pratique ce qui justifie son utilisation. Afin d'estimer cette probabilité d'absence, Cohen et Berdugo utilisent des moyennes sur des rapports signal à bruit a priori eux mêmes utilisés et calculés dans l'algorithme d'Ephraim et Malah. Ces auteurs décrivent également la technique dite de gain OM-LSA (Optimally-Modified Log-Spectral Amplitude), visant à améliorer le gain LSA par l'intégration de cette probabilité d'absence de la parole.
  • Cette estimation de la probabilité a priori d'absence de la parole se révèle efficace, mais dépend directement du modèle statistique élaboré par Ephraim et Malah et non d'une connaissance a priori des données.
  • Pour obtenir une estimée de la probabilité d'absence qui soit indépendante de ce modèle statistique, Cohen et Berdugo ont proposé dans :
    • [4] I. Cohen et B. Berdugo, Two Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio, Proc. ICASSP 2003, Hong Kong, pp. 233-236, April 2003,
    de calculer la probabilité d'absence à partir de signaux captés par deux microphones différemment placés, donnant des signaux respectifs sur deux voies différentes, dont la combinaison permet d'obtenir une voie dite de sortie et une voie dite de bruit de référence. L'analyse est basée sur la constatation que les composantes de parole sont relativement plus faibles sur la voie de bruit de référence, et que les composantes de bruit transitoire présentent à peu près la même énergie sur les deux voies. Une probabilité de présence de parole pour chaque segment de spectre de chaque trame est déterminée en calculant un ratio d'énergie entre les composantes non stationnaires des signaux respectifs des deux voies.
  • Mais, comme pour les techniques de beamforming ou double-phoning évoquées plus haut, ce procédé est assez contraignant dans la mesure où il nécessite deux microphones.
  • RÉSUMÉ DE L'INVENTION
  • L'un des buts de l'invention est de remédier aux inconvénients des méthodes proposées jusqu'à présent, grâce à un procédé perfectionné de débruitage applicable à un signal de parole considéré isolément, notamment un signal capté par un microphone unique, procédé qui soit basé sur l'analyse de la cohérence temporelle des signaux captés.
  • Le point de départ de l'invention réside dans la constatation que la parole présente généralement une cohérence temporelle supérieure au bruit et que, de ce fait, elle est nettement plus prédictible. Essentiellement, l'invention propose d'utiliser cette propriété pour calculer un signal de référence où la parole aura été plus atténuée que le bruit, en appliquant notamment un algorithme prédictif qui pourra par exemple être de type LMS (Least Mean Squares, moindres carrés moyens). Ce signal de référence dérivé du signal de parole à débruiter pourra être utilisé de façon comparable à celle du signal du second microphone des techniques de beam-forming à deux voies, par exemple des techniques semblables à celles de Cohen et Berdugo [4, précité]. Le calcul d'un ratio entre les niveaux d'énergie respectifs du signal originel et du signal de référence ainsi obtenu permettra de discriminer entre les composantes de parole et les bruits parasites non stationnaires, et fournira une estimation de la probabilité de présence de parole de façon indépendante de tout modèle statistique.
  • En d'autres termes, la technique proposée par l'invention met en oeuvre une "soustraction intelligente" impliquant, après une prédiction linéaire opérée sur les échantillons passés du signal originel (et non d'un signal préfiltré, donc dégradé), un recalage de phase entre le signal originel et le signal prédit.
  • La technique de l'invention s'avère, en pratique, suffisamment performante pour assurer un débruitage extrêmement efficace directement sur le signal originel, en s'affranchissant de distorsions introduites par une chaîne de préfiltrage, devenue inutile.
  • Plus précisément, la présente invention propose, pour le débruitage d'un signal audio bruité originel comportant une composante de parole combinée à une composante de bruit comprenant elle-même une composante de bruit transitoire et une composante de bruit pseudo-stationnaire, d'opérer une analyse de cohérence temporelle du signal bruité par les étapes de :
    1. a) détermination d'un signal de référence par application au signal bruité d'un traitement propre à atténuer de façon plus importante les composantes de parole que les composantes de bruit de ce signal bruité, ledit traitement comprenant : (a1) l'application d'un algorithme de prédiction linéaire adaptatif opérant sur une combinaison linéaire des échantillons antérieurs du signal bruité, et (a2) la détermination dudit signal de référence par une soustraction, avec compensation du déphasage, entre le signal bruité originel, non filtré et le signal délivré par l'algorithme de prédiction linéaire ;
    2. b) détermination d'une probabilité de présence/absence de parole a priori à partir des niveaux d'énergie respectifs dans le domaine spectral du signal bruité et du signal de référence ; et
    3. c) utilisation de cette probabilité d'absence de parole a priori pour estimer un spectre de bruit et dériver du signal bruité une estimée débruitée du signal de parole.
  • Le signal de référence peut notamment être déterminé par application à l'étape a2) d'une relation du type : Ref k l = X k l - X k l Y k l X k l
    Figure imgb0001

    X(k,l) et Y(k,l) sont les transformées de Fourier à court terme de chaque segment de spectre k de chaque trame l, respectivement du signal bruité originel et du signal délivré par l'algorithme de prédiction linéaire.
  • L'algorithme prédictif est avantageusement un algorithme adaptatif récursif de type moindres carrés moyens LMS.
  • L'étape b) comprend avantageusement l'application d'un algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans le signal de référence et dans le signal bruité, notamment un algorithme de type à moyennage récursif par contrôle des minima MRCA comme décrit dans :
    • [5] I. Cohen et B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1, pp. 12-15, Jan. 2002,
  • L'étape c) comprend avantageusement l'application d'un algorithme de gain variable fonction de la probabilité de présence/absence de parole, notamment un algorithme de type gain à amplitude log-spectrale modifié optimisé OM-LSA.
  • DESCRIPTION SOMMAIRE DES DESSINS
  • On va maintenant décrire un exemple de mise en oeuvre de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.
    • La figure 1 est un diagramme schématique illustrant les différentes opérations effectuées par un algorithme de débruitage conformément au procédé de l'invention.
    • La figure 2 est un diagramme schématique illustrant plus particulièrement l'algorithme prédictif LMS adaptatif.
    DESCRIPTION DÉTAILLÉE DU MODE DE MISE EN OEUVRE PRÉFÉRÉ
  • Le signal que l'on souhaite débruiter est un signal numérique échantillonné x(n), où n désigne le numéro de l'échantillon (n est donc la variable temporelle).
  • Le signal capté x(n) est une combinaison d'un signal de parole s(n) et d'un bruit surajouté, non corrélé, d(n) : x n = s n + d n
    Figure imgb0002
  • Ce bruit d(n) a deux composantes indépendantes, à savoir une composante transitoire dt(n) et une composante pseudo-stationnaire dps(n) : d n = d t n + d ps n
    Figure imgb0003
  • Comme illustré sur la figure 1, le signal bruité x(n) est appliqué en entrée d'un algorithme LMS prédictif schématisé par le bloc 10, incluant l'application de retards appropriés 12. Le fonctionnement de cet algorithme LMS sera décrit plus bas, en référence à la figure 2.
  • On calcule ensuite la transformé de Fourier à court terme du signal capté x(n) (bloc 16), ainsi que du signal y(n) délivré par l'algorithme LMS prédictif (bloc 14). À partir de ces deux transformées est calculé un signal de référence (bloc 18), qui constitue l'une des variables d'entrée d'un algorithme de calcul de la probabilité d'absence de parole (bloc 24). Parallèlement, la transformée du signal bruité x(n), issue du bloc 16, est également appliquée à l'algorithme de calcul de probabilité.
  • Les blocs 20 et 22 estiment le bruit pseudo-stationnaire du signal de référence et de la transformée du signal bruité est estimé, et le résultat est également appliqué à l'algorithme de calcul de probabilité.
  • Le résultat du calcul de probabilité d'absence de parole, ainsi que la transformée du signal bruité, sont appliqués en entrée d'un algorithme de traitement de gain OM-LSA (bloc 26), dont le résultat est soumis à une transformation inverse de Fourier (bloc 28) pour donner une estimée de la parole débruitée.
  • On va maintenant décrire plus en détail les différentes phases de ce traitement.
  • L'algorithme prédictif LMS (bloc 10) est schématisé sur la figure 2.
  • Dans la mesure où les signaux en présence sont globalement non stationnaires mais localement pseudo-stationnaires, on peut avantageusement utiliser un système adaptatif, qui pourra tenir compte des variations d'énergie du signal dans le temps et converger vers les divers optima locaux.
  • Essentiellement, si l'on applique des retards successifs Δ, la prédiction linéaire y(n) du signal x(n) est une combinaison linéaire des échantillons antérieurs {x(n - Δ - i + 1)}1≤i≤M : y n = i = 1 M ω i x n - Δ - i + 1
    Figure imgb0004
    qui minimise l'erreur quadratique moyenne de l'erreur de prédiction : ϵ n = x n - y n
    Figure imgb0005
  • La minimisation consiste à trouver : min ω 1 , ω 2 , , ω M E x n - i = 1 M ω i x n - Δ - i + 1 2
    Figure imgb0006
  • Pour résoudre ce problème, il est possible d'utiliser un algorithme LMS, qui est un algorithme en lui-même connu, décrit par exemple dans :
    • [6] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R. E. Kalman and N. De Claris (Eds). New York: Holt, Rinehart and Winston, pp. 563-587, 1970, et
    • [7] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEE, Vol. 63, No 12 pp. 1692-1716, Dec 1975.
  • On peut définir un procédé récursif d'adaptation des pondérations. ω i n + 1 = ω i n + 2 μϵ n x n - Δ - i + 1
    Figure imgb0007
    µ étant une constante de gain qui permet d'ajuster la vitesse et la stabilité de l'adaptation.
  • On pourra trouver des indications générales sur ces aspects de l'algorithme LMS dans :
    • [8] B. Widrow et S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.
  • On peut démontrer qu'une telle prédiction linéaire adaptative permet de discriminer efficacement entre bruit et parole car les échantillons contenant de la parole seront bien mieux prédits (plus petites erreurs quadratiques entre la prédiction et le signal brut) que ceux ne contenant que du bruit.
  • Plus précisément, les signaux respectifs x(n) et y(n) (signal de parole bruitée et prédiction linéaire) sont découpés en trames de longueurs identiques, et leur transformée de Fourier à court terme (notées respectivement X et Y) est calculée pour chaque trame. Pour éviter les effets des erreurs de précision, l'algorithme prévoit un recouvrement de 50% entre trames consécutives, et les échantillons sont multipliés par les coefficients de la fenêtre de Hanning de manière que l'addition des trames paires et impaires corresponde au signal d'origine proprement dit. Pour le segment de spectre k d'une trame l paire, on a : X k l = p = 1 R h p x Rl + p e - j 2 π pk R
    Figure imgb0008
  • Et pour le segment de spectre k d'une trame l impaire : X k l = p = 1 R h p x R 2 l + p e - j 2 π pk R
    Figure imgb0009
    h étant la fenêtre de Hanning.
  • Une première possibilité consiste à définir le signal de référence en prenant la transformée de Fourier de l'erreur de prédiction : ϵ ^ k l = X k l - Y k l
    Figure imgb0010
  • Cependant, on constate en pratique un certain déphasage entre X et Y dû à une convergence imparfaite de l'algorithme LMS, empêchant une bonne discrimination entre parole et bruit. On préfère donc adopter pour le signal de référence une autre définition qui compense ce déphasage, à savoir : Ref k l = X k l - X k l Y k l X k l
    Figure imgb0011
  • On suppose que l'énergie spectrale du signal de référence peut être décrite sous la forme : E Ref k l 2 = E S k l 2 α S k + E D t k l 2 α D t k + E D ps k l 2 α D ps k
    Figure imgb0012

    α S k < α D t k < α D ps k
    Figure imgb0013
    représentent l'atténuation sur le signal de référence des trois signaux dans chaque segment de spectre.
  • L'étape suivante consiste à délivrer une estimation q(k,l) de la probabilité d'absence de parole dans le signal bruité : q k l = Pr H 0 k l
    Figure imgb0014
    H0(k,l) indiquant l'absence de parole (et H1(k,l) la présence de parole) dans le k ième segment de spectre de la l ième trame.
  • La discrimination entre bruit transitoire et parole peut être opérée par une technique comparable à celle de Cohen et Berdugo [5, précité]. Plus précisément, l'algorithme de l'invention évalue un ratio des énergies transitoires sur les deux voies, donné par : Ω k l = SX k l - MX k l SRef k l - MRef k l
    Figure imgb0015
  • S étant une estimation lissée de l'énergie instantanée : SX k l = SX k , l - 1 + i = - ω ω b i X k l 2
    Figure imgb0016
    b étant une fenêtre dans le domaine temporel et M étant un estimateur de l'énergie pseudo-stationnaire, qui peut être obtenu par exemple par une méthode MCRA (Minima Controlled Recursive Averaging) du même type que celle décrite par Cohen et Berdugo [5, précité] (cependant plusieurs alternatives existent dans la littérature).
  • En présence de parole mais en l'absence de bruit transitoire, ce ratio vaut approximativement : Ω k l = 1 α D t k = Ω max k
    Figure imgb0017
  • Inversement, en l'absence de parole mais en présence de bruits transitoires : Ω k l = 1 α S k = Ω min k
    Figure imgb0018
  • Si l'on suppose qu'en général : Ω min k Ω k l Ω max k
    Figure imgb0019
    une procédure d'estimation de q(k,l) est donnée par l'algorithme en métalangage suivant :
  • Pour chaque trame l et pour chaque segment de spectre k,
    1. (i) Calculer SX(k,l), MX(k,l), SRef(k,l) et MRef(k,l). Aller à (ii)
    2. (ii) Si SX(k,l) > LXMX(k,l) (détection de transitoires sur la voie de parole bruitée), alors aller à (iii) sinon q k l = 1
      Figure imgb0020
    3. (iii) Si SRef(k,l) > LRefMRef(k,l) (détection de transitoires sur la voie de référence), alors aller à (iv) sinon q k l = 0
      Figure imgb0021
    4. (iv) Calculer Ω(k,l). aller à (v)
    5. (v) Calculer : q k l = max min Ω max k - Ω k l Ω max k - Ω min k 1 , 0
      Figure imgb0022
  • Les constantes Lx et LRef sont des seuils de détection des transitoires. Ωmin (k) et Ωm ax(k) sont les limites supérieure et inférieure pour chaque segment de spectre. Ces divers paramètres sont choisis de manière à correspondre à des situations typiques, proches de la réalité.
  • L'étape suivante (correspondant au bloc 26 de la figure 1) consiste à opérer le débruitage proprement dit (renforcement de la composante de parole). L'estimateur que l'on vient de décrire sera appliqué au modèle statistique décrit par Ephraim et Malah [2, précité], qui suppose que le bruit et la parole dans chaque segment de spectre sont des processus gaussiens indépendants de variances respectives λx(k,l) et λd(k,l).
  • Cette étape peut avantageusement mettre en oeuvre l'algorithme de gain OM-LSA (Optimally Modified Log-Spectral Amplitude Gain) décrit par Cohen et Berdugo [3, précité]. Le rapport signal/bruit a priori est défini par : ξ k l = λ x k l λ d k l
    Figure imgb0023
  • Le rapport signal/bruit a posteriori est défini par : γ k l = X k l 2 λ d k l
    Figure imgb0024
  • La probabilité conditionnelle de présence du signal est : p k l = Pr H 1 k l | X k l
    Figure imgb0025
  • Avec l'hypothèse gaussienne et les paramètres ci-dessus, il vient : p k l = 1 + q k l 1 - q k l 1 + ξ k l exp - υ k l - 1
    Figure imgb0026
    avec : υ k l = γ k l ξ k l 1 + ξ k l
    Figure imgb0027
  • L'estimée optimale de la parole débruitée S(k,l) est donnée par : S ^ k l = G H 1 k l p k l G min 1 - p k l X k l
    Figure imgb0028
  • G H1 étant le gain dans l'hypothèse où la parole est présente, qui est défini par: G H 1 k l = ξ k l 1 + ξ k l exp 1 2 υ k l e - t t t
    Figure imgb0029
  • Le gain Gmin dans l'hypothèse d'absence de parole est une limite inférieure pour la réduction du bruit, afin de limiter la distorsion de la parole.
  • La formule classique d'estimation du rapport signal/bruit a priori est : ξ ^ k l = a G H 1 2 k , l - 1 γ k , l - 1 + 1 - a max γ k l - 1 , 0
    Figure imgb0030
  • L'estimation de l'énergie du bruit est donnée par : λ ^ d k , l + 1 = a d k l λ ^ d k l + β 1 - a d k l X k l 2
    Figure imgb0031
  • Le paramètre de lissage ãd évolue entre une limite inférieure ad et 1, en fonction de la probabilité de présence conditionnelle : a ^ d k l = a d + 1 - a d p k l
    Figure imgb0032
    β étant un facteur de surestimation qui compense le biais en l'absence de signal.
  • Le signal obtenu à l'issue de ce traitement est soumis à une transformée de Fourier inverse (bloc 28) pour donner l'estimée finale de la parole débruitée.
  • L'algorithme de la présente invention se révèle particulièrement efficace dans les environnements bruyants, parasités à la fois par des bruits mécaniques, des vibrations, etc. ainsi que par des bruits musicaux, situations caractéristiques rencontrées dans l'habitacle d'une voiture. Les spectrogrammes montrent que l'atténuation du bruit est non seulement efficace, mais se fait sans distorsion notable de la parole après débruitage.

Claims (8)

  1. Un procédé de traitement d'un signal audio, pour le débruitage d'un signal bruité originel comportant une composante de parole combinée à une composante de bruit, cette composante de bruit comprenant elle-même une composante de bruit transitoire et une composante de bruit pseudo-stationnaire,
    caractérisé en ce que ce procédé est un procédé d'analyse de cohérence temporelle du signal bruité échantillonné comprenant les étapes de :
    a) détermination d'un signal de référence par application au signal bruité d'un traitement (10,18) propre à atténuer de façon plus importante les composantes de parole que les composantes de bruit de ce signal bruité, ledit traitement comprenant :
    a1) l'application d'un algorithme de prédiction linéaire adaptatif opérant sur une combinaison linéaire des échantillons antérieurs du signal bruité, et
    a2) la détermination dudit signal de référence par une soustraction, avec compensation du déphasage, entre le signal bruité originel, non préfiltré et le signal délivré par l'algorithme de prédiction linéaire ;
    b) détermination (24) d'une probabilité de présence/absence de parole a priori à partir des niveaux d'énergie respectifs dans le domaine spectral du signal bruité et du signal de référence ; et
    c) utilisation de cette probabilité d'absence de parole a priori pour estimer un spectre de bruit et dériver (26) du signal bruité une estimée débruitée du signal de parole.
  2. Le procédé de la revendication 1, dans lequel ledit signal de référence est déterminé par application à l'étape a2) d'une relation du type : Ref k l = X k l - X k l Y k l X k l
    Figure imgb0033

    X(k,l) et Y(k,l) sont les transformées de Fourier à court terme de chaque segment de spectre k de chaque trame l, respectivement du signal bruité originel et du signal délivré par l'algorithme de prédiction linéaire.
  3. Le procédé de la revendication 1, dans lequel l'algorithme de prédiction linéaire (10) est un algorithme de type moindres carrés moyens LMS.
  4. Le procédé de la revendication 1, dans lequel l'algorithme de prédiction linéaire (10) est un algorithme adaptatif récursif.
  5. Le procédé de la revendication 1, dans lequel l'étape b) comprend l'application d'un algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans le signal de référence et dans le signal bruité.
  6. Le procédé de la revendication 5, dans lequel l'algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire est un algorithme de type à moyennage récursif par contrôle des minima MRCA.
  7. Le procédé de la revendication 1, dans lequel l'étape c) comprend l'application d'un algorithme de gain variable fonction de la probabilité de présence/absence de parole.
  8. Le procédé de la revendication 7, dans lequel l'algorithme de gain variable est un algorithme de type gain à amplitude log-spectrale modifié optimisé OM-LSA.
EP07290219A 2006-03-01 2007-02-21 Procédé de débruitage d'un signal audio Active EP1830349B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0601822A FR2898209B1 (fr) 2006-03-01 2006-03-01 Procede de debruitage d'un signal audio

Publications (2)

Publication Number Publication Date
EP1830349A1 EP1830349A1 (fr) 2007-09-05
EP1830349B1 true EP1830349B1 (fr) 2011-11-30

Family

ID=36992693

Family Applications (1)

Application Number Title Priority Date Filing Date
EP07290219A Active EP1830349B1 (fr) 2006-03-01 2007-02-21 Procédé de débruitage d'un signal audio

Country Status (6)

Country Link
US (1) US7953596B2 (fr)
EP (1) EP1830349B1 (fr)
AT (1) ATE535905T1 (fr)
ES (1) ES2378482T3 (fr)
FR (1) FR2898209B1 (fr)
WO (1) WO2007099222A1 (fr)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
FR2908005B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Circuit de reduction de l'echo acoustique pour un dispositif "mains libres"utilisable avec un telephone portable
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
FR2908004B1 (fr) * 2006-10-26 2008-12-12 Parrot Sa Circuit de reduction de l'echo acoustique pour un dispositif "mains libres"utilisable avec un telephone portable
FR2932332B1 (fr) * 2008-06-04 2011-03-25 Parrot Systeme de controle automatique de gain applique a un signal audio en fonction du bruit ambiant
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
EP2151820B1 (fr) * 2008-07-21 2011-10-19 Siemens Medical Instruments Pte. Ltd. Procédé pour la compensation de biais pour le lissage cepstro-temporel de gains de filtre spectral
EP2555191A1 (fr) 2009-03-31 2013-02-06 Huawei Technologies Co., Ltd. Procédé et dispositif de débruitage de signaux audio
FR2945696B1 (fr) * 2009-05-14 2012-02-24 Parrot Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
WO2010151183A1 (fr) * 2009-06-23 2010-12-29 Telefonaktiebolaget L M Ericsson (Publ) Procédé et agencement pour réseau de télécommunications mobiles
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
KR101587844B1 (ko) * 2009-08-26 2016-01-22 삼성전자주식회사 마이크로폰의 신호 보상 장치 및 그 방법
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8219394B2 (en) * 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
DK2395506T3 (da) * 2010-06-09 2012-09-10 Siemens Medical Instr Pte Ltd Fremgangsmåde og system til behandling af akustisk signal til undertrykkelse af interferens og støj i binaurale mikrofonkonfigurationer
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
FR2974655B1 (fr) 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
FR2976111B1 (fr) * 2011-06-01 2013-07-05 Parrot Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
US9258653B2 (en) * 2012-03-21 2016-02-09 Semiconductor Components Industries, Llc Method and system for parameter based adaptation of clock speeds to listening devices and audio applications
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US20140270249A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015191470A1 (fr) * 2014-06-09 2015-12-17 Dolby Laboratories Licensing Corporation Estimation du niveau de bruit
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CA2971099C (fr) 2014-12-18 2023-03-28 Conocophillips Company Procedes de separation de source simultanee
US20170018273A1 (en) * 2015-07-16 2017-01-19 GM Global Technology Operations LLC Real-time adaptation of in-vehicle speech recognition systems
AU2016332565B2 (en) 2015-09-28 2022-07-21 Shearwater Geoservices Software Inc. 3D seismic acquisition
FR3044197A1 (fr) 2015-11-19 2017-05-26 Parrot Casque audio a controle actif de bruit, controle anti-occlusion et annulation de l'attenuation passive, en fonction de la presence ou de l'absence d'une activite vocale de l'utilisateur de casque.
US10251002B2 (en) 2016-03-21 2019-04-02 Starkey Laboratories, Inc. Noise characterization and attenuation using linear predictive coding
US10564925B2 (en) 2017-02-07 2020-02-18 Avnera Corporation User voice activity detection methods, devices, assemblies, and components
US10809402B2 (en) 2017-05-16 2020-10-20 Conocophillips Company Non-uniform optimal survey design principles
US10079026B1 (en) * 2017-08-23 2018-09-18 Cirrus Logic, Inc. Spatially-controlled noise reduction for headsets with variable microphone array orientation
CN108899043A (zh) * 2018-06-15 2018-11-27 深圳市康健助力科技有限公司 数字助听器瞬时噪声抑制算法的研究及实现
EP3857268B1 (fr) 2018-09-30 2024-10-23 Shearwater Geoservices Software Inc. Récupération de signal fondée sur un apprentissage automatique
JP2020144204A (ja) * 2019-03-06 2020-09-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 信号処理装置及び信号処理方法
KR20200132645A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 음성 인식 서비스를 제공하는 장치 및 방법
FR3113537B1 (fr) 2020-08-19 2022-09-02 Faurecia Clarion Electronics Europe Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé
CN112233688B (zh) * 2020-09-24 2022-03-11 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN116644281B (zh) * 2023-07-27 2023-10-24 东营市艾硕机械设备有限公司 一种游艇船体偏移检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658426A (en) * 1985-10-10 1987-04-14 Harold Antin Adaptive noise suppressor
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
US5924061A (en) * 1997-03-10 1999-07-13 Lucent Technologies Inc. Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
EP1580882B1 (fr) * 2004-03-19 2007-01-10 Harman Becker Automotive Systems GmbH Système et procédé d'amélioration audio
US7813499B2 (en) * 2005-03-31 2010-10-12 Microsoft Corporation System and process for regression-based residual acoustic echo suppression

Also Published As

Publication number Publication date
EP1830349A1 (fr) 2007-09-05
FR2898209A1 (fr) 2007-09-07
ATE535905T1 (de) 2011-12-15
WO2007099222A1 (fr) 2007-09-07
ES2378482T3 (es) 2012-04-13
US20070276660A1 (en) 2007-11-29
FR2898209B1 (fr) 2008-12-12
US7953596B2 (en) 2011-05-31

Similar Documents

Publication Publication Date Title
EP1830349B1 (fr) Procédé de débruitage d&#39;un signal audio
EP2057835B1 (fr) Procédé de réduction de l&#39;écho acoustique résiduel après suppression d&#39;écho dans un dispositif &#34;mains libres&#34;
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
EP2293594B1 (fr) Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique &#34;mains libres&#34; pour véhicule automobile
EP2309499B1 (fr) Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique &#34;mains libres&#34; pour véhicule automobile
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
EP2538409B1 (fr) Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie &#34;mains libres&#34;
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
EP1096471B1 (fr) Procédé et dispositif pour l&#39;extraction de paramètres robustes pour la reconnaissance de parole
EP0666655B1 (fr) Procédé et dispositif d&#39;analyse d&#39;un signal de retour et annuleur d&#39;écho adaptatif en comportant application
EP0767569B1 (fr) Procédé et dispositif d&#39;identification adaptative et annuleur d&#39;écho adaptatif s&#39;y rapportant
EP2131357A1 (fr) Système de contrôle automatique du gain appliqué à un signal audio en fonction du bruit ambiant
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
EP1940139B1 (fr) Commande de filtres d&#39;annulation d&#39;écho
EP1039736B1 (fr) Procédé et disposiif d&#39;identification adaptive, et annuleur d&#39;écho adaptive mettant en oeuvre un tel procédé
EP0534837B1 (fr) Procédé de traitement de la parole en présence de bruits acoustiques utilisant la sous traction spectrale non-linéaire et les modèles de Markov cachés
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
WO2001011605A1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP2515300A1 (fr) Procédé et système de réduction du bruit
FR2767941A1 (fr) Suppresseur d&#39;echo par transformation de sens et procede associe
FR3113537A1 (fr) Procédé et dispositif électronique de réduction du bruit multicanale dans un signal audio comprenant une partie vocale, produit programme d’ordinateur associé
Kim et al. Improved noise reduction with packet loss recovery based on post-filtering over IP networks
FR3054338A1 (fr) Procede de correction de defauts introduits par un systeme de numerisation et dispositifs associes
WO2010029247A1 (fr) Annulation de bruit a faible distorsion
WO2006077005A2 (fr) Dispositif d&#39;annulation d&#39;echo acoustique, procede et programme d&#39;ordinateur correspondants

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK YU

17P Request for examination filed

Effective date: 20080219

17Q First examination report despatched

Effective date: 20080331

AKX Designation fees paid

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 602007019049

Country of ref document: DE

Owner name: PARROT AUTOMOTIVE, FR

Free format text: FORMER OWNER: PARROT, PARIS, FR

REG Reference to a national code

Ref country code: NL

Ref legal event code: T3

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602007019049

Country of ref document: DE

Effective date: 20120301

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2378482

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20120413

LTIE Lt: invalidation of european patent or patent extension

Effective date: 20111130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20120330

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20120301

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20120330

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20120229

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

BERE Be: lapsed

Owner name: PARROT

Effective date: 20120228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 535905

Country of ref document: AT

Kind code of ref document: T

Effective date: 20111130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120229

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120229

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120229

26N No opposition filed

Effective date: 20120831

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602007019049

Country of ref document: DE

Effective date: 20120831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20130218

Year of fee payment: 7

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20111130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20070221

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 9

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20150327

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140222

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 602007019049

Country of ref document: DE

Owner name: PARROT AUTOMOTIVE, FR

Free format text: FORMER OWNER: PARROT, PARIS, FR

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20151029 AND 20151104

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

Owner name: PARROT AUTOMOTIVE, FR

Effective date: 20151201

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 10

REG Reference to a national code

Ref country code: NL

Ref legal event code: PD

Owner name: PARROT AUTOMOTIVE; FR

Free format text: DETAILS ASSIGNMENT: VERANDERING VAN EIGENAAR(S), OVERDRACHT; FORMER OWNER NAME: PARROT

Effective date: 20151102

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 11

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20190219

Year of fee payment: 13

REG Reference to a national code

Ref country code: NL

Ref legal event code: MM

Effective date: 20200301

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20200301

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230119

Year of fee payment: 17

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20230120

Year of fee payment: 17

Ref country code: GB

Payment date: 20230121

Year of fee payment: 17

Ref country code: DE

Payment date: 20230119

Year of fee payment: 17