EP1830349B1

EP1830349B1 - Procédé de débruitage d'un signal audio

Info

Publication number: EP1830349B1
Application number: EP07290219A
Authority: EP
Inventors: Guillaume Pinto
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2006-03-01
Filing date: 2007-02-21
Publication date: 2011-11-30
Anticipated expiration: 2027-02-21
Also published as: EP1830349A1; FR2898209A1; ATE535905T1; WO2007099222A1; ES2378482T3; US20070276660A1; FR2898209B1; US7953596B2

Description

CONTEXTE DE L'INVENTION

Domaine de l'invention

La présente invention concerne le débruitage des signaux audio captés par un microphone dans un environnement bruité.
L'invention s'applique avantageusement, mais de façon non limitative, aux signaux de parole captés par les appareils téléphoniques de type "mains-libres" ou analogues.
Ces appareils comportent un microphone sensible captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller, dans certains cas, jusqu'à rendre incompréhensibles les paroles du locuteur.
Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, où il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
Cette difficulté liée au bruit ambiant est particulièrement contraignante dans le cas des dispositifs "mains-libres" pour véhicules automobiles. En particulier, la distance importante entre le microphone et le locuteur entraîne un niveau relatif de bruit élevé qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.

Description de la technique apparentée

Diverses techniques ont été proposées pour réduire le niveau de bruit du signal capté par un microphone.
Par exemple, le WO-A-98/45997 (Parrot SA) utilise l'appui sur le bouton-poussoir d'activation d'un téléphone (par exemple lorsque le conducteur veut répondre à un appel entrant) pour détecter le début d'un signal de parole et considérer que le signal capté antérieurement à cet appui était essentiellement un signal de bruit. Ce dernier signal, mémorisé, est analysé pour donner un spectre énergétique moyen pondéré du bruit, puis soustrait du signal de parole bruité.
Le US-A-5 742 694 décrit une autre technique, mettant en oeuvre un mécanisme de type filtre adaptatif prédictif. Ce filtre délivre un "signal de référence" correspondant à la partie prédictible du signal bruité et un "signal d'erreur" correspondant à l'erreur de prédiction, puis atténue ces deux signaux dans des proportions variables, et les recombine pour fournir un signal débruité.
L'inconvénient majeur de cette technique de débruitage réside dans la distorsion importante introduite par le préfiltrage, donnant en sortie un signal très dégradé sur le plan de la qualité acoustique. Elle est en outre mal adaptée aux situations où l'on aurait besoin d'un débruitage énergique avec un signal de parole noyé dans un bruit de nature complexe et imprévisible, avec des caractéristiques spectrales non stationnaires.
D'autre techniques encore, dites beamforming ou double-phoning, mettent en oeuvre deux microphones distincts. Le premier est conçu et placé pour capter principalement la voix du locuteur, tandis que l'autre est conçu et placé pour capter une composante de bruit plus importante que le microphone principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant de manière efficace, et par des moyens logiciels relativement simples.
Cette technique, fondée sur une analyse de cohérence spatiale de deux signaux, présente cependant l'inconvénient de nécessiter deux microphones distants, ce qui la cantonne généralement à des installations fixes ou semi-fixes et ne permet pas de l'intégrer à un dispositif préexistant par simple adjonction d'un module logiciel. Elle présuppose aussi que la position du locuteur par rapport aux deux microphones soit à peu près constante, ce qui est généralement le cas dans un téléphone de voiture utilisé par son conducteur. De plus, pour obtenir un débruitage à peu près satisfaisant, les signaux sont soumis à un préfiltrage important ce qui présente, ici encore, l'inconvénient d'introduire des distorsions venant dégrader la qualité du signal débruité restitué.
L'invention concerne une technique de débruitage des signaux audio captés par un microphone unique enregistrant un signal de voix dans un environnement bruité.
Une part importante des méthodes les plus efficaces mises en oeuvre dans les système à un seul microphone se fondent sur le modèle statistique établi par D. Malah et Y. Ephraim dans :

[1] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No 6, pp. 1109-1121, Dec. 1984, et
[2] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-33, No 2, pp. 443-445, April 1985.

Faisant l'approximation que la parole et le bruit sont des processus gaussiens non corrélés et présupposant que la puissance spectrale du bruit soit une donnée connue, ces deux articles donnent une solution optimale au problème de réduction de bruit décrit plus haut. Cette solution propose de découper le signal bruité en composantes fréquentielles indépendantes par l'utilisation de la transformée de Fourier discrète, d'appliquer un gain optimal sur chacune de ces composantes puis de recombiner le signal ainsi traité. Les deux articles divergent sur le choix du critère d'optimalité. Dans [1], le gain appliqué est nommé gain STSA et permet de minimiser la distance quadratique moyenne entre le signal estimé (à la sortie de l'algorithme) et le signal de parole originel (non bruité). Dans [2], l'application d'un gain nommé gain LSA permet quant à elle de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole original. Ce second critère se montre supérieur au premier car la distance choisie est en bien meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats. Dans tous les cas, l'idée essentielle est de diminuer l'énergie des composantes fréquentielles très bruités en leur appliquant un gain faible tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout.
Bien que séduisant puisque soutenu par une démonstration mathématique rigoureuse, ce procédé ne peut toutefois pas être mis en oeuvre tout seul. En effet, comme indiqué plus haut, la puissance spectrale du bruit est inconnue et imprévisible ex ante. De plus, ce même procédé ne propose pas d'évaluer à quels moments la parole du locuteur est présente dans le signai capté. Il se contente simplement de supposer soit que la parole est toujours présente, soit qu'elle est présente une portion fixe du temps, ce qui peut limiter sérieusement la qualité de la réduction de bruit.
Il est donc nécessaire d'utiliser un autre algorithme ayant pour fonction d'évaluer la puissance spectrale du bruit ainsi que les instants où la parole du locuteur est présente sur le signal brut capté. Il s'avère même que cette estimation constitue le facteur déterminant de la qualité de la réduction de bruit opérée, l'algorithme d'Ephraim et Malah n'étant que la manière optimale d'utiliser l'information ainsi obtenue.
C'est une solution originale à ce double problème d'évaluation du bruit et des instants de présence du signal de parole qu'apporte la présente invention.
Ces deux questions sont en réalité intrinsèquement liées. En effet supposons que le signal brut capté est découpé en trames de longueurs égales, dont on calcule pour chacune la transformée de Fourier à court terme.
Pour une composante fréquentielle donnée, la connaissance des indices des trames où la parole est absente permet d'évaluer la puissance du bruit ainsi que son évolution au cours du temps sur ce segment du spectre. Il suffit en effet de mesurer l'énergie du signal brut lorsque la parole est absente et de faire une moyenne continuellement mise à jour de ces mesures. La question principale est donc de savoir quand exactement la parole du locuteur est absente du signal capté par le microphone.
Si le bruit est stationnaire ou pseudo-stationnaire, ce problème peut être aisément résolu en déclarant que la parole est absente dans un segment de spectre d'une trame donnée lorsque l'énergie spectrale des données pour ce segment de spectre n'a pas évolué ou a peu évolué par rapport aux dernières trames. Inversement, on déclare que la parole est présente en cas de comportement non stationnaire.
Toutefois, dans une environnement réel, a fortiori un environnement automobile dont on a indiqué plus haut que le bruit comportait de nombreuses caractéristiques spectrales non stationnaires, ce procédé est aisément pris en défaut, dans la mesure où aussi bien la parole que le bruit peuvent présenter des comportement transitoires. Or, si l'on décide de conserver toutes les composantes transitoires, il restera du bruit musical résiduel dans les données débruitées ; inversement, si l'on décide de supprimer les composantes transitoires en deçà d'un seuil énergétique donné, les composantes faibles de la parole seront alors effacées, alors que ces composantes peuvent être importantes, tant pour leur contenu informatif que pour l'intelligibilité générale (faible distorsion) du signal débruité restitué après traitement.
À cet égard, diverses méthodes ont été proposées. Parmi les plus efficaces, on peut citer celle décrite par :

[3] I. Cohen et B. Berdugo, Speech Enhancement for Non-Stationary Noise Environments, Signal Processing, Elsevier, Vol. 81, pp. 2403-2418,2001,

Comme fréquemment dans le domaine, le procédé décrit dans cet article n'a pas pour objectif d'identifier précisément sur quelles composantes fréquentielles de quelles trames la parole est absente, mais plutôt de donner un indice de confiance entre 0 et 1, une valeur 1 indiquant que la parole est absente à coup sûr (selon l'algorithme) tandis qu'une valeur 0 déclare le contraire. De par sa nature, cet indice est assimilé à la probabilité d'absence de la parole a priori, c'est à dire la probabilité que la parole soit absente sur une composante fréquentielle donnée de la trame considérée. Il s'agit bien sûr d'une assimilation non rigoureuse dans le sens que même si la présence de la parole est probabiliste ex ante, le signal capté par le microphone ne peut à chaque instant que passer par deux états distincts. Il peut soit (à l'instant considéré) comporter de la parole soit ne pas en contenir. Toutefois cette assimilation donne de bons résultats en pratique ce qui justifie son utilisation. Afin d'estimer cette probabilité d'absence, Cohen et Berdugo utilisent des moyennes sur des rapports signal à bruit a priori eux mêmes utilisés et calculés dans l'algorithme d'Ephraim et Malah. Ces auteurs décrivent également la technique dite de gain OM-LSA (Optimally-Modified Log-Spectral Amplitude), visant à améliorer le gain LSA par l'intégration de cette probabilité d'absence de la parole.
Cette estimation de la probabilité a priori d'absence de la parole se révèle efficace, mais dépend directement du modèle statistique élaboré par Ephraim et Malah et non d'une connaissance a priori des données.
Pour obtenir une estimée de la probabilité d'absence qui soit indépendante de ce modèle statistique, Cohen et Berdugo ont proposé dans :

[4] I. Cohen et B. Berdugo, Two Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio, Proc. ICASSP 2003, Hong Kong, pp. 233-236, April 2003,

Mais, comme pour les techniques de beamforming ou double-phoning évoquées plus haut, ce procédé est assez contraignant dans la mesure où il nécessite deux microphones.

RÉSUMÉ DE L'INVENTION

L'un des buts de l'invention est de remédier aux inconvénients des méthodes proposées jusqu'à présent, grâce à un procédé perfectionné de débruitage applicable à un signal de parole considéré isolément, notamment un signal capté par un microphone unique, procédé qui soit basé sur l'analyse de la cohérence temporelle des signaux captés.
Le point de départ de l'invention réside dans la constatation que la parole présente généralement une cohérence temporelle supérieure au bruit et que, de ce fait, elle est nettement plus prédictible. Essentiellement, l'invention propose d'utiliser cette propriété pour calculer un signal de référence où la parole aura été plus atténuée que le bruit, en appliquant notamment un algorithme prédictif qui pourra par exemple être de type LMS (Least Mean Squares, moindres carrés moyens). Ce signal de référence dérivé du signal de parole à débruiter pourra être utilisé de façon comparable à celle du signal du second microphone des techniques de beam-forming à deux voies, par exemple des techniques semblables à celles de Cohen et Berdugo [4, précité]. Le calcul d'un ratio entre les niveaux d'énergie respectifs du signal originel et du signal de référence ainsi obtenu permettra de discriminer entre les composantes de parole et les bruits parasites non stationnaires, et fournira une estimation de la probabilité de présence de parole de façon indépendante de tout modèle statistique.
En d'autres termes, la technique proposée par l'invention met en oeuvre une "soustraction intelligente" impliquant, après une prédiction linéaire opérée sur les échantillons passés du signal originel (et non d'un signal préfiltré, donc dégradé), un recalage de phase entre le signal originel et le signal prédit.
La technique de l'invention s'avère, en pratique, suffisamment performante pour assurer un débruitage extrêmement efficace directement sur le signal originel, en s'affranchissant de distorsions introduites par une chaîne de préfiltrage, devenue inutile.
Plus précisément, la présente invention propose, pour le débruitage d'un signal audio bruité originel comportant une composante de parole combinée à une composante de bruit comprenant elle-même une composante de bruit transitoire et une composante de bruit pseudo-stationnaire, d'opérer une analyse de cohérence temporelle du signal bruité par les étapes de :

a) détermination d'un signal de référence par application au signal bruité d'un traitement propre à atténuer de façon plus importante les composantes de parole que les composantes de bruit de ce signal bruité, ledit traitement comprenant : (a1) l'application d'un algorithme de prédiction linéaire adaptatif opérant sur une combinaison linéaire des échantillons antérieurs du signal bruité, et (a2) la détermination dudit signal de référence par une soustraction, avec compensation du déphasage, entre le signal bruité originel, non filtré et le signal délivré par l'algorithme de prédiction linéaire ;
b) détermination d'une probabilité de présence/absence de parole a priori à partir des niveaux d'énergie respectifs dans le domaine spectral du signal bruité et du signal de référence ; et
c) utilisation de cette probabilité d'absence de parole a priori pour estimer un spectre de bruit et dériver du signal bruité une estimée débruitée du signal de parole.

Le signal de référence peut notamment être déterminé par application à l'étape a2) d'une relation du type : $Ref (k l) = X (k l) - X (k l) \frac{|Y (k l)|}{|X (k l)|}$

où X(k,l) et Y(k,l) sont les transformées de Fourier à court terme de chaque segment de spectre k de chaque trame l, respectivement du signal bruité originel et du signal délivré par l'algorithme de prédiction linéaire.
L'algorithme prédictif est avantageusement un algorithme adaptatif récursif de type moindres carrés moyens LMS.
L'étape b) comprend avantageusement l'application d'un algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans le signal de référence et dans le signal bruité, notamment un algorithme de type à moyennage récursif par contrôle des minima MRCA comme décrit dans :

[5] I. Cohen et B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1, pp. 12-15, Jan. 2002,

L'étape c) comprend avantageusement l'application d'un algorithme de gain variable fonction de la probabilité de présence/absence de parole, notamment un algorithme de type gain à amplitude log-spectrale modifié optimisé OM-LSA.

DESCRIPTION SOMMAIRE DES DESSINS

On va maintenant décrire un exemple de mise en oeuvre de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.

La figure 1 est un diagramme schématique illustrant les différentes opérations effectuées par un algorithme de débruitage conformément au procédé de l'invention.
La figure 2 est un diagramme schématique illustrant plus particulièrement l'algorithme prédictif LMS adaptatif.

DESCRIPTION DÉTAILLÉE DU MODE DE MISE EN OEUVRE PRÉFÉRÉ

Le signal que l'on souhaite débruiter est un signal numérique échantillonné x(n), où n désigne le numéro de l'échantillon (n est donc la variable temporelle).
Le signal capté x(n) est une combinaison d'un signal de parole s(n) et d'un bruit surajouté, non corrélé, d(n) : $x (n) = s (n) + d (n)$
Ce bruit d(n) a deux composantes indépendantes, à savoir une composante transitoire d_t(n) et une composante pseudo-stationnaire d_ps(n) : $d (n) = d_{t} (n) + d_{ps} (n)$
Comme illustré sur la figure 1, le signal bruité x(n) est appliqué en entrée d'un algorithme LMS prédictif schématisé par le bloc 10, incluant l'application de retards appropriés 12. Le fonctionnement de cet algorithme LMS sera décrit plus bas, en référence à la figure 2.
On calcule ensuite la transformé de Fourier à court terme du signal capté x(n) (bloc 16), ainsi que du signal y(n) délivré par l'algorithme LMS prédictif (bloc 14). À partir de ces deux transformées est calculé un signal de référence (bloc 18), qui constitue l'une des variables d'entrée d'un algorithme de calcul de la probabilité d'absence de parole (bloc 24). Parallèlement, la transformée du signal bruité x(n), issue du bloc 16, est également appliquée à l'algorithme de calcul de probabilité.
Les blocs 20 et 22 estiment le bruit pseudo-stationnaire du signal de référence et de la transformée du signal bruité est estimé, et le résultat est également appliqué à l'algorithme de calcul de probabilité.
Le résultat du calcul de probabilité d'absence de parole, ainsi que la transformée du signal bruité, sont appliqués en entrée d'un algorithme de traitement de gain OM-LSA (bloc 26), dont le résultat est soumis à une transformation inverse de Fourier (bloc 28) pour donner une estimée de la parole débruitée.
On va maintenant décrire plus en détail les différentes phases de ce traitement.
L'algorithme prédictif LMS (bloc 10) est schématisé sur la figure 2.
Dans la mesure où les signaux en présence sont globalement non stationnaires mais localement pseudo-stationnaires, on peut avantageusement utiliser un système adaptatif, qui pourra tenir compte des variations d'énergie du signal dans le temps et converger vers les divers optima locaux.
Essentiellement, si l'on applique des retards successifs Δ, la prédiction linéaire y(n) du signal x(n) est une combinaison linéaire des échantillons antérieurs {x(n - Δ - i + 1)}_1≤i≤M : $y (n) = \sum_{i = 1}^{M} ω_{i} x (n - Δ - i + 1)$
qui minimise l'erreur quadratique moyenne de l'erreur de prédiction : $ϵ (n) = x (n) - y (n)$
La minimisation consiste à trouver : $\min_{ω_{1}, ω_{2}, \dots, ω_{M}} E {[x (n) - \sum_{i = 1}^{M} ω_{i} x (n - Δ - i + 1)]}^{2}$
Pour résoudre ce problème, il est possible d'utiliser un algorithme LMS, qui est un algorithme en lui-même connu, décrit par exemple dans :

[6] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R. E. Kalman and N. De Claris (Eds). New York: Holt, Rinehart and Winston, pp. 563-587, 1970, et
[7] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEE, Vol. 63, No 12 pp. 1692-1716, Dec 1975.

On peut définir un procédé récursif d'adaptation des pondérations. $ω_{i} (n + 1) = ω_{i} (n) + 2 μϵ (n) x (n - Δ - i + 1)$
µ étant une constante de gain qui permet d'ajuster la vitesse et la stabilité de l'adaptation.
On pourra trouver des indications générales sur ces aspects de l'algorithme LMS dans :

[8] B. Widrow et S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.

On peut démontrer qu'une telle prédiction linéaire adaptative permet de discriminer efficacement entre bruit et parole car les échantillons contenant de la parole seront bien mieux prédits (plus petites erreurs quadratiques entre la prédiction et le signal brut) que ceux ne contenant que du bruit.
Plus précisément, les signaux respectifs x(n) et y(n) (signal de parole bruitée et prédiction linéaire) sont découpés en trames de longueurs identiques, et leur transformée de Fourier à court terme (notées respectivement X et Y) est calculée pour chaque trame. Pour éviter les effets des erreurs de précision, l'algorithme prévoit un recouvrement de 50% entre trames consécutives, et les échantillons sont multipliés par les coefficients de la fenêtre de Hanning de manière que l'addition des trames paires et impaires corresponde au signal d'origine proprement dit. Pour le segment de spectre k d'une trame l paire, on a : $X (k l) = \sum_{p = 1}^{R} h (p) x (Rl + p) e^{- j 2 π \frac{pk}{R}}$
Et pour le segment de spectre k d'une trame l impaire : $X (k l) = \sum_{p = 1}^{R} h (p) x (\frac{R}{2} l + p) e^{- j 2 π \frac{pk}{R}}$
h étant la fenêtre de Hanning.
Une première possibilité consiste à définir le signal de référence en prenant la transformée de Fourier de l'erreur de prédiction : $\hat{ϵ} (k l) = X (k l) - Y (k l)$
Cependant, on constate en pratique un certain déphasage entre X et Y dû à une convergence imparfaite de l'algorithme LMS, empêchant une bonne discrimination entre parole et bruit. On préfère donc adopter pour le signal de référence une autre définition qui compense ce déphasage, à savoir : $Ref (k l) = X (k l) - X (k l) \frac{|Y (k l)|}{|X (k l)|}$
On suppose que l'énergie spectrale du signal de référence peut être décrite sous la forme : $E {[Ref (k l)]}^{2} = E {[S (k l)]}^{2} α_{S} (k) + E {[D_{t} (k l)]}^{2} α_{D_{t}} (k) + E {[D_{ps} (k l)]}^{2} α_{D_{ps}} (k)$

où $α_{S} (k) < α_{D_{t}} (k) < α_{D_{ps}} (k)$
représentent l'atténuation sur le signal de référence des trois signaux dans chaque segment de spectre.
L'étape suivante consiste à délivrer une estimation q(k,l) de la probabilité d'absence de parole dans le signal bruité : $q (k l) = \Pr \{H_{0} (k l)\}$
H₀(k,l) indiquant l'absence de parole (et H₁(k,l) la présence de parole) dans le k ^ième segment de spectre de la l ^ième trame.
La discrimination entre bruit transitoire et parole peut être opérée par une technique comparable à celle de Cohen et Berdugo [5, précité]. Plus précisément, l'algorithme de l'invention évalue un ratio des énergies transitoires sur les deux voies, donné par : $Ω (k l) = \frac{SX (k l) - MX (k l)}{SRef (k l) - MRef (k l)}$
S étant une estimation lissée de l'énergie instantanée : $SX (k l) = SX (k, l - 1) + \sum_{i = - ω}^{ω} b (i) {|X (k l)|}^{2}$
b étant une fenêtre dans le domaine temporel et M étant un estimateur de l'énergie pseudo-stationnaire, qui peut être obtenu par exemple par une méthode MCRA (Minima Controlled Recursive Averaging) du même type que celle décrite par Cohen et Berdugo [5, précité] (cependant plusieurs alternatives existent dans la littérature).
En présence de parole mais en l'absence de bruit transitoire, ce ratio vaut approximativement : $Ω (k l) = \frac{1}{α_{D_{t}} (k)} = Ω_{\max} (k)$
Inversement, en l'absence de parole mais en présence de bruits transitoires : $Ω (k l) = \frac{1}{α_{S} (k)} = Ω_{\min} (k)$
Si l'on suppose qu'en général : $Ω_{\min} (k) \leq Ω (k l) \leq Ω_{\max} (k)$
une procédure d'estimation de q(k,l) est donnée par l'algorithme en métalangage suivant :
Pour chaque trame l et pour chaque segment de spectre k,

(i) Calculer SX(k,l), MX(k,l), SRef(k,l) et MRef(k,l). Aller à (ii)
(ii) Si SX(k,l) > L_XMX(k,l) (détection de transitoires sur la voie de parole bruitée), alors aller à (iii) sinon $q (k l) = 1$
(iii) Si SRef(k,l) > L_RefMRef(k,l) (détection de transitoires sur la voie de référence), alors aller à (iv) sinon $q (k l) = 0$
(iv) Calculer Ω(k,l). aller à (v)
(v) Calculer : $q (k l) = \max (\min (\frac{Ω_{\max} (k) - Ω (k l)}{Ω_{\max} (k) - Ω_{\min} (k)} 1), 0)$

Les constantes L_x et L_Ref sont des seuils de détection des transitoires. Ω_min (k) et Ω_m _ax(k) sont les limites supérieure et inférieure pour chaque segment de spectre. Ces divers paramètres sont choisis de manière à correspondre à des situations typiques, proches de la réalité.
L'étape suivante (correspondant au bloc 26 de la figure 1) consiste à opérer le débruitage proprement dit (renforcement de la composante de parole). L'estimateur que l'on vient de décrire sera appliqué au modèle statistique décrit par Ephraim et Malah [2, précité], qui suppose que le bruit et la parole dans chaque segment de spectre sont des processus gaussiens indépendants de variances respectives λ_x(k,l) et λ_d(k,l).
Cette étape peut avantageusement mettre en oeuvre l'algorithme de gain OM-LSA (Optimally Modified Log-Spectral Amplitude Gain) décrit par Cohen et Berdugo [3, précité]. Le rapport signal/bruit a priori est défini par : $ξ (k l) = \frac{λ_{x} (k l)}{λ_{d} (k l)}$
Le rapport signal/bruit a posteriori est défini par : $γ (k l) = \frac{{|X (k l)|}^{2}}{λ_{d} (k l)}$
La probabilité conditionnelle de présence du signal est : $p (k l) = \Pr (H_{1} (k l) | X (k l))$
Avec l'hypothèse gaussienne et les paramètres ci-dessus, il vient : $p (k l) = {\{1 + \frac{q (k l)}{1 - q (k l)} (1 + ξ (k l)) \exp (- υ (k l))\}}^{- 1}$
avec : $υ (k l) = \frac{γ (k l) ξ (k l)}{1 + ξ (k l)}$
L'estimée optimale de la parole débruitée S(k,l) est donnée par : $\hat{S} (k l) = G_{H_{1}} {(k l)}^{p (k l)} G_{\min}^{1 - p (k l)} X (k l)$
G _H1 étant le gain dans l'hypothèse où la parole est présente, qui est défini par: $G_{H_{1}} (k l) = \frac{ξ (k l)}{1 + ξ (k l)} \exp (\frac{1}{2} \int_{υ (k l)}^{\infty} \frac{e^{- t}}{t} ⅆ t)$
Le gain G_min dans l'hypothèse d'absence de parole est une limite inférieure pour la réduction du bruit, afin de limiter la distorsion de la parole.
La formule classique d'estimation du rapport signal/bruit a priori est : $\hat{ξ} (k l) = a G_{H_{1}}^{2} (k, l - 1) γ (k, l - 1) + (1 - a) \max (γ (k l) - 1, 0)$
L'estimation de l'énergie du bruit est donnée par : ${\hat{λ}}_{d} (k, l + 1) = {\tilde{a}}_{d} (k l) {\hat{λ}}_{d} (k l) + β (1 - {\tilde{a}}_{d} (k l)) {|X (k l)|}^{2}$
Le paramètre de lissage ã_d évolue entre une limite inférieure a_d et 1, en fonction de la probabilité de présence conditionnelle : ${\hat{a}}_{d} (k l) = a_{d} + (1 - a_{d}) p (k l)$
β étant un facteur de surestimation qui compense le biais en l'absence de signal.
Le signal obtenu à l'issue de ce traitement est soumis à une transformée de Fourier inverse (bloc 28) pour donner l'estimée finale de la parole débruitée.
L'algorithme de la présente invention se révèle particulièrement efficace dans les environnements bruyants, parasités à la fois par des bruits mécaniques, des vibrations, etc. ainsi que par des bruits musicaux, situations caractéristiques rencontrées dans l'habitacle d'une voiture. Les spectrogrammes montrent que l'atténuation du bruit est non seulement efficace, mais se fait sans distorsion notable de la parole après débruitage.

Claims

Un procédé de traitement d'un signal audio, pour le débruitage d'un signal bruité originel comportant une composante de parole combinée à une composante de bruit, cette composante de bruit comprenant elle-même une composante de bruit transitoire et une composante de bruit pseudo-stationnaire,
caractérisé en ce que ce procédé est un procédé d'analyse de cohérence temporelle du signal bruité échantillonné comprenant les étapes de :
a) détermination d'un signal de référence par application au signal bruité d'un traitement (10,18) propre à atténuer de façon plus importante les composantes de parole que les composantes de bruit de ce signal bruité, ledit traitement comprenant :
a1) l'application d'un algorithme de prédiction linéaire adaptatif opérant sur une combinaison linéaire des échantillons antérieurs du signal bruité, et

a2) la détermination dudit signal de référence par une soustraction, avec compensation du déphasage, entre le signal bruité originel, non préfiltré et le signal délivré par l'algorithme de prédiction linéaire ;

b) détermination (24) d'une probabilité de présence/absence de parole a priori à partir des niveaux d'énergie respectifs dans le domaine spectral du signal bruité et du signal de référence ; et

c) utilisation de cette probabilité d'absence de parole a priori pour estimer un spectre de bruit et dériver (26) du signal bruité une estimée débruitée du signal de parole.
Le procédé de la revendication 1, dans lequel ledit signal de référence est déterminé par application à l'étape a2) d'une relation du type : $Ref (k, l) = X (k, l) - X (k, l) |\frac{Y (k, l)}{X (k, l)}|$

où X(k,l) et Y(k,l) sont les transformées de Fourier à court terme de chaque segment de spectre k de chaque trame l, respectivement du signal bruité originel et du signal délivré par l'algorithme de prédiction linéaire.
Le procédé de la revendication 1, dans lequel l'algorithme de prédiction linéaire (10) est un algorithme de type moindres carrés moyens LMS.
Le procédé de la revendication 1, dans lequel l'algorithme de prédiction linéaire (10) est un algorithme adaptatif récursif.
Le procédé de la revendication 1, dans lequel l'étape b) comprend l'application d'un algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans le signal de référence et dans le signal bruité.
Le procédé de la revendication 5, dans lequel l'algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire est un algorithme de type à moyennage récursif par contrôle des minima MRCA.
Le procédé de la revendication 1, dans lequel l'étape c) comprend l'application d'un algorithme de gain variable fonction de la probabilité de présence/absence de parole.
Le procédé de la revendication 7, dans lequel l'algorithme de gain variable est un algorithme de type gain à amplitude log-spectrale modifié optimisé OM-LSA.