EP2538409A1

EP2538409A1 - Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie "mains libres"

Info

Publication number: EP2538409A1
Application number: EP12170874A
Authority: EP
Inventors: Charles Fox
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2011-06-20
Filing date: 2012-06-05
Publication date: 2012-12-26
Anticipated expiration: 2032-06-05
Also published as: EP2538409B1; FR2976710B1; US20120322511A1; CN102855880A; CN102855880B; FR2976710A1; US8504117B2

Abstract

Ce procédé comporte les étapes suivantes, dans le domaine fréquentiel :
a) estimation (22) d'une probabilité de présence de parole (p);
b) estimation (46), modulée par la probabilité de présence de parole (p), d'une matrice spectrale de covariance (R_n ) des bruits recueillis par les capteurs ;
c) estimation (28, 38), modulée par la probabilité de présence de parole (p), de la fonction de transfert (H) des canaux acoustiques entre la source de parole et au moins certains des capteurs, par rapport à une référence constituée par le signal recueilli par l'un des capteurs ;
d) calcul (48) d'un projecteur linéaire optimal donnant un signal combiné unique à partir des signaux (X₁... X_n) recueillis par au moins certains des capteurs, de la matrice spectrale de covariance (R_n ), et des fonctions de transfert estimées (H₁...H_n); et
e) à partir de la probabilité de présence de parole (p) et du signal combiné de sortie du projecteur, réduction sélective du bruit (50) par application d'un gain variable.

Description

L'invention concerne le traitement de la parole en milieu bruité.
Elle concerne notamment, mais de façon non limitative, le traitement des signaux de parole captés par des dispositifs de téléphonie pour véhicules automobiles.
Ces appareils comportent un ou plusieurs microphones ("micros") sensible non seulement à la voix de l'utilisateur, mais captant aussi le bruit environnant ainsi que l'écho dû au phénomène de réverbération par l'environnement, typiquement l'habitacle du véhicule. La composante utile (le signal de parole du locuteur proche) se trouve ainsi noyée dans une composante parasite de bruit (bruits externes et réverbération) pouvant aller, souvent, jusqu'à rendre incompréhensible pour le locuteur distant (celui qui est à l'autre bout de la voie de transmission du signal téléphonique) les paroles du locuteur proche.
Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains-libres". En particulier, la distance importante entre le micro et le locuteur entraîne un niveau relatif de bruit élevé qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.
Certains de ces dispositifs prévoient l'utilisation de plusieurs micros et utilisent la moyenne des signaux captés, ou d'autres opérations plus complexes, pour obtenir un signal avec un niveau de perturbations moindre. En particulier, des techniques dites de beamforming permettent de créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit. Mais les performances de cette technique sont très limitées lorsque seulement deux micros sont utilisés (concrètement, on estime qu'une telle méthode ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros). Les performances sont en outre très dégradées lorsque l'environnement est réverbérant.
Le but de l'invention est de proposer une solution de débruitage des signaux audio captés par un tel système multicanal, multi-microphones, dans un environnement très bruyant et très réverbérant, typiquement l'habitacle d'une voiture.
La principale difficulté liée aux méthodes de traitement de la parole par des systèmes multicanal est la difficulté d'estimation des paramètres utiles pour les traitements à appliquer, car les estimateurs sont fortement liés à l'environnement ambiant.
La plupart des techniques se basent sur l'hypothèse que le signal utile et/ou les bruits parasites présentent une certaine directivité, et combinent les signaux issus des différents micros de manière à améliorer le rapport signal/bruit en fonction de ces conditions de directivité.
Ainsi, le EP 2 293 594 A1 (Parrot SA) décrit un procédé à détection spatiale et filtrage des bruits non stationnaires et directifs tels que coups de klaxon, passage d'un scooter, dépassement par une voiture, etc. La technique proposée consiste à associer les propriétés de non-stationnarité temporelle et fréquentielle, d'une part, et de directivité spatiale, d'autre part, pour détecter un type de bruit qu'il est d'ordinaire difficile de discriminer de la parole, afin d'assurer un filtrage efficace de ce bruit et de déduire par ailleurs une probabilité de présence de parole qui permettra d'améliorer encore l'atténuation du bruit.
Le EP 2 309 499 A1 (Parrot SA) décrit un système à deux micros opérant une analyse de cohérence spatiale du signal capté de manière à déterminer une direction d'incidence. Le système calcule deux références de bruits selon des méthodes différentes, l'une en fonction de la cohérence spatiale des signaux captés (qui intègre les bruits non stationnaires peu directifs) et une autre en fonction de la direction principale d'incidence des signaux (qui intègre surtout les bruits non stationnaires directifs). Cette technique de débruitage repose sur l'hypothèse que la parole présente généralement une cohérence spatiale supérieure au bruit et que, par ailleurs, la direction d'incidence de la parole est généralement bien définie et peut être supposée connue : dans le cas d'un véhicule automobile, elle est définie par la position du conducteur, vers lequel sont tournés les micros.
Ces techniques prennent cependant mal en compte l'effet de réverbération typique de l'habitacle d'une voiture, où les réflexions puissantes et nombreuses rendent difficile le calcul d'une direction d'arrivée, avec pour conséquence une dégradation notable de l'efficacité du débruitage.
En outre, avec ces techniques le signal débruité obtenu en sortie restitue de façon satisfaisante l'amplitude du signal de parole initial, mais non sa phase, ce qui peut entraîner une déformation de la voix reproduite par le dispositif.
Le problème de l'invention est la prise en compte d'un environnement réverbérant ne permettant pas de calculer de façon satisfaisante une direction d'arrivée du signal utile et, subsidiairement, l'obtention d'un débruitage qui restitue à la fois l'amplitude et la phase du signal initial, en ne déformant donc pas la voix du locuteur lorsque celle-ci est reproduite par le dispositif.
L'invention propose une technique mise en oeuvre dans le domaine fréquentiel, pour une pluralité de bins du signal capté (c'est-à-dire pour chaque bande de fréquences de chaque trame temporelle du signal). Le traitement consiste essentiellement à :

calculer une probabilité de présence de parole dans le signal bruité recueilli ;
estimer la fonction de transfert du canal acoustique entre la source de parole (le locuteur proche) et chacun des capteurs du réseau de micros ;
calculer une projection optimale pour déterminer un canal unique à partir des fonctions de transfert des canaux multiples estimés ; et
réduire sélectivement le bruit sur ce canal unique, pour chaque bin, en fonction de la probabilité de présence de parole.

Plus précisément, le procédé de l'invention est un procédé de débruitage pour un dispositif comprenant un réseau formé d'une pluralité de capteurs microphoniques disposés selon une configuration prédéterminée.
Ce procédé comporte les étapes de traitement suivantes dans le domaine fréquentiel, pour une pluralité de bandes de fréquences définies pour des trames temporelles successives de signal :

a) estimation d'une probabilité de présence de parole dans le signal bruité recueilli ;
b) estimation d'une matrice spectrale de covariance des bruits recueillis par les capteurs, cette estimation étant modulée par la probabilité de présence de parole ;
c) estimation de la fonction de transfert des canaux acoustiques entre la source de parole et au moins certains des capteurs, cette estimation étant opérée par rapport à une référence de signal utile constituée par le signal recueilli par l'un des capteurs, et étant en outre modulée par la probabilité de présence de parole ;
d) calcul d'un projecteur linéaire optimal, donnant un signal combiné débruité unique à partir des signaux recueillis par au moins certains des capteurs, de la matrice spectrale de covariance estimée à l'étape b), et des fonctions de transfert estimées à l'étape c) ; et
e) à partir de la probabilité de présence de parole et du signal combiné donné par le projecteur calculé à l'étape d), réduction sélective du bruit par application d'un gain variable propre à chaque bande de fréquences et à chaque trame temporelle.

De préférence, le calcul du projecteur linéaire optimal de l'étape d) est opéré par un traitement de type beamforming de Capon à réponse sans distorsion à variance minimale MVDR.
De préférence également, la réduction sélective de bruit de l'étape e) est opérée par un traitement de type gain à amplitude log-spectrale modifié optimisé OM-LSA.
Dans une première forme de mise en oeuvre, l'estimation de la fonction de transfert de l'étape c) est opérée par calcul d'un filtre adaptatif visant à annuler la différence entre le signal recueilli par le capteur dont on cherche à évaluer la fonction de transfert et le signal recueilli par le capteur de la référence de signal utile, avec modulation par la probabilité de présence de parole.
Le filtre adaptatif peut notamment être un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS et la modulation par la probabilité de présence de parole, une modulation par variation du pas d'itération du filtre adaptatif.
Dans une deuxième forme de mise en oeuvre, l'estimation de la fonction de transfert de l'étape c) est opérée par un traitement de diagonalisation comprenant :

c1) la détermination d'une matrice spectrale de corrélation des signaux recueillis par les capteurs du réseau par rapport au capteur de la référence de signal utile,
c2) le calcul de la différence entre, d'une part, la matrice déterminée à l'étape c1) et, d'autre part, la matrice spectrale de covariance des bruits modulée par la probabilité de présence de parole, calculée à l'étape b), et
c3) la diagonalisation de la matrice différence calculée à l'étape c2). Par ailleurs, le spectre du signal à débruiter est avantageusement divisé en une pluralité de parties de spectre distinctes, les capteurs étant regroupés en une pluralité de sous-réseaux associés chacun à l'une des parties du spectre. Le traitement de débruitage est alors opéré de façon différenciée, pour chacune des parties du spectre, sur les signaux recueillis par les capteurs du sous-réseau correspondant à la partie du spectre considérée.

En particulier, dans le cas où le réseau de capteurs est un réseau linéaire de capteurs alignés, le spectre du signal à débruiter peut être divisé en une partie basse fréquence et une partie haute fréquence. Pour la partie basse fréquence, les étapes du traitement de débruitage sont alors opérées seulement sur les signaux recueillis par les capteurs les plus éloignés du réseau.
Il est également possible, toujours avec un spectre de signal à débruiter divisé en une pluralité de parties de spectre distinctes, d'estimer de manière différenciée, à l'étape c), la fonction de transfert des canaux acoustiques par application de traitements différents pour chacune des parties du spectre.
En particulier, dans le cas où le réseau de capteurs est un réseau linéaire de capteurs alignés et où les capteurs sont regroupés en une pluralité de sous-réseaux associés chacun à l'une des parties du spectre : pour la partie basse fréquence, le traitement de débruitage est opéré seulement sur les signaux recueillis par les capteurs les plus éloignés du réseau et l'estimation de la fonction de transfert est opérée par calcul d'un filtre adaptatif ; et pour la partie haute fréquence, le traitement de débruitage est opéré sur les signaux recueillis par tous les capteurs du réseau, et l'estimation de la fonction de transfert est opérée par un traitement de diagonalisation.
On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.

La Figure 1 est une représentation schématique des différents phénomènes acoustiques impliqués dans le recueil de signaux bruités.
La Figure 2 est une représentation schématique par blocs fonctionnels d'un filtre adaptatif pour l'estimation de la fonction de transfert d'un canal acoustique.
La Figure 3 est une caractéristique montrant les variations de la corrélation entre deux capteurs pour un champ de bruit diffus, en fonction de la fréquence.
La Figure 4 illustre de façon schématique un réseau de quatre micros utilisables de façon sélective, en fonction de la fréquence, pour la mise en oeuvre de l'invention.
La Figure 5 est un schéma d'ensemble, sous forme de blocs fonctionnels, montrant les différents traitements selon l'invention pour le débruitage des signaux recueillis pas le réseau de micros de la Figure 4.
La Figure 6 illustre plus précisément, sous forme de schéma par blocs, les fonctions mises en oeuvre, dans le domaine fréquentiel, pour le traitement selon l'invention illustré Figure 5.

On va maintenant décrire en détail la technique de débruitage proposée par l'invention.
On considérera, comme illustré Figure 1, un ensemble de n capteurs microphoniques, chaque capteur pouvant être assimilé à un micro unique M₁ ... M_n captant une version réverbérée d'un signal de parole émis par une source de signal utile S (la parole d'un locuteur proche 10), signal auquel vient s'ajouter un bruit.
Chaque micro capte donc :

une composante du signal utile (le signal de parole),
une composante de la réverbération de ce signal de parole par l'habitacle du véhicule, et
une composante du bruit parasite environnant, sous toutes ses formes (directif ou diffus, stationnaire ou évoluant de manière imprévisible, etc.).

Modélisation des signaux captés

Il s'agit de traiter les (multiples) signaux de ces micros en opérant un débruitage (bloc 12) donnant en sortie un signal (unique) : on reconnaît dans ce schéma un modèle MISO (Multiple Input Single Output).
Le signal de sortie devra être le plus proche possible du signal de parole émis par le locuteur 10, c'est-à-dire :

contenir le moins de bruit possible, et
déformer le moins possible la voix du locuteur restituée en sortie.

Sur le capteur de rang i, le signal recueilli sera : $x_{i} (t) = h_{i} \otimes s (t) + b_{i} (t)$

x_i étant le signal capté, h_i étant la réponse impulsionnelle entre la source de signal utile S et le capteur M_i, s étant le signal utile produit par la source S (signal de parole du locuteur proche 10) et b_i étant le bruit additif.
Pour l'ensemble des capteurs, on peut utiliser la notation vectorielle : $x (t) = h \otimes s (t) + b (t)$
Dans le domaine fréquentiel, cette expression devient : $X (ω) = H (ω) S (ω) + B (ω)$
On fera une première hypothèse selon laquelle la voix ainsi que le bruit sont gaussiens centrés.
Ceci se traduit dans le domaine fréquentiel par les conditions suivantes, pour toutes les fréquences ω:

S est gaussien centré de puissance φ _s
B est un vecteur gaussien centré de matrice de covariance R _n
S et B sont décorrélés et chacun est décorrélé lorsque les fréquences sont différentes

On fera par ailleurs une deuxième hypothèse selon laquelle les bruits et la voix sont décorrélés. Cela se traduit par le fait que S est décorrélé avec toutes les composantes de B . De plus, pour des fréquences ω _i et ω _j différentes, S(ω _i ) et S(ω _j ) sont décorrélés. Cette hypothèse est également valable pour le vecteur de bruit B .

Calcul d'un projecteur optimal

La technique proposée consiste, sur la base des éléments que l'on vient d'exposer, à rechercher dans le domaine temporel un projecteur linéaire optimal pour chaque fréquence.
On entendra par "projecteur" un opérateur correspondant à une transformation d'une pluralité de signaux, recueillis concurremment par un dispositif multicanal, en un signal unique monocanal.
Cette projection est une projection linéaire "optimale" en ce sens que la composante de bruit résiduel sur le signal monocanal délivré en sortie soit minimisée (bruit et réverbération) et que la composante utile de parole soit le moins déformée possible.
Cette optimisation implique de rechercher pour chaque fréquence un vecteur A tel que :

la projection A ^T X contienne le moins de bruit possible, c'est-à-dire que la puissance du bruit résiduel, qui vaut E[ A ^T VV ^T A ] = A ^T R _n A , soit minimisée, et
ne déforme pas la voix du locuteur, ce qui se traduit par la contrainte A ^T H= 1.

R _n

H étant le canal acoustique considéré.
Ce problème est un problème d'optimisation sous contrainte, à savoir la recherche de min ( A ^T R _n A ) sous la contrainte A ^T H=1.
Il peut être résolu en utilisant la méthode des multiplieurs de Lagrange, qui conduit à la solution : $A^{T} = \frac{H^{T} R_{n}^{- 1}}{H^{T} R_{n}^{- 1} H}$
Dans le cas où les transferts H correspondent à un retard pur, on reconnait la formule du beamforming MVDR (Minimum Variance Distorsionless Response), aussi appelé beamforming de Capon.
On notera que la puissance de bruit résiduel vaut, après projection : $\frac{1}{H^{T} R_{n}^{- 1} H}$
De plus, en écrivant des estimateurs de type Minimum Mean-Squared Error sur l'amplitude et la phase du signal à chaque fréquence, on constate que ces estimateurs s'écrivent comme un beamforming de Capon suivi d'un traitement monocanal, comme décrit dans :

[1] R. C. Hendriks et al., On optimal multichannel mean-squared error estimators for speech enhancement, IEEE Signal Processing Letters, vol. 16, no. 10, 2009.
Le traitement de débruitage sélectif du bruit appliqué au signal monocanal résultant du traitement de beamforming est avantageusement un traitement de type gain à amplitude log-spectrale modifié optimisé OM-LSA tel que décrit par exemple dans :
[2] 1. Cohen, Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator, IEEE Signal Processing Letters, vol.9, no. 4, pp. 113-116, April 2002.

Estimation des paramètres pour le calcul du projecteur linéaire optimal

Pour la mise en oeuvre de cette technique, il est nécessaire d'estimer la fonction de transfert acoustique H ₁, H ₂ ... H _n entre la source de parole S et chacun des micros M₁, M₂ ... M_n.
Il est également nécessaire d'estimer la matrice spectrale de covariance des bruits, notée R _n .
Pour ces estimations, on utilisera une probabilité de présence de parole, notée p.
La probabilité de présence de parole p est un paramètre pouvant prendre plusieurs valeurs différentes comprises entre 0 et 100 % (et non seulement un valeur binaire 0 ou 1). Ce paramètre est calculé selon une technique en elle-même connue, dont des exemples sont notamment exposés dans :

[3] I. Cohen et B. Berdugo, Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio, Proc. ICASSP 2003, Hong-Kong, pp. 233-236, Apr. 2003.

On pourra également se référer au WO 2007/099222 A1 , qui décrit une technique de débruitage mettant en oeuvre un calcul de probabilité de présence de parole.
En ce qui concerne la matrice spectrale de covariance des bruits R_n, on peut utiliser un estimateur d'espérance à fenêtre exponentielle, ce qui revient à appliquer un facteur d'oubli : $R_{n} (k + 1) = α R_{n} (k) + (1 - α) {XX}^{T}$

k+1 étant le numéro de la trame courante, et
α est un facteur d'oubli compris entre 0 et 1.
Pour ne prendre en compte que les éléments où seul le bruit est présent, on module le facteur d'oubli α par la probabilité de présence de parole : $α = α_{0} + (1 - α_{0}) p$

avec α ₀∈[01].
Pour estimer la fonction de transfert H du canal acoustique considéré, plusieurs techniques sont utilisables.
Une première technique consiste à utiliser un algorithme de type LMS dans le domaine fréquentiel.
Les algorithmes de type LMS - ou NLMS (Normalized LMS) qui est une version normalisée du LMS - sont des algorithmes relativement simples et peu exigeants en termes de ressources de calcul. Il s'agit d'algorithmes en eux-mêmes connus, décrits par exemple dans :

[4] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R. E. Kalman and N. De Claris Eds., New York: Holt, Rinehart and Winston, pp. 563-587, 1970 ;
[5] J. Prado et E. Moulines, Frequency-domain adaptive filtering with applications to acoustic echo cancellation, Springer, Ed. Annals of Telecommunications, 1994 ;
[6] B. Widrow et S. Stearns, Adaptative Signal Processing, Prentice-Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.

Le principe de cet algorithme est illustré Figure 2.
De façon caractéristique de l'invention, on prendra l'un des canaux comme référence de signal utile, par exemple le canal du micro M₁, et l'on calculera les fonctions de transfert H₂ ... H_n , pour les autres canaux. Ceci revient à contraindre H₁ = 1.
On notera que bien que l'on prenne comme référence de signal utile la version réverbérée (donc parasitée) du signal de parole S captée par le micro M₁, la présence de la réverbération dans le signal capté n'est pas gênante car à ce stade on cherche à opérer un débruitage et non une dé-réverbération.
Comme illustré Figure 2, l'algorithme LMS vise (de façon connue) à estimer un filtre H (bloc 14) au moyen d'un algorithme adaptatif, correspondant au signal x_i délivré par le micro M_i, en estimant le transfert de bruit entre le micro M_i et le micro M_i (pris comme référence). La sortie du filtre 14 est soustraite en 16 au signal x₁ capté par le micro M₁ pour donner un signal d'erreur de prédiction permettant l'adaptation itérative du filtre 14. Il est ainsi possible de prédire à partir du signal x_i la composante de parole (réverbérée) contenue dans le signal x_i .
Pour éviter les problèmes liés à la causalité (c'est-à-dire pour être sûr que les signaux x_i n'arrivent pas en avance par rapport à la référence x₁ ), on retarde légèrement (bloc 18) le signal x₁ .
Par ailleurs, on ajoute un élément 20 permettant de pondérer le signal d'erreur du filtre adaptatif 14 par la probabilité de présence de parole p délivrée en sortie du bloc 22 : il s'agit de procéder à l'adaptation du filtre seulement quand la probabilité de présence de parole est élevée. Cette pondération peut être notamment opérée par modification du pas d'adaptation en fonction de la probabilité p.
L'équation de mise à jour du filtre adaptatif s'écrit, pour chaque trame k et pour chaque capteur i, : $H_{i} (k + 1) = H_{i} (k) + µ X {(k)}_{1}^{T} (X {(k)}_{1} - H {(k)}_{i} X {(k)}_{i})$
Le pas µ d'adaptation de l'algorithme, modulé par la probabilité de présence de parole, s'écrit, en normalisant le LMS (le dénominateur correspondant à la puissance spectrale du signal x₁ à la fréquence considérée) : $µ = \frac{p}{E (X_{1}^{2})}$
L'hypothèse que les bruits sont décorrélés conduit à une prédiction par l'algorithme LMS de la voix, et non du bruit, de sorte que la fonction de transfert estimée correspond effectivement au canal acoustique H entre le locuteur et les micros.
Une autre technique possible d'estimation du canal acoustique consiste à opérer par diagonalisation de matrice.
Ce mode d'estimation est basé sur l'utilisation de la matrice spectrale de corrélation du signal observé, que l'on notera R _x=E[XX^T ].
On estime cette matrice de la même façon que R _n : $R_{n} (k + 1) = α R_{n} (k) + (1 - α) {XX}^{T}$

α étant un facteur d'oubli (fixe, puisque l'on prend en compte tout le signal).
On peut ensuite estimer R _x-R _n=φ _s HH ^T : il s'agit d'une matrice de rang 1, dont la seule valeur propre non nulle est φ_s , qui est associée au vecteur propre H
On peut ainsi estimer H en diagonalisant R _x-R _n, mais on ne peut calculer que vect( H ), autrement dit on n'estime H qu'à un facteur complexe près.
Pour lever cette ambiguïté, de la même manière que précédemment pour l'estimation par algorithme LMS, on choisit l'un des canaux comme canal de référence, ce qui revient à contraindre H ₁ = 1.

Échantillonnage spatial du champ sonore

Dans le cas d'un système multi-microphone, qui réalise donc un échantillonnage spatial du champ sonore, le placement relatif des différents micros est un aspect crucial pour l'efficacité du traitement des signaux captés par ces micros.
En particulier, comme on l'a indiqué au début, on fait l'hypothèse que les bruits présents sur les micros sont décorrélés pour utiliser une identification adaptative de type LMS. Pour être au plus près de cette hypothèse, il conviendrait d'éloigner les micros les uns des autres, car la fonction de corrélation s'écrit, pour un modèle de bruit diffus, comme une fonction décroissante de la distance entre les micros, ce qui rend les estimateurs de canal acoustique plus robustes.
En effet, la corrélation entre deux capteurs pour un champ de bruit diffus s'écrit : $MSC (f) = {sinc}^{2} (\frac{fd}{c})$

f étant la fréquence considérée,
d étant la distance entre les capteurs, et
c étant la vitesse du son.
La caractéristique correspondante est illustrée Figure 3, pour une distance entre micros d = 10 cm.
L'éloignement des micros, qui permet de décorréler les bruits, présente cependant l'inconvénient de se traduire, dans le domaine spatial, à un échantillonnage à une fréquence plus faible, avec pour conséquence un repliement des hautes fréquences, qui seront moins bien restituées. L'invention propose de résoudre cette difficulté en sélectionnant des configurations de capteurs différentes selon les fréquences traitées.
Ainsi, sur la Figure 4, on a illustré un réseau linéaire de quatre micros alignés M₁ ... M₄ espacés chacun de d = 5 cm.
Pour la région inférieure du spectre (basses fréquences BF) on choisira par exemple d'utiliser seulement les deux micros extrêmes M₁ et M₄, éloignés donc de 3d = 15 cm, tandis que pour la partie haute du spectre (hautes fréquences HF) on utilisera les quatre micros M₁, M₂, M₃ et M₄ espacés chacun de seulement d = 5 cm.
En variante ou en complément, selon un autre aspect de l'invention, on peut aussi sélectionner, pour l'estimation de la fonction de transfert H du canal acoustique, des méthodes différentes en fonction des fréquences traitées. Par exemple, pour les deux méthodes exposées plus haut (traitement fréquentiel par LMS, et traitement par diagonalisation), on peut choisir l'une ou l'autre méthode en fonction de critères tels que :

la corrélation des bruits : pour tenir compte du fait que la méthode par diagonalisation y est moins sensible, mais est moins précise, ou
le nombre de micros employés : pour tenir compte du fait que la méthode par diagonalisation devient très coûteuse en calculs lorsque la dimension des matrices augmente, du fait de l'augmentation du nombre n de micros.

Description d'un mode de réalisation préférentiel

Cet exemple est décrit en référence aux Figures 5 et 6, et met en oeuvre les différents éléments évoqués plus haut du traitement des signaux, avec leurs différentes variantes possibles.
La Figure 5 est un schéma par blocs montrant les différentes étapes de traitement des signaux issus d'un réseau linéaire de quatre micros M₁ ... M₄ tels que celui illustré Figure 4.
Des traitements différents sont opérés pour le haut du spectre (hautes fréquences HF, correspondant aux blocs 24 à 32), et pour le bas du spectre (basses fréquences BF, correspondant aux blocs 34 à 42) :

pour le haut du spectre, sélectionné par un filtre 24, les signaux des quatre micros M₁ ... M₄ sont utilisés conjointement. Ces signaux font d'abord l'objet d'une transformée rapide de Fourier FFT (bloc 26) pour passer dans le domaine fréquentiel, puis d'un traitement 28 (décrit plus bas en référence à la Figure 6) impliquant une diagonalisation de matrice. Le signal monocanal résultant S_HF est soumis à une transformée de Fourier rapide inverse iFFT (bloc 30) pour repasser dans le domaine temporel, puis le signal résultant s_HF est appliqué à un filtre de synthèse (bloc 32) pour restituer le haut du spectre du canal de sortie s ;
pour le bas du spectre, sélectionné par le filtre 34, seuls les signaux des deux micros extrêmes M₁ et M₄ sont utilisés. Ces signaux font d'abord l'objet d'une transformée rapide de Fourier FFT (bloc 36) pour passer dans le domaine fréquentiel, puis d'un traitement 38 (décrit plus bas en référence à la Figure 6) impliquant un filtrage adaptatif LMS. Le signal monocanal résultant S_BF est soumis à une transformée de Fourier rapide inverse iFFT (bloc 40) pour repasser dans le domaine temporel, puis le signal résultant s_BF est appliqué à un filtre de synthèse (bloc 42) pour restituer le bas du spectre du canal de sortie s.

On va maintenant décrire en référence à la Figure 6 les traitements opérés par les blocs 28 ou 38 de la Figure 5.
Le traitement que l'on va décrire est appliqué dans le domaine fréquentiel, à chaque bin de fréquence, c'est-à-dire pour chaque bande de fréquences définie pour les trames temporelles successives du signal recueilli par les micros (les quatre micros M₁, M₂, M₃ et M₄ pour le haut du spectre HF, et les deux micros M₁ et M₄ pour le bas du spectre BF).
A ces signaux correspondent, dans le domaine fréquentiel, des vecteurs X₁ ... X_n (X₁, X₂, X₃ et X₄ et X₁, X₄, respectivement).
Un bloc 22 produit à partir des signaux recueillis par les micros une probabilité p de présence de parole. Comme indiqué plus haut, cette estimation est opérée selon une technique en elle-même connue, par exemple celle décrite dans le WO 2007/099222 A1 , auquel on pourra se référer pour plus de détails.
Le bloc 44 schématise un sélecteur de la méthode d'estimation du canal acoustique, soit par diagonalisation sur la base des signaux recueillis par les quatre micros M₁, M₂, M₃ et M₄ (bloc 28 de la Figure 5, pour le haut du spectre HF), soit par filtre adaptatif LMS sur la base des signaux recueillis par les deux micros extrêmes M₁ et M₄ (bloc 38 de la Figure 5, pour le bas du spectre BF).
Le bloc 46 correspond à l'estimation de la matrice spectrale des bruits, désignée R_n, utilisée pour le calcul du projecteur linéaire optimal, et utilisée également pour le calcul de diagonalisation du bloc 28 lorsque la fonction de transfert du canal acoustique est estimée de cette manière. Le bloc 48 correspond au calcul du projecteur linéaire optimal. Comme on l'a indiqué plus haut, la projection calculée en 48 est une projection linéaire optimale, en ce sens que la composante de bruit résiduel sur le signal monocanal délivré en sortie est minimisée (bruit et réverbération). Comme on l'a également indiqué, le projecteur linéaire optimal présente la particularité de recaler les phases des différents signaux d'entrée, ce qui permet d'obtenir en sortie un signal projeté S_pr qui retrouve la phase du signal initial de parole du locuteur (et également l'amplitude de ce signal, bien entendu).
L'étape finale (bloc 50) consiste à opérer une réduction sélective du bruit par application d'un gain variable propre à chaque bande de fréquences et à chaque trame temporelle au signal projeté S_pr.
Ce débruitage est également modulé par la probabilité de présence de parole p.
Le signal S _HF/BF délivré en sortie par le bloc 50 de débruitage fera ensuite l'objet d'une transformation de Fourier rapide inverse iFFT (blocs 30, 40 de la Figure 5) pour obtenir dans le domaine temporel le signal de parole débruitée S_HF ou S_BF recherché donnant, après reconstitution du spectre complet, le signal de parole débruitée final s.
On peut avantageusement utiliser pour le débruitage du bloc 50 une méthode de type OM-LSA (Optimally Modified - Log Spectral Amplitude) telle que celle décrite par la référence précitée :

[2] I. Cohen, Optimal Speech Enhancement Under Signal Presence Uncerlainty Using Log-Spectral Amplitude Estimator, IEEE Signal Processing Letters, Vol. 9, No 4, April 2002.

Essentiellement, l'application d'un gain nommé "gain LSA" (Log-Spectral Amplitude) permet de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole originel. Ce second critère se montre supérieur au premier car la distance choisie est en meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats. Dans tous les cas, l'idée essentielle est de diminuer l'énergie des composantes fréquentielles très parasitées en leur appliquant un gain faible, tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout.
L'algorithme "OM-LSA" (Optimally-Modified Log-Spectral Amplitude) améliore le calcul du gain LSA à appliquer en le pondérant par la probabilité conditionnelle de présence de parole p.
Dans cette méthode, la probabilité de présence de parole p intervient à deux niveaux importants :

pour l'estimation de l'énergie du bruit, la probabilité vient moduler le facteur d'oubli dans le sens d'une mise à jour plus rapide de l'estimation du bruit sur le signal bruité lorsque la probabilité de présence de parole est faible ;
pour le calcul du gain final, elle joue également un grand rôle, car la réduction de bruit appliquée est d'autant plus importante (c'est-à-dire que le gain appliqué est d'autant plus faible) que la probabilité de présence de parole est faible.

Claims

Un procédé de débruitage d'un signal acoustique bruité pour un dispositif audio multi-microphone opérant dans un milieu bruité, notamment un dispositif téléphonique "mains libres",
le signal acoustique bruité comprenant une composante utile issue d'une source de parole (S) et une composante parasite de bruit,
ledit dispositif comprenant un réseau de capteurs formé d'une pluralité de capteurs microphoniques (M₁...M_n) disposés selon une configuration prédéterminée et aptes à recueillir le signal bruité,
caractérisé en ce qu'il comporte les étapes de traitement suivantes dans le domaine fréquentiel, pour une pluralité de bandes de fréquences définies pour des trames temporelles successives de signal :
a) estimation (22) d'une probabilité de présence de parole (p) dans le signal bruité recueilli ;

b) estimation (46) d'une matrice spectrale de covariance (R_n ) des bruits recueillis par les capteurs, cette estimation étant modulée par la probabilité de présence de parole (p) ;

c) estimation de la fonction de transfert (H₁..H_n ) des canaux acoustiques entre la source de parole (S) et au moins certains des capteurs (M₁...M_n), cette estimation étant opérée par rapport à une référence de signal utile constituée par le signal recueilli par l'un des capteurs (M₁), et étant en outre modulée par la probabilité de présence de parole (p) ;

d) calcul (48) d'un projecteur linéaire optimal donnant un signal combiné débruité unique à partir des signaux (X₁...X_n ) recueillis par au moins certains des capteurs, de la matrice spectrale de covariance (R_n ) estimée à l'étape b), et des fonctions de transfert (H₁...H_n ) estimées à l'étape c) ; et

e) à partir de la probabilité de présence de parole (p) et du signal combiné donné par le projecteur calculé à l'étape d), réduction sélective du bruit (50) par application d'un gain variable propre à chaque bande de fréquences et à chaque trame temporelle.
Le procédé de la revendication 1, dans lequel le calcul (48) du projecteur linéaire optimal de l'étape d) est opéré par un traitement de type beamforming de Capon à réponse sans distorsion à variance minimale MVDR.
Le procédé de la revendication 1, dans lequel la réduction sélective de bruit (50) de l'étape e) est opérée par un traitement de type gain à amplitude log-spectrale modifié optimisé OM-LSA.
Le procédé de la revendication 1, dans lequel l'estimation de la fonction de transfert de l'étape c) est opérée par calcul (38) d'un filtre adaptatif (14) visant à annuler la différence entre le signal (X_i ) recueilli par le capteur dont on cherche à évaluer la fonction de transfert et le signal (X₁ ) recueilli par le capteur de ladite référence de signal utile, avec modulation par la probabilité de présence de parole (p).
Le procédé de la revendication 4, dans lequel le filtre adaptatif (14) est un filtre à algorithme de prédiction linéaire de type moindres carrés moyens LMS.
Le procédé de la revendication 4, dans lequel ladite modulation par la probabilité de présence de parole (p) est une modulation par variation du pas d'itération du filtre adaptatif (14).
Le procédé de la revendication 1, dans lequel l'estimation de la fonction de transfert de l'étape c) est opérée par un traitement de diagonalisation (28) comprenant :
c1) la détermination d'une matrice spectrale de corrélation (R_x ) des signaux recueillis par les capteurs du réseau par rapport au capteur de ladite référence de signal utile,

c2) le calcul de la différence entre, d'une part, la matrice (R_x ) déterminée à l'étape c1) et, d'autre part, ladite matrice spectrale de covariance (R_n ) des bruits modulée par la probabilité de présence de parole (p), calculée à l'étape b), et

c3) la diagonalisation de la matrice différence calculée à l'étape c2).
Le procédé de la revendication 1, dans lequel :
- le spectre du signal à débruiter est divisé en une pluralité de parties de spectre distinctes (BF, HF),

- les capteurs sont regroupés en une pluralité de sous-réseaux (M₁...M₄ ; M₁,M₄) associés chacun à l'une desdites parties du spectre, et

- le traitement de débruitage est opéré de façon différenciée, pour chacune desdites parties du spectre, sur les signaux recueillis par les capteurs du sous-réseau correspondant à la partie du spectre considérée.
Le procédé de la revendication 8, dans lequel :
- le réseau de capteurs est un réseau linéaire de capteurs alignés (M₁...M₄),

- le spectre du signal à débruiter est divisé en une partie basse fréquence (BF) et une partie haute fréquence (HF), et

- pour la partie basse fréquence, les étapes du traitement de débruitage sont opérées seulement sur les signaux recueillis par les capteurs les plus éloignés du réseau (M₁,M₄).
Le procédé de la revendication 1, dans lequel :
- le spectre du signal à débruiter est divisé en une pluralité de parties de spectre distinctes (BF, HF), et

- l'étape c) d'estimation de la fonction de transfert des canaux acoustiques est opérée de manière différenciée par application de traitements différents (28, 38) pour chacune desdites parties du spectre.
Le procédé de la revendication 10, dans lequel :
- le réseau de capteurs est un réseau linéaire de capteurs alignés (M₁...M₄),

- les capteurs sont regroupés en une pluralité de sous-réseaux (M₁...M₄ ; M₁,M₄) associés chacun à l'une desdites parties du spectre,

- pour la partie basse fréquence (BF), le traitement de débruitage est opéré seulement sur les signaux recueillis par les capteurs (M₁,M₄) les plus éloignés du réseau, et l'estimation de la fonction de transfert est opérée par calcul d'un filtre adaptatif (38), et

- pour la partie haute fréquence, le traitement de débruitage est opéré sur les signaux recueillis par tous les capteurs du réseau (M₁...M₄), et l'estimation de la fonction de transfert est opérée par un traitement de diagonalisation (28).