EP2309499B1

EP2309499B1 - Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile

Info

Publication number: EP2309499B1
Application number: EP10167065A
Authority: EP
Inventors: Guillaume Vitte; Julie Seris; Guillaume Pinot
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2009-09-22
Filing date: 2010-06-23
Publication date: 2011-10-19
Anticipated expiration: 2030-06-23
Also published as: FR2950461A1; US8195246B2; ATE529860T1; US20110070926A1; ES2375844T3; FR2950461B1; EP2309499A1

Description

L'invention concerne le traitement de la parole en milieu bruité.
Elle concerne notamment, mais de façon non limitative, le traitement des signaux de parole captés par des dispositifs de téléphonie pour véhicules automobiles.
Ces appareils comportent un microphone ("micro") sensible captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller, dans certains cas, jusqu'à rendre incompréhensibles les paroles du locuteur. Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.
Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains-libres". En particulier, la distance importante entre le micro et le locuteur entraîne un niveau relatif de bruit élevé qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.
Certains de ces dispositifs prévoient l'utilisation de plusieurs micros, généralement deux micros, et utilisent la moyenne des signaux captés, ou d'autres opérations plus complexes, pour obtenir un signal avec un niveau de perturbations moindre. En particulier, une technique dite beamforming permet de créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit, mais les performances de cette technique sont très limitées lorsque seulement deux micros sont utilisés (concrètement, on estime qu'une telle méthode ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros).
Par ailleurs, les techniques classiques sont surtout adaptées au filtrage des bruits diffus, stationnaires, provenant des alentours du dispositif et se retrouvant à des niveaux comparables dans les signaux captés par les deux micros.
En revanche, un bruit non stationnaire ou "transient", c'est-à-dire un bruit évoluant de manière imprévisible en fonction du temps, ne sera pas discriminé de la parole et ne sera donc pas atténué.
Or, dans un environnement automobile ces bruits non stationnaires et directifs sont très fréquents : coup de klaxon, passage d'un scooter, dépassement par une voiture, etc.
Une difficulté du filtrage de ces bruits non stationnaires tient au fait que leurs caractéristiques temporelles et spatiales sont très proches de celles de la parole, d'où la difficulté d'une part, d'estimer la présence d'une parole (car le locuteur ne parle pas tout le temps) et d'autre part d'extraire le signal utile de parole dans un environnement très bruité tel qu'un habitacle de véhicule automobile.
L'un des buts de la présente invention est de proposer un dispositif mains-libres multi-microphone, notamment un système qui mette en oeuvre seulement deux microphones, permettant :

de distinguer de façon efficace les bruits non stationnaires de la parole ; et
d'adapter le débruitage à la présence et aux caractéristiques des bruits non stationnaires détectés, sans altérer la parole éventuellement présente, afin de traiter le signal bruité de la manière la plus efficace.

Le point de départ de l'invention consiste à associer (i) une analyse de cohérence spatiale du signal capté par les deux micros, à (ii) une analyse de la direction d'incidence de ces signaux. L'invention repose en effet sur deux constatations, à savoir que :

la parole présente généralement une cohérence spatiale supérieure au bruit ; et par ailleurs que
la direction d'incidence de la parole est généralement bien définie, et peut être supposée connue (dans le cas d'un véhicule automobile, elle est définie par la position du conducteur, vers lequel est tourné le micro).

Ces deux propriétés seront utilisées pour calculer deux références de bruit selon des méthodes différentes :

une première référence de bruit calculée en fonction de la cohérence spatiale des signaux captés - une telle référence sera intéressante dans la mesure où elle intègre les bruits non stationnaires peu directifs (accrocs dans le ronronnement du moteur, etc.) ; et
une seconde référence de bruit calculée en fonction de la direction principale d'incidence des signaux - cette caractéristique est en effet déterminable lorsque l'on utilise un réseau de plusieurs micros (au moins deux), conduisant à une référence de bruit intégrant surtout les bruits non stationnaires directifs (coups de klaxon, passage d'un scooter, dépassement par une voiture, etc.).

Ces deux références de bruit seront utilisées en alternance selon la nature du bruit présent, en fonction de la direction d'incidence des signaux :

de manière générale, la première référence de bruit (celle calculée par cohérence spatiale) sera utilisée par défaut ;
en revanche, lorsque la direction principale d'incidence du signal sera éloignée de celle du signal utile (la direction du locuteur, supposée connue a priori) - c'est-à-dire en présence d'un bruit directif assez puissant - la seconde référence de bruit sera utilisée de façon à introduire majoritairement dans cette dernière les bruits non stationnaires directifs et puissants.

Une fois la référence de bruit ainsi sélectionnée, cette référence sera utilisée pour, d'une part, calculer une probabilité d'absence/présence de parole et pour, d'autre part, débruiter le signal capté par les micros.
Plus précisément, l'invention vise, de façon générale, un procédé de débruitage d'un signal acoustique bruité capté par deux microphones d'un dispositif audio multi-microphone opérant dans un milieu bruité, notamment un dispositif téléphonique "mains libres" pour véhicule automobile. Le signal acoustique bruité comprend une composante utile de parole issue d'une source de parole directive et une composante parasite de bruit, cette composante de bruit incluant elle-même une composante de bruit latéral non stationnaire directif.
Une tel procédé est par exemple divulgué par I. Cohen et B. Berdugo, Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio, Proc. ICASSP 2003, Hong-Kong, pp. 233-236, Apr. 2003.
De façon caractéristique de l'invention, ce procédé comporte, dans le domaine fréquentiel pour une pluralité de bandes de fréquences définies pour des trames temporelles successives de signal, les étapes de traitement du signal suivantes :

a) calcul d'une première référence de bruit par analyse de cohérence spatiale des signaux captés les deux microphones, ce calcul comprenant un filtrage linéaire prédictif appliqué aux signaux captés par les deux microphones et comprenant une soustraction avec compensation du déphasage entre le signal capté et le signal de sortie du filtre prédictif ;
b) calcul d'une seconde référence de bruit par analyse des directions d'incidence des signaux captés par les deux microphones, ce calcul comprenant le blocage spatial des composantes des signaux captés dont la direction d'incidence est située à l'intérieur d'un cône de référence défini de part et d'autre d'une direction prédéterminée d'incidence du signal utile ;
c) estimation d'une direction principale d'incidence des signaux captés par les deux microphones ;
d) sélection comme signal de bruit référent de l'une ou l'autre des références de bruit calculées aux étapes a) et b), en fonction de la direction principale estimée à l'étape c) ;
e) combinaison des signaux captés par les deux microphones en un signal combiné bruité ;
f) calcul d'une probabilité d'absence de parole dans le signal combiné bruité, à partir des niveaux respectifs d'énergie spectrale du signal combiné bruité et du signal de bruit référent ;
g) à partir de la probabilité d'absence de parole calculée à l'étape f) et du signal combiné bruité, réduction sélective du bruit par application d'un gain variable propre à chaque bande de fréquences et à chaque trame temporelle.

Selon diverses caractéristiques subsidiaires avantageuses :

le filtrage linéaire prédictif comprend l'application d'un algorithme de prédiction linéaire de type moindres carrés moyens LMS ;
l'estimation de la direction principale d'incidence de l'étape c) comprend les sous-étapes successives suivantes : c1) partition de l'espace en une pluralité de secteurs angulaires ; c2) pour chaque secteur, évaluation d'un estimateur de direction d'incidence à partir des signaux captés par les deux microphones ; et c3) à partir des valeurs d'estimateurs calculées à l'étape c2), estimation de ladite direction principale d'incidence ;

la sélection de l'étape d) est une sélection de la seconde référence de bruit comme signal de bruit référent si la direction principale estimée à l'étape c) est située hors d'un cône de référence défini de part et d'autre d'une direction prédéterminée d'incidence du signal utile ;
la combinaison de l'étape e) comprend un préfiltrage de type fixed beamforming ;
le calcul de probabilité d'absence de parole de l'étape f) comprend l'estimation de composantes de bruit pseudo-stationnaire respectives contenues dans le signal combiné bruité et dans le signal de bruit référent, la probabilité d'absence de parole étant calculée à partir également de ces composantes de bruit pseudo-stationnaire respectives ;
la réduction sélective du bruit de l'étape g) est un traitement par application d'un gain à amplitude log-spectrale modifié optimisé OM-LSA.

◊
On va maintenant décrire un exemple de mise en oeuvre du procédé de l'invention en référence à la figure annexée.
La Figure 1 est un schéma par blocs montrant les différents modules et fonctions mis en oeuvre par le procédé de l'invention ainsi que leurs interactions.
◊
Le procédé de l'invention est mis en oeuvre par des moyens logiciels, qu'il est possible de décomposer et schématiser par un certain nombre de blocs 10 à 36 illustrés Figure 1.
Ces traitements sont mis en oeuvre sous forme d'algorithmes appropriés exécutés par un microcontrôleur ou un processeur numérique de signal. Bien que, pour la clarté de l'exposé, ces divers traitements soient présentés sous forme de modules distincts, ils mettent en oeuvre des éléments communs et correspondent en pratique à une pluralité de fonctions globalement exécutées par un même logiciel.
Le signal que l'on souhaite débruiter est issu d'une pluralité de signaux captés par un réseau de micros (qui, dans la configuration minimale, peut être simplement un réseau de deux micros, comme dans l'exemple illustré) disposés selon une configuration prédéterminée. En pratique, ces deux micros peuvent par exemple être installés sur le plafonnier d'un habitacle de voiture, à environ 5 cm l'un de l'autre ; et avoir le lobe principal de leur diagramme de directivité orienté vers le conducteur. Cette direction, considérée comme a priori connue, sera désignée direction d'incidence du signal utile.
On appellera "bruit latéral" un bruit non stationnaire directif dont la direction d'incidence est éloignée de celle du signal utile, et on appellera "cône privilégié" la direction ou secteur angulaire de l'espace où se trouve la source de signal utile (la parole du locuteur) par rapport au réseau de micros. Lorsqu'une source sonore se manifestera en dehors du cône privilégié, il s'agira donc d'un bruit latéral, que l'on cherchera à atténuer. Comme illustré sur la Figure 1, les signaux bruités captés par les deux micros x ₁(n) et x ₂(n) font l'objet d'une transposition dans le domaine fréquentiel (blocs 10) par un calcul de transformée de Fourrier à court terme (FFT) dont le résultat est noté respectivement X ₁(k,l) et X₂ (k,l), k étant l'indice de la bande de fréquence et l étant l'indice de la trame temporelle. Les signaux issus des deux micros sont également appliqués à un module 12 mettant en oeuvre un algorithme LMS prédictif schématisé par le bloc 14 et donnant, après calcul d'une transformée de Fourrier à court terme (bloc 16) un signal Y(k,l) qui servira au calcul d'une première référence de bruit Ref ₁(k,l) exécuté par un bloc 18, essentiellement sur un critère de cohérence spatiale.
Une autre référence de bruit Ref ₂(k,l) est calculée par un bloc 20, essentiellement sur un critère de blocage angulaire), à partir des signaux X ₁(k,l) et X ₂(k,l) directement obtenus, dans le domaine fréquentiel, à partir des signaux x ₁(n) et x ₂(n).
Un bloc 22 opère la sélection de l'une ou l'autre des références de bruit Ref ₁(k,l) ou Ref ₂(k,l) en fonction du résultat d'un calcul de l'angle d'incidence des signaux opéré par le bloc 24 à partir des signaux X ₁(k,l) et X₂ (k,l). La référence de bruit choisie, Ref(k,l), est utilisée comme canal de bruit référent d'un bloc 26 de calcul d'une probabilité d'absence de parole opérée sur un signal bruité X(k,l) résultant d'une combinaison, opérée par le bloc 28, des deux signaux X ₁(k,l) et X ₂(k,l). Le bloc 26 prend également en compte les composantes de bruit pseudo-stationnaire respectives du canal de bruit référent et du signal bruité, composantes estimées par les blocs 30 et 32.
Le résultat q(k,l) du calcul de probabilité d'absence de parole et le signal bruité X(k,l) sont appliqués en entrée d'un algorithme de contrôle de gain OM-LSA (bloc 34) dont le résultat I Ŝ(k,l) est soumis (bloc 36) à une transformation de Fourrier inverse (iFFT) pour obtenir dans le domaine temporel une estimée
(t) du signal de parole débruité.
On va maintenant décrire en détail chacune des étapes du traitement.
Transformée de Fourier des signaux captés par les micros (blocs 10)
Le signal dans le domaine temporel x_n (t) issu de chacun des N micros (N =1,2 dans l'exemple illustré) est numérisé, découpé en trames de T points temporels, fenêtre temporellement par une fenêtre de type Hanning, puis la transformée de Fourier rapide FFT (transformée à court terme) X_n (k,l) est calculée pour chacun de ces signaux : $X_{n} (k, l) = a_{n}, d_{n} (k) \times S (k, l) + V_{n} (k, l)$

avec : $d_{n} (k) = e^{- i 2 {πf}_{k} τ_{n}}$

l: étant l'indice de la trame temporelle,
k: étant l'indice de la bande de fréquences, et
f_k: étant la fréquence centrale de la bande de fréquences indicée par k,
S(k,l): désignant la source de signal utile,
a_n et τ _n: désignant l'atténuation et le délai subis par le signal utile capté au niveau du micro n, et
V_n (k,l): désignant le bruit capté par le micro n.

Calcul d'une première référence de bruit par cohérence spatiale (bloc 12)
L'idée fondamentale sur laquelle repose l'invention est que, dans un environnement de télécommunications, la parole est un signal émis par une source bien localisée, relativement proche des micros et presque entièrement captée en chemin direct. À l'inverse, les bruits stationnaires et non stationnaires, qui proviennent surtout des alentours de l'utilisateur, peuvent être associés à des sources éloignées, en grand nombre et possédant une corrélation statistique inférieure à la parole entre les deux micros.
Dans un environnement de télécommunications, la parole est donc plus cohérente spatialement que le bruit.
Partant de ce principe, il est possible d'exploiter la propriété de cohérence spatiale pour construire un canal de bruit de référence plus riche et plus adapté qu'avec un beamformer. Le système prévoit à cet effet d'utiliser un filtre prédictif 14 de type LMS (Least Mean Squares, moindres carrés moyens) ayant pour entrées les signaux x ₁(n) et x ₂(n) captés par le couple de micros. On notera y(n) la sortie du LMS et e(n) l'erreur de prédiction.
Ce filtre prédictif est utilisé pour prédire à partir de x ₂(n) la composante parole qui se trouve dans x ₁(n). En effet, étant plus cohérente spatialement, la parole sera mieux prédite par le filtre adaptatif que le bruit.
Une première possibilité consiste à prendre pour le canal de bruit référent la transformée de Fourier de l'erreur de prédiction : $E (k, l) = X_{1} (k, l) - Y (k, l)$
E(k,l), X ₁(k,l) et Y(k,l) étant les transformées de Fourier à court terme (TFCT) respectives de e(k,l), x ₁(k,l) et y(k,l).
On constate cependant en pratique un certain déphasage entre X ₁(k,l) et Y(k,l) dû à une convergence imparfaite de l'algorithme LMS, ce qui empêche une bonne discrimination entre parole et bruit.
Pour pallier ce défaut, il est possible de définir le premier signal de bruit référent Réf ₁(k,l) par: ${Ref}_{1} (k, l) = X_{1} (k, l) - X_{1} (k, l) \frac{|Y (k, l)|}{|X_{1} (k, l)|}$
À la différence de nombreuses méthodes classiques d'estimation du bruit, aucune hypothèse de stationnarité n'est utilisée sur le bruit pour calculer ce premier canal de bruit de référence Réf ₁(k,l). L'un des avantages est par conséquent que ce canal de bruit intègre une partie des bruits non stationnaires, en particulier ceux qui ont une faible corrélation statistique et qui ne sont pas prédictibles entre les deux micros.
Calcul d'une seconde référence de bruit par blocage spatial (bloc 20)
Dans un environnement de télécommunications, il est possible de rencontrer des bruits dont la source est bien localisée et relativement proche des micros. Il s'agit en général de bruits ponctuels assez puissants (passage d'un scooter, dépassement par une voiture, etc.), et qui peuvent être gênants.
Les hypothèses utilisées pour le calcul du premier canal de bruit référent ne sont pas vérifiées sur ce type de bruit ; en revanche, ces bruits ont la particularité d'avoir une direction d'incidence bien définie et distincte de la direction d'incidence de la parole.
Pour exploiter cette propriété, on supposera que l'angle d'incidence θ _S de la parole est connu, par exemple défini comme étant l'angle entre la médiatrice du couple de micros et la direction de référence correspondant à la source de parole utile.
Plus précisément, on opère une partition de l'espace en secteurs angulaires qui décrivent l'espace, et dont chacun correspond à une direction définie par un angle θ _j, j ∈ [1,M], avec par exemple M = 19, donnant la collection d'angles {-90°,-80°...,0°,...+80°,+90°}. On notera qu'il n'y a aucun lien entre le nombre Nde micros et le nombre M d'angles testés : par exemple, il est tout à fait possible de tester M = 19 angles avec un seul couple de micros (N=2).
On se donne la partition {A,I} des angles θ _j qui sont respectivement "autorisés" et "interdits", les angles θ _a ∈ A étant "autorisés" en ce qu'ils correspondant à des signaux en provenance d'un cône privilégié centré sur θ _S , tandis que les angles θ _i ∈ I sont "interdits" en ce qu'ils correspondent à des bruits latéraux indésirables.
Le second canal de bruit référent Réf ₂(k,l) est défini de la manière suivante : ${Ref}_{2} (k, l) = \frac{1}{|A|} \sum_{θ_{a} \in A} (X_{1} (k, l) - X_{2} (k, l) \times e^{\frac{i 2 π . f_{k} . d . \sin θ_{a}}{c}})$

X ₁(k,l): étant la TFCT du signal enregistré par le micro d'indice 1,
X₂(k,l): étant la TFCT du signal enregistré par le micro d'indice 2,
f_k: étant la fréquence centrale de la bande de fréquences k,
l: étant la trame,
d: étant la distance entre les deux micros,
c: étant la célérité du son, et
|A|: étant le nombre d'angles "autorisés" du cône privilégié.

Dans chaque terme de cette somme, on retranche au signal du micro d'indice 1 le signal du micro d'indice 2 déphasé d'un angle θ _a qui appartient à A (sous-collection des angles "autorisés"). Ainsi, dans chaque terme on bloque spatialement les signaux ayant une direction de propagation θ _a "autorisée". Ce blocage spatial est effectué pour tous les angles autorisés.
Dans ce second canal de bruit référent Réf ₂(k,l), on laisse donc passer les éventuels bruits latéraux (bruits non stationnaires directifs), en bloquant spatialement le signal de parole.

Choix de la référence de bruit en fonction

de la direction d'incidence des signaux (blocs 22 et 24)

Cette sélection implique une estimation de l'angle d'incidence θ̂(k,l) des signaux. $\hat{θ} (k, l) = \underset{θ_{j}, j \in [1, M]}{argmax} ‖ P_{1, 2} (θ_{j}, k, l) ‖$

avec : $P_{1, 2} (θ_{j}, k, l) = E (X_{1} (k, l) . {\overline{X}}_{2} (k, l) . e^{- 2 π f_{k} τ_{j}})$

et $τ_{j} = \frac{d}{c} \sin θ_{j}$
Le canal de bruit référent sélectionné Ref(k,l) va dépendre de la détection d'un angle "autorisé" ou "interdit" pour la trame l et la bande de fréquence k :

si θ(k,l) est "autorisé" (θ(k,l) ∈ A), alors Ref(k,l) = Ref ₁(k,l)
si θ(k,l) est "interdit" θ(k,l) ∈ I), alors Ref(k,l) = Ref ₂(k,l)
si θ(k,l) n'est pas défini, alors Ref(k,l) = Ref ₁(k,l)

Ainsi, dans le cas d'un angle "autorisé" détecté, ou en l'absence de signaux directifs à l'entrée des micros, le canal de bruit référent Ref (k,l) est calculé par cohérence spatiale, ce qui permet d'intégrer les bruits non stationnaires peu directifs.
En revanche si un angle "interdit" est détecté, cela signifie qu'un bruit directif et assez puissant est présent. Dans ce cas, le canal de bruit référent Ref (k,l) est calculé suivant une méthode différente, par blocage spatial, de façon à introduire efficacement dans ce canal les bruits non stationnaires directifs et puissants.

Constitution d'un signal combiné partiellement débruité (bloc 28)

Les signaux X_n(k,l) (les TFCT des signaux captés par les micros) peuvent être combinés entre eux par une technique simple de préfiltrage par beamforming du type Delay and Sum, qui est appliquée pour obtenir un signal combiné X(k,l) partiellement débruité : $X (k, l) = \frac{1}{2} [X_{1} (k, l) + \overline{d_{2} (k)} . X_{2} (k, l)]$

avec : $d_{2} (k) = e^{i 2 π f_{k} τ_{s}} avec τ_{s} = \frac{d}{c} \sin θ_{s}$
Lorsque le système considéré comporte, comme dans le présent exemple, deux micros dont la médiatrice coupe la source, l'angle θ _S est nul et il s'agit d'une simple moyenne qui est faite sur les deux micros. Il est par ailleurs à noter que, concrètement, le nombre de micros étant limité, ce traitement ne procure qu'une faible amélioration du rapport signal/bruit, de l'ordre de 1 dB seulement.

Estimation du bruit pseudo-stationnaire (blocs 30 et 32)

Cette étape a pour objet de calculer une estimation de la composante de bruit pseudo-stationnaire présente dans la référence de bruit Ref (k,l) (bloc 30) et, de la même manière, la composante de bruit pseudo-stationnaire présente dans le signal à débruiter X(k,l) (bloc 32). Il existe de très nombreuses publications sur ce sujet, l'estimation de la composante de bruit pseudo-stationnaire étant en effet un problème classique assez bien résolu. Différentes méthodes sont efficaces et utilisables à cet effet, notamment un algorithme d'estimation de l'énergie de la composante de bruit pseudo-stationnaire à moyennage récursif par contrôle des minima (MCRA) comme celui décrit par I. Cohen et B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1, pp. 12-15, Jan. 2002.

Calcul de la probabilité d'absence de parole (bloc 26)

Une méthode efficace et reconnue pour estimer la probabilité d'absence de parole dans un environnement bruité est celle du rapport des transients, décrite par I. Cohen et B. Berdugo, Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio, Proc. ICASSP 2003, Hong-Kong, pp. 233-236, Apr. 2003. Le rapport des transients est défini de la manière suivante : $Ω (k, l) = \frac{S [X (k, l)] - M [X (k, l)]}{S [Ref (k, l)] - M [Ref (k, l)]}$

X(k,l): étant le signal combiné partiellement débruité,
Ref(k,l): étant le canal de bruit référent calculé dans la partie précédente,
k: étant la bande de fréquences, et
l: étant la trame

L'opérateur S est une estimation de l'énergie instantanée, et l'opérateur M est une estimation de l'énergie pseudo-stationnaire (estimation effectuée par les blocs 30 et 32). S - M fournit une estimation des parties transitoires du signal analysé, appelés aussi transients.
Les deux signaux analysés sont ici le signal bruité combiné X(k,l) et le signal du canal de bruit référent Ref(k,l). Le numérateur va donc mettre en évidence les transients de parole et de bruits, alors que le dénominateur va extraire uniquement les transients de bruits se trouvant dans le canal de bruit référent.
Ainsi, en présence de parole mais en l'absence de bruit non stationnaire, le ratio Ω(k,l) va tendre vers une limite haute Q_max(k), alors qu'à l'inverse, en l'absence de parole mais en présence de bruit non stationnaire, ce ratio va se rapprocher de la limite basse Ω_min(k), k étant la bande de fréquences. Ceci va permettre de réaliser la différenciation entre parole et bruits non stationnaires.
Dans le cas général, on a : $Ω_{\min} (k) \leq Ω (k, l) \leq Ω_{\max} (k)$
La probabilité d'absence de parole, notée ici q(k,l), va être calculée de la manière suivante.

Pour chaque trame / et chaque bande de fréquences k :

$Calcul de S [X (k, l)], S [Ref (k, l)], M [X (k, l)] et M [Ref (k, l)];$

ii) Si S[X(k,l)] ≥ α _XM[X(k,l)], la parole est susceptible d'être présente, l'analyse est poursuivie à l'étape (iii), dans le cas contraire, la parole est absente : alors q(k,l) = 1 ;
iii) Si S[Ref(k,l)] ≥ α _RefM[Ref(k,l)], du bruit transitoire est susceptible d'être présent, l'analyse est poursuivie à l'étape (iv), dans le cas contraire, ceci signifie les transients trouvés dans X(k,l) sont tous des transients de parole : alors q(k,l) = 0 ; $Calcul du ratio Ω (k, l) = \frac{S [X (k, l)] - M [X (k, l)]}{S [Ref (k, l)] - M [Ref (k, l)]};$
v) Détermination de la probabilité d'absence de parole : $q (k, l) = \max (\min (\frac{Ω_{\max} (k, l) - Ω (k, l)}{Ω_{\max} (k, l) - Ω_{\min} (k, l)}, 1), 0) .$

Les constantes α _X et α _Ref utilisées dans cet algorithme sont en fait des seuils de détection des parties transitoires. Les paramètres α _X , α _Ref ainsi que Ω_min(k) et Ω_max(k), sont tous choisis de manière à correspondre à des situations typiques, proches de la réalité.

Réduction de bruit par application d'un gain OM-LSA (bloc 34)

La probabilité q(k,l) d'absence de parole calculée au bloc 26 va être utilisée comme paramètre d'entrée dans une technique (en elle-même connue) de débruitage. Elle présente l'avantage de permettre d'identifier les périodes d'absence de parole même en présence d'un bruit non stationnaire, peu directif ou directif. La probabilité d'absence de parole est un estimateur crucial pour le bon fonctionnement d'une structure de débruitage telle que nous allons utiliser, car elle sous-tend la bonne estimation du bruit et le calcul d'un gain de débruitage efficace.
On peut avantageusement utiliser une méthode de débruitage de type OM-LSA (Optimally Modified - Log Spectral Amplitude) telle que celle décrite par : I. Cohen, Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator, IEEE Signal Processing Letters, Vol. 9, No 4, April 2002.
Essentiellement, l'application d'un gain nommé "gain LSA" (Log-Spectral Amplitude) permet de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole originel. Ce second critère se montre supérieur au premier car la distance choisie est en meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats. Dans tous les cas, l'idée essentielle est de diminuer l'énergie des composantes fréquentielles très parasitées en leur appliquant un gain faible, tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout.
L'algorithme "OM-LSA" (Optimally-Modified Log-Spectral Amplitude) améliore le calcul du gain LSA à appliquer en le pondérant par la probabilité conditionnelle de présence de parole.
Dans cette méthode, la probabilité d'absence de parole intervient à deux moments importants, pour l'estimation de l'énergie du bruit et pour le calcul du gain final, et la probabilité q(k,l) sera utilisée à ces deux niveaux. Si l'on note λ_Bruit (k,1) l'estimation de la densité spectrale de puissance du bruit, cette estimation est donnée par : ${\hat{λ}}_{Bruit} (k, l) = α_{Bruit} (k, l) . {\hat{λ}}_{Bruit} (k, l - 1) + [1 - α_{Bruit} (k, l)] {|X (k, l)|}^{2}$

avec : $α_{Bruit} (k, l) = α_{B} + (1 - α_{B}) \cdot p_{spa} (k, l)$
On peut noter ici que la probabilité q(k,l) vient moduler le facteur d'oubli dans l'estimation du bruit, qui est mise à jour plus rapidement sur le signal bruité X(k,l) lorsque la probabilité d'absence de parole est forte, ce mécanisme conditionnant entièrement la qualité de λ_Bruit (k,l),
Le gain de débruitage G_OM-LSA (k,l) est donné par : $G_{OM - LSA} (k, l) = {\{G_{H 1} (k, l)\}}^{1 - q (k, l)} . G_{\min}^{q (k, l)}$

G _H1(k,l) étant un gain de débruitage (dont le calcul dépend de l'estimation du bruit λ _Bruit ) décrit dans l'article précité de Cohen, et
G _min étant une constante correspondant au débruitage appliqué lorsque la parole est considérée comme absente.
On notera que la probabilité q(k,l) joue ici un grand rôle dans la détermination du gain G_OM-LSA (k,l). Notamment, lorsque cette probabilité est nulle, le gain est égal à G _min et une réduction de bruit maximale est appliquée : si par exemple une valeur de 20 dB est choisie pour G _min, les bruits non stationnaires précédemment détectés sont atténués de 20 dB.
Le signal débruité
(k,l) en sortie du bloc 34 est donné par : $\hat{S} (k, l) = G_{OM - LSA} (k, l) . X (k, l)$
On notera que d'ordinaire une telle structure de débruitage produit un résultat peu naturel et agressif sur les bruits non stationnaires, qui sont confondus avec la parole utile. L'un des intérêts majeurs de l'invention est, au contraire, d'éliminer efficacement ces bruits non stationnaires.
D'autre part, dans une variante avantageuse, il est possible d'utiliser dans les expressions données plus haut une probabilité d'absence de parole hybride q_hybrid (k,l), qui sera calculée à l'aide de q(k,l) et d'une autre probabilité d'absence de parole q_std (k,l), par exemple évaluée selon la méthode décrite dans le WO 2007/099222 A1 (Parrot SA). On a alors : $q_{hybrid} (k, l) = \max (q (k, l), q_{std} (k, l))$

Reconstitution temporelle du signal (bloc 36)

La dernière étape consiste à appliquer au signal
(k,l) une transformée de Fourier rapide inverse iFFT pour obtenir dans le domaine temporel le signal de parole débruité
(t) recherché.

Claims

Un procédé de débruitage d'un signal acoustique bruité capté par deux microphones d'un dispositif audio multi-microphone opérant dans un milieu bruité, notamment un dispositif téléphonique "mains libres" pour véhicule automobile,
le signal acoustique bruité comprenant une composante utile de parole issue d'une source de parole directive et une composante parasite de bruit, cette composante de bruit incluant elle-même une composante de bruit latéral non stationnaire directif,
procédé caractérisé en ce qu'il comporte, dans le domaine fréquentiel pour une pluralité de bandes de fréquences définies pour des trames temporelles successives de signal, les étapes de traitement du signal suivantes :
a) calcul (18) d'une première référence de bruit par analyse de cohérence spatiale des signaux captés les deux microphones, ce calcul comprenant un filtrage linéaire prédictif appliqué aux signaux captés par les deux microphones et comprenant une soustraction avec compensation du déphasage entre le signal capté et le signal de sortie du filtre prédictif ;

b) calcul (20) d'une seconde référence de bruit par analyse des directions d'incidence des signaux captés par les deux microphones, ce calcul comprenant le blocage spatial des composantes des signaux captés dont la direction d'incidence est située à l'intérieur d'un cône de référence défini de part et d'autre d'une direction prédéterminée d'incidence du signal utile ;

c) estimation (24) d'une direction principale d'incidence (θ̂(k,l)) des signaux captés par les deux microphones ;

d) sélection (22) comme signal de bruit référent (Ref(k,l)) de l'une ou l'autre des références de bruit calculées aux étapes a) et b), en fonction de la direction principale estimée à l'étape c) ;

e) combinaison (28) des signaux captés par les deux microphones en un signal combiné bruité (X(k,l));

f) calcul (26) d'une probabilité d'absence de parole (q(k,l)) dans le signal combiné bruité, à partir des niveaux respectifs d'énergie spectrale du signal combiné bruité (X(k,l)) et du signal de bruit référent (Ref(k,l)) ;

g) à partir de la probabilité d'absence de parole (q(k,l)) calculée à l'étape f) et du signal combiné bruité (X(k,l)), réduction sélective du bruit (34) par application d'un gain variable propre à chaque bande de fréquences et à chaque trame temporelle.
Le procédé de la revendication 1, dans lequel le filtrage prédictif comprend l'application d'un algorithme de prédiction linéaire de type moindres carrés moyens LMS.
Le procédé de la revendication 1, dans lequel l'estimation (24) de la direction principale d'incidence de l'étape c) comprend les sous-étapes successives suivantes :
c1) partition de l'espace en une pluralité de secteurs angulaires ;

c2) pour chaque secteur, évaluation d'un estimateur de direction d'incidence à partir les deux signaux captés par les deux microphones correspondants ; et

c3) à partir des valeurs d'estimateurs calculées à l'étape c2), estimation de ladite direction principale d'incidence.
Le procédé de la revendication 1, dans lequel la sélection (22) de l'étape d) est une sélection de la seconde référence de bruit comme signal de bruit référent si la direction principale estimée à l'étape c) est située hors d'un cône de référence défini de part et d'autre d'une direction prédéterminée d'incidence du signal utile.
Le procédé de la revendication 1, dans lequel la combinaison (28) de l'étape e) comprend un préfiltrage de type fixed beamforming.
Le procédé de la revendication 1, dans lequel le calcul (26) de probabilité d'absence de parole de l'étape f) comprend l'estimation (30, 32) de composantes de bruit pseudo-stationnaire respectives contenues dans le signal combiné bruité et dans le signal de bruit référent, la probabilité d'absence de parole (q(k,l)) étant calculée à partir également de ces composantes de bruit pseudo-stationnaire respectives.
Le procédé de la revendication 1, dans lequel la réduction sélective du bruit (34) de l'étape g) est un traitement par application d'un gain à amplitude log-spectrale modifié optimisé OM-LSA.