EP2078301A1

EP2078301A1 - Reduction de bruit et de distorsion dans une structure de type forward

Info

Publication number: EP2078301A1
Application number: EP07823855A
Authority: EP
Inventors: André Gilloire; Mohamed Djendi; Pascal Scalart
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-09-28
Filing date: 2007-09-26
Publication date: 2009-07-15
Also published as: WO2008037925A1

Abstract

L'invention concerne une structure de réduction de bruit, de type forward, à au moins deux voies de filtrage adaptatif à réduction de bruit (w <SUB>12</SUB>

Description

Réduction de bruit et de distorsion dans une structure de type forward

La présente invention concerne un traitement de signal, notamment un signal de parole en téléphonie.

L'essor des télécommunications a permis au grand public de bénéficier d'outils de communication mobiles. Il est désormais devenu possible et courant de téléphoner de partout (bien entendu dans l'étendue des zones de couverture de réseaux) dans des environnements tels qu'une rue, une gare ou encore un véhicule. Néanmoins, de tels lieux ne bénéficient pas du calme d'un habitat et du confort de communication qu'y offre encore la téléphonie fixe. La gêne due à la perturbation qualifiée de "bruit" est généralement source d' inconfort et s'accentue encore par la dématérialisation de la prise de son (système dit "mains-libres") qui favorise encore l'émergence de bruit du fait de l'augmentation de la distance entre la bouche du locuteur et le microphone.

Dans ces conditions, il se ressent le besoin d'un traitement capable de réduire la gêne qu'occasionnent les bruits additionnels à un signal de parole et d'extraire en particulier l'information utile d'un signal d'observation bruité. Outre cette application de "débruitage", un tel traitement trouverait une mise en œuvre avantageuse en reconnaissance vocale, dont les performances sont fortement altérées lorsque l'utilisateur est plongé dans un environnement bruyant.

Des approches successives dans l'état de l'art pour remédier à un tel problème sont exposées ci-après. Ces approches sont basées sur le traitement de signaux issus d'au moins deux capteurs.

Le principe de l'annulation adaptative de bruit (ANC), utilisant typiquement un algorithme de gradient stochastique ou LMS (pour "Least Mean Squares"), est illustré schématiquement en figure 1. Un signal d'entrée x constituant une composante utile et auquel est ajoutée naturellement une composante de bruit, ainsi qu'une référence de bruit b₂ corrélée à la composante de bruit ajoutée au signal utile x, se propagent jusqu'à un étage de traitement (partie droite de la figure 1). Le traitement peut être décrit comme suit.

On considère une observation bruitée y_\ (n) du signal x(n) comportant la composante utile, avec yι {n)=x{n)+b_\ {n) , où b_\ (n) est une contribution de bruit décorrélée du signal utile x(n). On suppose que l'on dispose, au niveau d'un deuxième capteur, d'une référence de bruit b₂ («) _> corrélée à b_\ (n) mais décorrélée de x(n) . La relation entre b_\ {n) et ^ W ^est supposée linéaire, avec : b_\ {n)=H* Z^ W ^ou I^e signe "*" représente le produit de convolution et H un filtre inconnu, à déterminer.

Le principe de l'annulation adaptative de bruit ANC (pour "Adaptive Noise Canceller") vise le filtrage de la référence b₂ (") de manière adéquate afin d'obtenir la meilleure estimation de b_j (n) (au sens de l'erreur quadratique moyenne minimale), ce qui apporte une réduction du bruit en sortie.

En tenant compte de la relation linéaire entre les bruits dans les deux observations, le signal de sortie S peut s'écrire alors sous la forme :

S(n) = x(n) + (H - W)* b₂ (n) (1)

La solution d'un débruitage idéal donnée par s(n) = x(n) revient à trouver un filtre d'annulation idéal W_opt tel que W_opt = H . Une manière de déterminer le filtre W_opt sans connaissance ni du signal x(n) ni du filtre H consiste à considérer la solution résultant de la minimisation de l'énergie du signal estimé s(n) . En effet, compte tenu de la décorrélation entre bi(n) et x(n), on a d'après la relation (1) : E[S² GI)] = E[X² GI)]+ E[{(H -W)* b₂ (n))² ] (2) La valeur minimale de E[s (n)\ est alors atteinte lorsque le second terme de droite de l'équation (2) est minimal (idéalement pour W_opt = H ). La solution de ce problème correspond au filtre de Wiener défini par :

W _t {z) = ^{i 2} _M (3) yb₂b₂ UJ où la fonction γ_VlV2 désigne la densité d' intercorrélation spectrale entre les signaux V₁ et V2 définie par :

où V\(z) et V2 \^z / représentent respectivement les transformées en Z de vj («) et

^V2 \- n) -

En absence d'informations sur les statistiques de second ordre des observations, une alternative à la solution de l'équation (3) consiste à effectuer une estimation adaptative de H. On choisit alors une modélisation paramétrique de W sous forme, par exemple, d'un filtre à réponse impulsionnelle finie (RIF) dont on estime les coefficients

( (w(k))_{k >=Q} ) suivant un algorithme adaptatif. Ainsi, l'utilisation d'une règle LMS conduit au schéma stochastique : w(n + l, k) = w(n, k) + μs{np₂ (n - Jc), pour k ≥ 0 (5) où w(n,k) désigne la valeur du coefficient w(k) d'ordre k de W(z) à la n-ième itération.

L'algorithme LMS au sens de l'équation (5) ne converge que vers une approximation de la solution de Wiener, car : • on réalise en fait une approximation d'un filtre de Wiener (a priori à mémoire infinie et non-nécessairement causal) par une structure causale à mémoire finie, et • les algorithmes adaptatifs au sens de l'équation (5) introduisent des désajustements dus à l'utilisation d'un pas d'adaptation non asymptotiquement nul. Il est bien sûr possible de choisir un pas d'adaptation lui-même adaptatif pour atténuer les désajustements, mais sans pour autant les éliminer.

Ainsi, la prise de son par un système à plusieurs capteurs (dite "multidirectionnelle") permet a priori de meilleures performances de débruitage qu'une prise de son traditionnelle à partir d'un seul capteur.

Toutefois, en pratique, le bruit de référence b₂ est souvent mélangé avec une composante provenant du signal utile. C'est notamment le cas lorsque les capteurs sont spatialement proches. Le modèle du mélange est basé maintenant sur deux filtres h^ iz) et h,2\ {z) qui représentent les chemins de couplage physique (par exemple acoustique) entre les signaux sources et les capteurs, comme illustré sur la figure 2, représentant un modèle de mélange des signaux d'entrée X₁ (n) et x₂(n), provenant par exemple de deux microphones respectifs d'un module d'acquisition sonore.

Ainsi, dans le cas de terminaux compacts, dans lesquels les capteurs sont proches les uns des autres, les signaux captés par les microphones contiennent des mélanges de parole et de bruit. Les techniques de séparation de sources au second ordre (sans utilisation de statistiques d'ordres supérieurs) permettent dans certaines conditions d'extraire la parole du bruit avec un minimum de dégradations.

Dans l'état de l'art, deux structures conceptuellement simples ont été proposées pour réaliser la réduction de bruit par séparation de sources. Elles sont classiquement dénommées respectivement : - "structure backward" , décrite notamment dans :

"Improved adaptive noise cancellation in the présence of signal leakage on the noise référence channel", MJ. Al-Kindi et J. Dunlop, Signal Processing, vol.17, no.3, p.241-250, Juillet 1989 ; et - " structure forward", décrite notamment dans :

"Signal séparation by symmetric adaptive decorrelation: stability, convergence, and uniqueness" , S. Van Gerven et D.Van Compernolle, IEEE Trans. Signal Processing, vol. 43 No.7, p.1602-1612, Juillet 1995.

La structure forward peut être considérée comme une extension de la structure de base de l'annulation adaptative d'écho ANC. Elle résout le problème de la présence du signal utile dans la voie de référence en symétrisant le modèle d'annulation du bruit. Cette structure de séparation de sources présente toutefois l'inconvénient de distordre les signaux de sortie, même s'il a été montré théoriquement que la correction des distorsions serait possible grâce à un traitement des signaux de sortie par post- filtrage, dans Van Gerven et al (équation (12) page 1604). Il semble qu'aucune solution satisfaisante en pratique n'ait été proposée pour mettre en œuvre ce post-filtrage.

Ainsi, ces deux structures de séparation de sources, backward et forward, ont été proposées dans l'état de l'art afin de séparer les composantes des mélanges issus du modèle illustré sur la figure 2. Ces deux structures sont représentées respectivement par les figures 3 et 4 et résolvent théoriquement le problème dû à la présence du signal utile dans la voie de référence, en symétrisant le modèle d'annulation du bruit.

Les traitements du type représenté sur les figures 3 et 4 ont été initialement proposés pour le débruitage en présence de deux signaux de parole, mais leur utilisation pour d'autres types de signaux est envisageable à condition notamment de satisfaire le modèle de mélange de la figure 2. Ces traitements sont aussi généralisables à un nombre quelconque de composantes en entrée et en sortie en nombre égal.

La figure 3 illustre une structure symétrique de type "backward", de débruitage au sens de la référence "Al-Kindi et Dunlop", précitée. La figure 4 illustre une structure symétrique "forward" de débruitage au sens de la référence "Van Gerven et Van Compernolle", précitée. De façon générale, on retiendra que les structures illustrées sur les figures 3 et 4 ramènent le débruitage des observations à un problème d'identification d'un système inverse. La structure de séparation de sources forward, en particulier, présente un avantage de convergence assurée vers la solution mais qui requiert l'utilisation d'un post-filtre origine de problèmes dans l'extraction des signaux de sortie. Cette structure est détaillée ci-après.

Selon le modèle de la figure 5, qui généralise le modèle de la figure 2, les signaux de sortie de mélange convolutif p_j (n) et p₂ («) , qui seront utilisés comme des entrées de la structure de séparation de source forward de la figure 4, sont donnés par :

_Pι (n) = h_n* s(n) + h₂f b{n) + n_x (n) (6) et P₂ (n) = h₂₂ * b{n) + h_l2 * s(n) + n₂ (n) (7) où : h_u et Ii22 (non montrées) représentent les réponses impulsionnelles de chaque canal séparément, hγi et /*₂i représentent les effets du couplage mutuel entre les deux canaux,

- s(ή) et b(n) sont, respectivement, deux sources supposées spatialement ponctuelles de signal utile (par exemple une parole) et de bruit, nγ et «2 représentent les bruits de fond additifs, décorrélés des signaux s(ή) et b(n),

- le symbole "*" représentant, bien entendu, l'opération de convolution.

Dans la figure 2 comme dans la figure 5 qui illustre le modèle de mélange des signaux, les filtres h_{x x} et /1₂₂ ^sont supposés être des filtres "identité", ce qui n'altère pas l'utilisation pratique du modèle puisqu'un locuteur utilisateur d'un terminal à plusieurs capteurs est censé rester à proximité des microphones. Cette hypothèse traduit aussi le fait que l'on n'a généralement pas d'information a priori sur la localisation de source de bruit (supposée ponctuelle). On note que /ι₁₂ et /ι₂₁ sont en général non stationnaires. Afin de séparer les composantes des mélanges issus du modèle décrit en référence à la figure 5, la structure forward de séparation de la figure 6 peut être utilisée. La figure 6, présentant la structure forward de séparation des mélanges, complète (avec post-filtres réducteurs de distorsion), comporte alors deux boucles d'adaptation des deux filtres w₁₂(z) et w₂₁ (z), ainsi que les deux post-filtres PFl et PF2 appliqués sur les sorties respectives Sι(n) et s₂(n). En théorie, les deux post-filtres permettent l'extraction parfaite (sans distorsion) des signaux originaux à partir des signaux du mélange.

Il a été observé que la minimisation de la corrélation entre les deux sorties de cette structure de la figure 6 revient exactement à minimiser l'erreur quadratique moyenne de chaque sortie. Les deux sorties u_\ in) et u₂in) de la structure de séparation sont calculées comme suit : u_\(n) = pi in)- p₂ in) * W₂₁ in) et U₂ in) = p₂ in)- pγ in) * w_\2 in)

En remplaçant les expressions de p_\(n ) et p₂(n ) données par les équations (6) et (7) dans les expressions de et u₂ in) et avec h_n et h₂₂ égaux à l'identité, on trouve :

M₁ (n) = bin) * [h₂ι in)- w_2\ in)\+ sin) * [δin)- hγ₂ in) * w_2\ in)\+ n_\ in) - n₂ in) * w_2\ in) u₂in) = sin) * [hι₂in)- wι₂in)\+ bin) * \δin)-h₂ιin) * wι₂in)\+ n₂in) - nγin) * Wγ₂in)

Les solutions théoriques optimales pour les deux expressions de u_\ in) et u₂ in) sont obtenues respectivement lorsque w₂χ = h_2i et W₁₂ = h_i2 . Dans ce cas, et en l'absence des composantes de bruit diffus «j in) et n₂ in) sur deux capteurs, les signaux de sortie sont donnés par :

sin) = u_\ in) * [δin)-

Les expressions des deux post-filtres théoriques qui interviennent dans le calcul des signaux de sortie de la structure de séparation de sources forward sont donc données par les équations suivantes : - pour le post-filtre PFl : [δ(n)-h₁₂(n) * (8)

- et pour le post-filtre PF2 : [δ(n)- h_2l (n) * w_l2 (n)\ (9)

Ainsi, lors de la convergence des deux filtres adaptatifs w_l2(n) et w_2l(n) vers leur solution théorique w_2\ = h₂χ et w_\2 = h_\2 , les deux post-filtres PFl et PF2 tendent

vers une même solution idéale : |δ(ra)- h_i2 (n) *

Toutefois, en pratique, l'obtention directe de ces deux post-filtres sous les formes des équations (8) et (9) est difficile, car en général on ne connaît pas a priori le filtre hχ₂ dans l'équation (8) et le filtre /i₂i dans l'équation (9). En remplaçant /i₂i P^{ar W} _2\ ^et h_\2 par w_\2 , on peut obtenir des estimations de ces deux post-filtres conformes aux expressions théoriques des équations (8) et (9). Ce schéma est néanmoins difficilement applicable en pratique car les estimations w_2\ et surtout w_\2 sont perturbées par la technique d'estimation de ces filtres par filtrage adaptatif. Pour pouvoir calculer directement ces deux post-filtres à partir de leurs expressions données par les équations (8) et (9), il faut que leur inverse ait une caractéristique à phase minimale, ce qui n'est, en général, pas le cas en pratique. Donc cette structure, telle qu'elle a été décrite en référence à la figure 6, donne des résultats insatisfaisants sans utilisation d'autres méthodes et moyens de calcul des post-filtres.

La présente invention vient améliorer la situation.

Elle a pour objet la détermination de post-filtres satisfaisants de façon à minimiser la distorsion des signaux en sortie, notamment sur un signal de parole en sortie.

Elle propose à cet effet un dispositif de réduction de bruit dans au moins un signal, comportant : - une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit sur deux signaux d'entrée, pour délivrer deux signaux filtrés et réduits en bruit, et au moins un post-filtre en sortie d'une voie choisie parmi les deux voies, pour réduire une distorsion sur le signal filtré de ladite voie choisie.

Au sens de l'invention, ce post-filtre comporte un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée de ladite voie choisie.

Ce moyen d'adaptation peut être constitué par un chemin en boucle ouverte ou par une rétroaction d'adaptation.

Dans un premier mode de réalisation, le post-filtre comporte une rétroaction d'adaptation par filtrage adaptatif temporel, selon une comparaison récurrente basée sur la différence entre le signal de sortie et le signal d'entrée de ladite voie choisie.

Dans un deuxième mode de réalisation, le post- filtre comporte un moyen d'adaptation par filtrage égaliseur fréquentiel en boucle ouverte, selon une comparaison basée sur un rapport de densités spectrales de puissance, respectivement entre le signal filtré et le signal d'entrée de ladite voie choisie, ramenés dans le domaine des fréquences.

Dans un troisième mode de réalisation, le post-filtre comporte une rétroaction d'adaptation par filtrage adaptatif fréquentiel, selon une comparaison récurrente basée sur la différence entre le signal de sortie et le signal d'entrée, ramenés dans le domaine des fréquences.

D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels, outre les figures 1 à 6 décrites ci-avant :

- la figure 7 illustre un dispositif de réduction de bruit comportant une structure forward à deux étages avec post-filtrage mettant en œuvre une rétroaction d'adataption au sens de l'invention, par filtrage adaptatif temporel selon le premier mode de réalisation précité,

- la figure 8 illustre un dispositif de réduction de bruit comportant une structure forward à deux étages avec post-filtrage mettant en œuvre un moyen d'adataption au sens de l'invention, par filtrage égaliseur fréquentiel en boucle ouverte selon le deuxième mode de réalisation précité,

- la figure 9 illustre un dispositif de réduction de bruit comportant une structure forward à deux étages avec post-filtrage mettant en œuvre une rétroaction d'adataption au sens de l'invention, par filtrage adaptatif fréquentiel selon le troisième mode de réalisation précité,

- la figure 10 illustre schématiquement un équipement de télécommunication, tel qu'un terminal de téléphonie, comportant un module d'acquisition sonore incluant deux microphones reliés à un dispositif de réduction de bruit au sens de l'invention, et - la figure 11 illustre schématiquement les étapes d'un procédé au sens de l'invention, pour la mise en œuvre d'un traitement selon l'un des deuxième ou troisième modes de réalisation précités.

En référence aux figures 7 à 9, dans l'application de l'invention à des fins de débruitage, on considère essentiellement une seule sortie d'un signal de parole exempt de bruit et qui correspondrait à la voie du signal u\ {n) de la figure 6 présentée précédemment. Cette approche au sens de l'invention diffère typiquement des approches de l'art antérieur donné ci-avant, notamment :

"Signal séparation by symmetric adaptive decorrelation: stability, convergence, and uniqueness" , S.Van Gerven et D.Van Compernolle, IEEE

Trans. Signal Processing, vol. 43 No.7, p.1602-1612, Juillet 1995.

De manière générale, sur les figures 7 à 9 au sens de l'invention données à titre d'exemple, la structure réductrice de bruit, de type structure forward, comportant : - une première entrée pour recevoir un premier signal original pi(n), - et au moins une deuxième entrée pour recevoir un deuxième signal original p₂(n). Le premier et le deuxième signal comportent deux versions respectives de bruit sensiblement corrélées. La structure comporte en outre :

- un premier filtre Wn(Z) (optionnel), de type filtre adaptatif réducteur de bruit, appliqué au premier signal,

- un deuxième filtre W₂₁ (z), de type filtre adaptatif réducteur de bruit, appliqué au deuxième signal,

- un premier soustracteur Ss₁ entre le premier signal et le deuxième signal filtré, pour délivrer un troisième signal ui(n), le troisième signal étant de bruit réduit et correspondant au premier signal auquel est soustrait le deuxième signal filtré,

- un deuxième soustracteur ss₂ (optionnel) entre le deuxième signal et le premier signal filtré pour délivrer un quatrième signal u₂(n), le quatrième signal étant de composante de signal utile réduite et correspondant au second signal auquel est soustrait le premier signal filtré. Le troisième signal alimente le deuxième filtre pour une rétroaction adaptative et le quatrième signal alimente le premier filtre pour une rétroaction adaptative. La structure forward comporte en outre, dans l'exemple représenté sur les figures 7 à 9 :

- un premier post-filtre, réducteur de distorsion, appliqué au troisième signal ui(n), pour délivrer un cinquième signal S₁ (n), en une première sortie de la structure, et - un deuxième post-filtre w_p2(z) (optionnel), réducteur de distorsion, appliqué au quatrième signal u₂(n), pour délivrer (éventuellement) un sixième signal s₂(n), en une deuxième sortie de la structure.

Selon l'invention, le premier post-filtre précité, au moins, comporte un moyen d'adaptation selon une comparaison faisant intervenir le premier signal pi(n) et : - le cinquième signal si(n) dans les premier (figure 7) et troisième (figure 9) modes de réalisation, ou le troisième signal U₁ (n) dans le second mode de réalisation (figure 8), comme on le verra ci-après. Deux approches possibles, au sens de l'invention, sont présentées ci-après pour la mise en œuvre du post-filtre de la voie du signal p_γ («) .

La première approche possible, mais présentant toutefois quelques inconvénients expliqués plus loin, est basée sur un calcul direct de gain dans le domaine temporel, correspondant à un post-filtre théorique convergent. Dans la deuxième approche, on prévoit plutôt un calcul dans le domaine fréquentiel.

On décrit ici la première approche, selon une structure forward avec calcul du post- filtre par filtrage adaptatif temporel. Une forme de la structure de séparation de source, avec post-filtrage, est donnée par la figure 7.

La particularité de cette structure, modifiée par rapport à la structure originale de la figure 6, est telle que le post-filtre donné par les équations (8) et (9) et présenté dans la structure de base, est estimé au moyen du filtre adaptatif w_p qui est adapté par la rétroaction de la différence entre sa sortie et celle du mélange, ou "erreur de filtrage". Il s'agit donc d'estimer par identification adaptative le post-filtre dont l'expression théorique est donnée par l'équation (8) en minimisant l'énergie de la différence entre les deux signaux pι(ή) et s\(ή) (correspondant respectivement au premier signal original d'entrée et au cinquième signal, de sortie, de la structure forward). En pratique, on minimise préférentiellement l'erreur quadratique moyenne. On notera que le filtre w_p peut être un filtre à réponse impulsionnelle finie (FIR) et peut être mis à jour à partir d'une formule du type : w_pi in) = w _pi \n-lj+ μe(n)uι (n) ,

où e(n) est l'erreur de filtrage donnée par : e(n) = /J₁ Oi)- S₁ Oi) , et μ un coefficient multiplicatif. On note que le filtre w_ft agit en tant qu'égaliseur temporel, à chaque itération n, du résultat du traitement de l'étage qui le précède, c'est-à-dire de la structure de séparation de source forward originale.

A la convergence sur plusieurs itérations, le filtre égaliseur temporel w_ft tend vers l'inverse de la quantité l- h_l2 *w_2l , avec vt>2i = ^2i - Cette dernière condition est assurée en pratique grâce à l'utilisation de la détection d'activité vocale sur le signal de parole. En effet, suivant un procédé connu de l'état de l'art mais avantageux pour la mise en œuvre de l'invention, le filtre vt>₂i est mis à jour uniquement pendant les phases de non-activité vocale et le filtre égaliseur w_ft est mis à jour uniquement pendant les périodes d'activité vocale. Une telle réalisation assure par conséquent une égalisation en amplitude du canal acoustique en préservant la même phase que le signal original.

Plus généralement, pour l'approche temporelle, comme pour l'approche fréquentielle décrite plus loin, on utilise avantageusement un module de détection d'activité vocale DAV (figure 11) pour estimer une quantité représentative du bruit pendant les phases de non-activité et une quantité représentative du signal utile pendant les phases d'activité. Pour des signaux audio quelconques, autres que vocaux, on peut prévoir un dispositif de l'état de l'art tel qu'un détecteur de seuil.

Ce premier mode de réalisation basé sur une adaptation temporelle présente néanmoins quelques inconvénients. Le filtre adaptatif w_p doit être long, et sa convergence est perturbée par la présence du bruit superposé à la parole dans le signal pι(n). On considère donc qu'en pratique, cette approche de calcul temporel donne des performances insuffisantes, contrairement à l'approche basée sur le calcul fréquentiel décrite ci-après. La seconde approche au sens de l'invention est basée sur un calcul de gain dans le domaine fréquentiel. Le deuxième mode de réalisation de l'invention vise le calcul direct de gain dans le domaine fréquentiel, correspondant à un post-filtre théorique. Dans le troisième mode de réalisation, toujours selon cette approche "fréquentielle", on utilise avantageusement un algorithme adaptatif fréquentiel, par exemple de type FLMS (pour "Frequency-domain Least Mean Squares") pour le calcul du post-filtre. Un algorithme de ce type est décrit notamment dans :

"Fast implementation of LMS adaptive filter" , E.R. Ferrara, IEEE Trans.

Acoustics Speech and Signal Processing, vol. ASSP-28, pages 474-475, août 1980.

Sur la figure 8, on a représenté une structure forward avec calcul du post-filtre par filtre égaliseur fréquentiel en boucle ouverte pour la mise en œuvre de l'invention selon le second mode de réalisation précité. On calcule ici le gain fréquentiel G(ω,k) qui est utilisé pour faire une égalisation en amplitude (et non pas en phase) du signal de sortie de la structure de séparation W₁ (n) . Ce gain est calculé à partir du signal de sortie non égalisé et du signal de mélange. Il vise à restituer, pour chaque composante spectrale du signal de sortie, la même amplitude que l'amplitude correspondante de la composante du signal de parole présent dans le signal de mélange p_\(n ) . Les densités spectrales de puissance des signaux W₁ (n) et p_\ (n) sont estimées ici au moyen d'une formule de calcul récursif du premier ordre à partir du calcul de leurs transformées de Fourier rapide (ou « FFT »). Le calcul du gain fréquentiel est réalisé par la formule suivante:

où les deux quantités DSP _signal et DSP _hw représentent les densités spectrales de puissance estimées à partir du signal original bruité p_\ (n) et, respectivement, du signal filtré exempt de bruit W₁ Oi) sur une fenêtre de plusieurs échantillons (ou "trame" k). Avantageusement, la densité spectrale de puissance du signal original est calculée pendant les périodes d'activité vocale en retranchant la densité spectrale de puissance du bruit qui, elle, est estimée pendant les périodes de non activité vocale, à la densité spectrale de puissance du signal de mélange W₁ (n) . On exploite donc la propriété de l'intermittence du signal de parole pour estimer les différentes densités de puissance de la structure. Le signal de parole en sortie de cette structure est récupéré après la modification de chaque composante fréquentielle du signal W₁ U) par le gain fréquentiel G(ω,k) . Ce signal est enfin restitué dans le domaine temporel suite à une transformée de Fourier inverse et une reconstruction classique, par exemple de type "overlap-save" décrite notamment dans la référence Ferrara (1980) donnée précédemment.

On comprendra que la bonne estimation du signal en sortie de cette structure est basée sur la bonne estimation du signal de parole (calcul de sa densité spectrale de puissance). Pour ce faire et pour bien synchroniser les signaux à l'entrée de l'égaliseur, le signal de mélange peut avantageusement être retardé par un retard D (module z^~D des figures 8 et 9). Il est donc préférable de s'assurer du réglage correct du paramètre de retard D pour le bon fonctionnement de cette structure au sens de l'invention. Typiquement, ce paramètre D peut être réglé à la moitié de la taille de la réponse impulsionnelle du post-filtre.

Le troisième mode de réalisation est décrit ci-après en référence à la figure 9, présentant une structure forward avec calcul du post-filtre, par filtrage adaptatif fréquentiel. Ce mode de réalisation est basé sur l'utilisation d'un algorithme adaptatif pour l'actualisation des coefficients du gain G{ω,k) , calculé dans le domaine fréquentiel. Les signaux étant échantillonnés par trames successives, pour chaque trame de signal k, on prévoit une équation du type :

G(ω,k) = G(ω,k -l) + μ(ω,k)E(ω,k)U_ι (ω,k) , où :

- le terme G(ω,k -Ï) est le gain calculé pour une trame k-l, précédant la trame courante k,

- E(ω,k) est l'erreur de filtrage fréquentiel calculée sur chaque trame k, donnée par

E(<o,k) = Pι (<o,k)- G(<o,k)Uι (<o,k) ,

- la notation E* symbolise ici le nombre complexe conjugué de la variable E,

- et les notations P[ (ω,k) et Uι (ω,k) représentent les composantes fréquentielles du signal de mélange et, respectivement, du signal de sortie de la structure de séparation de source forward sans post-filtre.

Le calcul du pas d'adaptation μ(ω,fc) , à chaque trame, est typiquement réalisé suivant une fonction qui suit les règles et les principes classiques de réduction de bruit. Il peut s'agir d'une estimation de rapport de densités spectrales de puissance respectives de signal utile et de bruit. Plus particulièrement, cette fonction est basée sur le calcul des composantes de rapport signal sur bruit de chaque raie de fréquence. Dans une réalisation particulière, la fonction de Wiener est utilisée pour le calcul du pas μ(ω,k) comme suit :

RSB _io (ω,k) ^^'k) = ι₊RSB_pnMkY ⁽¹⁰⁾ où la quantité RSB_prio représente le rapport signal à bruit, a priori, qui est défini par le rapport entre l'estimation de la densité spectrale de puissance du signal de parole nettoyé du bruit et la densité spectrale de puissance estimée du bruit. Ce rapport signal à bruit est donné donc par une formule du type :

DSP_signal(ω,k) RSB_prio (ω,k) =

DSP _bruit(ω,k)\ L'utilisation d'un pas d'adaptation variable en fonction du rapport signal à bruit tel que défini dans l'équation (10) est avantageuse car elle permet une convergence robuste du filtre adaptatif fréquentiel et lui permet aussi de corriger la distorsion du signal de parole.

Le signal en sortie de cette structure, en utilisant cette approche de filtrage adaptatif, est obtenu par la relation Si (<o,k) = G(<o,k)Uι (<o,k),

Là encore, le traitement "overlap-save" peut être appliqué pour la reconstruction du signal de sortie temporel noté S₁ (n - D) sur la figure 9.

Selon les essais réalisés, le troisième mode de réalisation s'est avéré le plus robuste aux imprécisions dans les calculs des densités spectrales de puissance de tous les signaux qui interviennent dans le calcul du filtre. Ainsi, ce troisième mode de réalisation permet de récupérer un signal proche du signal initial, ce qui a été confirmé d'ailleurs par des écoutes subjectives.

Ainsi, l'invention, visant le débruitage du signal de parole exploitant la structure de séparation de source forward, permet le calcul du post-filtre théorique quelle que soit la nature du post-filtre. Les réalisations présentées précédemment permettent de corriger les inconvénients de la structure forward qui produit une distorsion du signal de parole en sortie si elle n'est pas suivie du post-filtre.

La présente invention vise aussi un module d'acquisition sonore, notamment pour un équipement de télécommunication (par exemple un appareil de téléphonie fixe ou mobile) tel que représenté sur la figure 10. Le module d'acquisition sonore comporte au moins :

- un microphone MICl pour acquérir un signal comportant une composante utile et une composante de bruit, - un microphone MIC2 pour acquérir une référence de bruit sensiblement corrélée à la composante de bruit du signal d'entrée, et

- un dispositif de réduction de bruit FW au sens de l'invention pour délivrer un signal utile s_u, exempt de bruit et sans distorsion.

Le signal comportant la composante utile est appliqué en tant que signal d'entrée de la voie comportant le post-filtrage adaptatif au sens de l'invention, et la référence de bruit est appliquée en tant que signal d'entrée dans l'autre voie de la structure forward du dispositif de réduction de bruit.

Préférentiellement, les deux signaux ainsi acquis (celui incluant la composante de bruit précitée et celui correspondant à la référence de bruit) comportent des versions respectives de bruit sensiblement corrélées.

La présente invention vise aussi un procédé de réduction de bruit dans au moins un signal, dans lequel on prévoit une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit W₁₂ (z) , W₂₁ (z) sur deux signaux d'entrée

P₁ (n) , p₂ (n) , pour délivrer deux signaux filtrés M₁ (w) , u₂ (n) , le signal M₁ («) étant réduit en bruit. En sortie d'au moins une voie choisie parmi les deux voies de la structure forward, on applique un post-filtrage avec un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée p_γ (n) de ladite voie choisie, pour réduire une distorsion sur le signal filtré M₁ {n) de cette voie choisie.

On a représenté sur la figure 11 les étapes du procédé pour le deuxième et pour le troisième mode de réalisation décrits ci-avant. Sous le contrôle d'une détection d'activité vocale DAV (étape SlOO), on calcule les densités spectrales de puissance DSP (étape SlOl) permettant d'évaluer le rapport signal sur bruit (étape S 102) et, de là, le gain G(ω,k) (étape S103). Dans les deuxième et troisième modes de réalisation décrits ci-avant, on calcule un gain fréquentiel G(ω,k) (étape S103), en exploitant le rapport signal sur bruit précité et, plus particulièrement, le rapport des densités spectrales de puissances DSP respectives. Pour réaliser cette étape SlOl de calcul des densités spectrales de puissances DSP, le signal d'entrée original p\(n) et le signal filtré W₁(W) sont ramenés dans le domaine des fréquences. A cet effet, on applique un retard D au signal d'entrée original p_\(n) (étape S104), puis on ramène le signal retardé dans le domaine des fréquences par application d'une FFT (étape S 105). On ramène aussi le signal filtré, exempt de bruit, W₁(^z) dans le domaine des fréquences par application d'une FFT (étape S106). Une fois le gain calculé G(ω,k) (étape S103), par la technique du second mode de réalisation (égalisation fréquentielle) ou par la technique du troisième mode de réalisation (adaptation fréquentielle), on applique le gain au signal filtré et exprimé dans le domaine des fréquences W₁ (^) (étape S107 dans le second comme dans le troisième mode de réalisation). Toutefois, dans le troisième mode de réalisation (illustré par des traits pointillés), on prévoit en outre une soustraction (étape S 108) du signal d'origine P₁ (Co) exprimé dans le domaine des fréquences, pour réaliser schématiquement l'adaptation du filtrage. Finalement, le signal S_u ainsi filtré est ramené dans le domaine temporel par une FFT inverse (étape S 109).

Dès lors que les signaux d'entrée peuvent être numériques, un processeur d'un dispositif de réduction de bruit, judicieusement programmé, peut mettre en œuvre les étapes du procédé. A ce titre, la présente invention vise aussi un programme informatique, destiné à être exécuté par un tel processeur, et comportant des instructions pour la mise en œuvre du procédé. La figure 11 peut illustrer l'organigramme d'un tel programme informatique.

Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci- avant à titre d'exemple ; elle s'étend à d'autres variantes. Ainsi, même si deux voies seulement sont représentées dans les structures forward des figures 7 à 9, on comprendra qu'il est possible de prévoir une structure forward comportant plus de deux voies et/ou plus d'un post-filtrage adaptatif au sens de l'invention. Par ailleurs, le post- filtrage w_P2(z) sur la voie de la référence de bruit des figures 7 à 9 n'est pas nécessaire pour la mise en œuvre de l'invention et pourrait être supprimé.

Claims

Revendications

1. Dispositif de réduction de bruit dans au moins un signal, comportant :

- une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit (w₁₂ (z) , w₂₁ (z) ) sur deux signaux d'entrée ( p_y (n) , p₂ (n) ), pour délivrer deux signaux filtrés et réduits en bruit (M₁ (n) , w₂ (n) ), et au moins un post- filtre (PFl) en sortie d'une voie choisie parmi les deux voies, pour réduire une distorsion sur le signal filtré ( W₁ (w) ) de ladite voie choisie, caractérisé en ce que le post-filtre (PFl) comporte un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée ( p_γ {n) ) de ladite voie choisie.

2. Dispositif selon la revendication 1, caractérisé en ce que les deux signaux d'entrée ( P₁ {n) , p₂ (n) ) comportent des versions respectives de bruit sensiblement corrélées.

3. Dispositif selon la revendication 2, caractérisé en ce que le signal d'entrée ( p_γ {n) ) de ladite voie choisie comporte une composante utile, tandis que le signal d'entrée ( p₂ {n) ) de l'autre voie de la structure forward comporte une référence de bruit.

4. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que le post-filtre (PFl) comporte une rétroaction d'adaptation par filtrage adaptatif temporel selon une comparaison récurrente basée sur la différence entre le signal de sortie ( s_γ {n) ) et le signal d'entrée ( p_γ {n) ) de ladite voie choisie.

5. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que le post-filtre (PFl) comporte un moyen d'adaptation par filtrage égaliseur fréquentiel en boucle ouverte selon une comparaison basée sur un rapport de densités spectrales de puissance, respectivement entre le signal filtré ( W₁ («) ) et le signal d'entrée ( p_γ (n) ) de ladite voie choisie, ramenés dans le domaine des fréquences.

6. Dispositif selon la revendication 5, dans lequel les signaux d'entrée sont échantillonnés par trames k successives, caractérisé en ce que le filtrage égaliseur fréquentiel met en œuvre le calcul d'un gain G(ω,k) donné, pour une trame courante k, par une formule du type :

où les quantités DSP _signal et DSP _hw représentent les densités spectrales de puissance estimées respectivement à partir du signal d'entrée ( p_γ (n) ) et du signal filtré (M₁ {n) ) de ladite voie choisie, pour la trame courante k.

7. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que le post-filtre (PFl) comporte une rétroaction d'adaptation par filtrage adaptatif fréquentiel selon une comparaison récurrente basée sur la différence entre le signal de sortie ( ^ (w) ) et le signal d'entrée ( P₁ {n) ), ramenés dans le domaine des fréquences.

8. Dispositif selon la revendication 7, dans lequel les signaux d'entrée sont échantillonnés par trames successives, caractérisé en ce que le filtrage adaptatif fréquentiel met en œuvre le calcul récursif d'un gain G(ω,k) donné par une formule

du type G(ω,k) = G(ω,k -ï) + μ[ω,k)E(_^ω,k)U_ι [ω,k) , où : - le terme G(ω,k -l) est le gain calculé pour une trame k-l, précédant une trame courante k, - le terme μ(ω,k) est un pas d'adaptation calculé pour chaque trame courante k en fonction d'une estimation de rapport de densités spectrales de puissance respectives de signal utile et de bruit pour ladite voie choisie, - la notation E^ω,k) symbolise ici le complexe conjugué du terme E(ω,k) , ce terme E(ω,k) représentant une erreur de filtrage fréquentiel sur la trame courante k, donnée par une formule du type :

E(ω,fc) = P[ (ω, k)^~ G((o,k)Uι ((o, k) , où les notations P[ ((o,k) et Uι ((o,k) représentent des composantes fréquentielles du signal d'entrée et, respectivement, du signal filtré de ladite voie choisie.

9. Dispositif selon l'une des revendications 5 à 8, les signaux d'entrée étant des signaux de parole, caractérisé en ce qu'il comporte un module de détection d'activité vocale (DAV) pour autoriser le calcul de la densité spectrale de puissance de bruit pendant des phases de non-activité vocale et autoriser le calcul de la densité spectrale de puissance de signal utile pendant les phases d'activité vocale.

10. Dispositif selon l'une des revendications 5 à 9, caractérisé en ce que le post-filtre comporte un module ( z^~D ) appliquant un retard choisi au signal d'entrée de la voie choisie ( p_γ (n) ) pour déterminer ladite comparaison faisant intervenir le signal d'entrée

11. Dispositif selon la revendication 10, caractérisé en ce que le post-filtre est un filtre à réponse finie de longueur donnée, et en ce que le retard (D) appliqué au signal d'entrée est choisi pour correspondre sensiblement à la moitié de la longueur du postfiltre.

12. Module d'acquisition sonore, comprenant au moins : - un microphone pour acquérir un signal comportant une composante utile et une composante de bruit,

- et un microphone pour acquérir une référence de bruit sensiblement corrélée à ladite composante de bruit, caractérisé en ce qu'il comporte un dispositif de réduction de bruit selon l'une des revendications précédentes, dans lequel :

- le signal comportant la composante utile est appliqué en tant que signal d'entrée de la voie choisie du dispositif de réduction de bruit, et - la référence de bruit est appliquée en tant que signal d'entrée dans l'autre voie du dispositif de réduction de bruit.

13. Equipement de télécommunication, caractérisé en ce qu'il comporte un module d'acquisition sonore selon la revendication 12.

14. Procédé de réduction de bruit dans au moins un signal, dans lequel on prévoit une structure de type forward à au moins deux voies de filtrage adaptatif à réduction de bruit ( w₁₂ (z) , w₂₁ (z) ) sur deux signaux d'entrée ( /J₁ (^) , /?₂ («) ), pour délivrer deux signaux filtrés (M₁ (n) , M₂ (n) ), dont l'un (u\(n)), est réduit en bruit, caractérisé en ce que, en sortie d'au moins une voie choisie parmi les deux voies de la structure forward, on applique un post- filtrage avec un moyen d'adaptation selon une comparaison faisant intervenir le signal d'entrée ( P₁ {n) ) de ladite voie choisie, pour réduire une distorsion sur le signal filtré (M₁ {n) ) de ladite voie choisie.

15. Programme informatique, destiné à être exécuté par un processeur d'un dispositif de réduction de bruit, caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon la revendication 14.