FR2878399A1

FR2878399A1 - Dispositif et procede de debruitage a deux voies mettant en oeuvre une fonction de coherence associee a une utilisation de proprietes psychoacoustiques, et programme d'ordinateur correspondant

Info

Publication number: FR2878399A1
Application number: FR0412386A
Authority: FR
Inventors: Gerard Faucon; Bouquin Jeannes Regine Le; Nicolas Duc; David Cultru; Nelly Tournier
Original assignee: Wavecom SA
Current assignee: Sierra Wireless SA
Priority date: 2004-11-22
Filing date: 2004-11-22
Publication date: 2006-05-26
Anticipated expiration: 2024-11-22
Also published as: FR2878399B1

Abstract

L'invention concerne un dispositif de débruitage comprenant des moyens (43) de réduction du bruit capté par au moins deux microphones (41, 42) espacés d'une distance prédéterminée et formant moyens de communication mains-libres d'un système de radiocommunication mobile.Selon l'invention, les moyens (43) de réduction du bruit comprennent des moyens (44) d'estimation du bruit environnant et des moyens (40) d'application d'une fonction de pondération de la cohérence entre les signaux (41, 42) captés par les microphones, de façon à limiter la distortion du signal (45) de parole utile tout en supprimant une quantité importante dudit bruit estimé.

Description

Dispositif et procédé de débruitage à deux voies mettant en oeuvre une

fonction de cohérence associée à une utilisation de propriétés

psychoacoustiques, et programme d'ordinateur correspondant.

1. Domaine de l'invention Le domaine de l'invention est celui dies télécommunications mobiles et plus précisément de l'amélioration de la qualité des communications dites mains-libres. En effet, il est devenu possible de téléphoner dans de nombreuses situations, et en particulier en voiture, ce qui impose la prise en compte des nombreux problèmes liés au confort pour l'utilisateur d'une part, mais surtout à la sécurité et prévention de celle-ci, d'autre part.

2. Solutions de l'art antérieur Depuis quelques années, dans la prise en compte de ces problèmes liés au confort d'utilisation et à la sécurité des utilisateurs, des travaux sont menés sur les possibilités de communications mains-libres basés sur l'utilisation d'un ou plusieurs haut-parleurs et microphones.

L'un des problèmes majeurs de ce type de système est la présence de bruit introduit par le véhicule en mouvement (moteur, roulement, écoulement d'air fenêtre (s) ouverte(s), etc.) qui vient perturber la voix du locuteur présent dans l'habitacle de ce véhicule, ou encore l'écoute de la parole de l'interlocuteur retranscrite au travers des hauts-parleurs dans l'habitacle du véhicule.

Parmi les techniques connues de l'art antérieur visant le débruitage, des solutions basées sur des systèmes à un seul microphone existent et constituent actuellement un référentiel en termes de débruitage appliqué aux systèmes de communication mains-libres embarquées dans un véhicule. Notre objectif est d'utiliser un dispositif à deux microphones, afin d'obtenir des capacités de traitement accrues en exploitant les propriétés spatiales des signaux, permettant dès lors une meilleure efficacité des traitements (obtenir une distorsion moindre pour une réduction de bruit identique). Pourtant, si de telles solutions à un microphone sont relativement simples de mise en oeuvre, elles induisent en contrepartie des problème d'écho entre les hauts-parleurs et le microphone. Elles ne sont pas non plus adaptées lorsque les mauvaises conditions extérieures (pluie, vent, vitesse, fenêtre du véhicule ouverte, etc.) amplifient l'altération le bruit dans l'habitacle du véhicule.

De plus, les performances des algorithmes utilisés pas ces solutions à un microphone sont souvent poussés au maximum de leurs possibilités, ce qui bride leur utilisation en environnement fortement bruité.

Enfin, les techniques a un microphone ont une forte tendance à distordre la voix du locuteur proche, ou bien encore à déformer le bruit de fond d'une façon qui incommode nécessairement le locuteur distant (bruit musical).

D'autres solutions de l'art antérieur, pour palier ces différents inconvénients des systèmes à un microphone, sont passées à des systèmes à deux microphones. Parmi ces techniques, certaines auraient pu être considérées comme appliquables au contexte de l'invention (environnement fortement bruité), mais se sont finalement avérées très insuffisantes notamment en termes de réduction de bruit ou de la distortion. Ces techniques de l'art antérieur sont ici passées en revue et leurs inconvénients relativement au contexte visé par l'invention.

2.1 Filtre d'Ephraim et Malah Le filtre mis en oeuvre par l'algorithme d'Ephraim et Malah STSA (pour Short-Time Spectral Amplitude en anglais ou Amplitude Spectrale faible durée en français) , décrit dans l'article scientifique: Y. Ephraim, D. Malah, Speech Enhancement Using a Minimum Mean Square Error short-Time Spectral Amplitude Estimatore , IEEE, Trans. on ASSP, vol. 32, n 6, pp. 1109-1121, December 1984, offre un gain en terme de débruitage qui dépend entièrement des valeurs de RSBprro et RSBpo (Rapports Signal à Bruit a priori et a posteriori). Il est défini par l'expression mathématique: H(f) =-./;i V(f) exp -V(f) (1+ V(f))Io(V(f)J+V(f) Vf = ff) 2 RSBp ( )+l 2 2 ' 2 A( )+1 RSBPrio (f) rRSBpost (f)+ 1) V(f) 1+RSBp,,0(f) A(f)_ 1 q(f) exp(V(f)) q(f) 1+RSBpr, o(f) où : ta () et II() sont les fonctions de Bessel modifiées d' ordre 0 et 1 respectivement avec: q (f) est la probabilité d'absence du signal, fixée à 0,5.

Il est à noter que les performances de cette technique de filtrage du bruit sont décevantes relativement au contexte de l'invention, essentiellement pour les deux raisons suivantes: pour limiter la quantité de bruit musical présent dans les fichiers traités, il est nécessaire de surestimer d'environ 3 dB la quantité de bruit, ce qui impose des calculs supplémentaires et une mise en oeuvre peut évidente car devant permettre une auto-adaptation du niveau de surestimation du bruit réellement estimé dans l'habitacle du véhicule.

les fichiers traités font ressortir des craquements , probablement dûs au fait que le gain du filtre varie de manière trop rapide.

Une modification de l'algorithme a été proposée par Ephraim et Malah dans l'article Y. Ephraim, D. Malah, Speech Enhancement Using a Minimum Mean Square Error Log-Spectral Amplitude Estimator , IEEE, Trans. on ASSP, vol. 33, n 2, pp. 443-445, avril 1985, afin d'obtenir une approche LSA ( Log-Spectral Amplitude en anglais ou Amplitude spectrale logarithmique en français). Cette modification vise à la minimisation de la distorsion sur le logarithme du spectre du filtre d'amplitude Spectrale faible durée. Après simulation et expérimentation de cette deuxième technique, il s'avère que celle-ci produit des résultats encore inférieurs à ceux obtenus avec la version STSA, dans un environnement fortement bruité. 2.2 La méthode de pré traitement et d'identification des signaux (PIS) La méthode PIS (Prétraitement et Identification des Signaux) est décrite dans: S. Tazi Mezalek, Algorithmes de Débruitage de la Parole pour les Radio-Mobiles , Thèse de l'Université de Rennes 1, Septembre 1990. Comme illustré sur la figure 1, il s'agit d'une approche qui consiste à utiliser une technique de réduction de bruit sur chaque voie (10, 11) de manière indépendante, puis d'effectuer une demi-somme (12) des signaux (13, 14) obtenus, à partir die la fonction de transfert entre les deux voies définies par les deux microphones.

Le filtre d'identification, qui n'utilise que les informations issues des S,S(f) 30 traitements mono-voie, est défini comme suit: H(f)= Ysi ( -Après l'étape d'identification (15), les composantes du signal utile sur les deux voies tendent à avoir la même amplitude et la même phase, ce qui est moins vrai pour les composantes du bruit qui sont plus faibles, et donc moins prises en compte par cette étape. Ainsi en sortie de la demisomme, la puissance du bruit résiduel sera moins élevée.

En pratique, il est également possible d'utiliser pour le prétraitement deux configurations différentes (deux filtres d'Ephraim et Malah STSA, ou filtrage de chaque voie par la cohérence). Dans tous les cas, les résultats obtenus en environnement fortement bruité sont moins bons que ceux issus du filtrage de la meilleure de deux voies. En effet, il s'avère que le fait de filtrer une voie plutôt qu'une autre peut faire varier les résultats (en termes de réduction de bruit et de distorsion) de manière très significative. Ceci provient du fait que les signaux initiaux (b peuvent être largement différents l'un de l'autre, par exemple être dépendants de la distance entre les microphones et le locuteur, des réponses 15 impulsionnelles des microphones, etc.).

2.3 La structure de Zelinski-Simer La structure de Zelinski-Simmer est décrite dans les articles: R. Zelinski, Microphone Array with Adaptive Post-Filtering for Noise Reduction in Reverberant Rooms , ICASSP, New York, pp. 2578-2581, 1988, et: K.U. Simmer, A. Wasiljeff, Adaptive Microphone Arrays for Noise Suppression in the Frequency Domain ', Second Cost 229 Workshop on Adaptive Algorithms in Communications, Bordeaux, pp. 185-194, 1992. Elles est illustrée également au travers de la figure 2. Cette approche semblait pouvoir convenir à première vue au contexte d'annulation ou tout le moins de réduction sensible du bruit en environnement fortement bruité, contexte de l'invention. Notons x;(n) l'observation sur la voie i composée d'un signal de parole s(n) identique sur les deux voies et d'un bruit Mn) sur chaque voie, i =1,2, de sorte que: x; (n) = s(n) + b; (n) i =1, 1,2.

Cette méthode nécessite dans un premier temps un réalignement temporel des signaux (20, 21), ce qui n'est pas réalisé en pratique dans notre cas, puisqu'au maximum, l'écart entre les deux signaux est de cinq échantillons (pour une fréquence d'échantillonnage de 8000 Hz et une distance entre les microphones de 20 cm). Le filtre (22) de Wiener utilisé est donné par: H(f)= Yse2( r s'il est supposé que les YI) bruits sont décorrélés et que les signaux utiles sont les mêmes sur les deux voies. Or, même si cette approche semble plus logique d'un point de vue théorique que l'utilisation de la cohérence (cf. 2.4), elle rie donne pas les résultats escomptés en pratique, en environnement fortement bruité.

2.4 La cohérence et soustraction interspectrale La technique basée sur la cohérence et la soustraction interspectrale est décrite dans: R. Le Bouquin, G. Faucon, Using the Coherence Function for Noise Reduction , IEE Proceedings-I Communications, Speech and Vision, vol. 139, n 3, pp. 276-280, June 1992.

Le synoptique de cette technique peut être donné par la figure 3. Sous contraintes des hypothèses suivantes: les composantes fréquentielles du bruit sont spatialement décorrélées; les composantes fréquentielles de la parole sont corrélées; le bruit et le signal utile sont indépendants; la fonction de cohérence entre les observations est définie par: p (f) = Yx, x2 (f) ( ) (f) où yx,x2 (f) est la densité interspectrale de puissance entre Yx, .Î Yxy observations, y1 (f) et y, (f) sont les d.s.p. des observations xl (n) et x2(n) respectivement. Il est alors possible d'écrire: Yx,x2(f)=E[X1(f).XZ(f)] et y (f)=E[X1(f)j2]É Une telle fonction (30) de cohérence, dont le module est borné entre 0 et 1, et représente la corrélation entre les composantes fréquentielles des signaux (31, 32) captés par les deux microphones. En se basant sur les hypothèses formulées ci- dessus, il est possible d'utiliser cette fonction comme critère de discrimination du bruit perturbateur du signal de la parole. Dans ce sens, l'idée est d'utiliser la MSC ( Magnitude Squared Coherence en anglais ou cohérence carrée en magnitude 2878399 6 en français) qui est égale au carré du module de la cohérence pour filtrer l'une des observations: MSC( f) = p (f)2 De plus, il devient possible au moyen de cette technique d'élever la MSC à une puissance a supérieure à 1 pour effectuer le débruitage, et d'introduire deux seuils notés S. et S,nin. Ainsi, si la MSC est supérieure à S, le spectre des observations n'est pas modifié sous l'hypothèse d'une cohérence forte. Or, une cohérence forte selon cette hypothèse ne peut être provoquée que par un bruit négligeable (par opposition au contexte fortement bruité visé par la technique selon l'invention décrite ci-après), et si la MSC est inférieure à Ste, il est nécessaire 10 d'appliquons un filtre à gain constant faible.

s, (f) (f) p CAC (f)J x1(f) [sminr (f) siMSC(f) >Sm siMSC( f)Sm. si Sm. o > MSC(f) Plus le paramètre a sera important, plus le filtrage sera sévère. Cela se traduit alors par une forte réduction du bruit, mais introduit en contrepartie une forte distorsion du signal utile.

De façon similaire, pour des valeurs de MSC' supérieures à SS le signal utile n'est pas distordu, et si les valeurs de MSC sont inférieures à Sr., une forte atténuation spectrale peut être obtenue.

Or, dans la pratique, l'hypothèse concernant le fait que les composantes fréquentielles du bruit sont décorrélées est rarement vérifiée. Ainsi, lorsqu'un calcul de la cohérence entre les observations est effectué, les résultats obtenus sont faussés par la présence d'une cohérence liée au bruit, ce qui signifie de façon désavantageuse, que plus le bruit dans l'habitacle du véhicule sera élevé, plus les résultats seront médiocre et contraires à l'objectif de l'annulation, ou tout le moins de forte réduction du bruit en environnement fortement bruité.

2.5 Les bancs de filtres L'une des principales difficultés avec l'utilisation de la fonction de cohérence, provient du fait que les bruits peuvent également être corrélés entre eux. Dans le cas des bruits liés au véhicule, ceci est particulièrement vrai pour les basses fréquences, ce qui rend le débruitage délicat.

La cohérence théorique du bruit est décrite dans: N. Dal Degan, C. Prati, Accoustic Noise Analysis and Speech Enhancement fier Mobile Radio applications , Signal 5 Processing, vol. 15, n 4, pp 43-56, 1988.

Elle est donnée par: pbrui, (f) = sinc 2d. f 1 où c est la vitesse du son dans le vide c et est égale à 340 mis, et d est la distance qui sépare les deux microphones, soit 20 cm. La première fréquence qui annule la cohérence du bruit est de 850 Hz. Un banc de filtres constitué d'un filtre d'Ephraim et Malah STSA sur la bande de fréquences [0, 1 kHz], et d'un filtre utilisant la cohérence sur la bande [1 kHz; 4 kHz] a été expérimenté et les résultats obtenus ne donnent aucune amélioration notable dans les fichiers filtrés, et font même apparaître du bruit musical qui avait été supprimé avec la cohérence.

De plus, de part le contexte de télécommunications mobiles visé par l'invention (notamment GSM), pour pouvoir autoriser une réduction sensible du bruit en environnement fortement bruité, un filtre passe-haut de fréquence 300 Hz devrait être nécessairement effectué avant l'étape de débruitage, ce qui impliquerait que le filtre d'Ephraim et Malah ne serait réellement utile que sur la bande [300; 850 Hz] d'une part, et que d'autre part, la complexité en termes d'implémentation et de temps de calcul du banc de filtres par rapport à ses performances seraient considérable set incompatibles avec les objectifs de l'invention.

2.6 Le détecteur d'activité vocale basé sur la cohérence Pouvoir détecter la présence de parole est nécessaire dans un contexte d'utilisation des systèmes de communication (notamment GSM) en fonction mains- libres. En effet, l'apprentissage du bruit par ces systèmes ne peut être réalisé que pendant les phases de bruit seul. La pertinence du détecteur d'activité vocale (VAD pour Vocal Activity Detector en anglais) est donc un élément déterminant. L'utilisation de la cohérence entre les signaux des deux voies peut permettre de discriminer le bruit au profit de la parole. Avec les hypothèses que les composantes fréquentielles de parole sont corrélées entre elles, et qu'au contraire, celles du bruit ne le sont pas, une forte valeur de cohérence permet de témoigner donc de la présence de parole.

Pour chaque trame, une moyenne fréquentiell.e sur la MSC est réalisée, sans utiliser la soustraction interspectrale, le bruit pour la trame en cours n'étant pas connu. Si cette moyenne est supérieure à un certain seuil, il est considéré que la présence de parole par le système.

Lorsqu'on passe d'une période de bruit à une phase de parole, la cohérence ne varie pas instantanément. Ainsi, entre le début de la parole, et le moment où la MSC (moyenne) passe au-dessus du seuil de détection, il y a un certain nombre de trames pendant lesquelles le début de parole est considéré comme du bruit. Ceci a pour effet de fausser l'estimée du bruit et d'introduire ainsi distorsion et un bruit résiduel dans le fichier filtré.

Par ailleurs, lorsque le calcule de la moyenne de la MSC s'effectue entre 1 kHz et 4kHz, il n'est plus possible d'utiliser la soustraction interspectrale, ce qui implique en contrepartie que dans des configurations très bruitées, il devient particulièrement difficile de faire la distinction entre parole et bruit puisque la cohérence liée au bruit devient très importante.

3. Objectifs de l'invention L'invention a notamment pour objectif de pallier ces inconvénients de l'art 20 antérieur.

Plus précisément, un objectif de l'invention est de fournir un dispositif de réduction sensible des bruits extérieurs pouvant interférer avec la voix du locuteur présent dans l'habitacle de son véhicule lorsque celuici discute avec un interlocuteur via son terminal de communication (par exemple son téléphone mobile), lequel fonctionne en mode de communication mains-libres.

Un autre objectif de l'invention, dans au moins un de ses modes de réalisation, est de mettre en oeuvre un procédé de réduction du bruit permettant de réduire ces bruits externes de manière significative tout en limitant la distorsion du signal de la parole, dans l'objectif supplémentaire de rendre la conversation téléphonique aussi agréable que possible.

L'invention se propose donc de résoudre le problème de distortion de la voix sans pour autant dénaturaliser le bruit de fond restant.

Un autre objectif de l'invention est donc de proposer un dispositif et un procédé qui soient capables de s'adapter d'une part à la quantité de bruit présent dans 5 l'habitacle du véhicule, et d'autre part à la puissance du signal utile.

Encore un objectif supplémentaire de l'invention concerne la mise en oeuvre de fonctions algorithmiques n'impliquant aucun surcoût en termes de temps de calcul et donc de surcroît de consommation électrique.

L'invention a encore pour objectif de fournir un dispositif qui soit simple de 10 mise en oeuvre et peu coûteux à la fabrication, car ne nécessitant pas d'ajout d'éléments matériels supplémentaire.

En d'autre termes, un objectif supplémentaire de l'invention est d'obtenir de bonnes performances quels que soient la quantité et le type de bruit présent dans l'habitacle du véhicule, lesquelles peuvent se traduire notamment en termes de meilleure qualité de la voix.

4. Caractéristiques essentielles de l'invention Ces objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un dispositif de débruitage comprenant des moyens (43) de réduction du bruit capté par au moins deux microphones (41, 42) espacés d'une distance prédéterminée et formant moyens de communication mains-libres d'un système de radiocommunication mobile.

Selon l'invention, les moyens (43) de réduction du bruit comprennent avantageusement des moyens (44) d'estimation du bruit environnant et des moyens (40) d'application d'une fonction de pondération de la cohérence entre les signaux (41, 42) captés par les microphones, de façon à limiter la distortion du signal (45) de parole utile tout en supprimant une quantité importante dudit bruit estimé.

Préférentiellement, la fonction de pondération de la cohérence est une fonction sigmoïde du type s'écrivant sous la forme: G ( k = a exp ( k(p(f, k) c)) +b cohlf,) exp(k(p(f,k) c))+1 où : - p (f,k) est la cohérence à la fréquence f et à la trame k; S., est le seuil maximal de ladite fonction de pondération; - S est le seuil minimal de ladite fonction de pondération; a SM Sm;ll. 2 '

_ b = max + smin c est le point d'inflexion de ladite fonction de pondération (50, figure 5); k est la pente de ladite fonction de pondération, telle que k 100 sip(f)>c sinon De façon avantageuse, le dispositif de débruitage selon l'invention comprend 10 en outre des moyens de filtrages sélectifs et de discrimination des composantes de parole et de bruit.

Préférentiellement, ces moyens de filtrage sélectifs et de discrimination sont des moyens de détermination de la valeur du point d'inflexion c, en fonction de la quantité des composantes de parole et de bruit détectée, de façon que plus la quantité de bruit détecté est importante plus le point d'inflexion sera élevé et le filtrage important, et plus la quantité de parole est importante, moins le point d'inflexion sera élevé et plus le filtrage sera réduit.

Avantageusement, les moyens de détermination de la valeur du point d'inflexion sont des moyens de mise en oeuvre d'une loi de variation du point d'inflexion c, laquelle dépendant du rapport signal à bruit a priori RSBpro à la fréquence f et à la trame k. Elle est définie par l'expression: RSB c(f,k)=0,9 0,3 _ _.io(.%k) RSBpr,p(f,k)+1 De façon également avantageuse, dans une variante de l'invention, les moyens de détermination de la valeur du point d'inflexion sont des moyens auto adaptatifs 25 dépendant d'au moins un niveau du rapport signal à bruit calculé.

De façon préférentielle, le dispositif selon l'invention comprend en outre des moyens de déclenchement d'évènements interopérant avec les moyens d'estimation du bruit environnant, de façon qu'en fonction de la valeur déterminée pour le point d'inflexion et du niveau de filtrage à appliquer, au moins un événement soit déclenché.

Dans un premier mode de réalisation avantageux de l'invention, les évènements sont des messages appartiennent au groupe comprenant au moins les messages d'alerte et/ou d'information transmis à l'utilisateur au moyen d'organes dédiés (écran, organes sonores, etc.).

Dans un second mode de réalisation avantageux de l'invention, les évènements sont des événements de commande d'au moins certains organes de l'environnement extérieur (volume de l'autoradio, commande des vitres, commande de puissance de la climatisation, etc.).

L'invention concerne également de façon avantageuse un véhicule équipé d'un système de radiocommunication comprenant un dispositif précité de réduction du bruit capté par au moins deux microphones espacés d'une distance prédéterminée et formant moyens de communication mains-libres d'un système de radiocommunication mobile embarqué, les moyens de réduction du bruit comprenant des moyens d'estimation du bruit détecté dans l'habitacle du véhicule et des moyens d'application d'une fonction de pondération de la cohérence entre les signaux captés par les microphones, de façon à limiter la distortion du signal de parole utile tout en supprimant une quantité importante du bruit estimé.

L'invention concerne enfin et de façon également avantageuse, un procédé de débruitage d'un système de radiocommunication mobile comprenant des moyens de réduction du bruit capté par au moins deux microphones espacés d'une distance prédéterminée et formant moyens de communication mainslibres. Un tel procédé selon l'invention met en oeuvre au moins les étapes suivantes: d'estimation du bruit environnant; d'application d'une fonction de pondération de la cohérence entre les signaux captés par les microphones, de façon à limiter la distortion du 30 signal de parole utile tout en supprimant une quantité importante du bruit estimé.

Préférentiellement, la fonction de pondération de la cohérence est une fonction sigmoïde du type s'écrivant sous( la forme: G k exp(k(p(f,k)-c))1+b Coh (f) = a exp(k(p(f,k)-c))+1 où : p (f,k) est la cohérence à la fréquence f et à la trame k; S. est le seuil maximal de ladite fonction de pondération; Sn. est le seuil minimal de ladite fonction de pondération; b = Smex +S. n

c est le point (50) d'inflexion de ladite fonction de pondération; k est la pente de ladite fonction de pondération, telle que [k.{100 sip(f) >c sinon Avantageusement, le procédé de débruitage selon l'invention met en oeuvre au moins une étape supplémentaire de filtrage sélectif et de discrimination entre les composantes de parole et de bruit détectées dans l'environnement extérieur.

Préférentiellement, l'étape supplémentaire de filtrage sélectif et de discrimination est une étape de de détermination de la valeur du point d'inflexion c, en fonction de la quantité des composantes de parole et de bruit détectée, de façon que plus la quantité de bruit détecté est importante plus le point d'inflexion sera élevé et le filtrage important, et plus la quantité de parole est importante, moins le point d'inflexion sera élevé et plus le filtrage sera réduit.

Encore de façon préférentielle, l'étape de détermination de la valeur du point d'inflexion est une étape de mise en oeuvre d'une loi de variation du point d'inflexion C dépendante du rapport signal à bruit a priori RSBpr, à la fréquence f et à la trame k, et définie par l'expression: c (f, k) = 0, 9 - 0, 3Bpr' (f' k) - RSBpr,o(f,k)+1 a = Smax Smin, L'invention concerne encore avantageusement, un produit programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé précité de débruitage d'un système de radiocommunication mobile comprenant des moyens de réduction du bruit capté par au moins deux microphones espacés d'une distance prédéterminée et formant moyens de communication mains-libres, lorsque ledit programme est exécuté sur un ordinateur.

5. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels: la figure 1 présente un Synoptique de la méthode PIS de l'art antérieur précédemment décrite; la figure 2 illustre la structure de Zelinski-Simmer précédemment décrite; - la figure 3 donne un synoptique de la méthode de cohérence classique déjà décrite ci-avant; la figure 4 illustre un synoptique de la méthode d'utilisation d'une fonction de pondération pour la cohérence, selon l'invention; la figure 5 donne des courbes de comparaison entre l'utilisation de la sigmoïde 20 pour le calcul de la pondération de la cohérence selon l'invention et le calcul de la pondération utilisant la MSC.

la figure 6 présente l'évolution du centre de la sigmoïde au cours du temps. 6. Description d'un mode de réalisation de l'invention Le principe général de l'invention repose sur une estimation de la puissance du bruit détecté dans l'habitacle du véhicule pour le supprimer ensuite. Cette estimation repose de façon nouvelle et inventive sur la création d'une nouvelle fonction de pondération permettant de supprimer une grande quantité du bruit estimé, tout en conservant l'intégralité du signal utile et en améliorant la qualité sonore en environnement fortement bruité.

La technique selon l'invention est une solution à deux microphones qui repose sur l'utilisation d'une fonction de pondération pour la cohérence selon le principe suivant: le signal de la parole étant très corrélé, sa fonction de cohérence se rapproche de la valeur 1 et le signal du bruit étant faiblement corrélé, sa fonction de cohérence est proche de 0 La qualité du filtrage en utilisant la fonction de cohérence avec soustraction inter spectrale dépend de la valeur du coefficient a. En effet, plus ce paramètre est important, plus le filtrage est sévère et induisant une forte réduction du bruit, mais sans distorsion importante.

Cette contrainte est à l'origine d'un premier compromis entre qualité du signal estimé et réduction de bruit.

Afin de limiter la distorsion du signal utile tout en supprimant une quantité importante de bruit, une fonction de pondération de la cohérence (aussi nommée sigmoïde) a été introduite afin de remplacer l'utilisation de la MSC.

Cette fonction est la suivante: Gcoh (f, k) = a exp (k p (f, k) c)) -1 + b exp(k(p(f,k) c))+1 avec: p (f,k) : cohérence à la fréquence f et à la trame k 15: seuil maximal de la fonction de pondération (S, = 1) Sain: seuil minimal de la fonction de pondération (Sn. = 0,1) a=Sma sue b = Smex + Surin c: point d'inflexion de la fonction (c = 0,8, comme illustré surla figure 5, 20 50) k: pente de la fonction, différente si l'on se place avant ou après le point d'inflexion k = 5100 si p (f) > c 20 sinon La valeur de S. permet d'obtenir un gain du filtre égal à 1 dans le cas où la cohérence est importante (traduisant la présence de parole), et la valeur de S, permet de garder dans le signal filtré une certaine quantité de bruit résiduel rendant l'écoute plus confortable, ce qui permet en outre de pouvoir masquer d'autres bruits également présents dans l'environnement. La position (50) du point d'inflexion est délicate à définir. En effet, si un point d'inflexion trop élevé est choisi, cela aura pour effet de supprimer une grande quantité de bruit, mais aussi de distordre de manière significative le signal de parole (dont la cohérence se situe dans ce cas sous le point d'inflexion).

Si au contraire, un point d'inflexion trop faible est choisi, le signal utile sera peu distordu, mais une grande quantité de bruit ne sera pas filtrée. Les valeurs de la pente sont des valeurs empiriques données par différents tests d'écoute, qui semblent procurer les meilleurs résultats. La figure 5 représente la fonction de pondération avec les paramètres énoncés, ainsi que le type de pondération initiale utilisant la MSC avec quatre valeurs de a: a =1 (51); (x =2 (52); a =3 (53) et a =4 (54). Il est en outre possible de remarquer que la pondération introduite par la sigmoïde impose d'avoir un gain de 1 pour une large bande de valeurs des fortes cohérences.

Ceci est un élément supplémentaire participant à la réduction de la distorsion de la parole. En effet, même pour les fortes cohérences, l'utilisation de la MSC impose la réduction des composantes du signal (en effet, le gain du filtre est fixé à 1 pour des cohérences supérieures à 0, 98).

On présente ci-après la loi de variation du centre de la sigmoïde pour laquelle il est constaté, comme illustré sur la figure 6, que pour des fichiers bruités de faible RSB (rapport signal à bruit), les composantes de parole avaient tendance à être filtrées. En effet, dans ces cas, la cohérence liée au signal utile est plus faible, et passe sous le point d'inflexion, ce qui provoque la suppression de ces composantes. Ceci se traduit en terme d'écoute par une très forte distorsion de la parole, voire par la suppression totale de celle-ci.

Ainsi deux contraintes liées au point (50) d'inflexion doivent être mises mettre en avant: en présence de composantes de parole, il est nécessaire de baisser le point d'inflexion de manière à ne pas filtrer ces composantes; en présence de composantes de bruit en revanche, il devient utile de remonter le point d'inflexion afin de réaliser un filtrage efficace.

2878399 16 Le fait de respecter ces deux contraintes permet de supprimer une grande quantité de bruit tout en limitant la distorsion, et ceci même pour des configurations très bruitées.

C'est dans cette optique qu'a été mise en place une loi de variation du point d'inflexion de la sigmoïde en fonction du rapport signal à bruit a priori RSB,.,Q (calculé par la méthode décision dirigée (ou decision directed en anglais) introduite par Ephraim et Malah) laquelle est définie par: RSBprio(f, k) c(f,k)=0,9 0,3RSB (f,k)+1 rio Ainsi, en présence de composantes de bruit, le rapport signal à bruit a priori 10 RSB,.IO est faible, faisant tendre c (f, k) vers 0.9. Ceci permet de supprimer une grande quantité des composantes de bruit.

A l'inverse, dans une situation caractérisée par la présence de composantes de parole, un rapport signal à bruit a priori RSBp,,o fort fait tendre c (f, k) vers 0.6, laissant ainsi passer toutes les composantes de parole (et en particulier celles qui 15 possèdent une faible valeur de cohérence).

Les figures 5 et 6 illustrent l'effet de la loi de variation sur le centre de la sigmoïde. On observe concrètement sur cet exemple le comportement voulu.

Les phases de parole sont mises en avant par un RSBp,.io fort, ce qui a pour effet de baisser de manière significative le point (50) d'inflexion de la sigmoïde et 20 ainsi laisser passer plus de composantes de la parole.

Sur les fichiers audio traités, l'effet de cette loi de variation est surtout perceptible pour des configurations très bruitées.

Ainsi, grâce à cette loi de variation, l'algorithme est en mesure de s'adapter aux composantes à filtrer.

En effet, lorsqu'on se trouve en présence de composantes de bruit (RSB O faible), le filtrage est particulièrement sévère, tandis qu'en présence de parole, le point d'inflexion est plus faible, et le filtrage beaucoup plus doux.

Cette technique permet de réaliser un filtrage sélectif des composantes, et une meilleure discrimination du bruit par rapport à la parole.

Bien entendu, l'invention n'est pas limitée aux exemples de réalisation mentionnés ci-dessus.

Claims

REVENDICATIONS

1. Dispositif de débruitage comprenant des moyens (43) de réduction du bruit capté par au moins deux microphones (41, 42) espacés d'une distance prédéterminée et formant moyens de communication mains-libres d'un système de radiocommunication mobile, caractérisé en ce que lesdits moyens (43) de réduction du bruit comprennent des moyens (44) d'estimation du bruit environnant et des moyens (40) d'application d'une fonction de pondération de la cohérence entre les signaux (41, 42) captés par lesdits microphones, de façon à limiter la distortion du signal (45) de parole utile tout en supprimant une quantité importante dudit bruit estimé.

2. Dispositif de débruitage selon la revendication 1, caractérisé en ce que ladite fonction de pondération de la cohérence est une fonction sigmoïde du type s'écrivant exp(k(p(f k)-c) -1 sous la forme: Gcoh (f, k) = a + b exp(k(p(f,k)-c))+1 où : - p( f,k) est la cohérence à la fréquence f et à la trame k; - Smax est le seuil maximal de ladite fonction de pondération; - Sm;n est le seuil minimal de ladite fonction de pondération; - a = Smax Smin - b = Smax +S. n

- c est le point d'inflexion de ladite fonction de pondération; k est la pente de ladite fonction de pondération, telle que si p(f)>c sinon 1

3. Dispositif de débruitage selon l'une quelconque des revendications 1 et 2, caractérisé en ce qu'il comprend en outre des moyens de filtrages sélectifs et de 25 discrimination des composantes de parole et de bruit.

4. Dispositif de débruitage selon la revendications 3, caractérisé en ce que lesdits moyens de filtrage sélectifs et de discrimination sont des moyens de détermination de la valeur du point d'inflexion c, en fonction de la quantité des composantes de parole et de bruit détectée, de façon que plus la quantité de bruit détecté est importante plus le point d'inflexion sera élevé et le filtrage important, et plus la quantité de parole est importante, moins le point d'inflexion sera élevé et plus le filtrage sera réduit.

5. Dispositif de débruitage selon la revendication 4, caractérisé en ce que lesdits moyens de détermination de la valeur du point d'inflexion sont des moyens de mise en oeuvre d'une loi de variation du point d'inflexion c dépendante du rapport signal à bruit a priori RSBpr;o à la fréquence f et à la trame k, et définie par l'expression: c(f,k) =0, 9 3R SBRSBprixpr,o(f,(f,k)k) +1

6. Dispositif de débruitage selon l'une quelconque des revendications 4 et 5, caractérisé en ce que lesdits moyens de détermination de la valeur du point d'inflexion sont des moyens auto adaptatifs dépendant d'au moins un niveau de rapport signal à bruit préalablement estimé.

7. Dispositif de débruitage selon l'une quelconque des revendications 2 à 6, caractérisé en ce qu'il comprend en outre des moyens de déclenchement d'évènements interopérant avec lesdits moyens d'estimation du bruit environnant, de façon qu'en fonction de la valeur déterminée pour ledit point d'inflexion et du niveau de filtrage à appliquer, au moins un événement soit déclenché.

8. Dispositif de débruitage selon la revendication 7, caractérisé en ce que lesdits évènements sont des messages appartiennent au groupe comprenant au moins les messages d'alerte et/ou d'information transmis à l'utilisateur au moyen d'organes dédiés.

9. Dispositif de débruitage selon les revendications 7 et 8, caractérisé en ce que lesdits évènements sont des événements de commande d'au moins certains organes de l'environnement extérieur.

10. Véhicule équipé d'un système de radiocommunication mobile embarqué comprenant des moyens de réduction du bruit capté par au moins deux microphones 30 espacés d'une distance prédéterminée et formant moyens de communication mains- libres, caractérisé en ce que lesdits moyens de réduction du bruit comprennent des moyens d'estimation du bruit détecté dans l'habitacle dudit véhicule et des moyens d'application d'une fonction de pondération de la cohérence entre lesdits signaux captés par lesdits microphones, de façon à limiter la distortion du signal de parole utile tout en supprimant une quantité importante dudit bruit estimé.

11. Véhicule équipé d'un système de moyens de réduction du bruit selon la revendication 10, caractérisé en ce que ladite fonction de pondération de la cohérence est une fonction sigmoïde du type s'écrivant sous la forme: Gcoh (f,k =aexp(k(p(f,k)-c))-l+b exp(k(p(f,k)-c))+1 où : p (f,k) est la cohérence à la fréquence f et à la trame k; - Smax est le seuil maximal de ladite fonction de pondération; Smi est le seuil minimal de ladite fonction de pondération; _ a = Smax -S min 2 ' b = Smax +S. n. 2 '

- c est le point d'inflexion de ladite fonction de pondération; -k est la pente de ladite fonction de pondération, telle que k = {100 si p( f 20 sinon

12. Procédé de débruitage d'un système de radiocommunication mobile comprenant des moyens de réduction du bruit capté par au moins deux microphones espacés d'une distance prédéterminée et formant moyens de communication mains-libres, caractérisé en ce qu'il met en oeuvre au moins les étapes suivantes: - d'estimation du bruit environnant; d'application d'une fonction de pondération de la cohérence entre les signaux captés par lesdits microphones, de façon à limiter la distortion du signal de parole utile tout en supprimant une quantité importante dudit bruit estimé.

13. Procédé de débruitage selon la revendication 12, caractérisé en ce que ladite fonction de pondération de la cohérence est une fonction sigmoïde du type s'écrivant sous la forme: Gcoh (f, k)= a exp k (p (f k) - c -1 + b exp(k(p(f,k)-c),)+l où : - p( f,k) est la cohérence à la fréquence f et à la trame k; - Smax est le seuil maximal de ladite fonction de pondération; - Smi est le seuil minimal de ladite fonction de pondération; a = Smax min - b = Sm x " min - c est le point d'inflexion de ladite fonction de pondération; - k est la pente de ladite fonction de pondération, telle que 100sip(f)>c 20 sinon

14. Procédé de débruitage selon l'une quelconque des revendications 12 et 13, caractérisé en ce qu'il met en oeuvre au moins une étape supplémentaire de filtrage sélectif et de discrimination entre les composantes de parole et de bruit détectées dans l'environnement extérieur.

15. Procédé de débruitage selon la revendications 14, caractérisé en ce que ladite au moins une étape supplémentaire de filtrage sélectif et de discrimination est une étape de de détermination de la valeur du point d'inflexion c, en fonction de la quantité des composantes de parole et de bruit détectée, de façon que plus la quantité de bruit détecté est importante plus le point d'inflexion sera élevé et le filtrage important, et plus la quantité de parole est importante, moins le point d'inflexion sera élevé et plus le filtrage sera réduit.

16. Procédé de débruitage selon la revendication 15, caractérisé en ce que ladite étape de détermination de la valeur du point d'inflexion est une étape de mise en oeuvre d'une loi de variation du point d'inflexion c dépendante du rapport signal à bruit a priori RSBprio à la fréquence f et à la trame k, et définie par l'expression: c(f,k) =0,9 0,3 RSBRSBpr;o (f k) (fk)+1 prto

17. Produit programme d'ordinateur caractérisé en ce qu'il comprend des instructions de code de programme pour l'exécution des étapes du procédé de débruitage d'un système de radiocommunication mobile comprenant des moyens de réduction du bruit capté par au moins deux microphones espacés d'une distance prédéterminée et formant moyens de communication mains-libres selon l'une quelconque des revendications 13 à 17, lorsque ledit programme est exécuté sur un ordinateur.