FR2992459A1 - Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite. - Google Patents
Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite. Download PDFInfo
- Publication number
- FR2992459A1 FR2992459A1 FR1256049A FR1256049A FR2992459A1 FR 2992459 A1 FR2992459 A1 FR 2992459A1 FR 1256049 A FR1256049 A FR 1256049A FR 1256049 A FR1256049 A FR 1256049A FR 2992459 A1 FR2992459 A1 FR 2992459A1
- Authority
- FR
- France
- Prior art keywords
- sensors
- noise
- signal
- speech
- denoising
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000003044 adaptive effect Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 31
- 238000012546 transfer Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims 1
- 238000000638 solvent extraction Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 description 10
- 230000001427 coherent effect Effects 0.000 description 8
- 238000011282 treatment Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 4
- 230000003071 parasitic effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000287531 Psittacidae Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 102000020897 Formins Human genes 0.000 description 1
- 108091022623 Formins Proteins 0.000 description 1
- WCUXLLCKKVVCTQ-UHFFFAOYSA-M Potassium chloride Chemical compound [Cl-].[K+] WCUXLLCKKVVCTQ-UHFFFAOYSA-M 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/002—Damping circuit arrangements for transducers, e.g. motional feedback circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Ce procédé comporte des étapes de : a) partition (10, 16) du spectre du signal bruité en une partie HF et une partie BF ; b) traitements de débruitage opérés de façon différenciée pour chacune des deux parties du spectre, avec pour la partie HF un débruitage par prédiction du signal utile d'un capteur sur l'autre entre capteurs d'un premier sous-réseau (R ), au moyen d'un premier estimateur (14) à algorithme adaptatif, et pour la partie BF un débruitage par prédiction du bruit d'un capteur sur l'autre entre capteurs d'un second sous-réseau (R ), au moyen d'un second estimateur (18) à algorithme adaptatif ; c) reconstruction du spectre par combinaison (22) des signaux délivrés après les traitements de débruitage respectifs des deux parties du spectre ; et d) réduction sélective du bruit (24) par un traitement de gain à amplitude log-spectrale modifié optimisé, OM-LSA.
Description
L'invention concerne le traitement de la parole en milieu bruité. Elle concerne notamment le traitement des signaux de parole captés par des dispositifs de téléphonie de type "mains libres" destinés à être utilisés dans un environnement bruité.
Ces appareils comportent un ou plusieurs microphones ("micros") sensi- bles, captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller dans certains cas jusqu'à rendre inintelligibles les paroles du locuteur. Il en est de même si l'on veut mettre en oeuvre des techniques de recon- naissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé. Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains libres" pour véhicules automobiles, qu'il s'agisse d'équipements incorporés au véhicule ou bien d'acces- soires en forme de boîtier amovible intégrant tous les composants et fonc- tions de traitement du signal pour la communication téléphonique. En effet, dans cette application, la distance importante entre le micro (placé au niveau de la planche de bord ou dans un angle du pavillon de l'habitacle) et le locuteur (dont l'éloignement est contraint par la position de conduite) entraîne la captation d'un niveau de bruit relativement élevé, qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pa- vées, autoradio en fonctionnement, etc. Des difficultés comparables se présentent lorsque le dispositif est un casque audio de type micro/casque combiné utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) pro- venant d'un appareil sur lequel est branché le casque. Dans ce cas, il s'agit d'assurer une intelligibilité suffisante du signal capté par le micro, c'est-à-dire du signal de parole du locuteur proche (le porteur du casque). Or le casque peut être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seu- lement la parole du porteur du casque, mais également les bruits parasi- tes environnants. Le porteur est protégé de ce bruit par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche, le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro et venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque). En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environne- ments habituels. L'invention concerne plus particulièrement les techniques de débruitage mettant en oeuvre un réseau de plusieurs micros, en combinant de façon judicieuse les signaux captés simultanément par ces micros pour discriminer les composantes utiles de parole d'avec les composantes parasites de bruit. Une technique classique consiste à placer et orienter l'un des micros pour qu'il capte principalement la voix du locuteur, tandis que l'autre est disposé de manière à capter une composante de bruit plus importante que le micro principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant par analyse de cohérence spatiale des deux si- gnaux, avec des moyens logiciels relativement simples. Le US 2008/0280653 Al décrit une telle configuration, où l'un des micros (celui qui capte principalement la voix) est celui d'une oreillette sans fil portée par le conducteur du véhicule, tandis que l'autre (celui qui capte principalement le bruit) est celui de l'appareil téléphonique, placé à dis- tance dans l'habitacle du véhicule, par exemple accroché au tableau de bord. Cette technique présente cependant l'inconvénient de nécessiter deux micros distants, l'efficacité étant d'autant plus élevée que les deux micros sont éloignés. De ce fait, cette technique n'est pas applicable à un dispo- sitif dans lequel les deux micros sont rapprochés, par exemple deux micros incorporés à la façade d'un autoradio de véhicule automobile, ou deux micros qui seraient disposés sur l'une des coques d'un écouteur de casque audio.
Une autre technique encore, dite beamforming, consiste à créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit du réseau ou "antenne" de micros. Le US 2007/0165879 Al décrit une telle technique, appliquée à une paire de micros non directionnels placés dos à dos. Un filtrage adaptatif des signaux captés permet de dériver en sortie un signal dans lequel la composante de voix a été renforcée. Toutefois, on estime qu'une méthode de débruitage multi-capteurs ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros, les performances étant extrêmement limitées lorsque seulement deux micros sont utilisés. Les EP 2 293 594 Al et EP 2 309 499 Al (Parrot) décrivent d'autres techniques, également basées sur l'hypothèse que le signal utile et/ou les bruits parasites présentent une certaine directivité, qui combinent les signaux issus des différents micros de manière à améliorer le rapport si- gnal/bruit en fonction de ces conditions de directivité. Ces techniques de débruitage reposent sur l'hypothèse que la parole présente généralement une cohérence spatiale supérieure au bruit et que, par ailleurs, la direction d'incidence de la parole est généralement bien définie et peut être supposée connue (dans le cas d'un véhicule automobile, elle est définie par la position du conducteur, vers lequel sont tournés les micros). Cette hypo- thèse prend cependant mal en compte l'effet de réverbération typique de habitacle d'une voiture, où les réflexions puissantes et nombreuses rendent difficile le calcul d'une direction d'arrivée. Elles peuvent être également mises en défaut par des bruits présentant une certaine directivité, tels que coups de klaxon, passage d'un scooter, dépassement par une voiture, etc. De façon générale, ces techniques basées sur des hypothèses de directivité présentent toutes des performances limitées à l'encontre des composantes de bruit situées dans la région des fréquences les plus basses - là où, précisément, le bruit peut se trouver concentré à un niveau d'éner- gie relativement élevé. En effet, la directivité est d'autant plus marquée que la fréquence est élevée, de sorte que ce critère devient peu discriminant pour les fréquences les plus basses. En fait, pour rester suffisamment efficace, il est néces- saire d'écarter beaucoup les micros, par exemple de 15 à 20 cm, voire même plus en fonction des performances souhaitées, de manière à dé-corréler suffisamment les bruits captés par ces micros. Par voie de conséquence, il n'est pas possible d'incorporer un tel réseau de micros par exemple au boîtier d'un autoradio de véhicule automobile ou à un boîtier de "kit mains libres" autonome placé dans le véhicule, en- core moins sur des coques d'écouteurs d'un casque audio. Le problème de l'invention est, dans un tel contexte, de pouvoir disposer d'une technique de réduction de bruit efficace permettant de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le lo- cuteur proche (conducteur du véhicule ou porteur du casque), en débar- rassant ce signal des composantes parasites de bruit extérieur présentes dans l'environnement de ce locuteur proche, technique qui : - présente des performances accrues dans le bas du spectre des fréquences, là où sont le plus souvent concentrées les composantes de bruit parasite les plus gênantes, notamment du point de vue du mas- quage du signal de parole ; - ne requière pour sa mise en oeuvre qu'un nombre réduit de micros (typiquement, pas plus de trois à cinq micros) ; et - avec une configuration géométrique suffisamment ramassée du réseau de micros (typiquement avec un écartement entre micros de quelques centimètres seulement), pour permettre notamment son intégration à des produits compacts de type "tout-en-un". Le point de départ de l'invention réside dans l'analyse du champ de bruit typique dans l'habitacle d'un véhicule automobile, qui conduit aux obser- vations suivantes : - le bruit dans l'habitacle est spatialement cohérent dans les basses fréquences (au-dessous de 1000 Hz environ) ; - il perd en cohérence dans les hautes fréquences (au-dessus de 1000 Hz) ; et - selon le type de micro utilisé, unidirectionnel ou omnidirectionnel, la co- hérence spatiale est modifiée. Ces observations, qui seront précisées et justifiées plus loin, conduisent à proposer une stratégie de débruitage hybride, mettant en oeuvre en basse fréquence (BF) et en haute fréquence (HF) deux algorithmes différents, exploitant la cohérence ou la non-cohérence des composantes de bruit selon la partie du spectre considérée : - la forte cohérence des bruits en BF permet d'envisager un algorithme exploitant une prédiction du bruit d'un micro sur l'autre, ce qui est pos- sible car on peut observer des périodes de silence du locuteur, avec absence de signal utile et présence exclusive du bruit ; en revanche, en HF le bruit est faiblement cohérent et il est difficilement prédictible, sauf à prévoir un nombre élevé de micros (ce qui n'est pas souhaité) ou à rapprocher les micros pour rendre les bruits plus cohérents (mais l'on n'obtiendra jamais de grande cohérence dans cette bande, sauf à confondre les micros : les signaux captés seraient alors les mêmes, et l'on n'aurait aucune information spatiale). Pour cette partie HF, on utilisera alors un algorithme exploitant le caractère prédictible du signal utile d'un micro sur l'autre (et non plus une prédiction du bruit), ce qui est par hypo- thèse possible car on sait que ce signal utile est produit par une source ponctuelle (la bouche du locuteur). Plus précisément, l'invention propose un procédé de débruitage d'un signal acoustique bruité pour un dispositif audio multi-microphone opérant dans un milieu bruité, le signal acoustique bruité comprenant une compo- sante utile issue d'une source de parole et une composante parasite de bruit, ledit dispositif comprenant un réseau de capteurs formé d'une pluralité de capteurs microphoniques disposés selon une configuration prédéterminée et aptes à recueillir le signal bruité. De façon caractéristique de l'invention, ce procédé comporte les étapes suivantes : a) partition du spectre du signal bruité en une partie HF et une partie BF distinctes, par filtrage respectivement au-delà et en-deçà d'une fréquence pivot prédéterminée, les capteurs étant regroupés en un premier et un second sous-réseau correspondant chacun à l'une des par- ties respectives HF et BF du spectre ; b) traitements de débruitage opérés de façon différenciée pour chacune des deux parties du spectre, avec : b1) pour la partie HF, un débruitage exploitant le caractère prédictible du signal utile d'un capteur sur l'autre entre capteurs du pre- mier sous-réseau, au moyen d'un premier estimateur à algorithme adaptatif, b2) pour la partie BF, un débruitage par prédiction du bruit d'un capteur sur l'autre entre capteurs du second sous-réseau, au moyen d'un second estimateur à algorithme adaptatif ; et c) reconstruction du spectre par combinaison des signaux délivrés après les traitements de débruitage respectifs des deux parties du spectre aux étapes b1) et b2). En ce qui concerne la géométrie du réseau de capteurs, le premier sous- réseau de capteurs, correspondant à la partie HF du spectre, peut no- tamment comprendre un réseau linaire d'au moins deux capteurs alignés perpendiculairement à la direction de la source de parole, et le second sous-réseau de capteurs, correspondant à la partie BF du spectre, peut comprendre un réseau linaire d'au moins deux capteurs alignés parallè- lement à la direction de la source de parole. Les capteurs du premier sous-réseau de capteurs sont avantageusement des capteurs unidirectionnels, orientés dans la direction de la source de parole. Le traitement de débruitage de la partie HF du spectre à l'étape b1) peut être opéré de façon différenciée pour une bande inférieure et une bande supérieure de cette partie HF, avec sélection de capteurs différents parmi les capteurs du premier sous-réseau, la distance entre les capteurs sélectionnés pour le débruitage de la bande supérieure étant plus réduite que la distance des capteurs sélectionnés pour le débruitage de la bande infé- rieure. Le traitement de débruitage prévoit de préférence, après l'étape c) de reconstruction du spectre, une étape de : d) réduction sélective du bruit par un traitement de type gain à amplitude log-spectrale modifié optimisé, OM-LSA, à partir du signal reconstruit produit à l'étape c) et d'une probabilité de présence de parole. En ce qui concerne le débruitage de la partie HF du spectre, l'étape b1), exploitant le caractère prédictible du signal utile d'un capteur sur l'autre, peut être opérée dans le domaine fréquentiel, en particulier par : b11) estimation d'une probabilité de présence de parole dans le signal bruité recueilli ; b12) estimation d'une matrice spectrale de covariance des bruits recueillis par les capteurs du premier sous-réseau, cette estimation étant modulée par la probabilité de présence de parole ; b13) estimation de la fonction de transfert des canaux acoustiques entre la source de parole et au moins certains des capteurs du premier sous-réseau, cette estimation étant opérée par rapport à une référence de signal utile constituée par le signal recueilli par l'un des capteurs du premier sous-réseau, et étant en outre modulée par la probabilité de présence de parole ; et b14) calcul, notamment par un estimateur de type beamforming à ré- ponse sans distorsion à variance minimale, MVDR, d'un projecteur linéaire optimal donnant un signal combiné débruité unique à partir des signaux recueillis par au moins certains des capteurs du premier sous-réseau, de la matrice spectrale de covariance estimée à l'étape b12), et des fonctions de transfert estimées à l'étape b13). L'étape b13) d'estimation de la fonction de transfert des canaux acoustiques peut notamment être mise en oeuvre par un filtre adaptatif à prédiction linéaire de type moindres carrés moyens, LMS, avec modulation par la probabilité de présence de parole, notamment une modulation par va- nation du pas d'itération du filtre adaptatif LMS. Pour le débruitage de la partie BF à l'étape b2), la prédiction du bruit d'un capteur sur l'autre peut être opérée dans le domaine f temporel, en particulier par un filtre de type filtre de Wiener multicanal avec pondération par la distorsion de la parole, SDW-MWF, notamment un filtre SDW-MWF es- timé de manière adaptative par un algorithme de descente de gradient. 0 On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables. La Figure 1 illustre de façon schématique un exemple de réseau de micros, comprenant quatre micros utilisables de façon sélective pour la mise en oeuvre de l'invention.
Les Figures 2a et 2b sont des caractéristiques, respectivement pour un micro omnidirectionnel et pour un micro unidirectionnel, montrant les variations, en fonction de la fréquence, de la corrélation (fonction de cohérence quadratique) entre deux micros pour un champ de bruit diffus, ceci pour plusieurs valeurs d'écartement entre ces deux micros. La Figure 3 est un schéma d'ensemble, sous forme de blocs fonctionnels, montrant les différents traitements selon l'invention pour le débruitage des signaux recueillis par le réseau de micros de la Figure 1. La Figure 4 est une représentation schématique par blocs fonctionnels, généralisée à un nombre de micros supérieur à deux, d'un filtre adaptatif pour l'estimation de la fonction de transfert d'un canal acoustique, utilisable pour le traitement de débruitage de la partie BF du spectre dans le traitement d'ensemble de la Figure 3. 0 On va maintenant décrire en détail un exemple de technique de débruitage mettant en oeuvre les enseignements de l'invention.
Configuration du réseau de capteurs microphoniques On considérera, comme illustré Figure 1, un réseau R de capteurs microphoniques M1 ... Ma, chaque capteur pouvant être assimilé à un micro unique captant une version bruitée d'un signal de parole émis par une source de signal utile (locuteur) de direction d'incidence A. Chaque micro capte donc une composante du signal utile (le signal de parole) et une composante du bruit parasite environnant, sous toutes ses formes (directif ou diffus, stationnaire ou évoluant de manière imprévisible, etc.).
Le réseau R est configuré en deux sous-réseaux R1 et R2 dédiés respecti- vement à la captation et au traitement des signaux dans la partie supérieure (ci-après "haute fréquence", HF) du spectre et dans la partie inférieure (ci-après "basse fréquence", BF) de ce même spectre. Le sous-réseau R1 dédié à la partie HF du spectre est constitué des trois micros M1, M3, M4 qui sont alignés perpendiculairement à la direction d'in- cidence A, avec un écartement respectif de d = 2 cm dans l'exemple illustré. Ces micros sont de préférence des micros unidirectionnels dont le lobe principal est orienté dans la direction A du locuteur. Le sous-réseau R2 dédié à la partie BF du spectre est constitué des deux micros M1 et M2, alignés parallèlement à la direction Aet écartés de d= 3 cm dans l'exemple illustré. On notera que le micro M1, qui appartient aux deux sous-réseaux R1 et R2, est mutualisé, ce qui permet de réduire le nombre total de micros du réseau. Cette mutualisation est avantageuse mais elle n'est toutefois pas nécessaire. D'autre part, on a illustré une configuration en forme de "L" où le micro mutualisé est le micro M1, mais cette configuration n'est pas restrictive, le micro mutualisé pouvant être par exemple le micro M3, donnant à l'ensemble du réseau une configuration en forme de "T". Par ailleurs, le micro M2 du réseau BF peut être un micro omnidirection- nel, dans la mesure où la directivité est beaucoup moins marquée en BF qu'en HF. Enfin, la configuration illustrée montrant deux sous-réseaux R1 + R2 comprenant 3 + 2 micros (soit un total de 4 micros compte tenu de la mutualisation de l'un des micros) n'est pas limitative. La configuration minimale est une configuration à 2 + 2 micros (soit un minimum de 3 micros si l'un d'entre eux est mutualisé). Inversement il est possible d'augmenter le nombre de micros, avec des configurations à 4 + 2 micros, 4 + 3 micros, etc. L'augmentation du nombre de micros permet, notamment dans les hautes fréquences, de sélectionner des configurations de micros différentes selon les parties du spectre HF traitées. Ainsi, dans l'exemple illustré, si l'on opère en téléphonie wideband avec une plage de fréquences allant jusqu'à 8000 Hz (au lieu de 4000 Hz), pour la bande inférieure (1000 à 4000 Hz) de la partie HF du spectre on choisi- ra les deux micros extrêmes {M1, M4 éloignés entre eux de d= 4 cm, tan- dis que pour la bande supérieure (4000 à 8000 Hz) de cette même partie HF on utilisera un couple de deux micros voisins {M1, M3} ou {M3, M4}, ou bien les trois micros {M1, M3, M4} ensemble, ces micros étant espacés chacun de d = 2 cm seulement : on bénéficie ainsi dans la bande infé- rieure du spectre HF de l'écartement maximum des micros, ce qui maxi- mise la décorrélation des bruits captés, tout en évitant dans la bande supérieure un repliement des hautes fréquences du signal à restituer ; un tel repliement apparaîtrait sinon du fait d'une fréquence d'échantillonnage spatiale trop faible, dans la mesure où il faut que le retard de phase maxi- mal d'un signal capté par un micro puis par l'autre soit inférieur à la pé- riode d'échantillonnage du convertisseur de numérisation des signaux. On va maintenant exposer, en référence aux Figures 2a et 2b, la manière de choisir la fréquence pivot entre les deux parties BF et HF du spectre, et le choix préférentiel du type de micro unidirectionnel/omnidirectionnel se- Ion la partie du spectre à traiter, HF ou BF. Ces Figures 2a et 2b illustrent, respectivement pour un micro omnidirectionnel et pour un micro unidirectionnel, des caractéristiques donnant, en fonction de la fréquence, la valeur de la fonction de corrélation entre deux micros, pour plusieurs valeurs d d'écartement entre ces micros.
La fonction de corrélation entre deux micros éloignés d'une distance d, pour un modèle champ de bruit diffus, est une fonction globalement décroissante de la distance entre les micros. Cette fonction de corrélation est représentée par la cohérence quadratique moyenne MSC (Mean Squared Coherence), qui varie entre 1 (les deux signaux sont parfaite- ment cohérents, ils ne diffèrent que d'un filtre linéaire) et 0 (signaux tota- lement décorrélés). Dans le cas d'un micro omnidirectionnel, cette cohérence peut être modélisée en fonction de la fréquence par la fonction : MSC (f) f ) 12 27rf T f étant la fréquence considérée et r étant le retard de propagation entre les micros soit r= die, où d est la distance entre les micros et c la vitesse du son Cette courbe modélisée a été illustrée sur la Figure 2a, les figures 2a et 2b montant également la fonction de cohérence MSC réellement mesurée pour les deux types de micros et pour diverses valeurs de distances d.
Si l'on considère que l'on est en présence de signaux effectivement cohé- rents lorsque la valeur de MSC > 0,9, le bruit pourra être considéré comme étant cohérent lorsque l'on se trouve au-dessous d'une fréquence fo telle 0.787c que. fo = 27rd Ceci donne une fréquence pivot fo d'environ 1000 Hz pour des micros écartés de d= 4 cm (distance entre les micros M1 et M4 de l'exemple de réseau de la Figure 1). Dans le présent exemple, correspondant notamment au réseau de micros ayant les dimensions indiquées plus haut, on choisira ainsi une fréquence pivot fo = 1000 Hz au-dessous de laquelle (partie BF) on considérera que le bruit est cohérent, ce qui permet d'envisager un algorithme basé sur une prédiction de ce bruit d'un micro sur l'autre (prédiction opérée pen- dant les périodes de silence du locuteur, où seul le bruit est présent). De préférence, on utilisera pour cette partie BF, des micros unidirectionnels, car comme on peut le voir en comparant les Figures 2a et 2b la variation de la fonction de cohérence est beaucoup plus abrupte dans ce cas qu'avec un micro omnidirectionnel. Dans la partie HF du spectre, où le bruit est faiblement cohérent, il n'est plus possible de prédire ce bruit de façon satisfaisante ; on mettra alors en oeuvre un autre algorithme, exploitant le caractère prédictible du signal utile (et non plus du bruit) d'un micro sur l'autre.
On notera enfin que le choix de la fréquence pivot (fo = 1000 Hz pour d= 2 cm) dépend aussi de l'écartement entre micros, un écartement plus grand correspondant à une fréquence pivot plus faible, et vice versa. Traitement de débruitage : description d'un mode préférentiel On va maintenant décrire, en référence à la Figure 3, un mode de mise en oeuvre préférentiel de débruitage des signaux recueillis par le réseau de micros de la Figure 1, de façon bien entendu non limitative. Comme expliqué plus haut, des traitements différents sont opérés pour le haut du spectre (hautes fréquences, HF) et pour le bas du spectre (bas- ses fréquences, BF). Pour le haut du spectre, un filtre passe-haut HF 10 reçoit les signaux des micros M1, M3 et M4 du sous-réseau R1, utilisés conjointement. Ces signaux font d'abord l'objet d'une transformée rapide de Fourier FFT (bloc 12), puis d'un traitement, dans le domaine fréquentiel, par un algorithme (bloc 14) exploitant le caractère prédictible du signal utile d'un micro sur l'autre, dans cet exemple un estimateur de type MMSE-STSA (Minimum Mean-Squared Error Short-Time Spectral Amplitude), qui sera décrit en détail plus bas.
Pour le bas du spectre, un filtre passe-bas BF 16 reçoit en entrée les si- gnaux captés par les micros M1 et M2 du sous-réseau R2. Ces signaux font l'objet d'un traitement de débruitage (bloc 18) opéré dans le domaine temporel par un algorithme exploitant une prédiction du bruit d'un micro sur l'autre pendant les périodes de silence du locuteur. Dans cet exemple, on utilise un algorithme de type SDW-MWF (Speech Distorsion Weighted Multichannel Wiener Filter), qui sera décrit plus en détail par la suite. Le signal débruité résultant fait ensuite l'objet d'une transformée rapide de Fourier FFT (bloc 20). On dispose ainsi, à partir de deux traitements multicanal, de deux signaux monocanal résultants, l'un pour la partie HF issu du bloc 14, l'autre pour la partie BF issu du bloc 18 après passage dans le domaine fréquentiel par le bloc 20. Ces deux signaux résultants débruités sont combinés (bloc 22) de manière à opérer une reconstruction du spectre complet, HF + BF.
Très avantageusement, un traitement (monocanal) supplémentaire de dé- bruitage sélectif (bloc 24) est opéré sur le signal reconstruit correspondant. Le signal issu de ce traitement fait enfin l'objet d'une transformée de Fourier rapide inverse iFFT (bloc 26) pour repasser dans le domaine temporel.
Plus précisément, ce traitement de débruitage sélectif final consiste à ap- pliquer un gain variable propre à chaque bande de fréquence, ce débruitage étant également modulé par une probabilité de présence de parole. On peut avantageusement utiliser pour le débruitage du bloc 24 une méthode de type OM/LSA (Optimally Modified - Log Spectral Amplitude) telle que celle décrite par : [1] I. Cohen, "Optimal Speech Enhancement under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator", Signal Proc- essing Letters, IEEE, Vol. 9, No 4, pp. 113-116, Apr. 2002. Essentiellement, l'application d'un gain nommé "gain LSA" (Log-Spectral Amplitude) permet de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole originel. Ce second critère se montre supérieur au premier car la distance choisie est en meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats. Dans tous les cas, il s'agit de diminuer l'énergie des composantes fréquentielles très parasitées en leur appliquant un gain faible, tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout.
L'algorithme "OM-LSA" (Optimally-Modified LSA) améliore le calcul du gain LSA à appliquer en le pondérant par un probabilité conditionnelle de présence de parole SPP (Speech Presence Probability), qui intervient à deux niveaux : - pour l'estimation de l'énergie du bruit : la probabilité module le facteur d'oubli dans le sens d'une mise à jour plus rapide de l'estimation du bruit sur le signal bruité lorsque la probabilité de présence de parole est faible ; - pour le calcul du gain final : la réduction de bruit appliquée est d'autant plus importante (c'est-à-dire que le gain appliqué est d'autant plus fai- ble) que la probabilité de présence de parole est faible. La probabilité de présence de parole SPP est un paramètre pouvant prendre plusieurs valeurs différentes comprises entre 0 et 100 %. Ce paramètre est calculé selon une technique en elle-même connue, dont des exemples sont notamment exposés dans : [2] I. Cohen et B. Berdugo, "Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio", IEEE International Con ference on Acoustics, Speech and Signal Processing ICASSP 2003, Hong-Kong, pp. 233-236, Apr. 2003.
On pourra également se référer au WO 2007/099222 Al (Parrot), qui dé- crit une technique de débruitage mettant en oeuvre un calcul de probabilité de présence de parole.
Algorithme MMSE-STSA de débruitage HF (bloc 14) On va décrire un exemple de traitement de débruitage appliqué à la partie HF du spectre, par un estimateur MMSE-STSA opérant dans le domaine fréquentiel. Cette mise en oeuvre particulière n'est bien entendu pas limitative, d'autres techniques de débruitage pouvant être envisagées, dès lors qu'elles sont basées sur le caractère prédictible du signal utile d'un micro sur l'autre. En outre, ce débruitage HF n'est pas nécessairement opéré dans le domaine fréquentiel, il peut également être opéré dans le domaine tempo- rel, par des moyens équivalents. La technique proposée consiste à rechercher un "projecteur" linéaire optimal pour chaque fréquence, c'est-à-dire un opérateur correspondant à une transformation d'une pluralité de signaux (ceux recueillis concurrem- ment par les divers micros du sous-réseau R1) en un signal unique mono- canal. Cette projection, estimée par le bloc 28, est une projection linéaire "optimale" en ce sens que l'on cherche à ce que la composante de bruit résiduel sur le signal monocanal délivré en sortie soit minimisée et que la composante utile de parole soit la moins déformée possible. Cette optimisation implique de rechercher pour chaque fréquence un vecteur A tel que : - la projection AT X contienne le moins de bruit possible, c'est-à-dire que la puissance du bruit résiduel, qui vaut E[ArvvTA]=ATR. A soit minimisée, et - la voix du locuteur ne soit pas déformée, ce qui se traduit par la contrainte AT H= 1, où R, est la matrice de corrélation entre les mi- cros, pour chaque fréquence, et H est le canal acoustique considéré. Ce problème est un problème d'optimisation sous contrainte, à savoir la recherche de min(AT I?' A) sous la contrainte AT H= 1. Il peut être résolu en utilisant la méthode des multiplieurs de Lagrange, _ HT qui conduit à la solution : AT = HTeH Dans le cas où les fonctions de transfert H correspondent à un retard pur, on reconnait la formule du beamforming MVDR (Minimum Variance Dis- torsionless Response), aussi appelé beamforming de Capon. On notera que la puissance de bruit résiduel vaut, après projection 1, . HTR,7 H De plus, si l'on considère des estimateurs de type MMSE (Minimum Mean-Squared Error) sur l'amplitude et la phase du signal à chaque fré- quence, on constate que ces estimateurs s'écrivent comme un beamforming de Capon suivi d'un traitement monocanal de débruitage sélectif, comme cela a été exposé par : [3] R. C. Hendriks et al., On optimal multichannel mean-squared error estimators for speech enhancement, IEEE Signal Processing Letters, vol. 16, no. 10, 2009. Le traitement de débruitage sélectif du bruit, appliqué au signal monocanal résultant du traitement de beamforming, est avantageusement le traitement de type OM-LSA décrit plus haut, opéré par le bloc 24 sur le spectre complet après synthèse en 22.
La matrice interspectrale des bruits est estimée récursivement (bloc 32), en utilisant la probabilité de présence de parole SPP (bloc 34, voir plus haut) : Ebb(t) = clEbb(t - 1) + (1 - a)X(t)X(t)T ao + (1 - ao)SPP ao étant un facteur d'oubli. En ce qui concerne l'estimateur MVDR (bloc 28), sa mise en oeuvre impli- que une estimation des fonctions de transfert acoustiques Hi entre la source de parole et chacun des micros Mi (M1, M3 ou M4). Ces fonctions de transfert sont avantageusement évaluées par un estimateur de type LMS fréquentiel (bloc 30) recevant en entrée les signaux issus des différents micros et délivrant en sortie les estimées des diverses fonctions de transfert H. Il est également nécessaire d'estimer (bloc 32) la matrice de corrélation R, (matrice spectrale de covariance, également dénommée matrice interspectrale des bruits). Enfin, ces diverses estimations impliquent la connaissance d'une probabi- lité de présence de parole SPP, obtenue à partir du signal recueilli par l'un des micros (bloc 34).
On va maintenant décrire en détail la manière dont opère l'estimateur MMSE-STSA. Il s'agit de traiter les signaux multiples produits par les micros pour fournir un signal débruité unique qui soit le plus proche possible du signal de pa- role émis par le locuteur, c'est-à-dire : - contenant le moins de bruit possible, et - déformant le moins possible la voix du locuteur restituée en sortie. Sur le micro de rang i, le signal recueilli est : xi (t) = his s(t) b(t) où xi est le signal capté, hi est la réponse impulsionnelle entre la source de signal utile (signal de parole du locuteur) et le micro Mi, s est le signal utile produit par la source S et b est le bruit additif. Pour l'ensemble des micros, on peut utiliser la notation vectorielle : x( t )=- h -D ( t)+ b (t) Dans le domaine fréquentiel, cette expression devient (les majuscule représentant les transformées de Fourier correspondantes) : Xi(w) = Hi(w)S(w) Bi(w) On fera les hypothèses suivantes, pour toutes les fréquences co : - le signal S(w) est gaussien de moyenne nulle et de puissance spectrale - les bruits Bi(w) sont gaussiens de moyenne nulle et ont une matrice in- terspectrale (E[BBTD notée Ebb ; - le signal et les bruits considérés sont décorrélés, et chacun est décor- rélé lorsque les fréquences sont différentes. Comme cela a été indiqué plus haut, dans le cas multi-microphone l'estimateur MMSE-STSA se factorise en un beamforming MVDR (bloc 28) suivi d'un estimateur monocanal (l'algorithme OM/LSA du bloc 24).
Le beamforming MVDR s'écrit : HT Ejblx 11/117 D R(X) - T - 1 Ebb11 Le beamforming MVDR adaptatif exploite ainsi la cohérence du signal utile pour estimer une fonction de transfert H correspondant au canal acoustique entre le locuteur et chacun des micros du sous-réseau. Pour l'estimation de ce canal acoustique, on utilise un algorithme de type bloc-LMS dans le domaine fréquentiel (bloc 30) tel que celui décrit no- tamment par : [4] J. Prado and E. Moulines, Frequency-Domain Adaptive Filtering with Applications to Acoustic Echo Cancellation, Springer, Ed. An-nais of Telecommunications, 1994.
Les algorithmes de type LMS - ou NLMS (Normalized LMS) qui est une version normalisée du LMS - sont des algorithmes relativement simples et peu exigeants en termes de ressources de calcul. Pour un beamforming de type GSC (Generalized Sidelobe Canceller), cette approche est similaire à celle proposée par : [5] M.-S. Choi, C.-H. Baik, Y.-C. Park, and H.-G. Kang, "A Soft- Decision Adaptation Mode Controller for an Efficient FrequencyDomain Generalized Sidelobe Canceller," IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2007, Vol. 4, April 2007, pp. 1V-893-1V-896.
Le signal utile s(t) étant inconnu, on ne peut identifier H qu'à une fonction de transfert près. On choisit donc l'un des canaux comme référence de signal utile, par exemple le canal du micro Mi, et l'on calcule les fonctions de transfert 112 ... H, pour les autres canaux (ce qui revient à contraindre 111 = 1). Si le micro de référence choisi n'apporte pas de dégradation ma- jeure sur le signal utile, ce choix n'a pas d'influence notable sur les per- formances de l'algorithme. Comme illustré sur la figure, l'algorithme LMS vise (de façon connue) à estimer un filtre H (bloc 36) au moyen d'un algorithme adaptatif, correspondant au signal x, délivré par le micro Mi, en estimant le transfert de voix entre le micro Mi et le micro Mi (pris comme référence). La sortie du filtre 36 est soustraite en 38 au signal xi capté par le micro M1, pour donner un signal d'erreur de prédiction permettant l'adaptation itérative du filtre 36. Il est ainsi possible de prédire à partir du signal x, la composante de parole contenue dans le signal xi.
Pour éviter les problèmes liés à la causalité (c'est-à-dire pour être sûr que les signaux x, arrivent en avance par rapport à la référence xi), on retarde légèrement (bloc 40) le signal xi. Par ailleurs, on pondère en 42 le signal d'erreur du filtre adaptatif 36 par la probabilité de présence de parole SPP délivrée en sortie du bloc 34, de manière à ne procéder à l'adaptation du filtre que quand la probabilité de présence de parole est élevée. Cette pondération peut notamment être opérée par modification du pas d'adaptation de l'algorithme, en fonction de la probabilité SPP.
L'équation de mise à jour du filtre adaptatif est, pour le bin de fréquence k et pour le micro j: ili(t -1,k) + k)* i(t, k) - Hi(t - 1,k) Xi(t,k)) avec SPP(, k) 1213 E[iXi(k)12] étant l'indice temporel de la trame courante, po étant une constante choi- sie expérimentalement, et SPP étant la probabilité de présence de parole a posteriori, estimée comme indiqué plus haut (bloc 34). Le pas p d'adaptation de l'algorithme, modulé par la probabilité de présence de parole SPP, s'écrit sous forme normalisée du LMS (le dénominateur correspondant à la puissance spectrale du signal xi à la fréquence considérée) : E[)(1 L'hypothèse que les bruits sont décorrélés conduit à une prédiction de la voix, et non du bruit, par l'algorithme LMS, de sorte que la fonction de transfert estimé correspond effectivement au canal acoustique H entre le locuteur et les micros. Algorithme SDW-MWF de débruitage BF (bloc 18) On va décrire un exemple d'algorithme de débruitage du type SDW-MWF, opéré dans le domaine temporel, mais ce choix n'est pas limitatif, d'autres techniques de débruitage pouvant être envisagées, dès lors qu'elles sont basées sur la prédiction du bruit d'un micro sur l'autre. En outre, ce dé-bruitage BF n'est pas nécessairement opéré dans le domaine temporel, il peut également être opéré dans le domaine fréquentiel, par des moyens équivalents. La technique employée par l'invention est basée sur une prédiction du bruit d'un micro sur l'autre décrite, pour une aide auditive, par : [6] A. Spriet, M. Moonen, and J. Wouters, "Stochastic Gradient-Based Implementation of Spatially Preprocessed Speech Distortion Weighted Multichannel Wiener Filtering for Noise Reduction in Hearing Aids," IEEE Transactions on Signal Processing, Vol. 53, pp. 911-925, Mar. 2005. Chaque micro capte une composante de signal utile et une composante de bruit. Pour le micro de rang i, on a : x1(t) = si(t) b(t) s, étant la com- posante du signal utile et b, la composante de bruit. Si l'on souhaite esti- mer une version du signal utile présente sur un micro k par un estimateur des moindres carrés linéaires, ceci revient à estimer un filtre W de taille ML tel que : = min E[Isk(t)- wTx(t)121 où : xi(t) est le vecteur [xi(t - L 1) ... xi (t)]T et x(t) = [xi (t)T x2(t)T xm(t)T1T. La solution est donnée par le filtre de Wiener : -1 x(t)x(t)T] x (t)sk (t)] Dans la mesure où, comme on l'a expliqué en introduction, pour la partie BF du spectre on cherche à estimer le bruit et non plus le signal utile, on obtient : min E lb (t) « wrx(t)12 2 9924 59 20 Cette prédiction du bruit présent sur un micro est opérée à partir du bruit présent sur tous les micros considérés du second sous-réseau R2, et ceci dans les périodes de silence du locuteur, où seul le bruit est présent. La technique utilisée est voisine de celle du débruitage ANC (Adaptative 5 Noise Cancellation), en utilisant plusieurs micros pour la prédiction et en incluant dans le filtrage un micro de référence (par exemple le micro Ml). La technique ANC est exposée notamment par : [7] B. Widrow, J. Glover, J.R., J. McCool, J. Kaunitz, C. Williams, R. Hearn, J. Zeidler, J. Eugene Dong, and R. Goodlin, "Adaptive Noise 10 Cancelling : Principles and applications," Proceedings of the IEEE, Vol. 63, No. 12, pp. 1692-1716, Dec. 1975. Comme illustré sur la Figure 3, le filtre de Wiener (bloc 44) fournit une prédiction du bruit qui est soustraite en 46 du signal recueilli, non débruité, après application d'un retard (bloc 48) pour éviter les problèmes de causa- 15 lité. Le filtre de Wiener 44 est paramétré par un coefficient p (schématisé en 50) qui détermine une pondération ajustable entre, d'une part, la distorsion introduite par le traitement sur le signal vocal débruité et, d'autre part, le niveau de bruit résiduel. Dans le cas d'un signal recueilli par un plus grand nombre de micros, la 20 généralisation de ce schéma de la prédiction de bruit pondéré est donnée Figure 4. Le signal estimé étant : T (t) = x k (t) -W11), x(t) la solution est donnée, de la même façon que précédemment, par le filtre 25 de Wiener : E [x(t)bk(t) Le signal estimé est alors rigoureusement le même, car on peut prouver que v^rk wbk = ek , avec ek = [0 0 ... 1 01T- position k Le filtre de Wiener utilisé est avantageusement un filtre de Wiener pondé- ré (SDW-MVF), pour prendre en compte non seulement l'énergie du bruit à éliminer par le filtrage, mais également la distorsion introduite par ce filtrage et qu'il convient de minimiser. -1 x(t)x(t) Dans le cas du filtre de Wiener Wic la "fonction de coût" peut être séparée en deux, l'écart quadratique moyen pouvant s'écrire comme la somme de deux termes : E [is k (t) - wT x(t)I2] = Ensk(t) _ wT s(t)12] E [IwT b(t)12] e' où : si(t) est le vecteur [si(t - L 1) ... si (t)]T - s (t) [si (t)T s2(t)T sm (t)TF - b1 (t) est le vecteur rbi(t - L 1) . b(t)1T et - b(t) = [bi (t)T b2(t)T bm (t)27 - es est la distorsion introduite par le filtrage sur le signal utile, et - eb est le bruit résiduel après filtrage. Il est possible de pondérer ces deux erreurs es et eb selon que l'on privilé- gie la réduction de distorsion ou bien la réduction du bruit résiduel. En invoquant la décorrélation entre bruit et signal utile, le problème devient : Wkr = Etin [E [isk (t) - wils(t)12]] [ti,E [IwTh(t)12]] avec pour solution : Wicr = [E [s(t)s(t)T] p E [b(t)b(t)T1 1 E [s(t) s k(t)] l'indice ".," indiquant que l'on régularise la fonction de coût pour pondérer selon la distorsion, et it étant un paramètre ajustable : - plus p est grand, plus l'on privilégie la réduction du bruit, mais au prix d'une distorsion plus importante sur le signal utile ; - si p est nul, aucune importance n'est accordée à la réduction du bruit, et la sortie vaut xk(t) car les coefficients du filtre sont nuls ; - si p est infini, les coefficients du filtre sont nuls à l'exception du terme en position k*L (L étant la longueur du filtre) qui vaut 1, la sortie vaut donc zéro. Pour le filtre dual Wbk , le problème peut se réécrire : w. = min [E [ibk (t) wT b(t) [E [IwTs(t) avec pour solution : = [-1 E[s(t)s(t)T] E[b(t)b(t)1 1E [b(t)bk(t)] On démontre également que le signal de sortie est le même quelle que soit l'approche utilisée.
Ce filtre est mis en oeuvre de manière adaptative, par un algorithme de descente de gradient tel que celui exposé dans l'article [6] précité. Le schéma est celui illustré Figures 3 et 4. Pour la mise en oeuvre de ce filtre, il est nécessaire d'estimer les matrices Rs = E[s(t)s(t)T] , Rb = E[b(t)b(t)T], le vecteur E[b(t)bk(t)] ainsi que les paramètres L (la longueur souhaitée pour le filtre) et p (qui ajuste la pondération entre réduction de bruit et distorsion). Si l'on suppose que l'on dispose d'un détecteur d'activité vocale (qui permet de discriminer entre phases de parole du locuteur et phases de silence) et que le bruit b(t) est stationnaire, on peut estimer Rb durant les phases de silence, où seul le bruit est capté par les micros. Pendant ces phases de silence, on estime la matrice Rb au fil de l'eau : ARb(t - 1) + (1 Mx(t)x(t)T s'il n'y a pas de parole Rb(t) - Rb(t - sinon X étant un facteur d'oubli.
On peut estimerE[b(t)bk(t)], ou remarquer que c'est une colonne de Rb. Pour estimer Its, on invoque la décorrélation du bruit et du signal utile. Si l'on note R, = E[x(t)x(t)T1, on peut alors écrire : Rx = Rs + Rb - On peut estimer 12., de la même façon que Rb, mais sans condition sur la présence de parole : R( t) = - 1) + (1 - A)x(t)x(t)T ce qui permet de déduire R3(t) = R(t) - Rb(t). En ce qui concerne la longueur L du filtre, ce paramètre doit correspondre à une réalité spatiale et temporelle, avec un nombre de coefficients suffi- sant pour prédire le bruit temporellement (cohérence temporelle du bruit) et spatialement (transfert spatial entre les micros). Le paramètre p est ajusté expérimentalement, en l'augmentant jusqu'à ce que la distorsion sur la voix devienne perceptible à l'oreille.
Ces estimateurs sont utilisés pour opérer une descente de gradient sur la fonction de coût suivante : .1- kr = [lb k (t) - WT b (i) _E[IwT s(t) Le gradient de cette fonction vaut : (5J I, 2 ± pll. 2p,E b(t ) bk (t)] D'où l'équation de mise à jour : w(t) = w(t - 1) - où a est un pas d'adaptation proportionnel à 3cTx
Claims (14)
- REVENDICATIONS1. Un procédé de débruitage d'un signal acoustique bruité pour un dispositif audio multi-microphone opérant dans un milieu bruité, le signal acoustique bruité comprenant une composante utile issue d'une source de parole et une composante parasite de bruit, ledit dispositif comprenant un réseau de capteurs formé d'une pluralité de capteurs microphoniques (M1 ... M4) disposés selon une configuration prédéterminée et aptes à recueillir le signal bruité, caractérisé en ce qu'il comporte les étapes suivantes : a) partition du spectre du signal bruité en une partie haute fréquence (HF) et une partie basse fréquence (BF) distinctes, par filtrage (10, 16) respectivement au-delà et en-deçà d'une fréquence pivot prédéterminée, les capteurs étant regroupés en un premier (R1) et un second (R2) sous-réseau correspondant chacun à l'une des parties respectives haute fréquence et basse fréquence du spectre ; b) traitements de débruitage opérés de façon différenciée pour chacune des deux parties du spectre, avec : b1) pour la partie haute fréquence, un débruitage exploitant le caractère prédictible du signal utile d'un capteur sur l'autre entre cap- teurs du premier sous-réseau, au moyen d'un premier estimateur (14) à algorithme adaptatif, b2) pour la partie basse fréquence, un débruitage par prédiction du bruit d'un capteur sur l'autre entre capteurs du second sous-réseau, au moyen d'un second estimateur (18) à algorithme adaptatif ; et c) reconstruction du spectre par combinaison (22) des signaux délivrés après les traitements de débruitage respectifs des deux parties du spectre aux étapes b1) et b2).
- 2. Le procédé de la revendication 1, dans lequel le premier sous-réseau de capteurs (R1), correspondant à la partie haute fréquence du spectre, comprend un réseau linaire d'au moins deux capteurs (Mt M3, M4) alignés perpendiculairement à la direction (A) de la source de parole.
- 3. Le procédé de la revendication 1, dans lequel le second sous-réseau de capteurs (R2), correspondant à la partie basse fréquence du spectre, comprend un réseau linaire d'au moins deux capteurs (Mi, M2) alignés parallèlement à la direction (A) de la source de parole.
- 4. Le procédé de la revendication 2, dans lequel les capteurs (M1, M3, M4) du premier sous-réseau de capteurs (R1) sont des capteurs unidirectionnels orientés dans la direction (A) de la source de parole.
- 5. Le procédé de la revendication 2, dans lequel le traitement de débrui- tage de la partie haute fréquence du spectre à l'étape b1) est opéré de façon différenciée pour une bande inférieure et une bande supérieure de cette partie haute fréquence, avec sélection de capteurs différents parmi les capteurs du premier sous-réseau (R1), la distance entre les capteurs (M1, M4) sélectionnés pour le débruitage de la bande supérieure étant plus réduite que celle des capteurs (M3, M4) sélectionnés pour le débruitage de la bande inférieure.
- 6. Le procédé de la revendication 1 comprenant en outre, après l'étape c) de reconstruction du spectre, une étape de : d) réduction sélective du bruit (24) par un traitement de type gain à amplitude log-spectrale modifié optimisé, OM-LSA, à partir du signal reconstruit produit à l'étape c) et d'une probabilité de présence de parole.
- 7. Le procédé de la revendication 1 dans lequel l'étape b1) de débruitage de la partie haute fréquence, exploitant le caractère prédictible du signal utile d'un capteur sur l'autre, est opérée dans le domaine fréquentiel.
- 8. Le procédé de la revendication 7 dans lequel l'étape b1) de débruitage de la partie haute fréquence, exploitant le caractère prédictible du signal utile d'un capteur sur l'autre, est opérée par : b11) estimation (34) d'une probabilité de présence de parole (SPP) dans le signal bruité recueilli ;b12) estimation (32) d'une matrice spectrale de covariance des bruits recueillis par les capteurs du premier sous-réseau, cette estimation étant modulée par la probabilité de présence de parole ; b13) estimation (30) de la fonction de transfert des canaux acoustiques entre la source de parole et au moins certains des capteurs du pre- mier sous-réseau, cette estimation étant opérée par rapport à une référence de signal utile constituée par le signal recueilli par l'un des capteurs du premier sous-réseau, et étant en outre modulée par la probabilité de présence de parole ; et b14) calcul (28) d'un projecteur linéaire optimal donnant un signal com- biné débruité unique à partir des signaux recueillis par au moins certains des capteurs du premier sous-réseau, de la matrice spectrale de covariance estimée à l'étape b12), et des fonctions de transfert estimées à l'étape b13).
- 9. Le procédé de la revendication 8, dans lequel l'étape b14) de calcul d'un projecteur linéaire optimal (28) est mise en oeuvre par un estimateur de type beamforming à réponse sans distorsion à variance minimale, MVDR.
- 10. Le procédé de la revendication 9, dans lequel l'étape b13) d'estimation de la fonction de transfert des canaux acoustiques (30) est mise en oeuvre par un filtre adaptatif (36, 38, 40) à prédiction linéaire de type moindres carrés moyens, LMS, avec modulation (42) par la probabilité de présence de parole.
- 11. Le procédé de la revendication 10, dans lequel ladite modulation par la probabilité de présence de parole est une modulation par variation du pas d'itération du filtre adaptatif LMS.
- 12. Le procédé de la revendication 1 dans lequel, pour le débruitage de la partie basse fréquence à l'étape b2), la prédiction du bruit d'un capteur sur l'autre est opérée dans le domaine temporel.
- 13. Le procédé de la revendication 12, dans lequel la prédiction du bruit d'un capteur sur l'autre est mise en oeuvre par un filtre (44, 46, 48) de type filtre de Wiener multicanal avec pondération par la distorsion de la parole, SDW-MWF.
- 14. Le procédé de la revendication 13, dans lequel le filtre SDW-MWF est estimé de manière adaptative par un algorithme de descente de gradient.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1256049A FR2992459B1 (fr) | 2012-06-26 | 2012-06-26 | Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite. |
US13/915,298 US9338547B2 (en) | 2012-06-26 | 2013-06-11 | Method for denoising an acoustic signal for a multi-microphone audio device operating in a noisy environment |
EP13171948.6A EP2680262B1 (fr) | 2012-06-26 | 2013-06-14 | Procédé de débruitage d'un signal acoustique pour un dispositif audio multi-microphone opérant dans un milieu bruité |
CN201310256621.1A CN103517185B (zh) | 2012-06-26 | 2013-06-25 | 对在嘈杂环境中操作的多话筒音频设备的声信号降噪的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1256049A FR2992459B1 (fr) | 2012-06-26 | 2012-06-26 | Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite. |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2992459A1 true FR2992459A1 (fr) | 2013-12-27 |
FR2992459B1 FR2992459B1 (fr) | 2014-08-15 |
Family
ID=47227906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1256049A Expired - Fee Related FR2992459B1 (fr) | 2012-06-26 | 2012-06-26 | Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite. |
Country Status (4)
Country | Link |
---|---|
US (1) | US9338547B2 (fr) |
EP (1) | EP2680262B1 (fr) |
CN (1) | CN103517185B (fr) |
FR (1) | FR2992459B1 (fr) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103329566A (zh) * | 2010-12-20 | 2013-09-25 | 峰力公司 | 用于房间中的语音增强的方法和系统 |
ES2727786T3 (es) * | 2012-05-31 | 2019-10-18 | Univ Mississippi | Sistemas y métodos para detectar señales acústicas transitorias |
JP6349899B2 (ja) * | 2014-04-14 | 2018-07-04 | ヤマハ株式会社 | 放収音装置 |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
US10242690B2 (en) | 2014-12-12 | 2019-03-26 | Nuance Communications, Inc. | System and method for speech enhancement using a coherent to diffuse sound ratio |
WO2016179211A1 (fr) * | 2015-05-04 | 2016-11-10 | Rensselaer Polytechnic Institute | Système de réseau de microphones coprimaires |
US9691238B2 (en) * | 2015-07-29 | 2017-06-27 | Immersion Corporation | Crowd-based haptics |
EP3171613A1 (fr) * | 2015-11-20 | 2017-05-24 | Harman Becker Automotive Systems GmbH | Amélioration audio |
DE102015016380B4 (de) * | 2015-12-16 | 2023-10-05 | e.solutions GmbH | Technik zum Unterdrücken akustischer Störsignale |
CN107045874B (zh) * | 2016-02-05 | 2021-03-02 | 深圳市潮流网络技术有限公司 | 一种基于相关性的非线性语音增强方法 |
CN106289506B (zh) * | 2016-09-06 | 2019-03-05 | 大连理工大学 | 一种使用pod分解法消除流场壁面麦克风阵列噪声信号的方法 |
US9906859B1 (en) * | 2016-09-30 | 2018-02-27 | Bose Corporation | Noise estimation for dynamic sound adjustment |
DE112017006486T5 (de) * | 2016-12-23 | 2019-09-12 | Synaptics Incorporated | Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen |
CN107910011B (zh) * | 2017-12-28 | 2021-05-04 | 科大讯飞股份有限公司 | 一种语音降噪方法、装置、服务器及存储介质 |
CN108074585A (zh) * | 2018-02-08 | 2018-05-25 | 河海大学常州校区 | 一种基于声源特征的语音异常检测方法 |
CN108449687B (zh) * | 2018-03-13 | 2019-04-26 | 江苏华腾智能科技有限公司 | 一种多麦克风阵列降噪的会议系统 |
CN108564963B (zh) * | 2018-04-23 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于增强语音的方法和装置 |
CN108831495B (zh) * | 2018-06-04 | 2022-11-29 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
US11900730B2 (en) * | 2019-12-18 | 2024-02-13 | Cirrus Logic Inc. | Biometric identification |
CN111028857B (zh) * | 2019-12-27 | 2024-01-19 | 宁波蛙声科技有限公司 | 基于深度学习的多通道音视频会议降噪的方法及系统 |
TWI789577B (zh) * | 2020-04-01 | 2023-01-11 | 同響科技股份有限公司 | 音訊資料重建方法及系統 |
CN114822571A (zh) * | 2021-04-25 | 2022-07-29 | 美的集团(上海)有限公司 | 一种回声消除方法、装置、电子设备和存储介质 |
CN115223582B (zh) * | 2021-12-16 | 2024-01-30 | 广州汽车集团股份有限公司 | 一种音频的噪声处理方法、系统、电子装置及介质 |
US11948547B2 (en) * | 2021-12-17 | 2024-04-02 | Hyundai Motor Company | Information quantity-based reference sensor selection and active noise control using the same |
CN115840120B (zh) * | 2023-02-24 | 2023-04-28 | 山东科华电力技术有限公司 | 一种高压电缆局放异常监测及预警方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030040908A1 (en) * | 2001-02-12 | 2003-02-27 | Fortemedia, Inc. | Noise suppression for speech signal in an automobile |
EP1640971A1 (fr) * | 2004-09-23 | 2006-03-29 | Harman Becker Automotive Systems GmbH | Traitement adaptatif d'un signal de parole multicanaux avec suppression du bruit |
WO2008104446A2 (fr) * | 2008-02-05 | 2008-09-04 | Phonak Ag | Procédé de réduction de bruit dans un signal d'entrée d'un dispositif auditif et dispositif auditif |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8280072B2 (en) * | 2003-03-27 | 2012-10-02 | Aliphcom, Inc. | Microphone array with rear venting |
CN100571295C (zh) * | 2005-08-02 | 2009-12-16 | 明基电通股份有限公司 | 一种可降低麦克风噪声的移动装置和方法 |
US8488803B2 (en) * | 2007-05-25 | 2013-07-16 | Aliphcom | Wind suppression/replacement component for use with electronic systems |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
FR2945696B1 (fr) * | 2009-05-14 | 2012-02-24 | Parrot | Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite. |
KR101782050B1 (ko) * | 2010-09-17 | 2017-09-28 | 삼성전자주식회사 | 비등간격으로 배치된 마이크로폰을 이용한 음질 향상 장치 및 방법 |
FR2976710B1 (fr) * | 2011-06-20 | 2013-07-05 | Parrot | Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres" |
-
2012
- 2012-06-26 FR FR1256049A patent/FR2992459B1/fr not_active Expired - Fee Related
-
2013
- 2013-06-11 US US13/915,298 patent/US9338547B2/en active Active
- 2013-06-14 EP EP13171948.6A patent/EP2680262B1/fr active Active
- 2013-06-25 CN CN201310256621.1A patent/CN103517185B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030040908A1 (en) * | 2001-02-12 | 2003-02-27 | Fortemedia, Inc. | Noise suppression for speech signal in an automobile |
EP1640971A1 (fr) * | 2004-09-23 | 2006-03-29 | Harman Becker Automotive Systems GmbH | Traitement adaptatif d'un signal de parole multicanaux avec suppression du bruit |
WO2008104446A2 (fr) * | 2008-02-05 | 2008-09-04 | Phonak Ag | Procédé de réduction de bruit dans un signal d'entrée d'un dispositif auditif et dispositif auditif |
Non-Patent Citations (1)
Title |
---|
MCCOWAN I A ET AL: "Adaptive parameter compensation for robust hands-free speech recognition using a dual beamforming microphone array", 2 May 2001, INTELLIGENT MULTIMEDIA, VIDEO AND SPEECH PROCESSING, 2001. PROCEEDINGS OF 2001 INTERNATIONAL SYMPOSIUM ON 2-4 MAY 2001, PISCATAWAY, NJ, USA,IEEE, PAGE(S) 547 - 550, ISBN: 978-962-85766-2-3, XP010544783 * |
Also Published As
Publication number | Publication date |
---|---|
CN103517185B (zh) | 2018-09-21 |
FR2992459B1 (fr) | 2014-08-15 |
US9338547B2 (en) | 2016-05-10 |
EP2680262A1 (fr) | 2014-01-01 |
CN103517185A (zh) | 2014-01-15 |
EP2680262B1 (fr) | 2015-05-13 |
US20130343558A1 (en) | 2013-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2680262B1 (fr) | Procédé de débruitage d'un signal acoustique pour un dispositif audio multi-microphone opérant dans un milieu bruité | |
EP2538409B1 (fr) | Procédé de débruitage pour équipement audio multi-microphones, notamment pour un système de téléphonie "mains libres" | |
EP2530673B1 (fr) | Equipement audio comprenant des moyens de débruitage d'un signal de parole par filtrage à délai fractionnaire | |
EP2518724B1 (fr) | Combiné audio micro/casque comprenant des moyens de débruitage d'un signal de parole proche, notamment pour un système de téléphonie "mains libres" | |
EP2309499B1 (fr) | Procédé de filtrage optimisé des bruits non stationnaires captés par un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile | |
EP2293594B1 (fr) | Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile | |
EP2122607B1 (fr) | Procede de reduction active d'une nuisance sonore | |
EP1509065A1 (fr) | Procédé de traitement de signaux audio | |
EP2772916B1 (fr) | Procédé de débruitage d'un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement | |
FR2700055A1 (fr) | Procédé de débruitage vectoriel de la parole et dispositif de mise en Óoeuvre. | |
EP1438870A1 (fr) | Methode et systeme d'elimination d'interference pour antenne multicapteur | |
WO2008049982A1 (fr) | Procédé de réduction de l'écho acoustique résiduel après suppression d'écho dans un dispositif 'mains libres' | |
CN110310651B (zh) | 波束形成的自适应语音处理方法、移动终端及存储介质 | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
WO2020118290A1 (fr) | Système et procédé de localisation acoustique de sources multiples à l'aide d'un pré-filtrage spatial | |
EP0884926A1 (fr) | Procédé et dispositif de traitement optimisé d'un signal perturbateur lors d'une prise de son | |
FR2906070A1 (fr) | Reduction de bruit multi-reference pour des applications vocales en environnement automobile | |
EP3559947A1 (fr) | Traitement en sous-bandes d'un contenu ambisonique réel pour un décodage perfectionné | |
EP3025342A1 (fr) | Procédé de suppression de la réverbération tardive d'un signal sonore | |
WO2017207286A1 (fr) | Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise | |
EP1155497B1 (fr) | Procede et systeme de traitement de signaux d'antenne | |
EP4315328A1 (fr) | Estimation d'un masque optimise pour le traitement de donnees sonores acquises | |
KR20190136841A (ko) | 다중 마이크로폰을 가진 디지털 보청기 | |
FR2828326A1 (fr) | Procede et dispositif de reduction d'echo a la prise de son |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 4 |
|
TP | Transmission of property |
Owner name: PARROT AUTOMOTIVE, FR Effective date: 20151201 |
|
ST | Notification of lapse |
Effective date: 20170228 |