CA2304571A1 - Procede de debruitage d'un signal de parole numerique - Google Patents

Procede de debruitage d'un signal de parole numerique Download PDF

Info

Publication number
CA2304571A1
CA2304571A1 CA002304571A CA2304571A CA2304571A1 CA 2304571 A1 CA2304571 A1 CA 2304571A1 CA 002304571 A CA002304571 A CA 002304571A CA 2304571 A CA2304571 A CA 2304571A CA 2304571 A1 CA2304571 A1 CA 2304571A1
Authority
CA
Canada
Prior art keywords
signal
spectral
frame
speech signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
CA002304571A
Other languages
English (en)
Inventor
Philip Lockwood
Stephane Lubiarz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CA2304571A1 publication Critical patent/CA2304571A1/fr
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

On effectue une soustraction spectrale comportant: une première étape de soustraction dans laquelle on tient compte d'estimations majorées (B'n,i) des composantes spectrales du bruit, de manière à obtenir des composantes spectrales (S2n,f) d'un premier signal débruité; le calcul d'une courbe de masquage (Mn,q) en appliquant un modèle de perception auditive à partir des composantes spectrales du premier signal débruité; et une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale du signal de parole sur la trame, une quantité dépendant de paramètres incluant un écart entre l'estimation majorée de la composante spectrale correspondante du bruit et la courbe de masquage calculée. On applique au résultat de la soustraction spectrale une tranformation vers le domaine temporel pour construire un signal de parole débruité.

Description

' WO 99/14738 ~ PCT/FR98/01980 PROCEDE DE DEBRUITAGE D'UN SIGNAL DE PAROLE NUMERIQUE
La prsnte invention concerne les techniques numriques de dbruitage de signaux de parole. Elle concerne plus particulirement le dbruitage par ' S soustraction spectrale non linaire.

Du fait de la gnralisation des nouvelles formes de communication, en particulier des tlphones mobiles, les communications. se font de plus en plus dans des ambiances fortement bruites. Le bruit, additionn la parole, a alors tendance perturber les communications en empchant une compression optimale du signal de parole et en crant un bruit de. fond non naturel. D'autre part, le bruit rend difficile et fatigante la comprhensior_ du message parl.

De nombreux algorithmes ont t tudis pour essayer de diminuer les effets du bruit dans une communication. S. F. Boll (Suppression of acoustic noise in speech using spectral subtraction , IEEE Trans. on Acoustics, Speech-and Signa-1 Processing , Vol. ASSP-27, n 2, avril 1979) a propos un algorithme bas sur la soustraction spectrale. Cette technique consiste estimer le spectre du bruit pendant les phases de silence et le soustraire du signal reu. Elle permet une rduction du niveau de bruit reu.~Son principal dfaut est de crer un bruit musical particulirement gnant, car non naturel.

Ces travaux, repris et amliors par D. B. Paul ( The spectral enveloppe estimation vocoder , IEEE

Trans. on Acoustics, Speech and Signal Processing , Vol.

ASSP-29, n 4, aot 1981) et par P. Lockwood et J. Boudy ( Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars , Speech Communication, Vol. 11, juin 1992, pages 215-228, et EP-A-0 534 837) ont permis de diminuer sensiblement le niveau de bruit tout en lui conservant un caractre naturel. De plus, cette contribution a eu le mrite d'incorporer pour la premire fois le principe de masquage dans le calcul du filtre de dbruitage. A partir de cette ide, une premire tentative WO 99/14738 PC'~'/FR98/01980 '
- 2 -a été faite par S. Nandkumar et J. H. L. hansen (« Speech enhancement on a new set of auditory constrained parameters », Proc. ICASSP 94, pages I.1-I.4) pour ' utiliser dans la soustraction spectrale des courbes de masquage calculées explicitement. Malgré les résultats décevants de cette technique, cette contribution a eu le mérite de mettre l'accent sur l'importance de ne pas dénaturer le signal de parole pendant le débruitage.
D'autres méthodes basées sur la décomposition du 1~ signal de parole en valeurs singulières, et donc sur une projection du signal de parole dans un espace pl~,~s réduit, cr_t été étudiées par Eart De Moore (« The singuïar vaïue decomposition and long and short spaces c~ noise matrices », IEEE Trans. on Signal Processing, Vo'._. 41, n°
5 9, septembre 1 993, pages 2826-2838) et par S. ~ï. Jensen et al (« Reduction of broad-band noise in speech by truncated QSVD », IEEE Trans. on Speech and Audio Processing, Vol.
3, n° 6, novembre 1995). Le principe de cette technique est de considérer le signal de parole et le signal de 20 bruit comme totalement décorrélés, et de considérer que le signal de parole a une prédictibilité suffisante pour être prédit à partir d'un jeu restreint de paramètres. Cette technique permet d'obtenir un débruitage acceptable pour des signaux fortement voisés, mais dénature totalement le 25 signal de parole. Face à un bruit relativement cohérent, tel que celui provoqué par le contact de pneus de voitures ou le cliquetis d'un moteur, le bruit peut s'avérer plus facilement prédictible que le signal de parole non voisé.
On a alors tendance à projeter le signal de parole dans 30 une partie de l'espace vectoriel du bruit. La méthode ne tient pas compte du signal de parole, en particulier des zones de parole non voisée où la prédictibilité est réduite. De plus, prédire le signal de parole à partir d'un jeu de paramètres réduit ne permet pas de prendre en 35 compte toute la richesse intrinsèque de la parole. On comprend ici les limites de techniques basées uniquement sur des considérations mathématiques en oubliant le caractère particulier de la parole.

CA 02304571 2000-03-15~ ~ ~~
Jv,~~~ 1Wv WO 99/14738 ~, Q, ~~ ~ ~. ~ . PCT1FR98/01980 _ 3 _ ~ ~,~~ 11 u~~t~r\~1~~
D'autres techniques enfin sont basées sur des critères de cohérence. La fonction de cohérence est particulièrement bien développée par J. A. Cadzow et 0. M.
Solomon (« Linear modeling and the coherence fonction », IEEE Trans. on Acoustics, Speech and Signal Processirg, Vol. ASSF-35, n° 1, janvier 1987, pages 19-28), et son application au débrui tape a été étudiée par R. Le Bouquin (« E.~.hancement of noisy speech signals . application to mobile radio communications », Speech Communication, Vol.
'_': 18, nages 3-19). Cette méthode se base sur le fait que le signal de parole a une cohérence nettement plus importante . que le .~''.rlaiL à C'J:~di tion d' u~i 1 ise= plusieurs canaux indépendants. Les résultats obtenus se_Tnblent étre assez e..~.cou=ageants . Mais malheureusement, cette technicue 1~ impose d'avoir plusieurs sources de prise de son, ce qui r.' est pas toujours réalisé.
Un but principal de la présente invention est de proposer une nouvelle technique de débruitage qui prenne en compte les caractéristiques de perception de la parole 20 par l'oreille humaine, permettant ainsi un débruitage e'ficace sans détériorer la perception de la parole.
L'invention propose ainsi u_n procédé de débruitage d'un signal de parole numérique traité par trames successives, dans lequel .
25 - on calcule des composantes spectrales du signal de parole sur chaque trame ;
- on calcule pour chaque:-trame des estimations majorées de composantes spectrales du bruit compris dans le signal de parole ;
30 - on effectue fuie soustraction spectrale comportant au moins une première étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale du signal de parole sur la trame, une première quantité dépendant de paramètres incluant 35 l'estimation majorée de la composante spectrale correspondante du bruit pour ladite trame, de manière à
obtenir des composantes spectrales d'un premier signal débruitP,~

r.

WO 99/1d738 ~ PCT/FR98/01980
- 4 -appliquer" au résultat de la soustraction.
spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité.
Selon l'invention, la soustraction spectrale comporte en outre les étapes suivantes .
- le calcul d'une courbe de masquage en appliquant un modèle de perception auditive à partir des composantes spectrales du premier signal débruité ;
- la comparaison des estimations majorées des composantes spectrales d:: bruit pour la trame à 1a courbe de masquage calculée ; et - une seconde étape d2 soustraction dar_s laquelle on soustrait respectivement, de chaque composante spectrale du signal de parole sur la trame, une seconde _3 quantité dépendant de paramètres incluant un éca=t entre l'estimation majorée de la composante spectrale correspondante du bruit et la courbe de masquage calculée.
La seconde quantité soustraite peut notamment être limitée à la fraction de l'estimation majorée de la composante spectrale correspondante du bruit a_ui dépasse 1a courbe de masquage. Cette façon de procéder repose sur l'observation qu'il suffit de débruiter les fréquences de bruit audibles. A contrario, il ne sert à rien d'éliminer du bruit qui est masqué par de la parole.
La surestimation de l'enveloppe spectrale du bruit est généralement souhaitable pour que l'estimation majorée ainsi obtenue-soit robuste aux brusques variations du bruit. Néanmoins, cette surestimation a habituellement l'inconvénient de distordre le signal de parole lorsqu'elle devient trop importante. Ceci a pour effet d'affecter le caractère voisé du signal de parole en supprimant une partie de sa prédictibilité. Cet inconvénient est très génant dans les conditions de la téléphonie, car c'est pendant les zones de voisement que le signal de parole est alors le plus énergétique. En limitant la quantité soustraite lorsque la totalité ou une partie d'une composante fréquentielle du bruit surestimé

' WO 99/14738 ~ PCT/FR98/01980
- 5 -s'avère être masquée par la parole, l'invention permet d'atténuer fortement cet inconvénient.
D'autres particularités et avantages de la présente invention apparaîtront dans la description ci après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels .
- la figure 1 est un schéma synoptique d'un système de débruitage mettant en oeuvre la présente invention ; .
ï0 ~ - les figures 2 et 3 sont des organigrammes de procédures utilisées par un détecteur d'activité vocale du système de ia.figure 1 la figure 4 est un diagramme représentant les états d'un automate de détection. d'activité vocale - la figure 5 est un graphique illustrant les variations d'un degré d'activité vocale - la figure 6 est un schéma synoptique d'un module de surestimation du bruit du système de la figure 1 ;
- la figure 7 est un graphique illustrant le calcul d'une courbe de masquage ;
- la figure 8 est un graphique illustrant l'exploitation des courbes de masquage dans le système de la figure 1 ;
- la figure 9 est un schéma synoptique d' un autre système de débruitage mettant en oeuvre la présente invention ;
- la figure 10 est un graphique illustrant une méthode d'analyse harmonique utilisable dans un procédé
selon l'invention ~ et - la figure 11 montre partiellement une variante du schéma synoptique de la figure 9.
Le système de débruitage représenté sur la figure 1 traite un signal numérique de parole s. Un module de fenêtrage 10 met ce signal s sous forme de fenêtres ou trames successives, constituées chacune d'un nombre N
d'échantillons de signal numérique. De façon classique, ces trames peuvent présenter des recouvrements mutuels.
Dans la suite de la présente description, on considérera, WO 99/14738 PCT/FR98/01980 '
- 6 -sans que ceci soit limitatif, que les trames sont constituées de N=256 échantillons à une fréquence d'échantillonnage Fe de 8 kHz, avec une pondération de Hamming dans chaque fenêtre, et des recouvrements de 50$
entre fenêtres consécutives.
La trame de signal est transformée dans le domaine fréquentiel par un module 11 appliquant un algorithme classique de transformée de Fourier rapide (TFR) pour calculer le module du spectre du signal. Le module 11 délivre alors un ensemble de N=256 composantes fréquentielles du sigr_al de parole, notées Sn~f, où n désigne le numéro de la trame courante, et f une fréquence du spectre discret. Du fait des propriétés des signaux numériques dans le domaine fréquentiel, seuls les N/2=128 premiers échantillons sont utilisés.
Pour calculer les estimations du bruit contenu dans le signal s, on n'utilise pas la résolution fréquentielle disponible en sortie de la transformée de Fourier rapide, mais une résolution plus faible, déterminée par un nombre I de bandes de fréquences couvrant la bande [O,Fe/2] du signal. Chaque bande i ( 1 <_ i S I ) s' étend entre une fréquence inférieure f ( i-1 ) et une fréquence supérieure f ( i ) , avec f ( 0 ) =0, et f ( I ) =Fe/2 .
Ce découpage en bandes de fréquences peut être uniforme (f(i)-f(i-1)=Fe/2I). Il peut également être non uniforme (par exemple selon une échelle de barks). Un module 12 calcule les moyennes respectives des composantes spectrales Sn~f du signal de parole par bandes, par exemple par une pondération uniforme telle que .

3 0 Sn~i = f(~) - f(i-1) ~ Sn~~- ( 1 ) f e~f(i-1) , f(i)~
Ce moyennage diminue les fluctuations entre les ' bandes en moyennant les contributions du bruit dans ces bandes, ce qui diminuera la variance de l'estimateur de bruit. En outre, ce moyennage permet une forte diminution de la complexité du système.

' WO 99/14738 . PCT/FR98/01980 _ 7 _ Les composantes spectrales moyennées Sn~i sont adressées à un module 15 de détection d'activité vocale et ' à un module 16 d'estimation du bruit. Ces deux modules 15, 16 fonctionnent conjointement, en ce sens que des degrés d'activité vocale yn~~ mesurés pour les différentes bandes par le module 15 sont utilisés par le moduîe 16 pour estimer l'énergie à long terme du bruit dans les différentes bandes, tandis que ces estimations à long terme Bn~i sont utilisées par le module 15 pour procéder à
~0 un débruitage a priori du signal de parole dans les différentes bandes pour déterminer les degrés d'activité
vocale ,~n~ i .
Le fonctionnement des modules 15 et 16 peut correspondre aux organigrammes représentés sur les figures 2 et 3.
Aux étapes 17 à 20, le module 15 procède au débruitage a priori du signal de parole dans les différentes bandes i pour la trame de signal n. Ce débruitage a priori est effectué selon un processus classique de soustraction spectrale non linéaire à partir d'estimations du bruit obtenues lors d'une ou plusieurs trames précédentes. A l'étape 17, le module 15 calcule, avec la résolution des bandes i, la réponse en fréquence Hpn~i du filtre de débruitage a priori, selon la formule .
Sn,i - a n-Tl,i ~ Bn-zl,i Hpn,i - ( 2 ) Sn_T~i où il et T2 sônt des retards exprimés en nombre de trames . (tl >_ 1, z2 >_ 0 ) , et an~i est un coefficient de surestimation du bruit dont la détermination sera expliquée plus loin.
. Le retard ii peut être fixe (par exemple il=1) ou variable.
3C I1 est d'autant plus faible qu'on est confiant dans la détection d'activité vocale.
. Aux étapes 18 à 20, les composantes spectrales _ g _ Epn~i sont calculées selon .
~pn~i = max~Hpn~i. Sn~i . ~pi~ ~_tl~i~ (3) où pipi est un coefficient dle plancher proche de 0, servant , classiquement à éviter que le spectre du signal débruité
prenne des valeurs négatives ou trop faibles qui prcvoqueraient un bruit musical.
Les étapes 17 à 20 consistent donc essentiellement à soustraire du spectre du signal une estimation, majorée par le coefficient cc~,~_,~i~i, dt~ spectre du bruit estimé a ~J priori.
A l'étape 21, le module 15 calcule l'énergie du signal débruité a priori dans les différentes bandes i pour la trame n . En~i = ~pn,i. I1 calcule aussi une moyenne globale En~O de l'énergie du signal débruité a 15 priori, par une somme des énergies par bande En, i' pondérée par les largeurs de ces bandes. Dans les notations ci-dessous, l'indice i=0 sera utilisé pour désigner la bande globale du signal.
Aux étapes 22 et 23, le module 15 calcule, pour 20 chaque bande i (OSiSI), une grandeur ~En~i représentant la variation à court terme de l'énergie du signal débruité
dans la bande i, ainsi qu' une valeur à long terme En~i de l'énergie du signal débruité dans la bande i. La grandeur ~En~i peut être calculée par une formule simplifiée de 2 S dérivation , ~En~i = En-4,i + En-3,i - En-l,i - En,i , Quant à .
l'énergie à long terme En~i, elle peut étre calculée à
l'aide d'un facteur d'oubli B1 tel que 0<B1<1, à savoir ~
En~i = B1 . En_l~i + (1-B1) . E,~~i .

' WO 99/14738 . . PCT/FR98/01980 _ g _ Après avoir calculé les énergies En~i du signal débruité, ses variations à court terme ~En~i et ses valeurs à long terme En~i de la manière indiquée sur la figure 2, le module 15 calcule, pour chaque bande i (0<_i<_I), une valeur pi représentative de l'évolution de l'énergie du signal débruité. Ce calcul est effectué aux étapes 25 à 36 de la figure 3, exécutées pour chaque bande i entre i=0 et i=I. Ce calcul fait appel à un estimateur à
long terme de l'enveloppe du bruit bai, à un estimateur interne bii et à un compteur de trames bruitées bi.
A '_' étape 25, 1 a grandeur ~E,~~ i est comparée à un seuil E1 . Si le seuil E1 n' est pas atteir ~, le compteur bi est incrémenté d'une unité à l'étape 26. A l'étape 27, l'estimateur à long terme bai est comparé à la valeur de l' énergie lissée Envi . Si bai >_ Envi , l' estimateur bai est pris égal à la valeur lissée Envi à l'étape 28, et le compteur bi est remis à zéro. La grandeur pi, qui est prise égale au rapport bai/En~i (étape 36), est alors égale à 1.
Si l' étape 27 montre que bai<En~i , le compteur bi est comparé à une valeur limite bmax à l'étape 29. Si bi>bmax, le signal est considéré comme trop stationnaire pour supporter de l'activité. vocale. L'étape 28 précitée, qui revient à considérer que la trame ne comporte que du bruit, est alors exécutée. Si bi<_bmax à l'étape 29, l'estimateur interne bii est calculé à l'étape 33 selon .
- bü = (1-Bm) . Envi + Bm . bai ( 4 ) Dans cette formule, Bm représente un coefficient de mise à
jour compris entre 0,90 et 1. Sa valeur diffère selon l'état d'un automate de détection d'activité vocale WO 99/14738 PCT/FR98/01980 ' (tapes 30 32). Cet tat 8n-1 est celui dtermin lors du traitement de la trame prcdente. Si l'automate est dans un tat de dtection de parole (8n-1=2 l'tape 30), le coefficient Bm prend une valeur Bmp trs proche de 1 pour que l'estimateur du bruit soit trs faiblement mis jour en prsence de parole. Dans le cas contraire, le coefficient Bm prend une valeur Bms plus faible, pour permettre une mise jour plus significative de l'estimateur de bruit en phase de silence. A l'tape 34, i0 l'cart bai-bii entre l'estimateur long terme et l'estimateur interne du bruit est compar un seuil E2.

Si 1 e seuil E2 n' es t pas attei:~t, l' es timateur long terme bai est mis jour avec la valeur de 'estimateur interne bii l'tape 35. Sinon, l'estimateur long terme bai reste inchang. On vite ainsi que de brutales variations dues un signal de parole conduisent une mise jour de l'estimateur de bruit.

Aprs avoir obtenu les grandeurs pi, le module 15 procde aux dcisions d'activit vocale l'tape 37. Le module 15 met d'abord jour l'tat de l'automate de dtection selon la grandeur p0 calcule pour l'ensemble de la bande du signal. Le nouvel tat 8n de l'automate dpend de l'tat prcdent 8n-1 et de p0, de la manire reprsente sur la figure 4.

Quatre tats sont possibles . b=0 dtecte le silence, ou absence de parole ; 8=2 dtecte la prsence d'une activit vocale ; et les tats 8=1 et b=3 sont des .

tats intermdiaires de monte et de descente. Lorsque l' automate est dans l' tat de silence (8n-1=0) , il y reste .

si p0 ne dpasse pas un premier seuil SE1, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée (8n_1=1), il revient dans l'état de silence si ' WO 99/14738 , PCT/FR98/01980 p0 est plus petit que le seuil SEl, il passe dans l'état de parole si p0 est plus grand qu'un second seuil SE2 plus grand que le seuil SE1, et il reste dans l' état de montée si SE15 p0_< SE2. Lorsque l'automate est dans l'état de parole (8n-1=2), il y reste si p0 dépasse un troisième seuil SE3 plus petit que le seuil SE2, et il passe dans l'état de descente dans le cas contraire. Dans l'état de descente ($n-1=3), l'automate revient dans l'état de parole si p0 est plus grand que le seuil SE2, il revient dans l'état de silence si p0 est en deçà d'un quatrième seuil SE4 plus petit que le seuil SE2, et il reste dans l' état de descente si SE4 <_ pOSSE2.
A l'étape 37, le module 15 calcule également les degrés d'activité vocale Yn,i dans chaque bande izl. Ce degré Yn,i est de préférence un paramètre non binaire, c'est-à-dire que la fonction Yn,i=g(pi) est une fonction variant continûment entre 0 et 1 en fonction des valeurs prises par la grandeur pi. Cette fonction a par exemple l'allure représentée sur la figure 5.
Le module 16 calcule les estimations du bruit par bande, qui seront utilisées dans le processus de débruitage, en utilisant les valeurs successives des composantes Sn,i et des degrés d'activité vocale Yn,i-Ceci correspond aux étapes 40 à 42 de la figure 3. A
l'étape 40, on détermine si l'automate de détection . d'activité vocale vient de passer de l'état de montée à
l'état de parole. Dans l'affirmative, les deux dernières estimations Bn_l,i et Bn_2,i précédemment calculées pour chaque bande i Z1 sont corrigées conformément à la valeur de l'estimation précédente Bn_3,i. Cette correction est effectuée pour tenir compte du fait que, dans la phase de WO 99/14738 PCT/FR98/01980 ' montée (8=1), les estimations à long terme de l'énergie du bruit dans le processus de détection d'activité vocale (étapes 30 à 33) ont pu être calculées comme si le signal ' ne comportait que du bruit (Bm=Bms), de sorte qu'elles risquent d'être entachées d'erreur. .
A l'étape 42, le module 16 met à jour les estimations du bruit par bande selon les formules .
Bn,i - ~B' Bn-l,i + (1-~B) ' Sn,i ( 5 ) Bn~i = Y n~i . Bn_l~i + (? -Y n~i ) . Bn~i ( 6 ) où ~.B désigne un facteur d' oubli tel que 0<~,B<1 , La formule (6) met en évidence la prise en compte du degré
d' activité vocale nor_ binaire Yn, i' Comme indiqué précédemment, les estimations à long terme du bruit Bn~i font l'objet d'une surestimation, par un module 45 (figure 1), avant de procéder au débruitage par soustraction spectrale non linéaire. Le module 45 calcule le coefficient de surestimation an~i précédemment évoqué, ainsi qu'une estimation majorée Bn~i qui correspond essentiellement à a~~i . Bn~i .
L'organisation du module de surestimation 45 est représentée sur la figure 6. L'estimation majorée Bn~i est obtenue en combinant l' estimation à long terme Bn~i et une mesure 4Bn ï de la variabilité de la composante du bruit dans la bande i autour de son estimation à long terme. _ Dans l'exemple considéré, cette combinaison est, pour l'essentiel, une simple somme réalisée par un additionneur 46. Ce pourrait également être une somme pondérée.
Le coefficient de surestimation an~i est égal au rapport entre la somme Bn~i + OBn ï délivrée par ' WO 99/14738 ~ PCT/FR98/01980 l'additionneur 46 et l'estimation à long terme retardée Bn-i3,i (diviseur 47), plafonné â une valeur limite ocmax' par exemple amax=4 (bloc 48). Le retard z3 sert à corriger le cas échéant' dans les phases de montée (8=1), la valeur du coefficient de surestimation an~i, avant que les estimations à long terme aient été corrigées par les étapes 40 et 41 de la figure 3 (par exemple z3=3).
L'estimation majorée Bn~i est finalement prise égale à ur~i. Bn-z3,i (multiplieur 49) .
La mesure OBnax de la variabilité du bruit reflète la variance de l'estimateur de bruit. Elle est obtenue en fonction des valeurs de Sn~ i et de Bn~i calculées pour un certain nombre de trames précédentes sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i . C' est une fonction des écarts isn_k,i - Bn-k,il calculés pour un nombre K de trames de silence (n-3c<_ n).
Dans l'exemple représenté, cette fonction est simplement le maximum (bloc 50). Pour chaque trame n, le degré
d'activité vocale yn,i est comparé à un seuil (bloc 51) pour décider si l' écart iSn~i - Bn,i~, calculé en 52-53, doit ou non étre chargé dans une file d'attente 54 de K
emplacements organisée en mode premier entré-premier sorti (FIFO). Si yn~i ne dépasse pas le seuil (qui peut étre égal à 0 si la fonction g() a la forme de la figure 5), la FIFO 54 n'est pas alimentée, tandis qu'elle l'est dans le cas contraire. La valeur maximale contenue dans la FIFO 54 est alors fournie comme mesure de variabilité ~B~".
La mesure de variabilité ~B~" peut, en variante, être obtenue en fonction des valeurs Sn~f (et non Sn~i) et Bn~i. On procède alors de la même manière, sauf que la FIFO
54 contient non pas ISn-k~i - Bn_k,i) pour chacune des bandes i, mais plutôt max ISn-k,f - Bn-k,i f e f(i 1) , f(i) Grâce aux estimations indépendantes des S fluctuations à long terme du bruit Bn~i et de sa variabilité à court terme OBnï , l'estimateur majoré Bn,i procure une exceller_te robustesse aux bruits musicaux du procédé de débruitage.
Une première phase de la soustracticr_ spectrale est réalisée par le module 55 représenté sur la figure 1.
Cette phase fournit, avec la résolution des bandes i ( 1 _< i s I ) , la réponse en fréquence Hn~i d' un premier filtre de débruitage, en fonction des coi~~o a~~es Sn~ i et Bn~i et des coefficients de surestimation an~i. Ce calcul peut 'S être effectué pour chaque bande i selon la formule .
' 1 max Sn~i - an~i. Bn~i . (3i~ Bn,i n.i S ( 7 ) n-T4,i où T4 est un retard entier déterminé tel que z4 >_ 0 (par exemple i4=0). Dans l'expression (7), le coefficient i représente, comme le coef f icient ,(ipi de la formule ( 3 ) , un 20 plancher servant classiquement à éviter les valeurs négatives ou trop faibles du signal débruité.
De façon connue (EP-A-0 534 837), le coefficient -de surestimation an~1 pourrait être remplacé dans la formule (7) par un autre coefficient égal à une fonction -25 de an~i et d'une estimation du rapport signal-sur-bruit (par exemple Sn~i/Bn,i), cette fonction étant décroissante ' WO 99/14738 , PCT/FR98/01980 selon la valeur estimée du rapport signal-sur-bruit. Cette fonction est alors égale à an~i pour les valeurs les plus faibles du rapport signal-sur-bruit. En effet, lorsque le signal est très bruité, il n'est a priori pas utile de diminuer le facteur de surestimation. Avantageusement, cette fonction décroit vers zéro pour les valeurs les plus élevées du rapport signal/bruit. Ceci permet de protéger les zones les plus énergétiques du spectre, où le signal de parole est le plus significatif, la quantité soustraite '0 du signal tendant alors vers zéro.
Cette stratégie peut être affinée en l'appliquant de manière sélective aux harmoniques de la fréquence tonale (« pitch ») du signal de parole lorsque celui-ci présente une activité vocale.
Ainsi, dans la réalisation représentée sur la figure 1, une seconde phase de débruitage est réalisée par un module 56 de protection des harmoniques. Ce module calcule, avec la résolution de la transformëe de Fourier, la réponse en fréquence Hn,f d'un second filtre de débruitage en fonction des paramètres Hn,i, °~n,i ~ Bn,i ~ sn' Sn~i et de la fréquence tonale fp=Fe/Tp calculée en dehors des phases de silence par un module d'analyse harmonique 57. En phase de silence (8n=0) , le module 56 n' est pas en service, c' est-à-dire que Hn, f = Hn,i Pour chaque fréquence f d'une bande i. Le module 57 peut appliquer toute méthode connue d'analyse du signal de parole de la trame pour déterminer la période Tp, exprimée comme un nombre entier ou fractionnaire d'échantillons, par exemple une méthode de prédiction linéaire.
La protection apportée par le module 56 peut consister à effectuer, pour chaque fréquence f appartenant à une bande i .

WO 99/14738 PCT/FR98/01980 ' ' 2 Sn,i - an,i~ Bn,i ~ ai- Bn,i (8) Hn~ = 1 s i f et ~r( entier ~ If - r). f~~ <_ ~f / 2 (9) Hn,f- Hn,f s inon ~f=Fe/N reprsente la rsolution spectrale de la transforme de Fourier.
Lorsque Hn f =1, la quantit ~

soustraite de la composar_te Sn~f sera nulle.
Dans ce calcul, les coefficients de plancher (3?
(par exemple ~i -~i ) expriment le fait que certaines harmoniques de la frquence tonale fp peuvent tre masques par du bruit, de sorte qu'il n'est pas utile de les protger.

Cette stratgie de protection est de prfrence applique pour chacune des frquences les plus proches des harmoniques de fp, c'est--dire pour r( entier quelconque.

Si on dsigne par 8fp la rsolution frquentielle avec laquelle Ie module d'analyse produit la frquence tonale estime fp, c'est--dire que la frquence tonale relle est comprise entre fp-8fp/2 et fp+8fp/2, alors l' cart entre la r(-ime harmonique de la frquence tonale relle est son estimation r~xf (condition (9)) peut aller p jusqu' r(x$fp/2.
Pour les valeurs leves de r~, cet cart peut tre suprieur la demi-rsolution spectrale af/2 de la transforme de Fourier.
Pour tenir compte de cette incertitude et garantir la bonne protection des harmoniques de la frquence tonale relle, on peut protger chacune des frquences de l'intervalle ~r~xfo- r)x8fp/2 , , -r~xfp+ r)xsfp/2~ c' est--dire remplacer la condition (9) ci-dessus par .

3r( f - <_ (r~. 8fp + ~f)/2 entier r~.
~ fpl ( WO 99/14738 , PCT/FR98/01980 Cette façcn de procéder (condition (9')) présente un intérêt particulier lorsque les valeurs de ~ peuvent être grandes, notamment dans le cas où le procédé est utilisé
dans un système à bande élargie.
. 5 Pour chaque fréquence protégée, la réponse en fréquence corrigée Hn~ f peut ëtre égale à 1 comme indiqué
ci-dessus, ce qui correspond à la soustraction d'une quantité nulle dans le cadre de la soustraction spectrale, c' est-z-dire à une protection complète de la fréquence en questicr:. Plus généralement, cette réponse en fréquence cors figée :-In~ f pourrait être prise égale à ur_e valeur comprise entre 1 et Hn~f selon le degré de protection souhaité, ce qui correspond à la soustraction d'une quantité inférieure à celle qui serait soustraite si la fréquence en question n'était pas protégée.
Les composantes spectrales Sn~f d'un signal débruité sont calculées par un multiplieur 58 .
2 2 (10) Sn.f - Hn.f . Sn.f Ce signal Sn~f est fourni à un module 60 qui calcule, pour chaque trame n, une courbe de masquage en appliquant un modèle psychoacoustique de perception auditive par l'oreille humaine.
Le phénomène de masquage est un principe connu du fonctionnement de l'oreille humaine. Lorsque deux fréquences sont entendues simultanément, il est possible que l'une des deux ne soit plus audible. On dit alors qu'elle est masquée.
I1 existe différentes méthodes pour calculer des courbes de masquage. On peut par exemple utiliser celle développée par J.D. Johnston («Transform Coding of Audio Signals Using Perceptual Noise Criteria », IEEE Journal on Selected Area in Communications, Vol. 6, No. 2, février 1988). Dans cette méthode, on travaille dans l'échelle fréquentielle des barks. La courbe de masquage est vue comme la convolution de la fonction d'étalement spectral de la membrane basilaire dans le domaine bark avec le signal excitateur, constitué dans la présente application par le signal Sn~f. La fonction d'talement spectral peut tre modlise de la manire reprsente sur la figure 7. Pour chaque bande de bark, on calcule la contribution des bandes infrieures et suprieures convolues par la fonction d'talement de la membrane basilaire .

S
' S
' n.Q
1 r + ~
0 n.q ( 1, ) ~n.q ~

10/lo1(q-q ) ~
(q'-q) 25/1o Q ~
0 ~10 J
q _Q+1 J

o les indices q et q' dsignent es bandes de bark (O~q.q' <Q) ~ et Sn~q~ reprsente la moyenne des composantes Sn~f du signal excitateur dbruit pour les frquences discrtes f appartenant la bande de bark q'.

Le seuil de masquage Mn~q est obtenu par le module 60 pour chaque bande de bark q, selon la formule .

(12) Mn q Vin q~Rq ~
.

o Rq dpend du caractre plus ou moins vois du signal.

De faon connue, une forme possible de Rq est .

l0.1og10(Rq) - (A+q).x + B.(1-x) (13) avec A=14,5 et B=5,5. x dsigne un degr de voisement du signal de parole, variant entre zro (pas de voisement) et 1 (signal fortement vois).
Le paramtre x peut tre de la forme connue .

SFM
= min , 1 (12) SFMmax o SFM reprsente, en dcibels, le rapport entre la .moyenne arithmtique et la moyenne gomtrique de l'nergie des bandes de bark, et SFMmax=-60 dB.

Le systme de dbruitage comporte encore un module 62 qui corrige la rponse en frquence du filtre de ' WO 99/14738 , PCT/FR98/01980 débruitage, en fonction de la courbe de masquage Mn~q calculée par le module 60 et des estimations majorées Bn~i calculées par le module 45. Le module 62 décide du niveau de débruitage qui doit réellement étre atteint.
En comparant l'enveloppe de l'estimation majorée du bruit avec l'enveloppe formée par les seuils de masquage Mn~q, on décide de ne débruiter le signal que dans la mesure où l'estimation majorée Bn~i dépasse la courbe de masquage. Ceci évite de supprimer inutilement du '_0 bruit masq~:é par de la parole.
La nouvelle réponse Hn~f, pour une fréquence f appartenant à la bande i définie par le module 12 et à la bande de bark q, dépend ainsi de l'écart relatif entre l'estimation majorée Bn~i de la composante spectrale 15 correspondante du bruit et la courbe de masquage Mn~q, de la manière suivante .
Bn.1 Mn~q ( 14 Hn~ f = 1 - Cl - Hn~ f~ . max "~ . 0 Bn,i En d' autres termes, la quantité soustraite d' une composante spectrale Sn~f, dans le processus de 20 soustraction spectrale ayant la réponse fréquentielle Hn~f. est sensiblement égale au minimum entre d'une part la quantité soustraite de cette composante spectrale dans le processus de soustraction spectrale ayant la réponse fréquentielle Hn~f, et d'autre part la fraction de 25 l'estimation majorée Bn~i de la composante spectrale correspondante du bruit qui, le cas échéant, dépasse la courbe de masquage Mn q.
La figure 8 illustre le principe de la correction appliquée par le module 62. Elle montre schématiquement un exemple de courbe de masquage bln~q calculée sur la base des composantes spectrales Sn~f du signal débruité, ainsi que l'estimation majorée Bn~1 du spectre du bruit. La quantité finalement soustraite des composantes Sn~f sera celle représentée par les zones hachurées, c'est-à-dire limitée à la fraction de l'estimation majorée Bn~1 des composantes spectrales du bruit qui dépasse la courbe de masquage.
Cette soustraction est effectuée en multip~iant la réponse fréquentielle Hn~i du filtre de débruitage par les composantes spectrales Sn~f du signal de parole (multiplieur 64). Un module 65 reconstruit alors le signal débruité dans le domaine temporel, en opérant la transformée de Fourier rapide inverse (TFRI) inverse des échantillons de fréquence Sn~f délivrés par le multiplieur 64. Pour chaque trame, seuls les N/2=128 premiers échantillons du signal produit par le module 65 sont délivrés comme signal débruité final s3, après reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente (module 66).
La figure 9 montre une forme de réalisation préférée d'un système de débruitage mettant en oeuvre l'invention. Ce système comporte un certain nombre d'éléments semblables à des éléments correspondants du système de la figure 1, pour lesquels on a utilisé les mëmes références numériques. Ainsi, les modules 10, 11, 12, 15, 16, 45 et 55 fournissent notamment les quantités Sn, i' Bn,i' an,i ~ Bn,i et Hn~ f pour effectuer le débruitage sélectif.
La résolution en fréquence de la transformée de Fourier rapide 11 est une limitation du système de la figure 1. En effet, la fréquence faisant l'objet de la protection par le module 56 n'est pas nécessairement la WO 99/14738 , . PCT/FR98/01980 fréquence tonale précise fp, mais la fréquence la plus proche de celle-ci dans le spectre discret. Dans certains cas, on peut alors protéger des harmoniques relativement éloignées de celle de la fréquence tonale. Le système de la figure 9 pallie cet inconvénient grâce à un conditionnement approprié du signal de parole.
Dans ce conditionnement. on modifie la fréquence d'échantillonnage du signal de telle sorte que la période 1/fp couvre exactement un nombre entier de temps d'échantillon du signal conditionné.
De nombreuses méthodes d'analyse harmonique pouvant être mises en ouvre par le module 57 sont capables de fcurnir une valeur fractionnaire du retard Tp, exprimé
en nombre d'échantillons à la fréquence d'échantillonnage initiale Fe. On choisit alors une nouvelle fréquence d'échantillonnage fe de telle sorte qu'elle soit égale à
un multiple entier de la fréquence tonale estimée, soit fe=p.fp=p.Fe/Tp=K. Fe, avec p entier. Afin de ne pas perdre d'échantillons de signal, il convient que fe soit supérieure à Fe. On peut notamment imposer qu'elle soit comprise entre Fe et 2Fe (1~2), pour faciliter la mise en ouvre du conditionnement.
Bien entendu, si aucune activité vocale n'est détectée sur la trame courante (8n~0) , ou si le retard Tp estimé par le module 57 est entier, il n'est pas nécessaire de conditionner le signal.
Afin que chacune des harmoniques de la fréquence tonale corresponde également à un nombre entier d'échantillons du signal conditionné, ï'entier p doit être un diviseur de la taille N de la fenêtre de signal produite par le module 10 . N=ap, avec a entier. Cette taille N est usuellement une puissance de 2 pour la mise en oeuvre de la TFR. Elle est de 256 dans l'exemple considéré.

La résolution spectrale 0f de la transformée de Fourier discrète du signal conditionné est donnée par Of=p.fp/N=fp/a. On a donc intérêt à choisir p petit de façon à maximiser a, mais suffisamment grand pour .
suréchantillonner. Dars l'exemple considéré, où Fe=8 kHz et N=256, les valeurs choisies pour les paramètres p et a sont indiquées dans le tableau I.
0 z < fp 1000 Hz 8 < Tp 16 p = a 16 < < 1 =
&

2~~0 Hz < p 500 Hz ~ < Tp 32 p = a -< 16 < 32 8 I
I25 Hz < fp 250 Hz 32 < Tp 64 p = a 4 < < 64 =

62, Hz < fp 125 Hz 64 < Tp 128 p 128 a 2 5 < < = =

31, Hz < fp 62, 5 128 < Tp 256 p 256 a 1 25 < Hz < = =

Tableau I
Ce choix est effectué par un module 70 selon la valeur du retard Tp fournie par le module d'analyse harmonique 57. Le module 70 fournit le rapport K entre les fréquences d'échantillonnage à trois modules de changement de fréquence 71, 72, 73.
Le module 71 sert à transformer les valeurs Sn~i' ' 1 1 S Bn~i , an~i , Bn i et Hn f , relatives aux bandes i définies par le module 12, dans l'échelle des fréquences modifiées (fréquence d'échantillonnage fe). Cette transformation consiste simplement à dilater les bandes i dans le facteur K. Les valeurs ainsi transformées sont fournies au module 56 de protection des harmoniques.
Celui-ci opère alors de la même manière que précédemment pour fournir la réponse en fréquence Hn~f du filtre de débruitage. Cette réponse Hn~f est obtenue de la même manière que dans le cas de la figure 1 (conditions WO 99/14738 , PCT/FR98/01980 (8) et (9)), à cette différence près que, dans la condition (9), la fréquence tonale fp=fe/p est définie selon la valeur du retard entier p fourni par le module 70, la résolution en fréquence 0f étant également fournie par ce module 70.
Le module 72 procède au suréchantillonnage de la trame de N échantillons fournie par le module de fenêtrage 10. Le suréchantillonnage dans un facteur K rationnel (K=K1/K2) consiste à effectuer d'abord un .0 suréchantillonnage dans le facteur entier K1, puis un SOüS-~Ci''_a_~_t~11JI1 Tage dZ~aJ 12 faCte',îr entier 1~2. CeS
surécrantillonnage et sous-échantillonnage dans des facteurs entiers peuvent étre effectués classiquement au moyen de bancs de filtres polyphase.
La trame de signal conditionné s' fournie par le module 72 comporte KN échantillons à la fréquence fe. Ces échantillons sont adressés à un module 75 qui calcule leur transformée de Fourier. La transformation peut être effectuée à partir de deux blocs de N=256 échantillons .
l'un constitué par les N premiers échantillons de la trame de longueur KN du signal conditionné s', et l'autre par les N derniers échantillons de cette trame. Les deux blocs présentent donc un recouvrement de (2-K)x100$. Pour chacun des deux blocs, on obtient un jeu de composantes de Fourier Sn~f. Ces composantes Sn f sont fournies au multi lieur 58 p , qui les multiplie par la réponse spectrale Hn~f pour délivrer les composantes spectrales Sn~f du premier signal débruité.
Ces composantes Sn~f sont adressées au module 60 qui calcule les courbes de masquage de la manière précédemment indiquée.
De préférence, dans ce calcul des courbes de masquage, la grandeur x désignant le degré de voisement du signal de parole (formule (13)) est prise de la forme X=1-H, où H est une entropie de l'autocorrelation des WO 99/14738 . PCT/FR98/01980 ' composantes spectrales Sn~f du signal conditionn dbruit. Les autocorrelations A(k) sont calcules par un module 76, par exemple selon la formule .

S
~ S

n,f n,f+k f=0 A(k) = N/2-1 N/2-1 ( 15 ) S
- S
' n,f n,f+f f=0 f'=0 Un module 77 calcule ensuite l'entropie normalise H, et la fournit au module 60 pour e calcul de la courbe de masquage (voir S.A. McClellan et al . Spectral Entropy . an Alternative Indicator for Rate Allocation ? , Proc. ICP~SP' 94, pages 201-204) A(k) . log~A(k)~

k=0 _ (16) H -1 o g (N/2) Grce au conditionnement du signal, ainsi qu' son dbruitage par le filtre .Yn f, l'entropie normalise H

~

constitue une mesure de voisement trs robuste au bruit et aux variations de la frquence tonale.

Le module de correction 62 opre de la mme manire que celui du systme de la figure 1, en tenant compte du bruit surestim Bn~i remis l'chelle par le module de changement de frquence 71. I1 fournit la rponse en frquence Hn~f du filtre de dbruitage dfinitif, qui est multiplie par les composantes spectrales Sn~f du signal conditionn par le multiplieur _ 64. Les composantes Sn~f qui en résultent sont ramenées dans le domaine temporel par le module de TFRI 65. En sortie de cette TFRI 65, un module 80 combine, pour chaque trame, les deux blocs de signal issus du traitement des deux blocs recouvrants délivrés par la TFR 75. Cette combinaison peut consister en une somme avec pondération _ _ .r__ -..._~.~.n__._-.....~~,..~..~.-._.. __~. ...._._..... w_~... ._ ._...
_.

' WO 99/14738 PCT/FR98/01980 de Hamming des échantillons, pour former une trame de signal conditionné débruité de KN échantillons.
Le signal conditionné débruité fourni par le module 80 fait l'objet d'un changement de fréquence d'échantillonnage par le module 73. Sa fréquence d'échantillonnage est ramenée à Fe=fe/K par les opérations inverses de celles effectuées par le module 75. Le module 73 délivre N=256 échantillons par trame. Après la reconstruction par addition-recouvrement avec les N/2=128 ~0 derniers échantillons de la trame précédente, seuls les N/2=128 premiers échantillons de la trame cou=ante sont finalement conservés pour former le signal débruité final s3 (modal e 66) .
Dans une forme de réalisation préférée, un module 82 gère les fenêtres formées par le module 10 et sauvegardées par le module 66, de façon telle qu'on sauvegarde un nombre M d'échantillons égal à un multiple entier de Tp=Fe/fp. On évite ainsi les problèmes de discontinuité de phase entre les trames. De façon correspondante, le module de gestion 82 commande le module de fenêtrage 10 pour que le recouvrement entre la trame courante et la prochaine corresponde à N-M. I1 sera tenu de ce recouvrement de N-M échantillons dans la somme à
recouvrement effectuée par le module 66 lors du traitement de la prochaine trame. A partir de la valeur de Tp fournie par le module d'analyse harmonique 57, le module 82 calcule le nombre d'échantillons à sauvegarder M=TpxE(N/(2Tp)], E() désignant la partie entière, et commande de façon correspondante les modules 10 et 66.
Dans le mode de réalisation qu'on vient de décrire, la fréquence tonale est estimée de façon moyenne sur la trame. Or la fréquence tonale peut varier quelque peu sur cette durée. I1 est possible de tenir compte de ces variations dans le cadre de la présente invention, en conditionnant le signal de façon à obtenir artificiellement une fréquence tonale constante dans la trame.

Pour cela, on a besoin que le module 57 d'analyse harmonique fournisse les intervalles de temps entre les ruptures consécutives du signal de parole attribuables à -des fermetures de la glotte du locuteur intervenant pendant la durée de la trame. Des méthodes utilisables pour détecter de telles micro-ruptures sont bien connues dans le domaine de l'analyse harmonique des signaux de paroles. On pourra à cet égard consulter les articles suivants . M. BASSEVILLE et al., « Sequential detection of abrupt changes in spectral characteristics of digital signais », IEEE Trar_s. o~ Information Theory, 1983, Vol.
IT-29, r_°5, pages 708-723 ; R.. ANDRÉ-OBRECHT, « A new statistical approach for the automatic segmentation of continuons speech signais », IEEE Trans . on Acous . , Speech '~ and Sig. Proc., Vol. 36, N°1, janvier 1988 ; et C. MURGIA
et al., « An algorithm for the estimation of glottal closure instants using the sequential detection of abrupt changes in speech signais », Signal Processing VII, 1994, pages 1685-1688.
20 Le principe de ces méthodes est d'effectuer un test statistique entre deux modèles, l'un à court terme et l'autre à long terme. Les deux modèles sont des modèles adaptatifs de prédiction linéaire. La valeur de ce test statistique wm est la somme cumulée du rapport de 25 vraisemblance a posteriori de deux distributions, corrigée par la divergence de Kullback. Pour une distribution de résidus ayant une statistique gaussienne, cette valeur wm est donnée par .
- 1 2. em. em - 1 + aÖ (em)2 + - ~0 2 2 2 ~ 2 1 (17) al al a0 al 30 où em et a~ représentent le résidu calculé au moment de l'échantillon m de la trame et la variance du modèle à
long terme, em et ai représentant de même le résidu et la variance du modèle à court terme. Plus les deux modèles sont proches, plus la valeur wm du test statistique est __..... T
~._._._. ......._ .~_._.___._..____~ ~......_..__ WO 99/14738 , PCT/FR98/01980 proche de 0. Par contre, lorsque les deux modèles sont éloignés l'un de l'autre, cette valeur wm devient négative, ce qui dénote une rupture R du signal.
La figure 10 montre ainsi un exemple possible . 5 d'évolution de la valeur wm, montrant les ruptures R du signal de parole. Les intervalles de temps tr (r = 1,2,...) entre deux ruptures consécutives R sont calculés, et exprimés en nombre d'échantillons du signal de parole. Chacun de ces intervalles tr est inversement _0 proportionnel à la fréquence tonale fo, qui est ainsi estimée localement . fp=Fe/tr sur le r-ième intervalle.
On peut alors corriger les variations temporelles de la fréquence tonale (c'est-à-dire le fait que les intervalles tr ne sont pas tous égaux sur une trame 15 donnée), afin d'avoir une fréquence tonale constante dans chacune des trames d'analyse. Cette correction est effectuée par une modification de la fréquence d'échantillonnage sur chaque~intervalle tr, de façon à
obtenir, après suréchantillonnage, des intervalles 20 constants entre deux ruptures glottiques. On modifie donc la durée entre deux ruptures en faisant un suréchantillonnage dans un rapport variable, de façon à se caler sur l'intervalle le plus grand. De plus, on fait en sorte de respecter la contrainte de conditionnement selon 25 laquelle la fréquence de suréchantillonnage est multiple de la fréquence tonale estimée.
La figure 11 montre les moyens utilisés pour calculer le conditionnement du signal dans ce dernier cas.
Le module 57 d'analyse harmonique est réalisé de façon à
30 mettre en oeuvre la méthode d'analyse ci-dessus, et à
fournir les intervalles tr relatifs à la trame de signal produite par le module 10. Pour chacun de ces intervalles, le module 70 (bloc 90 sur la figure 11) calcule le rapport de suréchantillonnage Kr=pr/tr, où l'entier pr est donné
35 par la troisième colonne du tableau I lorsque tr prend les valeurs indiquées dans la deuxième colonne. Ces rapports de suréchantillonnage Kr sont fournis aux modules de changement de fréquence 72 et 73, pour que les ' interpolations soient effectuées avec le rapport d'échantillonnage Kr sur l'intervalle de temps correspondant tr.
Le plus grand Tp des intervalles de temps tr fournis par le module 57 pour une trame est sélectionné
par le module 70 (bloc 91 sur la figure 11) pour obtenir un couple p,cc comme indiqué dans le tableau I. La fréquence d'échantillonnage modifiée est alors fe=p.Fe/Tp comme précédemment, 1~ résolution spectrale ~f de la transformée de Fourier discrète du signal conditionné
étant toujours donnée par ~f=rFe/(a.Tp). Pour le module de changement de fréquence 71, le rapport de suréchantillonnage K est donné par K=p/Tp (bloc 92). Le module 56 de protection des harmoniques de la fréquence tonale opère de la méme manière que précédem~nt, en utilisant pour la condition (9) la résolution spectrale Of fournie par le bloc 91 et la fréquence tonale fp=fe/p définie selon la valeur du retard entier p fournie par le bloc 91.
Cette forme de réalisation de l'invention implique également une adaptation du module 82 de gestion des fenêtres. Le nombre M d'échantillons du signal débruité à
sauvegarder sur la trame courante correspond ici à un nombre, entier d'intervalles de temps tr consécutifs entre deux ruptures glottiques (voir figure 10). Cette disposition évite les problèmes de discontinuité de phase entre trames, tout en tenant compte des variations possibles des intervalles de temps tr sur une trame. -_.. T._ _._ ..._. ....__~.. _~_... _. _.. .___ _ .. _._.~..._._,..-.-.....,._.._

Claims (17)

REVENDICATIONS
1. Procédé de débruitage d'un signal de parole numérique (s) traité par trames successives, dans lequel:
- on calcule des composantes spectrales (S n,f' S n,i) du signal de parole sur chaque trame ;
- on calcule pour chaque trame des estimations majorées (~' n,i) de composantes spectrales du bruit compris dans le signal de parole ;
- on effectue une soustraction spectrale comportant au moins une première étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S n,f) du signal de parole sur la trame, une première quantité dépendant de paramètres incluant l'estimation majorée (~ n,i) de la composante spectrale correspondante du bruit pour ladite trame, de manière à obtenir des composantes spectrales (S2 n,f) d'un premier signal débruité ; et - on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité (s3), caractérisé en ce que la soustraction spectrale comporte en outre les étapes suivantes :
- le calcul d'une courbe de masquage (M n,q) en appliquant un modèle de perception auditive à partir des composantes spectrales (S2 n,f) du premier signal débruité;
la comparaison des estimations majorées (~ n,i) des composantes spectrales du bruit pour la trame à la courbe de masquage calculée (M n,q) ; et - une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S n,f) du signal de parole sur la trame, une seconde quantité dépendant de paramètres incluant un écart entre l'estimation majorée de la composante spectrale correspondante du bruit et la courbe de masquage calculée.
2. Procédé selon la revendication 1, dans lequel ladite seconde quantité relative à une composante spectrale (S n,f) du signal de parole sur la trame est sensiblement égale au minimum entre la première quantité
correspondante et la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage (M n,q).
3. Procédé selon la revendication 1 ou 2, dans lequel on effectue une analyse harmonique du signal de parole pour estimer une fréquence tonale (f p) du signal de parole sur chaque trame où il présente une activité vocale.
4. Procédé selon la revendication 3, dans lequel les paramètres dont dépendent les premières quantités soustraites incluent la fréquence tonale estimée (f p).
5. Procédé selon la revendication 4, dans lequel la première quantité soustraite d'une composante spectrale donnée (S n,f) du signal de parole est plus faible si ladite composante spectrale correspond à la fréquence la plus proche d'un multiple entier de la fréquence tonale estimée (f p) que si ladite composante spectrale ne correspond pas à la fréquence la plus proche d'un multiple entier de la fréquence tonale estimée.
6. Procédé selon la revendication 4 ou 5, dans lequel les quantités respectivement soustraites des composantes spectrales (S n,f) du signal de parole correspondant aux fréquences les plus proches des multiples entiers de la fréquence tonale estimée (f p) sont sensiblement nulles.
7. Procédé selon l'une quelconque des revendications 3 à 6, dans lequel, après avoir estimé la fréquence tonale (f p) du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à
une fréquence de suréchantillonnage (f e) multiple de la fréquence tonale estimée, et on calcule les composantes spectrales (S n,f) du signal de parole sur la trame sur la base du signal conditionné (s') pour leur soustraire lesdites quantités.
8. Procédé selon la revendication 7, dans lequel on calcule des composantes spectrales (S n,f) du signal de parole en distribuant le signal conditionné (s') par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et dans lequel le rapport (p) entre la fréquence de suréchantillonnage (f e) et la fréquence tonale estimée est un diviseur du nombre N.
9. Procédé selon la revendication 7 ou 8, dans lequel on estime un degré de voisement (X) du signal de parole sur la trame à partir d'un calcul de l'entropie (H) de l'autocorrelation des composantes spectrales calculées sur la base du signal conditionné.
10. Procédé selon la revendication 9, dans lequel lesdites composantes spectrales dont on calcule l'autocorrelation (H) sont celles calculées sur la base du signal conditionné (s') après soustraction desdites premières quantités.
11. Procédé selon la revendication 9 ou 10, dans lequel le degré de voisement (X) est mesuré à partir une entropie normalisée H de la forme :
où N est le nombre d'échantillons utilisés pour calculer les composantes spectrales (S n,f) sur la base du signal conditionné (s'), et A(k) est l'autocorrelation normalisée définie par :

S~,f désignant la composante spectrale de rang f calculée sur la base du signal conditionné.
12. Procédé selon la revendication 11, dans lequel le calcul de la courbe de masquage (M n,q) fait intervenir le degré de voisement (~) mesuré par l'entropie normalisée H.
13. Procédé selon l'une quelconque des revendications 3 à 12, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) égal à un multiple entier de fois le rapport (T p) entre la fréquence d'échantillonnage (F e) et la fréquence tonale estimée (f p).
14. Procédé selon l'une quelconque des revendications 3 à 12, dans lequel l'estimation de la fréquence tonale du signal de parole sur une trame comporte les étapes suivantes :
- on estime des intervalles dé temps (t r) entre deux ruptures consécutives (R) du signal attribuables à
des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;
- on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné (s') résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.
15. Procédé selon la revendication 14, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) correspondant à un nombre entier d'intervalles de temps estimés (t r).
16. Procédé selon l'une quelconque des revendications précédentes, dans lequel on estime dans le domaine spectral des valeurs d'un rapport signal-sur-bruit que présente le signal de parole (s) sur chaque trame, et dans lequel les paramètres dont dépendent les premières quantités soustraites incluent les valeurs estimées du rapport signal-sur-bruit, la première quantité soustraite de chaque composante spectrale (S n,f) du signal de parole sur la trame étant une fonction décroissante de la valeur estimée correspondante du rapport signal-sur-bruit.
17. Procédé selon la revendication 16, dans lequel ladite fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal-sur-bruit.
CA002304571A 1997-09-18 1998-09-16 Procede de debruitage d'un signal de parole numerique Abandoned CA2304571A1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR97/11643 1997-09-18
FR9711643A FR2768547B1 (fr) 1997-09-18 1997-09-18 Procede de debruitage d'un signal de parole numerique
PCT/FR1998/001980 WO1999014738A1 (fr) 1997-09-18 1998-09-16 Procede de debruitage d'un signal de parole numerique

Publications (1)

Publication Number Publication Date
CA2304571A1 true CA2304571A1 (fr) 1999-03-25

Family

ID=9511230

Family Applications (1)

Application Number Title Priority Date Filing Date
CA002304571A Abandoned CA2304571A1 (fr) 1997-09-18 1998-09-16 Procede de debruitage d'un signal de parole numerique

Country Status (7)

Country Link
US (1) US6477489B1 (fr)
EP (1) EP1016072B1 (fr)
AU (1) AU9168998A (fr)
CA (1) CA2304571A1 (fr)
DE (1) DE69803203T2 (fr)
FR (1) FR2768547B1 (fr)
WO (1) WO1999014738A1 (fr)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6510408B1 (en) * 1997-07-01 2003-01-21 Patran Aps Method of noise reduction in speech signals and an apparatus for performing the method
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
JP2002221988A (ja) * 2001-01-25 2002-08-09 Toshiba Corp 音声信号の雑音抑圧方法と装置及び音声認識装置
US20020150264A1 (en) * 2001-04-11 2002-10-17 Silvia Allegro Method for eliminating spurious signal components in an input signal of an auditory system, application of the method, and a hearing aid
US6985709B2 (en) * 2001-06-22 2006-01-10 Intel Corporation Noise dependent filter
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
US7103539B2 (en) * 2001-11-08 2006-09-05 Global Ip Sound Europe Ab Enhanced coded speech
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
US7398204B2 (en) * 2002-08-27 2008-07-08 Her Majesty In Right Of Canada As Represented By The Minister Of Industry Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
WO2004036549A1 (fr) * 2002-10-14 2004-04-29 Koninklijke Philips Electronics N.V. Filtrage de signaux
KR101141247B1 (ko) * 2003-10-10 2012-05-04 에이전시 포 사이언스, 테크놀로지 앤드 리서치 디지털 신호를 확장성 비트스트림으로 인코딩하는 방법;확장성 비트스트림을 디코딩하는 방법
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
KR100927897B1 (ko) * 2005-09-02 2009-11-23 닛본 덴끼 가부시끼가이샤 잡음억제방법과 장치, 및 컴퓨터프로그램
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
JP4592623B2 (ja) * 2006-03-14 2010-12-01 富士通株式会社 通信システム
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US20080162119A1 (en) * 2007-01-03 2008-07-03 Lenhardt Martin L Discourse Non-Speech Sound Identification and Elimination
ES2391228T3 (es) 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
US8560320B2 (en) * 2007-03-19 2013-10-15 Dolby Laboratories Licensing Corporation Speech enhancement employing a perceptual model
JP5302968B2 (ja) * 2007-09-12 2013-10-02 ドルビー ラボラトリーズ ライセンシング コーポレイション 音声明瞭化を伴うスピーチ改善
US8538763B2 (en) * 2007-09-12 2013-09-17 Dolby Laboratories Licensing Corporation Speech enhancement with noise level estimation adjustment
EP2192579A4 (fr) * 2007-09-19 2016-06-08 Nec Corp Dispositif de suppression de bruit, son procédé et programme
JP5056654B2 (ja) * 2008-07-29 2012-10-24 株式会社Jvcケンウッド 雑音抑制装置、及び雑音抑制方法
US20110257978A1 (en) * 2009-10-23 2011-10-20 Brainlike, Inc. Time Series Filtering, Data Reduction and Voice Recognition in Communication Device
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) * 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103824562B (zh) * 2014-02-10 2016-08-17 太原理工大学 基于心理声学模型的语音后置感知滤波器
DE102014009689A1 (de) * 2014-06-30 2015-12-31 Airbus Operations Gmbh Intelligentes Soundsystem/-modul zur Kabinenkommunikation
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
CN105869652B (zh) * 2015-01-21 2020-02-18 北京大学深圳研究院 心理声学模型计算方法和装置
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3566229B1 (fr) * 2017-01-23 2020-11-25 Huawei Technologies Co., Ltd. Appareil et procédé permettant d'améliorer une composante souhaitée dans un signal
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03117919A (ja) * 1989-09-30 1991-05-20 Sony Corp ディジタル信号符号化装置
AU633673B2 (en) 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
DE69124005T2 (de) 1990-05-28 1997-07-31 Matsushita Electric Ind Co Ltd Sprachsignalverarbeitungsvorrichtung
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5469087A (en) 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
AU676714B2 (en) * 1993-02-12 1997-03-20 British Telecommunications Public Limited Company Noise reduction
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
US5555190A (en) 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement
FR2739736B1 (fr) * 1995-10-05 1997-12-05 Jean Laroche Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information

Also Published As

Publication number Publication date
AU9168998A (en) 1999-04-05
FR2768547B1 (fr) 1999-11-19
US6477489B1 (en) 2002-11-05
DE69803203D1 (de) 2002-02-21
FR2768547A1 (fr) 1999-03-19
WO1999014738A1 (fr) 1999-03-25
EP1016072A1 (fr) 2000-07-05
DE69803203T2 (de) 2002-08-29
EP1016072B1 (fr) 2002-01-16

Similar Documents

Publication Publication Date Title
CA2304571A1 (fr) Procede de debruitage d&#39;un signal de parole numerique
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
EP2002428B1 (fr) Procede de discrimination et d&#39;attenuation fiabilisees des echos d&#39;un signal numerique dans un decodeur et dispositif correspondant
EP1016071B1 (fr) Procede et dispositif de detection d&#39;activite vocale
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
WO2001073758A1 (fr) Techniques de reglage de gains spectralement interdependants
EP2419900A1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
JP3960834B2 (ja) 音声強調装置及び音声強調方法
EP0490740A1 (fr) Procédé et dispositif pour l&#39;évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit.
EP1016073B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
EP2515300B1 (fr) Procédé et système de réduction du bruit
FR2797343A1 (fr) Procede et dispositif de detection d&#39;activite vocale
FR3051958A1 (fr) Procede et dispositif pour estimer un signal dereverbere
EP4287648A1 (fr) Dispositif électronique et procédé de traitement, appareil acoustique et programme d&#39;ordinateur associés
FR2697937A1 (fr) Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé.
WO1999027523A1 (fr) Procede de reconstruction, apres debruitage, de signaux sonores

Legal Events

Date Code Title Description
FZDE Discontinued