CA2304012A1 - Procede de detection d'activite vocale - Google Patents

Procede de detection d'activite vocale Download PDF

Info

Publication number
CA2304012A1
CA2304012A1 CA002304012A CA2304012A CA2304012A1 CA 2304012 A1 CA2304012 A1 CA 2304012A1 CA 002304012 A CA002304012 A CA 002304012A CA 2304012 A CA2304012 A CA 2304012A CA 2304012 A1 CA2304012 A1 CA 2304012A1
Authority
CA
Canada
Prior art keywords
frame
signal
noise
gamma
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
CA002304012A
Other languages
English (en)
Inventor
Stephane Lubiarz
Philip Lockwood
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CA2304012A1 publication Critical patent/CA2304012A1/fr
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Abstract

Le signal de parole numérique (s) traité par trames successives est soumis à un débruitage en tenant compte d'estimations du bruit compris dans le signal, mises à jour pour chaque trame d'une manière dépendante d'au moins un degré d'activité vocale (.gamma.n,i). On procède à un débruitage a priori du signal de parole de chaque trame sur la base d'estimations du bruit obtenues lors du traitement d'au moins une trame précédente, et on analyse les variations d'énergie du signal débruité a priori pour détecter le degré d'activité vocale de ladite trame.

Description

' CA 02304012 2000-03-15 PROCEDE DE DETECTION D'ACTIVITE VOCALE
La prsente invention concerne les techniques numriques de traitement de signaux de parole. Elle concerne plus particulirement les techniques faisant appel une dtection d'activit vocale afin d'effectuer des traitements diffrencis selon que le signal supporte ou non une activit vocale.

Les techniques numriques en question revent de domaines varis . codage de la parole pour la transmission ou le stockage, reconnaissance de la parole, diminution du bruit, annulation d'cho...

Les mthodes de dtection d'activit vocale or_t pour principale difficult la distinction entre l'activit vocale et le bruit qui l'accompagne. Le recours une technique de dbruitage classique ne permet pas de traiter cette difficult, puisque ces techniques font elles-mmes appel des estimations du bruit qui dpendent du degr d'activit vocale du signal.

Un but principal de la prsente invention est d'amliorer la robustesse au bruit des mthodes de dtection d'activit vocale.

L'invention propose ainsi un procd de dtection d'activit vocale dans un signal de parole numrique t i ra t par trames successives, dans lequel on soumet le signal de parole un dbruitage en tenant compte d'estimations du bruit compris dans le signal, mises jour pour chaque trame d'une manire dpendante d'au moins un degr d'activit vocale dtermin pour ladite trame.

Selonl'invention, on procde un dbruitage a priori du signal de parole de chaque trame sur la base d'estimations du bruit obtenues lors du traitement d'au moins une trame prcdente, et on analyse les variations d'nergie du signal dbruit a priori pour dtecter le degr d'activit vocale de ladite trame.

Le fait de procder la dtection d'activit vocale (selon une mthode qui peut gnralement tre toute mthode connue) sur la base d' un signal dbruit a priori
- 2 -amliore sensiblement les performances de cette dtection lorsque le bruit environnant est relativement important.

Dans la suite de la prsente description, on illustrera le procd de dtection d'activit vocale selon l'invention dans un systme de dbruitage d'un signal de parole. On comprendra que ce procd peut trouver des applications dans de nombreux autres types de traitement numrique de la parole dans lesquels on souhaite disposer d' une information sur le degr d' activit vocale du signal trait . codage, reconnaissance, annulation d'cho...

D'autres particularits et avantages de la prsente invention apparaitront dans la description ci-aprs d'exemples de ralisation non limitatifs, en rfrence aux dessins anr_exs, dans lesquels .

- la figure 1 est un schma synoptique d'ur~

systme de dbruitage mettant en ceuvre la prsente invention ;

- les figures 2 et 3 sont des organigrammes de procdures utilises par un dtecteur d'activit vocale du systme de la figure 1 ;

- la figure 9 est un diagramme reprsentant les tats d'un automate de tection d'activit vocale ;

- la figure 5 est un graphique illustrant les variations d'un degr d'activit vocale ;

- la figure 6 est un schma synoptique d'un module de surestimation du bruit du systme de la figure 1 ;

- la figure 7 est un graphique illustrant le calcul d'une courbe de masquage ; et - la figure 8 est un graphique illustrant l'exploitation des courbes de masquage dans le systme de la figure 1.

Le systme de dbruitage reprsent sur la figure 1 traite un signal numrique de parole s. Un module de fentrage 10 met ce signal s sous forme de fentres ou trames successives, constitues chacune d'un nombre N

d'chantillons de signal numrique. De faon classique, ces trames peuvent prsenter des recouvrements mutuels.

Dans la suite de la prsente description, on considrera, .. WO 99/14737 PCT/FR98/01979
- 3 -sans que ceci soit imitatif, que les trames sont constitues de N=256 chantillons une frquence d'cha~-tillonnage Fe e 8 kHz, avec une pondration de Hamming dans chaque fentre, et des recouvrements de 50 entre Tentres conscutives.

La trame de signal est transforme dans le domaine frquer_tiel par un module 11 appliquant un algorithme classique de transforme e Fourier rapide (TFR) pour calculer le module du spectre du signal Le mod l .
u e 11 dlivre alors un ensemble de D1=256 composantes frque~:tielles du signal de parole, notes S
o r n~f, .

dsigne le numro de la trame courante, et f une frquence u spectre discret. Du fait des proprits des i s gnaux numriques dans le domaine frquentiel, seuls les N/2=128 premiers chantillons sont utiliss.

Pour calculer les estimations du bruit contenu dans le signal s, on n'utilise pas la rsolution frquentielle disponible en sortie de la transforme de Fourier rapide, mais une rsolution plus faible, 20 dtermine par un nombre I e bandes de frquences couvrant la bande [O,Fe/2) du signal. Chaque band i e ( 1 < i < I ) s' tend entre une frquence infrieure f ( i-1 ) e t une frquence suprieure f ( i ) , avec f ( 0 ) =0, et f ( I
) =F
/2 .

e Ce dcoupage en bandes de frquences peut tre uniforme 2 5 ( f ( i ) -f ( i-1 ) =F
/2I ) . I1 peut galement t e re non uniforme (par exemple selon une chelle de barks). Un module 12 calcule les moyennes respectives des composantes spectrales Sn~f du signal de parole par bandes , par exemple par une pondration uniforme telle que .

_ 1 30 Sn S

' n,f ( 1 ) f(i) - f(i-1) f e~f(i-1) ,f(i)~

Ce moyennage diminue les fluctuations entre les bandes en moyennant les contributions du bruit dans ces bandes, ce qui diminuera la variance de l'estimat eur de bruit. En outre, ce moyennage permet une forte diminution 35 de la complexit du systme.

CA 02304012 2000-03-15 '
- 4 -Les composantes spectrales moyennes Sn i sont ~

adresses un module 15 de dtection d'activit vocale et un module 16 d'estimation du bruit. Ces deux modules 15, ' 16 for_ctionnent conjointement, en ce sens que des degrs d' activi t vocale yn~ i mesurs pour les diffrentes bandes ' par le modue 15 sont utiliss par le module 16 pour estime. l'nergie long terme du bruit dans les diffrentes bandes, tandis que ces estimations long terme ~n i sont utilises par le module 15 pour procder ~

1~0un dbruitage a priori du signal de parole dans les diffrentes bandes pour dterminer les degrs d'activit vocale y n, ~ ' Le fonctionnement des modules 15 et 16 peut correspondre aux organigrammes reprsents sur les figures 2 et 3.

Aux tapes 17 20, le module 15 procde au dbruitage a priori du signal de parole dans les diffrentes bandes i pour la trame de signal n. Ce dbruitage a priori est effectu selon un processus classique de soustraction spectrale non linaire partir d'estimations du bruit obtenues lors d'une ou plusieurs trames prcdentes. A l'tape 17, le module 15 calcule, avec la rsolution des bandes i, J_a rponse en frquence Hpn~i du filtre de dbruitage a priori, selon la formule .

Sn,i - ~n-il,i' Bn-Tl i 2 ,
5 ( 2 ) Hpn,i -S
n-T2,i où zl et z2 sont des retards exprimés en nombre de trames (tl >_ l, T2 > 0) , et an~i est un coefficient de surestimation , du bruit dont 1a détermination sera expliquée plus loin.
Le retard T1 peut étre fixe (par exemple T1=1 ) ou variable .
Il est d'autant plus faible qu'on est confiant dans la détection d'activité vocale.
Aux étapes 18 à 20, les composantes spectrales ' CA 02304012 2000-03-15 Epn'i sont calculées selon .
, Ep,~~i = max~Hpn~i. Sn~i . api. Bn_Tl ~i~ ( 3 ) où (api est un coefficient dle plancher proche de 0, servant classiauement à éviter que le spectre du signal àébruité
prenne des valeurs négatives ou trop faibles qui provoqueraient un bruit musical.
Les étapes 17 à 20 consistent donc essentiellement à soustraire du spectre du signal une estimation, majorée par le coefficient an_~l,i' du spectre du bruit estimé a î0 priori.
r_ l'étape 21, le module 15 calcule l'éne=g~e du signa débruité a priori dans les différentes banàes i pour la trame n . F~.l~i = ~pn,i . I1 calcule aussi une moyenne globale En~O de l'énergie du signal débruité a priori, par une somme des énergies par bande En, i' pondérée par les largeurs de ces bandes. Dans les notations ci-dessous, l'indice i=0 sera utilisé pour désigner la bande globale du signal.
Aux étapes 22 et 23, le module 15 calcule, pour chaque bande i (0<_i<_I), une grandeur ~En~i représentant la variation à court terme de l'énergie du signal débruité
dans la bande i, ainsi qu' une valeur à long terme En~i de l' énergie du signal débruité dans la bande i . La grandeur ~En~i peut être calculée par une formule simplifiée de dérivation , ~En~i = En-4,i + En-3,i - En-l,i - En,i Quant à
.. _ 1 energie à long terme En~i, elle peut être calculée à
l'aide d'un facteur d'oubli Bl tel que 0<B1<1, à savoir En,i = B1 . En_l.i + !1--B1) . En~i .
- 6 -Après avoir calculé les énergies En~i du signal débruité, ses variations à court terme ~En~i et ses valeurs à long terme En~i de la manière indiquée sur la figure 2, le module 15 calcule, pour chaque bande i .
(0<_i_<I',, une valeur pi représentative de l'évolution de l'énergie du signal débruité. Ce calcul est effectué aux étapes 25 à 36 de la figure 3, exécutées pour chaque bande i entre i=0 et i=T. Ce calcul fait appel à un estimateur à
long terme de l'enveloppe du bruit bai, à un estimateur interne bii et à un compteur de trames bruitées bi.
A l' étape 25, la grandeur DEn~ i est comparée ~ un seuil e~. Si le seuil sl n'est pas atteint, le compteur bi est incrémenté d'une unité à l'étape 26. A l'étape 27, l'estimateur à long terme bai est comparé à 1a valeur de l' énergie ïissée Envi . Si bai >_ En~i , l' estimateur bai est pris égal à la valeur lissée En~i à l'étape 28, et le compteur bi est remis à zéro. La grandeur pi, qui est prise égale au rapport bai/En~i (étape 36), est alors égale à 1.
Si l' étape 27 montre que bai<En~i , le compteur bi est comparé à une valeur limite bmax à l'étape 29. Si bi>bmax, le signal est considéré comme trop stationnaire pour supporter de l' activité vocale. L' étape 28 précitée, qui revient à considérer que la trame ne comporte que du bruit, est alors exécutée. Si bi<_bmax à l'étape 29, l'estimateur interne bii est calculé à l'étape 33 selon .
b.ü = (1-Bm) . En~i + Bm . bai ( 4 ) Dans cette formule, Bm représente un coefficient de mise à
jour compris entre 0,90 et 1. Sa valeur diffère selon l'état d'un automate de détection d'activité vocale .. WO 99/14737 PCT/FR98/01979 _ 7 _ (étapes 30 à 32). Cet état 8n_1 est celui déterminé lors du traitement de la trame précédente. Si l'automate est dans un état de détection de parole (ôn_1=2 à l' é tape 30 ) , le coefficient Bm prend une valeur Bmp très proche de 1 pour que l' estimateur du bruit soit très faiblement mi s à
jour en présence de parole. Dans le cas contraire, le coefficient Bm prend une valeur Bms plus faible, pour permettre une mise à jour plus significative de l'estimateur de bruit en phase de silence. A l'étape 34, î0 l'écart bai-bii entre l'estimateur à long terme et l' estimate~,~r interne du bruit est comparé à ur_ seuil s2.
Si le seuil s2 n'est pas atteint, l'estimateur à long terme ba; est mis à jour avec la valeur de l'estimateur interne bii à l'étape 35. Sinon, l'estimateur à long terme bai reste inchangé. On évite ainsi que de brutales variations dues à un signal de parole conduisent à une mise à jour de l'estimateur de bruit.
Après avoir obtenu les grandeurs pi, le module 15 procède aux décisions d'activité vocale à l'étape 37. Le module 15 met d'abord à jour l'état de l'automate de détection selon la grandeur p0 calculée pour l'ensemble de la bande du signal. Le nouvel état 8 de l'automate dé end n p de l'état précédent ôn_1 et de p0, de la manière représentée sur la figure 4.
Quatre états sont possibles . 8=0 détecte le silence, ou absence de parole ; 8=2 détecte la présence d'une activité vocale ; et les états b=1 et 8=3 sont des états intermédiaires de montée et de descente. Lorsque l'automate est dans l'état de silence (8n_1=0), il y reste si p0 ne dépasse pas un premier seuil SE1, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée (8n_1=1), il revient dans l'état de silence si
7 PCT/FR98/01979 g p0 est plus petit que le seuil SEl, il passe dans l'état de parole si p0 est plus grand qu'un second seuil SE2 plus grand que le seuil SE1, et il reste dans l' état de montée si SEl<_ p0<_SE2. Lorsque l'automate est dans l'état de .
parole (8n_1=2), i1 y reste si p0 dépasse un troisième seuil SE3 plus petit que le seuil SE2, et il passe dans l'état de descente dans le cas contraire. Dans l'état de descente (8n_1=3), l'automate revient dans l'état de parole si p0 est plus grand que le seuil SE2, il revient dans l'état de silence si p0 est en deçà d'un quatrième seuil SE4 plus petit que le seuil SE2, et il reste dans l'état de descente si SE4_< p0_<SE2.
A l'étape 37, le module 15 calcule également les degrés d'activité vocale yn~i dans chaque bande i>_1. Ce degré yn~i est de préférence un paramètre non binaire, c'est-à-dire que la fonction Yn,i-g(pi) est une fonction variant continûment entre 0 et 1 en fonction des valeurs prises par la grandeur pi. Cette fonction a par exemple l'allure représentée sur la figure ,5.
Le module 16 calcule les estimations du bruit par bande, qui seront utilisées dans le processus de débruitage, en utilisant les valeurs successives des composantes Sn~i et des degrés d'activité vocale °ln,i' Ceci correspond aux étapes 40 à 42 de la figure 3. A
l'étape 40, on détermine si l'automate de détection d'activité vocale vient de passer de l'état de montée à
l'état de parole. Dans l'affirmative, les deux dernières estimations Bn_l,i et Bn_2,i précédemment calculées pour ' chaque bande i>_1 sont corrigées conformément à la valeur de l'estimation précédente Bn_3~~. Cette correction est effectuée pour tenir compte du fait que, dans la phase de ,_ WO 99/14737 PCT/FR98/01979 montée (8=1), les estimations à long terme de l'énergie du bruit dans le processus de détection d'activité vocale (étapes 30 à 33) ont pu être calculées comme si le signal ne comportait que du bruit (Bm=Bms), de sorte qu'elles risquent d'être entachées d'erreur.
A l'étape 42, le module ï6 met à jour les estimations du bruit par bande selon les formules .
81,~~1 = 7~B. Bn_l~i + (1-7~B) . Sn~1 ( 5 ) Bn~1 = ,~n~i. Bn_l~i + (1-yn~i) . Bn~i (6) où 7~B désigne un facteur d' oubli tel que 0<7~B<1 . La formula (6) met en évidence la prise en compte du degré
d'activité vocale non binaire Yn,i' Comme indiqué précédemment, les estimations à 1 ong terme du bruit Bn~i font l'objet d'une surestimation, par un module 45 (figure 1), avant de procéder au débruitage par soustraction spectrale non linéaire. Le module 45 calcule le coefficient de surestimation an~i précédemment évoqué, ainsi qu'une estimation majorée Bn~1 qui correspond essentiellement à an~1 . Bn~i .
L'organisation du module de surestimation 45 est représentée sur la figure 6. L'estimation majorée Bn~i est obtenue en combinant l'estimation à long terme Bn~1 et une mesure OBn1 de la variabilité de la composante du bruit dans la bande i autour de son estimation à long terme.
Dans l'exemple considéré, cette combinaison est, pour . l'essentiel, une simple somme réalisée par un additionneur 46. Ce pourrait également être une somme pondérée.
Le coefficient de surestimation an~i est égal au rapport entre la somme Bn~i + OBn ï délivrée par l'additionneur 46 et l'estimation à long terme retardée Bn-T3,i (diviseur 47), plafonné à une valeur limite amax' par exemple amax-4 (bloc 48). Le retard T3 sert à corriger le cas échéant, dans les phases de montée (b=1), la valeur du coefficient àe surestimation ani, avant que les estimations à long terme aient été corrigées par les étapes 40 et 41 de la figure 3 (par exemple T3=3).
L'estimation majorée Bn,i est finalement prise égale à a~ . B (multiplieur 49) .
n,i n-t3,i ~~a mesure ORnax de l a variabilité du bruit reflète 1 a variance de I' estimateur de bruit. Elle est obtenue en fonction des valeurs de Sn, i et de Bn,~ calculées pour un certain nombre de trames précédentes sur lesquelles le signal de parole ne présente pas d'activité vocale dans Ia bande i . C' est une fonction des écarts ISn-k,i - Bn-k,' calculés pour un nombre K de trames de silence (n-k<_ n).
Dans l'exemple représenté, cette fonction est simplement le maximum (bloc 50). Pour chaque trame n, le degré
d'activité vocale ~n,i est comparé à un seuil (bloc 51) pour décider si l' écart ISn,i - Bn,il , calculé en 52-53, doit ou non être chargé dans une file d'attente 54 de K
emplacements organisée en mode premier entré-premier sorti (FIFO). Si ~~n,i ne dépasse pas le seuil (qui peut être égal à 0 si la fonction g() a la forme de la figure 5), la FIFO 54 n' est pas alimentée, tandis qu' elle l' est dans le cas contraire. La valeur maximale contenue dans Ia FIFO 54 est alors fournie comme mesure de variabilité OBni .
La mesure de variabilité OBnï peut, en variante, être obtenue en fonction des valeurs'Sn,f (et non Sn,i) et Bn~i. On procède alors de la mème manière, sauf que la FIFO
54 contient non pas I Sn-k,i - Bn-k,i pour chacune des bandes i, mais plutôt ~ max ~ ISn-k, f - Bn-k,il f E f (i-1) , f (i) Gràce aux estimations indépendantes des fluctua~ions à long terme du bruit Bn~i et de sa _.
variabil i té à court terme OBn ï , l' estimateur majoré ~n i procure une excellente robustesse aux bruits musicaux du procédé de débruitage.
Une première phase de la soustraction spectrale lû est ré~?isée par le module 55 représenté sur la figure 1.
Cette phase fournit, avec la résolution des bandes i (1<-i<_I), la réponse en fréquence Hn~i d'un premier filtre de débruitage, en fonction des composantes Sn~ i et Bn~; et des coefficients de surestimation an~i. Ce calcul peut être effectué pour chaque bande i selon la formule .
' 1 max Sn~i - an,i. Bn,i ' ~3i. Bn,i Hn,i - S ( 7 ) n-T4,i où i4 est un retard entier déterminé tel que z4>_0 (par exemple Z4=0) . Dans l' expression (7) , le coefficient j3i représente, comme le coefficient ~3pi de la formule (3), un plancher servant classiquement à éviter les valeurs négatives ou trop faibles du signal débruité.
De façon connue (EP-A-0 534 837), le coefficient de surestimation an~i pourrait être remplacé dans la formule (7) par un autre coefficient égal à une fonction de an~i et d'une estimation du rapport signal-sur-bruit (par exemple Sn~i/Bn,i), cette fonction étant décroissante _ WO 99/14737 PCT/FR98/01979 selon ia valeur estimée du rapport signal-sur-bruit. Cette fonction est alors égale à an~~ pour les valeurs 1 es plus faibles du rapport signal-sur-bruit. En effet, lorsque le signal est très bruité, il n'est a priori pas utile de diminuei le facteur de surestimation. Avantage~~sement, cette fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal/bruit. Ceci permet de protéger les zones les plus énergétiques du spectre, où le signal de parole est le plus significatif, la quantité soustraite l~ du signal tendant alors vers zéro.
Cette stratégie peut être affinée en l'appliquant de manière sélective aux harmoniques de la fréquence tonale (« pitch ») du signal de parole lorsque celui-ci présente une activité vocale.
15 Ainsi, dans la réalisation représentée sur la figure 1, une seconde phase de débruitage est réalisée par un module 56 de protection des harmoniques. Ce module calcule, avec Ia résolution de la transformée de Fourier, la réponse en fréquence Hn~f d'un second filtre de 20 débruitage en fonction des paramètres Hn~i, an,i' ~n,i' Sn' Sn~i et de la fréquence tonale fp=Fe/Tp calculée en dehors des phases de silence par un module d'analyse harmonique 57. En phase de silence (8n=0), le module 56 n'est pas en service, c'est-à-dire que Hn f = Hn i Pour cha ue q 25 fréquence f d'une bande i. Le module 57 peut appliquer toute méthode connue d'analyse du signal de parole de la trame pour déterminer la période Tp, exprimée comme un nombre entier ou fractionnaire d'échantillons, par exemple une méthode de prédiction linéaire.
30 La protection apportée par le module 56 peut consister à effectuer, pour chaque fréquence f appartenant à une bande i .

Sn~i - a,n~i. Bn~i > (31. Bn~1 Hn~ f = 1 s i et ~r~ entier ~ If - r). fp) _< ~f / 2 (9) Hn,f = Hn f sinon ~f=Fe/N représente la résolution spectrale àe la transformée de Fourier. Lorsque Hn~f =1, la quantité
soustraite de la composante Sn~f sera nulle. Dans ce calcul, les coefficients de plancher X31 (par exemple (31 = (3i ) expriment le fait que certaines harmoniques de la fréquence tonale fp peuvent être masquées par du :croit, àe sorte ûu'il n'est pas utile de les protéger.
Cette stratégie de protection est de préférence appliquée pour chacune des fréquences les plus proches des harmoniques de fp, c'est-à-dire pour r~ entier quelconque.
Si on désigne par 8fp la résolution fréquentielle avec laquelle le module d'analyse 57 produit la fréquence tonale estimée fp, c'est-à-dire que la fréquence tonale réelle est comprise entre fp-8fp/2 et fp+8fp/2, alors l'écart entre la r)-ième harmonique de la fréquence tonale réelle est son estimation r~xfp (condition (9)) peut aller j usqu' à ~ r~x8fp/2 . Pour les valeurs élevées de r~, cet écart peut être supérieur à la demi-résolution spectrale ~f/2 de la transformée de Fourier. Pour tenir compte de cette incertitude et garantir la bonne protection des harmoniques de la fréquence tonale réelle, on peut protéger chacune des fréquences de l'intervalle ~r~xfp- r~x$fp/2 , r~xfp+ r)x8fp/2J, c'est-à-dire remplacer la tcondition (9) ci-dessus par .
entier ~ f - r~. fpl _< ~r~. 8fp + G1f)/2 Cette façon de procéder (condition (9')) présente un intérêt particulier lorsque les valeurs de r~ peuvent être grandes, notamment dans le cas où le procédé est utilisé
dans un système à bande élargie.
Pour chaque fréquence protégée, la réponse en .
fréquence corrigée Hn~ f peut être égale à 1 comme indiqué
ci-dessus, ce qui correspond à la soustraction d'une quantité nulle dans le cadre de la soustraction spectrale, c'est-à-dire à une protection complète de la fréquence en question. Plus généralement, cette réponse en fréquence corrigée Hn~f pourrait être prise égale à une valeur comprise entre 1 et Hl selon le degré de protection r.,f souhaité, ce qui correspond à la soustraction d'une quantité inférieure à celle qui serait soustraite si la fréquence en question n'était pas protégée.
Les composantes spectrales Sn~f d'un signal débruité sont calculées par un multiplieur 58 .

Sn~f = Hn~f. Sn~f (10) Ce signal Sn~f est fourni à un module 60 qui calcule, pour chaque trame n, une courbe de masquage en appliquant un modèle psychoacoustique de perception.
auditive par l'oreille humaine.
Le phénomène de masquage est un principe connu du fonctionnement de l'oreille humaine. Lorsque deux fréquences sont entendues simultanément, il est possible que l'une des deux ne soit plus audible. On dit alors qu'elle est masquée.
I1 existe différentes méthodes pour calculer des courbes de masquage. On peut par exemple utiliser celle .
développée par J.D. Johnston («Transform Coding of Audio Signals Using Perceptual Noise Criteria », IEEE Journal on Selected Area in Communications, Vol. 6, No. 2, février 1988). Dans cette méthode, on travaille dans l'échelle fréquentielle des barks. La courbe de masquage est vus comme la convolution de la fonction d'étalement spectral de la membrane basilaire dans le domaine bark avec le signal excitateur, constitué dans la présente applica~ion par le signal Sn~f . La fonction d'étalement spectral peut être modélisée de la manière représer_tée sur la figure 7. Pour chaa_ue bande de bark, on calcule la contribution des bandes inférieures et supérieures convoluées par la fonction d'étalement de la membrane basilaire .

q-1 S Q S
, , C n~a n q n ' + ( 11 ) q ~ ~
~

' ~l Olo/lol(q-q) W) q J , 25/10 (~i 0 q -q+1 10 ~

o les indices q et q' dsignent les bandes e bark ( 0 ~ q. q' <-Q) . et Sn~q, reprs ente la moyenne des composantes Sn~f du signal excitateur débruité pour les fréquences discrètes f appartenant à la bande de bark q'.
15 Le seuil de masquage Mn~q est obtenu par le module 60 pour chaque bande de bark q, selon la formule .
(12) Mn. q Vin, q~Rq où Rq dépend du caractère plus ou moins voisé du signal.
De façon connue, une forme possible de Rq est 20 10 . 1og10 (Rq) - (A+q) .x + B . ( 1-x) ( 13 ) avec A=14,5 et B=5,5. x désigne un degré de voisement du signal de parole, variant entre zéro (pas de voisement) et 1 (signal fortement voisé). Le paramètre x peut être de la forme connue .
= min SFM ~ 1 (12) SFMmax où SFM représente, en décibels, le rapport entre la moyenne arithmétique et la moyenne géométrique de l'énergie des bandes de bark, et SFMmax=-60 dB.
Le système de débruitage comporte encore un module 62 qui corrige la réponse en fréquence du filtre de débruitage, en fonction de la courbe de masquage Mn~q calculée par le module 60 et des estimations majorées Bn,i calculées par le module 45. Le module 62 décide du niveau de débruitage qui doit réellement être atteint.
En comparant l'enveloppe de l'estimation majorée du bruit avec l'enveloppe formée par les seuils de masquage Mn~q, on décide de ne débruiter le signal que dans la mesure où l'estimation majorée Bn~1 àépasse la courbe de masquage. Ceci évite de supprimer inutilement du bruit masqué par de la parole.
La nouvelle réponse Hn~f, pour une fréquence r appartenant à ïa bande i définie par le module 12 et à la bande de bark q, dépend ainsi de l'écart relatif entre l'estimation majorée B"; de la composante spectrale correspondante du bruit et la courbe de masquage Mn~q, de la manière suivante Hn~ f = 1 - Cl - Hn~ f) . max Bn~~ ", Mn~q , 0 ( 14 ) Bn,i En d' autres termes, la quantité soustraite d' une composante spectrale Sn~f, dans le processus de soustraction spectrale ayant la réponse fréquentielle Hn~f, est sensiblement égale au minimum entre d'une part la quantité soustraite de cette composante spectrale dans le processus de soustraction spectrale ayant la réponse fréquentielle Hn~f, et d'autre part la fraction de l'estimation majorée Bn~i de la composante spectrale correspondante du bruit qui, le cas échéant, dépasse la courbe de masquage Mn~q.
La figure 8 illustre le principe de la correction appliquée par le module 62. Elle montre schématiquement un exemple de courbe de masquage Mn~q calculée sur la base des composantes spectrales Sn~f du signal débruité, ainsi que l'estimation majorée Bn~i du spectre du bruit. La quantité finalement soustraite des composantes S ~ sera r~ , celle représentée par les zones hachurées, c'est-à-dire limitée à la fraction de l'estimation majorée Bn~~ des composantes spectrales du bruit qui dépasse la courbe de masquage.
Cette soustraction est effectuée en multipliant 1a réponse fréquentielle H3 ~ du filtre de débruitage par les n,l composantes spectrales Sn~f du signaï de parole (multiplieur 64). Un module 65 reconstruit alors le signal débruité dans le domaine temporel, en opérant la transformée de Fourier rapide inverse (TFRI) inverse des échantillons de fréquence Sn~f délivrés par le multiplieur 64. Pour chaque trame, seuls les N/2=128 premiers échantillons du signal produit par le module 65 sont délivrés comme signal débruité final s3, après reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de 1a trame précédente (module 66).

Claims (7)

REVENDICATIONS
1. Procédé de détection d'activité vocale dans un signal de parole numérique (s) traité par trames successives, dans lequel on soumet le signal de parole à
un débruitage en tenant compte d'estimations du bruit compris dans le signal, mises à jour pour chaque trame d'une manière dépendante d'au moins un degré d'activité
vocale (.gamma. n,i) déterminé pour ladite trame, caractérisé en ce qu'on procède à un débruitage a priori du signal de parole de chaque trame sur la base d'estimations du bruit (.alpha.'n-t1,i- ~ n-t1,i) obtenues lors du traitement d'au moins une trame précédente, et on analyse les variations d'énergie du signal débruité a priori (~p n,i) pour détecter le degré
d'activité vocale de ladite trame.
2. Procédé selon la revendication 1, dans lequel le degré d'activité vocale (.gamma. n,i) est un paramètre non binaire.
3. Procédé selon la revendication 2, dans lequel le degré d'activité vocale (.gamma. n,i) est une fonction, variant continûment entre 0 et 1.
4. Procédé selon l'une quelconque des revendications précédentes, dans lequel les estimations du bruit sont obtenues dans différentes bandes fréquentielles du signal, le débruitage a priori est effectué bande par bande, et il est déterminé un degré d'activité vocale (.gamma. n,i) pour chaque bande.
5. Procédé selon l'une quelconque des revendications précédentes, dans lequel on obtient une estimation du bruit ~ n,i pour la trame n dans une bande de fréquences i sous la forme :

~n,i = .gamma. n,i.~n-1,i + (1-.gamma. n,i) . ~n,i avec ~n,i = .lambda.B.~n-1,i + (1-.lambda.B) . S n,1 où .lambda.B est un facteur d'oubli compris entre 0 et 1, .gamma.n,i est le degré d'activité vocale déterminé pour la trame n dans la bande de fréquences i, et S n,i est une moyenne de l'amplitude du spectre du signal de parole de la trame n sur la bande i.
6. Procédé selon la revendication 5, dans lequel le signal débruité a priori ~p n,i relativement à une trame n et à une bande de fréquences i est de la forme :

~p n,i = max{Hp n,i.S n,i, .beta.p i.~n-~l,i}

~1 est un entier au moins égal à 1, ~2 est un entier au moins égal à 0, .alpha.~-~1,i est un coefficient de surestimation déterminé pour la trame n-~1 et la bande i, et .beta. pi est un coefficient positif.
7. Procédé selon l'une quelconque des revendications précédentes, dans lequel on calcule une estimation à long terme (E n,i) de l'énergie du signal débruité a priori (~p n,i), et on compare cette estimation à long terme à une estimation instantanée (ba) de cette énergie, calculée sur la trame en cours, pour obtenir le degré d'activité vocale (.gamma.n,i) de ladite trame.
CA002304012A 1997-09-18 1998-09-16 Procede de detection d'activite vocale Abandoned CA2304012A1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9711640A FR2768544B1 (fr) 1997-09-18 1997-09-18 Procede de detection d'activite vocale
FR97/11640 1997-09-18
PCT/FR1998/001979 WO1999014737A1 (fr) 1997-09-18 1998-09-16 Procede de detection d'activite vocale

Publications (1)

Publication Number Publication Date
CA2304012A1 true CA2304012A1 (fr) 1999-03-25

Family

ID=9511227

Family Applications (1)

Application Number Title Priority Date Filing Date
CA002304012A Abandoned CA2304012A1 (fr) 1997-09-18 1998-09-16 Procede de detection d'activite vocale

Country Status (7)

Country Link
US (1) US6658380B1 (fr)
EP (1) EP1016071B1 (fr)
AU (1) AU9168898A (fr)
CA (1) CA2304012A1 (fr)
DE (1) DE69803202T2 (fr)
FR (1) FR2768544B1 (fr)
WO (1) WO1999014737A1 (fr)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
GB2367467B (en) 2000-09-30 2004-12-15 Mitel Corp Noise level calculator for echo canceller
GB2384670B (en) * 2002-01-24 2004-02-18 Motorola Inc Voice activity detector and validator for noisy environments
AUPS102902A0 (en) * 2002-03-13 2002-04-11 Hearworks Pty Ltd A method and system for reducing potentially harmful noise in a signal arranged to convey speech
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US8788265B2 (en) * 2004-05-25 2014-07-22 Nokia Solutions And Networks Oy System and method for babble noise detection
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US7983906B2 (en) * 2005-03-24 2011-07-19 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
WO2010035438A1 (fr) * 2008-09-26 2010-04-01 パナソニック株式会社 Appareil et procédé d'analyse de la parole
US20130282372A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9363603B1 (en) 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3840708A (en) * 1973-07-09 1974-10-08 Itt Arrangement to test a tasi communication system
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
US4277645A (en) * 1980-01-25 1981-07-07 Bell Telephone Laboratories, Incorporated Multiple variable threshold speech detector
US5212764A (en) 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
DE4012349A1 (de) * 1989-04-19 1990-10-25 Ricoh Kk Einrichtung zum beseitigen von geraeuschen
AU633673B2 (en) 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
EP0459362B1 (fr) 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Processeur de signal de parole
US5469087A (en) 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
SG49709A1 (en) * 1993-02-12 1998-06-15 British Telecomm Noise reduction
JP3685812B2 (ja) * 1993-06-29 2005-08-24 ソニー株式会社 音声信号送受信装置
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5555190A (en) 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin

Also Published As

Publication number Publication date
DE69803202T2 (de) 2002-08-29
FR2768544B1 (fr) 1999-11-19
AU9168898A (en) 1999-04-05
DE69803202D1 (de) 2002-02-21
US6658380B1 (en) 2003-12-02
FR2768544A1 (fr) 1999-03-19
EP1016071A1 (fr) 2000-07-05
EP1016071B1 (fr) 2002-01-16
WO1999014737A1 (fr) 1999-03-25

Similar Documents

Publication Publication Date Title
EP1016072B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
CA2304012A1 (fr) Procede de detection d&#39;activite vocale
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
US6351731B1 (en) Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
EP0594480A1 (fr) Procédé de détection de la parole
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
KR20110068637A (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
EP0490740A1 (fr) Procédé et dispositif pour l&#39;évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit.
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
EP1016073B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
EP2515300B1 (fr) Procédé et système de réduction du bruit
FR2797343A1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP1635331A1 (fr) Procédé d&#39;estimation d&#39;un rapport signal-bruit
EP4287648A1 (fr) Dispositif électronique et procédé de traitement, appareil acoustique et programme d&#39;ordinateur associés
FR3051958A1 (fr) Procede et dispositif pour estimer un signal dereverbere
FR2697937A1 (fr) Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé.
WO1999027523A1 (fr) Procede de reconstruction, apres debruitage, de signaux sonores

Legal Events

Date Code Title Description
FZDE Discontinued