EP1116216A1

EP1116216A1 - Procede et dispositif de detection d'activite vocale

Info

Publication number: EP1116216A1
Application number: EP00956596A
Authority: EP
Inventors: Stéphane LUBIARZ; Edouard Hinard; François CAPMAN; Philip Lockwood
Original assignee: Matra Nortel Communications SAS
Current assignee: Nortel Networks France SAS
Priority date: 1999-08-04
Filing date: 2000-08-02
Publication date: 2001-07-18
Also published as: WO2001011605A1; US7003452B1; FR2797343A1; AU6848400A; FR2797343B1

Abstract

On détecte une activité vocale dans un signal de parole numérique, dans au moins une bande de fréquences, par exemple au moyen d'un automate de détection dont l'état est contrôlé en fonction d'une analyse énergétique du signal. Le contrôle de cet automate, ou plus généralement la décision d'activité vocale, comprend une comparaison, dans la bande de fréquences, de deux versions différentes du signal de parole dont l'une au moins est une version débruitée.

Description

PROCEDE ET DISPOSITIF DE DETECTION D'ACTIVITE VOCALE

La présente invention concerne les techniques numériques de traitement de signaux de parole. Elle concerne plus particulièrement les techniques faisant appel à une détection d'activité vocale afin d'effectuer des traitements différenciés selon que le signal supporte ou non une activité vocale. Les techniques numériques en question relèvent de domaines variés : codage de la parole pour la transmission ou le stockage, reconnaissance de la parole, diminution du bruit, annulation d'écho...

Les méthodes de détection d'activité vocale ont pour principale difficulté la distinction entre l'activité vocale et le bruit qui accompagne le signal de parole.

Le document WO99/1 737 décrit un procédé de détection d'activité vocale dans un signal de parole numérique traité par trames successives, dans lequel on procède à un débruitage a priori du signal de parole de chaque trame sur la base d'estimations du bruit obtenues lors du traitement d'une ou plusieurs trames précédentes, et on analyse les variations d'énergie du signal débruité a priori pour détecter un degré d'activité vocale de la trame. Le fait de procéder à la détection d'activité vocale sur la base d'un signal débruité a priori améliore sensiblement les performances de cette détection lorsque le bruit environnant est relativement important.

Dans les méthodes habituellement utilisées pour détecter l'activité vocale, les variations d'énergie du signal (direct ou débruité) sont analysées par rapport à une moyenne à long terme de l'énergie de ce signal, une augmentation relative de l'énergie instantanée suggérant l'apparition d'une activité vocale.

Un but de la présente invention est de proposer un autre type d'analyse permettant une détection d'activité vocale robuste au bruit pouvant accompagner le signal de parole.

Selon l'invention, il est proposé un procédé de détection d'activité vocale dans un signal de parole numérique dans au moins une bande de fréquences, suivant lequel on détecte l'activité vocale sur la base d'une analyse comprenant une comparaison, dans ladite bande de fréquences, de deux versions différentes du signal de parole dont l'une au moins est une version débruitée obtenue en tenant compte d'estimations du bruit compris dans le signal. Ce procédé peut être exécuté sur toute la bande de fréquence du signal, ou par sous-bandes, en fonction des besoins de l'application utilisant la détection d'activité vocale.

L'activité vocale peut être détectée de manière binaire pour chaque bande, ou mesurée par un paramètre variant continûment et pouvant résulter de la comparaison entre les deux versions différentes du signal de parole.

La comparaison porte typiquement sur des énergies respectives, évaluées dans ladite bande de fréquences, des deux versions différentes du signal de parole, ou sur une fonction monotone de ces énergies. Un autre aspect de la présente invention se rapporte à un dispositif de détection d'activité vocale dans un signal de parole, comprenant des moyens de traitement de signal agencés pour mettre en œuvre un procédé tel que défini ci-dessus.

L'invention se rapporte encore à un programme d'ordinateur, chargeable dans une mémoire associée à un processeur, et comprenant des portions de code pour la mise en œuvre d'un procédé tel que défini ci-dessus lors de l'exécution dudit programme par le processeur, ainsi qu'à un support informatique, sur lequel est enregistré un tel programme.

D'autres particularités et avantages de la présente invention apparaîtront dans la description ci-après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels :

- la figure 1 est un schéma synoptique d'une chaîne de traitement de signal utilisant un détecteur d'activité vocale selon l'invention ;

- la figure 2 est un schéma synoptique d'un exemple de détecteur d'activité vocale selon l'invention ;

- les figures 3 et 4 sont des organigrammes d'opérations de traitement de signal effectuées dans le détecteur de la figure 2,

- la figure 5 est un graphique montrant un exemple d'évolution d'énergies calculées dans le détecteur de la figure 2 et illustrant le principe de la détection d'activité vocale ;

- la figure 6 est un diagramme d'un automate de détection mis en œuvre dans le détecteur de la figure 2 ;

- la figure 7 est un schéma synoptique d'une autre réalisation d'un détecteur d'activité vocale selon l'invention ; - la figure 8 est un organigramme d'opérations de traitement de signal effectuées dans le détecteur de la figure 7 ; - la figure 9 est un graphique d'une fonction utilisée dans les opérations de la figure 8

Le dispositif de la figure 1 traite un signal numérique de parole s La chaîne de traitement de signal représentée produit des décisions d'activité vocale δ_n . utilisables de façon connue en soi par des unités d'application, non représentées, assurant des fonctions telles que codage de la parole, reconnaissance de la parole, diminution du bruit, annulation d'écho Les décisions δ_n . peuvent comporter une résolution en fréquence (index j), ce qui permet d'enrichir des applications fonctionnant dans le domaine fréquentiel Un module de fenêtrage 10 met le signal s sous forme de fenêtres ou trames successives d'index n, constituées chacune d'un nombre N d'échantillons de signal numérique De façon classique, ces trames peuvent présenter des recouvrements mutuels Dans la suite de la présente description, on considérera, sans que ceci soit limitatif, que les trames sont constituées de N = 256 échantillons à une fréquence d'échantillonnage F_e de 8 kHz, avec une pondération de Hamming dans chaque fenêtre, et des recouvrements de 50 % entre fenêtres consécutives

La trame de signal est transformée dans le domaine fréquentiel par un module 11 appliquant un algorithme classique de transformée de Fouπer rapide (TFR) pour calculer le module du spectre du signal Le module 11 délivre alors un ensemble de N = 256 composantes fréquentielles du signal de parole, notées S_{n f}, où n désigne le numéro de la trame courante, et f une fréquence du spectre discret Du fait des propriétés des signaux numériques dans le domaine fréquentiel, seuls les N/2 = 128 premiers échantillons sont utilisés

Pour calculer les estimations du bruit contenu dans le signal s, on n' utilise pas la résolution fréquentielle disponible en sortie de la transformée de Fouπer rapide, mais une résolution plus faible, déterminée par un nombre I de sous-bandes de fréquences couvrant la bande [0, F_e/2] du signal Chaque sous-bande i (1 < i < I) s'étend entre une fréquence inférieure f(ι-1 ) et une fréquence supérieure f(ι), avec f(0) = 0, et f(l) = F_e/2 Ce découpage en sous- bandes peut être uniforme (f(ι)-f(ι-1 ) = F_e/2I) Il peut également être non uniforme (par exemple selon une échelle de barks) Un module 12 calcule les moyennes respectives des composantes spectrales S_{n f} du signal de parole par sous-bandes, par exemple par une pondération uniforme telle que s - ¹ y 'n.f

"^'' ^f(')-f ),_e[f(, >.f( [

Ce moyennage diminue les fluctuations entre les sous-bandes en moyennant les contributions du bruit dans ces sous-bandes, ce qui diminuera la vaπance de l'estimateur de bruit En outre, ce moyennage permet de diminuer la complexité du système

Les composantes spectrales moyennées S_n , sont adressées à un module 15 de détection d'activité vocale et à un module 16 d'estimation du bruit On note B_n , l'estimation à long terme de la composante de bruit produite par le module 16 relativement à la trame n et à la sous-bande i

Ces estimations à long terme B_n , peuvent par exemple être obtenues de la manière décrite dans WO99/14737 On peut aussi utiliser un simple lissage au moyen d'une fenêtre exponentielle définie par un facteur d'oubli λ_B

B n,ι = λ_R B B n— 1,ι +(1-λ_R ° )> S n,ι avec λ_B égal à 1 si le détecteur d'activité vocale 15 indique que la sous-bande i porte une activité vocale, et égal à une valeur comprise entre 0 et 1 sinon

Bien entendu, il est possible d'utiliser d'autres estimations à long terme représentatives de la composante de bruit comprise dans le signal de parole, ces estimations peuvent représenter une moyenne à long terme, ou encore un minimum de la composante S_n , sur une fenêtre glissante suffisamment longue

Les figures 2 à 6 illustrent une première réalisation du détecteur d'activité vocale 15 Un module de débruitage 18 exécute, pour chaque trame n et chaque sous-bande i, les opérations correspondant aux étapes 180 à 187 de la figure 3, pour produire deux versions débruitées Êp-| _n , , Êp2_fn,ι d^u signal de parole Ce débruitage est opéré par soustraction spectrale non-linéaire La première version Êp_{η n} , est débruitée de façon à ne pas être inférieure, dans le domaine spectral, à une fraction β1 , de l'estimation à long terme B_n._τι , La

seconde version Êp2_ιn,ι ^est débruitée de façon à ne pas être inférieure, dans le domaine spectral, à une fraction β2, de l'estimation à long terme B_n._τ-| , La quantité τ1 est un retard exprimé en nombre de trames, qui peut être fixe (par exemple τ1 = 1 ) ou variable. Il est d'autant faible qu'on est confiant dans la détection d'activité vocale. Les fractions β1_j et β2_j (telles que β1 _j > β2_;) peuvent être dépendantes ou indépendantes de la sous-bande i. Des valeurs préférées correspondent pour β1 _j à une atténuation de 10 dB, et pour β2_j à une atténuation de 60 dB, soit β1_s ≈ 0,3 et β2_s ≈ 0,001.

A l'étape 180, le module 18 calcule, avec la résolution des sous- bandes i, la réponse en fréquence Hp_{n j} du filtre de débruitage a priori, selon :

. . ^n,i ^{~ α}n-τ1,i-°n-τ1,i Pn,i = - ^ύn-τ2,i où τ2 est un retard entier positif ou nul et α'_{n i} est un coefficient de surestimation du bruit. Ce coefficient de surestimation α'_n -_i peut être dépendant ou indépendant de l'index de trame n et/ou de l'index de sous-bande i. Dans une réalisation préférée, il dépend à la fois de n et i, et il est déterminé comme décrit dans le document WO99/14737. Un premier débruitage est effectué à l'étape 181 : Êp_n = Hp_{n {}.S_{n t}. Aux étapes 182 à 184, les composantes spectrales Êp-j _{n s} sont calculées selon Êpι _{n i} = max Êp_n J ; β1j B_n__τi j), et aux

étapes 182 à 184, les composantes spectrales Ëp2_>n,i ^sont calculées selon

Êp2_ιn,i = max(Êp_n)i ; β2_i .B_n__{τ1 ι}j).

Le détecteur d'activité vocale 15 de la figure 2 comporte un module 19 qui calcule des énergies des versions débruitées du signal Êp-j _n et Êp2 _{n j} , respectivement comprises dans m bandes de fréquences désignées par l'index j (1 < j < m, m > 1 ). Cette résolution peut être la même que celle des sous- bandes définies par le module 12 (index i), ou une résolution moins fine pouvant aller jusqu'à l'ensemble de la bande utile [0, F_e/2] du signal (cas m = 1 ). A titre d'exemple, le module 12 peut définir 1 = 16 sous-bandes uniformes de la bande [0, F_e/2], et le module 19 peut conserver m = 3 bandes plus larges, chaque bande d'index j couvrant les sous-bandes d'index i allant de imin(j) à imax(j), avec imin(1 ) = 1 , imin(j+1) = imax(j) + 1 pour 1 ≤j < m, et imax(m) = I. A l'étape 190 (figure 3), le module 19 calcule les énergies par bande : imax(j)

El,n,J = Σ [f(i)-f(i-1)]-Ê_{Pl n>|} i=imin(j) imax(j) E_2,n_,j = ∑ [f(i)-f(i-D].Êp₂ ² _nιi i=iminO)

Un module 20 du détecteur d'activité vocale 15 effectue un lissage temporel des énergies E_{1 n} = et E_{2 n} -, pour chacune des bandes d'index j, ce qui correspond aux étapes 200 à 205 de la figure 4. Le lissage de ces deux énergies est effectué au moyen d'une fenêtre de lissage déterminée en comparant l'énergie E_{2 n j} de la version la plus débruitée à son énergie lissée précédemment calculée E2_ιn-i_,j . ^ou à ^une valeur de l'ordre de cette énergie lissée E2 n-l _,j (tests 200 et 201 ). Cette fenêtre de lissage peut être une fenêtre exponentielle définie par un facteur d'oubli λ compris entre 0 et 1. Ce facteur d'oubli λ peut prendre trois valeurs : l'une λ_r très proche de 0 (par exemple λ_r = 0) choisie à l'étape 202 si E_{2 n} -, ≤ E2,n-l ,j ; '^a seconde λ_q très proche de 1

(par exemple λ_q = 0,99999) choisie à l'étape 203 si E_{2 n} : > Δ. E_2ιn-ι_,j . ^Δ ©tant un coefficient plus grand que 1 ; et la troisième λ_p comprise entre 0 et λ_q (par exemple λ_p = 0,98) choisie à l'étape 204 si E2_ιn-i_,j < E_{2 n j} < Δ. E2_ιn-ι _,j - Le lissage exponentiel avec le facteur d'oubli λ est ensuite effectué classiquement à l'étape 205 selon :

Ëι_,n_,j = λ. Ë_{1 ιn}.₁ + (1-λ).E_{1 n j}

Ë2_,n_,j ⁼ λ. Ê_2ιn-₁ + (1-λ).E_{2 nj} Un exemple de variation dans le temps des énergies E_{1 n} =, E_{2 n} : et des énergies lissées E-) _n et E _ιn est représenté sur la figure 5. On voit qu'on arrive à un bon suivi des énergies lissées lorsqu'on détermine le facteur d'oubli sur la base des variations de l'énergie E_{2 n} ι correspondant à la version la plus débruitée du signal. Le facteur d'oubli λ_p permet de prendre en compte les augmentations de niveau du bruit de fond, les diminutions d'énergie étant suivies par le facteur d'oubli λ_r. Le facteur d'oubli λ_q très proche de 1 fait que les énergies lissées ne suivent pas les augmentations d'énergies brusques dues à la parole. Le facteur λ_q reste toutefois légèrement inférieur à 1 pour éviter les erreurs causées par une augmentation du bruit de fond pouvant survenir pendant une assez longue période de parole.

L'automate de détection d'activité vocale est contrôlé notamment par un paramètre résultant d'une comparaison des énergies E_{1 n} = et E_{2 n} =. Ce paramètre peut notamment être le rapport d_n = = E_{1 n} ; _{2 n} :. On voit sur la figure 5 que ce rapport d_n = permet de bien détecter les phases de parole

(représentées par des hachures).

Le contrôle de l'automate de détection peut également utiliser d'autres paramètres, tels qu'un paramètre lié au rapport signal-sur-bruit : snr_n : = E_{1 n} :/Eι _n , ce qui revient à prendre en compte une comparaison entre les énergies E_{1 n} = et E_{1 ιn} . Le module 21 de contrôle des automates relatifs aux différentes bandes d'index j calcule les paramètres d_n : et snr_nj à l'étape

210, puis détermine l'état des automates. Le nouvel état δ_n : de l'automate relatif à la bande j dépend de l'état précédent δ-,.., -. , de d_n : et de snr_n :, par exemple comme indiqué sur le diagramme de la figure 6.

Quatre états sont possibles : δ: = 0 détecte le silence, ou absence de parole ; δ:=2 détecte la présence d'une activité vocale ; et les états δ: = 1 et δ: = 3 sont des états intermédiaires de montée et de descente. Lorsque l'automate est dans l'état de silence (δ_p^ : = 0), il y reste si d_{n j} dépasse un premier seuil α1 ι, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée (δ_n_., = = 1), il revient dans l'état de silence si d_n : dépasse un second seuil α2= ; et il passe dans l'état de parole dans le cas contraire. Lorsque l'automate est dans l'état de parole (δ_n_., : = 2), il y reste si snr_n j dépasse un troisième seuil α3=, et il passe dans l'état de descente dans le cas contraire. Dans l'état de descente (δ-,.., = = 3), l'automate revient dans l'état de parole si snr_n : dépasse un quatrième seuil α4=, et il revient dans l'état de silence dans le cas contraire. Les seuils α1 α.2;, α3ι et α4= peuvent être optimisés séparément pour chacune des bandes de fréquences j. II est également possible que le module 21 fasse interagir les automates relatifs aux différentes bandes.

En particulier, il peut forcer à l'état de parole les automates relatifs à chacune des sous-bandes dès lors que l'un d'entre eux se trouve dans l'état de parole. Dans ce cas, la sortie du détecteur d'activité vocale 15 concerne l'ensemble de la bande du signal.

Les deux annexes à la présente description montrent un code source en langage C++, avec une représentation des données en virgule fixe, correspondant à une mise en œuvre de l'exemple de procédé de détection d'activité vocale décrit ci-dessus. Pour réaliser le détecteur, une possibilité est de traduire ce code source en code exécutable, de l'enregistrer dans une mémoire de programme associée à un processeur de traitement de signal approprié, et de le faire exécuter par ce processeur sur les signaux d'entrée du détecteur. La fonction a_priori_signal_power présentée en annexe 1 correspond aux opérations incombant aux modules 18 et 19 du détecteur d'activité vocale 15 de la figure 2. La fonction voice_activity_detector présentée en annexe 2 correspond aux opérations incombant aux modules 20 et 21 de ce détecteur.

Dans l'exemple particulier des annexes, les paramètres suivant ont été employés : τ1 = 1 ; τ2 = 0 ; β1_j = 0,3 ; β2_j = 0,001 ; m = 3 ; Δ = 4,953 ; λ_p = 0,98 ; λ_q = 0,99999 ; λ_r = 0 ; α1 _j = ct2_j = α = 1 ,221 ; α3_j = 1 ,649. Le

Tableau I ci-après donne les correspondances entre les notations employées dans la précédente description et dans les dessins et celles employées dans l'annexe.

TABLEAU I

Dans la variante de réalisation illustrée par la figure 7, le module de débruitage 25 du détecteur d'activité vocale 15 délivre une seule version débruitée Êp_n , du signal de parole, pour que le module 26 en calcule l'énergie

E_{2 n} : pour chaque bande j. L'autre version dont le module 26 calcule l'énergie est directement représentée par les échantillons non débruités S_{n j}.

Comme précédemment, diverses méthodes de débruitage peuvent être - i n appliquées par le module 25. Dans l'exemple illustré par les étapes 250 à 256 de la figure 8, le débruitage est opéré par soustraction spectrale non-linéaire avec un coefficient de surestimation du bruit dépendant d'une quantité p liée au rapport signal-sur-bruit. Aux étapes 250 à 252, un débruitage préliminaire est effectué pour chaque sous-bande d'index i selon :

S_n,i = max(s_nιi - ^.B_n__1|i ; β^.B_n__1ιi), le coefficient de surestimation préliminaire étant par exemple α = 2, et la fraction β pouvant correspondre à une atténuation du bruit de l'ordre de 10 dB. La quantité p est prise égale au rapport S'_{n j}/S_{n j} à l'étape 253. Le facteur de surestimation f(p) varie de façon non-linéaire avec la quantité p, par exemple comme représenté sur la figure 9. Pour les valeurs de p les plus proches de 0 (p < p.,), le rapport signal-sur-bruit est faible, et on peut prendre un facteur de surestimation f(p) = 2. Pour les valeurs les plus élevées de p (p₂ < p < 1 ), le bruit est faible et n'a pas besoin d'être surestimé (f(p)=1 ). Entre p₁ et p₂, f(p) décroît de 2 à 1 , par exemple linéairement. Le débruitage proprement dit, fournissant la version Êp_{n j} , est effectué aux étapes 254 à

256 :

Êp_{n j} = max(s_nιi - f(p).B_n__1]i ; β.B_n__1ιi).

Le détecteur d'activité vocale 15 considéré en référence à la figure 7 utilise, dans chaque bande de fréquences d'index j (et/ou en pleine bande), un automate de détection à deux états, silence ou parole. Les énergies E_{1 n} : et

E_{2 n} : calculées par le module 26 sont respectivement celles contenues dans les composantes S_n ; du signal de parole et celles contenues dans les composantes débruitées Êp_{n j} calculées sur les différentes bandes comme indiqué à l'étape 260 de la figure 8. La comparaison des deux versions différentes du signal de parole porte sur des différences respectives entre les énergies E_{1 n} = et E_{2 n}j et un minorant de l'énergie E_{2 n} : de la version débruitée.

Ce minorant E_{2min j} peut notamment correspondre à une valeur minimale, sur une fenêtre glissante, de l'énergie E_{2 n} ; de la version débruitée du signal de parole dans la bande de fréquences considérée. Dans ce cas, un module 27 stocke dans une mémoire de type premier entré - premier sorti (FIFO) les L valeurs les plus récentes de l'énergie E_{2 n} . du signal débruité dans chaque bande j, sur une fenêtre glissante représentant par exemple de l'ordre de 20 trames, et délivre les énergies minimales E2_m,n = min E2_ιn_k_,j

sur cette fenêtre (étape 270 de la figure 8) Dans chaque bande, cette énergie minimale E_2mιn , sert de minorant pour le module 28 de contrôle de l'automate

de détection, qui utilise une mesure M. donnée par M_j (étape

280)

L'automate peut être un simple automate binaire utilisant un seuil A., dépendant éventuellement de la bande considérée si M > A., le bit de sortie δ_n . du détecteur représente un état de silence pour la bande j, et si M. < A., il représente un état de parole En variante, le module 28 pourrait délivrer une mesure non binaire de l'activité vocale, représentée par une fonction décroissante de M. En variante, le minorant E_2mιn . utilisé à l'étape 280 pourrait être calculé à l'aide d'une fenêtre exponentielle, avec un facteur d'oubli II pourrait aussi être représenté par l'énergie sur la bande j de la quantité β B_n_-| , servant de plancher dans le débruitage par soustraction spectrale

Dans ce qui précède, l'analyse effectuée pour décider de la présence ou de l'absence d'activité vocale porte directement sur des énergies de versions différentes du signal de parole Bien entendu, les comparaisons pourraient porter sur une fonction monotone de ces énergies, par exemple un logarithme, ou sur une quantité ayant un comportement analogue aux énergies selon l'activité vocale (par exemple la puissance) ANNEXE 1

/*_****_**********_****_***_****_***************_*******_******_*******_****** _****** description

* NSS module:

* signal power before VAD

*

******************************************************************* ******/

/* *

* included files

* */ tinclude <assert.h>

#include "private.h"

/* *

* private

* */

Word32 power ( ordlβ module, Wordlβ beta, Wordlβ thd, Wordlβ val) ;

/* a_priori_signal_power */ void a_priori_signal_power

/* IN */ Wordlβ *E, ordlβ *internal_state, Wordlβ *max_noise, W ordlβ *long_term_noise, ordlβ *frequential_scale,

/* IN&OUT */ Wordlβ *alpha,

/* OUT */ ord32 *P1, ord32 *P2

)

{ int vad; for(vad = 0; vad < param. ad_number; vad++) { int start = param. vads [vad] . first_subband_for_power; int stop = param. ads [vad] . last_subband; int subband; int uniform_subband; uniform subband = 1; for (subband ≈ start; subband <= stop; subband++) if (param. subband_size [subband] != param. subband size [start] ) uniform_subband = 0;

PI [vad] = 0; move32 () ; P2 [vad] = 0; move32 () ; test(); if (sub (internal_state [vad] , NOISE) == 0) { for (subband = start; subband <= stop; subband++) {

Word32 pwr; ordlβ shift;

Wordlβ module;

Wordlβ alpha_long_term; alpha_long_term = shr (max_noise [subband] , 2); movelβO; test(); test(); if (su (alpha_long_term, long_term_noise [ subband] ) >= 0) { alpha [subband] = 0x7fff; movelβO; alpha_long_term = long_term_noise [subband] ; movelβO; } else if (sub (max_noise [subband] , long_term_noise [subban d]) < 0) { alpha [subband] = 0x2000; movelβO; alpha_long_term ≈ shr (long_term_noise [subband] , 2) ; mo vel6()

} else { alpha [subband] = div_s (alpha_long_term, long_term_noi se [subband] ) ; movelβO; } module = sub (E [subband] , shl (alpha long_term, 2)); movel

if (uniform_subband) { shift = shl (frequential_scale [subband] , 1); movelβO; } else { shift = add (param. subband_shift [subband] , shl(frequen tial_scale [subband] , 1)); movelβO; } pwr = power (module, param. beta_a_prioril, long_term_nois e [subband] , long_term_noise [subband] ) ; pwr = L_shr(pwr, shift); PI [vad] = L_add(Pl [vad] , pwr); move32 O ; pwr = power (module, param. beta_a_priori2, long_term_nois e [subband] , long_term_noise [subband] ) ; pwr = L_shr(pwr, shift);

P2[vad] = L_add(P2[vad] , pwr); move32 () ; } } else { for (subband = start; subband <= stop; subband++) { ord32 pwr;

Wordlβ shift;

Wordlβ module;

Wordlβ alpha_long_term; alpha_long_term = mult (alpha [subband] , long_term_noise [s ubband] ) ; movelβO; module = sub (E [subband] , shl (alpha_long_term, 2)); movel 6(); if (uniform_subband) { shift = shl (frequential_scale [subband] , 1); movelβO; } else { shift = add (param. subband_shift [subband] , shl(frequen tial_scale [subband] , 1)); movelβO; } pwr = power (module, param.beta_a_prioril, long_term_nois e [subband], E [subband]); pwr = L_shr(pwr, shift);

PI [vad] = L_add(Pl [vad] , pwr); move32 () ; pwr = power (module, param. beta_a_priori2, long_term_nois e [subband], E [subband]); pwr = L_shr(pwr, shift);

P2 [ vad] = L_add ( P2 [ vad] , pwr) ; move32 ( ) ; } } } }

*.

* power */

Word32 power (Wordlβ module, Wordlβ beta, Wordlβ thd, ordlβ val)

{ ord32 power; testO; if (sub (module, mult(beta, thd)) <= 0) { ordlβ hi, lo; power = L_mult(val, val); move32 O ;

L_Extract (power, &hi, &lo) ; power = Mpy_32_16 (hi, lo, beta); move32();

L_Extract (power, &hi, &lo) ; power ≈ Mpy_32_16 (hi, lo, beta); move32(); } else { power = L_mult (module, module); move32 O ;

} return (power) ; AN N EXE 2

/* ********_*********************_*************_************************ _******

* description

* . , , ,

* NSS module:

* VAD *

*******************************************************************

******

/* *

* included files

* */

#include <assert.h>

#include "private.h"

#include "simutool.h"

/* *

* private

* */

#define DELTA_P (1.6 * 1024]

#define D_NOISE (.2 * 1024)

#define D_SIGNAL (.2 * 1024)

#define SNR_SIGNAL (.5 * 1024)

#define SNR NOISE (.2 * 1024)

'* *

* voice_activity_detector */ void voice_activity_detector

(

/* IN */ ord32 *P1, ord32 *P2, ordlβ frame_counter,

/* IN&OUT */ ord32 *Pls, Word32 *P2s, ordlβ *internal_state,

/* OUT */ Wordlβ *state

)

{ int vad; int signal; int noise; signal = 0; movelβO; noise = 1; movelβO; for (vad = 0; vad < param. vad_number; vad++) {

Wordlβ snr, d;

Wordlβ logPl, logPls;

Wordlβ logP2, logP2s;

logP2 = logfix(P2 [vad] ) ; movelβO; logP2s = logfix(P2s [vad] ) ; movelβO test(); if (L_sub (P2 [vad] , P2s[vad]) > 0) { Wordlβ hil, loi; ordlβ hi2, lo2;

L_Extract (L_sub(Pl[vad] , Pis [vad] ) , &hil, &lol) ; ^• L_Extract (L_sub (P2 [vad] , P2s [vad] ) , &hi2, &lo2); test () ; if (sub (sub (logP2, logP2s), DELTA_P) < 0) {

Pls[vad] = L_add(Pls[vad] , L_shr (Mpy_32_16 (hil, loi, 0x6 βββ) , 4) ) ; move32() ;

P2s[vad] = L_add(P2s[vad] , L_shr (Mpy_32_16 (hi2, lo2, 0x6 βββ) , 4) ) ; move32() ; } else {

Plsfvad] = L_add(Pls[vad] , L_shr (Mpy_32_16 (hil, loi, 0x6 8db) , 13) ) ; move32 () ;

P2s[vad] = L_add(P2s[vad] , L_shr (Mpy_32_16 (hi2, lo2, 0x6 8db) , 13) ) ; move32 () ; } } else {

Pis [vad] = PI [vad]; move32 () ; P2s[vad] = P2[vad]; move32 O ; }

logPl = logfix (PI [vad] ) ; movelβO; logPls = logfix (Pis [vad] ) ; movelβO

d = subdogPl, logP2); movelβO; snr = sub(logPl, logPls); movelβO;

ProbeFixlβO'd", &d, 1, 1.); ProbeFixlβ ("_snr", &snr, 1, 1.);

Wordlβ pp;

ProbeFixlβO'pl", SlogPl, 1, 1.); ProbeFixlβ("p2", &logP2, 1, 1.); ProbeFixlβO'pls", SlogPls, 1, 1. ) ; ProbeFixlβ("p2s", &logP2s, 1, 1.); pp = logP2 - logP2s; ProbeFixlβC'dp", &pp, 1, 1.); test () ; if (sub (internal_state [vad] , NOISE) == 0) goto LABEL_NOISE; testO; if (sub (internal_state [vad] , ASCENT) == 0) goto LABEL_ASCENT; testO; if (sub (internal_state [vad] , SIGNAL) == 0) goto LABEL_SIGNAL; testO; if (sub (internal_state [vad] , DESCENT) == 0) goto LABEL_DESCENT;

LABEL_NOISE: testO; if (sub (d, D_NOISE) < 0) { internal_state [vad] = ASCENT; movelβO; } goto LABEL_END_VAD;

LABEL_ASCENT: testO; if (sub (d, D_SIGNAL) < 0) { internal_state [vad] = SIGNAL; movelβO; signal = 1; movelβO; noise = 0; movelβO; } else { internal_state [vad] = NOISE; movelβO;

} goto LABEL_END_VAD;

LABEL_SIGNAL: testO; if (sub (snr, SNR_SIGNAL) < 0) { internal_state [vad] = DESCENT; movelβO; } else { signal = 1; movelβO;

} noise = 0; movel6(); goto LABEL_END_VAD;

LABEL_DESCENT: testO; if (sub (snr, SNR_NOISE) < 0) { internal_state [vad] = NOISE; movel6(); } else { internal_state[vad] = SIGNAL; movelβO; signal = 1; movelβO; noise = 0; movelβO;

} goto LABEL_END_VAD;

LABEL END VAD:

}

*state = TRANSITION; movelβO; testO; testO; if (signal != 0) { testO; if (sub (frame_counter, param. init_frame_nurtιber) >= 0) { fo (vad = 0; vad < param. vad_number; vad++) { internal_state[vad] = SIGNAL; movelβO;

}

*state ≈ SIGNAL; movelβO;

} } else if(noise != 0) ^{

*state = NOISE; movel6()

}

Claims

R E V E N D I C A T I O N S

1. Procédé de détection d'activité vocale dans un signal de parole numérique (s) dans au moins une bande de fréquences, caractérisé en ce qu'on détecte l'activité vocale sur la base d'une analyse comprenant une comparaison, dans ladite bande de fréquences, de deux versions différentes du signal de parole dont l'une au moins est une version débruitée obtenue en tenant compte d'estimations du bruit compris dans le signal.

2. Procédé selon la revendication 1 , dans lequel ladite comparaison porte sur des énergies respectives (E_{1 n} =, E_{2 n} ;), évaluées dans ladite bande de fréquences, des deux versions différentes du signal de parole, ou sur une fonction monotone desdites énergies.

3. Procédé selon la revendication 1 ou 2, dans lequel ladite analyse comprend en outre un lissage temporel de l'énergie (E_{1 n} :) d'une desdites versions du signal de parole, et une comparaison entre l'énergie de ladite version et l'énergie lissée ( E-j _n ).

4. Procédé selon la revendication 3, dans lequel la comparaison entre l'énergie de ladite version (E_{1 n} =) et l'énergie lissée ( E_{1 n} ) contrôle les transitions d'un automate de détection d'activité vocale d'un état de parole vers un état de silence, tandis que la comparaison des deux versions différentes du signal de parole contrôle les transitions de l'automate de détection de l'état de silence vers l'état de parole.

5. Procédé selon l'une quelconque des revendications 1 à 4, dans lequel les deux versions différentes du signal de parole sont deux versions débruitées par soustraction spectrale non-linéaire, une première des deux versions (Êp-i _n ) étant débruitée de façon à ne pas être inférieure, dans le domaine spectral, à une première fraction (β1 _s) d'une estimation à long terme (B_n j) représentative d'une composante de bruit comprise dans le signal de parole, et la seconde des deux versions (Êp2_,n,i) é^tant débruitée de façon à ne pas être inférieure, dans le domaine spectral, à une seconde fraction (β2_j) de ladite estimation à long terme, plus petite que la première fraction.

6. Procédé selon la revendication 5, dans lequel on effectue un lissage temporel de l'énergie de chacune des deux versions du signal de parole, au moyen d'une fenêtre de lissage déterminée en comparant l'énergie (E_{2 n j}) de la seconde des deux versions à l'énergie lissée ( E^n ) de la seconde des deux versions.

7. Procédé selon la revendication 6, dans lequel la fenêtre de lissage est une fenêtre exponentielle définie par un facteur d'oubli (λ).

8. Procédé selon la revendication 7, dans lequel le facteur d'oubli (λ) a une valeur (λ_r) sensiblement nulle lorsque l'énergie (E_{2 n j}) de la seconde des deux versions est inférieure à une valeur de l'ordre de l'énergie lissée ( E2_ιn ) de la seconde des deux versions.

9. Procédé selon la revendication 8, dans lequel le facteur d'oubli (λ) a une première valeur (λ_q) sensiblement égale à 1 lorsque l'énergie (E_{2 n j}) de la seconde des deux versions est supérieure à ladite valeur de l'ordre de l'énergie lissée multipliée par un coefficient (Δ) plus grand que 1 , et une seconde valeur

(λ_p) comprise entre 0 et ladite première valeur lorsque l'énergie de la seconde des deux versions est supérieure à ladite valeur de l'ordre de l'énergie lissée et inférieure à ladite valeur de l'ordre de l'énergie lissée multipliée par ledit coefficient.

10. Procédé selon l'une quelconque des revendications 5 à 9, dans lequel les première et seconde fractions (β1 _jt β2_j) correspondent sensiblement à des atténuations de 10 dB et de 60 dB, respectivement.

11. Procédé selon l'une quelconque des revendications 1 à 10, dans lequel la comparaison des deux versions différentes du signal de parole porte sur des différences respectives entre les énergies (E_{1 n} E_{2 n} ι) de ces deux versions dans ladite bande de fréquences et un minorant (E_{2min j}) de l'énergie

(E_{2 n} :) de la version débruitée du signal de parole dans ladite bande de fréquences.

12. Procédé selon la revendication 11 , dans lequel l'une des deux versions différentes du signal de parole est une version non débruitée du signal de parole.

13. Dispositif de détection d'activité vocale dans un signal de parole, comprenant des moyens de traitement de signal (15) agencés pour mettre en œuvre un procédé selon l'une quelconque des revendications 1 à 12.

14. Programme d'ordinateur, chargeable dans une mémoire associée à un processeur, et comprenant des portions de code pour la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 12 lors de l'exécution dudit programme par le processeur.

15. Support informatique, sur lequel est enregistré un programme selon la revendication 14.