FR2768545A1 - Procede de conditionnement d'un signal de parole numerique - Google Patents

Procede de conditionnement d'un signal de parole numerique Download PDF

Info

Publication number
FR2768545A1
FR2768545A1 FR9711641A FR9711641A FR2768545A1 FR 2768545 A1 FR2768545 A1 FR 2768545A1 FR 9711641 A FR9711641 A FR 9711641A FR 9711641 A FR9711641 A FR 9711641A FR 2768545 A1 FR2768545 A1 FR 2768545A1
Authority
FR
France
Prior art keywords
signal
frequency
sep
frame
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9711641A
Other languages
English (en)
Other versions
FR2768545B1 (fr
Inventor
Philip Lockwood
Stephane Lubiarz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Matra Communication SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to FR9711641A priority Critical patent/FR2768545B1/fr
Application filed by Matra Communication SA filed Critical Matra Communication SA
Priority to US09/509,146 priority patent/US6775650B1/en
Priority to AU91687/98A priority patent/AU9168798A/en
Priority to PCT/FR1998/001978 priority patent/WO1999014744A1/fr
Priority to CA002304013A priority patent/CA2304013A1/fr
Priority to EP98943997A priority patent/EP1021805B1/fr
Priority to DE69802431T priority patent/DE69802431T2/de
Publication of FR2768545A1 publication Critical patent/FR2768545A1/fr
Application granted granted Critical
Publication of FR2768545B1 publication Critical patent/FR2768545B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Pour conditionner un signal numérique de parole (s) traité par trames successives, on en effectue une analyse harmonique pour estimer une fréquence tonale sur chaque trame où il présente une activité vocale, et on le suréchantillonne à une fréquence de suréchantillonnage (fe ) multiple de la fréquence tonale estimée.

Description

PROCEDE DE CONDITIONNEMENT D'UN SIGNAL DE PAROLE NUMERIQUE
La présente invention concerne les techniques numériques de traitement de signaux de parole.
De nombreuses représentations des signaux de parole tiennent compte de l'harmonicité de ces signaux résultant de la façon dont ils sont produits. Dards la plupart des cas, ceci se traduit par la détermination d'une fréquence tonale du signal de parole.
Les traitements numériques des signaux de parole ont récemment connu d'importants développements dans des domaines variés : codage de la parole pour la transmission ou le stockage, reconnaissance de la parole, diminution du bruit, annulation d'écho... Très fréquemment, ces traitements font intervenir une estimation de la fréquence tonale et des opérations particulières en liaison avec la fréquence estimée.
De nombreuses méthodes ont été conçues pour estimer la fréquence tonale. Une méthode couramment utilisée repose sur une prédiction linéaire par laquelle on évalue un retard de prédiction inversement proportionnel à la fréquence tonale. Ce retard peut être exprimé comme un nombre entier ou fractionnaire de temps d'échantillon du signal numérique. D'autres méthodes détectent directement des ruptures du signal attribuables aux fermetures de la glotte du locuteur, les intervalles de temps entre ces ruptures étant inversement proportionnels à la fréquence tonale.
Lorsqu'une transformation dans le domine fréquentiel, telle qu'une transformée de Fourier discrète, est opérée sur le signal de parole numérique, on est amené à considérer un spectre discret du signal de parole. Les fréquences discrètes considérées sont celles de la orme (a/N)xFe, où Ke est la fréquence d'échantillonnage, N le nombre d'échantillons des blocs utilisés dans la transformée de Fourier discrète, et a un entier allant de 0 à N/2-1. Ces fréquences ne comprennent pas nécessairement la fréquence tonale estimée et/ou ses harmoniques. Il en résulte une imprécision dans les opérations effectuées en liaison avec la fréquence tonale estimée, qui peut provoquer des distorsions du signal traité en affectant son caractère harmonique.
Un but principal de la présente invention est de proposer une façon de conditionner la signal de parole qui le rende moins sensible aux inconvénients ci-dessus.
L'invention propose ainsi un procédé de conditionnement d'un signal numérique de parole traité par trames successives, dans lequel on effectue une analyse harmonique du signal de parole pour estimer une fréquence tonale du signal de parole sur chaque trame où il présente une activité vocale. Après avoir estimé la fréquence tonale du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à une fréquence de suréchantillonnage multiple de la fréquence tonale estimée.
Cette disposition permet, dans le traitement effectué sur le signal de parole, de privilégier les fréquences les plus proches de la fréquence tonale estimée par rapport aux autres fréquences. On préserve donc au mieux le caractère harmonique du signal de parole. Pour calculer des composantes spectrales du signal de parole, on distribue le signal conditionné par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et on choisit le rapport entre la fréquence de suréchantillonnage et la fréquence tonale estimée comme un diviseur du nombre N.
La technique précédente peut encore être affinée en estimant la fréquence tonale du signal de parole sur une trame de la manière suivante
- on estime des intetvalles de temps entre deux ruptures consécutives du signal attribuas es à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;
- on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.
Cette façon de procéder construit artificiellement une trame de signal sur laquelle le signal de parole présente des ruptures à intervalles constants. On prend ainsi en compte d'éventuelles variations de a fréquence tonale sur la durée d'une trame.
Une amélioration supplémentaire consiste en ce que, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons égal à un multiple entier de fois le rapport entre la fréquence d'échantillonnage et la fréquence tonale estimée. Ceci évite les problèmes de distorsion provoqués pa les discontinuités de phase entre trames, qui ne sont généralement pas corrigées totalement par les techniques classiques de somme à recouvrement (overlap-add).
Le fait d'avoir conditionné le signal par la technique de suréchantillonnage permet d'obtenir une bonne mesure du degré de voisement du signal de parole sur la trame, à partir d'un calcul de l'entropie de l'autocorrelatîon des composantes spectrales calculées sur la base du signal conditionné. Plus le spectre est perturbé, c'est-à-dire plus il est voisé, plus les valeurs de l'entropie sont faibles. Le conditionnement du signal de parole accentue l'aspect irrégulier du spectre et donc les variations de l'entropie, de sorte que celle-ci constitue une mesure de bonne sensibilité.
Dans a suite de la présente description, on illustrera le procédé de conditionnement selon l'invention dans un système de débruitage d'un signal de parole. On comprendra que ce procédé peut trouver des applications dans de nombreux autres types de traitement numérique de a parole : codage, reconnaissance, annulation d'écho...
D'autres particularités et avantages de la présente invention apparaîtront dans la description ciaprès d'exemples de réalisation nor. limitatifs, en référence aux dessins annexés, dans lesquels
- la figure 1 est un schéma synoptique d'un système de débitage
- les figures 2 et 3 sont des organigrammes de procédures utilisées par un détecteur d'activité vocale du système de la figure 1
- la figure 4 est un diagramme représentant les états d'un automate de détection d'activité vocale
- la figure 5 est un graphique illustrant les variations d'un degré d'activité vocale
- la figure 6 est un schéma synoptique d'un module de surestimation du bruit du système de la figure 1 ;
- la figure 7 est un graphique illustrant le calcul d'une courbe de masquage ;
- la figure 8 est un graphique illustrant l'exploitation des courbes de masquage dans le système de la figure 1 ;
- la figure 9 est un schéma synoptique d'un autre système de débruitage mettant en oeuvre la présente invention
- la figure 10 est un graphique illustrant une méthode d'analyse harpon que utilisable dans un procédé selon l'invention ; et
- la figure 11 montre partiellement une variante du schéma synoptique de la figure .
Le système de débtutage représenté sur la figure 1 traite un signal numérique de parole s. Un module de fenêtrage 10 met ce signal s sous forme de fenêtres ou trames successives, constituées chacune d'un nombre N d'échantillons de signal numérique. De façon classique, ces trames peuvent présenter des recouvrements mutuels.
Dans la suite de la présente description, on considérera, sans que ceci soit limitatif, que les trames sont constituées de N=256 échantillons à une fréquence d'échantillonnage F e de 8 kHz, avec une pondération de
Hamming dans chaque fenêtre, et des recouvrements de 50% entre fenêtres consécutives.
La trame de signal est transformée dans le domaine fréquentiel par un module 11 appliquant un algorithme classique de transformée de Fourier rapide (TFR) pour calculer le module du spectre du signal. Le module 11 délivre alors un ensemble de N=256 composantes fréquentielles du signal de parole, notées Sn f, où n désigne le numéro de la trame courante, et f une fréquence du spectre discret. Du fait des propriétés des signaux numériques dans le domaine fréquertiel, seuls les N/2=128 premiers échantillons sont utilisés.
Pour calculer les estimations du bruit contenu dans le signal s, on n'utilise pas la résolution fréquentielle disponible en sortie de la transformée de
Fourier rapide, mais une résolution plus faible, déterminée par un nombre I de bandes de fréquences couvrant la bande [0,Fe/2] du signal. Chaque bande i (l < i < I) s'étend entre une fréquence inférieure f(i-) et une fréquence supérieure f(i), avec f(0)=0, et
Ce découpage en bandes de fréquences peut être uniforme (f(i)-f(i-1)=Fe/2I). il peut également être non uniforme (par exemple selon une échelle de barks) . Un module 12 calcule les moyennes respectives des composantes spectrales Sn f du signal de parole par bandes, par exemple par une pondération uniforme telle que
Figure img00060001
Ce moyennage diminue les fluctuations entre les bandes en moyennant les contributions du bruit dans ces bandes, ce qui diminuera la variance de l'estimateur de bruit. En outre, ce moyennage permet une forte diminution de la complexité du système.
Les composantes spectrales moyennées S, i sont adressées à un module 15 de détection d'activité vocale et à un module 16 d'estimation du bruit. Ces deux modules 15, 16 foncelonnent conjointement, en ce sens que des degrés d'activité vocale Zanzi mesurés pour les différentes bandes par le module 15 sont utilisés par le module 16 pour estimer l'énergie à long terme du bruit dans les différentes bandes, tandis que ces estimations à long terme B n ,i sont utilisées par le module 15 pour procéder à un débruitage a priori du signal de parole dans les différentes bandes pour déterminer les degrés d'activité vocale n,i
Le fonctionnement des modules 15 et 16 peut correspondre aux organigrammes représentés sur les figures 2 et 3.
Aux étapes 17 à 20, le module 15 procède au débruitage a priori du signal de parole dans les différentes bandes i pour la trame de signal n. Ce débruitage a priori est effectué selon un processus classique de soustraction spectrale non linéaire à partir d'estimations du bruit obtenues lors d'une ou plusieurs trames précédentes. A l'étape 17, le module 15 calcule, avec la résolution des bandes i, la réponse en fréquence
Hpn,i du filtre de débruitage a priori, selon la formule
Figure img00070001

où #1 et T2 sont des retards exprimés en nombre de trames (#1#1, 12 > 0), et &alpha;'n,i est un coefficient de surestimation du bruit dont la détermination sera expliquée plus loin.
Le retard #1 peut être fixe (par exemple #1=1) ou variable. Il est d'autant plus faible qu'on est confiant dans ia détection d'activité vocale.
Aux étapes 18 à 20, les composantes spectrales Êpn,i sont calculées selon
Figure img00070002

où ppi est un coefficient de plancher proche de 0, servant c assiquement à éviter que le spectre du signal débruité prenne des valeurs négatives ou trop faibles qui provoqueraient un bruit musical.
Les étapes 17 à 20 consistent donc essentiellement à soustraire du spectre du signal une estimation, majorée par le coefficient &alpha;'n-##1,i, du spectre du bruit estimé a priori.
A l'étape 21, le module 15 calcule l'énergie du signal débruité a priori dans les différentes bandes i pour la trame n : En,i = Epn,i2. Il calcule aussi une moyenne globale En,0 de l'énergie du signal débruité a priori, par une somme des énergies par bande En,i pondérée par les largeurs de ces bandes. Dans les notations ci-dessous, l'indice i=O sera utilisé pour désigner la bande globale du signal.
Aux étapes 22 et 23, le moduel 15 calcule, pour chaque bande i (0#i#I), une grandeur En,i représentant la variation à court terme de l'énergie du signal débruité dans la bande i, ainsi qu'une --alesr à long terme En, de l'énergie du signal débruité dans la bande i. La grandeur #En,i peut être calculée par une formule simplifiée de dérivation
Figure img00080001
Quant à l'énergie à long terme En,i, elle peut être calculée à 'a de d'un facteur d'oubli B1 tel que O < B1 < 1, à savoir
En,i = B1 . En-1,i + (1-B1) . En,i.
Après avoir calculé les énergies E n, i du signal débruité, ses variations à court terme hEn i et ses valeurs à long terme En,i de la manière indiquée sur la figure 2, le module 15 calcule, pour chaque bande i
(0#i#I), une valeur pi représentative de l'évolution de l'énergie du signal débruité. Ce calcul est effectué aux étapes 25 à 36 de la figure 3, exécutées pour chaque bande i entre i=O et i=I. Ce calcul fait appel à un estimateur à long terme de l'enveloppe du bruit bai, à un estimateur interne bii et à un compteur de trames bruitées bi.
A l'étape 25, la grandeur #En,i est comparée à un seuil el. Si le seuil 1 n'est pas atteint, le compteur bi est incrémenté d'une unité à l'étape 26. A l'étape 27, 1' estimateur à long terme ba est cort.paré à la valeur de l'énergie lissée En,i. Si ba1#En,i, :'estimateur ba est pris égal à la valeur lissée En,i à l'étape 28, et le compteur bi est remis à zéro. La grandeur Pl, qui est prise égale au rapport bai/En,i (étape 36), est alors égale à 1.
Si l'étape 27 montre que bai < En,i, le compteur bi est comparé à une valeur limite bmax à l'étape 29. Si bl > bmax, le signal est considéré corme trop stationnaire pour supporter de l'activité vocale. L'étape 28 précitée, qui revient à considérer que la trame ne comporte que du bruit, est alors exécutée. Si b. Sbmax à l'étape 29, l'estimateur interne bii est calculé à l'étape 33 selon
bii = (l-Bm) . En,î + Bm . bai (4)
Dans cette formule, Bm représente un coefficient de mise à jour compris entre 0,90 et 1. Sa valeur diffère selon l'état d'un automate de détection d'activité vocale (étapes 30 à 32). Cet état bn-1 est celui déterminé lors du traitement de la trame précédente. Si l'automate est dans un état de détection de parole (6n-î=2 à l'étape 30), le coefficient Bm prend une valeur Bmp très proche de 1 pour que l'estimateur du bruit soit très faiblement mis à jour en présence de parole. Dans le cas contraire, le coefficient Bm prend une valeur Bms plus faible, pour permettre une mise à jour plus significative de l'estimateur de bruit en phase de silence. A l'étape 34, l'écart bai-bii entre l'estimateur à long terme et I' estimateur interne du bruit est comparé à un seuil E2.
Si le seuil E2 n'est pas atteint, l'estimateur à long terme bai est mis à jour avec la valeur de l'estimateur interne di à l'étape 35. Sinon, l'estimateur à long terme bai reste inchangé. On évite ainsi que de brutales variations dues à un signal de parole conduisent à une mise à jour de l'estimateur de bruit.
Après avoir obtenu les grandeurs pi, le module 15 procède aux décisions d'activité vocale à l'étape 37. Le module 15 met d'abord à jour l'état de l'automate de détection selon la grandeur pO calculée pour l'ensemble de la bande du signal. e nouvel état bn de l'automate dépend de l'état précédent bn-1 et de #0, de la manière représentée sur la figure 4.
Quatre états sont possibles : 6=0 détecte le silence, ou absence de parole ; 6=2 détecte la présence d'une activité vocale ; et les états 6=1 et 6=3 sont des états intermédiaires de montée et de descente. Lorsque l'automate est dans l'état de silence (#n-1=0), il y reste si pO ne dépasse pas un premier seuil SE1, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée (#n-1=1), il revient dans l'état de silence si pO est plus petit que le seuil SE1, il passe dans l'état de parole si pO est plus grand qu'un second seuil SE2 plus grand que le seuil SE1, et il reste dans l'état de montée si SEî < po < SE2. Lorsque l'automate est dans l'état de parole (#n-1=2), il y reste si pO dépasse un troisième seuil SE3 plus petit que le seuil SE2, et il passe dans l'état de descente dans le cas contraire. Dans l'état de descente (6,~1=3) l'automate revient dans l'état de parole si pO est plus grand que le seuil SE2, il revient cens l'état de silence si pO est en deçà d'un quatrième seuil SE4 plus petit que le seuil SE2, et il reste dans 'état de descente si SE4 < po < SE2.
A l'étape 37, le module 15 calcule également les degrés d'activité vocale Yr i dans chaque bande ~ ill. Ce degré y, li est de préférence un paramètre non binaire, c' est-à-dire que la fonction Yn i=g(Pi) est une fonction variant continûment entre 0 et 1 en fonction des valeurs prises par la grandeur Pi. Cette fonction a par exemple 1' --11ure représentée sur la figure 5.
Le module 16 calcule les estimations du bruit par bande, qui seront utilisées dans le processus de débruitage, en utilisant les valeurs successives des composantes 5n, i et des degrés d'activité vocale
Ceci correspond aux étapes 40 à 42 de la figure 3. A l'étape 40, on détermine si l'automate de détection d'activité vocale vient de passer de l'état de montée à l'état de parole. Dans l'affirmative, les deux dernières estimations Bn-1,i et Bn-2,i précédemment calculées pour chaque bande i21 sont corrigées conformément à la valeur de l'estimation précédente Bn-3,i. Cette correction est effectuée pour tenir compte du fait que, dans la phase de montée (6=1), les estimations à long terme de l'énergie du bruit dans le processus de détection d'activité vocale
(étapes 30 à 33) ont pu être calculées comme si le signal ne comportait que du bruit (Bm=Bms), de sorte qu'elles risquent d'être entachées d'erreur.
A l'étape 42, le module 16 met à jour les estimations du bruit par bande selon les formules
Bn,i = #B. Bn-1,i + (1-#B) . Sn,i (5)
Bn,i 7n,1 Bn-1,i + (1-Gn,i) . Bn,i (6) où #B désigne un facteur d'oubli tel que O < RB < 1. La formule (6) met en évidence la prise en compte du degré d'activité vocale non binaire
Comme indiqué précédemment, les estimations à long terme du bruit Bn,i font l'objet d'une surestimation, par un module 45 (figure 1), avant de procéder au débruitage par soustraction spectrale non linéaire. Le module 45 calcule le coefficient de surestimation &alpha;n,i précédemment évoqué, ainsi qu'une estimation majorée Bn,i qui correspond essentiellement à &alpha;n,i . Bn,i.
L'organisation du module de surestimation 45 est représentée sur la figure 6. L'estimation majorée Bn,i est obtenue en combinant l'estimation à long terme Bn,i et une mesure #Bn,imax de la variabilité de la composante du bruit dans la bande i autour de son estimation à long terme.
Dans l'exemple considéré, cette combinaison est, pour l'essentIel, une simple somme réalisée par un additionneur 46. Ce pourrait également être une somme pondérée.
Le coefficient de surestimation a,1 est égal au rapport entre la somme Bn,i + Bmax. délivrée par l'additionneur 46 et l'estimation à long terme retardée BnT3,1 (diviseur 47), plafonné à une valeur limite amant par exemp e &alpha;max=4 (bloc 48). Le retard T3 sert à corriger le cas échéant, dans les phases de montée (6=1), la valeur du coefficient de surestimation &alpha;'n,i, avant que les estimations à long terme aient été corrigées par les étapes 40 et 41 de la figure 3 (par exemple T3=3).
L'estimation majorée Bn,i est finalement prise égale à a n,1 BF-43,i (multiplieur 49).
La mesure #Bn,imax de la variabilité du bruit reflète la variance de l'estimateur de bruit. Elle est obtenue en fonction des valeurs de 5n, i et de Bn,1 calculées pour un certain nombre de trames précédentes sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i. C'est une fonction des écarts
Figure img00130001

calculés pour un nombre K de trames de silence (n-k < n).
Dans l'exemple représenté, cette fonction est simplement le maximum (bloc 50). Pour chaque trame n, ie degré d'activité vocale &gamma;n,i est comparé à un seuil (bloc 51) pour décider si l'écart
Figure img00130002

calculé en 52-53, doit ou non être chargé dans une file d'attente 54 de K emplacements organisée en mode premier entré-premier sorti (FIFO). Si 7n ; ne dépasse pas le seuil (qui peut être égal à 0 si la for.ction g() a la forme de la figure 5), la
FIFO 54 n'est pas alimentée, tandis qu'elle l'est dans le cas contraire. La valeur maximale contenue dans la FIFO 54 est alors fournie comme mesure de variabilité #Bn,imax.
a mesure de variabilité ABn,imax peut, en variante, être obtenue en fonction des valeurs 5n, f (et non 5n, i) et
On ;. On procède alors de la même manière, sauf que la FIFO 54 continent non pas
Figure img00140001

pour chacune des bandes i, mais plutôt
Figure img00140002
Grâce aux estimations indépendantes des fluctuations à long terme du bruit Bni et de sa variabilité à court terme #Bn,imax, l'estimateur majoré B'n,i procure une excellente robustesse aux bruits musicaux du procédé de débruitage.
Une première phase de la soustraction spectrale est réalisée par le module 55 représenté sur la figure 1.
Cette phase fournit, avec la résolution des bandes i
(15i5I), la réponse en fréquence Hn,i1 d'un premier filtre de débruitage, en fonction des composantes Sn,i et Bn,i et des coefficients de surestimation a n,1 Ce calcul peut être effectué pour chaque bande i selon la formule
Figure img00140003

où T4 est un retard entier déterminé tel que x4 > 0 (par exemple 4=0). Dans l'expression (7), le coefficient représente, comme le coefficient ssPi de la formule (3), un plancher servant classiquement à éviter les valeurs négatives ou trop faibles du signal débruité.
De façon connue (EP-A-O 534 837), le coefficient de surestimation &alpha;n,i pourrait être remplacé dans la formule (7) par un autre coefficient égal à une fonction de a et d'une estimation du rapport signal-sur-brut (par exemple Sn,i/Bn,1)f cette fonction étant décroissante selon la valeur estimée du rapport signal-sur-bruit. Cette onction est alors égale à ani pour les valeurs les plus faibles du rapport signal-sur-bruit. En effet, lorsque le signal est très bruité, il n'est a priori pas utile de diminuer le facteur de surestimation. Avantageusement, cette fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal/bruit. Ceci permet de protéger
es zones les plus énergétiques du spectre, où le signal de parole est le plus significatif, la quantité soustraite du signal tendant alors vers zéro.
Cette stratégie peut être affinée en l'appliquant de manière sélective aux harmoniques de la fréquence tonale ( pitch ) du signal de parole lorsque celui-ci présente une activité vocale.
Ainsi, dans la réalisation représentée sur la
figure 1, une seconde phase de débruitage est réalisée par un module 56 de protection des harmoniques. Ce module calcule, avec la résolution de la transformée de Fourier, la réponse en fréquence H2n,f d'un second filtre de débruitage en fonction des paramètres H1 i &alpha;'n,i, Bn,i, 8n' Sn i et de la fréquence tonale fp=Fe/Tp calculée en dehors des phases de silence par un module d'analyse harmonique 57. En phase de silence (6r=0) le module 56 n'est pas en service, c'est-à-dire que "2 ,f = H li pour chaque fréquence f d'une bande i. Le module 57 peut appliquer toute méthode connue d'analyse du signal de parole de la trame pour déterminer la période Tp, exprimée comme un nombre entier ou fractionnaire d'échantillons, par exemple une méthode de prédiction linéaire.
La protection apportée par le module 56 peut consister à effectuer, pour chaque fréquence f appartenant à une bande i
Figure img00160001
<tb> <SEP> s <SEP> - <SEP> a'B <SEP> > <SEP> 2 <SEP> B
<tb> n,f <SEP> 1 <SEP> si <SEP> 4 <SEP> n,i <SEP> n,i <SEP> Bn,i <SEP> > <SEP> ss2i- <SEP> n,i <SEP> (8)
<tb> <SEP> et <SEP> 3rl <SEP> entier <SEP> E <SEP> |f <SEP> - <SEP> .fp| <SEP> < <SEP> Af <SEP> /2 <SEP> (9)
<tb> <SEP> 2 <SEP> i
<tb> Hn <SEP> f <SEP> = <SEP> Hn,E <SEP> sinon
<tb>
Af=Fe/N représente la résolution spectrale de la transformée de Fourier. Lorsque Hn,f2=1, la quantité soustraite de la composante Sn f sera nulle. Dans ce calcul, les coefficients de plancher ssi2 (par exemple QI = ssl) expriment le fait que certaines harmoniques de la fréquence tonale f p peuvent être masquées par du bruit, de sorte qu'il n'est pas utile de les protéger.
Cette stratégie de protection est de préférence appliquée pour chacune des fréquences les plus proches des harmoniques de fp, c'est-à-dire pour n entier quelconque.
Si on désigne par Afp la résolution fréquentielle avec laquelle le module d'analyse 57 produit la fréquence tonale estimée fp, c'est-à-dire que la fréquence tonale réelle est comprise entre fp-6fp/2 et fp+6fp/2, alors l'écart entre la -ième harmonique de la fréquence tonale réelle est son estimation nxfp (condition (9)) peut aller jusqu'à # #x#fp/2. Pour les valeurs élevées de , cet écart peut être supérieur à la demi-résolution spectrale <R la transformée de Fourrier. Pour tenlr compte de cette incertitude et garantir la bonne protection des harmoniques de la fréquence tonale réelle, on peut protéger chacune des fréquences de l'intervalle
Figure img00170001

c' est-à-dire remplacer la condition (9) ci-dessus par 3 entier
Figure img00170002
Cette façon de procéder (condition (9')) présente un intérêt particulier lorsque les valeurs de P peuvent être grandes, notamment dans le cas où le procédé est utilisé dans un système à bande élargie.
Pour chaque fréquence protégée, la réponse en fréquence corrigée H2If peut être égale à 1 comme indiqué ci-dessus, ce qui correspond à la soustraction d'une quantité nulle dans le cadre de la soustraction spectrale, c'est-à-dire à une protection complète de la fréquence en question. Plus généralement, cette réponse en fréquence corrigée H2 f pourrait être prise égale à une valeur comprise entre 1 et Hn,f1 selon le degré de protection souhaité, ce qui correspond à la soustraction d'une quantité inférieure à celle qui serait soustraite si la fréquence en question n'était pas protégée.
Les composantes spectrales Sn,f2 d'un signal débruité sont calculées par un multiplieur 58
Sn,f2 = Hn,f2.Sn,f (10) Ce signal s2 f est fourni à un module 60 qui calcule, pour chaque trame n, une courbe de masquage en appliquant un modèle psychoacoustique de perception auditive par l'oreille humaine.
Le phénomène de masquage est un principe connu du fonct onneme..l oe l'oreille humaine. Lorsque deux fréquences sont entendues simultanément, il est possible que l'une des deux ne soit plus audible. On dit alors qu'elle est masquée.
Il existe différentes méthodes pour calculer des courbes de masquage. On peut par exemple utiliser celle développée par J.D. Johnston ( Transform Coding of Audio
Signals Using Perceptual Noise Criteria , IEEE Journal on
Selected Area in Communications, Vol. 6, No. 2, février 1988). Dans cette méthode, on travaille dans l'échelle fréquentielle des barks. La courbe de masquage est vue coTme la convolution de la fonction d'étalement spectral de la membrane basilaire dans le domaine bark avec le signal excitateur, constitué dans la présente application par le signal Sn,f2. La fonction d'étalement spectral peut être modélisée de la manière représentée sur la figure 7. Pour chaque bande de bark, on calcule la contribution des bandes inférieures et supérieures convoluées par la fonction d'étalement de la membrane basilaire
Figure img00180001

où les indices q et q' désignent les bandes de bark 2 (0 < q,q' < Q), et Sn,q'2 représente la moyenne des composantes
Sn,f2 du signal excitateur débruité pour les fréquences discrètes f appartenant à la bande de bark q'.
Le seuil de masquage Mn,q est obtenu par le module 60 pour chaque bande de bark q, selon la formule
Mn,q = Cn,q/Rq (12) zù Rq dépend du caractère plus ou mois voisé du signal
De façon connue, une forme possible de Rq est
îO.log10(Rq) = (Aq) .x B.(1-X) (13) avec A=14,5 et B=5,5. X désigne un degré de voisement du signal de parole, variant entre zéro (pas de voisement) et 1 (signal fortement voisé). Le paramètre X peut être de la forme connue
Figure img00190001

où SFM représente, en décibels, le rapport entre la moyenne arithmétique et la moyenne géométrique de l'énergie des bandes de bark, et SFMmaX=-60 dB.
Le système de débruitage comporte encore un module 62 qui corrige la réponse en fréquence du filtre de débruitage, en fonction de la courbe de masquage M n, q calculée par le module 60 et des estimations majorées B'n,i calculées par ie module 45. Le module 62 décide du niveau de débruitage qui doit réellement être atteint.
En comparant l'enveloppe de l'estimation majorée du bruit avec l'enveloppe formée par les seuils de masquage M n, q, on décide de ne débruiter le signal que dans la mesure où l'estimation majorée Bn,1 dépasse la courbe de masquage. Ceci évite de supprimer inutilement du bruit masqué par de la parole.
La nouvelle réponse Hn,f3, pour une fréquence f appartenant à la bande i définie par le module 12 et à la bande de bark q, dépend ainsi de l'écart relatif entre l'estimation majorée B'n,i de la composante spectrale correspondante du bruit et la courbe de masquage M n, q, de la manière suivante
Figure img00200001
En d'autres termes, la quantité soustraite d'une composante spectrale Sn f, dans le processus de soustraction spectrale ayant la réponse fréquentielle
Hn,f3, est sensiblement égale au minimum entre d'une part la quantité soustraite de cette composante spectrale dans le processus de soustraction spectrale ayant la réponse
2 fréquentielle Hn f, et d'autre part la fraction de l'estimation majorée B'n,i de la composante spectrale correspondante du bruit qui, le cas échéant, dépasse la courbe de masquage
La figure 8 illustre le principe de la correction appliquée par le module 62. Elle montre schématiquement un exemple de courbe de masquage M n, q calculée sur la base des composantes spectrales Sn,f2 du signal débruité, ainsi que l'estimation majorée Bn,1 du spectre du bruit. La quantité finalement soustraite des composantes Sn,f sera celle représentée par les zones hachurées, c'est-à-dire limitée à la fraction de l'estimation majorée Bnli des composantes spectrales du bruit qui dépasse la courbe de masquage.
Cette soustraction est effectuée en multipLiant la réponse fréquentielle Hn,f3 du filtre de débruitage par Is composantes spectrales Sn f du signal de tarde (multiplieur 64). Un module 65 reconstruit alors le signal débruité dans le domaine temporel, en opérant la transformée de Fourier rapide inverse (TFRI) inverse des échantillons de fréquence Sn,f3 délivrés par le multiplieur 54. Pour chaque trame, seuls les N/2=128 premiers échantillons du signal produit par le module 65 sont délivrés comme signal débruité final s3, après reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente (module '6).
La figure 9 montre une forme de réalisation préférée d'un système de débruitage mettant en oeuvre l'invention. Ce système comporte un certain nombre d'éléments semblables à des éléments correspondants du système de la figure 1, pour lesquels on a utilisé les mêmes références numériques. Ainsi, les modules le, 11, 12, 15, 16, 45 et 55 fournissent notamment les quantités
Sn,i, Bn,1, &alpha;'n,i, Boni et Hn,f1 pour effectuer le bruitage sélectif.
La résolution en fréquence de la transformée de
Fourier rapide 11 est une limitation du système de la figure 1. En effet, la fréquence faisant l'objet de la protection par le module 56 n'est pas nécessairement la fréquence tonale précise f p' mais la fréquence la plus proche de celle-ci dans le spectre discret. Dans certains cas, on peut alors protéger des harmoniques relativement éloignées de celle de la fréquence tonale. Le système de la figure 9 pallie cet inconvénient gracie à un conditionnement approprié du signal de parole.
Dans ce conditionnement, on modifie la fréquence d' échantillonnage du signal de telle sorte que la période 1/f0 couvre exactement un nombre entier de temps d'échantillon du signal conditionne.
De nombreuses méthodes d'analyse harmonique pouvant être mises en oeuvre par le module 57 sont capables de fournir une valeur fractionnaire du retard Tpi exprimé en nombre d'échantillons à la fréquence d'échantillonnage initiale Fe On choisit alors une nouvelle fréquence d'échantillonnage fe de telle sorte qu'elle soit égale à un multiple entier de la fréquence tonale estimée, soit fe=P-fp=P-Fe/Tp=K-Fe, avec p entier. Afin de ne pas perdre d'échantillons de signal, il convient que f e soit supérieure à Fe On peut notamment imposer qu'elle soit comprise entre F e et 2Fe (1 < K < 2), pour faciliter la mise en oeuvre du conditionnement.
Bien entendu, si aucune activité vocale n'est détectée sur la trame courante (6nu0) w ou si le retard T p estimé par le module 57 est entier, il n'est pas nécessaire de conditionner le signal.
Afin que chacune des harmoniques de la fréquence tonale corresponde également à un nombre entier d'échantillons du signal conditionné, l'entier p doit être un diviseur de la taille N de la fenêtre de signal produite par le module 10 : N=ap, avec a entier. Cette taille N est usuellement une puissance de 2 pour la mise en oeuvre de la TFR. Elle est de 256 dans l'exemple considéré.
La résolution spectrale Af de la transformée de
Fourier discrète du signal conditionné est donnée par Af=p.fp/N=fp/a. On a donc intérêt à choisir p petit de façon à maximiser a, mais suffisamment grand pour surécnantillonner. Dans l'exemple considéré, où Fe=- kHz et N=256, les valeurs choisies pour les paramètres p et u sont indiquées dans le tableau I.
Figure img00230001
<tb>
<SEP> 500 <SEP> Hz <SEP> < <SEP> f <SEP> p <SEP> < <SEP> 1000 <SEP> Hz <SEP> 8 <SEP> < <SEP> T <SEP> p <SEP> < <SEP> 16 <SEP> p <SEP> = <SEP> 16 <SEP> a <SEP> = <SEP> 16
<tb> <SEP> 250 <SEP> Hz <SEP> < <SEP> f <SEP> p <SEP> < <SEP> 500 <SEP> Hz <SEP> 16 <SEP> < <SEP> T <SEP> p <SEP> < <SEP> 32 <SEP> p <SEP> = <SEP> 32 <SEP> a <SEP> = <SEP> 8
<tb> <SEP> 125 <SEP> Hz <SEP> < <SEP> f <SEP> p <SEP> < <SEP> 250 <SEP> Hz <SEP> 32 <SEP> < <SEP> T <SEP> p <SEP> < <SEP> 64 <SEP> p <SEP> = <SEP> 64 <SEP> a <SEP> = <SEP> 4
<tb> <SEP> 62,5 <SEP> Hz <SEP> < <SEP> fp <SEP> < <SEP> 125 <SEP> Hz <SEP> 64 <SEP> < <SEP> T <SEP> p <SEP> < <SEP> 128 <SEP> p <SEP> = <SEP> 128 <SEP> a <SEP> = <SEP> 2
<tb> 31,25 <SEP> Hz <SEP> < <SEP> fp <SEP> < <SEP> 62,5 <SEP> Hz <SEP> 128 <SEP> < <SEP> T <SEP> p <SEP> < <SEP> 256 <SEP> p <SEP> = <SEP> 256 <SEP> a <SEP> = <SEP> 1
<tb>
Tableau I
Ce choix est effectué par un module 70 selon la valeur du retard T p fournie par le module d'analyse harmonique 57. Le module 70 fournit le rapport K entre les fréquences d'échantillonnage à trois modules de changement de fréquence 71, 72, 73.
Le module 71 sert à transformer les valeurs Sn,i'
Bn,i, an i, li et H1 ,f' relatives aux bandes i défInies par le module 12, dans l'échelle des fréquences modIfiées (fréquence d'échantillonnage Cette Cette transformation consiste simplement à dilater les bandes i dans le facteur K. Les valeurs ainsi transformées sont fournies au module 56 de protection des harmoniques.
Celui-ci opère alors de la même manière que précédemment pour fournir la réponse en fréquence Hn,f2 du filtre de débruitage. Cette réponse Hn,f2 est obtenue de la même manière que dans le cas de la figure 1 (conditions
(8) et (9)), à cette différence près que, dans la condition (9), la fréquence tonale fp=fe/P est définie selon la valeur du retard entier p fourni par le module 70, la résolution en fréquence Af étant également fournie par ce module 70.
Le module 72 procède au suréchantillonnage de la trame de N échantillons fournie par le module de fenêtrage 10. ;e suréchantillonnage dans un facteur K rationnel (K=K1/X2) consiste à effectuer d'abord un suréchantillonnage dans le facteur entier K1, puis un sous-échantillonnage dans le facteur entier K2. Ces suréchantillonnage et sous-échantillonnage dans des facteurs entiers peuvent être effectués classiquement au moyen de bancs de filtres polyphase.
La trame de signal conditionné s' fournie par le module 72 comporte XN échantillons à la fréquence fe. Ces échantillons sont adressés à un module 75 qui calcule leur transformée de Fourier. La transformation peut être effectuée à partir de deux blocs de N=256 échantillons l'un constitué par les N premiers échantillons de la trame de longueur KN du signal conditionné s', et l'autre par les N derniers échantillons de cette trame. Les deux blocs présentent donc un recouvrement de (2-K)x1008. Pour chacun des deux blocs, on obvient un jeu de composantes de
Fourier Sn f. Ces composantes Sn,f sont fournies au multiplieur 58, qui les multiplie par la réponse spectrale
Hn,f2 pour délivrer les composantes spectrales 52 f du premier signal défruité.
Ces composantes s2 f sont adressées au module 60
n,E qui calcule les courbes de masquage de la manière précédemment indiquée.
De préférence, dans ce calcul des courbes de masquage, la grandeur X désignant le degré de voisement du signal de parole (formule (13)) est prise de la forme X=1-H, où H est une entropie de l'autocorrelation des composantes spectrales Sn,f2 du signal conditionné débruité. Les autocorrelatlons A(k) sont calculées par un module 76, par exemple selon la formule
Figure img00250001
Un module 77 calcule ensuite l'entropie normalisée
H, et la fournit au module 60 pour le calcul de la courbe de masquage (voir S.A. .NcClellan et al : Spectral
Entropy : an Alternative Indicator for Rate
Allocation ? , Proc. ICASSP'94, pages 201-204)
Figure img00250002
Grâce au conditIonnement du signal, ainsi qutà son débruitage par le filtre H2 ft l'entropie normalisée H constitue une mesure de voisement très robuste au bruit et aux variations de la fréquence tonale.
Le module de correction 62 opère de la même manière que celui du système de la figure 1, en tenant compte du bruit surestimé B'n,i remis à l'échelle par le module de changement de fréquence 71. Il fournit la réponse en fréquence Hn,f3 du filtre de débruitage définitif, qui est multipliée par les composantes spectrales 5n,f du signal conditionné par le multiplieur 64. Les composantes Sn,f3 qui en -ésultent sont ramenées dans le domaine temporel par le module de TFRI 65. En sortie de cette TFRI 65, un module 80 combine, pour chaque trame, les deux blocs de signal issus du traitement des deux blocs recouvrants délivrés par la TFR 75. Cette combinaison peut consister en une somme avec pondération de Hamming des échantillons, pour former une trame de signal conditionné débruité de KN échantillons.
Le signal conditionné débruité fourni par le module 80 fait l'objet d'un changement de fréquence d'échantillonnage par le module 73. Sa fréquence d'échantillonnage est ramenée à Fe= fe/K par les opérations inverses de celles effectuées par le module 75. Le module 73 délivre N=256 échantillons par trame. Après la reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente, seuls les
N/2=128 premiers échantillons de la trame courante sont finalement conservés pour former le signal débruité final s (module 66).
Dans une forme de réalisation préférée, un module 82 gère les fenêtres formées par le module 10 et sauvegardées par le module 66, de façon telle qu'on sauvegarde un nombre M d'échantillons égal à un multiple entier de Tp=Fe/fp. On évite ainsi les problèmes de discontinuité de phase entre les trames. De façon correspondante, le module de gestion 82 commande le module de fenêtrage 10 pour que le recouvrement entre la trame courante et la prochaine corresponde à N-M. Il sera tenu de ce recouvrement de N-M échantillons dans la somme à recouvrement effectuée par le module 66 lors du traitement de la prochaine trame. A partir de la valeur de T p fournie par le module d'analyse harmonique 57, le module 82 calcule le nombre d'échantillons à sauvegarder M=TpxE[N/(2Tp)], E[] désignant la partie entière, et
p p commande de façon correspondante les modules 10 et 66.
Dans le mode de réalisation qu'on vient de décrire, la fréquence tonale est estimée de façon moyenne sur la trame. Or la fréquence tonale peut varier quelque peu sur cette durée. I est possible de tenir compte de ces variations dans le cadre de la présente invention, en conditionnant le signal de façon à obtenir artificiellement une fréquence tonale constante dans la trame.
Pour cela, on a besoin que le module 57 d'analyse harmonique fournisse les intervalles de temps entre les ruptures consécutives du signal de parole attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame. Des méthodes utilisables pour détecter de telles micro-ruptures sont bien connues dans le domaine de l'analyse harmonique des signaux de paroles. On pourra à cet égard consulter les articles suivants : M. BASSEVILLE et al., Sequential detection of abrupt changes in spectral characteristics of digital signals , IEEE Trans. on rnformation Theory, 1983, Vol.
IT-29, n05, pages 708-723 ; R. ANDRE-OBRECHT, A new statistical approach for the automatic segmentation of continuous speech signals , IEEE Trans. on Acous., Speech and Sig. Proc., Vol. 36, N"1, janvier 1988 ; et C. MURGIA et al., An algorlthm for the estimation of glottal closure instants usina the sequential detection of abrupt changes in speech signals , Signal Processing VII, 1994, pages 1685-1688.
Le principe de ces méthodes est d'effectuer un test statistique entre deux modèles, l'un à court terme et l'autre à long terme. Les deux modèles sont des modèles adaptatifs de prédiction linéaire. La valeur de ce test statistique wm est la somme cumulée du rapport de vraisemblance a posteriori de deux distributions, corrigée par la divergence de Kullback. Pour une distribution de résidus ayant une statistique gaussienne, cette valeur wm est donnée par
Figure img00280001

où em0 et #02 représentent le résidu calculé au moment de l'échantillon m de la trame et la variance du modèle à long terme, em1 et #12 représentant de même le résidu et la variance du modèle à court terme. Plus les deux modèles sont proches, plus la valeur wm du test statistique est proche de 0. Par contre, lorsque les deux modèles sont éloignés l'un de l'autre, cette valeur wm devient négative, ce qui dénote une rupture R du signal.
La figure 10 montre ainsi un exemple possible d'évolution de la valeur wm, montrant les ruptures R du signal de parole. Les intervalles de temps tr (r = 1,2,...) entre deux ruptures consécutives R sont calculés, et exprimés en nombre d'échantillons du signal de parole. Chacun de ces intervalles t r est inversement proportionnel à la fréquence tonale fp, qui est ainsi estimée localement : fp=Fe/tr sur le r-ième intervalle.
On peut alors corriger les variations temporelles de la fréquence tonale (c'est-à-dire le fait que les intervalles t r ne sont pas tous égaux sur une trame donnée), afin d'avoir une fréquence tonale constante dans chacune des trames d'analyse. Cette correction est effectuée par une modification de la fréquence 'échantillonnage sur chaque intervalle trot de façon à obtenir, après suréchantillonnage, des intervalles constants entre deux ruptures glottiques. On modifie donc la durée entre deux ruptures en faisant un suréchantillonnage dans un rapport variable, de façon à se caler sur l'intervalle le plus grand. De plus, on fait en sorte de respecter la contrainte de conditionnement selon laquelle la fréquence de suréchantillonnage est multiple de la fréquence tonale estimée.
La figure 11 montre les moyens utilisés pour calculer le conditionnement du signal dans ce dernier cas.
;e module 57 d'analyse harmonique est réalisé de façon à rentre en oeuvre la méthode d'analyse ci-dessus, et à fournir les intervalles t r relatifs à la trame de signal produite par le module 10. Pour chacun de ces intervalles, le module 70 (bloc 90 sur la figure 11) calcule le rapport de suréchantillonnage Kr=pr/tr, où l'entier Pr est donné par la troisième colonne du tableau I lorsque tr prend les valeurs indiquées dans la deuxième colonne. Ces rapports de suréchantillonnage Kr sont fournis aux modules de changement de fréquence 72 et 73, pour que les interpolations soient effectuées avec le rapport d'échantillonnage Kr sur l'intervalle de temps correspondant tr
Le plus grand T p des intervalles de temps tr fournis par le module 57 pour une trame est sélectionné par le module 70 (bloc 91 sur la figure 11) pour obtenir un couple p,a comme indiqué dans le tableau I. La
réquence d'échantillonnage modifiée est alors fe=P.re/Tp comme précédemment, la résolution spectrale Af de la transformée de Fourier discrète du signal conditionné étant toujours donnée par Af=Fe/(a.Tp). Pour le module de changement de fréquence 71, e rapport de suréchantillonnage K est donné par K=p/p (bloc 92). Le module 56 de protection des harmoniques de la fréquence tonale opère de la même manière que précédemment, en utilisant pour la condition (9) la résolution spectrale Af fournie par le bloc 91 et la fréquence tonale fp=fe/P définie selon la valeur du retard entier p fournie par le bloc 91.
Cette forme de réalisation de l'invention implique également une adaptation du module 82 de gestion des fenêtres. Le nombre M d'échantillons du signal débruité à sauvegarder sur la trame courante correspond ici à un nombre entier d'intervalles de temps t r consécutifs entre deux ruptures glottiques (voir figure 10). Cette disposition évite les problèmes de discontinuité de phase entre trames, tout en tenant compte des variations possibles des intervalles de temps t r sur une trame.

Claims (8)

REVENDICATIONS
1. Procédé de condtionnement d'un signal nu.~ér-aue de parole (s) traité par trames successives, caractérisé en ce qu'on effectue une analyse harmonique du signal de parole pour estimer une fréquence tonale (fp) du signal de parole sur chaque trame où il présente une activité vocale, et en ce que, après avoir estimé la fréquence tonale du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à une fréquence de suréchantillonnage (fe) multiple de la fréquence tonale estimée.
2. Procédé selon la revendication 1, dans lequel on calcule des composantes spectrales (Sn,f) du signal de parole en distribuant le signal conditionné (s') par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et dans lequel le rapport (p) entre la fréquence de suréchantillonnage (fe) et la fréquence tonale estimée est un diviseur du nombre N.
3. Procédé selon la revendication 2, dans lequel le nombre N est une puissance de 2.
4. Procédé selon la revendication 2 ou 3, dans
equel on estime un degré de voisement (X) du signal de parole sur la trame à partir d'un calcul de l'entropie (H) de l'autocorreîation de composantes spectrales 2 3 calculées sur la base du signal conditionné (s').
5. Procédé selon la revendication 4, dans lequel le degré de voisement (x) est mesuré à partir une entropie normalisée H de la forme
Figure img00310001
où A(k) est l'autocorrelation normalisée définie par
Figure img00320001
s2 f dés gnant ladite composante spectrale de rang f n,E calculée sur la base du signal suréchantillonné.
6. Procédé selon l'une quelconque des revendications précédentes, dans lequel, après le traitement de chaque trame de signal conditionné, on conserve, parmi les échantillons de signal fournis par ce traitement, un nombre d'échantillons (M) égal à un multiple entier de fois le rapport (Tp) entre la fréquence d'échantillonnage (Fe) et la fréquence tonale estimée (fp).
7. Procédé selon l'une quelconque des revendications 1 à 5, dans lequel l'estimation de la fréquence tonale du signal de parole sur une trame comporte les étapes suivantes
- on estime des intervalles de temps (tir) entre deux ruptures consécutives (R) du signal attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps
- on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné (s') résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.
8. Procédé selon la revendication 7, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) correspondant à un nombre entier d' intervalles de temps estimés (tr).
FR9711641A 1997-09-18 1997-09-18 Procede de conditionnement d'un signal de parole numerique Expired - Fee Related FR2768545B1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
FR9711641A FR2768545B1 (fr) 1997-09-18 1997-09-18 Procede de conditionnement d'un signal de parole numerique
AU91687/98A AU9168798A (en) 1997-09-18 1998-09-16 Method for conditioning a digital speech signal
PCT/FR1998/001978 WO1999014744A1 (fr) 1997-09-18 1998-09-16 Procede de conditionnement d'un signal de parole numerique
CA002304013A CA2304013A1 (fr) 1997-09-18 1998-09-16 Procede de conditionnement d'un signal de parole numerique
US09/509,146 US6775650B1 (en) 1997-09-18 1998-09-16 Method for conditioning a digital speech signal
EP98943997A EP1021805B1 (fr) 1997-09-18 1998-09-16 Procede et disposition de conditionnement d'un signal de parole numerique
DE69802431T DE69802431T2 (de) 1997-09-18 1998-09-16 Verfahren und vorrichtung zur verbesserung eines digitalen sprachsignals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9711641A FR2768545B1 (fr) 1997-09-18 1997-09-18 Procede de conditionnement d'un signal de parole numerique

Publications (2)

Publication Number Publication Date
FR2768545A1 true FR2768545A1 (fr) 1999-03-19
FR2768545B1 FR2768545B1 (fr) 2000-07-13

Family

ID=9511228

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9711641A Expired - Fee Related FR2768545B1 (fr) 1997-09-18 1997-09-18 Procede de conditionnement d'un signal de parole numerique

Country Status (7)

Country Link
US (1) US6775650B1 (fr)
EP (1) EP1021805B1 (fr)
AU (1) AU9168798A (fr)
CA (1) CA2304013A1 (fr)
DE (1) DE69802431T2 (fr)
FR (1) FR2768545B1 (fr)
WO (1) WO1999014744A1 (fr)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1278185A3 (fr) * 2001-07-13 2005-02-09 Alcatel Procédé pour améliorer la reduction de bruit lors de la transmission de la voix
US7103539B2 (en) * 2001-11-08 2006-09-05 Global Ip Sound Europe Ab Enhanced coded speech
AU2003276754A1 (en) * 2002-11-07 2004-06-07 Samsung Electronics Co., Ltd. Mpeg audio encoding method and apparatus
ES2619277T3 (es) * 2007-08-27 2017-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector de transitorio y método para soportar la codificación de una señal de audio
US8494842B2 (en) * 2007-11-02 2013-07-23 Soundhound, Inc. Vibrato detection modules in a system for automatic transcription of sung or hummed melodies
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US9384729B2 (en) * 2011-07-20 2016-07-05 Tata Consultancy Services Limited Method and system for detecting boundary of coarticulated units from isolated speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5641927A (en) * 1995-04-18 1997-06-24 Texas Instruments Incorporated Autokeying for musical accompaniment playing apparatus

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0287741B1 (fr) * 1987-04-22 1993-03-31 International Business Machines Corporation Procédé et dispositif pour modifier le débit de parole
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
AU633673B2 (en) 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
EP0459362B1 (fr) 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Processeur de signal de parole
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
FR2679689B1 (fr) * 1991-07-26 1994-02-25 Etat Francais Procede de synthese de sons.
US5469087A (en) 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US5555190A (en) 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
WO1999010719A1 (fr) * 1997-08-29 1999-03-04 The Regents Of The University Of California Procede et appareil de codage hybride de la parole a 4kbps
US6064955A (en) * 1998-04-13 2000-05-16 Motorola Low complexity MBE synthesizer for very low bit rate voice messaging

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5641927A (en) * 1995-04-18 1997-06-24 Texas Instruments Incorporated Autokeying for musical accompaniment playing apparatus

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DATABASE INSPEC INSTITUTE OF ELECTRICAL ENGINEERS, STEVENAGE, GB; BRISTOW-JOHNSON: "A detailed analysis of a time-domain formant-corrected pitch-shifting algorithm", XP002068716 *
JOURNAL OF THE AUDIO ENGINEERING SOCIETY, vol. 43, no. 5, May 1995 (1995-05-01), US, pages 340 - 352, XP002068182 *
MURGIA ET AL.: "An algorithm for the estimation of glottal closure instants using the sequential detection of abrupt changes in speech signals", PROCEEDINGS OF EUSIPCO-94 - 7TH EUROPEAN SIGNAL PROCESSING CONFERENCE, vol. 3, 13 September 1994 (1994-09-13) - 16 September 1994 (1994-09-16), EDINBURGH, GB, pages 1685 - 1688, XP002068556 *

Also Published As

Publication number Publication date
FR2768545B1 (fr) 2000-07-13
DE69802431D1 (de) 2001-12-13
EP1021805B1 (fr) 2001-11-07
WO1999014744A1 (fr) 1999-03-25
CA2304013A1 (fr) 1999-03-25
US6775650B1 (en) 2004-08-10
DE69802431T2 (de) 2002-07-18
AU9168798A (en) 1999-04-05
EP1021805A1 (fr) 2000-07-26

Similar Documents

Publication Publication Date Title
EP1016072B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
EP2002428B1 (fr) Procede de discrimination et d&#39;attenuation fiabilisees des echos d&#39;un signal numerique dans un decodeur et dispositif correspondant
US20030023430A1 (en) Speech processing device and speech processing method
EP1016071B1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP0490740A1 (fr) Procédé et dispositif pour l&#39;évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit.
EP1016073B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
FR2797343A1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP2515300B1 (fr) Procédé et système de réduction du bruit
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
FR3051958A1 (fr) Procede et dispositif pour estimer un signal dereverbere
EP4287648A1 (fr) Dispositif électronique et procédé de traitement, appareil acoustique et programme d&#39;ordinateur associés
WO2002091362A1 (fr) Procede d&#39;extraction de parametres d&#39;un signal audio, et codeur mettant en oeuvre un tel procede
FR2697937A1 (fr) Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé.

Legal Events

Date Code Title Description
CD Change of name or company name
CJ Change in legal form
ST Notification of lapse