FR2697937A1 - Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé. - Google Patents

Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé. Download PDF

Info

Publication number
FR2697937A1
FR2697937A1 FR9213397A FR9213397A FR2697937A1 FR 2697937 A1 FR2697937 A1 FR 2697937A1 FR 9213397 A FR9213397 A FR 9213397A FR 9213397 A FR9213397 A FR 9213397A FR 2697937 A1 FR2697937 A1 FR 2697937A1
Authority
FR
France
Prior art keywords
autocorrelation
counter
excitations
periodic
excitation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR9213397A
Other languages
English (en)
Inventor
Laurent Pierre Andre
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thomson CSF SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson CSF SA filed Critical Thomson CSF SA
Priority to FR9213397A priority Critical patent/FR2697937A1/fr
Priority to EP93402670A priority patent/EP0596785A1/fr
Publication of FR2697937A1 publication Critical patent/FR2697937A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Le procédé de discrimination de la parole en présence de bruits ambiants consiste pour analyser un signal Sn composé de la somme d'un nombre K déterminé d'excitations périodiques et d'une excitation apériodique, à calculer (1) l'autocorrélation globale rm du signal Sn , à calculer (2) les sommes partielles tm de l'autocorrélation à court terme sm corrélée avec l'autocorrélation globale rm , à initialiser (3) un compteur k et tant que le compteur k n'atteint pas la valeur maximale K correspondant au nombre maximal d'excitations périodiques (6), pour chaque incrémentation (4) du compteur k, après avoir corrigé (7) le calcul des sommes partielles tm , à calculer (5) les valeurs du pitch Mk , du gain betak et de la pente du gain alphak de chaque excitation périodique, et à déterminer le niveau de l'excitation apériodique beta0 en fonction de l'autocorrélation globale rm en début d'analyse et de l'autocorrélation globale rm en fin d'analyse. Application: vocodeurs faible débit.

Description

i Procédé de discrimination de la parole en présence de bruits ambiants et
vocodeur à faible débit
pour la mise en oeuvre du procédé.
La présente invention concerne un procédé de discrimination de la parole en présence de bruits ambiants et un vocodeur à faible débit pour
la mise en oeuvre du procédé.
La qualité des vocodeurs de type LPC 10 (prédiction linéaire d'ordre ) est souvent jugée insuffisante, notamment en termes d'agrément d'écoute, de fidélité au locuteur, et de résistance aux bruits ambiants
notamment aux bruits ambiants structurés de nature périodique ou quasi-
périodique. Le principe même de ce type de vocodeur conduit à une fidélité limitée car il part de l'hypothèse que le signal à coder est exclusivement de la parole et, qui plus est, que cette parole peut être représentée sous une forme simple telle que du bruit filtré, ou une excitation périodique
elle aussi filtrée.
Si le signal à coder ne répond pas à cette définition, par exemple un signal semi-périodique, ou un mélange de plusieurs signaux, la qualité
de reproduction est médiocre.
Pour améliorer la qualité de reproduction de la parole, différentes méthodes connues, consistent à utiliser, par exemple, un vocodeur haut
débit de 4800 bits/seconde et à réduire ce débit à 2400 bits/seconde.
Aucune hypothèse n'est faite sur la nature du signal à coder, le but de ces méthodes consistant uniquement à reproduire le plus fidèlement
possible la forme d'onde du signal d'entrée.
Parmi ces méthodes, on peut citer la méthode dite des ondelettes qui est une représentation du signal par une combinaison de formes d'onde bien localisées en temps et en fréquence, l'analyse harmonique qui est une représentation du signal par une combinaison de sinusoïdes harmoniques les unes des autres et, le CELP abréviation anglo-saxonne pour Code Excited Linear Prediction ou les formes d'ondes utilisées à l'entrée du filtre de synthèse sont pré-définies, et stockées dans un "dictionnaire". L'expérience montre que, si l'on cherche à réduire par trop le débit des vocodeurs qui traitent la forme d'onde du signal, la qualité de reproduction s'en ressent beaucoup Les dégradations de la qualité se traduisent, par exemple, par une certaine raucité de la parole synthétique, et/ou un bruit de fond de coloration variable au cours du temps, et /ou une grande difficulté à reproduire les sons bruités ou au
contraire périodiques.
Le but de l'invention est de pallier les inconvénients précités.
A cet effet, l'invention a pour objet un procédé de discrimination de la parole en présence de bruits ambiants pour vocodeur à faible débit du type comportant une excitation périodique, une excitation apériodique et un filtre d'analyse d'ordre P, caractérisé en ce qu'il consiste pour analyser un signal Sn composé de la somme d'un nombre K déterminé d'excitations périodiques et d'une excitation apériodique, à calculer l'autocorrélation globale rm du signal Sn, à calculer les sommes partielles tm de l'autocorrélation à court terme sm corrélée avec l'autocorrélation globale rm, à initialiser un compteur k et tant que le compteur k n'atteint pas la valeur maximale K correspondant au nombre maximal d'excitations périodiques, pour chaque incrémentation du compteur k, après avoir corrigé le calcul des sommes partielles tm, à calculer les valeurs du pitch Mk, du gain 13 k et de la pente du gain (Xk de chaque excitation périodique, et à déterminer le niveau de l'excitation apériodique Pio en fonction de l'autocorrélation globale rm en début
d'analyse et de l'autocorrélation rm en fin d'analyse.
Le procédé selon l'invention a pour principal avantage qu'il permet de reproduire une parole de meilleure qualité qu'avec un vocodeur standard à 2400 bits/seconde et de mieux résister aux bruits ambiants et notamment aux bruits ambiants structurés Il a également pour avantage d'utiliser un algorithme de complexité raisonnable limitant
ainsi la charge de calcul.
D'autres caractéristiques et avantages de l'invention apparaîtront
dans la description qui suit faite en regard des dessins annexés qui
représentent: la figure 1, les différentes étapes d'un premier mode de réalisation du procédé selon l'invention mises sous la forme d'un organigramme; la figure 2, les diagrammes représentant l'évolution de l'autocorrélation; la figure 3, les différentes étapes d'un second mode de réalisation du procédé mises sous la forme d'un organigramme; la figure 4, un mode de réalisation d'un vocodeur pour la mise en
oeuvre du procédé selon l'invention.
Le procédé selon l'invention repose sur le principe qu'il n'est pas utile de reproduire la forme d'onde du signal d'entrée et qu'il faut plutôt reproduire du mieux possible l'impression auditive qu'aurait produit le signal original, ce qui n'est pas obligatoirement la même chose: un vocodeur standard à 2400 bits/seconde pouvant restituer un signal de parole d'excellente qualité avec certains locuteurs et dans de bonnes conditions de prise de son, bien que la forme d'onde produite à la
synthèse n'a que peu de choses à voir avec la forme d'onde originale.
Le débit alloué au filtre de prédiction n'étant pas suffisant pour représenter le signal avec une fidélité suffisante, il faut le modéliser Pour cela, la parole synthétique est considérée donner une impression acoustique voisine de celle procurée par le signal de parole original La parole synthétique ainsi considérée est constituée de la superposition de formes d'ondes particulièrement simples qui peuvent être définies avec un faible débit binaire Pour définir ces formes d'ondes, le vocodeur standard à 2400 bits/seconde est supposé donner une qualité satisfaisante dans des cas simples, par exemple, dans des cas o le signal à coder peut être représenté comme la superposition d'un bruit de
fond continu, et d'un ou plusieurs signaux périodiques ou quasi-
périodiques; la même hypothèse est faite dans les vocodeurs harmoniques. D'autre part, dans le cas o apparaît un transitoire brutal tel qu'un bruit extérieur, la fidélité de reproduction du signal d'entrée n'est vraisemblablement pas indispensable Le transitoire est alors considéré comme un son parasite et il est éliminé par des systèmes d'antiparasitage connus améliorant ainsi la qualité de restitution du signal d'entrée. De plus, le débit accordé au filtre de prédiction d'un vocodeur standard peut être réduit suivant des techniques connues, utilisées dans les vocodeurs à 800 bits/seconde, permettant ainsi de libérer des bits
alloués au filtre de prédiction trop richement décrit.
Les bits ainsi récupérés sont utilisés pour définir les K excitations périodiques ayant chacune une période ou "pitch" déterminée et un gain
modulable dans le temps.
Un premier mode de réalisation du procédé selon l'invention consiste à déterminer le signal d'excitation représentatif de la parole extraite des bruits ambiants, en donnant la période du "pitch" et le niveau du signal à partir de la somme des K signaux périodiques et d'un
signal apériodique.
Dans un vocodeur standard de 2400 bits/seconde, il est obligatoire de déterminer un seul pitch sans erreur et un indicateur de voisement également sans erreur Avantageusement, selon l'invention, si le premier générateur périodique, matérialisant l'excitation, ne dispose pas du "vrai" pitch, c'est-à-dire du pitch du signal de parole à extraire, il reste encore K-1 générateurs pour le trouver De même, comme il n'y a pas de décision de voisement mais plutôt une répartition des gains entre une source de bruit et K sources périodiques, il n'y a pas de risque d'erreur
de voisement.
Le procédé selon l'invention ne s'intéresse pas à la forme d'onde vraie, ou à un résiduel, mais à sa composition en termes de périodes ou "pitch", niveaux relatifs, et proportion de bruit La détermination de l'excitation se fait donc à partir d'un signal o les informations de phase n'apparaissent pas Le procédé est basé sur un calcul d'autocorrélation dont le résultat donne une grandeur représentative de ce signal moyennant certaines précautions pour détecter les composantes périodiques et les variations de gain. La figure 1 représente l'organigramme des étapes du procédé
selon l'invention.
La première étape 1 calcule l'autocorrélation globale rm du signal
constitué de la somme des K+ 1 signaux.
Si P représente l'ordre du filtre de prédiction à court terme, et Mmax la valeur maximale de pitch considérée en nombre d'échantillons, l'autocorrélation globale rm est calculée pour m = -P à m = Mmax+P, suivant la formule: Sn Sn-m ( 1) rm= O NL n 2 nr O Dans l'expression ( 1) Sn et Sn m sont des amplitudes d'échantillons de signal et N(m) désigne un nombre d'échantillons
multiple de m, le plus grand qui soit inférieur ou égal à une valeur Nmax.
Cette disposition permet d'améliorer la détection ultérieure des
périodicités.
La valeur choisie pour le dénominateur permet de détecter la variation du niveau de signal, donc d'améliorer la fidélité Par exemple, pour un niveau de signal multiplié par g sur une durée de m échantillons, le signal ayant une période m, on obtient rm = g ro, r 2 m = g 2 ro" etc Les valeurs de l'autocorrélation globale rm sont ensuite analysées en faisant comme première hypothèse simplificatrice que l'autocorrélation à court terme du signal est nulle pour un écart m supérieur à P en valeur absolue: ceci devient presque vrai si l'on utilise non pas le signal original mais plutôt le résiduel à la sortie d'un prédicteur auto-adaptatif d'ordre suffisant et ayant une constante de temps
d'adaptation bien choisie.
Par exemple, il peut être avantageux de remplacer Sn par un résiduel Sn' donné par les équations suivantes S 'n = Sn Ai Sn-i ( 2) i=l n+ n avec Ai+ =A 1 i + ú signe(Sn Sni), i = 1 Q Dans une deuxième hypothèse, la valeur minimale Mmin du pitch est choisie supérieure à 2 P. En tenant compte des deux hypothèses précédentes, I'autocorrélation globale rm est ensuite recomposée à partir de la somme des excitations périodiques M 1, M 2,, Mk et des valeurs de I'autocorrélation à court terme rp rp dupliquées aux positions 0, M 1, 2 M 1,,0, M 2, 2 M 2,,'0, Mk, 2 Mk,, les répliques suivant l'évolution
du niveau des composantes du signal.
La figure 2 représente, de haut en bas, I'évolution de
l'autocorrélation rm en fonction de m, pour m = -P à m = Mmax+p.
Sur cette figure, la contribution du bruit n'est pas représentée Le premier diagramme représente l'autocorrélation à court terme, les deux diagrammes suivants, la contribution des signaux périodiques M 1 à MK, et le dernier diagramme l'autocorrélation globale rm obtenue à partir des valeurs de l'autocorrélation à court terme r p,,rp, convoluées avec K
trains d'impulsions.
Afin de tenir compte de l'évolution du niveau du signal, le train d'impulsions relatif à la kème excitation périodique est défini par la formule suivante: I k,n = k INT( M max) ú_ ( 1 + i Oxk) a (n-i MK) i= O ( 3) Le coefficient Ok représente un gain, le coefficient ok une variation de gain, ou pente de gain qui doit être linéaire pour pouvoir poursuivre les calculs et INT(Mmax/Mk) est une fonction qui ne retient que la partie entière du rapport Mmax/Mk soit le rapport entre la valeur du pitch maximum et la valeur du pitch de la kème excitation périodique. Compte tenu des deux hypothèses précédentes concernant les valeurs respectives de P, ordre de prédiction, et Mmin, valeur minimale recherchée pour le pitch Mk, I'étape 2 sur la figure 1 consiste à calculer les sommes partielles tm qui correspondent en fait au calcul de I'autocorrélation de l'autocorrélation globale rm limitée à sa valeur à court terme Le calcul est donné par la formule suivante P tm= Esiri+m avec m=O Mmax i= P et to=,s Y, ri ( 4) i= p i= p sp,sp sont les valeurs de l'autocorrélation rp,, rp limitée à sa valeur
à court terme.
Pour des raisons de complexité de calcul, un algorithme itératif de recherche sub-optimal pour trouver les K valeurs de Mk, ok et Pk correspondant respectivement à la période du pitch, la pente du gain et le gain de la kème excitation est mis en oeuvre à l'étape 5 Il consiste à calculer les valeurs de Mk, ak et 5 k qui minimisent la quantité d suivante, par exemple, par une méthode des moindre carrés
( 2
( 5) d=, rn k ( 1 + i O Ck)S n i Mk ni i Les étapes 3 et 4 correspondent respectivement à l'initialisation d'un compteur k et à l'incrémentation de ce compteur k tant que la valeur du compteur k n'a pas atteinte la valeur K Ce test est effectué par l'étape 6
du procédé selon l'invention.
En notant R le vecteur des autocorrélations rm et Slk celui des autocorrélations à court terme sm convoluées avec le kème train d'impulsions, avec un gain égal à 1, la quantité d, représentant la distance entre le vecteur R et le vecteur Slk affecté d'un gain Pk, est obtenue par la formule suivante ( 6) d=IR-P k S Ik 2 avec R{=zp, * r Mmax+ P} S Ik={Sik, P,,Si k, MMAX+ P} Si k,n = X ( 1 + i C k) S n i Mk et i La valeur de lk qui minimise cette expression ( 6) est obtenue par la formule suivante: R Si k ( 7) v Slki Dans ces conditions, la quantité d devient dmin telle que: d=dmin= IRI 2 -(R Si k) ( 8) ISI k I En reprenant le calcul des sommes partielles donné par la relation ( 4), I'expression dmin donnée par la relation ( 8) devient alors ( 1 + i C k) ti Mk dmin= IRI 2 2 to Z ( 1 + i ( k) ( 9) i Il ne reste plus qu'à minimiser cette expression en fonction de ak ce qui donne, tous calculs effectués, la valeur suivante pour Oak: So T 1 -Si T O ( 10) Sk= (Il 0) 52 TO O S 1 T 1 Mk J avec S k = k i= O INT Mmax' Mk J et Tk= E i ti Mk i = O i=O La valeur de dmin ainsi obtenue est alors la suivante dmin R 2 S 2 T 02 251 To T + S O T 1 2 d min = IRI -2 ( 11) t O ( 5052-512) La recherche d'une excitation donnée consiste à trouver la valeur Mk qui minimise cette quantité, sachant que R ne varie pas durant la recherche et que les quantités SO, 51 et 52 sont facilement calculables
pour une valeur de Mk donnée.
Une fois que la valeur de Mk a été déterminée, I'équation ( 10) donne la valeur de (k, et la valeur de Pk est donnée par modification de l'équation ( 7): S 2 To S 1 Tl
( 12) S O S 2 S 12)
Lors de l'itération suivante, c'est-à-dire au passage de la valeur k à la valeur k+ 1 du compteur k correspondant à l'étape 4 sur la figure 1, le vecteur R des autocorrélations rm n'est que partiellement modélisé par le vecteur Slk multiplié par le gain 13 k Il convient donc de remplacer les autocorrélations rm par leurs valeurs modifiées r'm par soustraction des quantités 1 k sik,m suivant l'équation suivante: INTM Mmax) t Mk J ( 13) rm-rm=rm-'k i= o ( 1 +i ak) S m i Mk Cependant, comme les valeurs de l'autocorrélation globale rm n'interviennent pas directement dans le calcul de (xk et Pk, le procédé ne modifie que les sommes partielles tm qui sont seules utilisées Cette correction correspondant à l'étape 7 consiste à soustraire des sommes partielles tm les valeurs de l'autocorrélation cm des échantillons sm de l'autocorrélation à court terme et à remplacer les sommes partielles tm par leurs valeurs modifiées tm' Ceci est réalisé suivant la relation suivante: ( 14) tm > tm=tm-3 k ( Mmax) INT M ax ( 1 + ik) C m i Mk i= O n= MIN(P, P q) avec c q =, n= MAX( P, P q) Sn Sn+ q Les coefficients cm ne sont calculés qu'une fois, puisque sm ne
change pas au cours des itérations.
Une fois les K excitations périodiques définies, le niveau de I'excitation apériodique à utiliser, se déduit de l'autocorrélation rm En il effet, si le signal répondait exactement à un modèle à K excitations périodiques, la valeur de l'autocorrélation rm ou des sommes tm serait nulle après la dernière correction suivant les équations ( 13) et ( 14) En pratique, le niveau go de bruit à générer peut être représenté, compte tenu des approximations faites, par une fonction non décroissante du rapport entre les valeurs des coefficients rm après définition de la Kème excitation, et leurs valeurs initiales Cette fonction peut être par exemple une relation empirique du type Mmax ' krmfinal I ( 15) Po = F m=, avec Y= 1 ou 2 M max I m= | r minitial| Bien entendu, le procédé décrit ci- dessus peut être amélioré sur divers points qui sont abordés brièvement ci-après Un nouvel organigramme des étapes d'un deuxième mode de réalisation du procédé selon l'invention est représenté sur la figure 3 Sur cette figure les étapes
homologues à celles de la figure 1 sont désignées par les mêmes repères.
L'étape 8 du procédé consiste en un prétraitement du signal d'entrée Ce prétraitement transforme, par exemple, le signal d'entrée Sm brut en un signal dont l'autocorrélation se rapproche d'une impulsion de dirac, donc d'un signal dont le spectre est aplati, par exemple, par un filtre prédicteur auto-adaptatif Ce prétraitement réalise ainsi un
blanchissement du spectre avant analyse.
D'autres prétraitements, tels que par exemple, l'élimination de la composante continue et des très basses fréquences du signal d'entrée, un contrôle automatique de gain, et une pré-accentuation, sont
également possibles.
A partir du signal ainsi traité par l'étape 8, le calcul de l'autocorrélation globale rm est effectué selon l'étape 1 décrite précédemment Une deuxième étape 9 supplémentaire consiste à pondérer l'autocorrélation venant d'être calculée par une fenêtre de pondération simple pouvant être représenté par exemple par une enveloppe non croissante en fonction du temps et dont la largeur est choisie plus large que l'intervalle maximal d'analyse Le but de cette fenêtre de pondération vise plus à stabiliser le signal plutôt qu'à le mettre en forme en évitant des discontinuités dans la suite des calculs dues au nombre variable de répliques de l'autocorrélation à court terme que peuvent comporter les vecteurs Slk Par exemple, si Mmax = 160, il y aura trois répliques pour un pitch de 80 et seulement deux répliques pour un pitch de 81 Cette étape fait donc apparaître progressivement les répliques de l'autocorrélation dont les amplitudes suivent une fonction décroissante. Les étapes 2, 3 et 4 se retrouvent à l'identique de la figure 1, et l'étape 5 est pratiquement identique moyennant une limitation sur les valeurs de 13 k et xk: En effet, dans le cas d'un signal complètement non voisé, par exemple un signal de parole sans voyelle, le procédé selon l'invention est capable de déterminer les K pitchs recherchés La seule différence avec un son partiellement ou totalement voisé réside dans la valeur des coefficients f 3 et a Pour éviter cette situation, le calcul selon l'étape 5 ne retient que les excitations périodiques pour lesquelles les coefficients f et a sont compris dans des plages de valeurs restreintes par exemple, des valeurs positives inférieures à 1 pour f 3 2 0, 3 et f < 1, et des valeurs proches de 1 pour ca, lal = 0,2 La, limitation des valeurs de x permet également d'éviter des impulsions de diracs négatives représentatives de l'autocorrélation Le coefficient a peut répondre par exemple à la relation suivante ( 16) la I < 1 INT(Mmax / Mk) L'étape 10 du procédé, consiste en un test supplémentaire sur la valeur du compteur k à l'issue du calcul des coefficients Mk, ak et l Pk
effectué par l'étape 5 du procédé.
Ce test prend en compte l'éventualité que la première excitation analysée, k< 2, par le procédé soit le signal de parole recherché Dans ce cas, l'étape 10 est rebouclée sur l'incrémentation du compteur k
représentée par l'étape 4.
Dans l'autre cas, kÄ 2, l'étape 11 du procédé recalcule les coefficients calculés par l'étape 5: l'algorithme utilisé par le procédé selon l'invention est sub-optimal, c'est-à-dire qu'il recherche les K excitations périodiques les unes après les autres, alors qu'en toute rigueur il devrait les rechercher toutes à la fois De plus, les vecteurs Slk ne sont pas orthogonaux, ils partagent tous les autocorrélations r p à rp créant des interférences entre les diverses autocorrélations Afin d'optimiser l'algorithme, l'étape 11 recalcule les coefficients XI, x 2,, ak-1 et P P 2 t- k-1 en plus de (xk et Pk à la kème itération, en conservant les valeurs de pitchs Mk précédemment calculés; ce qui
revient à une résolution d'un système de K équations linéaires.
Les étapes 6 et 7 suivantes correspondent respectivement à celles
du procédé de la figure 1.
Une dernière correction est apportée au premier mode de réalisation du procédé selon l'invention par une étape 12 qui, compte tenu de la suboptimalité de l'algorithme, consiste à corriger les valeurs de pitch Mk: En effet, il est possible de trouver à la kème itération un pitch Mk de valeur identique à celle de l'un des pitchs déjà calculé Pour améliorer l'algorithme, l'étape 12 optimise le calcul au-delà du nombre K effectif d'excitations recherché et choisit et/ou regroupe parmi les K'(K'<K) excitations celles qui donnent le meilleur résultat acoustique Par exemple, deux excitations dont les valeurs de M sont trop voisines pour être discernées sont regroupées en une seule excitation La détermination du niveau de l'excitation apériodique reste quant à elle identique dans les deux modes de réalisation du procédé selon l'invention Une fois les différentes excitations déterminées par le procédé selon l'invention, l'analyse se poursuit par une quantification
selon des procédés connus.
Un mode de réalisation d'un vocodeur permettant la mise en oeuvre du procédé selon l'invention est représenté à la figure 4 Ce dispositif comporte un générateur de bruit 13 délivrant une forme d'onde aléatoire, ou excitation apériodique, K générateurs 141 à 14 k délivrant chacun un train d'ondes périodiques o chaque période du fondamental, "pitch", est notée respectivement M 1 à Mk L'excitation apériodique correspond aux sons non voisés comme la plupart des consonnes et les K trains d'ondes périodiques correspondent à des sons voisés comme les voyelles L'excitation apériodique et les K excitations apériodiques ainsi définies sont affectées respectivement d'un gain Go à Gk modulable dans le temps représenté respectivement par les cercles 150 à 1 5 k Les K + 1 excitations sont ensuite injectées simultanément à l'entrée d'un sommateur 16 En sortie du sommateur 16, on obtient les k + 1 excitations superposées qui sont injectées sur une première entrée d'opérande d'un opérateur de multiplication 17 La deuxième entrée
d'opérande permet d'ajuster le niveau global des k + 1 excitations.
Après avoir défini le niveau global et la répartition des gains des diverses excitations, tout en respectant la relation suivante Go + G 1 + + Gk = 1, le signal de sortie de l'opérateur 17 est injecté en entrée d'un filtre d'analyse 18, par exemple, un filtre de prédiction d'ordre P qui en utilisant le procédé d'analyse selon l'invention délivre en sortie un signal de parole synthétique débarrassé des bruits ambiants. Un procédé de quantification utilisable avec un tel vocodeur est donné à titre d'exemple: De façon usuelle, le niveau global de l'énergie de la trame est
quantifié semi-logarithmiquement sur 5 bits.
En supposant l'existence de K = 3 générateurs d'excitation périodique, et en admettant une quantification non linéaire du pitch sur 6 bits, avec Mmin = 20 et Mmax = 160, il faut 18 bits pour définir les
trois pitchs, M 1, M 2 et M 3.
Enfin, pour s'affranchir des erreurs de transmission affectant le pitch, et ne pas avoir à transmettre le gain Po du générateur de bruit, on propose plutôt de transmettre les valeurs des niveaux initiaux Sijinit(i = 1 K) des générateurs périodiques de leurs niveaux finaux 13 ijfin(i = i K) ces niveaux finaux étant atteints sur la durée N d'une trame, et étant définis par l'expression suivante ( 17),3 iin = P 5 iinit ( 1 + a i Mi) A raison de 2 bits par coefficient, ceci représente un total de 3 ( 2 + 2) = 12 bits, sachant par ailleurs que Po est le complément à 1 de
la somme des Pi.
Le nombre de bits alloués à l'excitation est donc de
+ 18 + 12 = 35.
En utilisant pour la quantification du filtre de prédiction un procédé similaire à celui mis en oeuvre pour un vocodeur à 1200 bits/seconde, o le débit est d'environ 25 bits par filtre pour une qualité équivalente à celle du 2400 bits/seconde, le débit obtenu est de 2400 bits/seconde au
plus pour des trames de 25 ms au moins.

Claims (7)

REVENDICATIONS
1 Procédé de discrimination de la parole en présence de bruits ambiants pour vocodeur à faible débit du type comportant une excitation périodique, une excitation apériodique et un filtre d'analyse d'ordre P, caractérisé en ce qu'il consiste pour analyser un signal Sn composé de la somme d'un nombre K déterminé d'excitations périodiques et d'une excitation apériodique, à calculer ( 1) I'autocorrélation globale rm du signal Sn, à calculer ( 2) les sommes partielles tm de l'autocorrélation à court terme sm corrélée avec l'autocorrélation globale rm, à initialiser ( 3) un compteur k et tant que le compteur k n'atteint pas la valeur maximale K correspondant au nombre maximal d'excitations périodiques ( 6), pour chaque incrémentation ( 4) du compteur k, après avoir corrigé ( 7) le calcul des sommes partielles tm, à calculer ( 5) les valeurs du pitch Mk, du gain 9 k et de la pente du gain a(k de chaque excitation périodique, et à déterminer le niveau de l'excitation apériodique Po en fonction de l'autocorrélation globale rm en début d'analyse et de l'autocorrélation rm
en fin d'analyse.
2 Procédé selon la revendication 1, caractérisé en ce que
l'autocorrélation globale rm est bornée entre une valeur minimale m = -
P o P correspond à l'ordre de prédiction à court terme du filtre d'analyse, et une valeur maximale m = Mmax + P, o Mmax
correspond à la valeur maximale du pitch Mk considéré.
3 Procédé selon l'une quelconque des revendications 1 et 2,
caractérisé en ce que les valeurs Mk, Pk et (k sont déterminées en minimisant par une méthode des moindre carré la distance d définie comme étant la distance entre le vecteur R de l'autocorrélation globale rm et le vecteur Slk de l'autocorrélation à court terme sm convolué avec
la kème excitation périodique, multiplié par le gain Pk-
4 Procédé selon l'une quelconque des revendications 1 à 3,
caractérisé en ce que les sommes partielles tm sont modifiées en soustrayant des sommes partielles tm, les valeurs de l'autocorrélation d'échantillons sm de l'autocorrélation à court terme et en remplaçant les anciennes sommes partielles tm par les nouvelles sommes tm' résultant
de la soustraction.
Procédé selon l'une quelconque des revendications 1 à 4,
caractérisé en ce qu'il consiste en outre à prétraiter ( 8) le signal d'entrée Sn pour affiner le calcul ( 1) de l'autocorrélation globale rm, à pondérer ( 9) l'autocorrélation globale rm par une fenêtre de pondération limitant le nombre de répliques de l'autocorrélation, à tester ( 10) après le calcul ( 5) des valeurs de Mk, Pk et xk, si la valeur du compteur k est strictement inférieure à deux, alors à incrémenter ( 4) le compteur k, sinon à recalculer ( 10) les valeurs ai et P Zi respectivement à cck et Pk en conservant les valeurs de Mk précédemment calculées, de i égal à un, à i égal à la valeur du compteur k, et tant que la valeur du compteur k n'a pas atteint la valeur maximale K, à incrémenter ( 4) le compteur k, et quand la valeur maximale K est atteinte, à regrouper en une seule excitation, deux excitations dont les valeurs Mk sont trop voisines pour
être discernables.
6 Procédé selon la revendication 5, caractérisé en ce que le prétraitement ( 8) du signal d'entrée Sn est une prédiction auto- adaptative
permettant un blanchissement du spectre du signal d'entrée Sn.
7 Procédé selon la revendication 6, caractérisé en ce que la fenêtre de pondération de l'autocorrélation globale rm est une fonction non croissante du temps dont la largeur est choisi supérieure à
l'intervalle maximal d'analyse.
8 Vocodeur pour la mise en oeuvre du procédé selon l'une
quelconque des revendications 1 à 7, caractérisé en ce qu'il comporte un
générateur de bruit ( 13) délivrant une excitation apériodique, K générateurs ( 141 à 14 k) délivrant K excitations périodiques, les K + 1 excitations étant affectées respectivement d'un gain (Go à Gk) modulable dans le temps et tel que la somme des gains (Go à Gk) est égale à un, un circuit sommateur ( 16) recevant les K + 1 excitations dont la sortie est couplée à une première entrée d'opérande d'un opérateur de multiplication ( 17), la deuxième entrée d'opérande permettant d'ajuster le niveau global des K + 1 excitations, et un filtre
d'analyse ( 18) assurant l'analyse des k + 1 excitations pour en déduire le signal synthétique représentatif de la parole en présence de bruits ambiants.5 9 Vocodeur selon la revendication 8, caractérisé en ce que le filtre d'analyse ( 18) est un filtre de prédiction linéaire d'ordre P = 10.
FR9213397A 1992-11-06 1992-11-06 Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé. Pending FR2697937A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR9213397A FR2697937A1 (fr) 1992-11-06 1992-11-06 Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé.
EP93402670A EP0596785A1 (fr) 1992-11-06 1993-10-29 Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en oeuvre du procédé

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9213397A FR2697937A1 (fr) 1992-11-06 1992-11-06 Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé.

Publications (1)

Publication Number Publication Date
FR2697937A1 true FR2697937A1 (fr) 1994-05-13

Family

ID=9435311

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9213397A Pending FR2697937A1 (fr) 1992-11-06 1992-11-06 Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé.

Country Status (2)

Country Link
EP (1) EP0596785A1 (fr)
FR (1) FR2697937A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130429B1 (en) 1998-04-08 2006-10-31 Bang & Olufsen Technology A/S Method and an apparatus for processing auscultation signals
US7305099B2 (en) 2003-08-12 2007-12-04 Sony Ericsson Mobile Communications Ab Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
IEEE GLOBAL TELECOMMUNICATION CONFERENCE vol. 1, 28 Novembre 1988, FLORIDA USA pages 285 - 289 SUKKAR ET AL 'LPC excitation based on zinc function decomposition' *
INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING vol. 1, 6 Avril 1987, DALLAS TEXAS pages 356 - 359 JAIN, XU 'Autocorrelation distortion function for improved AR modeling' *
INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING vol. 2, 6 Avril 1987, DALLAS TEXAS pages 948 - 951 LIENARD 'Speech analysis and reconstruction using short time, elementary waveforms' *
INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING vol. 2, 7 Avril 1986, TOKYO JAPAN pages 1261 - 1264 SAGAYAMA, ITAKURA 'Duality theory of composite sinusoidal modeling and linear prediction' *
NEC RESEARCH AND DEVELOPMENT no. 85, Avril 1987, TOKYO JP pages 112 - 121 ISHIKAWA IKEDA 'Narrow to medium bands speech codec family based on LPC technique' *

Also Published As

Publication number Publication date
EP0596785A1 (fr) 1994-05-11

Similar Documents

Publication Publication Date Title
EP0782128B1 (fr) Procédé d&#39;analyse par prédiction linéaire d&#39;un signal audiofréquence, et procédés de codage et de décodage d&#39;un signal audiofréquence en comportant application
EP2002428B1 (fr) Procede de discrimination et d&#39;attenuation fiabilisees des echos d&#39;un signal numerique dans un decodeur et dispositif correspondant
EP0801790A1 (fr) Procede de codage de parole a analyse par synthese
EP2936488B1 (fr) Atténuation efficace de pré-échos dans un signal audionumérique
CA2029768C (fr) Procede et dispositif de codage de filtres predicteurs de vocodeurs tres bas debit
US6246979B1 (en) Method for voice signal coding and/or decoding by means of a long term prediction and a multipulse excitation signal
EP0490740A1 (fr) Procédé et dispositif pour l&#39;évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit.
EP1016071B1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP0721180A1 (fr) Procédé de codage de parole à analyse par synthèse
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
FR3012927A1 (fr) Estimation precise du rapport signal a bruit par progression reposant sur une probabilite de la presence de la parole mmse
FR2697937A1 (fr) Procédé de discrimination de la parole en présence de bruits ambiants et vocodeur à faible débit pour la mise en Óoeuvre du procédé.
EP2171713B1 (fr) Codage de signaux audionumériques
CA2304013A1 (fr) Procede de conditionnement d&#39;un signal de parole numerique
EP1192618B1 (fr) Codage audio avec liftrage adaptif
EP0469997B1 (fr) Procédé de codage et codeur de parole à analyse par prédiction linéaire
EP1194923B1 (fr) Procedes et dispositifs d&#39;analyse et de synthese audio
EP1192621B1 (fr) Codage audio avec composants harmoniques
WO2001003121A1 (fr) Codage et decodage audio avec composants harmoniques et phase minimale
WO2001003118A1 (fr) Codage et decodage audio par interpolation
EP0454552A2 (fr) ProcédÀ© et dispositif de codage bas débit de la parole
FR2739482A1 (fr) Procede et dispositif pour l&#39;evaluation du voisement du signal de parole par sous bandes dans des vocodeurs
JP2002244700A (ja) 音声符号化装置、音声符号化方法および記憶素子
WO2001003119A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal