FR2734389A1 - Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme - Google Patents

Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme Download PDF

Info

Publication number
FR2734389A1
FR2734389A1 FR9505851A FR9505851A FR2734389A1 FR 2734389 A1 FR2734389 A1 FR 2734389A1 FR 9505851 A FR9505851 A FR 9505851A FR 9505851 A FR9505851 A FR 9505851A FR 2734389 A1 FR2734389 A1 FR 2734389A1
Authority
FR
France
Prior art keywords
parameters
short
spectral
filter
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9505851A
Other languages
English (en)
Other versions
FR2734389B1 (fr
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to FR9505851A priority Critical patent/FR2734389B1/fr
Priority to US08/645,388 priority patent/US5845244A/en
Priority to DE69604526T priority patent/DE69604526T2/de
Priority to EP96401057A priority patent/EP0743634B1/fr
Priority to CA002176665A priority patent/CA2176665C/fr
Priority to CN96105872A priority patent/CN1112671C/zh
Priority to KR1019960016454A priority patent/KR100389692B1/ko
Priority to JP12368596A priority patent/JP3481390B2/ja
Publication of FR2734389A1 publication Critical patent/FR2734389A1/fr
Application granted granted Critical
Publication of FR2734389B1 publication Critical patent/FR2734389B1/fr
Priority to HK98102733A priority patent/HK1003735A1/xx
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

Dans un codeur de parole à analyse par synthèse utilisant un filtre de pondération perceptuelle à court terme de fonction de transfert W(z)=A(z/ gamma1 )/A(z/ gamma2 ), on adapte dynamiquement les valeurs des coefficients d'expansion spectrale gamma1 et gamma2 en fonction de paramètres spectraux obtenus lors de l'analyse par prédiction linéaire à court terme. Les paramètres spectraux servant à cette adaptation peuvent notamment comprendre des paramètres représentatifs de la pente générale du spectre du signal de parole, et des paramètres représentatifs du caractère résonant du filtre de synthèse à court terme.

Description

PROCEDE D'ADAPTATION DU NIVEAU DE MASQUAGE DU BRUIT
DANS UN CODEUR DE PAROLE A ANALYSE PAR SYNTHESE
UTILISANT UN FILTRE DE PONDERATION PERCEPTUELLE
A COURT TERME
La présente invention concerne le codage de la parole
par les techniques d'analyse par synthèse.
Un procédé de codage de parole à analyse par synthèse comprend habituellement les étapes suivantes: - analyse par prédiction linéaire d'ordre p d'un signal de parole numérisé en trames successives pour déterminer des paramètres définissant un filtre de synthèse à court terme; - détermination de paramètres d'excitation définissant un signal d'excitation à appliquer au filtre de synthèse à court terme pour produire un signal synthétique représentatif du signal de parole, certains au moins des paramètres d'excitation étant déterminés en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle; et - production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme
et des paramètres d'excitation.
Les paramètres du filtre de synthèse à court terme, obtenus par prédiction linéaire, sont représentatifs de la fonction de transfert du conduit vocal, et caractéristiques
du spectre du signal d'entrée.
Il existe différentes modélisations du signal d'excitation à appliquer au filtre de synthèse à court terme, qui permettent de distinguer différentes classes de codeurs à analyse par synthèse. Dans la plupart des codeurs actuels, le signal d'excitation comporte une composante à long terme synthétisée par un filtre de synthèse à long terme ou par la technique du répertoire adaptatif ('Adaptive Codebook"), qui permet d'exploiter la périodicité à long terme des sons voisés, tels que les voyelles, due à la vibration des cordes vocales. Dans les codeurs CELP ("Code Excited Linear Prediction, voir M.R. Schroeder et B. S. Atal: "Code-Excited Linear Prediction (CELP): High Quality Speech at Very Low
Bit Rates", Proc. ICASSP'85, Tampa, mars 1985, pages 937-
940), l'excitation résiduelle est modélisée par une forme d'onde extraite d'un répertoire stochastique, multipliée par un gain. Les codeurs CELP ont permis, dans la bande téléphonique usuelle, de réduire le débit numérique requis de 64 kbits/s (codeurs MIC classiques) à 16 kbits/s (codeurs LD-CELP) et même jusqu'à 8 kbits/s pour les plus récents codeurs, sans dégradation de la qualité de la parole. Ces codeurs sont aujourd'hui couramment utilisés dans les transmissions téléphoniques, mais ils présentent de nombreuses autres applications telles que le stockage, la téléphonie en bande élargie ou les transmissions par satellite. D'autres exemples de codeurs à analyse par synthèse auxquels 1 'invention peut s'appliquer sont notamment les codeurs MP-LPC (Multi-Pulse Linear Predictive Coding, voir B.S. Atal et J.R. Remde: "A New Model of LPC Excitation for Producing Natural-Sounding Speech at Low Bit Rates", Proc. ICASSP'82, Paris, mai 1982, Vol.l, pages 614-617), o l'excitation résiduelle est modélisée par des impulsions de position variable affectées de gains respectifs, et les codeurs VSELP (Vector-Sum Excited Linear Prediction, voir I.A. Gerson et M.A. Jasiuk, "Vector-Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbits/s", Proc. ICASSP'90 Albuquerque, avril 1990, Vol. 1, pages 461-464), o l'excitation est modélisée par une combinaison linéaire
de vecteurs d'impulsions extraits de répertoires respectifs.
Le codeur évalue l'excitation résiduelle "en boucle fermée", par minimisation de l'erreur pondérée perceptuellement entre le signal synthétique et le signal de parole d'origine. On sait que la pondération perceptuelle améliore sensiblement la perception subjective de la parole synthétisée, par rapport à une simple minimisation de l'erreur quadratique moyenne. La pondération perceptuelle à court terme consiste à réduire l'importance, dans le critère d'erreur minimisé, des zones du spectre de parole o le niveau du signal est relativement important. En d'autres termes, le bruit perçu par l'auditeur est diminué si son spectre, a priori plat, est mis en forme de façon à accepter davantage de bruit dans les zones formantiques que dans les zones inter-formantiques. Pour réaliser cela, le filtre de pondération perceptuelle à court terme a fréquemment une fonction de transfert de la forme W(z)=A (z)/A(z/Y) o p A(Z)= 1- aiz l i=1 les coefficients ai étant les coefficients de prédiction linéaire obtenus à l'étape d'analyse par prédiction linéaire, et y désigne un coefficient d'expansion spectrale compris entre 0 et 1. Cette forme de pondération a été proposée par B.S. Atal et M.R. Schroeder: "Predictive Coding of Speech Signals and Subjective Error Criteria", IEEE Trans. on Acoustics, Speech, and Signal Processing, Vol. ASSP-27, n 3, juin 1979, pages 247-254. Pour 7=1, il n'y a pas de masquage : la minimisation de l'erreur quadratique est faite sur le signal de synthèse. Si 7=0, le masquage est total: la minimisation est faite sur le résidu et le bruit de codage
a la même enveloppe spectrale que le signal de parole.
Une généralisation consiste à choisir pour le filtre de pondération perceptuelle une fonction de transfert W(z) de la forme W(z) = A(z/y1)/A(z/Y2) 71 et y2 désignant des coefficients d'expansion spectrale tels que O0y27y11. Voir J.H. Chen et A. Gersho: "Real-Time Vector APC Speech Coding at 4800 Bps with Adaptive
Postfiltering", Proc. ICASSP'87, avril 1987, pages 2185-2188.
On note que le masquage est inexistant lorsque 71=72, et total lorsque 71= 1 et 72=0. Les coefficients d'expansion spectrale '1 et Y2 déterminent le niveau de masquage du bruit souhaité. Un masquage trop faible rend perceptible un bruit de quantification granulaire constant. Un masquage trop fort affecte l'allure des formants, la distorsion devenant alors
très audible.
Dans les codeurs actuels les plus performants, les paramètres du prédicteur à long terme, comprenant le retard LTP et éventuellement une phase (retard fractionnaire) ou un jeu de coefficients (filtre LTP multicoefficients), sont également déterminés pour chaque trame ou sous-trame, par une procédure en boucle fermée faisant intervenir le filtre de
pondération perceptuelle.
Dans certains codeurs, le filtre de pondération perceptuelle W(z), qui exploite la modélisation à court terme du signal de parole et assure une répartition formantique du bruit, est complété par un filtre de pondération harmonique qui augmente l'énergie du bruit dans les pics correspondant aux harmoniques et l'affaiblit entre ces pics, et/ou par un filtre de correction de pente destiné à empêcher l'apparition de bruit non masqué à haute fréquence, notamment dans les applications en bande élargie. La présente invention est principalement concernée par le filtre de pondération
perceptuelle à court terme W(z).
Le choix des paramètres d'expansion spectrale y, ou y1 et 72, du filtre perceptuel à court terme est habituellement optimisé à l'aide de tests subjectifs. Ce choix est ensuite figé. Or, le demandeur a constaté que, selon les caractéristiques spectrales du signal d'entrée, les valeurs optimales des paramètres d'expansion spectrale peuvent subir une variation importante. Le choix effectué
constitue donc un compromis plus ou moins satisfaisant.
Un but de la présente invention est d'augmenter la qualité subjective du signal codé par une meilleure caractérisation du filtre de pondération perceptuelle. Un autre but est de rendre les performances du codeur plus homogènes pour différents types de signaux d'entrée. Un autre but est que cette amélioration n'exige pas une importante
complexité supplémentaire.
La présente invention concerne ainsi un procédé de codage de parole à analyse par synthèse du type indiqué au début, dans lequel le filtre de pondération perceptuelle a une fonction de transfert de la forme générale W(z)=A(z/l1)/A(z/72) comme indiqué précédemment, et dans lequel on adapte la valeur d'au moins un des coefficients d'expansion spectrale y1, 72 en fonction de paramètres spectraux obtenus à l'étape d'analyse par prédiction
linéaire.
Le fait de rendre adaptatifs les coefficients 71 et Y2 du filtre de pondération perceptuelle permet d'optimiser le niveau de masquage du bruit de codage pour différentes caractéristiques spectrales du signal d'entrée, qui peuvent avoir des variations importantes selon les caractéristiques de la prise de son, les différentes caractéristiques des voix ou la présence de bruit de fond de fort niveau (par exemple bruit de voiture dans la radiotéléphonie mobile). La qualité subjective perçue est augmentée, et les performances du codeur sont rendues plus homogènes pour différents types d'entrée. De préférence, les paramètres spectraux en fonction desquels on adapte la valeur d'un au moins des coefficients d'expansion spectrale, comprennent au moins un paramètre représentatif de la pente générale du spectre du signal de parole. Un spectre de parole a en moyenne plus d'énergie dans les basses fréquences (autour de la fréquence du fondamental qui va de 60 Hz pour une voix d'homme grave à 500 Hz pour une
voix d'enfant) et donc une pente globalement descendante.
Toutefois, une voix d'homme grave aura des hautes fréquences beaucoup plus atténuées et donc un spectre de pente plus importante. Le préfiltrage appliqué par le système de prise de son a une influence importante sur cette pente. Les combinés téléphoniques classiques opèrent un pré-filtrage passe-haut, appelé SRI, qui atténue beaucoup cet effet de pente. Mais une entrée "linéaire" réalisée dans certains équipements plus récents conserve en revanche toute l'importance des basses fréquences. Un masquage faible (faible écart entre Y1 et Y2) atténue trop la pente du filtre perceptuel par rapport à celle du signal. Le niveau de bruit en haute fréquence reste élevé et devient supérieur au signal
lui-même si celui-ci est peu énergétique à ces fréquences.
L'oreille perçoit un bruit non masqué à haute fréquence, d'autant plus gênant qu'il possède parfois un caractère harmonique. La simple correction de la pente du filtre ne suffit pas à modéliser suffisamment cette différence d'énergie. L'adaptation des coefficients d'expansion spectrale tenant compte de la pente générale du spectre de
parole permet de mieux traiter ce problème.
De préférence, les paramètres spectraux en fonction desquels on adapte la valeur d'au moins un des coefficients d'expansion spectrale comprennent en outre au moins un paramètre représentatif du caractère résonant du filtre de synthèse à court terme (LPC). Un signal de parole possède
jusqu'à quatre ou cinq formants dans la bande téléphonique.
Ces "bosses" caractérisant le contour du spectre sont généralement relativement arrondies. Toutefois, l'analyseLPC peut conduire à des filtres proches de l'instabilité. Le spectre correspondant au filtre LPC comporte alors des pics relativement prononcés qui présentent une énergie importante sur une largeur de bande faible. Plus le masquage est important, plus le spectre du bruit devient proche du spectre LPC. Or, la présence d'un pic d'énergie dans la répartition du bruit est très néfaste. Cela produit une distorsion au niveau du formant dans une zone d'énergie importante o la dégradation devient très perceptible. L'invention permet alors de diminuer le niveau du masquage lorsqu'augmente le
caractère résonant du filtre LPC.
Lorsque le filtre de synthèse à court terme est représenté par des paramètres ou fréquences de raie spectrale (LSP ou LSF), le paramètre représentatif du caractère résonant du filtre de synthèse à court terme, en fonction duquel on adapte la valeur de 71 et/ou 72, peut être la plus petite des distances entre deux fréquences de raie spectrale consécutives. D'autres particularités et avantages de la présente
invention apparaîtront dans la description ci-après
d'exemples de réalisation préférés, mais non limitatifs, en référence aux dessins annexés, dans lesquels: - les figures 1 et 2 sont des schémas synoptiques d'un décodeur et d'un codeur CELP pouvant mettre en oeuvre l'invention; - la figure 3 est un organigramme d'une procédure d'évaluation de la pondération perceptuelle; et - la figure 4 montre un graphe de la fonction
log[(1-r)/(l+r)].
L'invention est décrite ci-après dans son application à un codeur de parole de type CELP. On comprendra toutefois qu'elle est également applicable à d'autres types de codeurs
à analyse par synthèse (MP-LPC, VSELP...).
Le processus de synthèse de parole mis en oeuvre dans
un codeur et un décodeur CELP est illustré sur la figure 1.
Un générateur d'excitation 10 délivre un code d'excitation ck appartenant à un répertoire prédéterminé en réponse à un index k. Un amplificateur 12 multiplie ce code d'excitation par un gain d'excitation A, et le signal résultant est soumis à un filtre 14 de synthèse à long terme. Le signal de sortie u du filtre 14 est à son tour soumis à un filtre 16 de synthèse à court terme, dont la sortie s constitue ce qu'on
considère ici comme le signal de parole synthétisé. Bien en-
tendu, d'autres filtres peuvent également être mis en oeuvre au niveau du décodeur, par exemple des post-filtres, comme
il est bien connu dans le domaine du codage de la parole.
Les signaux précités sont des signaux numériques représentés par exemple par des mots de 16 bits à une cadence d'échantillonnage Fe égale par exemple à 8 kHz. Les filtres de synthèse 14, 16 sont en général des filtres purement
récursifs. Le filtre 14 de synthèse à long terme a typi-
quement une fonction de transfert de la forme l/B(z) avec
B(z)=l-Gz T. Le retard T et le gain G constituent des para-
mètres de prédiction à long terme (LTP) qui sont déterminés d'une manière adaptative par le codeur. Les paramètres LPC du filtre 16 de synthèse à court terme sont déterminés au codeur par une prédiction linéaire du signal de parole. La fonction de transfert du filtre 16 est ainsi de la forme l/A(z) avec A(z) =1- a z1 i=1 dans le cas d'une prédiction linéaire d'ordre p (p-10 typiquement), ai représentant le i-ième coefficient de
prédiction linéaire.
On désigne ici par "signal d'excitation" le signal u(n) appliqué au filtre de synthèse à court terme 14. Ce signal d'excitation comporte une composante LTP G.u(n-T) et
une composante résiduelle, ou séquence d'innovation, Ck(n).
Dans un codeur à analyse par synthèse, les paramètres caractérisant la composante résiduelle et, optionnellement, la composante LTP sont évalués en boucle fermée, en utilisant
un filtre de pondération perceptuelle.
La figure 2 montre le schéma d'un codeur CELP. Le signal de parole s(n) est un signal numérique, par exemple fourni par un convertisseur analogique-numérique 20 traitant
le signal de sortie amplifié et filtré d'un microphone 22.
Le signal s(n) est numérisé en trames successives de A échantillons elles-mêmes divisées en sous-trames, ou trames
d'excitation, de L échantillons (par exemple A=240, L=40).
Les paramètres LPC, LTP et EXC (index k et gain d'excitation A) sont obtenus au niveau du codeur par trois modules d'analyse respectifs 24, 26, 28. Ces paramètres sont ensuite quantifiés de façon connue en vue d'une transmission numérique efficace, puis soumis à un multiplexeur 30 qui forme le signal de sortie du codeur. Ces paramètres sont également fournis à un module 32 de calcul d'états initiaux
de certains filtres du codeur. Ce module 32 comprend essen-
tiellement une chaîne de décodage telle que celle représentée sur la figure 1. Comme le décodeur, le module 32 opère sur la base des paramètres LPC, LTP et EXC quantifiés. Si une interpolation des paramètres LPC est effectuée au décodeur, comme il est courant, la même interpolation est effectuée par le module 32. Le module 32 permet de connaître au niveau du codeur les états antérieurs des filtres de synthèse 14, 16
du décodeur, déterminés en fonction des paramètres de syn-
thèse et d'excitation antérieurs à la sous-trame considérée.
Dans une première étape du processus de codage, le module 24 d'analyse à court terme détermine les paramètres LPC (coefficients ai du filtre de synthèse à court terme) en analysant les corrélations à court terme du signal de parole s(n). Cette détermination est effectuée par exemple une fois par trame de A échantillons, de manière à s'adapter à l'évolution du contenu spectral du signal de parole. Les
méthodes d'analyse LPC sont bien connues dans la technique.
On pourra par exemple se reporter à l'ouvrage "Digital Processing of Speech Signals" de L.R. Rabiner et R.W. Shafer, Prentice-Hall Int., 1978. Cet ouvrage décrit notamment l'algorithme de Durbin, qui comporte les étapes suivantes: - évaluation de p autocorrélations R(i) (0si<p) du signal de parole s(n) sur une fenêtre d'analyse incluant la trame courante et éventullement des échantillons antérieurs si la trame est de petite longueur (par exemple 20 à 30 ms): M-1 R(i)= E s*(n). s*(n-i) n=i avec MkA et s*(n)=s(n).f(n), f(n) désignant une fonction de fenêtrage de longueur M, par exemple une fonction rectangulaire ou une fonction de Hamming; - évaluation récursive des coefficients ai:
E(0) = R(0)
Pour i allant de 1 à p, faire i-1 (i-1) ri = [R (i) - X aj. .R(ij)]/E(i-1) ri [R(ci) - aj 103= a() = ri E(i) = (1-ri2).s(i-l) Pour j allant de 1 à i-l, faire a i) aj(1-1) - riaj (i -1) Les coefficients ai sont pris égaux aux ai(P) obtenus à la dernière itération. La quantité E(p) est l'énergie de l'erreur résiduelle de prédiction. Les coefficients ri, compris entre -1 et 1, sont appelés coefficients de réflexion. Ils sont souvent représentés par les rapports logarithmiques (log-area-ratios) LARi=LAR(ri), la fonction
LAR étant définie par LAR(r)= log10[(l-r)/(l+r)].
La quantification des paramètres LPC peut être effectuée sur les coefficients ai directement, sur les coefficients de réflexion ri ou sur les rapports logarithmiques LARi. Une autre possibilité est de quantifier des paramètres de raie spectrale (LSP pour "line spectrum parameters, ou LSF pour "line spectrum frequencies"). Les p fréquences de raie spectrale Ci(leisp), normalisées entre 0 et n, sont telles que les nombres complexes 1, exp(jû2), exp(jo4),..., exp(jip), soient les racines du polynôme P(z)=A(z)-z-(P+l)A(z-1) et que les nombres complexes exp(j l), exp(j3),..., exp(j pl), et -1 soient les racines du polynôme Q(z)=A(z)+z-(P+)A(z-1). La quantification peut porter sur les fréquences normalisées xi
ou sur leurs cosinus.
Le module 24 peut effectuer l'analyse LPC selon l'algorithme classique de Durbin, ci-dessus rappelé afin de définir les quantités ri, LARi et Xi utiles à la mise en oeuvre de l'invention. D'autres algorithmes fournissant les mêmes résultats, développés plus récemment, peuvent être utilisés avantageusement, notamment l'algorithme de Levinson éclaté (voir "A new Efficient Algorithm to Compute the LSP Parameters for Speech Coding", par S. Saoudi, J.M. Boucher
et A. Le Guyader, Signal Processing, Vol.28, 1992, pages 201-
212), ou l'utilisation des polynômes de Chebyshev (voir "The Computation of Line Spectrum Frequencies Using Chebyshev Polynomials, par P. Kabal et R.P. Ramachandran, IEEE Trans. on Acoustics, Speech, and Signal Processing, Vol. ASSP-34,
n 6, pages 1419-1426, décembre 1986).
L'étape suivante du codage consiste en la
détermination des paramètres LTP de prédiction à long terme.
Ceux-ci sont par exemple déterminés une fois par sous-trame de L échantillons. Un soustracteur 34 soustrait du signal de parole s(n) la réponse à un signal d'entrée nul du filtre de synthèse à court terme 16. Cette réponse est déterminée par un filtre 36 de fonction de transfert l/A(z) dont les coefficients sont donnés par les paramètres LPC qui ont été déterminés par le module 24, et dont les états initiaux s sont fournis par le module 32 de façon à correspondre aux p derniers échantillons du signal synthétique. Le signal de sortie du soustracteur 34 est soumis à un filtre 38 de pondération perceptuelle dont le rôle est d'accentuer les portions du spectre o les erreurs sont les plus perceptibles, c'està-dire les zones inter-formantiques. La fonction de transfert W(z) du filtre de pondération perceptuelle est de la forme générale: W(z)=A(z/'Y)/A(z/y2), Y1 et Y2 étant deux coefficients d'expansion spectrale tels que O0y2sYlsl. L'invention propose d'adapter dynamiquement les valeurs de 71 et Y2 en fonction de paramètres spectraux déterminés par le module d'analyse LPC 24. Cette adaptation est réalisée par un module 39 d'évaluation de la pondération perceptuelle, selon un
processus décrit plus loin.
Le filtre de pondération perceptuelle peut être vu comme la succession en série d'un filtre purement récursif d'ordre p, de fonction de transfert: P 1/A(z/y2)= 1/[ E biz-] 1=0 avec b0=l et bi=-aiy2i pour 0<iep et d'un filtre à réponse impulsionnelle finie d'ordre p. de fonction de transfert P A(z/y,)= E ci 1=0 avec c0=l et ci=-ai1yl pour 0<isp. Le module 39 calcule ainsi les coefficients bi et ci pour chaque trame et les fournit
au filtre 38.
L'analyse LTP en boucle fermée effectuée par le module 26 consiste, de façon classique, à sélectionner pour chaque sous-trame le retard T qui maximise la corrélation normalisée: [ Elx/(n) YT(n) 2/ (n)] 2]
E YT 1 E [YT()
n=0 n=0 o x' (n) désigne le signal de sortie du filtre 38 pendant la sous-trame considérée, et YT(n) désigne le produit de convolution u(n-T)*h (n). Dans l'expression ci-dessus, h' (0), h' (1),....h'(L-l) désigne la réponse impulsionnelle du filtre de synthèse pondéré, de fonction de transfert W(z)/A(z). Cette réponse impulsionnelle h' est obtenue par un module 40 de calcul de réponses impulsionnelles, en fonction des coefficients bi et ci fournis par le module 39
et des paramètres LPC qui ont été déterminés pour la sous-
trame, le cas échéant après quantification et interpolation.
Les échantillons u(n-T) sont les états antérieurs du filtre 14 de synthèse à long terme, fournis par le module 32. Pour les retards T inférieurs à la longueur d'une sous-trame, les échantillons manquants u(n-T) sont obtenus par interpolation sur la base des échantillons antérieurs, ou à partir du signal de parole. Les retards T, entiers ou fractionnaires, sont sélectionnés dans une fenêtre déterminée, allant par exemple de 20 à 143 échantillons. Pour réduire la plage de recherche en boucle fermée, et donc pour réduire le nombre de convolutions yT(n) à calculer, on peut d'abord déterminer un retard T en boucle ouverte par exemple une fois par trame, puis sélectionner les retards en boucle fermée pour chaque sous-trame dans un intervalle réduit autour de T. La recherche en boucle ouverte consiste plus simplement à déterminer le retard T' qui maximise l'autocorrélation du signal de parole s(n) éventuellement filtré par le filtre inverse de fonction de transfert A(z). Une fois que le retard T a été déterminé, le gain G de prédiction à long terme est obtenu par: G = [E x'(n) YT(n)] / [E [YT(n)] n=O n=O Pour rechercher l'excitation CELP relative à une sous-trame, le signal GyT(n), qui a été calculé par le module 26 pour le retard optimal T, est d'abord soustrait du signal x' (n) par le soustracteur 42. Le signal résultant x(n) est soumis à un filtre à rebours 44 qui fournit un signal D(n) donné par L-1 D(n) =E x(i).h(i-n) i=n
o h(0), h(l),..., h(L-l) désigne la réponse impul-
sionnelle du filtre composé des filtres de synthèse et du filtre de pondération perceptuelle, calculée par le module 40. En d'autres termes, le filtre composé a pour fonction de transfert W(z)/[A(z).B(z)]. En notation matricielle, on a donc: D = (D(0), D(1),.... D(L-1)) = x.H avec x = (x(0), x(l),..., x(L-l)) h(0) 0. O h(l) h(0) 0 et H = h(L-2). h(0) 0 h(L-l) h(L-2).. h(l)h(0) Le vecteur D constitue un vecteur-cible pour le module 28 de recherche de l'excitation. Ce module 28 détermine un mot de code du répertoire qui maximise la corrélation normalisée Pk2/ak2 dans laquelle: Pk = D.ck ak2 = CkH.HT.H. kT = Ck.U. ckT L'indice k optimal ayant été déterminé, le gain
d'excitation 5 est pris égal à 0 = Pk/ck2.
En référence à la figure 1, le décodeur CELP comprend
un démultiplexeur 8 recevant le flux binaire issu du codeur.
Les valeurs quantifiées des paramètres d'excitation EXC et des paramètres de synthèse LTP et LPC sont fournies au générateur 10, à l'amplificateur 12 et aux filtres 14, 16 pour reconstituer le signal synthétique s, qui peut par exemple être converti en analogique par le convertisseur 18 avant d'être amplifié puis appliqué à un haut- parleur 19 pour
restituer la parole originale.
Les paramètres spectraux en fonction desquels les coefficients Y1 et Y2 sont adaptés comprennent d'une part les deux premiers coefficients de réflexion rl=R(l)/(R(0) et r2=[R(2)-rlR(l)]/[(1-r12)R(0)], qui sont représentatifs de la pente générale du spectre de parole, et d'autre part les fréquences de raie spectrale, dont la distribution est représentative du caractère résonant du filtre de synthèse à court terme. Le caractère résonant du filtre de synthèse à court terme augmente lorsque la plus petite distance dmin entre deux fréquences de raie spectrale diminue. Les fréquences (i étant obtenues en ordre croissant (0<61<o2<...<ûp)<1), on a: dmin = min (Oi+l-Oi) l1i<p Si on s'arrête à la première itération de l'algorithme de Durbin ci-dessus rappelé, on réalise une approximation grossière du spectre de parole par une fonction de transfert l/(l-rl.z 1). La pente générale (le plus souvent négative) du filtre de synthèse tend donc à augmenter en valeur absolue lorsque le premier coefficient de réflexion r1 se rapproche de 1. Si on pousse l'analyse à l'ordre 2 en ajoutant une itération, on a une modélisation moins grossière par un filtre d'ordre 2 de fonction de transfert l/ [l-(rl-rlr2).z-1-r2.z 2)]. Le caractère résonant à basse fréquence de ce filtre d'ordre 2 augmente lorsque ses pôles se rapprochent du cercle unité, c'est-à-dire lorsque r1 tend vers 1 et r2 tend vers -1. On peut donc conclure que le spectre de parole présente une relativement grande énergie dans les basses fréquences (ou encore une pente générale négative relativement importante) lorsque r1 se rapproche de
1 et r2 de -1.
On sait qu'un pic formantique dans le spectre de parole conduit au rapprochement de plusieurs fréquences de raie spectrale (2 ou 3), tandis qu'une partie plate du spectre correspond à une répartition uniforme de ces fréquences. Le caractère résonant du filtre LPC augmente donc
lorsque la distance dmin diminue.
De façon générale, on adopte un masquage plus important (un plus grand écart entre Y1 et Y2) lorsque le caractère passe-bas du filtre de synthèse augmente (r1 se rapproche de 1 et r2 de -1), et/ou lorsque le caractère
résonant du filtre de synthèse diminue (dmin augmente).
La figure 3 montre un exemple d'organigramme des opérations effectuées à chaque trame par le module 39
d'évaluation de la pondération perceptuelle.
A chaque trame, le module 39 reçoit du module 24 les paramètres LPC ai, ri (ou LARi) et (i (leisp). A l'étape 50, le module 39 évalue la distance minimale dmin entre deux fréquences de raie spectrale consécutives en minimisant
Oi+l-@i pour 1 i<p. En fonction des paramètres représentatifs de la pente générale du spectre
sur la trame (rI et r2), le module 39 effectue une classification de la trame entre N classes PO'P,....PN-l' Dans l'exemple de la figure 3, N=2. La classe P1 correspond au cas o le signal de parole s(n) est relativement énergétique aux basses fréquences (r1
relativement proche de 1 et r2 relativement proche de -1).
On adoptera donc généralement un masquage plus important en
classe P1 qu'en classe P0.
Pour éviter les transitions trop fréquentes entre les classes, on introduit une certaine hystérésis en fonction des valeurs de r1 et r2. On peut ainsi prévoir que la classe P1 soit sélectionnée à partir de chaque trame pour laquelle r1 est supérieur à un seuil positif T1 et r2 est inférieur à un seuil négatif -T2, et que la classe P0 soit sélectionnée à partir de chaque trame pour laquelle r1 est inférieur à un autre seuil positif T1 (avec T1 <T1) ou r2 est supérieur à un autre seuil négatif -T2 (avec T2 <T2). Etant donné la sensibilité des coefficients de réflexion autour de 1, cette hystérésis est plus facile à visualiser dans le domaine des rapports logarithmiques LAR (voir figure 4) o les seuils T1, T1, -T2, -T2 correspondant à des seuils respectifs -S1,
-S1, S2, S2
A l'initialisation, la classe par défaut est par exemple celle pour laquelle le masquage est le moins
important (P0).
A l'étape 52, le module 39 examine si la trame précédente relevait de la classe P0 ou de la classe Pi. Si la trame précédente était de classe P0' le module 39 teste, en 54, la condition [LAR1<-S1 et LAR2>S2] ou, si le module 24 fournit les coefficients de réflexion r1, r2 au lieu des rapports logarithmiques LAR1, LAR2, la condition équivalente [rl> T1 et r2<-T2]. Si LARi<-S1 et LAR2>S2, une transition est effectuée en classe P1 (étape 56). Si le test 54 montre que LAR1l-S1 ou que LAR2SS2, la trame courante reste en classe
P0 (étape 58).
Si l'étape 52 montre que la trame précédente était de classe P1, le module 39 teste, en 60, la condition [LARI>-S1 ou LAR2<S2] ou, si le module 24 fournit les coefficients de réflexion r1, r2 au lieu des rapports logarithmiques LAR1, LAR2, la condition équivalente [rl<T1 ou r2>-T2]. Si LARi>-S1 ou LAR2<S2, une transition est effectuée en classe P0 (étape 58). Si le test 60 montre que LARie-S1 et LAR2kS2, la trame courante reste en classe P1
(étape 56).
Dans l'exemple illustré par la figure 3, le plus grand y1 des deux coefficients d'expansion spectrale a une valeur constante ro, rF dans chaque classe P0' P1, avec ro0rl, et l'autre coefficient d'expansion spectrale 72 est une fonction affine décroissante de la distance minimale dmin entre les fréquences de raie spectrale: y2=- 0'dmin+ g0 en classe P0 et y2=-Xldmin+ J1 en classe Pi, avec 102X110 et j4làt00. On peut également borner les valeurs de Y2 pour éviter des variations trop brutales: Amin 0Ty2eAmax,0 en classe P0 et Amin,l Y2 Amax,l en classe P1. Suivant la classe retenue pour la trame courante, le module 39 affecte les valeurs de '1 et Y2 à l'étape 56 ou 58, puis calcule les coefficients bi et ci du filtre de pondération perceptuelle
à l'étape 62.
Comme mentionné précédemment les trames de A échantillons sur lesquelles le module 24 calcule les paramètres LPC sont souvent subdivisées en sous-trames de L
échantillons pour la détermination du signal d'excitation.
En général, une interpolation des paramètres LPC est effectuée au niveau des sous-trames. Dans ce cas, il convient de mettre en oeuvre le processus de la figure 3 pour chaque sous-trame, ou trame d'excitation, à l'aide des paramètres
LPC interpolés.
Le demandeur a testé le processus d'adaptation des coefficients 71 et 2 dans le cas d'un codeur CELP à répertoire algébrique, fonctionnant à 8 kbits/s, pour lequel les paramètres LPC sont calculés à chaque trame de lOms (A=80). Les trames sont divisées chacune en deux sous-trames de 5ms (L=40) pour la recherche du signal d'excitation. Le filtre LPC obtenu pour une trame est appliqué pour la seconde de ses sous-trames. Pour la première sous-trame, une interpolation est effectuée dans le domaine des LSF entre ce filtre et celui obtenu pour la trame précédente. La procédure d'adaptation du niveau de masquage est appliquée au rythme des sous-trames, avec une interpolation des LSF Xi et des
coefficients de réflexion r1, r2 pour les premières sous-
trames. La procédure illustrée par la figure 3 a été utilisée avec les valeurs numériques: S1=1,74; S1 =1,52; S2=0,65; S2'=0,43; F0=0,94; Xo0=0; go=0,6; F1=0,98; 1=6; 1=l; Amin,l=0,4; Amax,1=0,7, les fréquences)i étant normalisées
entre 0 et s.
Cette procédure d'adaptation, avec une complexité supplémentaire négligeable et sans modification structurelle importante du codeur, a permis d'observer une amélioration
significative de la qualité subjective de la parole codée.
Le demandeur a également obtenu des résultats favorables avec le processus de la figure 3 appliqué à un codeur LD-CELP (faible retard) à débit variable entre 8 et 16 kbits/s. Les classes de pente étaient les mêmes que dans le cas précédent, avec [o=0,98; k0=4; 0o=; Amin, 0o=0,6;
Amax, 0=0,8; rl=O,98; 1=6; 1=l; min, l=0,2; Amax,l=0,7.

Claims (7)

REVENDICATIONS
1. Procédé de codage de parole à analyse par synthèse, comprenant les étapes suivantes: - analyse par prédiction linéaire d'ordre p d'un signal de parole (s(n)) numérisé en trames successives pour déterminer des paramètres (LPC) définissant un filtre de synthèse à court terme (16); détermination de paramètres d'excitation définissant un signal d'excitation à appliquer au filtre de synthèse à court terme pour produire un signal synthétique représentatif du signal de parole, certains au moins des paramètres d'excitation étant déterminés en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle dont la fonction de transfert est de la forme W(z)=A(z/Y1)/A(z/y2) o p A(z) = 1- aiz i=1 les coefficients ai étant des coefficients de prédiction linéaire obtenus à l'étape d'analyse par prédiction linéaire, et T1 et 72 désignent des coefficients d'expansion spectrale tels que Oey21ylsl; et - production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme et des paramètres d'excitation, caractérisé en ce qu'on adapte la valeur d'au moins un des coefficients d'expansion spectrale en fonction de paramètres spectraux obtenus à l'étape d'analyse par
prédiction linéaire.
2. Procédé selon la revendication 1, caractérisé en ce que les paramètres spectraux en fonction desquels on adapte la valeur d'au moins un des coefficients d'expansion spectrale comprennent au moins un paramètre (r1,r2) représentatif de la pente générale du spectre du signal de parole et au moins un paramètre (dmin) représentatif du
caractère résonant du filtre de synthèse à court terme (16).
3. Procédé selon la revendication 2, caractérisé en ce que lesdits paramètres représentatifs de la pente générale du spectre comprennent le premier et le second coefficient de réflexion (r1,r2) déterminés lors de l'analyse par
prédiction linéaire.
4. Procédé selon la revendication 2 ou 3, caractérisé en ce que ledit paramètre représentatif du caractère résonant est la plus petite (dmin) des distances entre deux fréquences
de raie spectrale consécutives.
5. Procédé selon l'une quelconque des revendications
2 à 4, caractérisé en ce qu'on effectue une classification des trames du signal de parole entre plusieurs classes (POP1) en fonction du ou des paramètres (rl,r2) représentatifs de la pente générale du spectre, et en ce que, pour chaque classe, on adopte des valeurs des deux coefficients d'expansion spectrale telles que leur différence Y71-72 diminue lorsqu'augmente le caractère résonant du filtre
de synthèse à court terme (16).
6. Procédé selon les revendications 3 et 5,
caractérisé en ce qu'on prévoit deux classes sélectionnées en fonction des valeurs du premier coefficient de réflexion rl=R(l)/R(O) et du second coefficient de réflexion
r2=[R(2)-rl.R(1)]/[(l-r12).R(O)], R(j) désignant l'autocorré-
lation du signal de parole pour un retard de j échantillons, en ce qu'on sélectionne la première classe (P1) à partir de chaque trame pour laquelle le premier coefficient de réflexion (r1) est supérieur à un premier seuil positif (T1) et le second coefficient de réflexion (r2) est inférieur à un premier seuil négatif (-T2), en ce qu'on sélectionne la seconde classe (P0) à partir de chaque trame pour laquelle le premier coefficient de réflexion (r1) est inférieur à un second seuil positif (T1) inférieur au premier seuil positif ou le second coefficient de réflexion (r2) est supérieur à un second seuil négatif (-T2) inférieur en valeur absolue
au premier seuil négatif (-T2).
7. Procédé selon les revendications 4 et 5, carac-
térisé en ce que, dans chaque classe (Po,P1), le plus grand 71 des coefficients d'expansion spectrale est fixe et le plus
petit 72 des coefficients d'expansion spectrale est une fonc-
tion affine décroissante de la plus petite (dmin) des dis-
tances entre deux fréquences de raie spectrale consécutives.
FR9505851A 1995-05-17 1995-05-17 Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme Expired - Lifetime FR2734389B1 (fr)

Priority Applications (9)

Application Number Priority Date Filing Date Title
FR9505851A FR2734389B1 (fr) 1995-05-17 1995-05-17 Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US08/645,388 US5845244A (en) 1995-05-17 1996-05-13 Adapting noise masking level in analysis-by-synthesis employing perceptual weighting
EP96401057A EP0743634B1 (fr) 1995-05-17 1996-05-14 Procédé d'adaptation du niveau de masquage du bruit dans un codeur de parole à analyse par synthèse utilisant un filtre de pondération perceptuelle à court terme
DE69604526T DE69604526T2 (de) 1995-05-17 1996-05-14 Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
CA002176665A CA2176665C (fr) 1995-05-17 1996-05-15 Methode d'adaptation du niveau de masquage du bruit dans un codeur de paroles a analyse par synthese utilisant un filtre a ponderation perceptive a court terme
CN96105872A CN1112671C (zh) 1995-05-17 1996-05-16 综合分析语音编码器中噪声隐蔽电平适应性修改方法
KR1019960016454A KR100389692B1 (ko) 1995-05-17 1996-05-16 단기지각검량여파기를사용하여합성에의한분석방식의음성코더에소음마스킹레벨을적응시키는방법
JP12368596A JP3481390B2 (ja) 1995-05-17 1996-05-17 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
HK98102733A HK1003735A1 (en) 1995-05-17 1998-04-01 Method of adapting the noise masking level in an analysis-by-synthesis speech coder employing a short-term perceptual weighting filter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9505851A FR2734389B1 (fr) 1995-05-17 1995-05-17 Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme

Publications (2)

Publication Number Publication Date
FR2734389A1 true FR2734389A1 (fr) 1996-11-22
FR2734389B1 FR2734389B1 (fr) 1997-07-18

Family

ID=9479077

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9505851A Expired - Lifetime FR2734389B1 (fr) 1995-05-17 1995-05-17 Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme

Country Status (9)

Country Link
US (1) US5845244A (fr)
EP (1) EP0743634B1 (fr)
JP (1) JP3481390B2 (fr)
KR (1) KR100389692B1 (fr)
CN (1) CN1112671C (fr)
CA (1) CA2176665C (fr)
DE (1) DE69604526T2 (fr)
FR (1) FR2734389B1 (fr)
HK (1) HK1003735A1 (fr)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621852A (en) 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
US6304843B1 (en) * 1999-01-05 2001-10-16 Motorola, Inc. Method and apparatus for reconstructing a linear prediction filter excitation signal
GB2348342B (en) * 1999-03-25 2004-01-21 Roke Manor Research Improvements in or relating to telecommunication systems
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
US7283961B2 (en) 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
WO2002013183A1 (fr) 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales
JP4517262B2 (ja) * 2000-11-14 2010-08-04 ソニー株式会社 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857467B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US7263481B2 (en) * 2003-01-09 2007-08-28 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
ES2347473T3 (es) * 2005-12-05 2010-10-29 Qualcomm Incorporated Procedimiento y aparato de deteccion de componentes tonales de señales de audio.
EP1989706B1 (fr) * 2006-02-14 2011-10-26 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8271273B2 (en) * 2007-10-04 2012-09-18 Huawei Technologies Co., Ltd. Adaptive approach to improve G.711 perceptual quality
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
JP5331901B2 (ja) * 2009-12-21 2013-10-30 富士通株式会社 音声制御装置
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
EP3079151A1 (fr) 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur audio et procédé de codage d'un signal audio
US10699725B2 (en) * 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US10756755B2 (en) * 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
US10770088B2 (en) * 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
US20170330575A1 (en) * 2016-05-10 2017-11-16 Immersion Services LLC Adaptive audio codec system, method and article
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0503684A2 (fr) * 1987-04-06 1992-09-16 Voicecraft, Inc. Procédé pour le codage adaptatif vectoriel de la parole et de signaux audio
EP0573216A2 (fr) * 1992-06-04 1993-12-08 AT&T Corp. Vocodeur CELP
EP0582921A2 (fr) * 1992-07-31 1994-02-16 SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. Codeur de signal audio à faible retard, utilisant des techniques d'analyse par synthèse

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
IT1180126B (it) * 1984-11-13 1987-09-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
EP0422232B1 (fr) * 1989-04-25 1996-11-13 Kabushiki Kaisha Toshiba Codeur vocal
EP0401452B1 (fr) * 1989-06-07 1994-03-23 International Business Machines Corporation Codeur de la parole à faible débit et à faible retard
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JPH04284500A (ja) * 1991-03-14 1992-10-09 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動型予測符号化方法
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JPH0744196A (ja) * 1993-07-29 1995-02-14 Olympus Optical Co Ltd 音声符号化復号化装置
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JP2970407B2 (ja) * 1994-06-21 1999-11-02 日本電気株式会社 音声の励振信号符号化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0503684A2 (fr) * 1987-04-06 1992-09-16 Voicecraft, Inc. Procédé pour le codage adaptatif vectoriel de la parole et de signaux audio
EP0573216A2 (fr) * 1992-06-04 1993-12-08 AT&T Corp. Vocodeur CELP
EP0582921A2 (fr) * 1992-07-31 1994-02-16 SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. Codeur de signal audio à faible retard, utilisant des techniques d'analyse par synthèse

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CUPERMAN V ET AL: "LOW DELAY SPEECH CODING*", SPEECH COMMUNICATION, vol. 12, no. 2, 1 June 1993 (1993-06-01), pages 193 - 204, XP000390535 *

Also Published As

Publication number Publication date
EP0743634B1 (fr) 1999-10-06
KR960042516A (ko) 1996-12-21
DE69604526T2 (de) 2000-07-20
US5845244A (en) 1998-12-01
HK1003735A1 (en) 1998-11-06
FR2734389B1 (fr) 1997-07-18
CA2176665C (fr) 2005-05-03
CN1112671C (zh) 2003-06-25
CA2176665A1 (fr) 1996-11-18
CN1138183A (zh) 1996-12-18
DE69604526D1 (de) 1999-11-11
KR100389692B1 (ko) 2003-11-17
EP0743634A1 (fr) 1996-11-20
JP3481390B2 (ja) 2003-12-22
JPH08328591A (ja) 1996-12-13

Similar Documents

Publication Publication Date Title
FR2734389A1 (fr) Procede d&#39;adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
EP0782128B1 (fr) Procédé d&#39;analyse par prédiction linéaire d&#39;un signal audiofréquence, et procédés de codage et de décodage d&#39;un signal audiofréquence en comportant application
EP1316087B1 (fr) Dissimulation d&#39;erreurs de transmission dans un signal audio
US8244526B2 (en) Systems, methods, and apparatus for highband burst suppression
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
EP0801790B1 (fr) Procede de codage de parole a analyse par synthese
Kleijn et al. The RCELP speech‐coding algorithm
JP6392409B2 (ja) 音声符号化のための混合コードブック励振のためのシステムおよび方法
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
EP3175444B1 (fr) Gestion de la perte de trame dans un contexte de transition fd/lpd
EP0801789B1 (fr) Procede de codage de parole a analyse par synthese
JP2018511086A (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法
EP1192618B1 (fr) Codage audio avec liftrage adaptif
Kroon et al. Linear predictive analysis by synthesis coding
Black Analysis-by-synthesis coding of narrowband and wideband speech at medium bit rates
FR2796189A1 (fr) Procedes et dispositifs de codage et de decodage audio
Moreau Predictive speech coding at low bit rates: a unified approach
Stegmann et al. CELP coding based on signal classification using the dyadic wavelet transform
WO2002029786A1 (fr) Procede et dispositif de codage segmental d&#39;un signal audio
FR2739482A1 (fr) Procede et dispositif pour l&#39;evaluation du voisement du signal de parole par sous bandes dans des vocodeurs
FR2796190A1 (fr) Procede et dispositif de codage audio

Legal Events

Date Code Title Description
TP Transmission of property