FR2734389A1 - Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme - Google Patents
Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme Download PDFInfo
- Publication number
- FR2734389A1 FR2734389A1 FR9505851A FR9505851A FR2734389A1 FR 2734389 A1 FR2734389 A1 FR 2734389A1 FR 9505851 A FR9505851 A FR 9505851A FR 9505851 A FR9505851 A FR 9505851A FR 2734389 A1 FR2734389 A1 FR 2734389A1
- Authority
- FR
- France
- Prior art keywords
- parameters
- short
- spectral
- filter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims description 24
- 230000000873 masking effect Effects 0.000 title description 15
- 238000005303 weighing Methods 0.000 title 1
- 230000003595 spectral effect Effects 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 38
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 24
- 238000012546 transfer Methods 0.000 claims abstract description 17
- 230000005284 excitation Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 102100035475 Blood vessel epicardial substance Human genes 0.000 claims 1
- 101001094636 Homo sapiens Blood vessel epicardial substance Proteins 0.000 claims 1
- 101000608194 Homo sapiens Pyrin domain-containing protein 1 Proteins 0.000 claims 1
- 101000595404 Homo sapiens Ribonucleases P/MRP protein subunit POP1 Proteins 0.000 claims 1
- 230000006978 adaptation Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 25
- 230000007774 longterm Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 101001138022 Homo sapiens La-related protein 1 Proteins 0.000 description 3
- 102100020859 La-related protein 1 Human genes 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
Dans un codeur de parole à analyse par synthèse utilisant un filtre de pondération perceptuelle à court terme de fonction de transfert W(z)=A(z/ gamma1 )/A(z/ gamma2 ), on adapte dynamiquement les valeurs des coefficients d'expansion spectrale gamma1 et gamma2 en fonction de paramètres spectraux obtenus lors de l'analyse par prédiction linéaire à court terme. Les paramètres spectraux servant à cette adaptation peuvent notamment comprendre des paramètres représentatifs de la pente générale du spectre du signal de parole, et des paramètres représentatifs du caractère résonant du filtre de synthèse à court terme.
Description
PROCEDE D'ADAPTATION DU NIVEAU DE MASQUAGE DU BRUIT
DANS UN CODEUR DE PAROLE A ANALYSE PAR SYNTHESE
UTILISANT UN FILTRE DE PONDERATION PERCEPTUELLE
A COURT TERME
La présente invention concerne le codage de la parole
par les techniques d'analyse par synthèse.
Un procédé de codage de parole à analyse par synthèse comprend habituellement les étapes suivantes: - analyse par prédiction linéaire d'ordre p d'un signal de parole numérisé en trames successives pour déterminer des paramètres définissant un filtre de synthèse à court terme; - détermination de paramètres d'excitation définissant un signal d'excitation à appliquer au filtre de synthèse à court terme pour produire un signal synthétique représentatif du signal de parole, certains au moins des paramètres d'excitation étant déterminés en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle; et - production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme
et des paramètres d'excitation.
Les paramètres du filtre de synthèse à court terme, obtenus par prédiction linéaire, sont représentatifs de la fonction de transfert du conduit vocal, et caractéristiques
du spectre du signal d'entrée.
Il existe différentes modélisations du signal d'excitation à appliquer au filtre de synthèse à court terme, qui permettent de distinguer différentes classes de codeurs à analyse par synthèse. Dans la plupart des codeurs actuels, le signal d'excitation comporte une composante à long terme synthétisée par un filtre de synthèse à long terme ou par la technique du répertoire adaptatif ('Adaptive Codebook"), qui permet d'exploiter la périodicité à long terme des sons voisés, tels que les voyelles, due à la vibration des cordes vocales. Dans les codeurs CELP ("Code Excited Linear Prediction, voir M.R. Schroeder et B. S. Atal: "Code-Excited Linear Prediction (CELP): High Quality Speech at Very Low
Bit Rates", Proc. ICASSP'85, Tampa, mars 1985, pages 937-
940), l'excitation résiduelle est modélisée par une forme d'onde extraite d'un répertoire stochastique, multipliée par un gain. Les codeurs CELP ont permis, dans la bande téléphonique usuelle, de réduire le débit numérique requis de 64 kbits/s (codeurs MIC classiques) à 16 kbits/s (codeurs LD-CELP) et même jusqu'à 8 kbits/s pour les plus récents codeurs, sans dégradation de la qualité de la parole. Ces codeurs sont aujourd'hui couramment utilisés dans les transmissions téléphoniques, mais ils présentent de nombreuses autres applications telles que le stockage, la téléphonie en bande élargie ou les transmissions par satellite. D'autres exemples de codeurs à analyse par synthèse auxquels 1 'invention peut s'appliquer sont notamment les codeurs MP-LPC (Multi-Pulse Linear Predictive Coding, voir B.S. Atal et J.R. Remde: "A New Model of LPC Excitation for Producing Natural-Sounding Speech at Low Bit Rates", Proc. ICASSP'82, Paris, mai 1982, Vol.l, pages 614-617), o l'excitation résiduelle est modélisée par des impulsions de position variable affectées de gains respectifs, et les codeurs VSELP (Vector-Sum Excited Linear Prediction, voir I.A. Gerson et M.A. Jasiuk, "Vector-Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbits/s", Proc. ICASSP'90 Albuquerque, avril 1990, Vol. 1, pages 461-464), o l'excitation est modélisée par une combinaison linéaire
de vecteurs d'impulsions extraits de répertoires respectifs.
Le codeur évalue l'excitation résiduelle "en boucle fermée", par minimisation de l'erreur pondérée perceptuellement entre le signal synthétique et le signal de parole d'origine. On sait que la pondération perceptuelle améliore sensiblement la perception subjective de la parole synthétisée, par rapport à une simple minimisation de l'erreur quadratique moyenne. La pondération perceptuelle à court terme consiste à réduire l'importance, dans le critère d'erreur minimisé, des zones du spectre de parole o le niveau du signal est relativement important. En d'autres termes, le bruit perçu par l'auditeur est diminué si son spectre, a priori plat, est mis en forme de façon à accepter davantage de bruit dans les zones formantiques que dans les zones inter-formantiques. Pour réaliser cela, le filtre de pondération perceptuelle à court terme a fréquemment une fonction de transfert de la forme W(z)=A (z)/A(z/Y) o p A(Z)= 1- aiz l i=1 les coefficients ai étant les coefficients de prédiction linéaire obtenus à l'étape d'analyse par prédiction linéaire, et y désigne un coefficient d'expansion spectrale compris entre 0 et 1. Cette forme de pondération a été proposée par B.S. Atal et M.R. Schroeder: "Predictive Coding of Speech Signals and Subjective Error Criteria", IEEE Trans. on Acoustics, Speech, and Signal Processing, Vol. ASSP-27, n 3, juin 1979, pages 247-254. Pour 7=1, il n'y a pas de masquage : la minimisation de l'erreur quadratique est faite sur le signal de synthèse. Si 7=0, le masquage est total: la minimisation est faite sur le résidu et le bruit de codage
a la même enveloppe spectrale que le signal de parole.
Une généralisation consiste à choisir pour le filtre de pondération perceptuelle une fonction de transfert W(z) de la forme W(z) = A(z/y1)/A(z/Y2) 71 et y2 désignant des coefficients d'expansion spectrale tels que O0y27y11. Voir J.H. Chen et A. Gersho: "Real-Time Vector APC Speech Coding at 4800 Bps with Adaptive
Postfiltering", Proc. ICASSP'87, avril 1987, pages 2185-2188.
On note que le masquage est inexistant lorsque 71=72, et total lorsque 71= 1 et 72=0. Les coefficients d'expansion spectrale '1 et Y2 déterminent le niveau de masquage du bruit souhaité. Un masquage trop faible rend perceptible un bruit de quantification granulaire constant. Un masquage trop fort affecte l'allure des formants, la distorsion devenant alors
très audible.
Dans les codeurs actuels les plus performants, les paramètres du prédicteur à long terme, comprenant le retard LTP et éventuellement une phase (retard fractionnaire) ou un jeu de coefficients (filtre LTP multicoefficients), sont également déterminés pour chaque trame ou sous-trame, par une procédure en boucle fermée faisant intervenir le filtre de
pondération perceptuelle.
Dans certains codeurs, le filtre de pondération perceptuelle W(z), qui exploite la modélisation à court terme du signal de parole et assure une répartition formantique du bruit, est complété par un filtre de pondération harmonique qui augmente l'énergie du bruit dans les pics correspondant aux harmoniques et l'affaiblit entre ces pics, et/ou par un filtre de correction de pente destiné à empêcher l'apparition de bruit non masqué à haute fréquence, notamment dans les applications en bande élargie. La présente invention est principalement concernée par le filtre de pondération
perceptuelle à court terme W(z).
Le choix des paramètres d'expansion spectrale y, ou y1 et 72, du filtre perceptuel à court terme est habituellement optimisé à l'aide de tests subjectifs. Ce choix est ensuite figé. Or, le demandeur a constaté que, selon les caractéristiques spectrales du signal d'entrée, les valeurs optimales des paramètres d'expansion spectrale peuvent subir une variation importante. Le choix effectué
constitue donc un compromis plus ou moins satisfaisant.
Un but de la présente invention est d'augmenter la qualité subjective du signal codé par une meilleure caractérisation du filtre de pondération perceptuelle. Un autre but est de rendre les performances du codeur plus homogènes pour différents types de signaux d'entrée. Un autre but est que cette amélioration n'exige pas une importante
complexité supplémentaire.
La présente invention concerne ainsi un procédé de codage de parole à analyse par synthèse du type indiqué au début, dans lequel le filtre de pondération perceptuelle a une fonction de transfert de la forme générale W(z)=A(z/l1)/A(z/72) comme indiqué précédemment, et dans lequel on adapte la valeur d'au moins un des coefficients d'expansion spectrale y1, 72 en fonction de paramètres spectraux obtenus à l'étape d'analyse par prédiction
linéaire.
Le fait de rendre adaptatifs les coefficients 71 et Y2 du filtre de pondération perceptuelle permet d'optimiser le niveau de masquage du bruit de codage pour différentes caractéristiques spectrales du signal d'entrée, qui peuvent avoir des variations importantes selon les caractéristiques de la prise de son, les différentes caractéristiques des voix ou la présence de bruit de fond de fort niveau (par exemple bruit de voiture dans la radiotéléphonie mobile). La qualité subjective perçue est augmentée, et les performances du codeur sont rendues plus homogènes pour différents types d'entrée. De préférence, les paramètres spectraux en fonction desquels on adapte la valeur d'un au moins des coefficients d'expansion spectrale, comprennent au moins un paramètre représentatif de la pente générale du spectre du signal de parole. Un spectre de parole a en moyenne plus d'énergie dans les basses fréquences (autour de la fréquence du fondamental qui va de 60 Hz pour une voix d'homme grave à 500 Hz pour une
voix d'enfant) et donc une pente globalement descendante.
Toutefois, une voix d'homme grave aura des hautes fréquences beaucoup plus atténuées et donc un spectre de pente plus importante. Le préfiltrage appliqué par le système de prise de son a une influence importante sur cette pente. Les combinés téléphoniques classiques opèrent un pré-filtrage passe-haut, appelé SRI, qui atténue beaucoup cet effet de pente. Mais une entrée "linéaire" réalisée dans certains équipements plus récents conserve en revanche toute l'importance des basses fréquences. Un masquage faible (faible écart entre Y1 et Y2) atténue trop la pente du filtre perceptuel par rapport à celle du signal. Le niveau de bruit en haute fréquence reste élevé et devient supérieur au signal
lui-même si celui-ci est peu énergétique à ces fréquences.
L'oreille perçoit un bruit non masqué à haute fréquence, d'autant plus gênant qu'il possède parfois un caractère harmonique. La simple correction de la pente du filtre ne suffit pas à modéliser suffisamment cette différence d'énergie. L'adaptation des coefficients d'expansion spectrale tenant compte de la pente générale du spectre de
parole permet de mieux traiter ce problème.
De préférence, les paramètres spectraux en fonction desquels on adapte la valeur d'au moins un des coefficients d'expansion spectrale comprennent en outre au moins un paramètre représentatif du caractère résonant du filtre de synthèse à court terme (LPC). Un signal de parole possède
jusqu'à quatre ou cinq formants dans la bande téléphonique.
Ces "bosses" caractérisant le contour du spectre sont généralement relativement arrondies. Toutefois, l'analyseLPC peut conduire à des filtres proches de l'instabilité. Le spectre correspondant au filtre LPC comporte alors des pics relativement prononcés qui présentent une énergie importante sur une largeur de bande faible. Plus le masquage est important, plus le spectre du bruit devient proche du spectre LPC. Or, la présence d'un pic d'énergie dans la répartition du bruit est très néfaste. Cela produit une distorsion au niveau du formant dans une zone d'énergie importante o la dégradation devient très perceptible. L'invention permet alors de diminuer le niveau du masquage lorsqu'augmente le
caractère résonant du filtre LPC.
Lorsque le filtre de synthèse à court terme est représenté par des paramètres ou fréquences de raie spectrale (LSP ou LSF), le paramètre représentatif du caractère résonant du filtre de synthèse à court terme, en fonction duquel on adapte la valeur de 71 et/ou 72, peut être la plus petite des distances entre deux fréquences de raie spectrale consécutives. D'autres particularités et avantages de la présente
invention apparaîtront dans la description ci-après
d'exemples de réalisation préférés, mais non limitatifs, en référence aux dessins annexés, dans lesquels: - les figures 1 et 2 sont des schémas synoptiques d'un décodeur et d'un codeur CELP pouvant mettre en oeuvre l'invention; - la figure 3 est un organigramme d'une procédure d'évaluation de la pondération perceptuelle; et - la figure 4 montre un graphe de la fonction
log[(1-r)/(l+r)].
L'invention est décrite ci-après dans son application à un codeur de parole de type CELP. On comprendra toutefois qu'elle est également applicable à d'autres types de codeurs
à analyse par synthèse (MP-LPC, VSELP...).
Le processus de synthèse de parole mis en oeuvre dans
un codeur et un décodeur CELP est illustré sur la figure 1.
Un générateur d'excitation 10 délivre un code d'excitation ck appartenant à un répertoire prédéterminé en réponse à un index k. Un amplificateur 12 multiplie ce code d'excitation par un gain d'excitation A, et le signal résultant est soumis à un filtre 14 de synthèse à long terme. Le signal de sortie u du filtre 14 est à son tour soumis à un filtre 16 de synthèse à court terme, dont la sortie s constitue ce qu'on
considère ici comme le signal de parole synthétisé. Bien en-
tendu, d'autres filtres peuvent également être mis en oeuvre au niveau du décodeur, par exemple des post-filtres, comme
il est bien connu dans le domaine du codage de la parole.
Les signaux précités sont des signaux numériques représentés par exemple par des mots de 16 bits à une cadence d'échantillonnage Fe égale par exemple à 8 kHz. Les filtres de synthèse 14, 16 sont en général des filtres purement
récursifs. Le filtre 14 de synthèse à long terme a typi-
quement une fonction de transfert de la forme l/B(z) avec
B(z)=l-Gz T. Le retard T et le gain G constituent des para-
mètres de prédiction à long terme (LTP) qui sont déterminés d'une manière adaptative par le codeur. Les paramètres LPC du filtre 16 de synthèse à court terme sont déterminés au codeur par une prédiction linéaire du signal de parole. La fonction de transfert du filtre 16 est ainsi de la forme l/A(z) avec A(z) =1- a z1 i=1 dans le cas d'une prédiction linéaire d'ordre p (p-10 typiquement), ai représentant le i-ième coefficient de
prédiction linéaire.
On désigne ici par "signal d'excitation" le signal u(n) appliqué au filtre de synthèse à court terme 14. Ce signal d'excitation comporte une composante LTP G.u(n-T) et
une composante résiduelle, ou séquence d'innovation, Ck(n).
Dans un codeur à analyse par synthèse, les paramètres caractérisant la composante résiduelle et, optionnellement, la composante LTP sont évalués en boucle fermée, en utilisant
un filtre de pondération perceptuelle.
La figure 2 montre le schéma d'un codeur CELP. Le signal de parole s(n) est un signal numérique, par exemple fourni par un convertisseur analogique-numérique 20 traitant
le signal de sortie amplifié et filtré d'un microphone 22.
Le signal s(n) est numérisé en trames successives de A échantillons elles-mêmes divisées en sous-trames, ou trames
d'excitation, de L échantillons (par exemple A=240, L=40).
Les paramètres LPC, LTP et EXC (index k et gain d'excitation A) sont obtenus au niveau du codeur par trois modules d'analyse respectifs 24, 26, 28. Ces paramètres sont ensuite quantifiés de façon connue en vue d'une transmission numérique efficace, puis soumis à un multiplexeur 30 qui forme le signal de sortie du codeur. Ces paramètres sont également fournis à un module 32 de calcul d'états initiaux
de certains filtres du codeur. Ce module 32 comprend essen-
tiellement une chaîne de décodage telle que celle représentée sur la figure 1. Comme le décodeur, le module 32 opère sur la base des paramètres LPC, LTP et EXC quantifiés. Si une interpolation des paramètres LPC est effectuée au décodeur, comme il est courant, la même interpolation est effectuée par le module 32. Le module 32 permet de connaître au niveau du codeur les états antérieurs des filtres de synthèse 14, 16
du décodeur, déterminés en fonction des paramètres de syn-
thèse et d'excitation antérieurs à la sous-trame considérée.
Dans une première étape du processus de codage, le module 24 d'analyse à court terme détermine les paramètres LPC (coefficients ai du filtre de synthèse à court terme) en analysant les corrélations à court terme du signal de parole s(n). Cette détermination est effectuée par exemple une fois par trame de A échantillons, de manière à s'adapter à l'évolution du contenu spectral du signal de parole. Les
méthodes d'analyse LPC sont bien connues dans la technique.
On pourra par exemple se reporter à l'ouvrage "Digital Processing of Speech Signals" de L.R. Rabiner et R.W. Shafer, Prentice-Hall Int., 1978. Cet ouvrage décrit notamment l'algorithme de Durbin, qui comporte les étapes suivantes: - évaluation de p autocorrélations R(i) (0si<p) du signal de parole s(n) sur une fenêtre d'analyse incluant la trame courante et éventullement des échantillons antérieurs si la trame est de petite longueur (par exemple 20 à 30 ms): M-1 R(i)= E s*(n). s*(n-i) n=i avec MkA et s*(n)=s(n).f(n), f(n) désignant une fonction de fenêtrage de longueur M, par exemple une fonction rectangulaire ou une fonction de Hamming; - évaluation récursive des coefficients ai:
E(0) = R(0)
Pour i allant de 1 à p, faire i-1 (i-1) ri = [R (i) - X aj. .R(ij)]/E(i-1) ri [R(ci) - aj 103= a() = ri E(i) = (1-ri2).s(i-l) Pour j allant de 1 à i-l, faire a i) aj(1-1) - riaj (i -1) Les coefficients ai sont pris égaux aux ai(P) obtenus à la dernière itération. La quantité E(p) est l'énergie de l'erreur résiduelle de prédiction. Les coefficients ri, compris entre -1 et 1, sont appelés coefficients de réflexion. Ils sont souvent représentés par les rapports logarithmiques (log-area-ratios) LARi=LAR(ri), la fonction
LAR étant définie par LAR(r)= log10[(l-r)/(l+r)].
La quantification des paramètres LPC peut être effectuée sur les coefficients ai directement, sur les coefficients de réflexion ri ou sur les rapports logarithmiques LARi. Une autre possibilité est de quantifier des paramètres de raie spectrale (LSP pour "line spectrum parameters, ou LSF pour "line spectrum frequencies"). Les p fréquences de raie spectrale Ci(leisp), normalisées entre 0 et n, sont telles que les nombres complexes 1, exp(jû2), exp(jo4),..., exp(jip), soient les racines du polynôme P(z)=A(z)-z-(P+l)A(z-1) et que les nombres complexes exp(j l), exp(j3),..., exp(j pl), et -1 soient les racines du polynôme Q(z)=A(z)+z-(P+)A(z-1). La quantification peut porter sur les fréquences normalisées xi
ou sur leurs cosinus.
Le module 24 peut effectuer l'analyse LPC selon l'algorithme classique de Durbin, ci-dessus rappelé afin de définir les quantités ri, LARi et Xi utiles à la mise en oeuvre de l'invention. D'autres algorithmes fournissant les mêmes résultats, développés plus récemment, peuvent être utilisés avantageusement, notamment l'algorithme de Levinson éclaté (voir "A new Efficient Algorithm to Compute the LSP Parameters for Speech Coding", par S. Saoudi, J.M. Boucher
et A. Le Guyader, Signal Processing, Vol.28, 1992, pages 201-
212), ou l'utilisation des polynômes de Chebyshev (voir "The Computation of Line Spectrum Frequencies Using Chebyshev Polynomials, par P. Kabal et R.P. Ramachandran, IEEE Trans. on Acoustics, Speech, and Signal Processing, Vol. ASSP-34,
n 6, pages 1419-1426, décembre 1986).
L'étape suivante du codage consiste en la
détermination des paramètres LTP de prédiction à long terme.
Ceux-ci sont par exemple déterminés une fois par sous-trame de L échantillons. Un soustracteur 34 soustrait du signal de parole s(n) la réponse à un signal d'entrée nul du filtre de synthèse à court terme 16. Cette réponse est déterminée par un filtre 36 de fonction de transfert l/A(z) dont les coefficients sont donnés par les paramètres LPC qui ont été déterminés par le module 24, et dont les états initiaux s sont fournis par le module 32 de façon à correspondre aux p derniers échantillons du signal synthétique. Le signal de sortie du soustracteur 34 est soumis à un filtre 38 de pondération perceptuelle dont le rôle est d'accentuer les portions du spectre o les erreurs sont les plus perceptibles, c'està-dire les zones inter-formantiques. La fonction de transfert W(z) du filtre de pondération perceptuelle est de la forme générale: W(z)=A(z/'Y)/A(z/y2), Y1 et Y2 étant deux coefficients d'expansion spectrale tels que O0y2sYlsl. L'invention propose d'adapter dynamiquement les valeurs de 71 et Y2 en fonction de paramètres spectraux déterminés par le module d'analyse LPC 24. Cette adaptation est réalisée par un module 39 d'évaluation de la pondération perceptuelle, selon un
processus décrit plus loin.
Le filtre de pondération perceptuelle peut être vu comme la succession en série d'un filtre purement récursif d'ordre p, de fonction de transfert: P 1/A(z/y2)= 1/[ E biz-] 1=0 avec b0=l et bi=-aiy2i pour 0<iep et d'un filtre à réponse impulsionnelle finie d'ordre p. de fonction de transfert P A(z/y,)= E ci 1=0 avec c0=l et ci=-ai1yl pour 0<isp. Le module 39 calcule ainsi les coefficients bi et ci pour chaque trame et les fournit
au filtre 38.
L'analyse LTP en boucle fermée effectuée par le module 26 consiste, de façon classique, à sélectionner pour chaque sous-trame le retard T qui maximise la corrélation normalisée: [ Elx/(n) YT(n) 2/ (n)] 2]
E YT 1 E [YT()
n=0 n=0 o x' (n) désigne le signal de sortie du filtre 38 pendant la sous-trame considérée, et YT(n) désigne le produit de convolution u(n-T)*h (n). Dans l'expression ci-dessus, h' (0), h' (1),....h'(L-l) désigne la réponse impulsionnelle du filtre de synthèse pondéré, de fonction de transfert W(z)/A(z). Cette réponse impulsionnelle h' est obtenue par un module 40 de calcul de réponses impulsionnelles, en fonction des coefficients bi et ci fournis par le module 39
et des paramètres LPC qui ont été déterminés pour la sous-
trame, le cas échéant après quantification et interpolation.
Les échantillons u(n-T) sont les états antérieurs du filtre 14 de synthèse à long terme, fournis par le module 32. Pour les retards T inférieurs à la longueur d'une sous-trame, les échantillons manquants u(n-T) sont obtenus par interpolation sur la base des échantillons antérieurs, ou à partir du signal de parole. Les retards T, entiers ou fractionnaires, sont sélectionnés dans une fenêtre déterminée, allant par exemple de 20 à 143 échantillons. Pour réduire la plage de recherche en boucle fermée, et donc pour réduire le nombre de convolutions yT(n) à calculer, on peut d'abord déterminer un retard T en boucle ouverte par exemple une fois par trame, puis sélectionner les retards en boucle fermée pour chaque sous-trame dans un intervalle réduit autour de T. La recherche en boucle ouverte consiste plus simplement à déterminer le retard T' qui maximise l'autocorrélation du signal de parole s(n) éventuellement filtré par le filtre inverse de fonction de transfert A(z). Une fois que le retard T a été déterminé, le gain G de prédiction à long terme est obtenu par: G = [E x'(n) YT(n)] / [E [YT(n)] n=O n=O Pour rechercher l'excitation CELP relative à une sous-trame, le signal GyT(n), qui a été calculé par le module 26 pour le retard optimal T, est d'abord soustrait du signal x' (n) par le soustracteur 42. Le signal résultant x(n) est soumis à un filtre à rebours 44 qui fournit un signal D(n) donné par L-1 D(n) =E x(i).h(i-n) i=n
o h(0), h(l),..., h(L-l) désigne la réponse impul-
sionnelle du filtre composé des filtres de synthèse et du filtre de pondération perceptuelle, calculée par le module 40. En d'autres termes, le filtre composé a pour fonction de transfert W(z)/[A(z).B(z)]. En notation matricielle, on a donc: D = (D(0), D(1),.... D(L-1)) = x.H avec x = (x(0), x(l),..., x(L-l)) h(0) 0. O h(l) h(0) 0 et H = h(L-2). h(0) 0 h(L-l) h(L-2).. h(l)h(0) Le vecteur D constitue un vecteur-cible pour le module 28 de recherche de l'excitation. Ce module 28 détermine un mot de code du répertoire qui maximise la corrélation normalisée Pk2/ak2 dans laquelle: Pk = D.ck ak2 = CkH.HT.H. kT = Ck.U. ckT L'indice k optimal ayant été déterminé, le gain
d'excitation 5 est pris égal à 0 = Pk/ck2.
En référence à la figure 1, le décodeur CELP comprend
un démultiplexeur 8 recevant le flux binaire issu du codeur.
Les valeurs quantifiées des paramètres d'excitation EXC et des paramètres de synthèse LTP et LPC sont fournies au générateur 10, à l'amplificateur 12 et aux filtres 14, 16 pour reconstituer le signal synthétique s, qui peut par exemple être converti en analogique par le convertisseur 18 avant d'être amplifié puis appliqué à un haut- parleur 19 pour
restituer la parole originale.
Les paramètres spectraux en fonction desquels les coefficients Y1 et Y2 sont adaptés comprennent d'une part les deux premiers coefficients de réflexion rl=R(l)/(R(0) et r2=[R(2)-rlR(l)]/[(1-r12)R(0)], qui sont représentatifs de la pente générale du spectre de parole, et d'autre part les fréquences de raie spectrale, dont la distribution est représentative du caractère résonant du filtre de synthèse à court terme. Le caractère résonant du filtre de synthèse à court terme augmente lorsque la plus petite distance dmin entre deux fréquences de raie spectrale diminue. Les fréquences (i étant obtenues en ordre croissant (0<61<o2<...<ûp)<1), on a: dmin = min (Oi+l-Oi) l1i<p Si on s'arrête à la première itération de l'algorithme de Durbin ci-dessus rappelé, on réalise une approximation grossière du spectre de parole par une fonction de transfert l/(l-rl.z 1). La pente générale (le plus souvent négative) du filtre de synthèse tend donc à augmenter en valeur absolue lorsque le premier coefficient de réflexion r1 se rapproche de 1. Si on pousse l'analyse à l'ordre 2 en ajoutant une itération, on a une modélisation moins grossière par un filtre d'ordre 2 de fonction de transfert l/ [l-(rl-rlr2).z-1-r2.z 2)]. Le caractère résonant à basse fréquence de ce filtre d'ordre 2 augmente lorsque ses pôles se rapprochent du cercle unité, c'est-à-dire lorsque r1 tend vers 1 et r2 tend vers -1. On peut donc conclure que le spectre de parole présente une relativement grande énergie dans les basses fréquences (ou encore une pente générale négative relativement importante) lorsque r1 se rapproche de
1 et r2 de -1.
On sait qu'un pic formantique dans le spectre de parole conduit au rapprochement de plusieurs fréquences de raie spectrale (2 ou 3), tandis qu'une partie plate du spectre correspond à une répartition uniforme de ces fréquences. Le caractère résonant du filtre LPC augmente donc
lorsque la distance dmin diminue.
De façon générale, on adopte un masquage plus important (un plus grand écart entre Y1 et Y2) lorsque le caractère passe-bas du filtre de synthèse augmente (r1 se rapproche de 1 et r2 de -1), et/ou lorsque le caractère
résonant du filtre de synthèse diminue (dmin augmente).
La figure 3 montre un exemple d'organigramme des opérations effectuées à chaque trame par le module 39
d'évaluation de la pondération perceptuelle.
A chaque trame, le module 39 reçoit du module 24 les paramètres LPC ai, ri (ou LARi) et (i (leisp). A l'étape 50, le module 39 évalue la distance minimale dmin entre deux fréquences de raie spectrale consécutives en minimisant
Oi+l-@i pour 1 i<p. En fonction des paramètres représentatifs de la pente générale du spectre
sur la trame (rI et r2), le module 39 effectue une classification de la trame entre N classes PO'P,....PN-l' Dans l'exemple de la figure 3, N=2. La classe P1 correspond au cas o le signal de parole s(n) est relativement énergétique aux basses fréquences (r1
relativement proche de 1 et r2 relativement proche de -1).
On adoptera donc généralement un masquage plus important en
classe P1 qu'en classe P0.
Pour éviter les transitions trop fréquentes entre les classes, on introduit une certaine hystérésis en fonction des valeurs de r1 et r2. On peut ainsi prévoir que la classe P1 soit sélectionnée à partir de chaque trame pour laquelle r1 est supérieur à un seuil positif T1 et r2 est inférieur à un seuil négatif -T2, et que la classe P0 soit sélectionnée à partir de chaque trame pour laquelle r1 est inférieur à un autre seuil positif T1 (avec T1 <T1) ou r2 est supérieur à un autre seuil négatif -T2 (avec T2 <T2). Etant donné la sensibilité des coefficients de réflexion autour de 1, cette hystérésis est plus facile à visualiser dans le domaine des rapports logarithmiques LAR (voir figure 4) o les seuils T1, T1, -T2, -T2 correspondant à des seuils respectifs -S1,
-S1, S2, S2
A l'initialisation, la classe par défaut est par exemple celle pour laquelle le masquage est le moins
important (P0).
A l'étape 52, le module 39 examine si la trame précédente relevait de la classe P0 ou de la classe Pi. Si la trame précédente était de classe P0' le module 39 teste, en 54, la condition [LAR1<-S1 et LAR2>S2] ou, si le module 24 fournit les coefficients de réflexion r1, r2 au lieu des rapports logarithmiques LAR1, LAR2, la condition équivalente [rl> T1 et r2<-T2]. Si LARi<-S1 et LAR2>S2, une transition est effectuée en classe P1 (étape 56). Si le test 54 montre que LAR1l-S1 ou que LAR2SS2, la trame courante reste en classe
P0 (étape 58).
Si l'étape 52 montre que la trame précédente était de classe P1, le module 39 teste, en 60, la condition [LARI>-S1 ou LAR2<S2] ou, si le module 24 fournit les coefficients de réflexion r1, r2 au lieu des rapports logarithmiques LAR1, LAR2, la condition équivalente [rl<T1 ou r2>-T2]. Si LARi>-S1 ou LAR2<S2, une transition est effectuée en classe P0 (étape 58). Si le test 60 montre que LARie-S1 et LAR2kS2, la trame courante reste en classe P1
(étape 56).
Dans l'exemple illustré par la figure 3, le plus grand y1 des deux coefficients d'expansion spectrale a une valeur constante ro, rF dans chaque classe P0' P1, avec ro0rl, et l'autre coefficient d'expansion spectrale 72 est une fonction affine décroissante de la distance minimale dmin entre les fréquences de raie spectrale: y2=- 0'dmin+ g0 en classe P0 et y2=-Xldmin+ J1 en classe Pi, avec 102X110 et j4làt00. On peut également borner les valeurs de Y2 pour éviter des variations trop brutales: Amin 0Ty2eAmax,0 en classe P0 et Amin,l Y2 Amax,l en classe P1. Suivant la classe retenue pour la trame courante, le module 39 affecte les valeurs de '1 et Y2 à l'étape 56 ou 58, puis calcule les coefficients bi et ci du filtre de pondération perceptuelle
à l'étape 62.
Comme mentionné précédemment les trames de A échantillons sur lesquelles le module 24 calcule les paramètres LPC sont souvent subdivisées en sous-trames de L
échantillons pour la détermination du signal d'excitation.
En général, une interpolation des paramètres LPC est effectuée au niveau des sous-trames. Dans ce cas, il convient de mettre en oeuvre le processus de la figure 3 pour chaque sous-trame, ou trame d'excitation, à l'aide des paramètres
LPC interpolés.
Le demandeur a testé le processus d'adaptation des coefficients 71 et 2 dans le cas d'un codeur CELP à répertoire algébrique, fonctionnant à 8 kbits/s, pour lequel les paramètres LPC sont calculés à chaque trame de lOms (A=80). Les trames sont divisées chacune en deux sous-trames de 5ms (L=40) pour la recherche du signal d'excitation. Le filtre LPC obtenu pour une trame est appliqué pour la seconde de ses sous-trames. Pour la première sous-trame, une interpolation est effectuée dans le domaine des LSF entre ce filtre et celui obtenu pour la trame précédente. La procédure d'adaptation du niveau de masquage est appliquée au rythme des sous-trames, avec une interpolation des LSF Xi et des
coefficients de réflexion r1, r2 pour les premières sous-
trames. La procédure illustrée par la figure 3 a été utilisée avec les valeurs numériques: S1=1,74; S1 =1,52; S2=0,65; S2'=0,43; F0=0,94; Xo0=0; go=0,6; F1=0,98; 1=6; 1=l; Amin,l=0,4; Amax,1=0,7, les fréquences)i étant normalisées
entre 0 et s.
Cette procédure d'adaptation, avec une complexité supplémentaire négligeable et sans modification structurelle importante du codeur, a permis d'observer une amélioration
significative de la qualité subjective de la parole codée.
Le demandeur a également obtenu des résultats favorables avec le processus de la figure 3 appliqué à un codeur LD-CELP (faible retard) à débit variable entre 8 et 16 kbits/s. Les classes de pente étaient les mêmes que dans le cas précédent, avec [o=0,98; k0=4; 0o=; Amin, 0o=0,6;
Amax, 0=0,8; rl=O,98; 1=6; 1=l; min, l=0,2; Amax,l=0,7.
Claims (7)
1. Procédé de codage de parole à analyse par synthèse, comprenant les étapes suivantes: - analyse par prédiction linéaire d'ordre p d'un signal de parole (s(n)) numérisé en trames successives pour déterminer des paramètres (LPC) définissant un filtre de synthèse à court terme (16); détermination de paramètres d'excitation définissant un signal d'excitation à appliquer au filtre de synthèse à court terme pour produire un signal synthétique représentatif du signal de parole, certains au moins des paramètres d'excitation étant déterminés en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle dont la fonction de transfert est de la forme W(z)=A(z/Y1)/A(z/y2) o p A(z) = 1- aiz i=1 les coefficients ai étant des coefficients de prédiction linéaire obtenus à l'étape d'analyse par prédiction linéaire, et T1 et 72 désignent des coefficients d'expansion spectrale tels que Oey21ylsl; et - production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme et des paramètres d'excitation, caractérisé en ce qu'on adapte la valeur d'au moins un des coefficients d'expansion spectrale en fonction de paramètres spectraux obtenus à l'étape d'analyse par
prédiction linéaire.
2. Procédé selon la revendication 1, caractérisé en ce que les paramètres spectraux en fonction desquels on adapte la valeur d'au moins un des coefficients d'expansion spectrale comprennent au moins un paramètre (r1,r2) représentatif de la pente générale du spectre du signal de parole et au moins un paramètre (dmin) représentatif du
caractère résonant du filtre de synthèse à court terme (16).
3. Procédé selon la revendication 2, caractérisé en ce que lesdits paramètres représentatifs de la pente générale du spectre comprennent le premier et le second coefficient de réflexion (r1,r2) déterminés lors de l'analyse par
prédiction linéaire.
4. Procédé selon la revendication 2 ou 3, caractérisé en ce que ledit paramètre représentatif du caractère résonant est la plus petite (dmin) des distances entre deux fréquences
de raie spectrale consécutives.
5. Procédé selon l'une quelconque des revendications
2 à 4, caractérisé en ce qu'on effectue une classification des trames du signal de parole entre plusieurs classes (POP1) en fonction du ou des paramètres (rl,r2) représentatifs de la pente générale du spectre, et en ce que, pour chaque classe, on adopte des valeurs des deux coefficients d'expansion spectrale telles que leur différence Y71-72 diminue lorsqu'augmente le caractère résonant du filtre
de synthèse à court terme (16).
6. Procédé selon les revendications 3 et 5,
caractérisé en ce qu'on prévoit deux classes sélectionnées en fonction des valeurs du premier coefficient de réflexion rl=R(l)/R(O) et du second coefficient de réflexion
r2=[R(2)-rl.R(1)]/[(l-r12).R(O)], R(j) désignant l'autocorré-
lation du signal de parole pour un retard de j échantillons, en ce qu'on sélectionne la première classe (P1) à partir de chaque trame pour laquelle le premier coefficient de réflexion (r1) est supérieur à un premier seuil positif (T1) et le second coefficient de réflexion (r2) est inférieur à un premier seuil négatif (-T2), en ce qu'on sélectionne la seconde classe (P0) à partir de chaque trame pour laquelle le premier coefficient de réflexion (r1) est inférieur à un second seuil positif (T1) inférieur au premier seuil positif ou le second coefficient de réflexion (r2) est supérieur à un second seuil négatif (-T2) inférieur en valeur absolue
au premier seuil négatif (-T2).
7. Procédé selon les revendications 4 et 5, carac-
térisé en ce que, dans chaque classe (Po,P1), le plus grand 71 des coefficients d'expansion spectrale est fixe et le plus
petit 72 des coefficients d'expansion spectrale est une fonc-
tion affine décroissante de la plus petite (dmin) des dis-
tances entre deux fréquences de raie spectrale consécutives.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9505851A FR2734389B1 (fr) | 1995-05-17 | 1995-05-17 | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
US08/645,388 US5845244A (en) | 1995-05-17 | 1996-05-13 | Adapting noise masking level in analysis-by-synthesis employing perceptual weighting |
EP96401057A EP0743634B1 (fr) | 1995-05-17 | 1996-05-14 | Procédé d'adaptation du niveau de masquage du bruit dans un codeur de parole à analyse par synthèse utilisant un filtre de pondération perceptuelle à court terme |
DE69604526T DE69604526T2 (de) | 1995-05-17 | 1996-05-14 | Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter |
CA002176665A CA2176665C (fr) | 1995-05-17 | 1996-05-15 | Methode d'adaptation du niveau de masquage du bruit dans un codeur de paroles a analyse par synthese utilisant un filtre a ponderation perceptive a court terme |
CN96105872A CN1112671C (zh) | 1995-05-17 | 1996-05-16 | 综合分析语音编码器中噪声隐蔽电平适应性修改方法 |
KR1019960016454A KR100389692B1 (ko) | 1995-05-17 | 1996-05-16 | 단기지각검량여파기를사용하여합성에의한분석방식의음성코더에소음마스킹레벨을적응시키는방법 |
JP12368596A JP3481390B2 (ja) | 1995-05-17 | 1996-05-17 | 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法 |
HK98102733A HK1003735A1 (en) | 1995-05-17 | 1998-04-01 | Method of adapting the noise masking level in an analysis-by-synthesis speech coder employing a short-term perceptual weighting filter |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9505851A FR2734389B1 (fr) | 1995-05-17 | 1995-05-17 | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2734389A1 true FR2734389A1 (fr) | 1996-11-22 |
FR2734389B1 FR2734389B1 (fr) | 1997-07-18 |
Family
ID=9479077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9505851A Expired - Lifetime FR2734389B1 (fr) | 1995-05-17 | 1995-05-17 | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme |
Country Status (9)
Country | Link |
---|---|
US (1) | US5845244A (fr) |
EP (1) | EP0743634B1 (fr) |
JP (1) | JP3481390B2 (fr) |
KR (1) | KR100389692B1 (fr) |
CN (1) | CN1112671C (fr) |
CA (1) | CA2176665C (fr) |
DE (1) | DE69604526T2 (fr) |
FR (1) | FR2734389B1 (fr) |
HK (1) | HK1003735A1 (fr) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5621852A (en) | 1993-12-14 | 1997-04-15 | Interdigital Technology Corporation | Efficient codebook structure for code excited linear prediction coding |
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
TW376611B (en) * | 1998-05-26 | 1999-12-11 | Koninkl Philips Electronics Nv | Transmission system with improved speech encoder |
US6304843B1 (en) * | 1999-01-05 | 2001-10-16 | Motorola, Inc. | Method and apparatus for reconstructing a linear prediction filter excitation signal |
GB2348342B (en) * | 1999-03-25 | 2004-01-21 | Roke Manor Research | Improvements in or relating to telecommunication systems |
USRE43209E1 (en) | 1999-11-08 | 2012-02-21 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
JP3594854B2 (ja) | 1999-11-08 | 2004-12-02 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
JP4517262B2 (ja) * | 2000-11-14 | 2010-08-04 | ソニー株式会社 | 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体 |
US7283961B2 (en) | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
DE60140020D1 (de) * | 2000-08-09 | 2009-11-05 | Sony Corp | Sprachdatenverarbeitungsvorrichtung und -verarbeitungsverfahren |
JP2002062899A (ja) * | 2000-08-23 | 2002-02-28 | Sony Corp | データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体 |
US6850884B2 (en) * | 2000-09-15 | 2005-02-01 | Mindspeed Technologies, Inc. | Selection of coding parameters based on spectral content of a speech signal |
US7010480B2 (en) * | 2000-09-15 | 2006-03-07 | Mindspeed Technologies, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
US6842733B1 (en) * | 2000-09-15 | 2005-01-11 | Mindspeed Technologies, Inc. | Signal processing system for filtering spectral content of a signal for speech coding |
US6678651B2 (en) * | 2000-09-15 | 2004-01-13 | Mindspeed Technologies, Inc. | Short-term enhancement in CELP speech coding |
US7606703B2 (en) * | 2000-11-15 | 2009-10-20 | Texas Instruments Incorporated | Layered celp system and method with varying perceptual filter or short-term postfilter strengths |
JP4857468B2 (ja) * | 2001-01-25 | 2012-01-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
JP4857467B2 (ja) * | 2001-01-25 | 2012-01-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
DE10121532A1 (de) * | 2001-05-03 | 2002-11-07 | Siemens Ag | Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
JP4219898B2 (ja) * | 2002-10-31 | 2009-02-04 | 富士通株式会社 | 音声強調装置 |
US7054807B2 (en) * | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
US20040098255A1 (en) * | 2002-11-14 | 2004-05-20 | France Telecom | Generalized analysis-by-synthesis speech coding method, and coder implementing such method |
EP1579427A4 (fr) | 2003-01-09 | 2007-05-16 | Dilithium Networks Pty Ltd | Procede et appareil visant a ameliorer la qualite du transcodage de la voix |
KR100554164B1 (ko) * | 2003-07-11 | 2006-02-22 | 학교법인연세대학교 | 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법 |
US7792670B2 (en) * | 2003-12-19 | 2010-09-07 | Motorola, Inc. | Method and apparatus for speech coding |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US7177804B2 (en) | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US7831421B2 (en) | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
WO2007120316A2 (fr) * | 2005-12-05 | 2007-10-25 | Qualcomm Incorporated | Systèmes, procédés et appareil de détection de composantes tonales |
CN101385079B (zh) * | 2006-02-14 | 2012-08-29 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
US8271273B2 (en) * | 2007-10-04 | 2012-09-18 | Huawei Technologies Co., Ltd. | Adaptive approach to improve G.711 perceptual quality |
EP2381439B1 (fr) * | 2009-01-22 | 2017-11-08 | III Holdings 12, LLC | Appareil d'encodage de signal acoustique stéréo, appareil de décodage de signal acoustique stéréo, et procédés pour ces appareils |
EP2518723A4 (fr) * | 2009-12-21 | 2012-11-28 | Fujitsu Ltd | Dispositif de commande vocale et procédé de commande vocale |
US9728200B2 (en) | 2013-01-29 | 2017-08-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
EP3079151A1 (fr) | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codeur audio et procédé de codage d'un signal audio |
US20170330575A1 (en) * | 2016-05-10 | 2017-11-16 | Immersion Services LLC | Adaptive audio codec system, method and article |
US10699725B2 (en) * | 2016-05-10 | 2020-06-30 | Immersion Networks, Inc. | Adaptive audio encoder system, method and article |
US10756755B2 (en) * | 2016-05-10 | 2020-08-25 | Immersion Networks, Inc. | Adaptive audio codec system, method and article |
US10770088B2 (en) * | 2016-05-10 | 2020-09-08 | Immersion Networks, Inc. | Adaptive audio decoder system, method and article |
US11380343B2 (en) | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0503684A2 (fr) * | 1987-04-06 | 1992-09-16 | Voicecraft, Inc. | Procédé pour le codage adaptatif vectoriel de la parole et de signaux audio |
EP0573216A2 (fr) * | 1992-06-04 | 1993-12-08 | AT&T Corp. | Vocodeur CELP |
EP0582921A2 (fr) * | 1992-07-31 | 1994-02-16 | SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. | Codeur de signal audio à faible retard, utilisant des techniques d'analyse par synthèse |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
IT1180126B (it) * | 1984-11-13 | 1987-09-23 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale |
NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
WO1990013112A1 (fr) * | 1989-04-25 | 1990-11-01 | Kabushiki Kaisha Toshiba | Codeur vocal |
DE68914147T2 (de) * | 1989-06-07 | 1994-10-20 | Ibm | Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung. |
US5307441A (en) * | 1989-11-29 | 1994-04-26 | Comsat Corporation | Wear-toll quality 4.8 kbps speech codec |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
JPH04284500A (ja) * | 1991-03-14 | 1992-10-09 | Nippon Telegr & Teleph Corp <Ntt> | 低遅延符号駆動型予測符号化方法 |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
JPH0744196A (ja) * | 1993-07-29 | 1995-02-14 | Olympus Optical Co Ltd | 音声符号化復号化装置 |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
US5615298A (en) * | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
JP2970407B2 (ja) * | 1994-06-21 | 1999-11-02 | 日本電気株式会社 | 音声の励振信号符号化装置 |
-
1995
- 1995-05-17 FR FR9505851A patent/FR2734389B1/fr not_active Expired - Lifetime
-
1996
- 1996-05-13 US US08/645,388 patent/US5845244A/en not_active Expired - Lifetime
- 1996-05-14 DE DE69604526T patent/DE69604526T2/de not_active Expired - Lifetime
- 1996-05-14 EP EP96401057A patent/EP0743634B1/fr not_active Expired - Lifetime
- 1996-05-15 CA CA002176665A patent/CA2176665C/fr not_active Expired - Lifetime
- 1996-05-16 KR KR1019960016454A patent/KR100389692B1/ko not_active IP Right Cessation
- 1996-05-16 CN CN96105872A patent/CN1112671C/zh not_active Expired - Lifetime
- 1996-05-17 JP JP12368596A patent/JP3481390B2/ja not_active Expired - Lifetime
-
1998
- 1998-04-01 HK HK98102733A patent/HK1003735A1/xx not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0503684A2 (fr) * | 1987-04-06 | 1992-09-16 | Voicecraft, Inc. | Procédé pour le codage adaptatif vectoriel de la parole et de signaux audio |
EP0573216A2 (fr) * | 1992-06-04 | 1993-12-08 | AT&T Corp. | Vocodeur CELP |
EP0582921A2 (fr) * | 1992-07-31 | 1994-02-16 | SIP SOCIETA ITALIANA PER l'ESERCIZIO DELLE TELECOMUNICAZIONI P.A. | Codeur de signal audio à faible retard, utilisant des techniques d'analyse par synthèse |
Non-Patent Citations (1)
Title |
---|
CUPERMAN V ET AL: "LOW DELAY SPEECH CODING*", SPEECH COMMUNICATION, vol. 12, no. 2, 1 June 1993 (1993-06-01), pages 193 - 204, XP000390535 * |
Also Published As
Publication number | Publication date |
---|---|
DE69604526D1 (de) | 1999-11-11 |
CN1112671C (zh) | 2003-06-25 |
JPH08328591A (ja) | 1996-12-13 |
US5845244A (en) | 1998-12-01 |
JP3481390B2 (ja) | 2003-12-22 |
EP0743634B1 (fr) | 1999-10-06 |
CA2176665A1 (fr) | 1996-11-18 |
CA2176665C (fr) | 2005-05-03 |
HK1003735A1 (en) | 1998-11-06 |
CN1138183A (zh) | 1996-12-18 |
EP0743634A1 (fr) | 1996-11-20 |
KR100389692B1 (ko) | 2003-11-17 |
FR2734389B1 (fr) | 1997-07-18 |
KR960042516A (ko) | 1996-12-21 |
DE69604526T2 (de) | 2000-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2734389A1 (fr) | Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme | |
EP0782128B1 (fr) | Procédé d'analyse par prédiction linéaire d'un signal audiofréquence, et procédés de codage et de décodage d'un signal audiofréquence en comportant application | |
EP1316087B1 (fr) | Dissimulation d'erreurs de transmission dans un signal audio | |
US8244526B2 (en) | Systems, methods, and apparatus for highband burst suppression | |
CN101180676B (zh) | 用于谱包络表示的向量量化的方法和设备 | |
EP0801790B1 (fr) | Procede de codage de parole a analyse par synthese | |
Kleijn et al. | The RCELP speech‐coding algorithm | |
JP6392409B2 (ja) | 音声符号化のための混合コードブック励振のためのシステムおよび方法 | |
JPH10124088A (ja) | 音声帯域幅拡張装置及び方法 | |
EP3175444B1 (fr) | Gestion de la perte de trame dans un contexte de transition fd/lpd | |
EP0801789B1 (fr) | Procede de codage de parole a analyse par synthese | |
JP2018511086A (ja) | オーディオ信号を符号化するためのオーディオエンコーダー及び方法 | |
CN100487790C (zh) | 选择自适应码本激励信号的方法和装置 | |
Kroon et al. | Linear predictive analysis by synthesis coding | |
Black | Analysis-by-synthesis coding of narrowband and wideband speech at medium bit rates | |
FR2796189A1 (fr) | Procedes et dispositifs de codage et de decodage audio | |
Moreau | Predictive speech coding at low bit rates: a unified approach | |
Tahilramani et al. | Performance Analysis of CS-ACELP Algorithm With variation in Weight Factor for Weighted Speech Analysis | |
Stegmann et al. | CELP coding based on signal classification using the dyadic wavelet transform | |
WO2002029786A1 (fr) | Procede et dispositif de codage segmental d'un signal audio | |
FR2796193A1 (fr) | Procede et dispositif de codage audio | |
FR2739482A1 (fr) | Procede et dispositif pour l'evaluation du voisement du signal de parole par sous bandes dans des vocodeurs | |
FR2796190A1 (fr) | Procede et dispositif de codage audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TP | Transmission of property |