EP1383111A2 - Procédé et dispositif d'encodage de la parole à bande élargie - Google Patents
Procédé et dispositif d'encodage de la parole à bande élargie Download PDFInfo
- Publication number
- EP1383111A2 EP1383111A2 EP20030291747 EP03291747A EP1383111A2 EP 1383111 A2 EP1383111 A2 EP 1383111A2 EP 20030291747 EP20030291747 EP 20030291747 EP 03291747 A EP03291747 A EP 03291747A EP 1383111 A2 EP1383111 A2 EP 1383111A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- filter
- term
- word
- excitation
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
On échantillonne la parole de façon à obtenir des trames
vocales successives comportant chacune un nombre prédéterminé
d'échantillons. A chaque trame vocale on détermine des paramètres
d'un modèle de prédiction linéaire à excitation par code, ces
paramètres comportant un mot numérique d'excitation à long terme vi
extrait d'un répertoire codé adaptatif DLT et un gain à long terme
associé Ga, ainsi qu'un mot d'excitation à court terme cj extrait d'un
répertoire codé fixe DCT et un gain à court terme associé Gc. On
somme SM le produit du mot extrait d'excitation à long terme par le
gain à long terme associé, avec le produit du mot extrait d'excitation à
court terme par le gain à court terme associé, on filtre le mot
numérique sommé dans un filtre passe-bas FLCT ayant une fréquence
de coupure supérieure au quart de la fréquence d'échantillonnage et
inférieure à la moitié de celle-ci, et on met à jour le répertoire codé
adaptatif avec le mot filtré.
Description
L'invention concerne l'encodage/décodage de la parole à
bande élargie, notamment mais non limitativement pour la téléphonie
mobile.
En bande élargie, la bande passante du signal de parole est
comprise entre 50 et 7000 Hz.
Des séquences de parole successives échantillonnées à une
fréquence d'échantillonnage prédéterminée, par exemple 16 kHz,
sont traitées dans un dispositif de codage de type CELP, utilisant
une prédiction linéaire à excitation par séquences codées ( par
exemple ACELP : « algebraic-code-excited linear-prediction »), bien
connu de l'homme du métier, et décrit notamment dans la
recommandation ITU-TG 729, version 3/96, intitulée « codage de la
parole à 8 kbits/s par prédiction linéaire avec excitation par
séquences codées à structure algébrique conjuguée ».
On va maintenant rappeler brièvement, en se référant à la
figure 1, les principales caractéristiques et fonctionnalités d'un tel
codeur, l'homme du métier pouvant se référer à toutes fins utiles,
pour plus de détails, à la recommandation G 729 précitée.
Le codeur de prédiction CD, du type CELP, est fondé sur le
modèle de codage prédictif linéaire à excitation par code. Le codeur
opère sur des super-trames vocales équivalentes par exemple à 20 ms
de signal et comportant chacune 320 échantillons. L'extraction des
paramètres de prédiction linéaire, c'est-à-dire les coefficients du
filtre de prédiction linéaire également appelé filtre de synthèse à
court-terme 1/A(z), est effectuée pour chaque super-trame de parole.
Par contre, chaque super-trame est subdivisée en trames de 5 ms
comprenant 80 échantillons. Toutes les trames, le signal vocal est
analysé pour en extraire les paramètres du modèle de prédiction
CELP (c'est-à-dire, notamment, un mot numérique d'excitation à
long terme vi extrait d'un répertoire codé adaptatif DLT, également
dénommé « dictionnaire à long terme adaptatif », un gain à long
terme associé Ga, un mot d'excitation à court terme Cj, extrait d'un
répertoire codé fixe DCT, également dénommé « dictionnaire à court
terme », et un gain à court terme associé Gc).
Ces paramètres sont ensuite codés et transmis.
A la réception, ces paramètres servent, dans un décodeur, à
récupérer les paramètres d'excitation et du filtre prédictif. On
reconstitue alors la parole en filtrant ce flux d'excitation dans un
filtre de synthèse à court terme.
Alors que le dictionnaire adaptatif DLT contient des mots
nunériques représentatifs de délais tonaux représentatifs
d'excitations passées, le dictionnaire à court terme DCT est fondé
sur une structure fixe, par exemple de type stochastique, ou de type
algébrique utilisant un modèle de permutation entrelacée
d'impulsions de Dirac. Dans le cas d'une structure algébrique, le
répertoire codé contient des excitations innovatrices également
appelées excitations algébriques ou à court-terme, et chaque vecteur
contient un certain nombre d'impulsions non nulles, par exemple
quatre, dont chacune peut avoir l'amplitude +1 ou -1 avec des
positions prédéterminées.
Les moyens de traitement du codeur CD comportent
fonctionnellement des premiers moyens d'extraction MEXT1
destinés à extraire le mot d'excitation à long terme, et des
deuxièmes moyens d'extraction MEXT2 destinés à extraire le mot
d'excitation à court terme. Fonctionnellement, ces moyens sont
réalisés par exemple de façon logicielle au sein d'un processeur.
Ces moyens d'extraction comportent un filtre prédictif FP
ayant une fonction de transfert égale à 1/A(z), ainsi qu'un filtre de
pondération perceptuel FPP ayant une fonction de transfert W(z). Le
filtre de pondération perceptuelle est appliqué au signal pour
modéliser la perception de l'oreille.
Par ailleurs, les moyens d'extraction comportent des moyens
MECM destinés à effectuer une minimisation d'une erreur carrée
moyenne.
Le filtre de synthèse FP de la prédiction linéaire modélise
l'enveloppe spectrale du signal. L'analyse prédictive linéaire est
effectuée toutes les super-trames, de façon à déterminer les
coefficients de filtrage prédictif linéaire. Ceux-ci sont convertis en
paires de lignes spectrales (LSP : « Line Spectrum Pairs ») et
numérisés par quantification vectorielle prédictive en deux étapes.
Chaque super-trame de parole de 20 ms est divisée en quatre
trames de 5 ms chacune contenant 80 échantillons. Les paramètres
LSP quantifiés sont transmis au décodeur une fois par super-trame
alors que les paramètres à long terme et à court terme sont transmis
à chaque trame.
Les coefficients du filtre de prédiction linéaire, quantifiés et
non quantifiés, sont utilisés pour la trame la plus récente d'une
super-trame, tandis que les trois autres trames de la même super-trame
utilisent une interpolation de ces coefficients. Le délai tonal
en boucle ouverte est estimé par exemple toutes les deux trames sur
la base du signal vocal pondéré perceptuellement. Puis, les
opérations suivantes sont répétées à chaque trame :
Le signal cible à long terme XLT est calculé en filtrant le
signal de parole échantillonné s(n) par le filtre de pondération
perceptuelle FPP.
On soustrait ensuite du signal vocal pondéré la réponse à
entrée nulle du filtre de synthèse pondéré FP, FPP, de façon à
obtenir un nouveau signal cible long terme.
La réponse impulsionnelle du filtre de synthèse pondéré est
calculé.
Une analyse tonale en boucle fermée utilisant une
minimisation de l'erreur carrée moyenne, est ensuite effectuée afin
de déterminer le mot d'excitation à long terme vi et le gain associé
Ga, au moyen du signal cible et de la réponse impulsionnelle, par
recherche autour de la valeur du délai tonal en boucle ouverte.
Le signal cible long terme est ensuite mis à jour par
soustraction de la contribution filtrée y du répertoire codé adaptatif
DLT et ce nouveau signal cible court terme XST est utilisé lors de
l'exploration du répertoire codé fixe DCT afin de déterminer le mot
d'excitation court terme cj et le gain Gc associé. Là encore, cette
recherche en boucle fermée s'effectue par une minimisation de
l'erreur carrée moyenne.
Finalement, le dictionnaire à long terme adaptatif DLT ainsi
que les mémoires des filtres FP et FPP, sont mis à jour au moyen des
mots d'excitation long terme et court terme ainsi déterminés.
La qualité d'un algorithme CELP dépend fortement de la
richesse du dictionnaire d'excitation à court terme DCT, par exemple
d'un dictionnaire d'excitation algébrique. Si l'efficacité d'un tel
algorithme est incontestable pour les signaux à bande passante
étroite (300-3400 Hz), des problèmes surviennent pour des signaux à
bande élargie.
Les inventeurs ont en effet observé que même avec un
dictionnaire très riche, l'algorithme d'encodage de la parole produit
deux types de problèmes :
- un bruit harmonique en haute fréquence (comb-like noise),
- un fort bruit à haute fréquence, tel un bruit de quantification,
- un bruit en basse fréquence (rumbling noise), tel qu'un balai de paille frappé à intervalles réguliers sur le sol.
Il a alors été observé qu'une amélioration de la qualité
globale de la parole pouvait être obtenue par une élimination
partielle ou totale de ces bruits.
Un but de l'invention est de réduire le bruit harmonique et le
bruit haute fréquence.
L'invention a également pour but de supprimer le bruit de
type « sifflement » entachant les trames de parole voisée.
L'invention a encore pour but de contrôler indépendamment
les distorsions à court terme et à long terme.
L'invention propose donc un procédé d'encodage de la parole
à bande élargie, dans lequel on échantillonne la parole de façon à
obtenir des trames vocales successives comportant chacune un
nombre prédéterminé d'échantillons, et à chaque trame vocale, on
détermine des paramètres d'un modèle de prédiction linéaire à
excitation par code, ces paramètres comportant un mot numérique
d'excitation à long terme extrait d'un répertoire codé adaptatif et un
gain à long terme associé, ainsi qu'un mot d'excitation à court terme
extrait d'un dictionnaire à court terme et un gain à court terme
associé, et on met à jour le répertoire codé adaptatif à partir du mot
d'excitation à long terme extrait et du mot d'excitation à court terme
extrait.
Selon une caractéristique générale de l'invention, on somme
le produit du mot extrait d'excitation à long terme par le gain à long
terme associé, avec le produit du mot extrait d'excitation à court
terme par le gain à court terme associé, on filtre le mot numérique
sommé dans un filtre passe-bas ayant une fréquence de coupure
supérieure au quart de la fréquence d'échantillonnage et inférieure à
la moitié de celle-ci, et on met à jour le répertoire codé adaptatif
avec le mot filtré.
L'invention utilise ici un filtre « de correction totale » qui
combine un filtre de correction du bruit harmonique et un filtre de
correction haute fréquence.
L'invention permet ainsi une amélioration de la qualité
durant les trames de parole voisées. Par ailleurs, la complexité de
l'encodeur est réduite en fusionnant en un seul filtre le filtre de
correction harmonique et le filtre de correction haute fréquence.
L'invention se distingue notamment d'une solution décrite
dans un article de Kroon et Atal, intitulé « Strategies for Improving
the Performance of CELP Coders at Low Bit Rates », Proc., IEEE,
Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP' 88,
New York, USA, 1988, Pages 151-154, qui propose un filtrage du
dictionnaire adaptatif effectué à la sortie de ce dictionnaire et non
pas à l'entrée conformément à l'invention.
Ainsi, le préfiltrage du dictionnaire adaptatif selon
l'invention présente par rapport au post-filtrage de l'article de
Kroon et Atal, l'avantage que le filtrage est pris en compte lors de la
minimisation de l'erreur effectuée pour choisir l'excitation
adaptative à la trame suivante. Ce n'est pas le cas pour la solution de
Kroon et Atal, puisque le filtrage proposé a lieu sur l'excitation
choisie. Aussi, pour tenir compte du filtrage dans la minimisation de
l'erreur, il faudrait alors augmenter la complexité.
Selon un mode de mise en oeuvre préférentielle, on filtre le
mot sommé avec un filtre numérique à réponse impulsionnelle finie à
phase linéaire ayant un ordre au moins égal à 10. Par exemple,
lorsque la fréquence d'échantillonnage est de 16 kHz, on peut
choisir un filtre d'ordre 20 ayant une fréquence de coupure de
l'ordre de 6 kHz.
Bien que la qualité de la parole soit ainsi améliorée, les
trames de parole voisées semblent encore corrompues par un bruit de
type « sifflement ». Ce bruit de nature haute fréquence provient de
l'excitation à court terme qui introduit des artéfacts indésirables.
Deux types de solutions pour résoudre ce problème ont déjà été
proposés dans la littérature. Un premier type de solution, décrit par
exemple
dans l'article de Gerson et Jasiuk, intitulé « Techniques for Improving the Performance of CELP-Type Speech Coders », IEEE, Journal on Selected Areas In Communications, Vol. 10, N°5, Juin 1992, pages 858-865, ou bien
dans l'article de Miki et autres, intitulé « A Pitch Synchronous Innovation CELP (PSI-CELP) Coder for 2-4 kbit/s », Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'94, Adelaïde, South Australia, 1994, Vol. II, pages 113-116,
propose de rendre la contribution à court terme périodique.
dans l'article de Gerson et Jasiuk, intitulé « Techniques for Improving the Performance of CELP-Type Speech Coders », IEEE, Journal on Selected Areas In Communications, Vol. 10, N°5, Juin 1992, pages 858-865, ou bien
dans l'article de Miki et autres, intitulé « A Pitch Synchronous Innovation CELP (PSI-CELP) Coder for 2-4 kbit/s », Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'94, Adelaïde, South Australia, 1994, Vol. II, pages 113-116,
propose de rendre la contribution à court terme périodique.
Un autre type de solution, décrit par exemple
dans l'article de Taniguchi Johnson et Ohta, intitulé « Pitch Sharpening for Perceptually Improved CELP, and the Sparse-Delta Codebook for Reduced Computation », Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'91, Toronto, Canada, 1991, pages 241-244, ou
dans l'article de Shoham, intitulé « Constrained-Stochastic Excitation Coding of Speech At 4,8 kb/s », Advances in Speech Coding, B.S. Atal, V. Cuperman, and A. Gersho, Eds., Dordrecht, The Netherlands, Kluwer, 1991, pages 339-348,
propose un contrôle de façon adaptative du gain à court terme.
dans l'article de Taniguchi Johnson et Ohta, intitulé « Pitch Sharpening for Perceptually Improved CELP, and the Sparse-Delta Codebook for Reduced Computation », Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, ICASSP'91, Toronto, Canada, 1991, pages 241-244, ou
dans l'article de Shoham, intitulé « Constrained-Stochastic Excitation Coding of Speech At 4,8 kb/s », Advances in Speech Coding, B.S. Atal, V. Cuperman, and A. Gersho, Eds., Dordrecht, The Netherlands, Kluwer, 1991, pages 339-348,
propose un contrôle de façon adaptative du gain à court terme.
L'invention propose également une solution du type contrôle
de gain, mais totalement différente de celle décrite notamment dans
les articles de Taniguchi et autres et de Shoham.
Plus précisément, selon un mode de mise en oeuvre de
l'invention, l'extraction du mot d'excitation à court terme comporte
un filtrage numérique de prédiction linéaire et le procédé comporte
une mise à jour de l'état du filtre de prédiction linéaire avec le mot
d'excitation à court terme filtré par un filtre dont le ou les
coefficients dépendent de la valeur du gain à long terme, de façon à
affaiblir la contribution de l'excitation à court terme lorsque le gain
de l'excitation à long terme est supérieur à un seuil prédéterminé,
par exemple égal à 0,8.
En d'autres termes, la solution selon l'invention consiste ici
à affaiblir la contribution de l'excitation à court terme si le gain de
l'excitation à long terme est important. Cependant, c'est la
contribution de l'excitation à court terme non affaiblie qui est
stockée dans le dictionnaire adaptatif pour sa mise à jour. Ainsi, la
réduction intervient seulement sur la sortie. Le fait de préserver la
contribution à court terme à stocker est important, puisque la
richesse du dictionnaire adaptatif est ainsi conservée pour les plus
basses fréquences.
Bien entendu, la correction du gain doit également être
appliquée lors de la reconstruction du signal au niveau du décodeur.
Ce filtre peut être d'ordre 0 ou bien d'ordre supérieur ou égal
à 1. Dans ce dernier cas, le filtre d'ordre supérieur ou égal à 1 peut
être à réponse impulsionnelle finie.
Selon un mode de mise en oeuvre de l'invention, dans lequel
filtre est d'ordre 1 et sa fonction de transfert égale à B0+B1 z-1, le
premier coefficient B0 du filtre est égal à 1/(1+β.min(Ga,1)), et le
deuxième coefficient B1 du filtre est égal à
β.min(Ga,1)/(1+β.min(Ga,1)), où β est un nombre réel de valeur
absolue inférieure à 1, Ga est le gain à long terme et min(Ga,1)
désigne la valeur minimale entre Ga et 1.
Selon une autre variante de l'invention, qui peut être prise en
combinaison ou bien indépendamment de la variante précédente, on
effectue l'extraction du mot d'excitation à long terme en utilisant un
premier filtre de pondération perceptuelle comportant un premier
filtre de pondération formantique, et on effectue l'extraction du mot
d'excitation à court terme en utilisant le premier filtre de
pondération perceptuelle cascadé à un deuxième filtre de
pondération perceptuelle comportant un deuxième filtre de
pondération formantique. Le dénominateur de la fonction de transfert
du premier filtre de pondération formantique est égal au numérateur
du deuxième filtre de pondération formantique.
Ainsi, selon cette variante, l'utilisation de deux filtres de
pondération formantique différents permet de contrôler
indépendamment les distorsions à court terme et à long terme. Le
filtre de pondération à court terme est cascadé au filtre de
pondération à long terme. En outre, le fait de lier le dénominateur du
filtre de pondération à long terme au numérateur du filtre de
pondération à court terme permet de contrôler séparément ces deux
filtres et permet en outre une nette simplification lorsque ces deux
filtres sont cascadés.
Bien entendu, lorsque cette variante est utilisée en
combinaison avec la variante de contrôle de gain, il est prévu une
mise à jour de l'état des deux filtres de pondération perceptuelle
avec le mot d'excitation à court terme filtré par le filtre d'ordre
supérieur ou égal à 1.
L'invention a également pour objet un dispositif d'encodage
de la parole à bande élargie, comportant
- des moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons,
- des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif et à calculer un gain à long terme associé, et des deuxièmes moyens d'extraction aptes à extraire un mot d'excitation à court terme d'un répertoire codé fixe et à calculer un gain à court terme associé, et
- des premiers moyens de mise à jour aptes à mettre à jour le répertoire codé adaptatif à partir du mot d'excitation à long terme extrait et du mot d'excitation à court terme extrait. Selon une caractéristique générale de l'invention, les premiers moyens de mise à jour comportent
- des premiers moyens de calcul aptes à sommer le produit du mot extrait d'excitation à long terme par le gain à long terme associé, avec le produit du mot extrait d'excitation à court terme par le gain à court terme associé, de façon à délivrer un mot numérique sommé, et
- un filtre passe-bas ayant une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci, et connecté entre la sortie des premiers moyens de calcul et le répertoire codé adaptatif de façon à mettre à jour ce répertoire adaptatif avec le mot filtré.
Selon un mode de réalisation de l'invention, les premiers
moyens d'extraction comportent un filtre numérique de prédiction
linéaire, et par le fait que le dispositif comporte des deuxièmes
moyens de mise à jour aptes à effectuer une mise à jour de l'état du
filtre de prédiction linéaire avec le mot d'excitation à court terme
filtré par un filtre dont le ou les coefficients dépendent de la valeur
du gain à long terme, de façon à affaiblir la contribution de
l'excitation à court terme lorsque le gain de l'excitation à long terme
est supérieur à un seuil prédéterminé.
Selon un autre mode de réalisation de l'invention, les
premiers moyens d'extraction comprennent un premier filtre de
pondération perceptuelle comportant un premier filtre de pondération
formantique, par le fait que les deuxièmes moyens d'extraction
comprennent le premier filtre de pondération perceptuelle cascadé à
un deuxième filtre de pondération perceptuelle comportant un
deuxième filtre de pondération formantique, et par le fait que le
dénominateur de la fonction de transfert du premier filtre de
pondération formantique est égal au numérateur du deuxième filtre
de pondération formantique.
L'invention a également pour objet un terminal d'un système
de communication sans fil, par exemple un téléphone mobile
cellulaire, incorporant un dispositif tel que défini ci-avant.
D'autres avantages et caractéristiques de l'invention
apparaítront à l'examen de la description détaillée de modes de
réalisation et de mise en oeuvre, nullement limitatifs, et des dessins
annexés, sur lesquels :
- la figure 1, déjà décrite, illustre schématiquement un dispositif d'encodage de la parole, selon l'art antérieur ;
- la figure 2 illustre schématiquement un premier mode de réalisation d'un dispositif d'encodage, selon l'invention ;
- la figure 3 illustre schématiquement un deuxième mode de réalisation d'un dispositif d'encodage, selon l'invention, et la figure 3a illustre schématiquement un mode de réalisation d'un décodeur correspondant ;
- la figure 4 illustre schématiquement un troisième mode de réalisation d'un dispositif d'encodage, selon l'invention ;
- la figure 5 illustre schématiquement un quatrième mode de réalisation d'un dispositif d'encodage, selon l'invention ; et
- la figure 6 illustre schématiquement l'architecture interne d'un téléphone mobile cellulaire incorporant un dispositif de codage, selon l'invention.
Le dispositif d'encodage, ou codeur, CD, selon l'invention,
tel qu'illustré sur la figure 2, se distingue de celui de l'art antérieur
comme illustré sur la figure 1 par le fait que les moyens MAJ de
mise à jour du dictionnaire à long terme adaptatifs DLT comportent
un filtre de correction totale FLCT connecté entre la sortie d'un
sommateur SM et l'entrée du dictionnaire DLT.
Les deux entrées du sommateur SM reçoivent respectivement
le produit du mot extrait d'excitation à long terme vi par le gain à
long terme associé Ga, et le produit du mot extrait d'excitation à
court terme cj par le gain associé Gc.
Ce filtre de correction totale FLCT est un filtre passe-bas
ayant d'une façon générale une fréquence de coupure supérieure au
quart de la fréquence d'échantillonnage et inférieure à la moitié de
celle-ci.
Ce filtre est dans l'exemple décrit un filtre numérique à
réponse impulsionnelle finie à phase linéaire ayant un ordre au
moins égal à 10.
Plus précisément, lorsque la fréquence d'échantillonnage est
de 16 kHz, on utilisera de préférence une fréquence de coupure de
l'ordre de 6 kHz et un filtre d'ordre 20, ce qui réalise un bon
compromis entre la complexité de la mémoire et la qualité du signal
vocal reconstitué.
Le bruit harmonique est introduit par la contribution de
l'excitation à long terme et par la répétition d'échantillons pour des
valeurs de la période fondamentale (pitch) inférieures à la longueur
d'une trame de parole, ici de 5 ms. Ce bruit est également présent
pour des valeurs de la période fondamentale supérieures à la taille
d'une trame. Il est en outre lié au gain adaptatif, extrait une seule
fois par trame de parole.
L'utilisation d'un filtrage passe-bas de la contribution à long
terme est une solution pour réduire le bruit harmonique.
Par ailleurs, le bruit à haute fréquence est introduit par des
anciennes contributions à haute fréquence du dictionnaire à court
terme, présentes dans le dictionnaire adaptatif.
Pour éliminer ce bruit haute fréquence, on peut éliminer les
composantes résiduelles à haute fréquence du dictionnaire adaptatif,
en utilisant un filtre de correction, et ceci avant de remettre à jour le
dictionnaire.
Le filtre de correction totale selon l'invention réalise donc la
double fonction de correction harmonique et de correction haute
fréquence. Ceci permet une amélioration de la qualité durant les
trames de parole voisées.
En outre, l'emplacement de ce filtre, c'est-à-dire en entrée du
dictionnaire adaptatif, permet de prendre en compte le filtrage lors
de la minimisation de l'erreur effectuée pour choisir l'excitation
adaptative de la trame de parole suivante.
Dans le mode de réalisation illustré sur la figure 3, le codeur
CD comporte en outre des deuxièmes moyens de mise à jour MAJ2
aptes à effectuer une mise à jour de l'état du filtre de prédiction
linéaire FP et de l'état du filtre de pondération perceptuelle FPP
avec le mot d'excitation à court terme Cj filtré par un filtre que l'on
a représenté ici schématiquement par un gain Gc'. Ce filtre peut être
d'ordre 0 et son gain Gc' est inférieur au gain Gc. En variante, ce
filtre peut être à réponse impulsionnelle finie et d'ordre supérieur ou
égal à 1, avec pour cas particulier un filtre à réponse impulsionnelle
finie d'ordre 1.
Les coefficients de ce filtre d'ordre 1 dépendent de la valeur
du gain à long terme Ga, de façon à affaiblir la contribution de
l'excitation à court terme lorsque le gain de l'excitation à long terme
Ga est supérieur à un seuil prédéterminé, par exemple égal à 0,8.
La fonction de transfert de ce filtre est égale à B0+B1 z-1. A
titre d'exemple, le premier coefficient du filtre B0 peut être
déterminé par la formule (I) ci-dessous.
1/(1 + 0,98 min (Ga, 1))
tandis que le deuxième coefficient du filtre B1 peut être déterminé
par la formule (II) ci-dessous.
0,98 min (Ga, 1) / (1 + 0,98 min (Ga, 1))
Par contre c'est bien la contribution à court terme non
affaiblie (gain Gc) qui est stockée dans le dictionnaire adaptatif DLT
pour sa mise à jour.
Ainsi, l'affaiblissement intervient uniquement sur le signal
de sortie et le fait de préserver la contribution à court terme à
stocker permet de conserver la richesse du dictionnaire adaptatif
pour les plus basses fréquences.
Naturellement, la correction du gain Gc doit être également
appliquée pour la mise à jour de l'état des mémoires des filtres dans
le décodeur DCD, comme illustré schématiquement sur la figure 3a.
La variante de réalisation illustrée sur la figure 3 permet,
outre les avantages apportés par le filtre de correction totale,
d'éliminer le bruit de type sifflement sur les trames de parole
voisées.
Le filtre de pondération perceptuelle FPP exploite les
propriétés de masquage de l'oreille humaine par rapport à
l'enveloppe spectrale du signal de parole, dont la forme est fonction
des résonances du conduit vocal. Ce filtre permet d'attribuer plus
d'importance à l'erreur apparaissant dans les vallées spectrales par
rapport aux pics formantiques.
Dans les variantes illustrées sur les figures 2 et 3, le même
filtre de pondération perceptuelle FPP est utilisé pour la recherche à
court terme et pour celle à long terme. La fonction de transfert W(z)
de ce filtre FPP est donnée par la formule (III) ci-dessous.
W (z ) = A (z /γ1 ) A (z /γ2 )
dans laquelle 1/A(z) est la fonction de transfert du filtre prédictif FP
et γ1 et γ2 sont les coefficients de pondération perceptuelle, les deux
coefficients étant positifs ou nuls et inférieurs ou égaux à 1 avec le
coefficient γ2 inférieur ou égal au coefficient γ1.
D'une façon générale, le filtre de pondération perceptuelle
est constitué d'un filtre de pondération formantique et d'un filtre de
pondération de la pente de l'enveloppe spectrale du signal (tilt).
Dans le cas présent, on supposera que le filtre de pondération
perceptuelle est uniquement formé du filtre de pondération
formantique dont la fonction de transfert est donnée par la formule
(III) ci-dessus.
Or, la nature spectrale de la contribution à long terme est
différente de celle de la contribution à court terme. Par conséquent,
il est avantageux d'utiliser deux filtres de pondération formantique
différents, permettant de contrôler indépendamment les distorsions à
court terme et à long terme.
Un tel mode de réalisation est illustré sur la figure 4, dans
laquelle, par rapport à la figure 3, le filtre unique FPP a été
remplacé par un premier filtre de pondération formantique FPP1
pour la recherche à long terme, cascadé avec un deuxième filtre de
pondération formantique FPP2 pour la recherche à court terme.
Puisque le filtre de pondération à court terme FPP2 est
cascadé au filtre de pondération à long terme, les filtres apparaissant
dans la boucle de recherche long terme doivent aussi apparaítre dans
la boucle de recherche court terme.
La fonction de transfert W1(z) du filtre de pondération
formantique FPP1 est donnée par la formule (IV) ci-dessous.
W 1 (z ) = A (z /γ11 ) A (z /γ12 )
tandis que la fonction de transfert W2(z) du filtre de pondération
formantique FPP2 est donnée par la formule (V) ci-dessous.
W 2 (z ) = A (z /γ21 ) A (z /γ22 )
Par ailleurs, le coefficient γ12 est égal au coefficient γ21. Ceci
permet une nette simplification lorsqu'on cascade ces deux filtres.
Ainsi, le filtre équivalent à la cascade de ces deux filtres a une
fonction de transfert donnée par la formule (VI) ci-dessous.
A (z /γ11 ) A (z /γ22 )
Par ailleurs, si l'on utilise la valeur 1 pour le coefficient γ11,
alors le filtre de synthèse FP (ayant la fonction de transfert 1/A(z))
suivi du filtre de pondération à long terme FPP1 et du filtre de
pondération FPP2 équivaut alors au filtre dont la fonction de
transfert est donnée par la formule (VII) ci-dessous.
1 A (z /γ22 )
Ce qui réduit encore considérablement la complexité de
l'algorithme d'extraction des excitations.
A titre indicatif, on peut par exemple utiliser pour les
coefficients γ11, γ21 = γ12 et γ22, les valeurs respectives 1 ; 0,1 et 0,9.
Bien entendu, la variante prévoyant l'utilisation de deux
filtres formantiques différents peut être utilisée indépendamment de
celle prévoyant l'affaiblissement de la contribution à court terme.
Un tel mode de réalisation est illustré sur la figure 5, où l'on
voit que l'utilisation des deux filtres formantiques est prise en
combinaison avec l'utilisation du filtre de correction totale.
L'invention s'applique avantageusement à la téléphonie
mobile, et en particulier à tous terminaux distants appartenant à un
système de communication sans fil.
Un tel terminal, par exemple un téléphone mobile TP, tel que
celui illustré sur la figure 6, comporte de façon classique une
antenne reliée par l'intermédiaire d'un duplexeur DUP à une chaíne
de réception CHR et à une chaíne de transmission CHT. Un
processeur en bande de base BB est relié respectivement à la chaíne
de réception CHR et à la chaíne de transmission CHT par
l'intermédiaire de convertisseurs analogiques numériques CAN et
numériques analogiques CNA.
Classiquement, le processeur BB effectue des traitements en
bande de base, et notamment un décodage de canal DCN, suivi d'un
décodage de source DCS.
Pour l'émission, le processeur effectue un codage de source
CCS suivi d'un codage de canal CCN.
Lorsque le téléphone mobile incorpore un codeur selon
l'invention, celui-ci est incorporé au sein des moyens de codage de
source CCS, tandis que le décodeur est incorporé au sein des moyens
de décodage de source DCS.
Claims (18)
- Procédé d'encodage de la parole à bande élargie, dans lequel on échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme (v;) extrait d'un répertoire codé adaptatif (DLT) et un gain à long terme associé (Ga), ainsi qu'un mot d'excitation à court terme (cj) extrait d'un répertoire codé fixe (DCT) et un gain à court terme associé (Gc), et on met à jour le répertoire codé adaptatif à partir du mot d'excitation à long terme extrait et du mot d'excitation à court terme extrait, caractérisé par le fait qu'on somme (SM) le produit du mot extrait d'excitation à long terme par le gain à long terme associé, avec le produit du mot extrait d'excitation à court terme par le gain à court terme associé, on filtre le mot numérique sommé dans un filtre passe-bas (FLCT) ayant une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci, et on met à jour le répertoire codé adaptatif avec le mot filtré.
- Procédé selon la revendication 1, caractérisé par le fait qu'on filtre le mot sommé avec un filtre numérique (FLCT) à réponse impulsionnelle finie à phase linéaire ayant un ordre au moins égal à 10.
- Procédé selon la revendication 2, caractérisé par le fait que la fréquence d'échantillonnage est de 16 kHz, et par le fait que le filtre (FLCT) est un filtre d'ordre 20 ayant une fréquence de coupure de l'ordre de 6 kHz.
- Procédé selon l'une des revendications précédentes, caractérisé par le fait que l'extraction du mot d'excitation à court terme comporte un filtrage numérique de prédiction linéaire (FP), et par le fait que le procédé comporte une mise à jour de l'état du filtre de prédiction linéaire avec le mot d'excitation à court terme filtré par un filtre (Gc') dont le ou les coefficients dépendent de la valeur du gain à long terme, de façon à affaiblir la contribution de l'excitation à court terme lorsque le gain de l'excitation à long terme est supérieur à un seuil prédéterminé.
- Procédé selon la revendication 4, caractérisé par le fait que le seuil prédéterminé est égal à 0,8.
- Procédé selon la revendication 5, caractérisé par le fait que le filtre est d'ordre 1 et a une fonction de transfert égale à B0+B1 z-1, et par le fait que le premier coefficient du filtre B0 est égal à 1/(1+β.min(Ga,1)), et le deuxième coefficient du filtre B1 est égal à β.min (Ga,1)/(1+β.min(Ga,1)), où β est un nombre réel de valeur absolue inférieure à 1, Ga est le gain à long terme et min(Ga,1) désigne la valeur minimale entre Ga et 1.
- Procédé selon l'une des revendications précédentes, caractérisé par le fait qu'on effectue l'extraction du mot d'excitation à long terme en utilisant un premier filtre de pondération perceptuelle (FPP1) comportant un premier filtre de pondération formantique, par le fait qu'on effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle (FPP2) comportant un deuxième filtre de pondération formantique, et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.
- Procédé selon la revendication 7 prise en combinaison avec l'une des revendications 4 à 6, caractérisé par le fait qu'il comporte une mise à jour de l'état des deux filtres de pondération perceptuelle avec le mot d'excitation à court terme filtré par ledit filtre d'ordre 1.
- Dispositif d'encodage de la parole à bande élargie, comportantdes moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons,des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction (MEXT1) aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif et à calculer un gain à long terme associé, et des deuxièmes moyens d'extraction (MEXT2) aptes à extraire un mot d'excitation à court terme d'un répertoire codé fixe et à calculer un gain à court terme associé, etdes premiers moyens de mise à jour (MAJ) aptes à mettre à jour le répertoire codé adaptatif à partir du mot d'excitation à long terme extrait et du mot d'excitation à court terme extrait, caractérisé par le fait que les premiers moyens de mise à jour comportentdes premiers moyens de calcul (SM) aptes à sommer le produit du mot extrait d'excitation à long terme par le gain à long terme associé, avec le produit du mot extrait d'excitation à court terme par le gain à court terme associé, de façon à délivrer un mot numérique sommé, etun filtre passe-bas (FLCT) ayant une fréquence de coupure supérieure au quart de la fréquence d'échantillonnage et inférieure à la moitié de celle-ci, et connecté entre la sortie des premiers moyens de calcul et le répertoire codé adaptatif de façon à mettre à jour ce répertoire adaptatif avec le mot filtré.
- Dispositif selon la revendication 9, caractérisé par le fait que le filtre passe-bas (FLCT) est un filtre numérique à réponse impulsionnelle finie à phase linéaire ayant un ordre au moins égal à 10.
- Dispositif selon la revendication 10, caractérisé par le fait que la fréquence d'échantillonnage est de 16 kHz, et par le fait que le filtre est un filtre d'ordre 20 ayant une fréquence de coupure de l'ordre de 6 kHz.
- Dispositif selon l'une des revendications 9 à 11, caractérisé par le fait que les premiers moyens d'extraction comportent un filtre numérique de prédiction linéaire (FP), et par le fait que le dispositif comporte des deuxièmes moyens de mise à jour (MAJ2) aptes à effectuer une mise à jour de l'état du filtre de prédiction linéaire avec le mot d'excitation à court terme filtré (Gc') par un filtre dont les coefficients dépendent de la valeur du gain à long terme, de façon à affaiblir la contribution de l'excitation à court terme lorsque le gain de l'excitation à long terme est supérieur à un seuil prédéterminé.
- Dispositif selon la revendication 12, caractérisé par le fait que le seuil prédéterminé est égal à 0,8.
- Dispositif selon la revendication 13, caractérisé par le fait que le filtre est un filtre d'ordre 1 et a une fonction de transfert égale à B0+B1 z-1, et par le fait que le premier coefficient B0 du filtre est égal à 1/(1+β.min(Ga,1)), et le deuxième coefficient B1 du filtre est égal à β.min(Ga,1)/(1+β.min(Ga,1)), où β est un nombre réel de valeur absolue inférieure à 1, Ga est le gain à long terme et min(Ga,1) désigne la valeur minimale entre Ga et 1.
- Dispositif selon l'une des revendications 9 à 14, caractérisé par le fait que les premiers moyens d'extraction comprennent un premier filtre de pondération perceptuelle (FPP1) comportant un premier filtre de pondération formantique, par le fait que les deuxièmes moyens d'extraction comprennent le premier filtre de pondération perceptuelle cascadé à un deuxième filtre de pondération perceptuelle (FPP2) comportant un deuxième filtre de pondération formantique, et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.
- Dispositif selon la revendication 15 prise en combinaison avec l'une des revendications 12 à 14, caractérisé par le fait que les deuxièmes moyens de mise à jour sont aptes à effectuer une mise à jour de l'état des deux filtres de pondération perceptuelle avec le mot d'excitation à court terme filtré par ledit filtre d'ordre 1.
- Terminal d'un système de communication sans fil, caractérisé par le fait qu'il incorpore un dispositif selon l'une des revendications 9 à 16.
- Terminal selon la-revendication 17, caractérisé par le fait qu'il forme un téléphone mobile cellulaire.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20030291747 EP1383111A2 (fr) | 2002-07-17 | 2003-07-15 | Procédé et dispositif d'encodage de la parole à bande élargie |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02015918 | 2002-07-17 | ||
EP02015918A EP1383109A1 (fr) | 2002-07-17 | 2002-07-17 | Procédé et dispositif d'encodage de la parole à bande élargie |
EP20030291747 EP1383111A2 (fr) | 2002-07-17 | 2003-07-15 | Procédé et dispositif d'encodage de la parole à bande élargie |
Publications (1)
Publication Number | Publication Date |
---|---|
EP1383111A2 true EP1383111A2 (fr) | 2004-01-21 |
Family
ID=29781469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP20030291747 Withdrawn EP1383111A2 (fr) | 2002-07-17 | 2003-07-15 | Procédé et dispositif d'encodage de la parole à bande élargie |
Country Status (1)
Country | Link |
---|---|
EP (1) | EP1383111A2 (fr) |
-
2003
- 2003-07-15 EP EP20030291747 patent/EP1383111A2/fr not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0782128B1 (fr) | Procédé d'analyse par prédiction linéaire d'un signal audiofréquence, et procédés de codage et de décodage d'un signal audiofréquence en comportant application | |
EP0749626B1 (fr) | Procede de codage de parole a prediction lineaire et excitation par codes algebriques | |
EP2002428B1 (fr) | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant | |
EP1320087B1 (fr) | Synthèse d'un signal d'excitation utilisé dans un générateur de bruit de confort | |
EP0608174A1 (fr) | Systeme de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués | |
FR2596936A1 (fr) | Systeme de transmission d'un signal vocal | |
EP1267325B1 (fr) | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede | |
EP1125283B1 (fr) | Procede de quantification des parametres d'un codeur de parole | |
EP2936488B1 (fr) | Atténuation efficace de pré-échos dans un signal audionumérique | |
EP0428445B1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
WO2009004225A1 (fr) | Post-traitement de reduction du bruit de quantification d'un codeur, au decodage | |
WO2007107670A2 (fr) | Procede de post-traitement d'un signal dans un decodeur audio | |
EP1383109A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie | |
EP2652735B1 (fr) | Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique | |
FR2702590A1 (fr) | Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP. | |
EP1383111A2 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie | |
EP1383110A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée | |
FR2783651A1 (fr) | Dispositif et procede de filtrage d'un signal de parole, recepteur et systeme de communications telephonique | |
EP1383112A2 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée | |
EP1383113A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme | |
EP1388846A2 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme | |
EP1192618B1 (fr) | Codage audio avec liftrage adaptif | |
FR2980620A1 (fr) | Traitement d'amelioration de la qualite des signaux audiofrequences decodes | |
Park et al. | Analysis and optimization of speech coder algorithm for CDMA digital cellular | |
FR2773653A1 (fr) | Dispositifs de codage/decodage de donnees, et supports d'enregistrement memorisant un programme de codage/decodage de donnees au moyen d'un filtre de ponderation frequentielle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20100202 |