EP1989705B1

EP1989705B1 - Procede de limitation de gain d'excitation adaptative dans un decodeur audio

Info

Publication number: EP1989705B1
Application number: EP07731604A
Authority: EP
Inventors: Balazs Kovesi; David Virette
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-02-28
Filing date: 2007-02-13
Publication date: 2012-08-15
Anticipated expiration: 2027-02-13
Also published as: CN101395659B; KR20080102262A; WO2007099244A3; EP1989705A2; FR2897977A1; US20090204412A1; US8180632B2; CN101395659A; JP2009528563A; WO2007099244A2; JP4988774B2; KR101372460B1

Abstract

Décodeur d'un signal audio codé au moyen d'un codeur comprenant un filtre prédictif à long terme. Selon l'invention, ledit décodeur comprend : - un bloc (211) de détection de pertes de trames de transmission, - un module (222) de calcul de valeurs d'une fonction d'indication d'erreur, représentatives de l'erreur accumulée au décodage sur l'excitation adaptative à la suite de ladite perte de trame de transmission, une valeur arbitraire étant affectée audit gain d'excitation adaptative pour la trame perdue, - un module (213) de calcul d'un paramètre d'indication d'erreur à partir desdites valeurs de la fonction d'indication d'erreur, - un comparateur (214) dudit paramètre d'indication d'erreur à au moins un seuil donné, - un discriminateur (215) apte à déterminer en fonction du résultat fourni par le comparateur (214) une valeur d'au moins un gain d'excitation adaptative à utiliser par le décodeur. Application au codage et du décodage de signaux numériques tels que les signaux audio-fréquences.

Description

La présente invention concerne un procédé de limitation de gain d'excitation adaptative dans un décodeur d'un signal audio. Elle concerne également un décodeur d'un signal audio codé au moyen d'un codeur comprenant un filtre prédictif à long terme.
L'invention trouve une application avantageuse dans le domaine du codage et du décodage de signaux numériques tels que les signaux audiofréquences.
L'invention est particulièrement bien adaptée à la transmission de signaux de parole et/ou audio sur réseaux de paquets, de type voix sur IP par exemple, pour fournir une qualité acceptable lors du décodage après une perte de paquets en évitant notamment la saturation des filtres prédictifs à long terme (LTP pour « Long Term Prediction ») utilisés au décodage dans le contexte de codage CELP (« Code Exciting Linear Prediction »).
On peut citer comme exemple de codeur CELP le système G.729 recommandé à l'UIT-T, conçu pour des signaux de parole en bande téléphonique entre 300 et 3400 Hz échantillonnés à 8 kHz et transmis à un débit fixe de 8 kbit/s avec des trames de 10 ms. Le fonctionnement détaillé de ce codeur est spécifié dans l'article de R: Salami, C. Laflamme, J. P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux, S. Proust, P. Kroon et Y. Shoham. "Design and description of CS-ACELP : a toll quality 8 kb/s speech coder", IEEE Trans. on Speech and Audio Processing, Vol.6-2, mars 1998, PP.116-130.
Sur la figure 1(a) est représentée une vue haut niveau d'un codeur G.729. Cette figure fait apparaître un filtrage passe-haut 101 de pré-traitement destiné à éliminer les signaux de fréquence inférieure à 50 Hz. Le signal de parole S(n) ainsi filtré est ensuite analysé par le bloc 102 afin de déterminer un filtre Â(z) de prédiction linéaire (LPC pour « Linear Prediction Coding »), lequel est transmis au multiplexeur 104 sous la forme d'un indice indexant le vecteur quantifié (QV) dans un dictionnaire.
Le signal original S(n) filtré par le filtre Â(z), appelé alors excitation, est traité par le bloc 103 de manière à en extraire les paramètres mentionnés sur le tableau de la figure 2. Ces paramètres sont ensuite codés puis transmis au multiplexeur MUX 104.
Le fonctionnement du bloc 103 de codage de l'excitation est détaillé à la figure 1(b). Comme on peut le voir sur cette figure, l'excitation est codée en trois étapes :

dans une première étape, un filtrage de prédiction à long terme (LTP) est effectué par les blocs 106, 107, 110 Le filtre LTP du codeur G.729 est un filtre d'ordre égal à 1. La période P d'excitation adaptative, ou période de « pitch », exprimée en valeur entière P₀ complétée éventuellement par une valeur fractionnaire P₀ _fractionnaire, ainsi que le gain g_p d'excitation adaptative, ou gain de « pitch », sont déterminés par analyse par synthèse de façon à minimiser l'erreur entre le signal d'excitation cible issu du bloc 105 et le signal synthétisé donné par x(n) = g_p.x(n-P), n représentant un échantillon du signal,
puis, dans une deuxième étape, la différence résiduelle entre ces deux signaux est modélisée, d'une part, par un code fixe c(n), ou code innovateur, extrait d'un dictionnaire innovateur ACELP 108 à quatre impulsions ± 1, et, d'autre part, par un gain g_c d'excitation fixe 109. Le code fixe c(n) et la gain g_c sont déterminés en minimisant en 111' l'erreur entre le signal résiduel issu de l'étage de LTP précédent et le signal g_c.c(n),
enfin, dans une dernière étape, les paramètres résultant, à savoir la période P de pitch, le code fixe c(n) et les gains g_p de pitch et g_c d'excitation fixe, sont codés et transmis au multiplexeur 104.

La figure 1(c) montre comment un décodeur G.729 classique reconstruit le signal de parole à partir des données reçues du multiplexeur 104 par le démultiplexeur 112. L'excitation est reconstituée par sous-trames de 5 ms en ajoutant deux contributions :

une première contribution résultant du décodage 115 de la période P de pitch et du décodage 118 du gain g_p de pitch pour reconstituer en sortie des blocs 116, 117 le signal LTP d'excitation adaptative x(n) = g_p.x(n-P),
une deuxième contribution résultant du décodage 113 de l'excitation fixe c(n) mise à l'échelle par le gain g_e décodé par le bloc 118 pour reconstituer l'excitation fixe g_e .c(n).
ces deux contributions sont ensuite additionnées pour fournir l'excitation décodée x(n) = g_p.x(n-P) + g_e.c(n).

L'excitation ainsi décodée est mise en forme par le filtre 120 de synthèse LPC 1/Â(z) dont les coefficients sont décodés par le bloc 119 dans le domaine des paires de raies spectrales (LSF) et interpolés par sous-trame de 5 ms. Afin d'améliorer la qualité et masquer certains artefacts de codage, le signal reconstruit est ensuite traité par un post-filtre adaptatif 121 et un filtre passe-haut 122 de post-traitement. Le décodeur de la figure 1 (c) s'appuie donc sur le modèle source-filtre pour synthétiser le signal.
Dans le cas de l'excitation issue du filtre LTP de prédiction à long terme, et dans le but de générer un signal d'excitation capable de suivre rapidement les attaques du signal, les codeurs de type CELP autorisent généralement le choix d'un gain g_p de pitch supérieur à 1. En conséquence, le décodeur est localement instable. Cependant, cette instabilité est contrôlée par le modèle d'analyse par synthèse qui minimise en permanence l'écart entre le signal d'excitation LTP et le signal cible original.
Lors d'erreurs de transmission ou de perte de trames, cette instabilité peut entraîner d'importantes dégradations dues au décalage entre codeur et décodeur. En effet, dans ces circonstances, la valeur de gain g_p de pitch non reçue dans une trame est généralement remplacée par la valeur de g_p dans la trame précédente, et, bien que la nature variable du signal de parole constitué d'une alternance de périodes voisées avec un gain de pitch proche de 1 et non voisées avec un gain de pitch inférieur à 1 permet, en général, de limiter les problèmes potentiels liés à cette instabilité locale, il n'en reste pas moins vrai cependant que, pour certains signaux, notamment les signaux voisés, des erreurs de transmission dans des zones stationnaires périodiques peuvent provoquer des dégradations importantes lorsque par exemple le gain g_p de remplacement est plus élevé que le gain réel et que la trame affectée est suivie de trames à gain élevé, comme cela se produit lors des attaques. Cette situation peut alors entraîner rapidement une saturation du filtre LTP par effet cumulatif lié au caractère récursif du filtrage prédictif à long terme.
Une première solution à ce problème est de limiter le gain gp de pitch à 1, mais cette contrainte a pour effet de dégrader les performances des codeurs CELP pour les attaques.
D'autres solutions proposent de ne limiter le gain g_p de pitch à une valeur inférieure ou égale à 1 que lorsque cela est jugé nécessaire. En particulier:

La méthode décrite dans le brevet américain n° 5,960,386 peut se décomposer en plusieurs étages situés au codeur. Tout d'abord, une procédure de détection d'une possible instabilité utilisant le gain de pitch préalablement calculé et une moyenne des gains de pitch précédents. Ensuite, dans le cas où il n'y a pas de risque d'instabilité, le gain de pitch préalablement calculé est conservé. Dans le cas contraire, une procédure itérative de contrôle du gain de pitch permet d'adapter ce gain pour éliminer le risque d'instabilité.
Dans les brevets américains n° 5,893,060 et 5,987,406 , une procédure de détection des instabilités au codeur est décrite. Cette procédure utilise les paramètres spectraux LSP pour déterminer la présence de résonances dans le spectre, calcule la durée de la résonance en nombre de trames, et évalue la possible instabilité en fonction de la valeur du gain de pitch. Dans le cas où une instabilité est détectée, la valeur du gain de pitch est saturée à un seuil et la recherche du vecteur de gain dans la quantification vectorielle des gains de pitch est modifiée pour que le vecteur choisi ait une valeur de gain de pitch inférieure à ce seuil.
Dans l'article de R. Salami précité et le brevet américain n° 5'708757 est décrite une procédure de détection d'une possible saturation et du calcul de la valeur de gain de pitch associée, présente au codeur dans la norme G729, est décrite. Cette méthode, appelée "taming", prend en compte l'erreur maximum potentielle commise par le décodeur sur le calcul de l'excitation. Si cette erreur dépasse un certain seuil quand le gain de pitch est supérieur à 1, correspondant à un filtre instable, le gain est modifié pour prendre une valeur inférieure à 1 afin de rendre le filtre stable. L'idée est donc de détecter au codeur des zones où l'accumulation des erreurs de transmission précédentes peut causer une saturation du filtre à long terme localement instable, notamment lors de longues zones fortement voisées. Ces zones sont détectées en examinant la sortie d'un deuxième filtrage à long terme avec une excitation constante qui simule l'erreur maximum potentielle. Une technique identique est utilisée dans la norme ITU-T G.723.1. Ce codeur utilise un prédicteur à long terme d'ordre 5 pour lequel le gain de pitch est un vecteur de 5 coefficients appliqués sur 5 échantillons consécutifs du passé. Ces vecteurs de gain sont quantifiés par quantification vectorielle. Alors que la stabilité d'un filtre à long terme d'ordre 1, comme celui du codeur G.729, se vérifie très facilement en comparant le seul coefficient de gain avec la valeur 1, cette vérification est beaucoup plus compliquée pour un filtre à long terme d'ordre supérieur. En effet, la stabilité d'un filtre à long terme utilisant un jeu de gain dépend également de la nature du signal, par exemple du pitch. Donc, le même jeu de gain peut être stable dans une situation et instable dans une autre. C'est pourquoi il est difficile d'estimer la propagation d'une erreur, car la nature d'erreur potentielle ne peut pas être connue au codeur, et il n'est pas simple de détecter les zones potentiellement instables ni de déterminer l'atténuation à appliquer pour rétablir la stabilité du filtre. La solution mise en oeuvre dans la norme G.723.1 est de trouver, par apprentissage, pour chaque vecteur de gain possible du codeur un gain moyen équivalent d'ordre 1. Ces valeurs sont stockées dans un tableau. On utilise donc ce filtre équivalent d'ordre 1 pour estimer l'erreur maximum potentielle accumulée dans le filtre à long terme, et ainsi identifier les zones instables où il faut limiter le gain en cas d'une erreur accumulée importante et calculer le gain à appliquer pour rendre le filtre stable.

Toutefois, les solutions proposées par ces techniques connues pour éviter le risque de saturation des filtres LTP en cas de pertes ou d'erreurs de transmission posent les problèmes suivants :

La décision de modifier le gain g_p associé à la prédiction à long terme étant réalisée au codeur a priori, il n'est pas possible de contrôler complètement l'état du décodeur et son comportement après une perte de trame, lesquels sont par hypothèse ignorés du codeur. Aussi, les techniques existantes peuvent continuer à générer des dégradations audio au décodage lors d'erreurs de transmission, ceci malgré la décision prise par le codeur de modifier le gain.
La limitation à 1 du gain g_p de pitch associée aux techniques décrites plus haut peut entraîner une légère dégradation de la qualité par exemple sur les attaques qui génèrent normalement des gains supérieurs à 1. Le choix du seuil de déclenchement est en effet un compromis entre qualité et sécurité. Un seuil bas déclencherait la limitation trop souvent, entraînant une dégradation inutile, surtout en cas d'absence d'erreurs de transmission. Inversement, un seuil plus élevé ne garantirait pas une protection suffisante en cas de taux d'erreur élevés.

Aussi, le problème technique à résoudre par l'objet de la présente invention est de proposer un procédé de limitation de gain d'excitation adaptative dans un décodeur d'un signal audio codé au moyen d'un codeur comprenant un filtre prédictif à long terme, à la suite d'une perte de trame de transmission entre ledit codeur et ledit décodeur, qui permettrait de ne limiter le gain g_p d'excitation adaptative, ou gain de pitch, que dans le cas où une instabilité du filtre LTP est effectivement constatée, et d'assurer le meilleur compromis possible entre la qualité du décodage et sa robustesse vis-à-vis des pertes de trame.
La solution au problème technique posé consiste, selon la présente invention, en ce que ledit procédé comprend les étapes correspondantes à la revendication 1.
D'une manière générale, on entend ici par « perte de trame » aussi bien la non-réception d'une trame que des erreurs de transmission dans une trame.
Selon un mode de réalisation, ladite valeur arbitraire est égale à une valeur du gain d'excitation adaptative déterminée lors de ladite trame perdue par un algorithme de dissimulation d'erreur.
A titre d'exemple d'algorithme de dissimulation d'erreur, ladite valeur arbitraire est égale à la valeur du gain d'excitation adaptative pour la trame non perdue précédant ladite trame perdue.
Selon un autre exemple, ladite valeur arbitraire est définie à partir d'une détection de voisement de la trame précédente. Pour une trame voisée, ladite valeur arbitraire est égale à 1, sinon la valeur arbitraire est égale à 0. Dans ce dernier cas, l'excitation est composée d'un bruit aléatoire.
Comme on le verra en détail plus loin, le procédé conforme à l'invention présente l'avantage de ne modifier le gain g_p de pitch que lorsqu'une possible instabilité du filtre LTP est détectée au décodeur lui-même et non au codeur comme dans les techniques connues. De plus, le procédé de l'invention prend en compte à la fois l'état réel du décodeur et l'information exacte sur les erreurs de transmission parvenues.
Le procédé, objet de l'invention, peut être utilisée de manière autonome, c'est-à-dire dans des structures de codage qui ne prévoient pas de limitation du gain de pitch au niveau du codeur.
Cependant, et de manière avantageuse, l'invention prévoit que ledit gain d'excitation adaptative est fourni audit décodeur par un codeur équipé d'un dispositif de limitation de gain. Le procédé conforme à l'invention peut donc être aussi utilisé en combinaison avec une technique de « taming » a priori connue, installée au codeur. Les avantages des deux techniques sont alors cumulés : la technique a priori permet de limiter les trop longues séquences de gains de pitch supérieurs à 1. En effet, de telles séquences entraînent une importante propagation de l'erreur, contraignant le procédé de l'invention à modifier le signal sur de longues périodes. Cependant un seuil trop bas de déclenchement de la technique de « taming » a priori dégrade le signal. L'invention permet alors de réduire le nombre de déclenchements de la technique de « taming » a priori en augmentant le seuil, car même si cette technique ne détecte pas le risque d'explosion, le procédé a posteriori selon l'invention le détecte et y remédie.
Selon l'invention, ladite fonction d'indication d'erreur est de la forme : $x_{t} (n) = e_{t} (n) + \sum_{i} g_{it} . x_{t} (n - P + i) i \in [- (N - 1) / 2, (N - 1) / 2]$

où:

N est l'ordre du filtre prédictif à long terme, généralement impair,
les gains g_it sont égaux aux gains d'excitation adaptative g_i dudit filtre prédictif à long terme pour les trames reçues ou aux gains d'excitation adaptative g _{i_FEC} (FEC pour « Frame Erasure Concealment») dudit filtre prédictif à long terme dans la trame précédente pour les trames perdues,
e_t(n) vaut 0 pour les trames reçues et 1 pour les trames perdues.
P est la période d'excitation adaptative.

Bien entendu, dans le cas le plus simple, l'ordre N du filtre LTP peut être pris égal à 1.
Dans un premier mode de mise en oeuvre du procédé conforme à l'invention, le gain g_p d'excitation adaptative d'un filtre prédictif à long terme d'ordre 1 est limité à la valeur 1 si ledit paramètre d'indication d'erreur est supérieur audit seuil donné.
De même, l'invention prévoit qu'un facteur correctif est appliqué aux gains g_i d'excitation adaptative d'un filtre prédictif à long terme d'ordre supérieur à 1 si ledit paramètre d'indication d'erreur est supérieur audit seuil donné.
Dans un deuxième mode de mise en oeuvre, ledit au moins un gain d'excitation adaptative est limité par une fonction linéaire dudit seuil donné si ledit paramètre d'indication d'erreur est supérieur audit seuil. Cette disposition avantageuse permet de rendre la limitation de gain plus progressive et d'éviter un effet de seuil brutal.
L'invention concerne également un programme comprenant des instructions enregistrées sur un support lisible par un ordinateur pour mettre en oeuvre les étapes du procédé selon l'invention, lorsque ledit programme est exécuté sur un ordinateur.
L'invention concerne enfin un décodeur d'un signal audio codé au moyen d'un codeur comprenant les caractéristiques de la revendication 11.
La description qui va suivre en regard des dessins annexés, donnés à titre d'exemples non limitatifs, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée.

La figure 1 (a) est un schéma de haut niveau d'un codeur G.729.
La figure 1 (b) est un schéma détaillé du bloc de codage de l'excitation du codeur de la figure 1 (a).
La figure 1 (c) est un schéma du décodeur associé au codeur de la figure 1 (a).
La figure 2 est un tableau donnant les divers paramètres de codage du codeur de la figure 1 (a)
La figure 3 est un schéma d'un décodeur conforme à l'invention.

L'invention va maintenant être décrite de manière détaillée dans le cadre d'un décodeur G.729 et d'un filtrage de prédiction à long terme LTP d'ordre N=1. Le cas d'un filtre LTP d'ordre N quelconque sera traité à la fin de la présente description.
On rappelle que le signal d'excitation x_c(n) issu du bloc 103 de codage de l'excitation de la figure 1 (a) et explicité à la figure 1 (b) est la somme de l'excitation adaptative g_p.x_c(n-P) et de l'excitation fixe g_p.c(n) : $x_{e} (n) = g_{p}, x_{e} (n - P) + g_{c} . c (n)$

où :

g_p est le gain de l'excitation adaptative ou gain de pitch,
P est la valeur du pitch ou longueur de la période. Le codeur G.729 utilise une résolution fractionnelle par pas de 1/3 pour les petites valeurs de pitch (P < 85) pour mieux modéliser les sons voisés aigus. L'excitation adaptative avec un pitch fractionnel est obtenue par interpolation avec sur-échantillonnage,
g_c est le gain de l'excitation fixe,
c(n) est le mot de code fixe, ou innovateur.

L'excitation adaptative dépend uniquement de l'excitation passée et permet de modéliser efficacement les signaux périodiques, notamment voisés, où l'excitation elle-même se répète quasi périodiquement. La partie fixe c(n) apporte l'innovation dans l'excitation totale pour modéliser la différence entre les périodes, c'est-à-dire pour corriger l'erreur entre l'excitation adaptative et le résidu de prédiction.
Comme on l'a vu plus haut, ce signal d'excitation est optimisé au codeur en utilisant la technique d'analyse par synthèse. On effectue donc le filtrage de synthèse de cette excitation avec le filtre quantifié pour vérifier le résultat qu'on obtiendra au décodeur. Ceci explique pourquoi il est possible d'utiliser un filtrage à long terme localement instable, c'est-à-dire avec une valeur de g_p supérieur à 1, pour modéliser une attaque du signal car l'augmentation de l'énergie due à cette instabilité est contrôlée. Par contre, ce contrôle est perturbé par les éventuelles pertes de trame.
Au décodeur, dans le cas d'une trame perdue, ou erronée, l'algorithme de dissimulation des erreurs utilise un signal d'excitation estimé à partir du signal d'excitation passé. Typiquement, on réutilise uniquement le filtrage à long terme LTP en gardant la dernière valeur du pitch correctement décodée
. On injecte donc une perturbation dans le signal d'excitation du décodeur, noté x_d(n). Pour les trames valides suivantes, même si il est possible de décoder correctement tous les paramètres g_p , P, g_c et c(n) de génération de l'excitation, l'excitation obtenue ne sera pas exacte car l'excitation passée x_d(n-P) est perturbée. L'erreur injectée pendant la trame perdue peut donc se propager par la suite sur de nombreuses trames à cause de la récursivité du filtrage à long terme dans les périodes voisées, en particulier quand g_p est proche de 1. Par contre, quand g_p a une valeur faible ou égale à zéro pendant plusieurs zones non-voisées, l'effet de la perturbation s'affaiblit ou s'annule car le poids du code innovateur c(n) est plus important que le poids du passé.
Il est donc essentiel de pouvoir estimer l'importance de l'erreur accumulée dans la partie adaptative, due aux erreurs de transmission. A cet effet, il est proposé de modifier selon la figure 3 le décodeur représenté sur la figure 1 (c).
On peut voir sur la figure 3 que, parallèlement au filtrage à long terme LTP, le décodeur comprend une ligne de traitement du signal d'excitation issu du démultiplexeur 112 constituée par les blocs 211 à 215. Cette ligne de traitement du décodeur ainsi décrit sert également d'illustration des principales étapes du procédé de limitation du gain d'excitation adaptative selon l'invention.
Le bloc 211 est destiné à détecter si une trame est correctement reçue ou non. Ce bloc de détection est suivi d'un module 212 qui effectue une opération analogue à un filtrage à long terme LTP. Plus précisément, le module 212 calcule une fonction x_t(n) d'indication d'erreur dont les valeurs sont représentatives de l'erreur accumulée au décodage sur l'excitation adaptative à la suite d'une perte de transmission. Dans un mode de réalisation, cette fonction est donnée par : $x_{t} (n) = g_{t} . x_{t} (n - p) + e_{t} (n)$

où e_t(n) est égal à :

1 pour les trames non reçues ou erronées afin de modéliser l'erreur injectée dans la boucle adaptative,
0 pour les trames valides, quand l'erreur se propage uniquement à cause de la récursivité du filtre à long terme.
g_t est égal à :
g_{p_FEC} , valeur du gain de pitch de la trame précédente pour les trames non reçues,
g_p pour les trames valides.

Ensuite, un module 213 calcule à partir des valeurs de la fonction x_t(n) fournies par le module 212, un paramètre S_t d'indication d'erreur. Pour une trame valide, un comparateur 214 vérifie si le paramètre S_t ne dépasse pas un certain seuil S₀ . En cas de dépassement et si le gain g_p de pitch décodé est supérieur à 1, la valeur de g_p est limitée, car dans ce cas il y a risque de saturation du filtre LTP.
Le paramètre S_t d'indication d'erreur peut être la somme des valeurs de la fonction x_t(n), ou bien la valeur maximale, la moyenne ou la somme des carrés de ces valeurs.
Le comparateur 214 est suivi d'un discriminateur 215 apte à déterminer la valeur g'_t du gain de pitch à appliquer au bloc 117 pour la trame en cours, à savoir la valeur g_p de pitch décodée ou une valeur limitée.
Dans le cas où le paramètre S_t dépasse le seuil S₀ et si le gain g_p de pitch décodé est supérieur à 1, le gain g'_t peut être limité systématiquement à 1 par exemple, quelle que soit l'ampleur du dépassement. Mais on peut également prévoir une limitation plus progressive qui consiste à définir le gain g'_t comme une fonction linéaire du paramètre S_t de la forme : ${gʹ}_{t} = g_{p} + (g_{p} - 1) (S_{0} - S_{t}) / S$

S étant un coefficient arbitraire permettant d'ajuster la pente de la variation de g'_t avec S_t .
Il est également possible de prévoir une limitation du gain par rapport à deux seuils successifs, avec une limitation linéaire entre les deux seuils et une limitation à 1 au-delà du deuxième, comme cela est illustré dans l'exemple suivant.
A titre d'exemple pratique, pour une trame valide, les paramètres LTP, P et g_p , sont transmis pour chaque sous-trame de 5 ms contenant 40 échantillons. Le traitement pour éviter la saturation du filtre LTP, objet de l'invention, est également réalisé à la cadence des sous-trames. Le paramètre S_t d'indication d'erreur, par exemple la somme de la fonction x_t(n), est calculé pour chaque sous-trame. La valeur de ce paramètre est limitée à 120, ce qui correspond à une valeur moyenne de 3 : $St = \min (\sum_{i = 0}^{39} xt (n), 120)$
Si le gain de pitch de la sous-trame courante est supérieur à 1 et la valeur de S_t est supérieure à un seuil de 80, correspondant à une valeur moyenne des échantillons x_t(n) supérieure à 2, ce qui montre que l'erreur cumulée est importante, on diminue la valeur du gain de pitch selon l'équation suivante: ${gʹ}_{t} = 1 + (g_{t} - 1) . (120 - S_{t}) / 40$
Pour la valeur maximale de S_t (S_t = 120) le nouveau gain de pitch sera g'_t =1, pour les autres valeurs de S_t 80 <S_t <120, 1 >g'_t >g_t .
Quand la valeur du gain de pitch est modifiée par le procédé décrit ci-dessus, on effectue une mise à jour de la mémoire du signal x_t(n) avec la nouvelle valeur g'_t .
Au contraire, si le gain de pitch de la sous-trame actuelle est inférieur à 1 ou la valeur de S_t est inférieure à 80, correspondant à une erreur cumulée dans le filtre de synthèse à long terme faible, on ne modifie pas la valeur du gain de pitch décodée et g'_t =g_t .
Finalement, pour générer l'excitation du filtre de synthèse, à la place du gain de pitch décodé on utilise g'_t : $x_{d} (n) = {gʹ}_{t} . x_{d} (n - P) + g_{c} (n) . c (n)$
Dans l'exemple de réalisation présenté ici, le filtre à long terme du codeur est un filtre d'ordre 1. Cependant, si le codeur utilise un filtre à long terme LTP d'ordre N supérieur, comme par exemple pour le codeur G.723.1, le pseudo-filtre LTP utilisé pour définir la fonction d'indication d'erreur peut être le filtre équivalent d'ordre 1 ou plus avantageusement un filtre identique à celui utilisé dans le codeur, en particulier de même ordre. Pour identifier pendant les trames valides les zones instables où il convient de limiter le gain en cas d'une erreur cumulée importante et pour déterminer l'atténuation nécessaire, on utilise toujours le filtre équivalent d'ordre 1.
Dans le cas où le paramètre S_t dépasse le seuil S₀ et si le gain équivalent g_c est supérieur à 1, le gain g'_t peut être calculé de la même manière que pour un filtre d'ordre 1. On applique alors le facteur correctif g' _t/ g_e aux gains g_i du filtre d'ordre supérieur.

Claims

Procédé de limitation du gain d'excitation adaptative dans un décodeur d'un signal audio codé au moyen d'un codeur comprenant un filtre prédictif à long terme, à la suite d'une perte de trame de transmission entre ledit codeur et ledit décodeur, caractérisé en ce que ledit procédé comprend les étapes consistant, au décodeur, à :
- détecter si une trame est correctement reçue ou non,

- établir une fonction d'indication d'erreur de la forme : $x_{t} (n) = e_{t} (n) + \sum_{i} g_{it} . x_{t} (n - P + i) i \in [- (N - 1) / 2, (N - 1) / 2]$

où :

- N est l'ordre du filtre prédictif à long terme,

- les gains g _it sont égaux aux gains d'excitation adaptative dudit filtre prédictif à long terme pour les trames reçues ou aux gains d'excitation adaptative dudit filtre prédictif à long terme dans la trame précédente pour les trames perdues,

- e_t(n) vaut 0 pour les trames reçues et 1 pour les trames perdues.

- P est la période d'excitation adaptative décodée pour les trames reçues ou dernièrement correctement décodée pour les trames perdues,

- calculer au cours du décodage des valeurs de ladite fonction d'indication d'erreur,

- calculer un paramètre d'indication d'erreur à partir desdites valeurs de la fonction d'indication d'erreur,

- comparer ledit paramètre d'indication d'erreur à au moins un seuil donné,

- appliquer une limitation à au moins un gain d'excitation adaptative en cas de comparaison positive si un gain équivalent audit au moins un gain d'excitation adaptative est supérieure à une valeur donnée.
Procédé selon la revendication 1, caractérisé en ce que ledit gain équivalent est le gain g_p d'excitation adaptative d'un filtre prédictif à long terme d'ordre 1.
Procédé selon la revendication 1, caractérisé en ce que ledit gain équivalent est le gain équivalent g_e d'un filtre prédictif à long terme d'ordre supérieur à 1.
Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ledit paramètre d'indication d'erreur est un paramètre représentatif de l'énergie de ladite fonction d'indication d'erreur.
Procédé selon la revendication 4, caractérisé en ce que ledit paramètre représentatif est donné par la somme des valeurs de la fonction d'indication d'erreur.
Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que le gain g_p d'excitation adaptative d'un filtre prédictif à long terme d'ordre 1 est limité à la valeur 1 si ledit paramètre d'indication d'erreur est supérieur audit seuil donné.
Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'un facteur correctif est appliqué aux gains g_i d'excitation adaptative d'un filtre prédictif à long terme d'ordre supérieur à 1 si ledit paramètre d'indication d'erreur est supérieur audit seuil donné.
Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ledit au moins un gain d'excitation adaptative est limité par une fonction linéaire dudit seuil donné si ledit paramètre d'indication d'erreur est supérieur audit seuil.
Procédé selon l'une quelconque des revendications 1 à 8, caractérisé en ce que ledit gain d'excitation adaptative est fourni audit décodeur par un codeur équipé d'un dispositif de limitation de gain.
Programme comprenant des instructions enregistrées sur un support lisible par un ordinateur pour mettre en oeuvre les étapes du procédé selon les revendications 1 à 9, lorsque ledit programme est exécuté sur un ordinateur.
Décodeur d'un signal audio codé au moyen d'un codeur comprenant un filtre prédictif à long terme, caractérisé en ce que ledit décodeur comprend :
- un bloc (211) de détection de pertes de trames de transmission,

- un module (222) de calcul de valeurs d'une fonction d'indication d'erreur, la fonction d'indication d'erreur étant de la forme : $x_{t} (n) = e_{t} (n) + \sum_{i} g_{it} . x_{t} (n - P + i) i \in [- (N - 1) / 2, (N - 1) / 2]$

où :

- N est l'ordre du filtre prédictif à long terme,

- les gains g _it sont égaux aux gains d'excitation adaptative dudit filtre prédictif à long terme pour les trames reçues ou aux gains d'excitation adaptative dudit filtre prédictif à long terme dans la trame précédente pour les trames perdues,

- e _t (n) vaut 0 pour les trames reçues et 1 pour les trames perdues.

- P est la période d'excitation adaptative décodée pour els trames reçues ou dernièrement correctement décodée pour les trames perdues,

- un module (213) de calcul d'un paramètre d'indication d'erreur à partir desdites valeurs de la fonction d'indication d'erreur,

- un comparateur (214) dudit paramètre d'indication d'erreur à au moins un seuil donné,

- un discriminateur (215) apte à déterminer en fonction du résultat fourni par le comparateur (214) une valeur d'au moins un gain d'excitation adaptative à utiliser par le décodeur.