EP2080195B1

EP2080195B1 - Synthèse de blocs perdus d'un signal audionumérique

Info

Publication number: EP2080195B1
Application number: EP07871872A
Authority: EP
Inventors: Balazs Kovesi; Stéphane RAGOT
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-10-20
Filing date: 2007-10-17
Publication date: 2011-03-16
Anticipated expiration: 2027-10-17
Also published as: WO2008096084A1; MX2009004211A; FR2907586A1; US20100318349A1; BRPI0718422A2; ES2363181T3; CN101627423B; JP5289320B2; RU2432625C2; PL2080195T3; EP2080195A1; ATE502376T1; KR101406742B1; BRPI0718422B1; KR20090082415A; US8417519B2; RU2009118929A; DE602007013265D1; JP2010507121A; CN101627423A

Description

La présente invention concerne le traitement de signaux audionumériques (signaux de parole, notamment).
Elle intervient dans un système de codage/décodage adapté pour la transmission/réception de tels signaux. Plus particulièrement, la présente invention porte sur un traitement à la réception permettant d'améliorer la qualité des signaux décodés en présence de pertes de blocs de données.
Différentes techniques existent pour convertir sous forme numérique et compresser un signal audionumérique. Les techniques les plus courantes sont :

les méthodes de codage de forme d'onde, telles que le codage MIC (pour "Modulation par Impulsions Codées") et MICDA (pour "Modulation par Impulsion et Codage Différentiel Adaptatif"), dits aussi "PCM" et "ADPCM" en anglais,
les méthodes de codage paramétrique par analyse par synthèse comme le codage CELP (pour "Code Excited Linear Prediction"), et
les méthodes de codage perceptuel en sous-bandes ou par transformée.

Ces techniques traitent le signal d'entrée de façon séquentielle échantillon par échantillon (MIC ou MICDA) ou par blocs d'échantillons dits "trames" (CELP et codage par transformée).
On rappelle rapidement qu'un signal de parole peut être prédit à partir de son passé récent (par exemple de 8 à 12 échantillons à 8 kHz) au moyen de paramètres évalués sur des fenêtres courtes (10 à 20 ms dans cet exemple). Ces paramètres de prédiction à court terme, représentatifs de la fonction de transfert du conduit vocal (par exemple pour prononcer des consonnes), sont obtenus par des méthodes d'analyse LPC (pour "Linear Prediction Coding"). Il existe aussi une corrélation à plus long terme associée aux quasi-périodicités de la parole (par exemple de sons voisés tels que les voyelles) qui sont dues à la vibration des cordes vocales. Il s'agit donc de déterminer au moins la fréquence fondamentale du signal voisé qui varie typiquement de 60 Hz (voix grave) à 600 Hz (voix aiguë) selon les locuteurs. On détermine alors, par une analyse LTP (pour "Long Term Prediction"), les paramètres LTP d'un prédicteur à long terme, et en particulier l'inverse de la fréquence fondamentale, appelée souvent "période de pitch". On définit alors le nombre d'échantillons dans une période de pitch par le rapport F_e/F₀ (ou sa partie entière), où :

F_e est la cadence d'échantillonnage, et
F₀ est la fréquence fondamentale.

On retiendra donc que les paramètres de prédiction à long terme LTP, dont la période de pitch, représentent la vibration fondamentale du signal de parole (lorsqu'il est voisé), tandis que les paramètres de prédiction à court terme LPC représentent l'enveloppe spectrale de ce signal.
Dans certains codeurs, l'ensemble de ces paramètres LPC et LTP, résultant donc d'un codage de parole, peuvent être transmis par blocs vers un décodeur homologue, via un ou plusieurs réseaux de télécommunication, pour restituer ensuite le signal de parole initial.
On s'intéresse toutefois par la suite (à titre d'exemple) au système de codage G.722 à 48, 56 et 64 kbit/s normalisé par l'UIT-T pour la transmission de signaux de parole en bande élargie (qui sont échantillonnés à 16 kHz). Le codeur G.722 présente un schéma de codage MICDA en deux sous-bandes obtenues par un banc de filtres QMF (pour "Quadrature Mirror Filter"). Pour plus de détails, on peut se référer utilement au texte de la recommandation G.722.
La figure 1 de l'état de l'art montre la structure de codage et de décodage selon la recommandation G.722. Les blocs 101 à 103 représentent le banc de filtres QMF de transmission (séparation spectrale en hautes 102 et basses 100 fréquences et sous-échantillonnage 101 et 103), appliqué au signal d'entrée Se. Les blocs suivants 104 et 105 correspondent respectivement aux codeurs MICDA en bande basse et haute. Le débit du codeur MICDA en bande basse est spécifié par un mode valant 0, 1, ou 2, indiquant respectivement un débit de 6, 5 ou 4 bits par échantillon, alors que le débit du codeur MICDA en bande haute est fixe (deux bits par échantillon). On retrouve au décodeur les blocs équivalents de décodage MICDA (blocs 106 et 107) dont les sorties sont combinées dans le banc de filtres QMF de réception (sur-échantillonnage 108 et 110, filtres inverses 109, 111 et réunion des bandes de fréquences basses et hautes 112) pour générer le signal de synthèse Ss.
Un problème général étudié ici concerne la correction de pertes de blocs au décodage. En effet, le train binaire issu du codage est en général formaté en blocs binaires pour la transmission sur beaucoup de types de réseaux. On parle par exemple de "paquets IP" (pour "Internet Protocol") pour des blocs transmis via le réseau Internet, de "trames" pour des blocs transmis sur des réseaux ATM (pour "Asynchronous Transfer Mode"), ou autres. Les blocs transmis après codage peuvent être perdus pour diverses raisons:

si un routeur du réseau est saturé et vide sa file d'attente,
si le bloc est reçu en retard (donc non pris en compte) lors d'un décodage à flux continu et en temps-réel,
si un bloc reçu est corrompu (par exemple si son code de parité CRC n'est pas vérifié).

Lors d'une perte d'un ou plusieurs blocs consécutifs, le décodeur doit reconstruire le signal sans information sur les blocs perdus ou erronés. Il s'appuie sur l'information décodée précédemment à partir des blocs valides reçus. Ce problème, appelé "correction de blocs perdus" (ou encore, ci-après, "correction de trames effacées") est en fait plus général que la simple extrapolation d'information manquante car la perte de trames occasionne souvent une perte de synchronisation entre codeur et décodeur, en particulier lorsque ceux-ci sont prédictifs, ainsi que des problèmes de continuité entre l'information extrapolée et l'information décodée après une perte. La correction de trames effacées englobe donc aussi des techniques de restauration d'états, de re-convergence, et autres.
L'annexe I de la recommandation UIT-T G.711 décrit une correction de trames effacées adaptée au codage MIC. Le codage MIC n'étant pas prédictif, la correction de pertes de trames se résume donc simplement à extrapoler l'information manquante et assurer la continuité entre une trame reconstruite et des trames correctement reçues, suite à une perte. L'extrapolation est mise en oeuvre par répétition du signal passé de façon synchrone avec la fréquence fondamentale (ou inversement, "période de pitch"), c'est-à-dire en répétant simplement des périodes de pitch. La continuité est assurée par un lissage (ou "fondu enchaîné" pour le terme anglais "cross-fading") entre échantillons reçus et échantillons extrapolés.
Dans le document:

" A Packet Loss Concealment Method using Pitch Waveform Repetition and Internal State Update on the Decoded Speech for the Sub-band ADPCM Wideband Speech Codec", M. Serizawa et Y. Nozawa, IEEE Speech Coding Workshop, pages 68-70 (2002),
il a été proposé une correction de trames effacées pour le codeur/décodeur normalisé G.722 en extrapolant une trame perdue à l'aide d'un algorithme de répétition des périodes de pitch (répétition qui peut être similaire à celle décrite dans l'annexe I de la recommandation G.711). Pour mettre à jour les états du codeur G.722 (mémoire des filtres et mémoire d'adaptation de pas), la trame ainsi extrapolée est divisée en deux sous-bandes qui sont encodées à nouveau par codage MICDA.

Toutefois, de telles techniques de correction de pertes de trame par répétition de périodes de pitch ne peuvent fonctionner correctement que si le signal passé est stationnaire ou au moins cyclo-stationnaire. Elles reposent donc sur l'hypothèse implicite que le signal associé à la trame perdue (qu'il faut extrapoler) est "similaire" au signal décodé jusqu'à la perte de trame. Dans le cas du signal de parole, cette hypothèse de stationnarité n'est rigoureusement valable que pour des sons tels qu'une portion de voyelles à répéter. Par exemple, une voyelle "a" peut être répétée plusieurs fois (ce qui donne "aaaa..." sans occasionner de gêne à l'écoute). Or, un signal de parole comporte des sons dits "transitoires" (sons non stationnaires incluant typiquement les attaques (débuts) de voyelles et les sons appelés "plosives" qui correspondent aux consonnes brèves telles que "p", "b", "d", "t", "k"). Ainsi, si par exemple une trame est perdue juste après le son "t", une correction de perte de trame par simple répétition générera une séquence très désagréable à l'écoute de "t" (qui s'entendra en français comme "teu-teu-teu-teu-teu") en rafale pour une perte de plusieurs trames successives (par exemple cinq pertes consécutives).
Les figures 2a et 2b illustrent cet effet acoustique dans le cas d'un signal en bande élargie codé par un codeur selon la recommandation G.722. Plus particulièrement, la figure 2a montre un signal de parole décodé sur un canal idéal (sans perte de trame). Ce signal correspond, dans l'exemple représenté, au mot français "temps", divisé en deux phonèmes: /t/ puis /an/. Les lignes verticales en pointillés indiquent les frontières entre trames. On considère ici le cas de trames de longueur de l'ordre de 10 ms. La figure 2b montre le signal décodé selon une technique similaire à la référence Serizawa et al ci-avant lorsqu'une perte de trame suit immédiatement le phonème /t/. Cette figure 2b montre bien le problème de la répétition du signal passé. On constate que le phonème /t/ est répété dans la trame extrapolée. Il est aussi présent dans la ou les trames suivantes car l'extrapolation est légèrement prolongée après une perte, dans l'exemple représenté, afin de réaliser un fondu enchaîné avec le décodage en conditions normales (c'est-à-dire en présence d'informations utiles dans le signal reçu).
Le problème de répétition des plosives n'a apparemment jamais été évoqué dans l'art antérieur connu.
La présente invention, telle que définie par les revendications ci-jointes, vient améliorer la situation.
Elle propose à cet effet un procédé de synthèse d'un signal audionumérique représenté par des blocs successifs d'échantillons, dans lequel, à la réception d'un tel signal, pour remplacer au moins un bloc invalide, on génère un bloc de remplacement à partir d'échantillons d'au moins un bloc valide.
D'une façon générale, le procédé comporte les étapes suivantes:

a) définir une période de répétition du signal dans au moins un bloc valide, et
b) recopier les échantillons de la période de répétition dans au moins un bloc de remplacement.

Dans le procédé au sens de l'invention:

à l'étape a), on détermine une dernière période de répétition dans au moins un bloc valide précédant immédiatement un bloc invalide, et
à l'étape b), on corrige des échantillons de la dernière période de répétition en fonction d'échantillons d'une période de répétition précédente, et ce, pour limiter l'amplitude d'un éventuel signal transitoire qui serait présent dans la dernière période de répétition.

On recopie ensuite les échantillons ainsi corrigés dans le bloc de remplacement.
Le procédé au sens de l'invention s'applique avantageusement au traitement d'un signal de parole, aussi bien dans le cas d'un signal voisé que dans le cas d'un signal non voisé. Ainsi, si le signal est voisé, la période de répétition consiste simplement en la période de pitch et l'étape a) du procédé vise notamment la détermination d'une période de pitch (donnée typiquement par l'inverse d'une fréquence fondamentale) d'un ton du signal (par exemple le ton d'une voix dans un signal de parole) dans au moins un bloc valide précédant la perte.
Si le signal valide reçu n'est pas voisé, il n'existe pas réellement de période de pitch détectable. Dans ce cas, il peut être prévu de fixer un nombre donné d'échantillons arbitraire qui sera considéré comme la longueur de la période de pitch (que l'on peut alors appeler de façon générique "période de répétition") et réaliser le procédé au sens de l'invention sur la base de cette période de répétition. Par exemple, on peut choisir une période de pitch la plus longue possible, typiquement 20 ms (correspondant à 50 Hz d'une voix très grave), soit 160 échantillons à 8 kHz de fréquence d'échantillonnage. Il est possible aussi de prendre la valeur correspondant au maximum d'une fonction de corrélation en limitant la recherche dans un intervalle de valeur (par exemple entre MAX_PITCH/2 et MAX_PITCH, où MAX_PITCH est la valeur maximale dans la recherche de période de pitch).
Préférentiellement, si une pluralité de blocs invalides consécutifs doivent être remplacés à la réception et que ces blocs s'étendent sur au moins une période de répétition, l'étape de correction d'échantillons b) est appliquée à tous les échantillons de la dernière période de répétition, pris un à un en tant qu'échantillon courant.
En outre, si ces blocs invalides vont jusqu'à s'étendre sur plusieurs périodes de répétition, on recopie plusieurs fois la période de répétition ainsi corrigée à l'étape b) pour former les blocs de remplacement.
Dans une réalisation particulière, pour la correction d'échantillon précitée qui est effectuée à l'étape b), on peut procéder comme suit. Pour un échantillon courant de la dernière période de répétition, on compare:

l'amplitude de cet échantillon courant, en valeur absolue,
à l'amplitude, en valeur absolue, d'au moins un échantillon temporellement positionné sensiblement à une période de répétition avant l'échantillon courant, et on affecte à l'échantillon courant l'amplitude minimale, en valeur absolue, parmi ces deux amplitudes, en lui affectant aussi, bien entendu, le signe de son amplitude initiale.

On entend ici par les termes "positionné sensiblement" le fait que l'on recherche dans la période de répétition précédente un voisinage à associer à l'échantillon courant. Ainsi, préférentiellement, pour un échantillon courant de la dernière période de répétition :

on constitue un ensemble d'échantillons dans un voisinage centré autour d'un échantillon temporellement positionné à une période de répétition avant l'échantillon courant,
on détermine une amplitude choisie parmi les amplitudes des échantillons dudit voisinage, prises en valeur absolue,
et on compare cette amplitude choisie à l'amplitude de l'échantillon courant, en valeur absolue, pour affecter à l'échantillon courant l'amplitude minimum, en valeur absolue, parmi l'amplitude choisie et l'amplitude de l'échantillon courant.

Cette amplitude choisie parmi les amplitudes des échantillons dudit voisinage est préférentiellement l'amplitude maximum en valeur absolue.
Par ailleurs, on applique habituellement un amortissement (atténuation progressive) de l'amplitude des échantillons dans les blocs de remplacement. Ici, de façon avantageuse, on détecte un caractère transitoire du signal avant la perte de blocs, et, le cas échéant, on applique un amortissement plus rapide que pour un signal stationnaire (non transitoire).
On peut, en complément ou en variante, effectuer aussi une remise à jour (RAZ) des mémoires des filtres suivants dans le traitement de synthèse, spécifiquement adaptée aux sons transitoires, pour éviter de retrouver l'influence de tels sons transitoires dans le traitement des blocs valides suivants.
Préférentiellement, la détection d'un signal transitoire précédant la perte de bloc s'effectue comme suit:

pour une pluralité d'échantillons courants de la dernière période de répétition, de mesurer un rapport, en valeur absolue, de l'amplitude d'un échantillon courant sur l'amplitude choisie précitée (déterminée dans le voisinage comme indiqué ci-avant), et
compter ensuite le nombre d'occurrences, pour les échantillons courants, pour lesquelles le rapport précité est supérieur à un premier seuil prédéterminé (une valeur voisine de 4 par exemple, comme on le verra plus loin), et
détecter la présence d'ùn signal transitoire si le nombre d'occurrences est supérieur à un second seuil prédéterminé (par exemple s'il y a plus d'une occurrence, comme on le verra plus loin).

Ces étapes ci-avant peuvent être mises à profit pour déclencher aussi l'étape de correction b) au sens de l'invention, en cas de détection d'un son transitoire dans la période de répétition précédant immédiatement la perte d'un bloc.
Toutefois, pour décider d'appliquer ou non l'étape de correction b) du procédé au sens de l'invention, on procède préférentiellement comme suit. Si le signal audionumérique est un signal de parole, on détecte avantageusement un degré de voisement dans le signal de parole et on ne met pas en oeuvre la correction de l'étape b) si le signal de parole est fortement voisé (ce qui se manifeste par un coefficient de corrélation proche de "1" dans la recherche d'une période de pitch). En d'autres termes, on ne met en oeuvre cette correction que si le signal n'est pas voisé ou s'il est faiblement voisé.
On évite ainsi d'appliquer la correction de l'étape b) et d'atténuer inutilement le signal dans les blocs de remplacement, si le signal valide reçu est fortement voisé (donc stationnaire), ce qui correspond en réalité à la prononciation d'une voyelle stable (par exemple "aaaa").
Ainsi, en bref, la présente invention vise la modification de signal avant répétition de période de répétition (ou "pitch" pour un signal de parole voisé), pour la synthèse de blocs perdus au décodage de signaux audionumériques. Les effets de répétition de transitoires sont évités en comparant les échantillons d'une période de pitch avec ceux de la période de pitch précédente. Le signal est modifié préférentiellement en prenant le minimum entre l'échantillon courant et au moins un échantillon sensiblement de même position de la période de pitch précédente.
L'invention offre plusieurs avantages notamment dans le contexte de décodage en présence de pertes de blocs. Elle permet notamment d'éviter les artefacts venant de la répétition erronée de transitoires (lorsqu'une simple répétition de période de pitch est utilisée). De plus, elle réalise une détection de transitoires qui peut servir à adapter le contrôle d'énergie du signal extrapolé (via une atténuation variable).
D'autres avantages et caractéristiques de l'invention apparaîtront à l'examen de la description détaillée, donnée à titre d'exemple ci-après, et des dessins annexés sur lesquels, outre les figures 1, 2a et 2b présentées précédemment :

la figure 2c illustre, à titre de comparaison, l'effet du traitement au sens de l'invention sur le même signal que celui des figures 2a et 2b, pour lequel on a perdu une trame TP,
la figure 3 représente le décodeur selon la recommandation G.722, mais modifié en intégrant un dispositif de correction de trames effacées au sens de l'invention,
la figure 4 illustre le principe d'extrapolation de la bande basse,
la figure 5 illustre le principe de la répétition de pitch (dans le domaine de l'excitation),
la figure 6 illustre la modification du signal d'excitation au sens de l'invention, suivie par la répétition de pitch,
la figure 7 illustre les étapes du procédé de l'invention, selon une réalisation particulière,
la figure 8 illustre schématiquement un dispositif de synthèse pour la mise en oeuvre du procédé au sens de l'invention,
la figure 8a illustre la structure générale d'un banc de filtres en quadrature (QMF) à deux canaux,
la figure 8b représente les spectres des signaux x(n), xl(n), xh(n) de la figure 8a quand les filtres L(z) et H(z) sont idéaux (soit f_e =2f_e ).

Une réalisation de l'invention reposant à titre d'exemple sur le système de codage selon la recommandation G.722 est décrite ci-après. On ne reprend pas ici la description du codeur G.722 (décrite ci-avant en référence à la figure 1). On se restreint ici à la description d'un décodeur G.722 modifié, qui intègre un correcteur de périodes de pitch à reproduire en cas de perte de trames.
En référence à la figure 3, le décodeur au sens de l'invention (ici selon la recommandation G.722) présente à nouveau une architecture en deux sous-bandes avec les bancs de filtres QMF de réception (blocs 310 à 314). Par rapport au décodeur de la figure 1, le décodeur de la figure 3 intègre en plus un dispositif 320 de correction de trames effacées.
Le décodeur G.722 génère un signal de sortie Ss échantillonné à 16 kHz et découpé en trames temporelles (ou blocs d'échantillons) de 10, 20 ou 40 ms. Son fonctionnement diffère suivant la présence ou non de perte de trames.
En l'absence totale de perte de trames (donc si toutes les trames sont reçues et valides, le train binaire de la bande de basses fréquences BF est décodé par le bloc 300 du dispositif 320 au sens de l'invention, aucun fondu enchaîné (bloc 303) n'est réalisé et le signal reconstruit est donné simplement par zl = xl. De même, le train binaire de la bande de fréquences hautes HF est décodé par le bloc 304. Le commutateur 307 sélectionne la voie uh = xh et le commutateur 309 sélectionne la voie zh = uh = xh.
Néanmoins, en cas de perte d'une ou plusieurs trames, dans la bande basse BF, la trame effacée est extrapolée dans le bloc 301 à partir du signal xl passé (recopie de pitch notamment) et les états du décodeur MICDA sont mis à jour dans le bloc 302. La trame effacée est reconstruite comme zl = yl. Ce processus est répété tant qu'une perte de trames est détectée. Il est important de noter que le bloc d'extrapolation 301 ne se borne pas seulement à générer un signal extrapolé sur la trame courante (perdue) : il génère également 10 ms de signal pour la trame suivante afin de réaliser un fondu enchaîné dans le bloc 303.
Ensuite, lorsqu'une trame valide est reçue, celle-ci est décodée par le bloc 300 et un fondu enchaîné 303 est réalisé pendant les 10 premières millisecondes entre la trame valide xl et la trame précédemment extrapolée yl.
Dans la bande haute HF, la trame effacée est extrapolée dans le bloc 305 à partir du signal xh passé et les états du décodeur MICDA sont mis à jour dans le bloc 306. Dans le mode de réalisation privilégié, l'extrapolation yh est une simple répétition de la dernière période du signal xh passé. Le commutateur 307 sélectionne la voie uh = yh. Ce signal uh est avantageusement filtré pour donner le signal vh. En effet, le codage G.722 est un schéma de codage prédictif récursif (de type "backward"). Il utilise dans chaque sous-bande une opération de prédiction de type ARMA (pour "Auto-Regressive Moving Average" - filtre autorégressif à moyenne mobile) et une procédure d'adaptation de pas de quantification et d'adaptation du filtre ARMA, identiques au codeur et au décodeur. La prédiction et l'adaptation du pas s'appuient sur les informations décodées (erreur de prédiction, signal reconstruit).
Les erreurs de transmission, plus particulièrement les pertes de trames, conduisent à une désynchronisation entre les variables du décodeur et du codeur. Les procédures d'adaptation de pas et de prédiction sont alors erronées et biaisées sur une grande période de temps (jusqu'à 300-500 ms). Dans la bande haute, ce biais peut résulter, parmi d'autres artéfacts, en l'apparition d'une composante continue d'amplitude très faible (de l'ordre de +/-10 pour un signal de dynamique maximale +/-32767). Toutefois, après passage par le banc de filtres QMF de synthèse, cette composante continue se retrouve sous la forme d'une sinusoïde à 8kHz audible et très gênante à l'audition.
La transformation de la composante continue (ou "composante DC") en une sinusoïde à 8 kHz est expliquée ci-après. La figure 8a représente un banc de filtres en quadrature (QMF) à deux canaux. Le signal x(n) est décomposé en deux sous-bandes par le banc d'analyse. On obtient ainsi une bande basse xl(n) et une bande haute xh(n). Ces signaux sont définis par leur transformée en z: $XL (z) = \frac{1}{2} (X (z^{1 / 2}) L (z^{1 / 2}) + X (- z^{1 / 2}) L (- z^{1 / 2}))$
$XH (z) = \frac{1}{2} (X (z^{1 / 2}) H (z^{1 / 2}) + X (- z^{1 / 2}) H (- z^{1 / 2}))$
Les filtres passe-bas L(z) et passe-haut H(z) étant en quadrature, on a : H(z)=L(-z).
Si L(z) vérifie les contraintes de reconstruction parfaite, le signal obtenu après le banc de filtre de synthèse est identique au signal x(n) à un décalage près.
Ainsi, si la fréquence d'échantillonnage du signal x(n) est ƒ _e', les signaux xl(n) et xh(n) sont échantillonnés à la fréquence ƒ_e =ƒ_e '/2. Typiquement, on a souvent ƒ_e ' = 16 kHz, soit ƒ_e = 8 kHz. On indique en outre que les filtres L(z) et H(z) peuvent être par exemple les filtres QMF de 24 coefficients spécifiés dans la recommandation UIT-T G.722.
La figure 8b montre le spectre des signaux x(n), xl(n) et xh(n) dans le cas où les filtres L(z) et H(z) sont des filtres mi-bande idéaux. La réponse en fréquence de L(z) sur l'intervalle [-f'e/2, +fe'/2] est alors donnée, dans le cas idéal, par: $|L (f)| = {\begin{matrix} 1 & {si}_{} |f| \leq {f_{c}}^{ʹ} / 4 \\ 0 & autrement \end{matrix}$
On remarque que le spectre de xh(n) correspond à la bande haute repliée. Cette propriété de repliement (ou "folding" en anglais), bien connue dans l'état de l'art, s'explique visuellement, ainsi qu'au moyen de l'équation ci-dessus définissant XH(z). Le repliement de la bande haute est "inversé" par le banc de filtres de synthèse qui rétablit le spectre de la bande haute dans l'ordre naturel des fréquences.
Toutefois, en pratique, les filtres L(z) et H(z) ne sont pas idéaux. Leur caractère non-idéal a pour conséquence l'apparition d'une composante de repliement spectral qui est annulée par le banc de synthèse. La bande haute reste néanmoins inversée.
Le bloc 308 réalise alors un filtrage passe-haut (HPF pour "high pass filter") qui supprime la composante continue (pour "DC remove" en anglais). L'utilisation d'un tel filtre est particulièrement avantageuse, y compris en dehors du cadre de la correction de période de pitch dans la bande basse au sens de l'invention.
D'ailleurs, l'utilisation d'un tel filtre HPF (bloc 308) éliminant la composante continue dans la bande haute pourrait faire l'objet d'une protection séparée, dans un contexte général de perte de trames au décodage. En termes génériques, on comprendra donc qu'en contexte de décodage d'un signal reçu avec séparation de ce signal en bande de fréquences hautes et en bande de fréquences basses, donc en au moins deux canaux comme en décodage selon la norme G.722, lorsqu'il advient une perte de signal suivie d'une synthèse d'un signal de remplacement, de façon générale, sur la voie de hautes fréquences du décodeur, cela peut entraîner la présence d'une composante continue dans le signal de remplacement. L'effet de cette composante continue peut se prolonger aussi dans le signal décodé, pendant un certain temps, lorsque le signal codé reçu est à nouveau valide pourtant, à cause de la désynchronisation entre le codeur et le décodeur et de la taille mémoire des filtres.
On prévoit avantageusement un filtre passe-haut 308 sur la voie des hautes fréquences. Ce filtre passe-haut 308 est avantageusement prévu en amont par exemple du banc de filtres QMF de cette voie des hautes fréquences du décodeur G.722. Cette disposition permet d'éviter le repliement de la composante continue à 8 kHz (valeur tirée du taux d'échantillonnage f'_e ) lorsqu'elle est appliquée au banc de filtres QMF. Plus généralement, lorsque le décodeur fait intervenir un banc de filtres en fin de traitement sur la voie des hautes fréquences, on prévoit préférentiellement le filtre passe-haut (308) en amont de ce banc de filtres.
Ainsi, en référence à nouveau à la figure 3, le commutateur 309 sélectionne la voie zh = vh, tant qu'il y a perte de trames.
Ensuite, dès qu'une trame valide est reçue, celle-ci est décodée par le bloc 304 et le commutateur 307 sélectionne la voie uh = xh. Pendant quelques instants suivants (par exemple après quatre secondes), le commutateur 309 sélectionne encore la voie zh = vh, mais passé ces quelques secondes, on revient au fonctionnement "normal" où le commutateur 309 sélectionne à nouveau la voie zh = uh en contournant le bloc 308 et donc sans application du filtre passe-haut 308.
En termes génériques, on comprendra donc que, préférentiellement, on applique temporairement (quelques secondes par exemple) ce filtre passe-haut 308 pendant et après une perte de blocs, même si des blocs valides sont à nouveau reçus. Le filtre 308 pourrait être utilisé en permanence. Néanmoins, il n'est activé qu'en cas de pertes de trames, car la perturbation due à la composante continue n'est générée que dans ce cas, de sorte que la sortie du décodeur G.722 modifié (car intégrant le mécanisme de correction de pertes) est identique à celle du décodeur UIT-T G.722 en l'absence de perte de trames. Ce filtre 308 est appliqué uniquement pendant la correction de perte de trames et pendant quelques secondes consécutives à une perte. En effet, en cas de perte, le décodeur G.722 est désynchronisé du codeur pendant une période de 100 à 500 ms suite à une perte et la composante continue dans la bande haute n'est typiquement présente que pour une durée de 1 à 2 secondes. Le filtre 308 est maintenu un peu plus longtemps pour avoir une marge de sécurité (par exemple quatre secondes).
On ne décrit pas plus en détail le décodeur objet de la figure 3, étant entendu que l'invention est en particulier mise en oeuvre dans le bloc 301 d'extrapolation de la bande basse. Ce bloc 301 est détaillé sur la figure 4.
En référence à la figure 4, l'extrapolation de la bande basse repose sur une analyse du signal passé xl (partie de la figure 4 référencée ANALYS) suivie d'une synthèse du signal yl à délivrer (partie de la figure 4 référencée SYNTH). Le bloc 400 réalise une analyse par prédiction linéaire (LPC) sur le signal passé xl. Cette analyse est similaire à celle réalisée notamment dans le codeur normalisé G.729. Elle peut consister à fenêtrer le signal, calculer l'autocorrélation et trouver les coefficients de prédiction linéaire par l'algorithme de Levinson-Durbin. Préférentiellement, seules les 10 dernières secondes du signal sont utilisées et l'ordre LPC est fixé à 8. On obtient donc neuf coefficients LPC (notés ci-après a₀, a_l, ... , a_p) sous la forme : $A (z) = a_{0} + a_{1} z^{- 1} + \dots + a_{p} z^{- p} avec p = 8 {et a}_{0} = 1.$
Après analyse LPC, le signal d'excitation passé est calculé par le bloc 401. Le signal d'excitation passé est noté e(n) avec n=-M, ...,-1, où M correspond au nombre d'échantillons passés et stockés.
Le bloc 402 réalise une estimation de la fréquence fondamentale ou de son inverse: la période de pitch T ₀. Cette estimation est réalisée par exemple d'une façon similaire à l'analyse de pitch (dite "en boucle ouverte" notamment comme dans le codeur normalisé G.729).
Le pitch T ₀ ainsi estimé est utilisé par le bloc 403 pour extrapoler l'excitation de la trame courante.
Par ailleurs, le signal passé xl est classifié dans le bloc 404. On peut chercher ici à détecter la présence de transitoires, par exemple la présence d'une plosive pour appliquer la correction de période de pitch au sens de l'invention, mais, dans une variante préférentielle, on cherche plutôt à détecter si le signal Se est fortement voisé (par exemple lorsque la corrélation par rapport à la période de pitch est très proche de 1). Si le signal est fortement voisé (ce qui correspond à la prononciation d'une voyelle stable, par exemple "aaaa... "), alors le signal Se est exempt de transitoires et la correction de période de pitch au sens de l'invention peut ne pas être mise en oeuvre. Sinon, préférentiellement, on appliquera la correction de la période de pitch au sens de l'invention dans tous les autres cas.
Les détails de la détection d'un degré de voisement ne sont pas présentés ici car ils sont connus en soi et dépassent le cadre de l'invention.
En référence à nouveau à la figure 4, la synthèse SYNTH suit le modèle bien connu dans l'état de l'art et dit "source-filtre". Elle consiste à filtrer l'excitation extrapolée par un filtre LPC. Ici, l'excitation extrapolée e(n) (où maintenant n=0,..., L-1, L étant la longueur de la trame à extrapoler) est filtrée par le filtre inverse 1/A(z) (bloc 405). Ensuite, le signal obtenu est atténué par le bloc 407 en fonction d'une atténuation calculée dans le bloc 406, pour être finalement délivré en yl.
L'invention, en tant que telle, est réalisée par le bloc 403 de la figure 4, dont les fonctions sont décrites en détail ci-après.
On a représenté sur la figure 5, à titre illustratif, le principe de la simple répétition d'excitation telle que réalisée dans l'état de l'art. L'excitation peut être extrapolée en répétant simplement la dernière période de pitch T ₀, c'est-à-dire en copiant la succession des deniers échantillons de l'excitation passée, le nombre d'échantillons dans cette succession correspondant au nombre d'échantillons que comporte la période de pitch T ₀.
En se référant maintenant à la figure 6, avant de répéter la dernière période de pitch T ₀, on modifie cette dernière, au sens de l'invention, comme suit.
Pour chaque échantillon n= -T ₀, ...,-1, l'échantillon e(n) est modifié en e_mod(n) suivant une formule du type: $e_{\mod} (n) = \min (\max_{i = - k, ..., 0, ..., + k} (|e (n - T_{0} + i)|), |e (n)|) \times sign (e (n))$
Comme indiqué ci-avant, préférentiellement, cette modification de signal n'est pas appliquée si le signal xl (et donc le signal d'entrée Se) est fortement voisé. En effet, dans le cas d'un signal fortement voisé, la répétition simple de la dernière période de pitch, sans modification, peut donner un meilleur résultat, alors qu'une modification de la dernière période de pitch et sa répétition pourrait entraîner une légère dégradation de qualité.
On a représenté sur la figure 7 le traitement correspondant à l'application de cette formule, sous forme d'organigramme, pour illustrer les étapes du procédé selon un mode de réalisation de l'invention. On part ici du signal passé e(n) que délivre le bloc 401. A l'étape 70, on obtient l'information selon laquelle le signal xl est fortement voisé ou non, à partir du module 404 déterminant le degré de voisement. Si le signal est fortement voisé (flèche O en sortie du test 71), on recopie la dernière période de pitch des blocs valides, telle quelle, dans le bloc 403 de la figure 4 et le traitement se poursuit directement ensuite par l'application du filtrage inverse 1/A(z) par le module 405.
En revanche, si le signal xl n'est pas fortement voisé (flèche N en sortie du test 71), on va chercher à modifier les derniers échantillons du signal d'excitation e(n) correspondant aux derniers blocs valides reçus, ces échantillons s'étendant sur toute une période de pitch T ₀ (étape 73), donnée par le module 402 de la figure 4 (à l'étape 72). Dans la réalisation illustrée sur la figure 7, on cherche à modifier tous les échantillons e(n) sur toute une période de pitch T ₀, avec n compris entre n_l -T ₀+1 et n_l , e(n_l ) correspondant donc au dernier échantillon valide reçu (étape 74). On comprendra ainsi, avec ces notations, qu'un échantillon e(n) avec n compris entre n_l -T ₀+1 et n_l appartient simplement à la dernière période de pitch validement reçue.
A l'étape 75, on fait correspondre à chaque échantillon e(n) de la dernière période de pitch un voisinage NEIGH dans la période de pitch précédente, donc dans l'avant-dernière période de pitch. Cette mesure est avantageuse mais aucunement nécessaire. L'avantage qu'elle procure sera décrit plus loin. On indique simplement ici que ce voisinage comprend un nombre d'échantillons impair 2k+1, dans l'exemple décrit. Bien entendu, en variante, ce nombre peut être pair. Par ailleurs, dans l'exemple de la figure 6, on a k=1. En effet, en référence encore à la figure 6, on constate que le troisième échantillon de la dernière période de pitch noté e(3) est sélectionné (étape 74) et les échantillons du voisinage NEIGH qui lui sont associés dans l'avant-dernière période de pitch (étape 75) sont représentés en gras et sont e(2-T ₀), e(3-T ₀) et e(4-T ₀). Ils sont donc répartis autour de e(3-T ₀).
A l'étape 76, on détermine le maximum, en valeur absolue, parmi les échantillons du voisinage NEIGH (soit l'échantillon e(2-T ₀) dans l'exemple de la figure 6). Cette caractéristique est avantageuse mais aucunement nécessaire. L'avantage qu'elle procure sera décrit plus loin. Typiquement, en variante, on pourrait choisir de déterminer la moyenne sur le voisinage NEIGH, par exemple.
A l'étape 77, on détermine le minimum, en valeur absolue, entre la valeur de l'échantillon courant e(n) et la valeur du maximum M trouvé sur le voisinage NEIGH à l'étape 76. Dans l'exemple illustré sur la figure 6, ce minimum entre e(3) et e(2-T ₀) est bien l'échantillon de l'avant-dernière période de pitch e(2-T ₀). Toujours à cette étape 77, on remplace alors l'amplitude de l'échantillon courant e(n) par ce minimum. Sur la figure 6, l'amplitude de l'échantillon e(3) devient égale à celle de l'échantillon e(2-T ₀). Le même procédé est appliqué à tous les échantillons de la dernière période, de e(1) à e(12). Sur la figure 6, on a représenté les échantillons corrigés par des traits pointillés. Les échantillons des périodes de pitch extrapolées T _j+1, T _j+2, corrigés selon l'invention, sont représentés par des flèches fermées.
On comprendra donc que, par la mise en oeuvre avantageuse de cette étape 77, si une plosive est bien présente sur la dernière période de pitch T _j (forte intensité du signal, en valeur absolue, comme représenté sur la figure 6), on va déterminer le minimum entre cette intensité de la plosive et celle des échantillons sensiblement à la même position temporelle dans la période de pitch précédente (le terme "sensiblement" signifiant ici "à un voisinage ± k près", d'où l'avantage de la réalisation de l'étape 75), et remplacer, le cas échéant, l'intensité de la plosive par une intensité plus faible appartenant à l'avant-dernière période de pitch T _j-1. En revanche, si l'intensité des échantillons de la dernière période de pitch T _j est inférieure à celle de l'avant-dernière période T _j-1, en sélectionnant le minimum entre l'échantillon courant e(3) et la valeur d'intensité e(2-T ₀) dans l'avant-dernière période de pitch T _j-1, on ne modifie pas la dernière période et on évite ainsi le risque qu'une plosive (de forte intensité) puisse être recopiée de l'avant-dernière période de pitch T _j-1.
Ainsi, à l'étape 76, on détermine le maximum M en valeur absolue des échantillons du voisinage (et non pas un autre paramètre tel que la moyenne sur ce voisinage, par exemple) de manière à compenser l'effet de choisir le minimum à l'étape 77 pour effectuer le remplacement de la valeur e(n). Cette mesure permet donc de ne pas trop limiter l'amplitude des périodes de pitch de remplacement T _j+1 , T_j+2 (figure 6).
Par ailleurs, l'étape 75, de détermination de voisinage, est mise en oeuvre, de façon avantageuse, car une période de pitch n'est pas toujours régulière et, si un échantillon e(n) a une intensité maximum dans une période de pitch T ₀, il n'en est pas toujours de même pour un échantillon e(n+T ₀) dans une période de pitch suivante. Par ailleurs, une période de pitch peut s'étendre jusqu'à une position temporelle tombant entre deux échantillons (à une fréquence d'échantillonnage donnée). On parle de "pitch fractionnaire". Il est donc toujours préférable de prendre un voisinage centré autour d'un échantillon e(n-T ₀), s'il faut associer cet échantillon e(n-T ₀) à un échantillon e(n) positionné à une période de pitch suivante.
Enfin, puisque les traitements des étapes 75 à 77 portent essentiellement sur les valeurs absolues des échantillons, l'étape 78 consiste simplement à réaffecter le signe de l'échantillon initial e(n) à l'échantillon modifié e_mod(n).
On réitère les étapes 75 à 78 pour un échantillon e(n) suivant (n devant n+1 à l'étape 79), jusqu'à épuisement de la période de pitch T ₀ (soit donc jusqu'à arriver au dernier échantillon valide e(n_l )).
On délivre ainsi le signal modifié e_mod(n) au filtre inverse 1/A(z) (référence 405 de la figure 4) pour la suite du décodage.
Il convient néanmoins de noter encore deux variantes possibles de réalisation. Il est possible de corriger ainsi la dernière période de pitch T _j, d'appliquer cette correction T'_j à cette dernière période de pitch T _j et de recopier la correction pour les périodes de pitch suivantes, soit : T _j=T _j+1=T _j+2=T'_j.
Dans une variante, on laisse intacte la dernière période de pitch T _j et on recopie en revanche sa correction T'_j dans les périodes de pitch suivantes T _j+1 et T _j+2.
La comparaison des figures 5 et 6 montre en quoi la modification de l'excitation ainsi faite est avantageuse. Ainsi, en bref, dans le cas où une plosive est présente dans la dernière période de pitch, celle-ci sera automatiquement éliminée avant répétition de pitch car elle n'aura pas d'équivalent dans l'avant-dernière période de pitch. Cette réalisation permet ainsi d'éliminer l'un des artefacts les plus gênants de la répétition de pitch et consistant en la répétition de plosives.
Par ailleurs, on prévoit avantageusement une atténuation plus rapide du signal synthétisé et répété, si une plosive est détectée dans la dernière période de pitch. Un exemple de réalisation d'une détection de transitoire, de manière générale, peut consister à compter le nombre d'occurrences de la condition (1) suivante : $\frac{|e (n)|}{4} > \max_{i = - k, ..., 0, ..., + k} (|e (n - T_{0} + i)|)$
Si cette condition est vérifiée par exemple plus d'une fois sur la trame courante, alors le signal passé xl comporte une transitoire (par exemple une plosive), ce qui permet de forcer une atténuation rapide par le bloc 406 sur le signal de synthèse yl (par exemple une atténuation sur 10 ms).
La figure 2c illustre alors le signal décodé lorsque l'invention est mise en oeuvre, à titre de comparaison avec les figures 2a et 2b pour lesquelles une trame comportant la plosive /t/ était perdue. La répétition du phonème /t/ est ici évitée, grâce à la mise en oeuvre de l'invention. Les différences qui suivent la perte de trame ne sont pas liées à la détection de plosives proprement dite. En fait, l'atténuation du signal après la perte de trame à la figure 2c s'explique par le fait que dans ce cas, le décodeur G.722 est réinitialisé (mise à jour complète des états dans le bloc 302 de la figure 3), alors que dans le cas de la figure 2b, le décodeur G.722 n'est pas réinitialisé. On comprendra néanmoins que l'invention porte sur la détection de plosives pour l'extrapolation d'une trame effacée et non sur le problème du redémarrage après une perte de trame.
Néanmoins, à l'écoute, le signal illustré à la figure 2c est de meilleure qualité que celui de la figure 2b.
La présente invention vise aussi un programme d'ordinateur destiné à être stocké en mémoire d'un dispositif de synthèse d'un signal audionumérique. Ce programme comporte alors des instructions pour la mise en oeuvre du procédé au sens de l'invention, lorsqu'il est exécuté par un processeur d'un tel dispositif de synthèse. D'ailleurs, la figure 7 décrite ci-avant peut illustrer un organigramme d'un tel programme d'ordinateur.
Par ailleurs, la présente invention vise aussi un dispositif de synthèse d'un signal audionumérique constitué d'une succession de blocs. Ce dispositif pourrait comporter d'ailleurs une mémoire stockant le programme d'ordinateur précité et pourrait consister en le bloc 403 de la figure 4 avec les fonctionnalités décrites ci-avant. En référence à la figure 8, ce dispositif SYN, comporte :

une entrée E pour recevoir des blocs du signal e(n), précédant au moins un bloc courant à synthétiser, et
une sortie S pour délivrer le signal synthétisé e_mod(n) et comportant au moins ce bloc courant synthétisé.

Le dispositif de synthèse SYN au sens de l'invention comporte des moyens tels qu'une mémoire de travail MEM (ou de stockage du programme d'ordinateur précité) et un processeur PROC coopérant avec cette mémoire MEM, pour la mise en oeuvre du procédé au sens de l'invention, et pour synthétiser ainsi le bloc courant à partir d'au moins un des blocs précédents du signal e(n).
La présente invention vise aussi un décodeur d'un signal audionumérique constitué d'une succession de blocs, ce décodeur comportant le dispositif 403 au sens de l'invention pour synthétiser des blocs invalides.
De manière plus générale, la présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d'exemple; elle d'étend à d'autres variantes.
Dans des réalisations variantes, les paramètres de correction de période de pitch et/ou de détection de transitoires peuvent être les suivants. On peut considérer un intervalle comportant un nombre différent de trois échantillons dans l'avant-dernière période de pitch. On peut prendre par exemple k=2 pour avoir cinq échantillons considérés en tout. De même, la valeur du seuil pour la détection de transitoire (de ¼ dans l'exemple de la condition (1) ci-avant) peut être adaptée. De plus, on peut déclarer le signal comme transitoire si la condition de détection est vérifiée au moins m fois, avec m ≥ 1.
Par ailleurs, l'invention peut être également appliquée à d'autres contextes que celui décrit ci-avant.
Par exemple, la détection et la modification de signal peuvent être réalisées dans le domaine du signal (plutôt que le domaine de l'excitation). Typiquement, pour la correction de pertes de trame dans un décodeur CELP (qui fonctionne aussi suivant le modèle source-filtre), l'excitation est extrapolée par répétition de pitch et éventuellement ajout d'une contribution aléatoire et cette excitation est filtrée par un filtre de type 1/A(z), où A(z) est dérivé du dernier filtre prédicteur correctement reçu.
Elle peut être appliquée aussi à un décodeur selon la norme G.711, tout aussi naturellement.
Bien entendu, recopier tout simplement l'avant-dernière période de pitch T _j-1 pour constituer les nouvelles périodes synthétisées T _j+1, T _j+2 permettrait déjà de surmonter le problème de répétition de plosives, si, de plus, on prend le soin de détecter des plosives dans l'avant-dernière période de pitch (par exemple en utilisant une condition du type de la condition (1) ci-avant).
Par ailleurs, pour la clarté de l'exposé ci-avant, on a décrit une correction d'échantillons, à l'étape b), suivi du recopiage des échantillons corrigés dans le(s) bloc(s) de remplacement. Bien entendu et de façon strictement équivalente techniquement, il est possible aussi de recopier d'abord les échantillons de la dernière période de répétition et de les corriger tous ensuite dans le(s) bloc(s) de remplacement. Ainsi, la correction d'échantillons et le recopiage peuvent être des étapes qui peuvent intervenir dans un ordre quelconque et, en particulier, être inversées.

Claims

Procédé de synthèse d'un signal audionumérique représenté par des blocs successifs d'échantillons, dans lequel, à la réception d'un tel signal, pour remplacer au moins un bloc invalide, on génère un bloc de remplacement à partir d'échantillons d'au moins un bloc valide,
le procédé comportant les étapes suivantes:
a) déterminer (402) une période de répétition dans au moins un bloc valide, et

b) recopier (403) les échantillons de la période de répétition dans au moins un bloc de remplacement,
ladite période de répétition correspondant à une période de pitch si le signal est voisé ou à une valeur déterminée arbitrairement ou à partir d'une fonction de corrélation si le signal n'est pas voisé,
caractérisé en ce que:
- à l'étape a), on détermine une dernière période de répétition (T _j) dans au moins un bloc valide précédant immédiatement un bloc invalide,

- à l'étape b), on corrige des échantillons (e(3)) de ladite dernière période de répétition (T _j) en fonction d'échantillons (e(2-T ₀), e(3-T ₀), e(4-T ₀)) d'une période de répétition (T _j-1) précédant ladite dernière période de répétition, pour limiter l'amplitude d'un éventuel signal transitoire dans ladite dernière période de répétition, et on recopie les échantillons ainsi corrigés dans ledit bloc de remplacement (T _j+1, T _j+2), ladite correction étant effectuée par rapport à un voisinage centré autour d'un échantillon temporellement positionné à une période de répétition avant l'échantillon courant.
Procédé selon la revendication 1, dans lequel le signal est un signal de parole voisé, caractérisé en ce que la période de répétition est une période de pitch correspondant à l'inverse d'une fréquence fondamentale du signal.
Procédé selon l'une des revendications 1 et 2, caractérisé en ce que, à l'étape b), on corrige un échantillon courant (e(3)) de la dernière période de répétition, en comparant :
- l'amplitude de cet échantillon courant, en valeur absolue,

- à l'amplitude, en valeur absolue, d'au moins un échantillon (e(2-T ₀)) temporellement positionné sensiblement à une période de répétition avant l'échantillon courant,
et en affectant à l'échantillon courant l'amplitude minimale, en valeur absolue, parmi ces deux amplitudes.
Procédé selon la revendication 3, caractérisé en ce que, pour un échantillon courant (e(3)) de la dernière période de répétition :
- on constitue un ensemble d'échantillons (75) dans un voisinage centré autour d'un échantillon (e(3-T ₀)) temporellement positionné à une période de répétition avant l'échantillon courant,

- on détermine une amplitude choisie (76) parmi les amplitudes des échantillons dudit voisinage, prises en valeur absolue,

- et on compare cette amplitude choisie à l'amplitude de l'échantillon courant, en valeur absolue, pour affecter (77) à l'échantillon courant (e(3)) l'amplitude minimum, en valeur absolue, parmi l'amplitude choisie et l'amplitude de l'échantillon courant.
Procédé selon la revendication 4, caractérisé en ce que l'amplitude choisie parmi les amplitudes des échantillons dudit voisinage est l'amplitude maximum en valeur absolue (M).
Procédé selon l'une des revendications précédentes, dans lequel on applique un amortissement de l'amplitude des échantillons dans ledit bloc de remplacement, caractérisé en ce qu'on détecte un éventuel caractère transitoire du signal dans la dernière période de répétition et, le cas échéant, la correction de l'étape b) est effectuée en appliquant un amortissement plus rapide que pour un signal stationnaire.
Procédé selon la revendication 6, prise en combinaison avec l'une des revendications 3 et 4, caractérisé en ce que :
- pour une pluralité d'échantillons courants de la dernière période de répétition, on mesure un rapport, en valeur absolue, de l'amplitude d'un échantillon courant sur ladite amplitude choisie, et

- on compte le nombre d'occurrences, pour lesdits échantillons courants, pour lesquelles ledit rapport est supérieur à un premier seuil prédéterminé, et

- on détecte la présence d'un caractère transitoire si le nombre d'occurrences est supérieur à un second seuil prédéterminé.
Procédé selon l'une des revendications précédentes, caractérisé en ce que, dans le cas d'une réception d'une pluralité de blocs invalides consécutifs s'étendant sur au moins une période de répétition, l'étape de correction d'échantillons b) est appliquée à tous les échantillons de la dernière période de répétition, pris un à un en tant qu'échantillon courant.
Procédé selon la revendication 8, caractérisé en ce que, dans le cas d'une réception d'une pluralité de blocs invalides consécutifs s'étendant sur plusieurs périodes de répétition, pour remplacer ladite pluralité de blocs invalides, on recopie plusieurs fois la période de répétition corrigée à l'étape b) pour former les blocs de remplacement.
Programme d'ordinateur destiné à être stocké en mémoire d'un dispositif de synthèse d'un signal audionumérique, caractérisé en ce qu'il comporte des instructions adaptées pour la mise en oeuvre du procédé selon l'une des revendications 1 à 9 lorsqu'il est exécuté par un processeur d'un tel dispositif de synthèse.
Dispositif de synthèse d'un signal audionumérique constitué d'une succession de blocs, comportant:
- une entrée (E) pour recevoir des blocs du signal (e(n)), précédant au moins un bloc courant à synthétiser, et

- une sortie (S) pour délivrer le signal synthétisé (e_mod(n)) et comportant au moins ledit bloc courant,
caractérisé en ce qu'il comporte des moyens (MEM, PROC) adaptés pour la mise en oeuvre du procédé selon l'une des revendications 1 à 9, pour synthétiser le bloc courant à partir d'au moins un desdits blocs précédents.
Décodeur d'un signal audionumérique constitué d'une succession de blocs, caractérisé en ce qu'il comporte en outre un dispositif (403) selon la revendications 11, pour synthétiser des blocs invalides.