FR2929466A1

FR2929466A1 - Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique

Info

Publication number: FR2929466A1
Application number: FR0852043A
Authority: FR
Inventors: David Virette; Pierrick Philippe; Balazs Kovesi
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2008-03-28
Filing date: 2008-03-28
Publication date: 2009-10-02
Also published as: CN101981615B; CN101981615A; US20110007827A1; JP5247878B2; EP2277172B1; BRPI0910327B1; ES2387943T3; US8391373B2; BRPI0910327A2; RU2496156C2; RU2010144057A; WO2009125114A1; EP2277172A1; KR101513184B1; JP2011515712A; KR20100134709A

Abstract

L'invention concerne un procédé de dissimulation d'erreur de transmission dans un signal numérique découpé en une pluralité de trames successives associées à des intervalles temporels différents dans lequel, à la réception, le signal est susceptible de comporter des trames effacées et des trames valides, les trames valides comportant des informations (inf.) relatives à la dissimulation de perte de trame. Le procédé est mis en oeuvre lors d'un décodage hiérarchique utilisant un décodage coeur et un décodage par transformée utilisant des fenêtres à faible retard introduisant un retard temporel inférieur à une trame par rapport au décodage coeur. Pour remplacer au moins la dernière trame effacée avant une trame valide, le procédé comporte une étape (23) de dissimulation d'un premier ensemble d'échantillons manquants pour la trame effacée, mise en oeuvre dans un premier intervalle temporel; une étape (25) de dissimulation d'un deuxième ensemble d'échantillons manquants prenant en compte des informations de ladite trame valide et mise en oeuvre dans un second intervalle temporel; et une étape (29) de transition entre le premier et le deuxième ensemble d'échantillons manquants pour obtenir au moins une partie de la trame manquante.

Description

Dissimulation d'erreur de transmission dans un signal numérique dans une structure de décodage hiérarchique

La présente invention concerne le traitement de signaux numériques dans le domaine des télécommunications. Ces signaux peuvent être par exemple des signaux de parole, de musique. La présente invention intervient dans un système de codage/décodage adapté pour la transmission/réception de tels signaux. Plus particulièrement, la présente invention porte sur un traitement à la réception permettant d'améliorer la qualité des signaux décodés en présence de pertes de blocs de données.

Différentes techniques existent pour convertir sous forme numérique et compresser un signal audionumérique. Les techniques les plus courantes sont : - les méthodes de codage de forme d'onde, telles que le codage MIC (pour "Modulation par Impulsions Codées") et MICDA (pour "Modulation par Impulsion et Codage Différentiel Adaptatif'), dits aussi "PCM" et "ADPCM" en anglais, - les méthodes de codage paramétrique par analyse par synthèse comme le codage CELP (pour "Code Excited Linear Prediction"), et - les méthodes de codage perceptuel en sous-bandes ou par transformée. 20 Ces techniques traitent le signal d'entrée de façon séquentielle échantillon par échantillon (MIC ou MICDA) ou par blocs d'échantillons dits "trames" (CELP et codage par transformée). Pour tous ces codeurs, les valeurs codées sont ensuite transformées en un train binaire qui est transmis sur un canal de transmission. 25 Selon la qualité de ce canal et le type de transport, des perturbations peuvent affecter le signal transmis et produire des erreurs sur le train binaire reçu par le décodeur. Ces erreurs peuvent intervenir de manière isolée dans le train binaire mais se produisent très fréquemment par rafales. C'est alors un paquet de bits 30 correspondant à une portion complète de signal qui est erroné ou non reçue. Ce type -2

de problème se rencontre par exemple pour les transmissions sur les réseaux mobiles. Il se rencontre aussi dans les transmissions sur les réseaux par paquets et en particulier sur les réseaux de type internet. Lorsque le système de transmission ou les modules chargés de la réception permettent de détecter que les données reçues sont fortement erronées (par exemple sur les réseaux mobiles), ou qu'un bloc de données n'a pas été reçu ou est corrompu par des erreurs binaires (cas de systèmes à transmission par paquets par exemple), des procédures de dissimulation des erreurs sont alors mises en oeuvre. La trame courante à décoder est alors déclarée effacée ("bad frame" en anglais). Ces procédures permettent d'extrapoler au décodeur les échantillons du signal manquant à partir des signaux et données issus des trames précédentes. De telles techniques ont été mises en oeuvre principalement dans le cas des codeurs paramétriques et prédictifs (techniques de récupération/dissimulation des trames effacées). Elles permettent de limiter fortement la dégradation subjective du signal perçue au décodeur en présence de trames effacées. Ces algorithmes reposent sur la technique utilisée pour le codeur et le décodeur, et constituent en fait une extension du décodeur. Les dispositifs de dissimulation de trames effacées ont pour objectif d'extrapoler les paramètres de la trame effacée à partir de la (ou des) dernières trames précédentes considérées comme valides.

Certains paramètres manipulés ou codés par les codeurs prédictifs présentent une forte corrélation inter-trames (cas des paramètres LPC (pour Linear Predictive Coding en anglais) qui représentent l'enveloppe spectrale, et des paramètres LTP (pour Long Term Prediction en anglais) de prédiction à long terme qui représente la périodicité du signal (pour les sons voisés, par exemple). Du fait de cette corrélation, il est beaucoup plus avantageux de réutiliser les paramètres de la dernière trame valide pour synthétiser la trame effacée que d'utiliser des paramètres erronés ou aléatoires. Dans le contexte d'un décodage CELP, les paramètres de la trame effacée sont classiquement obtenus comme suit. -3

Les paramètres LPC d'une trame à reconstruire sont obtenus à partir des paramètres LPC de la dernière trame valide, par simple recopie des paramètres ou encore avec introduction d'un certain amortissement (technique utilisée par exemple dans le codeur normalisé G723.1). Ensuite, on détecte un voisement ou un non voisement dans le signal de parole pour déterminer un degré d'harmonicité du signal au niveau de la trame effacée. Si le signal est non voisé, un signal d'excitation peut être généré de manière aléatoire (par tirage d'un mot de code de l'excitation passée, par léger amortissement du gain de l'excitation passée, par sélection aléatoire dans l'excitation passée, ou en utilisant encore des codes transmis qui peuvent être totalement erronés). Si le signal est voisé, la période de pitch (appelée aussi "délai LTP") est généralement celle calculée pour la trame précédente, éventuellement avec une légère "gigue" (augmentation de la valeur du délai LTP pour les trames d'erreur consécutive, le gain LTP étant pris très voisin de 1 ou égal à 1). Le signal d'excitation est donc limité à la prédiction à long terme effectuée à partir d'une excitation passée. La complexité de calcul de ce type d'extrapolation de trames effacées est généralement comparable à celle d'un décodage d'une trame valide (ou "good frame" en anglais) : à la place du décodage et de la quantification inverse des paramètres on utilise les paramètres estimés à partir du passé, éventuellement légèrement modifiés, puis on synthétise le signal reconstruit de la même manière que pour une trame valide en utilisant les paramètres ainsi obtenus. Dans une structure de codage hiérarchique, utilisant en codage coeur une technique de type CELP et en codage du signal d'erreur, un codage par transformée, il peut être intéressant d'utiliser le décalage temporel généré par ce système de décodage hiérarchique pour la dissimulation de trame effacée. La figure la illustre le codage hiérarchique des trames CELP CO à C5 et les transformées Ml à M5 appliquées à ces trames. Lors de la transmission de ces trames à un décodeur correspondant, les trames C3 et C4 grisées et les transformées M3 et M4 sont effacées. -4

Ainsi, au décodeur, en référence à la figure lb, la ligne référencée 10 correspond à la réception des trames, la ligne référencée 11 correspond à la synthèse CELP et la ligne référencée 12 correspond à la synthèse totale après transformée MDCT.

On peut noter que lors de la réception de la trame 1 (codage CELP Cl et codage par transformée Ml), le décodeur synthétise la trame CELP Cl qui sera utilisée pour calculer le signal de synthèse total de la trame suivante, et calcule le signal de synthèse total de la trame courante 01 (ligne 12) à partir de la synthèse CELP CO, de la transformée MO et de la transformée Ml. Ce retard supplémentaire dans la synthèse totale est bien connu dans le contexte de codage par transformée. Dans ce cas, en présence d'erreurs sur le train binaire, le décodeur fonctionne comme suit. Lors de la première erreur sur le train binaire, le décodeur contient en mémoire la synthèse CELP de la trame précédente. Ainsi sur la figure lb, lorsque la trame 3 (C3 + M3) est erronée, le décodeur utilise la synthèse CELP C2 décodée à la trame précédente. Le remplacement de la trame erronée (C3) est nécessaire pour générer la sortie suivante (04), pour faire cela une technique de dissimulation de trames effacées encore appelée FEC (pour "frame Erasure Concealment" en anglais) est utilisée, comme par exemple décrit dans le document intitulé "Method of packet errors cancellation suitable for any speech and sound compression scheme" de B. KOVESI et D. Massaloux, ISIVC-2004. Ce décalage temporel entre la détection de trame erronée et la nécessité de synthétiser le signal correspondant permet d'utiliser des techniques de transmission d'information de correction d'erreurs pour la trame CELP précédente comme décrit dans "Efficient frame erasure concealment in predictive speech codecs using glotal pulse resynchronisation" T. Vaillancourt et al publié à ICASSP 2007. Dans ce document, une trame valide comporte des informations sur la trame précédente pour améliorer la dissimulation des trames effacées et la resynchronisation entre les trames effacées et les trames valides. -5

Ainsi, sur la figure lb, lors de la réception de la trame 5 (C5 + M5) après la détection de deux trames erronées (trame 3 et 4), le décodeur reçoit dans le train binaire de la trame 5 des informations sur la nature de la trame précédente (par exemple indication de classification, information sur l'enveloppe spectrale). Par information de classification, on entend une information sur le voisement, le non voisement, la présence d'attaques, etc... Ce type d'informations dans le train binaire est par exemple décrit dans le document "Wideband Speech Coding Advances in VMR-WV Standard" de M. Jelinek et R. Salami publié dans IEEE Transactions on audio, speech and language processing Mai 2007. Ainsi, le décodeur synthétise la trame erronée précédente (trame 4) en utilisant une technique de dissimulation de trames effacées qui bénéficie de l'information reçue avec la trame 5, avant de synthétiser le signal CELP C5. D'autre part, des techniques de codage hiérarchique ont été développées pour diminuer le décalage temporel entre les deux étages de codage. Ainsi, il existe des transformées à faible retard qui diminue le décalage temporel à une demi-trame. C'est par exemple le cas de l'utilisation d'une fenêtre appelée "Low-Overlap" présentée dans "Real-Time Implementation of the MPEG-4 Low-Delay Advanced Audio Coding Algorithm (AAC-LD) on Motorola's DSP56300" de J. Hilpert et al publié à la 108ème convention AES en février 2000. Dans ces techniques de transformée à faible retard, il n'est alors plus possible de bénéficier de l'information de la trame courante valide pour générer les échantillons manquants d'une trame effacée comme pour les techniques décrites précédemment, le décalage temporel étant inférieur à une trame. La qualité du signal en cas de trames erronées est donc plus faible. Il existe donc un besoin d'améliorer la qualité de la dissimulation de trames effacées dans un système de décodage hiérarchique à faible retard sans pour autant introduire de retard temporel supplémentaire. La présente invention vient améliorer la situation. - 6

Elle propose à cet effet un procédé de dissimulation d'erreur de transmission dans un signal numérique découpé en une pluralité de trames successives associées à des intervalles temporels différents dans lequel, à la réception, le signal est susceptible de comporter des trames effacées et des trames valides, les trames valides comportant des informations (inf.) relatives à la dissimulation de perte de trame. Le procédé est tel qu'il est mis en oeuvre lors d'un décodage hiérarchique utilisant un décodage coeur et un décodage par transformée utilisant des fenêtres à faible retard introduisant un retard temporel inférieur à une trame par rapport au décodage coeur, et que pour remplacer au moins la dernière trame effacée avant une trame valide, il comporte: - une étape de dissimulation d'un premier ensemble d'échantillons manquants pour la trame effacée, mise en oeuvre dans un premier intervalle temporel; - une étape de dissimulation d'un deuxième ensemble d'échantillons manquants pour la trame effacée prenant en compte des informations de ladite trame valide et mise en oeuvre dans un second intervalle temporel; et - une étape de transition entre le premier ensemble d'échantillons manquants et le deuxième ensemble d'échantillons manquants pour obtenir au moins une partie de la trame manquante. Ainsi, l'utilisation d'informations présentes dans une trame valide pour générer un deuxième ensemble des échantillons manquants d'une trame effacée précédente, permet d'augmenter la qualité du signal audio décodée en adaptant au mieux les échantillons manquants. L'étape de transition entre le premier ensemble d'échantillons manquants et le deuxième ensemble permet d'assurer la continuité dans les échantillons manquants produits.

Cette étape de transition peut être avantageusement une étape d'addition recouvrement. Dans un second mode de réalisation, cette étape de transition peut être assurée par une étape de filtrage de synthèse de prédiction linéaire utilisant pour générer le deuxième ensemble d'échantillons manquants les mémoires de filtre au point de transition, stockées lors de la première étape de dissimulation. -7

Dans ce cas, les mémoires du filtre de synthèse au point de transition sont stockées dans la première étape de dissimulation. Lors de la deuxième étape de dissimulation on détermine l'excitation en fonction des informations reçues. La synthèse est effectuée à partir du point de transition en utilisant d'une part l'excitation obtenue, d'autre part les mémoires du filtre de synthèse stockées. Dans un mode particulier de réalisation le premier ensemble d'échantillons est la totalité des échantillons manquants de la trame effacée et le deuxième ensemble d'échantillons est une partie des échantillons manquants de la trame effacée.

Ainsi, la répartition de la génération des échantillons entre deux intervalles temporels différents et le fait de ne générer qu'une partie des échantillons dans le deuxième intervalle temporel, permet de réduire le pic de complexité qui peut se trouver dans l'intervalle temporel correspondant à la trame valide. En effet, dans cet intervalle temporel, le décodeur doit à la fois générer des échantillons manquants de la trame précédente, effectuer l'étape de transition et décoder la trame valide. C'est donc dans cet intervalle temporel que se situe le pic de complexité du décodage. Les informations présentes dans une trame valide sont par exemple des informations sur la classification du signal et/ou sur l'enveloppe spectrale du signal. L'information de classement du signal permet par exemple à l'étape de dissimulation du deuxième ensemble d'échantillons manquants d'adapter des gains respectifs d'une partie harmonique du signal d'excitation et d'une partie aléatoire du signal d'excitation pour le signal correspondant à la trame effacée. Ces informations assurent donc une meilleure adaptation des échantillons manquants générés par l'étape de dissimulation.

Dans un mode particulier de réalisation, le premier intervalle temporel étant associé à ladite dernière trame effacée et le deuxième intervalle temporel étant associé à la dite trame valide, une étape de préparation de l'étape de dissimulation du deuxième ensemble d'échantillons manquants, ne produisant aucun échantillon manquant, est mise en oeuvre dans le premier intervalle temporel. -8

Ainsi, l'étape de préparation de l'étape de dissimulation du deuxième ensemble d'échantillons manquants s'effectue dans un intervalle temporel différent de celui correspondant au décodage de la trame valide. Ceci permet donc de répartir la charge de calcul de l'étape de dissimulation du deuxième ensemble d'échantillons et ainsi de réduire le pic de complexité dans l'intervalle temporel correspondant à la réception de la première trame valide. Comme présenté ci-dessus, c'est en effet dans cet intervalle temporel correspondant à la trame valide que se situe le pic de complexité ou pire cas de complexité du décodage. La répartition de la complexité ainsi effectuée permet de revoir à la baisse le dimensionnement du processeur d'un dispositif de dissimulation d'erreur de transmission qui est dimensionné en fonction du pire cas de complexité. Dans un mode de réalisation particulier l'étape de préparation comprend une étape de génération d'une partie harmonique du signal d'excitation et une étape de génération d'une partie aléatoire du signal d'excitation pour le signal correspondant à la trame effacée La présente invention vise également un dispositif de dissimulation d'erreur de transmission dans un signal numérique découpé en une pluralité de trames successives associées à des intervalles temporels différents dans lequel, à la réception, le signal est susceptible de comporter des trames effacées et des trames valides, les trames valides comportant des informations (inf.) relatives à la dissimulation de perte de trame. Le dispositif est tel qu'il intervient lors d'un décodage hiérarchique utilisant un décodage coeur et un décodage par transformée utilisant des fenêtres à faible retard introduisant un retard temporel inférieur à une trame par rapport au décodage coeur, et qu'il comprend: - un module de dissimulation apte à générer, dans un premier intervalle temporel, un premier ensemble d'échantillons manquants pour au moins la dernière trame effacée avant une trame valide et apte à générer, dans un second intervalle temporel, un deuxième ensemble d'échantillons manquants pour la trame effacée prenant en compte des informations de ladite trame valide ;et - 9

- un module de transition apte à effectuer une transition entre le premier ensemble d'échantillons manquants et le deuxième ensemble d'échantillons manquants pour obtenir au moins une partie de la trame manquante. Ce dispositif met en oeuvre les étapes du procédé de dissimulation tel que décrit ci-dessus. L'invention vise aussi un décodeur de signal numérique comportant un dispositif de dissimulation d'erreur de transmission selon l'invention. Enfin, l'invention se rapporte à un programme informatique destiné à être stocké dans une mémoire d'un dispositif de dissimulation d'erreur de transmission.

Ce programme informatique est tel qu'il comporte des instructions de code pour la mise en oeuvre des étapes du procédé de dissimulation d'erreur selon l'invention, lorsqu'il est exécuté par un processeur dudit dispositif de dissimulation d'erreur de transmission. Elle se rapporte à un support de stockage, lisible par un ordinateur ou par un processeur, intégré ou non au dispositif, mémorisant un programme informatique tel que décrit ci-dessus. D'autres avantages et caractéristiques de l'invention apparaîtront à l'examen de la description détaillée, donnée à titre d'exemple ci-après, et des dessins annexés sur lesquels : - les figures la et lb illustrent la technique de l'art antérieur de dissimulation de trames erronées dans le contexte de codage hiérarchique; - la figure 2 illustre le procédé de dissimulation selon l'invention dans un premier mode de réalisation; - la figure 3 illustre le procédé de dissimulation selon l'invention dans un second mode de réalisation; - les figures 4a et 4b illustrent la synchronisation de la reconstruction en utilisant le procédé de dissimulation selon l'invention; - la figure 5 illustre un exemple de codeur hiérarchique qui peut être utilisé dans le cadre de l'invention; - la figure 6 illustre un décodeur hiérarchique selon l'invention; -10-

- la figure 7 illustre un dispositif de dissimulation selon l'invention.

En référence à la figure 2, le procédé de dissimulation d'erreur de transmission selon un premier mode de réalisation de l'invention est maintenant décrit. Dans cet exemple, la trame N reçue au décodeur est effacée. Une trame valide N-1 reçue au décodeur, est traitée en 20 par un module de démultiplexage DEMUX, est décodée normalement en 21 par un module de décodage DE-NO. Le signal décodé est ensuite mémorisé dans une mémoire tampon MEM lors d'une étape 22. Au moins une partie de ce signal décodé mémorisé est envoyé à la carte son 30 en sortie du décodeur de la trame N-1, le signal décodé restant dans la mémoire tampon est conservé pour être envoyé à la carte son 30 après décodage de la trame suivante. Ainsi, à la détection de la trame effacée N, on effectue une étape de dissimulation d'un premier ensemble d'échantillons pour cette trame manquante en 23 à l'aide d'un module de dissimulation d'erreurs DE-DISS et en utilisant le signal décodé d'une trame précédente. Le signal ainsi extrapolé est mémorisé en mémoire MEM lors de l'étape 24. Au moins une partie de ce signal extrapolé mémorisé, conjointement avec le signal décodé de la trame N-1 restant mémorisé, est envoyé à la carte son 30 en sortie du décodeur de la trame N. Le signal extrapolé restant dans la mémoire tampon est conservé pour être envoyé à la carte son après décodage de la trame suivante. A la réception de la trame valide N+l, une étape de dissimulation d'un deuxième ensemble d'échantillons manquants pour la trame N effacée est effectuée en 25 par le module de dissimulation d'erreurs DE-MISS. Cette étape utilise des informations présentes dans la trame valide N+l qui sont obtenues lors d'une étape 26 de démultiplexage de la trame N+l par le module de démultiplexage DEMUX. Les informations présentes dans une trame valide comportent des informations sur la trame précédente du train binaire. Ce sont notamment des -11-

informations de classement du signal (signal voisé, non-voisé, transitoire) ou encore des informations sur l'enveloppe spectrale du signal. Ces informations vont permettre d'adapter au mieux l'étape de dissimulation des erreurs en calculant par exemple des gains respectifs pour partie harmonique de l'excitation et la partie aléatoire de l'excitation. Par excitation harmonique, on entend l'excitation calculée à partir de la valeur de pitch (nombre d'échantillons dans une période correspondant à l'inverse de la fréquence fondamentale) du signal de la trame précédente, la partie harmonique du signal d'excitation est donc obtenu par recopie de l'excitation passée aux instants correspondant au retard du pitch. Par excitation aléatoire, on entend le signal d'excitation obtenu à partir d'un générateur de signal aléatoire ou par tirage aléatoire d'un mot de code de l'excitation passée ou dans un dictionnaire. Ainsi, dans le cas où le classement du signal indique une trame voisée, un gain plus important est calculé pour la partie harmonique de l'excitation et dans le cas où le classement du signal indique une trame non-voisée, un gain plus important est calculé pour la partie aléatoire de l'excitation. D'autre part, dans le cas d'une transition entre non voisée vers voisée, la partie de l'excitation harmonique est complètement erronée. Dans ce cas plusieurs trames peuvent être nécessaires avant que le décodeur retrouve une excitation normale et donc une qualité acceptable. Ainsi, une nouvelle version artificielle de l'excitation harmonique peut être utilisée pour permettre au décodeur de retrouver plus rapidement un fonctionnement normal. L'information sur l'enveloppe spectrale peut être une information de stabilité du filtre de prédiction linéaire LPC. Ainsi si cette information indique que le filtre est stable entre la trame précédente et la trame courante (valide), l'étape de dissimulation d'un deuxième ensemble d'échantillons manquants utilise le filtre de prédiction linéaire de la trame valide. Dans le cas contraire, le filtre issu du passé est utilisé. Une étape 29 de transition par un module de transition TRANS est effectuée. Ce module prend en compte le premier ensemble d'échantillons générés à - 12 -

l'étape 23 pas encore joué sur la carte son et le deuxième ensemble d'échantillons générés à l'étape 25 pour obtenir une transition douce entre le premier ensemble et le deuxième ensemble. Dans un mode de réalisation, cette étape de transition est une étape de fondu enchainé ou d'addition-recouvrement qui consiste à diminuer progressivement le poids du signal extrapolé dans le premier ensemble et à augmenter progressivement le poids du signal extrapolé dans le deuxième ensemble pour obtenir les échantillons manquants de la trame effacée. Par exemple, cette étape de fondu enchainé correspond à la multiplication de tous les échantillons du signal extrapolé mémorisé à la trame N avec une fonction de pondération décroissante progressivement de 1 à 0, et l'addition de ce signal pondéré avec les échantillons du signal extrapolé à la trame N+l multiplié avec la fonction de pondération complémentaire de la fonction de pondération du signal mémorisé. Par fonction de pondération complémentaire, on entend la fonction obtenu en effectuant la soustraction de un par la fonction de pondération précédente. Dans une variante de ce mode de réalisation, cette étape de fondu enchainé est effectuée sur une partie seulement (au moins un échantillon) du signal mémorisé. Dans un autre mode de réalisation, cette étape de transition est assurée par le filtrage de synthèse de prédiction linéaire. Dans ce cas, les mémoires du filtre de synthèse au point de transition sont stockées dans la première étape de dissimulation. Lors de la deuxième étape de dissimulation on détermine l'excitation en fonction des informations reçues. La synthèse est effectuée à partir du point de transition en utilisant d'une part l'excitation obtenue, d'autre part les mémoires du filtre de synthèse stockées. Dans le même intervalle temporel, la trame valide est donc démultiplexée en 26, décodée normalement en 27 et le signal décodé est mémorisé en 28 en mémoire tampon MEM. Le signal issu du module de transition TRANS est envoyé conjointement avec le signal décodé de la trame N+l à la carte son 30 en sortie du décodeur de la trame N+1. - 13 -

Le signal reçu par la carte son 30 est destiné à être restitué par des moyens de restitution de type haut-parleur 31. Dans un mode de réalisation du procédé selon l'invention, le premier ensemble d'échantillons et le deuxième ensemble d'échantillons sont l'ensemble des échantillons de la trame manquante. A chaque intervalle temporel, un signal correspondant à la trame effacée est généré, le fondu enchainé s'effectue alors sur la partie des deux signaux correspondants à la deuxième moitié de la trame effacée (une demi-trame) pour obtenir les échantillons de la trame manquante. Ce mode de réalisation a l'avantage d'utiliser plus facilement les structures de dissimulation d'erreur habituelles qui fonctionnent sur une trame entière. Dans une variante de réalisation, dans l'intervalle temporel correspondant à la trame effacée, l'étape de dissimulation génère la totalité des échantillons de la trame manquante (ces échantillons seront nécessaire si la trame suivante est aussi effacée), alors que dans l'intervalle temporel correspondant au décodage de la trame valide, l'étape de dissimulation génère seulement une seconde partie des échantillons, par exemple, la deuxième moitié des échantillons de la trame manquante. L'étape d'addition recouvrement est effectuée pour assurer une transition sur cette deuxième moitié des échantillons de la trame manquante. Dans cette variante de réalisation, le nombre d'échantillons générés pour la trame manquante dans l'intervalle temporel correspondant à la trame valide, est moins important que dans le cas du premier mode de réalisation décrit ci-dessus. La complexité de décodage dans cet intervalle temporel est donc réduite. C'est en effet dans cet intervalle temporel que le pire cas de complexité se situe. En effet, dans cet intervalle temporel, à la fois le décodage de la trame valide s'effectue mais également l'étape de dissimulation du deuxième ensemble d'échantillons. En réduisant le nombre d'échantillons à générer, on réduit le pire cas de complexité et donc le dimensionnement d'un processeur de type DSP (pour "Digital Signal Processor" en anglais). - 14 -

Dans un second mode de réalisation de l'invention, une distribution de la complexité est effectuée permettant de réduire encore plus le pire cas de complexité sans augmenter pour autant la complexité moyenne. Ainsi, en référence à la figure 3, un deuxième mode de réalisation du procédé selon l'invention est illustré dans le cas où la trame N reçue au décodeur est effacée. Dans cet exemple, l'étape de dissimulation du deuxième ensemble d'échantillons est scindée en deux étapes. Une première étape El de préparation ne produisant pas d'échantillons manquants et n'utilisant pas l'information issu de la trame valide, est effectuée dans l'intervalle temporel précédent. Une deuxième étape E2 générant des échantillons manquants et utilisant les informations issues de la trame valide est effectuée dans l'intervalle temporel correspondant à la trame valide. Ainsi, les mêmes opérations que celles décrites en référence à la figure 2, pour la trame N-1 reçue au décodeur, sont effectuées, c'est-à-dire démultiplexage 20, décodage normal 21 et mémorisation 22. Dans l'intervalle temporel correspondant à la trame N effacée, une étape de préparation El référencée 32 est effectuée. Cette étape de préparation est par exemple une étape d'obtention de la partie harmonique de l'excitation utilisant la valeur du retard LTP de la trame précédente, et d'obtention de la partie aléatoire de l'excitation dans une structure de décodage CELP. Cette étape de préparation utilise des paramètres de la trame précédente mémorisée en mémoire MEM. Il n'est pas utile pour cette étape d'utiliser les informations de classement ou les informations sur l'enveloppe spectrale de la trame effacée.

Dans ce même intervalle temporel correspondant à la trame effacée, l'étape de dissimulation 23 du premier ensemble d'échantillons tel que décrit en référence à la figure 2 est également effectuée. Le signal extrapolé qui en est issu est mémorisé en 24 dans la mémoire MEM. Au moins une partie de ce signal extrapolé mémorisé, conjointement avec le signal décodé restant mémorisé de la trame N-1, est envoyée à la carte son 30 en sortie du décodeur de la trame N. Le signal extrapolé restant dans - 15 -

la mémoire tampon est conservé pour être envoyé à la carte son après décodage de la trame suivante. L'étape E2 référencé 33 de dissimulation comprenant l'extrapolation du deuxième ensemble d'échantillons manquants correspondant à la trame N effacée, est réalisée dans l'intervalle temporel correspondant à la trame N+l reçue au décodeur. Cette étape comprend la prise en compte des informations contenue dans la trame valide N+l et qui concernent la trame N. Dans ce mode de réalisation particulier, l'étape de dissimulation correspond alors au calcul des gains associés aux deux parties de l'excitation, et éventuellement à la correction de la phase de l'excitation harmonique. En fonction de l'information de classification reçue dans la première trame valide, les gains respectifs des deux parties de l'excitation sont adaptés. Ainsi, par exemple en fonction de l'information de classification de la dernière trame valide reçue avant les trames effacées et de l'information de classification reçue, l'étape de dissimulation adapte le choix des excitations et les gains associés pour représenter au mieux la classe de la trame. En cela, la qualité du signal généré lors de l'étape de dissimulation est améliorée en bénéficiant de l'information reçue. Par exemple, si l'information est que la trame N est une trame de signal voisé, l'étape E2 privilégie l'excitation harmonique obtenue à l'étape de préparation El plutôt que l'excitation aléatoire et vice versa pour une trame de signal non-voisée. Dans le cas où l'information décrit une trame N transitoire, l'étape E2 va générer des échantillons manquants en fonction de la classification précise du transitoire (voisée vers non-voisée ou non-voisée vers voisée). Une étape 29 d'addition-recouvrement ou de fondu enchainé comme celle décrite en référence à la figure 2 est ensuite effectuée entre le premier ensemble d'échantillons généré à l'étape 23 et le deuxième ensemble d'échantillons généré à l'étape 33. Pendant l'intervalle temporel correspondant à la trame valide N+l, la trame N+l est traitée par le module de démultiplexage DEMUX, est décodée en 27 et mémorisée en 28 comme décrit précédemment en référence à la figure 2. Le signal -16-

extrapolé obtenu par l'étape de fondu enchainé 29 et le signal décodé de la trame N+l sont conjointement envoyés à la carte son 30 en sortie du décodeur de la trame N+1. Les figures 4a et 4b illustrent la mise en oeuvre de ce procédé et la synchronisation entre le décodage de type CELP et le décodage par transformée qui utilise des fenêtres à faible retard représentée ici sous la forme de fenêtres telles que décrites dans la demande de brevet FR 0760258. Dans ce contexte de décodage hiérarchique, la figure 4a illustre le codage hiérarchique des trames CELP CO à C5 et les transformées à faible retard Ml à M5 appliquées à ces trames. Lors de la transmission de ces trames à un décodeur correspondant, les trames C3 et C4 grisées sont effacées. La figure 4b illustre le décodage des trames CO à C5. La ligne 40 illustre le signal reçu au décodeur, la ligne 41 illustre la synthèse CELP dans le premier étage de décodage, la ligne 42 illustre la synthèse totale utilisant la transformée (MDCT) à faible retard. On voit bien que dans cet exemple, le décalage temporel entre les deux étages de décodage est inférieur à une trame, il est représenté ici dans un souci de simplicité à un décalage d'une demi-trame.

Ainsi, pour décoder la trame 01 (ligne 42) du décodeur, une partie de la synthèse CELP de la trame précédente CO et la transformée MO est utilisée ainsi qu'une partie de la synthèse CELP de la trame courante Cl et la transformée M1. Il en est de même pour la trame 02 qui utilise une partie de la synthèse CELP de la trame 1 (Cl) et la transformée Ml et une partie de la synthèse CELP de la trame 2 (C2) et la transformée M2. Lors de la détection de la première trame effacée (C3+M3), le décodeur utilise la synthèse CELP de la trame précédente 2 (C2) pour construire le signal de synthèse total (03). Il est également nécessaire de générer à partir d'un algorithme de dissimulation d'erreur, le signal correspondant à la synthèse CELP de la trame 3 (C3). -17-

Ce signal régénéré est nommé FEC-C3 sur la figure 4b. Le signal de sortie du décodeur 03 est donc composé de la dernière moitié du signal C2 et de la première moitié du signal extrapolé FEC-C3. Lors de la seconde trame erronée C4, une étape de dissimulation pour la trame C4 est effectuée pour générer des échantillons correspondants à la trame manquante C4. On obtient ainsi un premier ensemble d'échantillons noté FEC1-C4 pour la trame manquante C4. Ainsi, la trame 4 de sortie 04 du décodeur est construite en utilisant une partie d'échantillons extrapolés pour C3 (FEC-C3) et une partie du premier ensemble d'échantillons extrapolés pour C4 (FEC1-C4). Lors de la réception de la première trame valide (C5+M5), une étape de dissimulation d'un deuxième ensemble d'échantillons pour la trame C4 est effectuée. Cette étape utilise les informations I5 sur la trame C4 qui sont présentes dans la trame valide C5. Ce second ensemble d'échantillons est référence FEC2-C4.

Une étape de transition entre le premier ensemble d'échantillons FEC1-C4 et le deuxième ensemble d'échantillons FEC2-C4 est effectuée par addition recouvrement ou fondu enchainé pour obtenir les échantillons manquants FEC-C4 de la seconde moitié de la trame effacée C4. La trame 5 de sortie 05 du décodeur est construite en utilisant une partie d'échantillons issus de l'étape de fondu enchainé (FEC-C4) et une partie des échantillons décodés pour la trame valide C5. Dans une variante de ce mode de réalisation, lors de l'étape de dissimulation d'un deuxième ensemble d'échantillons pour la trame C4, seule la deuxième moitié des échantillons manquants FEC2-C4 est généré pour réduire la complexité. L'étape de fondu enchainé est réalisée sur cette deuxième moitié. L'invention a été décrite ici avec un exemple de réalisation où le décodage coeur est un décodage de type CELP. Ce décodage coeur peut être de tout autre type. Par exemple, il peut être remplacé par un décodeur de type ADPCM (comme par exemple le codeur/décodeur normalisé G.722). Dans ce mode de réalisation, à la différence du décodage CELP, la continuité entre deux trames n'est -18-

pas obligatoirement assurée par le filtrage de synthèse de prédiction linéaire (LPC). Ainsi, à la réception de la première trame valide après une ou des trames effacées, le procédé comprend en plus une étape de prolongement du signal d'extrapolation des trames effacées et une étape d'addition recouvrement entre le signal d'au moins une partie de la première trame valide et de ce prolongement du signal d'extrapolation. En référence à la figure 5, un exemple de codeur hiérarchique avec un étage de codage par transformée est décrit. Le signal d'entrée S du codeur est filtré par un filtre passe-haut HP 50. Dans un premier étage de codage ce signal filtré est sous-échantillonné par le module 51 à la fréquence du codeur ACELP (pour "Algebraic Code Excited Linear Prediction" en anglais) pour ensuite être codé par une méthode de codage ACELP. Le signal issu de cet étage de codage est ensuite multiplexé dans le module de multiplexage 56. Une information concernant la trame précédente (inf.) est également envoyé au module de multiplexage pour former le train binaire T.

Le signal issu du codage ACELP est également sur-échantillonné à une fréquence d'échantillonnage correspondant au signal d'origine, par le module 53. Ce signal sur-échantillonné est soustrait du signal filtré en 54 pour entrer dans un second étage de codage où une transformée MDCT est effectuée dans le module 55. Le signal est ensuite quantifié dans le module 57 et est multiplexé par le module de multiplexage MUX pour former le train binaire T. En référence à la figure 6, un décodeur selon l'invention est décrit. Celui-ci comporte un module de démultiplexage 60 apte à traiter le train binaire T entrant. Un premier étage de décodage ACELP 61 est effectué. Le signal ainsi décodé est sur-échantillonné par le module 62 à la fréquence du signal. Il est ensuite traité par un module de transformée MDCT 63. La transformée utilisée ici est une transformée faible retard tel que décrit dans le document "Low-Overlap" présentée dans "Real-Time Implementation of the MPEG-4 Low-Delay Advanced Audio Coding Algorithm (AAC-LD) on Motorola's DSP56300" de J. Hilpert et al publié à la 108ème convention AES en février 2000 ou encore tel que décrit dans la demande de brevet FR 07 60258. -19-

Le décalage temporel entre le premier étage de décodage ACELP et celui de la transformée est donc d'une demi trame. A la sortie du module de démultiplexage, le signal est, dans un deuxième étage de décodage, déquantifié dans le module 68 et additionné en 67 au signal issu de la transformée. Une transformée inverse est ensuite appliqué en 64. Le signal qui en est issu est ensuite post-traité (PF) 65 en utilisant le signal issu du module 62 puis filtré en 66 par un filtre passe-haut qui fournit le signal de sortie SS du décodeur. Le décodeur comporte un dispositif 70 de dissimulation d'erreur de transmission qui reçoit du module de démultiplexage une information de trame effacée bfi. Ce dispositif comporte un module de dissimulation 71 qui selon l'invention reçoit lors du décodage d'une trame valide, des informations inf. relative à la dissimulation de perte de trame. Ce module effectue dans un premier intervalle temporel la dissimulation d'un premier ensemble d'échantillons d'une trame effacée puis dans un intervalle temporel correspondant au décodage d'une trame valide, il effectue la dissimulation d'un second ensemble d'échantillons de la trame effacée. Le dispositif 70 comporte également un module 72 TRANS de transition apte à effectuer une transition entre le premier ensemble d'échantillons et le deuxième ensemble d'échantillons pour fournir au moins une partie des échantillons de la trame effacée. Le signal de sortie du coeur du décodeur hiérarchique est soit le signal issu du décodeur ACELP 61, soit le signal issu du module de dissimulation 70. La continuité entre les deux signaux est assurée par le fait qu'ils partagent les mémoires de synthèse du filtre de prédiction linéaire LPC.

Le dispositif 70 de dissimulation d'erreur de transmission selon l'invention est par exemple tel qu'illustré en figure 7. Matériellement, ce dispositif au sens de l'invention comporte typiquement, un processeur P coopérant avec un bloc mémoire BM incluant une mémoire de stockage et/ou de travail, ainsi qu'une mémoire tampon MEM précitée en tant que moyen pour mémoriser les trames décodées et envoyées avec un décalage temporel. Ce dispositif reçoit en entrée des trames successives du -20-

signal numérique Se et délivre le signal synthétisé Ss comportant les échantillons d'une trame effacée. Le bloc mémoire BM peut comporter un programme informatique comportant les instructions de code pour la mise en oeuvre des étapes du procédé selon l'invention lorsque ces instructions sont exécutées par un processeur P du dispositif et notamment une étape de dissimulation d'un premier ensemble d'échantillons manquants pour la trame effacée, mise en oeuvre dans un premier intervalle temporel, une étape de dissimulation d'un deuxième ensemble d'échantillons manquants pour la trame effacée prenant en compte des informations de ladite trame valide et mise en oeuvre dans un second intervalle temporel; et une étape d'addition recouvrement entre le premier ensemble d'échantillons manquants et le deuxième ensemble d'échantillons manquants pour obtenir (au moins une partie de?) la trame manquante. Les figures 2 et 3 peuvent illustrer l'algorithme d'un tel programme informatique. Ce dispositif de dissimulation selon l'invention peut être indépendant ou intégré dans un décodeur de signal numérique.

Claims

REVENDICATIONS1. Procédé de dissimulation d'erreur de transmission dans un signal numérique découpé en une pluralité de trames successives associées à des intervalles temporels différents dans lequel, à la réception, le signal est susceptible de comporter des trames effacées et des trames valides, les trames valides comportant des informations (inf.) relatives à la dissimulation de perte de trame, le procédé est caractérisé en ce qu'il est mis en oeuvre lors d'un décodage hiérarchique utilisant un décodage coeur et un décodage par transformée utilisant des fenêtres à faible retard introduisant un retard temporel inférieur à une trame par rapport au décodage coeur, et en ce que pour remplacer au moins la dernière trame effacée avant une trame valide, il comporte: - une étape (23) de dissimulation d'un premier ensemble d'échantillons manquants pour la trame effacée, mise en oeuvre dans un premier intervalle temporel; - une étape (25) de dissimulation d'un deuxième ensemble d'échantillons manquants pour la trame effacée prenant en compte des informations de ladite trame valide et mise en oeuvre dans un second intervalle temporel; et - une étape (29) de transition entre le premier ensemble d'échantillons manquants et le deuxième ensemble d'échantillons manquants pour obtenir au moins une partie de la trame manquante.
2. Procédé selon la revendication 1, caractérisé en ce que l'étape de transition entre le premier ensemble d'échantillons manquants et le deuxième ensemble d'échantillons manquants est assurée par une étape d'addition recouvrement.
3. Procédé selon la revendication 1, caractérisé en ce que l'étape de transition entre le premier ensemble d'échantillons manquants et le deuxième ensemble d'échantillons manquants est assurée par une étape de filtrage de synthèse de prédiction linéaire utilisant pour générer le deuxième ensemble d'échantillons manquants les mémoires de filtre au point de transition, stockées lors de la première étape de dissimulation.- 22 -
4. Procédé selon la revendication 1, caractérisé en ce que le premier ensemble d'échantillons est la totalité des échantillons manquants de la trame effacée et le deuxième ensemble d'échantillons est une partie des échantillons manquants de la trame effacée.
5. Procédé selon la revendication 1, caractérisé en ce que les informations d'une trame valide relatives à la dissimulation de perte de trame sont des informations sur la classification du signal et/ou sur l'enveloppe spectrale du signal.
6. Procédé selon la revendication 1, caractérisé en ce que l'étape de dissimulation du deuxième ensemble d'échantillons manquants utilise une information de classement du signal pour adapter des gains respectifs d'une partie harmonique du signal d'excitation et d'une partie aléatoire du signal d'excitation pour le signal correspondant à la trame effacée.
7. Procédé selon la revendication 1, caractérisé en ce que le premier intervalle temporel étant associé à ladite dernière trame effacée et le deuxième intervalle temporel étant associé à la dite trame valide, une étape de préparation de l'étape de dissimulation du deuxième ensemble d'échantillons manquants, ne produisant aucun échantillon manquant, est mise en oeuvre dans le premier intervalle temporel.
8. Procédé selon la revendication 7, caractérisé en ce que l'étape de préparation comprend une étape de génération d'une partie harmonique du signal d'excitation et une étape de génération d'une partie aléatoire du signal d'excitation pour le signal correspondant à la trame effacée
9. Dispositif de dissimulation d'erreur de transmission dans un signal numérique découpé en une pluralité de trames successives associées à des intervalles temporels différents dans lequel, à la réception, le signal est susceptible de comporter des trames effacées et des trames valides, les trames valides comportant des informations (inf.) relatives à la dissimulation de perte de trame, le dispositif est caractérisé en ce qu'il intervient lors d'un décodage hiérarchique utilisant un décodage coeur et un décodage par transformée utilisant des fenêtres à faible retard- 23 - introduisant un retard temporel inférieur à une trame par rapport au décodage coeur, et en ce qu'il comprend: - un module de dissimulation (DE-DISS) apte à générer, dans un premier intervalle temporel, un premier ensemble d'échantillons manquants pour au moins la dernière trame effacée avant une trame valide et apte à générer, dans un second intervalle temporel, un deuxième ensemble d'échantillons manquants pour la trame effacée prenant en compte des informations de ladite trame valide ;et - un module (TRANS) de transition apte à effectuer une transition entre le premier ensemble d'échantillons manquants et le deuxième ensemble d'échantillons manquants pour obtenir au moins une partie de la trame manquante.
10. Décodeur de signal numérique caractérisé en ce qu'il comporte un dispositif de dissimulation d'erreur de transmission selon la revendication 9.
11. Programme informatique destiné à être stocké dans une mémoire d'un dispositif de dissimulation d'erreur de transmission, caractérisé en ce qu'il comporte des instructions de code pour la mise en oeuvre des étapes du procédé selon l'une des revendications 1 à 8, lorsqu'il est exécuté par un processeur dudit dispositif de dissimulation d'erreur de transmission. 25