FR2813722A1 - Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif - Google Patents
Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif Download PDFInfo
- Publication number
- FR2813722A1 FR2813722A1 FR0011285A FR0011285A FR2813722A1 FR 2813722 A1 FR2813722 A1 FR 2813722A1 FR 0011285 A FR0011285 A FR 0011285A FR 0011285 A FR0011285 A FR 0011285A FR 2813722 A1 FR2813722 A1 FR 2813722A1
- Authority
- FR
- France
- Prior art keywords
- signal
- samples
- synthesis
- valid
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000005540 biological transmission Effects 0.000 title claims abstract description 35
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 49
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 49
- 230000007774 longterm Effects 0.000 claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 230000005284 excitation Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000007423 decrease Effects 0.000 claims description 11
- 230000006978 adaptation Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000036961 partial effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 2
- 238000001356 surgical procedure Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 17
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 13
- 239000000523 sample Substances 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 241001237745 Salamis Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 235000015175 salami Nutrition 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101150071146 COX2 gene Proteins 0.000 description 1
- 101100114534 Caenorhabditis elegans ctc-2 gene Proteins 0.000 description 1
- 235000018084 Garcinia livingstonei Nutrition 0.000 description 1
- 240000007471 Garcinia livingstonei Species 0.000 description 1
- 102100023849 Glycophorin-C Human genes 0.000 description 1
- 101100229307 Homo sapiens GYPC gene Proteins 0.000 description 1
- 101150000187 PTGS2 gene Proteins 0.000 description 1
- 102100038280 Prostaglandin G/H synthase 2 Human genes 0.000 description 1
- 108050003267 Prostaglandin G/H synthase 2 Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- AYEKOFBPNLCAJY-UHFFFAOYSA-O thiamine pyrophosphate Chemical compound CC1=C(CCOP(O)(=O)OP(O)(O)=O)SC=[N+]1CC1=CN=C(C)N=C1N AYEKOFBPNLCAJY-UHFFFAOYSA-O 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Mobile Radio Communication Systems (AREA)
- Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
Abstract
Procédé de dissimulation d'erreur de transmission dans un signal audio-numérique selon lequel on reçoit un signal décodé après transmission, on mémorise les échantillons décodés lorsque les données transmises sont valides, on estime au moins un opérateur de prédiction à court terme et un opérateur de prédiction à long terme en fonction des échantillons valides mémorisés et on génère d'éventuels échantillons manquants ou erronés dans le signal décodé à l'aide des opérateurs ainsi estimés, caractérisé en ce qu'on contrôle l'énergie du signal de synthèse ainsi généré à l'aide d'un gain calculé et adapté échantillon par échantillon.
Description
<Desc/Clms Page number 1>
PROCEDE ET DISPOSITIF DE DISSIMULATION D'ERREURS
ET SYSTEME DE TRANSMISSION COMPORTANT UN TEL
DISPOSITIF 1. DOMAINE TECHNIQUE La présente invention concerne les techniques de dissimulation d'erreurs de transmission consécutives dans des systèmes de transmission utilisant n'importe quel type de codage numérique du signal de la parole et/ou du son.
ET SYSTEME DE TRANSMISSION COMPORTANT UN TEL
DISPOSITIF 1. DOMAINE TECHNIQUE La présente invention concerne les techniques de dissimulation d'erreurs de transmission consécutives dans des systèmes de transmission utilisant n'importe quel type de codage numérique du signal de la parole et/ou du son.
On distingue classiquement deux grandes catégories de codeurs : - les codeurs dits temporels, qui effectuent la compression des échantillons de signal numérisé échantillon par échantillon (cas des codeurs MIC ou MICDA [DAUMER][MAITRE] par exemple) - et les codeurs paramétriques qui analysent des trames successives d'échantillons du signal à coder pour extraire, à chacune de ces trames, un certain nombre de paramètres qui sont ensuite codés et transmis (cas des vocodeurs [TREMAIN], des codeurs IMBE [HARDWICK], ou des codeurs par transformée [BRANDENBURG]).
Il existe des catégories intermédiaires qui complètent le codage des paramètres représentatifs des codeurs paramétriques par le codage d'une forme d'onde temporelle résiduelle. Pour simplifier, ces codeurs peuvent être rangés dans la catégorie des codeurs paramétriques.
<Desc/Clms Page number 2>
Dans cette catégorie on trouve les codeurs prédictifs et notamment la famille des codeurs à analyse par synthèse tels le RPE-LTP ([HELLWIG]) ou les CELP ([ATAL]).
Pour tous ces codeurs, les valeurs codées sont ensuite transformées en un train binaire qui sera transmis sur un canal de transmission. Selon la qualité de ce canal et le type de transport, des perturbations peuvent affecter le signal transmis et produire des erreurs sur le train binaire reçu par le décodeur. Ces erreurs peuvent intervenir de manière isolée dans le train binaire mais se produisent très fréquemment par rafales. C'est alors un paquet de bits correspondant à une portion complète de signal qui est erroné ou non reçu. Ce type de problèmes se rencontre par exemple pour les transmissions sur les réseaux mobiles. Il se rencontre aussi dans les transmissions sur les réseaux par paquets et en particulier sur les réseaux de type internet.
Lorsque le système de transmission ou les modules chargés de la réception permettent de détecter que les données reçues sont fortement erronées (par exemple sur les réseaux mobiles), ou qu'un bloc de données n'a pas été reçu (cas de systèmes à transmission par paquets par exemple), des procédures de dissimulation des erreurs sont alors mises en oeuvre. Ces procédures permettent d'extrapoler au décodeur les échantillons du signal manquant à partir des signaux et données disponibles issus des trames précédant et éventuellement suivant les zones effacées.
<Desc/Clms Page number 3>
De telles techniques ont été mises en oeuvre principalement dans le cas des codeurs paramétriques (techniques de récupération des trames effacées). Elles permettent de limiter fortement la dégradation subjective du signal perçue au décodeur en présence de trames effacées. La plupart des algorithmes développés reposent sur la technique utilisée pour le codeur et le décodeur, et constituent en fait une extension du décodeur.
Un but général de l'invention est d'améliorer, pour tout système de compression de la parole et du son, la qualité subjective du signal de parole restitué au décodeur lorsque, à cause d'une mauvaise qualité du canal de transmission ou par suite de la perte ou non réception d'un paquet dans un système à transmission par paquets, un ensemble de données codées consécutives ont été perdues.
Elle propose à cet effet une technique permettant de dissimuler les erreurs de transmission successives (paquets d'erreur) quelle que soit la technique de codage utilisée, la technique proposée pouvant être utilisée par exemple dans le cas des codeurs temporels dont la structure se prête moins bien a priori à la dissimulation des paquets d'erreurs.
2. ETAT DE LA TECHNIQUE ANTERIEURE La plupart des algorithmes de codage de type prédictif proposent des techniques de récupération de trames effacées ([GSM-FR], [REC G.723.1A], [SALAMI], [HONKANEN], [COX-2] , [CHEN-2], [CHEN-3], [CHEN-4], [CHEN-5], [CHEN-
<Desc/Clms Page number 4>
6], [CHEN-7], [KROON-2], [WATKINS]). Le décodeur est informé de l'occurrence d'une trame effacée d'une manière ou d'une autre, par exemple dans le cas des systèmes radiomobiles par la transmission de l'information d'effacement de trame provenant du décodeur canal. Les dispositifs de récupération de trames effacées ont pour objectif d'extrapoler les paramètres de la trame effacée à partir de la (ou des) dernières trames précédentes considérées comme valides. Certains paramètres manipulés ou codés par les codeurs prédictifs présentent une forte corrélation inter-trames (cas des paramètres de prédiction à court terme, encore dénommés "LPC" de "Linear Prédictive Coding" (voir [RABINER]) qui représentent l'enveloppe spectrale, et des paramètres de prédiction à long terme pour les sons voisés, par exemple). Du fait de cette corrélation, il est beaucoup plus avantageux de réutiliser les paramètres de la dernière trame valide pour synthétiser la trame effacée que d'utiliser des paramètres erronés ou aléatoires.
Pour l'algorithme de codage CELP(de "Code Excited Linear Prédiction", se reporter à [RABINER] ), les paramètres de la trame effacée sont classiquement obtenus de la manière suivante : - le filtre LPC est obtenu à partir des paramètres LPC de la dernière trame valide soit par recopie des paramètres ou avec introduction d'un certain amortissement (cf. codeur G723. 1 [REC G.723.1A]).
- on détecte le voisement pour déterminer le degré d'harmonicité du signal au niveau de la trame effacée
<Desc/Clms Page number 5>
([SALAMI], cette détection se intervenant de la façon suivante : # dans le cas d'un signal non voisé : un signal d'excitation est généré de manière aléatoire (tirage d'un mot de code et gain de l'excitation passée légèrement amorti [SALAMI], sélection aléatoire dans l'excitation passée [CHEN], usage des codes transmis éventuellement totalement erronés [HONKANEN],...) # dans le cas d'un signal voisé : le délai LTP est généralement le délai calculé à la trame précédente, éventuellement avec une légère "gigue" ([SALAMI]), le gain LTP étant pris très voisin de 1 ou égal à 1. Le signal d'excitation est limité à la prédiction à long terme effectuée à partir de l'excitation passée.
Dans tous les exemples cités précédemment, les procédures de dissimulation des trames effacées sont fortement liées au décodeur et utilisent des modules de ce décodeur, comme le module de synthèse du signal. Ils utilisent aussi des signaux intermédiaires disponibles au sein de ce décodeur comme le signal d'excitation passé et mémorisé lors du traitement des trames valides précédant les trames effacées.
La plupart des méthodes utilisées pour dissimuler les erreurs produites par des paquets perdus lors du transport de données codées par des codeurs de type temporel font appel à des techniques de substitution de formes d'ondes telles celles présentées dans [GOODMAN], [ERDOL], [AT&T]. Les méthodes de ce type reconstituent le
<Desc/Clms Page number 6>
signal en sélectionnant des portions du signal décodé avant la période perdue et ne font pas appel à des modèles de synthèse. Des techniques de lissage sont également mises en oeuvre pour éviter les artefacts produits par la concaténation des différents signaux.
Pour les codeurs par transformée, les techniques de reconstruction des trames effacées s'appuient également sur la structure de codage utilisée : les algorithmes, tels [PICTEL, MAHIEUX-2], visent à régénérer les coefficients transformés perdus à partir des valeurs prises par ces coefficients avant l'effacement.
La méthode décrite dans [PARIKH] peut s'appliquer à tout type de signaux ; repose sur la construction d'un modèle sinusoïdal à partir du signal valide décodé précédant l'effacement, pour régénérer la partie du signal perdue.
Enfin, il existe une famille de techniques de dissimulation des trames effacées développées conjointement avec le codage canal. Ces méthodes, telle celle décrite dans [FINGSCHEIDT], se servent d'informations fournies par le décodeur canal, par exemple d'informations concernant le degré de fiabilité des paramètres reçus. Elles sont fondamentalement différentes de la présente invention qui ne présuppose pas l'existence d'un codeur canal.
Un art antérieur qui peut être considéré comme le plus proche de la présente invention est celui qui est décrit
<Desc/Clms Page number 7>
dans [COMBESCURE], qui proposait une méthode de dissimulation des trames effacées équivalente à celle utilisée dans les codeurs CELP pour un codeur par transformée. Les inconvénients de la méthode proposée étaient l'introduction de distorsions spectrales audibles (voix "synthétique", résonances parasites,...), dus notamment à l'usage de filtres de synthèse à long terme mal contrôlés (composante harmonique unique en sons voisés, génération du signal d'excitation limitée à l'usage de portions du signal résiduel passé). En outre, le contrôle d'énergie s'effectuait dans [COMBESCURE] au niveau du signal d'excitation, la cible énergétique de ce signal était maintenue constante pendante toute la durée de l'effacement, ce qui engendrait également des artefacts gênants.
3. PRESENTATION DE L'INVENTION L'invention permet quant à elle la dissimulation des trames effacées sans distorsion marquée à des taux d'erreurs plus élevés et/ou pour des intervalles effacés plus longs.
Elle propose notamment un procédé de dissimulation d'erreur de transmission dans un signal audio-numérique selon lequel on reçoit un signal décodé après transmission, on mémorise les échantillons décodés lorsque les données transmises sont valides, on estime au moins un opérateur de prédiction à court terme et au moins un opérateur de prédiction à long terme en fonction des échantillons valides mémorisés et on génère
<Desc/Clms Page number 8>
d'éventuels échantillons manquants ou erronés dans le signal décodé à l'aide des opérateurs ainsi estimés.
Selon un premier aspect particulièrement avantageux de l'invention, on contrôle l'énergie du signal de synthèse ainsi généré à l'aide d'un gain calculé et adapté échantillon par échantillon.
Ceci contribue en particulier à améliorer les performances de la technique sur des zones d'effacement d'une durée plus longue.
Notamment, le gain pour le contrôle du signal de synthèse est avantageusement calculé en fonction d'au moins un des paramètres suivants : valeurs d'énergie préalablement mémorisées pour les échantillons correspondant à des données valides, période fondamentale pour les sons voisés, ou tout paramètre caractérisant le spectre de fréquences.
De façon avantageuse également, le gain appliqué au signal de synthèse décroît progressivement en fonction de la durée pendant laquelle les échantillons de synthèse sont générés.
De façon préférée également, on discrimine dans les données valides les sons stationnaires et les sons non stationnaires et on met en oeuvre des lois d'adaptation de ce gain (vitesse de décroissante, par exemple), différentes d'une part pour les échantillons générés à la suite de données valides correspondant à des sons stationnaires et d'autre part pour les échantillons
<Desc/Clms Page number 9>
générés à la suite de données valides correspondants à des sons non stationnaires.
Selon un autre aspect indépendant de l'invention, on met à jour en fonction des échantillons de synthèse générés le contenu des mémoires utilisées pour le traitement de décodage.
De cette façon, d'une part on limite l'éventuelle désynchronisation du codeur et du décodeur (voir paragraphe 5. 1.4 ci-après), et on évite les brusques discontinuités entre la zone effacée reconstruite selon l'invention et les échantillons suivant cette zone.
Notamment, on met en oeuvre au moins partiellement sur les échantillons synthétisés un codage analogue à celui mis en #uvre à l'émetteur suivi éventuellement d'une opération (éventuellement partielle) de décodage, les données obtenues servant à régénérer les mémoires du décodeur.
En particulier, cette opération de codagedécodage éventuellement partielle peut être avantageusement utilisée pour régénérer la première trame effacée car elle permet d'exploiter le contenu des mémoires du décodeur avant la coupure, lorsque ces mémoires contiennent des informations non fournies par les derniers échantillons valides décodés (par exemple dans le cas des codeurs par transformée à additionrecouvrement, voir paragraphe 5. 2.2.2.1 point 10).
<Desc/Clms Page number 10>
Selon un aspect encore différent de l'invention, on génère en entrée de l'opérateur de prédiction à court terme un signal d'excitation qui, en zone voisée, est la somme d'une composante harmonique et d'une composante faiblement harmonique ou non harmonique, et en zone voisée limité à la composante non harmonique.
Notamment, la composante harmonique est avantageusement obtenue en mettant en oeuvre un filtrage au moyen de l'opérateur de prédiction à long terme appliqué sur un signal résiduel calculé en mettant en oeuvre un filtrage à court terme inverse sur les échantillons mémorisés.
L'autre composante peut être déterminée l'aide d'un opérateur de prédiction à long terme auquel on applique des perturbations (par exemple perturbation du gain, ou de la période), pseudo-aléatoires.
De façon particulièrement préférée, pour la génération d'un signal d'excitation voisé, la composante harmonique représente les basses fréquences du spectre, tandis que l'autre composante la partie haute fréquence.
Selon un autre aspect encore, l'opérateur de prédiction à long terme est déterminé à partir des échantillons de trames valides mémorisés, avec un nombre d'échantillons utilisés pour cette estimation variant entre une valeur minimale et une valeur égale à au moins deux fois la période fondamentale estimée pour le son voisé.
<Desc/Clms Page number 11>
Par ailleurs, le signal résiduel est avantageusement modifié par des traitements de type non linéaire pour éliminer des pics d'amplitude.
Egalement, selon un autre aspect avantageux, on détecte l'activité vocale en estimant des paramètres de bruit lorsque le signal est considéré comme non actif, et on fait tendre des paramètres du signal synthétisé vers ceux du bruit estimé.
De façon préférentielle encore, on estime l'enveloppe spectrale du bruit des échantillons décodés valides et on génère un signal synthétisé évoluant vers un signal possédant la même enveloppe spectrale.
L'invention propose également un procédé de traitement de signaux de sons, caractérisé en ce qu'on met en #uvre une discrimination entre la parole et les sons musicaux et lorsqu'on détecte des sons musicaux, on met en #uvre un procédé du type précité sans estimation d'un opérateur de prédiction à long terme, le signal d'excitation étant limité à une composante non harmonique obtenue par exemple en générant un bruit blanc uniforme.
L'invention concerne en outre un dispositif de dissimulation d'erreur de transmission dans un signal audio-numérique qui reçoit en entrée un signal décodé que lui transmet un décodeur et qui génère des échantillons manquants ou erronés dans ce signal décodé, caractérisé
<Desc/Clms Page number 12>
en ce qu'il comporte des moyens de traitement aptes à mettre en oeuvre le procédé précité.
Elle concerne également un système de transmission comportant au moins un codeur, au moins un canal de transmission, un module apte à détecter que des données transmises ont été perdues ou sont fortement erronées, au moins un décodeur et un dispositif de dissimulation d'erreurs qui reçoit le signal décodé, caractérisé en ce que ce dispositif de dissimulation d'erreurs est un dispositif du type précité.
4. PRESENTATION DES FIGURES D'autres caractéristiques et avantages de l'invention ressortiront encore de la description qui suit, laquelle est purement illustrative et non limitative et doit être lue en regard des dessins annexés sur lesquels : - la figure 1 est un schéma synoptique illustrant un système de transmission conforme à un mode de réalisation possible de l'invention ; - la figure 2 et la figure 3 sont des schémas synoptiques illustrant une mise en oeuvre conforme à un mode possible de l'invention ; - les figures 4 à 6 illustrent schématiquement les fenêtres utilisées avec le procédé de dissimulation
<Desc/Clms Page number 13>
d'erreurs conforme à un mode de mise en oeuvre possible de l'invention ; - les figures 7 et 8 sont des représentations schématiques illustrant un mode de mise en #uvre possible de l'invention dans le cas de signaux musicaux.
5. DESCRIPTION D'UN OU PLUSIEURS MODES DE REALISATIONS POSSIBLES DE L'INVENTION 5.1 Principe d'un mode de réalisation possible La figure 1 présente un dispositif de codage et décodage du signal audio numérique, comprenant un codeur 1, un canal de transmission 2, un module 3 permettant de détecter que des données transmises ont été perdues ou sont fortement erronées, un décodeur 4, et un module 5 de dissimulation des erreurs ou paquets perdus conforme à un mode de réalisation possible de l'invention.
On notera que ce module 5, outre l'indication de données effacées, reçoit le signal décodé en période valide et transmet au décodeur des signaux utilisés pour sa mise à jour.
Plus précisément, le traitement mis en oeuvre par le module 5 repose sur : 1. la mémorisation des échantillons décodés lorsque les données transmises sont valides (traitement 6);
<Desc/Clms Page number 14>
2. durant un bloc de données effacées, la synthèse des échantillons correspondant aux données perdues (traitement 7) ; 3. lorsque la transmission est rétablie, le lissage entre les échantillons de synthèse produits pendant la période effacée et les échantillons décodés (traitement 8); 4. la mise à jour des mémoires du décodeur (traitement 9) (mise à jour qui s'effectue soit pendant la génération des échantillons effacés, soit au moment du rétablissement de la transmission).
5.1.1 En période valide Après décodage des données valides, on met à jour la mémoire des échantillons décodés, contenant un nombre d'échantillons suffisant pour la régénération des éventuelles périodes effacées dans la suite. Typiquement, on mémorise de l'ordre de 20 à 40 ms de signal. On calcule également l'énergie des trames valides et on retient en mémoire les énergies correspondant aux dernières trames valides traitées (typiquement de l'ordre de 5 s).
5.1.2 Pendant un bloc de données effacées.
On effectue les opérations suivantes, illustrées par la figure 3 : 1. Estimation de l'enveloppe spectrale courante : On calcule cette enveloppe spectrale sous la forme d'un filtre LPC [RABINER] [KLEIJN]. L'analyse est effectuée par
<Desc/Clms Page number 15>
des méthodes classiques ([KLEIJN]) après fenêtrage des échantillons mémorisés en période valide. Notamment, on met en oeuvre une analyse LPC (étape 10) pour obtenir les paramètres d'un filtre A(z), dont l'inverse est utilisé pour le filtrage LPC (étape 11) . Comme les coefficients ainsi calculés n'ont pas à être transmis, on peut utiliser pour cette analyse un ordre élevé, ce qui permet d'obtenir de bonnes performances sur les signaux musicaux.
2. Détection des sons voisés et calcul des paramètres LTP : Une méthode de détection des sons voisés (traitement 12 de la figure 3 : détection V/NV, pour "voisé/non voisé") est utilisée sur les dernières données mémorisées. Par exemple on peut utiliser pour cela la corrélation normalisée ([KLEIJN]), ou le critère présenté dans l'exemple de réalisation qui suit.
Lorsque le signal est déclaré voisé, on calcule les paramètres permettant la génération d'un filtre de synthèse à long terme, encore dénommé filtre LTP ([KLEIJN]) (figure 3 : analyse LTP, on définit par B(Z) le filtre inverse LTP calculé). Un tel filtre est généralement représenté par une période correspondant à la période fondamentale et un gain. La précision de ce filtre peut être améliorée par l'usage de pitch fractionnaire ou d'une structure multi-coefficients [KROON].
<Desc/Clms Page number 16>
Lorsque le signal est déclaré non voisé, une valeur particulière est attribuée au filtre de synthèse LTP (voir paragraphe 4).
Il est particulièrement intéressant dans cette estimation du filtre de synthèse LTP de restreindre la zone analysée à la fin de la période précédant l'effacement. La longueur de la fenêtre d'analyse varie entre une valeur minimale et une valeur liée à la période fondamentale du signal.
3. Calcul d'un signal résiduel : On calcule un signal résiduel par filtrage inverse LPC (traitement 10) des derniers échantillons mémorisés. Ce signal est ensuite utilisé pour générer un signal d'excitation du filtre de synthèse LPC 11 (voir cidessous).
4. Synthèse des échantillons manquants : La synthèse des échantillons de remplacement s'effectue en introduisant un signal d'excitation (calculé en 13 à partir du signal en sortie du filtre LPC inverse) dans le filtre de synthèse LPC 11 (1/A(z)) calculé en 1. Ce signal d'excitation est engendré de deux façons différentes suivant que le signal est voisé ou non voisé : 4. 1 En zone voisée : Le signal d'excitation est la somme de deux signaux , une
<Desc/Clms Page number 17>
composante fortement harmonique et l'autre moins harmonique ou pas du tout.
La composante fortement harmonique est obtenue par filtrage LTP (module de traitement 14) à l'aide des paramètres calculés en 2, du signal résiduel mentionné en 3.
La seconde composante peut être obtenue également par filtrage LTP mais rendu non périodique par des modifications aléatoires des paramètres, par génération d'un signal pseudo-aléatoire.
Il est particulièrement intéressant de limiter la bande passante de la première composante aux basses fréquences du spectre. De même il sera intéressant de limiter aux plus hautes fréquences la seconde composante.
4. 2 En zone non voisée : Lorsque le signal est non voisé, un signal d'excitation non harmonique est engendré. Il est intéressant d'utiliser une méthode de génération similaire à celle utilisée pour les sons voisés, avec des variations de paramètres (période, gain, signes) permettant de la rendre non harmonique.
4. 3 Contrôle de l'amplitude du signal résiduel : Lorsque le signal est non voisé, ou faiblement voisé, le signal résiduel utilisé pour la génération de
<Desc/Clms Page number 18>
l'excitation est traité pour éliminer les pics d'amplitude significativement au dessus de la moyenne.
5. Contrôle de l'énergie du signal de synthèse L'énergie du signal de synthèse est contrôlée à l'aide d'un gain calculé et adapté échantillon par échantillon. Dans le cas où la période d'effacement est relativement longue, il est nécessaire de faire baisser progressivement l'énergie du signal de synthèse. La loi d'adaptation du gain est calculée en fonction de différents paramètres : valeurs d'énergies mémorisées avant l'effacement (voir en 1), période fondamentale, et stationnarité locale du signal au moment de la coupure.
Si le système comprend un module permettant la discrimination des sons stationnaires (comme la musique) et non stationnaires (comme la parole), des lois d'adaptation différentes peuvent aussi être utilisées.
Dans le cas de codeurs par transformée avec additionrecouvrement, la première moitié de la mémoire de la dernière trame correctement reçue contient des informations assez précises sur la première moitié de la première trame perdue (son poids dans l'additionrecouvrement est plus important que celui de la trame actuelle). Cette information peut être également utilisée pour le calcul du gain adaptatif.
6. Evolution de la procédure de synthèse au cours du temps :
<Desc/Clms Page number 19>
Dans le cas de période d'effacement relativement longues, on peut également faire évoluer les paramètres de synthèse. Si le système est couplé à un dispositif de détection d'activité vocale avec estimation des paramètres du bruit (tel [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), il est particulièrement intéressant de faire tendre les paramètres de génération du signal à reconstruire vers ceux du bruit estimé: en particulier au niveau de l'enveloppe spectrale (interpolation du filtre LPC avec celui du bruit estimé, les coefficients de l'interpolation évoluant au cours du temps jusqu'à obtention du filtre du bruit) et de l'énergie (niveau évoluant progressivement vers celui du bruit, par exemple par fenêtrage).
5.1.3 Au rétablissement de la transmission Au rétablissement de la transmission, il est particulièrement important d'éviter les ruptures brutales entre la période effacée que l'on a reconstruite selon les techniques définies aux paragraphes précédents et les périodes qui suivent, au cours desquelles on dispose de toute l'information transmise pour décoder le signal. La présente invention effectue une pondération dans le domaine temporel avec interpolation entre les échantillons de remplacement précédent le rétablissement de la communication et les échantillons décodés valides suivant la période effacée. Cette opération est a priori indépendante du type du codeur employé.
<Desc/Clms Page number 20>
Dans le cas de codeurs par transformée avec additionrecouvrement, cette opération est commune avec la mise à jour des mémoires décrite au paragraphe suivant (voir exemple de réalisation).
5.1.4 Mise à jour des mémoires du décodeur Lorsque le décodage des échantillons valides reprend après une période effacée, il peut y avoir une dégradation lorsque le décodeur utilise des données normalement produites aux trames précédentes et mémorisées. Il est important de mettre à jour proprement ces mémoires pour éviter ces artefacts.
Ceci est particulièrement important pour les structures de codage utilisant des procédés récursifs, qui pour un échantillon ou une séquence d'échantillons, se servent d'informations obtenues après décodage des échantillons précédents. Ce sont par exemple des prédictions ([KLEIJN]) qui permettent d'extraire de la redondance du signal. Ces informations sont normalement disponibles à la fois au codeur, qui doit pour cela avoir effectué pour ces échantillons précédents une forme de décodage local, et au décodeur distant présent à la réception. Dés que le canal de transmission est perturbé et que le décodeur distant ne dispose plus des mêmes informations que le décodeur local présent à l'émission, il y a désynchronisation entre le codeur et le décodeur. Dans le cas de systèmes de codage fortement récursifs, cette désynchronisation peut provoquer des dégradations audibles qui peuvent perdurer longtemps voir même
<Desc/Clms Page number 21>
s'amplifier au cours du temps s'il existe des instabilités dans la structure. Dans ce cas, il est donc important de s'efforcer de resynchroniser le codeur et le décodeur, c'est à dire de faire une estimation des mémoires du décodeur la plus proche possible de celles du codeur. Cependant les techniques de resynchronisation dépendent de la structure de codage utilisée. On en présentera une dont le principe est général dans le présent brevet, mais dont la complexité est potentiellement importante.
Une méthode possible consiste à introduire dans le décodeur à la réception un module de codage du même type que celui présent à l'émission, permettant d'effectuer le codage-décodage des échantillons du signal produit par les techniques mentionnées au paragraphe précédent pendant les périodes effacées. De cette façon les mémoires nécessaires pour décoder les échantillons suivant sont complétées avec des données a priori proches (sous réserve d'une certaine stationnarité pendant la période effacée) de celles qui ont été perdues. Dans le cas où cette hypothèse de stationnarité ne serait pas respectée, après une longue période effacée par exemple, on ne dispose pas de toute façon d'informations suffisantes pour faire mieux.
En fait il n'est généralement pas nécessaire d'effectuer le codage complet de ces échantillons, on se limite aux modules nécessaires pour mettre à jour les mémoires.
<Desc/Clms Page number 22>
Cette mise à jour peut s'effectuer au moment de la production des échantillons de remplacement, ce qui répartit la complexité sur toute la zone d'effacement, mais se cumule avec la procédure de synthèse décrite précédemment .
Lorsque la structure de codage le permet, on peut aussi limiter la procédure ci-dessus à une zone intermédiaire au début de la période de données valides succédant à une période effacée, la procédure de mise à jour se cumulant alors avec l'opération de décodage.
5. 2. Description d'exemples de réalisation particuliers Des exemples particuliers de mise en oeuvre possible sont donnés ci-après. Le cas des codeurs par transformée de type TDAC ou TCDM ([MAHIEUX]) est en particulier abordé.
5.2.1 Description du dispositif Système de codage/décodage numérique par transformée de type TDAC.
Codeur en bande élargie (50-7000 Hz) à 24 kb/s ou 32 kb/s.
Trame de 20 ms (320 échantillons).
Fenêtres de 40 ms (640 échantillons) avec additionrecouvrements de 20 ms. Une trame binaire contient les paramètres codés obtenus par la transformation TDAC sur une fenêtre. Après le décodage de ces paramètres, en faisant la transformation inverse TDAC, on obtient une
<Desc/Clms Page number 23>
trame de sortie de 20 ms qui est la somme de la deuxième moitié de la fenêtre précédente et la première moitié de la fenêtre actuelle. Sur la figure 4, il a été marqué en gras les deux parties de fenêtres utilisées pour la reconstruction de la trame n (en temporel). Ainsi, une trame binaire perdue perturbe la reconstruction de deux trames consécutives (l'actuelle et la suivante, figure 5). Par contre, en faisant correctement le remplacement des paramètres perdus, on peut récupérer les parties de l'information provenant de la trame binaire précédente et suivante (figure 6), pour la reconstruction de ces deux trames.
5. 2.2 Mise en oeuvre Toutes les opérations décrites ci-dessous sont mises en oeuvre à la réception, conformément aux figures 1 et 2, soit au sein du module de dissimulation des trames effacées qui communique avec le décodeur, soit dans le décodeur lui même (mise à jour des mémoires du décodeur).
5. 2.2.1 En période valide Correspondant au paragraphe 5.1.2, on met à jour la mémoire des échantillons décodés. Cette mémoire est utilisée pour les analyses LPC et LTP du signal passé dans le cas d'un effacement d'une trame binaire. Dans l'exemple présenté ici, l'analyse LPC est faite sur une période de signal de 20 ms (320 échantillons). En général, l'analyse LTP nécessite plus d'échantillons à mémoriser. Dans notre exemple, pour pouvoir faire
<Desc/Clms Page number 24>
l'analyse LTP correctement, le nombre des échantillons mémorisés est égal à deux fois la valeur maximale du pitch. Par exemple, si la valeur maximale du pitch MaxPitch est fixée à 320 échantillons (50 Hz, 20 ms), les derniers 640 échantillons seront mémorisés (40 ms du signal). On calcule également l'énergie des trames valides et on les stocke dans un tampon circulaire de longueur de 5 s. Lorsqu'une trame effacée est détectée, on compare l'énergie de la dernière trame valide au maximum et au minimum de ce tampon circulaire pour connaître son énergie relative.
5. 2.2.2 Pendant un bloc de données effacées Lorsqu'une trame binaire est perdue, on distingue deux cas différents : 5. 2.2.2.1 Première trame binaire perdue après une période valide D'abord, on fait une analyse du signal mémorisé pour estimer les paramètres du modèle servant à synthétiser le signal regénéré. Ce modèle nous permet ensuite de synthétiser 40 ms de signal, ce qui correspond à la fenêtre de 40 ms perdue. En faisant la transformation TDAC suivie de la transformation inverse TDAC sur ce signal synthétisé (sans codage- décodage des paramètres), on obtient le signal de sortie de 20 ms. Grâce à ces opérations TDAC - TDAC inverse, on exploite l'information provenant de la fenêtre précédente correctement reçue (voir figure 6). En même temps, on met
<Desc/Clms Page number 25>
à jour les mémoires du décodeur. Ainsi, la trame binaire suivante, si elle est bien reçue, peut être décodée normalement, et les trames décodées seront automatiquement synchronisées (figure 6).
Les opérations à effectuer sont les suivantes : 1. Fenêtrage du signal mémorisé. Par exemple, on peut utiliser une fenêtre asymétrique de Hamming de 20 ms.
2. Calcul de la fonction d'autocorrélation sur le signal fenêtré.
3. Détermination des coefficients du filtre LPC. Pour cela, classiquement on utilise l'algorithme itératif de Levinson-Durbin. L'ordre d'analyse peut être élevé, surtout lorsque le codeur est utilisé pour coder des séquences de musique.
4. Détection de voisement et analyse à long terme du signal mémorisé pour la modélisation de l'éventuelle périodicité du signal (sons voisés). Dans la réalisation présentée, les inventeurs ont limité l'estimation de la période fondamentale Tp aux valeurs entières, et calculé une estimation du degré de voisement sous la forme du coefficient de corrélation MaxCorr (voir ci-dessous) évalué à la période sélectionnée. Soit Tm = max (T, Fs/200), où Fs est la fréquence d'échantillonnage, donc Fs/200 échantillons correspondent à une durée de 5 ms.
Pour mieux modéliser l'évolution du signal à la fin de la trame précédente, on calcule les coefficients de corrélation Corr (T) à un retard T en
<Desc/Clms Page number 26>
n'utilisant que 2*Tm échantillons à la fin du signal mémorisé :
où m0###mLmem-1 est la mémoire du signal décodé précédemment. De cette formule, on voit que la longueur de cette mémoire Lmem doit être au moins 2 fois la valeur maximale de la période fondamentale (encore appelée "pitch") MaxPitch.
où m0###mLmem-1 est la mémoire du signal décodé précédemment. De cette formule, on voit que la longueur de cette mémoire Lmem doit être au moins 2 fois la valeur maximale de la période fondamentale (encore appelée "pitch") MaxPitch.
On a également fixé la valeur minimale de la période fondamentale MinPitch correspondant à une fréquence de 600 Hz (26 échantillons à Fs = 16 kHz).
On calcule Corr(T) pour T = 2,...,MaxPitch. Si T'est le plus petit retard tel que Corr(T')<0 (on élimine ainsi les corrélations à très court terme), alors on cherche MaxCorr, maximum de Corr (T) pourT'<T≤MaxPitch. Soit Tp la période correspondant à MaxCorr ( Corr(Tp) = MaxCorr).
On cherche également MaxCorrMP, maximum de Corr (T) pourT'<T≤0.75*MinPitch,. Si Tp<MinPitch ou MaxCorrMP > 0.7*MaxCorr et si l'énergie de la dernière trame valide est relativement faible, on décide que la trame est non voisée, car en utilisant la prédiction LTP on risquerait d'obtenir une résonance dans les hautes fréquences très gênante. Le pitch choisi est Tp=MaxPitch/2, et le coefficient de corrélation MaxCorr fixé à une valeur faible (0. 25) .
On considère également la trame comme non-voisée lorsque plus de 80% de son énergie se concentre dans les derniers
<Desc/Clms Page number 27>
MinPitch échantillons. Il s'agit donc d'un démarrage de la parole, mais le nombre d'échantillons n'est pas suffisant pour estimer la période fondamentale éventuelle, il vaut mieux le traiter comme trame non voisée, et même diminuer plus rapidement l'énergie du signal synthétisé (pour signaler cela, on met DiminFlag=l) .
Dans le cas où MaxCorr > 0.6, on vérifie que l'on n'a pas trouvé un multiple (4,3 ou 2 fois) de la période fondamentale. Pour cela, on cherche le maximum local de la corrélation autour de Tp/4, Tp/3 et Tp/2. Notons Ti la position de ce maximum, et MaxCorrL = Corr(Ti). Si T1 > MinPitch et MaxCorrL > 0. 75* MaxCorr, on choisit T1 comme nouvelle période fondamentale.
Si Tp est inférieur à MaxPitch/2, on peut vérifier s'il s'agit vraiment d'une trame voisée en cherchant le maximum local de la corrélation autour de 2*TP (TPP) et en vérifiant si Corr(Tpp 0.4. Si Corr (Tpp) <0. et si l'énergie du signal diminue, on met DiminFlag=l et on diminue la valeur de MaxCorr, sinon on cherche le maximum local suivant entre le Tp actuel et MaxPitch.
Un autre critère de voisement consiste à vérifier si au moins dans 2/3 des cas le signal retardé par la période fondamentale a le même signe que le signal non retardé.
On vérifie cela sur une longueur égale au maximum entre 5ms et 2*Tp.
<Desc/Clms Page number 28>
On vérifie également si l'énergie du signal a tendance à diminuer ou non. Si oui, on met DiminFlag=l et on fait décroître la valeur de MaxCorr en fonction de degré de diminution.
La décision de voisement tient compte également de l'énergie du signal : l'énergie est forte, on augmente la valeur de MaxCorr, ainsi il est plus probable que la trame soit décidée voisée. Par contre, si l'énergie est très faible, on diminue la valeur de MaxCorr.
Finalement, on prend la décision de voisement en fonction de la valeur de MaxCorr : trame est non voisée si et seulement si MaxCorr < 0. 4. La période fondamentale Tp d'une trame non voisée est bornée, elle doit être inférieure ou égale à MaxPitch/2.
5. Calcul du signal résiduel par filtrage inverse LPC des derniers échantillons mémorisés. Ce signal résiduel est stocké dans la mémoire ResMem.
6. Egalisation de l'énergie du signal résiduel. Dans le cas d'un signal non voisé ou faiblement voisé (MaxCorr < 0. 7), l'énergie du signal résiduel stocké dans ResMem peut changer brusquement d'une partie à l'autre. La répétition de cette excitation entraîne une perturbation périodique très désagréable dans le signal synthétisé.
Pour éviter cela, on s'assure qu'aucun pic d'amplitude important ne se présente dans l'excitation d'une trame faiblement voisée. Comme l'excitation est construite à partir des derniers Tp échantillons du signal résiduel,
<Desc/Clms Page number 29>
on traite ce vecteur de Tp échantillons. La méthode utilisée dans notre exemple est la suivante : # On calcule la moyenne MeanAmpl des valeurs absolues des derniers Tp échantillons du signal résiduel.
# Si le vecteur d'échantillons à traiter contient n passages à zéro, on le coupe en n+1 sous-vecteurs, le signe du signal dans chaque sous-vecteur étant donc invariant.
# On cherche l'amplitude maximale MaxAmplSv de chaque sous-vecteur. Si MaxAmplSv>1.5*MeanAmpl , on multiplie le sous-vecteur par 1.5*MeanAmpl/MaxAmplSv.
7. Préparation du signal d'excitation d'une longueur de 640 échantillons correspondant à la longueur de la fenêtre TDAC. On distingue 2 cas selon le voisement : # Le signal d'excitation est la somme de deux signaux, une composante fortement harmonique limitée en bande aux basses fréquences du spectre excb et une autre moins harmonique limitée aux plus hautes fréquences exch.
La composante fortement harmonique est obtenue par filtrage LTP d'ordre 3 du signal résiduel : excb(i) = 0.15*exc(i-Tp-1)+0.7*exc(i-Tp)+0.15*exc(i-Tp+1) Les coefficients [0. 15, 0. 7, 0. 15] correspondent à un filtre FIR passe-bas de 3 dB d'atténuation à Fs/4.
La seconde composante est obtenue également par un filtrage LTP rendu non périodique par la modification aléatoire de sa période fondamentale Tph. Tph est choisie comme la partie entière d'une valeur réelle aléatoire Tpa. La valeur initiale de Tpa est égale à Tp puis elle est modifiée échantillon par échantillon en l'additionnant une valeur aléatoire dans [-0.5, 0.5]. De
<Desc/Clms Page number 30>
plus, ce filtrage LTP est combiné avec un filtrage IIR passe haut : exch(i)=-0.0635*(exc(i-Tph-l)+exc(i-Tph+l))+
0.1182*exc(i-Tph)-0.9926*exch(i-1)-
0.7679*exch(i-2) L'excitation voisée est alors la somme de ces 2 composantes : Exc(i)=excb(i)+exch(i) # Dans le cas d'une trame non voisée, le signal d'excitation exc est obtenu également par filtrage LTP d'ordre 3 avec les coefficients [0. 15, 0. 7, 0. 15] mais il est rendu non périodique par augmentation de la période fondamentale d'une valeur égale à 1 tous les
10 échantillons, et inversion du signe avec une probabilité de 0.2.
0.1182*exc(i-Tph)-0.9926*exch(i-1)-
0.7679*exch(i-2) L'excitation voisée est alors la somme de ces 2 composantes : Exc(i)=excb(i)+exch(i) # Dans le cas d'une trame non voisée, le signal d'excitation exc est obtenu également par filtrage LTP d'ordre 3 avec les coefficients [0. 15, 0. 7, 0. 15] mais il est rendu non périodique par augmentation de la période fondamentale d'une valeur égale à 1 tous les
10 échantillons, et inversion du signe avec une probabilité de 0.2.
8. Synthèse des échantillons de remplacement en introduisant le signal d'excitation exc dans le filtre LPC calculé en 3.
9. Contrôle du niveau de l'énergie du signal de synthèse.
L'énergie tend progressivement vers un niveau fixé par avance dès la première trame de remplacement synthétisée.
Ce niveau peut être défini, par exemple, comme l'énergie de la trame de sortie la plus faible trouvée durant les 5 dernières secondes précédant l'effacement. Nous avons défini deux lois d'adaptation du gain qui sont choisies en fonction du drapeau DiminFlag calculé en 4. La vitesse de diminution de l'énergie dépend également de la période fondamentale. Il existe une troisième loi d'adaptation plus radicale qui est utilisée quand on détecte que le
<Desc/Clms Page number 31>
début du signal généré ne correspond pas bien au signal originel, comme expliqué ultérieurement (voir point 11).
10. Transformation TDAC sur le signal synthétisé en 8, comme expliqué au début de ce chapitre. Les coefficients TDAC obtenus remplacent les coefficients TDAC perdus. Ensuite, en faisant la transformation inverse TDAC, on obtient la trame de sortie. Ces opérations ont trois buts : # Dans le cas de la première fenêtre perdue, de cette façon on exploite l'information de la fenêtre précédente correctement reçue qui contient la moitié des données nécessaires pour reconstruire la première trame perturbée (figure 6).
# On met à jour la mémoire du décodeur pour le décodage de la trame suivante (synchronisation du codeur et du décodeur, voir paragraphe 5.1.4).
# On assure automatiquement la transition continue (sans rupture) du signal de sortie lorsque la première trame binaire correctement reçue arrive après une période effacée que l'on a reconstruite selon les techniques présentées ci-dessus (voir paragraphe 5.1.3).
11. La technique d'addition-recouvrement permet de vérifier si le signal voisé synthétisé correspond bien au signal d'origine ou non car pour la première moitié de la première trame perdue le poids de la mémoire de dernière fenêtre correctement reçue est plus important (figure 6).
Donc en prenant la corrélation entre la première moitié de la première trame synthétisée et la première moitié de
<Desc/Clms Page number 32>
la trame obtenue après les opérations TDAC - TDAC inverse, on peut estimer la similitude entre la trame perdue et la trame de remplacement. Une corrélation faible (< 0. 65) signale que le signal originel est assez différent de celui obtenu par la méthode de remplacement, et il vaut mieux diminuer l'énergie de ce dernier rapidement vers le niveau minimal.
5. 2.2.2.2 Trames perdues suivant la première trame d'une zone effacée Dans le paragraphe précédent, les points 1-6 concernent l'analyse du signal décodé précédant la première trame effacée et permettant la construction d'un modèle de synthèse (LPC et éventuellement LTP) de ce signal. Pour les trames effacées suivantes, on ne refait pas l'analyse, le remplacement du signal perdu est basé sur les paramètres (coefficients LPC, pitch, MaxCorr, ResMem) calculés lors de première trame effacée. On fait donc uniquement les opérations correspondant à la synthèse du signal et à la synchronisation du décodeur, avec les modifications suivantes par rapport à la première trame effacée : # Dans la partie synthèse (points 7 et 8), on génère uniquement 320 nouveaux échantillons, car la fenêtre de la transformation TDAC couvre les derniers 320 échantillons générés lors de la trame effacée précédente et ces nouveaux 320 échantillons.
# Dans le cas où la période d'effacement serait relativement longue, il est important de faire évoluer les paramètres de synthèse vers les paramètres d'un
<Desc/Clms Page number 33>
bruit blanc ou vers ceux du bruit de fond (voir point
5 dans paragraphe 3. 2.2.2). Comme le système présenté dans cet exemple ne comprend pas de VAD/CNG, nous avons, par exemple, la possibilité de faire une ou plusieurs des modifications suivantes : # Interpolation progressive du filtre LPC avec un filtre plat pour rendre le signal synthétisé moins coloré.
5 dans paragraphe 3. 2.2.2). Comme le système présenté dans cet exemple ne comprend pas de VAD/CNG, nous avons, par exemple, la possibilité de faire une ou plusieurs des modifications suivantes : # Interpolation progressive du filtre LPC avec un filtre plat pour rendre le signal synthétisé moins coloré.
# Augmentation progressive de la valeur du pitch.
# En mode voisé, on bascule en mode non-voisé après un certain temps (par exemple quand l'énergie minimale est atteinte).
5. 3 Traitement spécifique pour les signaux musicaux. Si le système comprend un module permettant la discrimination parole/musique, on peut alors, après sélection d'un mode de synthèse de musique mettre en #uvre un traitement spécifique au signaux musicaux. Sur la figure 7, le module de synthèse de musique a été référencé par 15, celui de synthèse de parole par 16 et le commutateur parole/musique par 17.
Un tel traitement met par exemple en oeuvre pour le module de synthèse de musique les étapes suivantes, illustrées sur la figure 8 : 1. Estimation de l'enveloppe spectrale courante : On calcule cette enveloppe spectrale sous la forme d'un filtre LPC [RABINER][KLEIJN]. L'analyse est effectuée par des méthodes classiques ([KLEIJN]). Après fenêtrage des échantillons mémorisés en période valide, on met en oeuvre une analyse LPC pour calculer un filtre LPC A(Z)
<Desc/Clms Page number 34>
(étape 19). On utilise pour cette analyse un ordre élevé (>100) afin d'obtenir de bonnes performances sur les signaux musicaux.
2. Synthèse des échantillons manquants : La synthèse des échantillons de remplacement s'effectue en introduisant un signal d'excitation dans le filtre de synthèse LPC (1/A(z)) calculé à l'étape 19. Ce signal d'excitation - calculé dans une étape 20 - est un bruit blanc dont l'amplitude est choisie pour obtenir un signal ayant la même énergie que celle des derniers N échantillons mémorisés en période valide. Sur la figure 8, l'étape de filtrage est référencée par 21.
Exemple du contrôle de l'amplitude du signal résiduel : Si l'excitation se présente comme un bruit blanc uniforme multiplié par un gain, on peut calculer ce gain G comme suit : Estimation du gain du filtre LPC: L'algorithme de Durbin donne l'énergie du signal résiduel. Connaissant également l'énergie du signal à modélisé on estime le gain GLPC du filtre LPC comme le rapport de ces deux énergies.
Calcul de l'énergie cible : On estime l'énergie cible égale à l'énergie des derniers N échantillons mémorisés en période valide (N est typiquement < la longueur du signal utilisé pour l'analyse LPC).
L'énergie du signal synthétisé est le produit de l'énergie du bruit blanc par G2et GLPC- On choisi G pour que cette énergie soit égale à l'énergie cible.
<Desc/Clms Page number 35>
3. Contrôle de l'énergie du signal de synthèse Comme pour les signaux de parole, sauf que la vitesse de diminution de l'énergie du signal de synthèse et beaucoup plus lente, et qu'elle ne dépend pas de période fondamentale (inexistante) : L'énergie du signal de synthèse est contrôlée à l'aide d'un gain calculé et adapté échantillon par échantillon.
Dans le cas où la période d'effacement est relativement longue, il est nécessaire de faire baisser progressivement l'énergie du signal de synthèse. La loi d'adaptation du gain peut être calculée en fonction de différents paramètres comme les valeurs d'énergies mémorisées avant l'effacement, et stationnarité locale du signal au moment de la coupure.
6. Evolution de la procédure de synthèse au cours du temps : Comme pour les signaux de parole : Dans le cas de périodes d'effacement relativement longues, on peut également faire évoluer les paramètres de synthèse. Si le système est couplé à un dispositif de détection d'activité vocale ou de signaux musicaux avec estimation des paramètres du bruit (tel [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), il sera particulièrement intéressant de faire tendre les paramètres de génération du signal à reconstruire vers ceux du bruit estimé: en particulier au niveau de l'enveloppe spectrale (interpolation du filtre LPC avec celui du bruit estimé, les coefficients de l'interpolation évoluant au cours du temps jusqu'à obtention du filtre du bruit) et de
<Desc/Clms Page number 36>
l'énergie (niveau évoluant progressivement vers celui du bruit, par exemple par fenêtrage).
6. REMARQUE GENERALE Comme on l'aura compris, la technique qui vient d'être décrite présente l'avantage d'être utilisable avec tout type de codeur ; en particulier elle permet de remédier aux problèmes des paquets de bits perdus pour les codeurs temporels ou par transformée, sur des signaux de parole et musique avec de bonnes performances : en effet dans la présente technique, les seuls signaux mémorisés lors des périodes où les données transmises sont valides sont les échantillons issus du décodeur, information qui est disponible quelle que soit la structure de codage utilisée.
7.REFÉRENCES BIBLIOGRAPHIQUES [AT&T] AT&T (D.A. Kapilow, R. V. Cox) A high quality low-complexity algorithm for frame erasure concealment (FEC) with G.711 , Delayed Contribution D. 249 (WP 3/16) , ITU, may 1999.
[ATAL] B. S. Atal et M. R. Schroeder. "Prédictive coding of speech signal and subjectives error criteria". IEEE Trans. on Acoustics, Speech and Signal Processing, 27 : 247-254, juin 1979.
[BENYASSINE] A. Benyassine, E. Shlomot et H.Y. Su. "ITU-T recommendation G.729 Annex B : A silence compression
<Desc/Clms Page number 37>
scheme for use with G.729 optimized for V. 70 digital simultaneous voice and data applications". IEEE Communication Magazine, septembre 97, PP. 56-63.
[BRANDENBURG] K. H. Brandenburg et M. Bossi. "Overview of MPEG audio : current and future standards for low-bitrate audio coding". Journal of Audio Eng. Soc., Vol.45- 1/2, janvier/février 1997, PP.4-21.
[CHEN] J. H. Chen, R. V. Cox, Y. C. Lin, N. Jayant et M.
J. Melchner. "A low-delay CELP coder for the CCITT 16 kb/s speech coding standard". IEEE Journal on Selected Areas on Communications, Vol.10-5, juin 1992, PP.830-849.
[CHEN-2] J. H. Chen, C. R. Watkins. "Linear prediction coefficient génération during frame erasure or packet loss". Brevet US5574825, EP0673018.
[CHEN-3] J. H. Chen, C. R. Watkins. "Linear prediction coefficient génération during frame erasure or packet loss". Brevet 884010.
[CHEN-4] J. H. Chen, C. R. Watkins. "Frame erasure or packet loss compensation method". Brevet US5550543, EP0707308.
[CHEN-5] J. H. Chen. "Excitation signal synthesis during frame erasure or packet loss". Brevet US5615298, EP0673017.
<Desc/Clms Page number 38>
[CHEN-6] J. H. Chen. "Computational complexity reduction during frame erasure of packet loss". Brevet US5717822.
[CHEN-7] J. H. Chen. "Computational complexity reduction during frame erasure or packet loss". Brevet US940212435, EP0673015.
[COX] R. V. Cox. "Three new speech coders from the ITU cover a range of applications". IEEE Communication Magazine, septembre 97, PP. 40-47.
[COX-2] R. V. Cox. "An improved frame erasure concealment method for ITU-T Rec. G728". Delayed contribution D.107 (WP 3/16), ITU-T, janvier 1998.
[COMBESCURE] P.Combescure, J. Schnitzler, K. Ficher, R.
Kirchherr, C. Lamblin, A. Le Guyader, D. Massaloux, C.
Quinquis, J. Stegmann, P. Vary. "A 16,24,32 kbit/s Wideband Speech Codec Based on ATCELP". Proc. of ICASSP conference, 1998.
[DAUMER] W. R. Daumer, P. Mermelstein, X. Maître et I.
Tokizawa. "Overview of the ADPCM coding algorithm". Proc. of GLOBECOM 1984, PP.23.1.1-23.1.4.
[ERDOL]. N. Erdôl, C. Castelluccia, A. Zilouchian "Recovery of Missing Speech Packets Using the Short-Time Energy and Zero-Crossing Measurements" IEEE Trans. on Speech and Audio Processing, Vol.1-3, juillet 1993, PP.295-303.
<Desc/Clms Page number 39>
[FINGSCHEIDT] T. Fingscheidt, P. Vary, "Robust speech decoding: a universal approach to bit error concealment", Proc. of ICASSP conference, 1997, pp. 1667-1670.
[GOODMAN] D.J. Goodman, G. B. Lockhart, O.J. Wasem, W. C.
Wong. "Waveform Substitution Techniques for Recovering Missing Speech Segments in Packet Voice Communications" .
IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-34, décembre 1986, PP. 1440-1448.
[GSM-FR] Recommendation GSM 06.11. "Substitution and muting of lost frames for full rate speech traffic channels". ETSI/TC SMG, ver. : 3. 0.1. , février 1992.
[HARDWICK] J. C. Hardwick et J. S. Lim. "The application of the IMBE speech coder to mobile communications". Proc. of ICASSP conference, 1991, PP.249-252.
[HELLWIG] K. Hellwig, P. Vary, D. Massaloux, J. P. Petit, C. Galand et M. Rosso. "Speech codec for the European mobile radio system". GLOBECOM conference, 1989, PP.
1065-1069.
[HONKANEN] T. Honkanen, J. Vainio, P. Kapanen, P. Haavisto, R. Salami, C. Laflamme et J. P. Adoul. "GSM enhanced full rate speech codec Proc. of ICASSP conference, 1997, PP.771-774.
[KROON] P. Kroon, B. S. Atal. "On the use of pitch predictors with high temporal resolution". IEEE Trans. on Signal Processing, Vol.39-3, mars.1991, PP.733-735.
<Desc/Clms Page number 40>
[KROON-2] P. Kroon. "Linear prediction coefficient génération during frame erasure or packet loss". Brevet US5450449, EP0673016.
[MAHIEUX] Y. Mahieux, J. P. Petit. "High quality aaudio transform coding at 64 kbit/s". IEEE Trans. on Com., Vol.42-11, nov.1994, PP.3010-3019.
[MAHIEUX-2] Y. Mahieux, "Dissimulation erreurs de transmission", brevet 92 06720 déposé le 3 juin 1992.
[MAITRE] X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas on Communications, Vol.6-2, février 1988, PP.283-298.
[PARIKH] V. N. Parikh, J.H. Chen, G. Aguilar. "Frame Erasure Concealment Using Sinusoidal Analysis-Synthesis and Its Application to MDCT-Based Codées". Proc. of ICASSP conference, 2000.
[PICTEL] PictureTel Corporation, "Detailed Description of the PTC (PictureTel Transform Coder), Contribution ITU-T, SG15/WP2/Q6, 8-9 Octobre 1996 Baltimore meeting, TD7 [RABINER] L.R. Rabiner, R.W. Schafer. "Digital processing of speech signals". Bell Laboratories inc., 1978.
[REC G.723.1A] ITU-T Annex A to recommendation G.723.1 "Silence compression scheme for dual rate speech coder
<Desc/Clms Page number 41>
for multimédia communications transmitting at 5. 3 & 6.3 kbit/s" [SALAMI] R. Salami, C. Laflamme, J. P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux, S.
Proust, P. Kroon et Y. Shoham. "Design and description of CS-ACELP : a toll quality 8 kb/s speech coder". IEEE Trans. on Speech and Audio Processing, Vol.6-2, mars 1998, PP.116-130.
[SALAMI-2] R. Salami, C. Laflamme, J. P. Adoul. "ITU-T G.729 Annex A : Reduced complexity 8 kb/s CS-ACELP codec for digital simultaneous voice and data". IEEE Communication Magazine, septembre 97, PP. 56-63.
[TREMAIN] T. E. Tremain. "The government standard linear predictive coding algorithm : LPC 10". Speech technology, avril 1982, PP.40-49.
[WATKINS] C. R. Watkins, J. H. Chen. "Improving 16 kb/s G.728 LD-CELP Speech Coder for Frame Erasure Channels".
Proc. of ICASSP conference, 1995, PP.241-244.
Claims (18)
1. Procédé de dissimulation d'erreur de transmission dans un signal audio-numérique selon lequel on reçoit un signal décodé après transmission, on mémorise les échantillons décodés lorsque les données transmises sont valides, on estime au moins un opérateur de prédiction à court terme et au moins pour les sons voisés un opérateur de prédiction à long terme en fonction des échantillons valides mémorisés et on génère d'éventuels échantillons manquants ou erronés dans le signal décodé à l'aide des opérateurs ainsi estimés, caractérisé en ce qu'on contrôle l'énergie du signal de synthèse ainsi généré à l'aide d'un gain calculé et adapté échantillon par échantillon.
2. Procédé selon la revendication 1, caractérisé en ce que le gain pour le contrôle du signal de synthèse est calculé en fonction d'au moins un des paramètres suivants : valeurs d'énergie préalablement mémorisées pour les échantillons correspondant à des données valides, période fondamentale pour les sons voisés, ou tout paramètre caractérisant le spectre de fréquences.
3. Procédé selon l'une des revendications précédentes, caractérisé en ce que le gain appliqué au signal de synthèse décroît progressivement en fonction de la durée pendant laquelle les échantillons de synthèse sont générés.
4. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'on discrimine dans les données valides les sons stationnaires et les sons non stationnaires et on met en #uvre des lois d'adaptation du
<Desc/Clms Page number 43>
gain permettant de contrôler le signal de synthèse différentes d'une part pour les échantillons générés à la suite de données valides correspondant à des sons stationnaires et d'autre part pour les échantillons générés à la suite de données valides correspondants à des sons non stationnaires.
5. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'on met à jour en fonction des échantillons de synthèse générés le contenu de mémoires utilisées pour le traitement de décodage.
6. Procédé selon la revendication 5, caractérisé en ce qu' on met en #uvre au moins partiellement sur les échantillons synthétisés un codage analogue à celui mis en #uvre à l'émetteur suivi éventuellement d'une opération de décodage au moins partielle, les données obtenues servant à régénérer les mémoires du décodeur.
7. Procédé selon la revendication 6, caractérisé en ce qu'on régénère la première trame effacée au moyen de cette opération de codage-décodage, en exploitant le contenu des mémoires du décodeur avant la coupure, lorsque lesdites mémoires contiennent des informations exploitables dans cette opération.
8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'on génère en entrée de l'opérateur de prédiction à court terme un signal d'excitation qui, en zone voisée, est la somme d'une composante harmonique et d'une composante faiblement harmonique ou non harmonique, et en zone non voisée, limitée à une composante non harmonique.
9. Procédé selon la revendication 8 , caractérisé en ce que la composante harmonique est obtenue en mettant
<Desc/Clms Page number 44>
en oeuvre un filtrage au moyen de l'opérateur de prédiction à long terme appliqué sur un signal résiduel calculé en mettant en oeuvre un filtrage à court terme inverse sur les échantillons mémorisés.
10. Procédé selon la revendication 9, caractérisé en ce que l'autre composante est déterminée à l'aide d'un opérateur de prédiction à long terme auquel on applique des perturbations pseudo-aléatoires.
11. Procédé selon l'une des revendications 8 à 10, caractérisé en ce que pour la génération d'un signal d'excitation voisé, la composante harmonique est limitée aux basses fréquences du spectre, tandis que l'autre composante est limitée aux hautes fréquences.
12. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'opérateur de prédiction à long terme est déterminé à partir des échantillons de trames valides mémorisés, avec un nombre d'échantillons utilisés pour cette estimation variant entre une valeur minimale et une valeur égale à au moins deux fois la période fondamentale estimée pour le son voisé.
13. Procédé selon l'une des revendications précédentes, caractérisé en ce que le signal résiduel est traité de manière non linéaire pour éliminer des pics d'amplitude.
14. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'on détecte l'activité vocale en estimant des paramètres de bruit et en ce qu'on fait tendre des paramètres du signal synthétisé vers ceux du bruit estimé.
<Desc/Clms Page number 45>
15. Procédé selon la revendication 14, caractérisé en ce qu'on estime l'enveloppe spectrale du bruit des échantillons décodés valides et on génère un signal synthétisé évoluant vers un signal possédant la même enveloppe spectrale.
16. Procédé de traitement de signaux de sons, caractérisé en ce qu'on met en #uvre une discrimination entre les sons voisés et les sons musicaux et lorsqu'on détecte des sons musicaux, on met en #uvre un procédé selon l'une des revendications précédentes sans estimation d'un opérateur de prédiction à long terme.
17. Dispositif de dissimulation d'erreur de transmission dans un signal audio-numérique qui reçoit en entrée un signal décodé que lui transmet un décodeur et qui génère des échantillons manquants ou erronés dans ce signal décodé, caractérisé en ce qu'il comporte des moyens de traitement aptes à mettre en #uvre le procédé selon l'une des revendications précédentes.
18. Système de transmission comportant au moins un codeur, au moins un canal de transmission, un module apte à détecter que des données transmises ont été perdues ou sont fortement erronées, au moins un décodeur et un dispositif de dissimulation d'erreurs qui reçoit le signal décodé, caractérisé en ce que ce dispositif de dissimulation d'erreurs est un dispositif selon la revendication 17.
Priority Applications (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0011285A FR2813722B1 (fr) | 2000-09-05 | 2000-09-05 | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
PCT/FR2001/002747 WO2002021515A1 (fr) | 2000-09-05 | 2001-09-05 | Dissimulation d'erreurs de transmission dans un signal audio |
IL15472801A IL154728A0 (en) | 2000-09-05 | 2001-09-05 | Transmission error concealment in an audio signal |
AT01969857T ATE382932T1 (de) | 2000-09-05 | 2001-09-05 | Übertragungsfehler-verdeckung in einem audiosignal |
DE60132217T DE60132217T2 (de) | 2000-09-05 | 2001-09-05 | Übertragungsfehler-verdeckung in einem audiosignal |
ES01969857T ES2298261T3 (es) | 2000-09-05 | 2001-09-05 | Disimulacion de errores de transmision en una señal de audio. |
AU2001289991A AU2001289991A1 (en) | 2000-09-05 | 2001-09-05 | Transmission error concealment in an audio signal |
US10/363,783 US7596489B2 (en) | 2000-09-05 | 2001-09-05 | Transmission error concealment in an audio signal |
EP01969857A EP1316087B1 (fr) | 2000-09-05 | 2001-09-05 | Dissimulation d'erreurs de transmission dans un signal audio |
JP2002525647A JP5062937B2 (ja) | 2000-09-05 | 2001-09-05 | オーディオ信号における伝送エラーの抑止シミュレーション |
IL154728A IL154728A (en) | 2000-09-05 | 2003-03-04 | Transmission error concealment in an audio signal |
HK03107426A HK1055346A1 (en) | 2000-09-05 | 2003-10-15 | Transmission error concealment in an audio signal |
US12/462,763 US8239192B2 (en) | 2000-09-05 | 2009-08-07 | Transmission error concealment in audio signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0011285A FR2813722B1 (fr) | 2000-09-05 | 2000-09-05 | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2813722A1 true FR2813722A1 (fr) | 2002-03-08 |
FR2813722B1 FR2813722B1 (fr) | 2003-01-24 |
Family
ID=8853973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0011285A Expired - Fee Related FR2813722B1 (fr) | 2000-09-05 | 2000-09-05 | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
Country Status (11)
Country | Link |
---|---|
US (2) | US7596489B2 (fr) |
EP (1) | EP1316087B1 (fr) |
JP (1) | JP5062937B2 (fr) |
AT (1) | ATE382932T1 (fr) |
AU (1) | AU2001289991A1 (fr) |
DE (1) | DE60132217T2 (fr) |
ES (1) | ES2298261T3 (fr) |
FR (1) | FR2813722B1 (fr) |
HK (1) | HK1055346A1 (fr) |
IL (2) | IL154728A0 (fr) |
WO (1) | WO2002021515A1 (fr) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417520B2 (en) | 2006-10-20 | 2013-04-09 | France Telecom | Attenuation of overvoicing, in particular for the generation of an excitation at a decoder when data is missing |
CN111370005A (zh) * | 2014-03-19 | 2020-07-03 | 弗朗霍夫应用科学研究促进协会 | 产生错误隐藏信号的装置、方法和计算机可读介质 |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030163304A1 (en) * | 2002-02-28 | 2003-08-28 | Fisseha Mekuria | Error concealment for voice transmission system |
FR2849727B1 (fr) * | 2003-01-08 | 2005-03-18 | France Telecom | Procede de codage et de decodage audio a debit variable |
WO2004068098A1 (fr) * | 2003-01-30 | 2004-08-12 | Fujitsu Limited | Dispositif de dissimulation de la disparition de paquets audio, procede de dissimulation de la disparition de paquets audio, terminal de reception et systeme de communication audio |
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
KR100587953B1 (ko) * | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
JP4761506B2 (ja) * | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | 音声処理方法と装置及びプログラム並びに音声システム |
DE502006004136D1 (de) * | 2005-04-28 | 2009-08-13 | Siemens Ag | Verfahren und vorrichtung zur geräuschunterdrückung |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
US7805297B2 (en) | 2005-11-23 | 2010-09-28 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US8417185B2 (en) | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US8160874B2 (en) * | 2005-12-27 | 2012-04-17 | Panasonic Corporation | Speech frame loss compensation using non-cyclic-pulse-suppressed version of previous frame excitation as synthesis filter source |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US7885419B2 (en) | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
CA2658962A1 (fr) * | 2006-07-27 | 2008-01-31 | Nec Corporation | Dispositif de decodage de donnees audio |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
EP1921608A1 (fr) * | 2006-11-13 | 2008-05-14 | Electronics And Telecommunications Research Institute | Procédé d'insertion d'informations de vecteurs pour estimer les données vocales dans une période de resynchronisation clé, procédé de transmission de vecteur, et procédé d'estimation de données vocales dans une resynchronisation clé utilisant des informations vectorielles |
KR100862662B1 (ko) | 2006-11-28 | 2008-10-10 | 삼성전자주식회사 | 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치 |
JP4504389B2 (ja) * | 2007-02-22 | 2010-07-14 | 富士通株式会社 | 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム |
BRPI0808200A8 (pt) * | 2007-03-02 | 2017-09-12 | Panasonic Corp | Dispositivo de codificação de áudio e dispositivo de decodificação de áudio |
US7853450B2 (en) * | 2007-03-30 | 2010-12-14 | Alcatel-Lucent Usa Inc. | Digital voice enhancement |
US8126707B2 (en) * | 2007-04-05 | 2012-02-28 | Texas Instruments Incorporated | Method and system for speech compression |
EP2112653A4 (fr) * | 2007-05-24 | 2013-09-11 | Panasonic Corp | Dispositif de décodage audio, procédé de décodage audio, programme et circuit intégré |
KR100906766B1 (ko) * | 2007-06-18 | 2009-07-09 | 한국전자통신연구원 | 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법 |
CN101802906B (zh) * | 2007-09-21 | 2013-01-02 | 法国电信公司 | 传送误差隐藏的方法和装置、以及数字信号解码器 |
FR2929466A1 (fr) * | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
CN101588341B (zh) * | 2008-05-22 | 2012-07-04 | 华为技术有限公司 | 一种丢帧隐藏的方法及装置 |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
JP2010164859A (ja) * | 2009-01-16 | 2010-07-29 | Sony Corp | オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム |
CN101609677B (zh) | 2009-03-13 | 2012-01-04 | 华为技术有限公司 | 一种预处理方法、装置及编码设备 |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
US9123334B2 (en) * | 2009-12-14 | 2015-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Vector quantization of algebraic codebook with high-pass characteristic for polarity selection |
KR101551046B1 (ko) * | 2011-02-14 | 2015-09-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 |
CN103477387B (zh) | 2011-02-14 | 2015-11-25 | 弗兰霍菲尔运输应用研究公司 | 使用频谱域噪声整形的基于线性预测的编码方案 |
MY166394A (en) | 2011-02-14 | 2018-06-25 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
BR112013020482B1 (pt) | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
ES2639646T3 (es) | 2011-02-14 | 2017-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
KR101525185B1 (ko) | 2011-02-14 | 2015-06-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 |
US8849663B2 (en) * | 2011-03-21 | 2014-09-30 | The Intellisis Corporation | Systems and methods for segmenting and/or classifying an audio signal from transformed audio information |
US8767978B2 (en) | 2011-03-25 | 2014-07-01 | The Intellisis Corporation | System and method for processing sound signals implementing a spectral motion transform |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
US8620646B2 (en) | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
CN107068156B (zh) | 2011-10-21 | 2021-03-30 | 三星电子株式会社 | 帧错误隐藏方法和设备以及音频解码方法和设备 |
EP2830062B1 (fr) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Procédé et appareil de codage/décodage de haute fréquence pour extension de largeur de bande |
US9123328B2 (en) * | 2012-09-26 | 2015-09-01 | Google Technology Holdings LLC | Apparatus and method for audio frame loss recovery |
US20150302892A1 (en) * | 2012-11-27 | 2015-10-22 | Nokia Technologies Oy | A shared audio scene apparatus |
US9437203B2 (en) * | 2013-03-07 | 2016-09-06 | QoSound, Inc. | Error concealment for speech decoder |
FR3004876A1 (fr) * | 2013-04-18 | 2014-10-24 | France Telecom | Correction de perte de trame par injection de bruit pondere. |
FR3011408A1 (fr) * | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
BR122022008603B1 (pt) | 2013-10-31 | 2023-01-10 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Decodificador de áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro que modifica um sinal de excitação no domínio de tempo |
JP6306175B2 (ja) * | 2013-10-31 | 2018-04-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 |
US9437211B1 (en) * | 2013-11-18 | 2016-09-06 | QoSound, Inc. | Adaptive delay for enhanced speech processing |
EP2922055A1 (fr) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Appareil, procédé et programme d'ordinateur correspondant pour générer un signal de dissimulation d'erreurs au moyen de représentations LPC de remplacement individuel pour les informations de liste de codage individuel |
EP2922054A1 (fr) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Appareil, procédé et programme d'ordinateur correspondant permettant de générer un signal de masquage d'erreurs utilisant une estimation de bruit adaptatif |
TWI602172B (zh) | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
CN112967727A (zh) * | 2014-12-09 | 2021-06-15 | 杜比国际公司 | Mdct域错误掩盖 |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
EP3427257B1 (fr) * | 2016-03-07 | 2021-05-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Unité de dissimulation d'erreur, décodeur audio, et procédé et programme informatique associés permettant d'atténuer une trame audio dissimulée en fonction de différents facteurs d'amortissement pour différentes bandes de fréquence |
WO2017153300A1 (fr) * | 2016-03-07 | 2017-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Unité de dissimulation d'erreur, décodeur audio et procédé et programme informatique associés utilisant des caractéristiques d'une représentation décodée d'une trame audio correctement décodée |
EP3553777B1 (fr) * | 2018-04-09 | 2022-07-20 | Dolby Laboratories Licensing Corporation | Dissimulation de perte de paquets à faible complexité pour des signaux audio transcodés |
US10763885B2 (en) | 2018-11-06 | 2020-09-01 | Stmicroelectronics S.R.L. | Method of error concealment, and associated device |
JP7130878B2 (ja) * | 2019-01-13 | 2022-09-05 | 華為技術有限公司 | 高分解能オーディオコーディング |
WO2020164751A1 (fr) * | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Décodeur et procédé de décodage pour masquage lc3 comprenant un masquage de perte de trame complète et un masquage de perte de trame partielle |
CN111063362B (zh) * | 2019-12-11 | 2022-03-22 | 中国电子科技集团公司第三十研究所 | 一种数字语音通信噪音消除和语音恢复方法及装置 |
CN111554309A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5717822A (en) * | 1994-03-14 | 1998-02-10 | Lucent Technologies Inc. | Computational complexity reduction during frame erasure of packet loss |
FR2774827A1 (fr) * | 1998-02-06 | 1999-08-13 | France Telecom | Procede de decodage d'un flux binaire representatif d'un signal audio |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
US5574825A (en) | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
CA2177413A1 (fr) * | 1995-06-07 | 1996-12-08 | Yair Shoham | Affaiblissement du gain durant l'effacement des blocs |
CN1494055A (zh) * | 1997-12-24 | 2004-05-05 | ������������ʽ���� | 声音编码方法和声音译码方法以及声音编码装置和声音译码装置 |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
-
2000
- 2000-09-05 FR FR0011285A patent/FR2813722B1/fr not_active Expired - Fee Related
-
2001
- 2001-09-05 EP EP01969857A patent/EP1316087B1/fr not_active Expired - Lifetime
- 2001-09-05 IL IL15472801A patent/IL154728A0/xx unknown
- 2001-09-05 US US10/363,783 patent/US7596489B2/en not_active Expired - Lifetime
- 2001-09-05 DE DE60132217T patent/DE60132217T2/de not_active Expired - Lifetime
- 2001-09-05 WO PCT/FR2001/002747 patent/WO2002021515A1/fr active IP Right Grant
- 2001-09-05 AT AT01969857T patent/ATE382932T1/de not_active IP Right Cessation
- 2001-09-05 ES ES01969857T patent/ES2298261T3/es not_active Expired - Lifetime
- 2001-09-05 JP JP2002525647A patent/JP5062937B2/ja not_active Expired - Lifetime
- 2001-09-05 AU AU2001289991A patent/AU2001289991A1/en not_active Abandoned
-
2003
- 2003-03-04 IL IL154728A patent/IL154728A/en unknown
- 2003-10-15 HK HK03107426A patent/HK1055346A1/xx not_active IP Right Cessation
-
2009
- 2009-08-07 US US12/462,763 patent/US8239192B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5717822A (en) * | 1994-03-14 | 1998-02-10 | Lucent Technologies Inc. | Computational complexity reduction during frame erasure of packet loss |
FR2774827A1 (fr) * | 1998-02-06 | 1999-08-13 | France Telecom | Procede de decodage d'un flux binaire representatif d'un signal audio |
Non-Patent Citations (2)
Title |
---|
COMBESCURE P ET AL: "A 16, 24, 32 KBIT/S WIDEBAND SPEECH CODEC BASED ON ATCELP", PHOENIX, AZ, MARCH 15 - 19, 1999,NEW YORK, NY: IEEE,US, 15 March 1999 (1999-03-15), pages 5 - 8, XP000898251, ISBN: 0-7803-5042-1 * |
ERDOL N ET AL: "RECOVERY OF MISSING SPEECH PACKETS USING THR SHORT-TIME ENERGY AND ZERO-CROSSING MEASUREMENTS", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING,US,IEEE INC. NEW YORK, vol. 1, no. 3, 1 July 1993 (1993-07-01), pages 295 - 303, XP000388573, ISSN: 1063-6676 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417520B2 (en) | 2006-10-20 | 2013-04-09 | France Telecom | Attenuation of overvoicing, in particular for the generation of an excitation at a decoder when data is missing |
CN111370005A (zh) * | 2014-03-19 | 2020-07-03 | 弗朗霍夫应用科学研究促进协会 | 产生错误隐藏信号的装置、方法和计算机可读介质 |
CN111370005B (zh) * | 2014-03-19 | 2023-12-15 | 弗朗霍夫应用科学研究促进协会 | 产生错误隐藏信号的装置、方法和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
IL154728A0 (en) | 2003-10-31 |
JP5062937B2 (ja) | 2012-10-31 |
DE60132217T2 (de) | 2009-01-29 |
US20100070271A1 (en) | 2010-03-18 |
DE60132217D1 (de) | 2008-02-14 |
FR2813722B1 (fr) | 2003-01-24 |
HK1055346A1 (en) | 2004-01-02 |
EP1316087A1 (fr) | 2003-06-04 |
EP1316087B1 (fr) | 2008-01-02 |
US8239192B2 (en) | 2012-08-07 |
AU2001289991A1 (en) | 2002-03-22 |
WO2002021515A1 (fr) | 2002-03-14 |
JP2004508597A (ja) | 2004-03-18 |
IL154728A (en) | 2008-07-08 |
ATE382932T1 (de) | 2008-01-15 |
US20040010407A1 (en) | 2004-01-15 |
US7596489B2 (en) | 2009-09-29 |
ES2298261T3 (es) | 2008-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1316087B1 (fr) | Dissimulation d'erreurs de transmission dans un signal audio | |
EP2277172B1 (fr) | Dissimulation d'erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique | |
DK1509903T3 (en) | METHOD AND APPARATUS FOR EFFECTIVELY HIDDEN FRAMEWORK IN LINEAR PREDICTIVE-BASED SPEECH CODECS | |
EP2080195B1 (fr) | Synthèse de blocs perdus d'un signal audionumérique | |
KR100742443B1 (ko) | 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 | |
EP2026330B1 (fr) | Dispositif et procede pour dissimulation de trames perdues | |
EP1051703B1 (fr) | Procede decodage d'un signal audio avec correction des erreurs de transmission | |
EP3175444B1 (fr) | Gestion de la perte de trame dans un contexte de transition fd/lpd | |
EP2080194B1 (fr) | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information | |
EP2347411B1 (fr) | Attenuation de pre-echos dans un signal audionumerique | |
KR100216018B1 (ko) | 배경음을 엔코딩 및 디코딩하는 방법 및 장치 | |
EP2203915B1 (fr) | Dissimulation d'erreur de transmission dans un signal numerique avec repartition de la complexite | |
FR2830970A1 (fr) | Procede et dispositif de synthese de trames de substitution, dans une succession de trames representant un signal de parole | |
MX2008008477A (es) | Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20080531 |