FR2987931A1 - Modification des caracteristiques spectrales d'un filtre de prediction lineaire d'un signal audionumerique represente par ses coefficients lsf ou isf. - Google Patents

Modification des caracteristiques spectrales d'un filtre de prediction lineaire d'un signal audionumerique represente par ses coefficients lsf ou isf. Download PDF

Info

Publication number
FR2987931A1
FR2987931A1 FR1252195A FR1252195A FR2987931A1 FR 2987931 A1 FR2987931 A1 FR 2987931A1 FR 1252195 A FR1252195 A FR 1252195A FR 1252195 A FR1252195 A FR 1252195A FR 2987931 A1 FR2987931 A1 FR 2987931A1
Authority
FR
France
Prior art keywords
filter
isf
signal
lsf
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1252195A
Other languages
English (en)
Inventor
Jerome Daniel
Guyader Alain Le
Stephane Ragot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR1252195A priority Critical patent/FR2987931A1/fr
Priority to PCT/FR2013/050472 priority patent/WO2013135997A1/fr
Publication of FR2987931A1 publication Critical patent/FR2987931A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention concerne un traitement de signal numérique, comportant la construction d'un filtre d'amélioration de qualité du signal, le procédé comportant en outre l'obtention de paramètres fréquentiels de type LSF pour « Fréquences de Lignes Spectrales » et/ou de type ISF pour « Fréquences Spectrales d'Immitance », issus d'une analyse de prédiction linéaire dudit signal. Le filtre d'amélioration au sens de l'invention est défini par une combinaison de polynômes dont des coefficients sont fonctions au moins des paramètres fréquentiels LSF et/ou ISF, et : - on détermine des facteurs d'amortissement (gamma ) associés à des racines respectives des ces polynômes (200), ISF - on calcule le filtre d'amélioration (A (Z)) au moins en fonction desdits paramètres fréquentiels LSF et/ou ISF et desdits facteurs d'amortissement (210).

Description

Modification des caractéristiques spectrales d'un filtre de prédiction linéaire d'un signal audionumérique représenté par ses coefficients LSF ou ISF La présente invention concerne le traitement de signaux numériques.
De tels signaux, dans une application, peuvent être audionumériques. Dans un cadre particulier, un codage prédictif de tels signaux peut utiliser des techniques d'analyse par synthèse ou de modélisation de l'excitation par codage paramétrique ou par transformée. Par exemple, une méthode d'analyse par synthèse utilisée couramment dans les codeurs prédictifs dits « CELP » (pour « Code-Excited Linear Prediction ») comprend habituellement les étapes suivantes: - l'analyse de prédiction linéaire d'ordre M d'un signal par exemple de parole, numérisé en trames successives afin de déterminer les paramètres d'un filtre de synthèse à court terme ; - la détermination des paramètres d'un signal d'excitation à appliquer au filtre de synthèse à court terme, afin de produire un signal de synthèse représentatif du signal de parole (certains au moins des paramètres d'excitation étant déterminés habituellement en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle) ; et - la production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme et les paramètres du signal d'excitation. Les paramètres du filtre de synthèse à court terme qui sont obtenus par prédiction linéaire sont représentatifs de la fonction de transfert du conduit vocal et des caractéristiques spectrales du signal audionumérique. L'invention porte plus particulièrement sur la modification des caractéristiques spectrales du filtre de prédiction A(z) , ou de façon équivalente du filtre de synthèse 1/ A(z) , pour des applications telles que la mise en forme de bruit dans un codeur prédictif, dont le calcul et la mise en oeuvre du filtre de pondération perceptuelle utilisé dans la recherche du signal d'excitation.
Dans une première étape du processus de codage, le module d'analyse à court terme détermine les paramètres dits « LPC » du filtre de synthèse à court terme en analysant les corrélations à court terme du signal de parole s (n) .
La détermination des paramètres LPC est réalisée par exemple une fois par trame de L échantillons, de manière à s'adapter aux changements du contenu spectral du signal de parole pour donner un filtre autorégressif (filtre « AR » ci-après) de modélisation du signal H(z)= : A(z) A(z)=Iamz' où les coefficients am sont les coefficients de prédiction linéaire LPC du signal avec ao =1. La quantification des paramètres LPC peut être effectuée sur la représentation du filtre A(z) par : ses coefficients de « Corrélation Partielle Parcor » km issus de l' algorithme de Levinson-Durbin ; ou pour des questions d'efficacité de quantification, sur les coefficients de Lignes Spectrales de Fréquences ou « LSF », représentant le filtre A(z) par des fréquences discrètes comme décrit dans l'article de N. Sugamura, F. Itakura: « Speech analysis and synthesis methods developed at ECL in NTT - From LPC to LSP ». Speech Communication, 1986, 199-215. Dans la suite, on utilise indifféremment l' appellation LSF (Line Spectral Frequencies) ou LSP (Line Spectral Pairs) pour nommer ces représentations, le passage entre les deux se faisant simplement par une relation qi=cos(271-1sfiT), i=1,...,M , où T est la période d'échantillonnage ( T =11 F où F est la fréquence d'échantillonnage). On considère ici sans perte de généralité que les valeurs lsf, sont normalisées entre 0 et la fréquence de Nyquist F / 2 ; l'homme de l'art saura facilement adapter la description dans le cas où les LSF sont normalisées dans un autre intervalle (par exemple [0,7r] ). Les LSP sont données par l'algorithme récursif de Levinson-Durbin en prenant kM+l = +1/-1 comme coefficient Parcor à la fin d'une récursion d'ordre M pour donner deux polynômes et P(z) et Q(z) (définis un peu plus loin) dont les racines sont situées sur le cercle unité.
Il convient de noter qu'une autre représentation du filtre A(z) est donnée par les fréquences « ISF » (ou « Immittance Spectral Frequencies »), comme décrit dans la référence Y. Bistritz and S. Peller, "Immittance Spectral Pairs (ISP) for Speech Encoding", ICASSP, vol. 2, pp. 9-12, April 1993.
On retiendra dans ce qui suit que les Lignes Spectrales par Paires (LSP), ou de façon équivalente les Lignes Spectrales de Fréquences (LSF), sont calculées à partir des coefficients du filtre A(z) en cherchant les passages par zéro de deux polynômes P(z) et Q(z) . On peut alors représenter le filtre A(z) par les coefficients ai, i = 0, M ou par ses coefficients LSF notés lsfi, i = 0, M -1. Il en est de même pour la représentation sous la forme des ISF. Dans les codeurs de signaux audionumériques, les coefficients ISF ou LSF sont généralement calculés et quantifiés pour représenter le filtre de prédiction car ces paramètres possèdent de meilleures qualités pour la transmission que les coefficients am du filtre de prédiction linéaire, et ont d'autres propriétés intéressantes en codage (notamment pour une interpolation, ou un test simple de stabilité). La représentation du filtre A(z) par ses fréquences lsifi est typiquement donnée (pour un ordre de prédiction linéaire pair) en référence à la figure la par : M/2-1 M/2-1 A(z) =0.51(1+ z-1) (1_ 2q z-2)-E (1- z-1) (1- 2q2i, + z i=o i=o avec les termes qi donnés en fonction des fréquences lsifi par qi =cos(21r/sfiT) où T = 1- avec F désignant la fréquence d'échantillonnage. Il convient de relever qu'on F, utilise la même notation que précédemment, considérant qu'il y a équivalence mathématique, même si l'implémentation ou la conversion des différentes représentations dans un dispositif de traitement de signal peut induire des différences de valeurs numériques, en général négligeables, liées par exemple à la précision de calcul limitée du processeur. Le même raisonnement s'applique aussi avec les coefficients ISF.
L'équation précédente, dans le cas des LSF, peut s'écrire : A(z) = 0.5{P(z)+ Q(z)j en définissant les polynômes : M /2-1 P(z) = (1+ z-1) n (1-2q2iz-1 + z-2) i=0 et M/2-1 Q(Z) = (1- z-1)11 (1-2q2i,1z-1±z-2). En référence à la figure lb, on peut aussi représenter le filtre A(z) de coefficients de prédiction ai, i = 0, ..., M par les fréquences ISF notées isf, i = 0, ..., M - 2 et le dernier coefficient am de la récursion de Levinson-Durbin. La représentation du filtre A(z) par ses ISF, notées isf , i = 0,..., M - 2 et am, est donnée par : M/2-1 (1+aM) n (1-2q2,z1+z1 M/2-2 ± (1- am ) - Z-2) n - 2q2i±rz-1 + z2 )1 i=o avec qi = cos(27cisfiT) La présence de fréquences ISF ou LSF proches les unes des autres (dans le spectre) 1 se traduit par des formants sur le spectre du filtre . Les fréquences ISF ou LSF ont un A(z) sens plus physique que les coefficients de prédiction linéaire am, en ce qu'elles sont en 1 relation directe avec les formants de . En effet, deux ISF ou LSF proches indiquent un A(z) formant comme le montre la figure 4. Les deux premières fréquences d' isf, , i = 0,1 sont assez proches (60,5 Hz) donnant naissance à un premier formant relativement sur-tendu. De 1 plus, contrairement aux coefficients de prédiction am, un test de stabilité du filtre est A(z) 1 relativement simple : un filtre représenté par ses coefficients ISF ou LSF est stable si A(z) les coefficients d'indices pairs et impairs alternent.20 Il existe diverses façons de modéliser le signal d'excitation à appliquer au filtre de synthèse à court terme, ce qui conduit à une grande variété de codeurs. Cependant, dans la plupart des codeurs, le signal d'excitation comprend une composante à long terme synthétisée par un filtre de synthèse à long terme ou de façon équivalente par la technique du dictionnaire adaptatif telle que décrite dans la norme G.729, qui permet d'exploiter la périodicité à long terme des sons voisés, tels que les voyelles, qui est due à la vibration des cordes vocales. Le codeur évalue les deux composantes : la partie à long terme qui correspond au dictionnaire adaptatif la partie du dictionnaire fixe, en « boucle fermée » par une méthode d'analyse par synthèse de minimisation de l'erreur entre le signal synthétisé et le signal de parole original en tenant compte d'une pondération perceptuelle. Il est connu de l'homme de l'art que la pondération perceptuelle améliore la qualité subjective de la parole synthétisée comparée à la minimisation directe de l'erreur quadratique moyenne. La pondération perceptuelle consiste à mettre en forme le bruit de quantification de manière à accepter plus de bruit dans les régions de formants que dans les régions inter-formants, afin que le bruit perçu par l'auditeur soit réduit.
Pour atteindre cet objectif, le filtre à court terme de pondération perceptuelle a souvent une fonction de transfert de la forme suivante : A(z/ri) W(z)= A(z/ 212) où les facteurs ri et 72 dénotent des facteurs d'amortissement du filtre ou encore des coefficients de dilatation spectrale. C'est en particulier le cas recommandé dans la norme ITU-T G.729. Ces facteurs fixés une fois pour toutes peuvent être déterminés par ajustement par écoute des signaux codés avec les différents réglages de 7 et 72. Cependant, il est apparu que la diversité de la dynamique des signaux audionumériques est telle qu'il est nécessaire que ces facteurs puissent changer d'une trame à la suivante en fonction de la pente du signal.
En effet, pour des signaux ayant une dynamique moyenne, il est adéquat de fixer l'écart entre les facteurs d'amortissement 7 et 72 à une valeur relativement faible.
Cependant, pour des signaux enregistrés à travers un microphone linéaire, la mise en forme du bruit n'est pas suffisante et le bruit haute fréquence reste bien audible. Le problème a été résolu en adaptant le facteur 72 en fonction de la pente globale du signal à partir des deux premiers coefficients de corrélation partielle, c'est-à-dire du formant dominant du spectre du signal. De plus, lorsqu'un signal très résonnant est détecté par la différence minimale entre les fréquences des LSP ou ISP successives, la constante 72 est ramenée vers 71 afin d'éviter d'avoir un excès de bruit au niveau des formats. Dans le codeur bande élargie AMR-WB de la norme 3GPP TS 26.190, le filtre de prédiction linéaire A(z) est estimé dans le domaine du signal pré-accentué, c'est-à-dire sur un signal préfiltré par le filtre 1- az 1 , a = 0.68. Le filtre de pondération perceptuelle pour le codage ACELP est donné par W(z) = A(z I 21) . Celui-ci combine le filtre 1-/3z W '(z) = A(z / 71) , avec 71 fixé à 0,92 une fois pour toutes, et une désaccentuation 1- /3z-1 avec /3 = 0.68. Comme a = I3 , il en résulte que le filtre de pondération perceptuelle effectif - dans le domaine du signal - est donné par : W*(z) =A(z1 ri) 2 1 Par suite, le bruit de reconstruction du signal aura la forme: 1 A(z I y,) Moyennant le filtre de pondération W(z) , le spectre de bruit de reconstruction du 2 1- 13 z- = A(z I y i) signal pré-accentué est de la forme 1 et celui du signal reconstitué en W ( z) 2 sortie de la désaccentuation 1de la forme désirée 1- fi z-1 1 A(z I y,) Cette mise en forme du bruit de reconstruction a vocation à le masquer autant que possible par les composantes utiles du signal, suivant les principes de la psychoacoustique. 1 C'est en ce sens que l'on peut appeler « filtre de masquage » ci-après. A(z I yi) La modification des caractéristiques spectrales de cellules du type A(z / yi) à partir de A(z) représenté par les coefficients de prédiction de A(z) n'offre pas de flexibilité pour agir sélectivement sur des portions définies du spectre. En effet, tous les zéros de 71 sont ramenés vers l'intérieur du cercle unité d'une même proportion, ce qui ne permet pas d'intervenir sélectivement en fréquence. La présente invention vient améliorer la situation. Elle propose de tirer avantage de la disponibilité, dans un grand nombre de dispositifs de codage des signaux numériques, des fréquences ISF ou LSF, et ainsi de modifier l'expression de A(z) à partir des LSF ou des ISF disponibles. Elle vise alors un procédé de traitement d'un signal numérique, comportant la construction d'un filtre d'amélioration de qualité du signal, le procédé comportant en outre l'obtention de paramètres fréquentiels de type LSF pour « Fréquences de Lignes Spectrales » et/ou de type ISF pour « Fréquences Spectrales d'Immitance », issus d'une analyse de prédiction linéaire (LPC) dudit signal. En particulier, le filtre d'amélioration est défini par une combinaison de polynômes dont des coefficients sont fonctions au moins des paramètres fréquentiels LSF et/ou ISF, et le procédé comporte les étapes : - déterminer des facteurs d'amortissement associés à des racines respectives desdits polynômes, - calculer le filtre d'amélioration au moins en fonction des paramètres fréquentiels LSF et/ou ISF et des facteurs d'amortissement précités.
Ainsi, la présente invention propose l'utilisation des fréquences lsf, ou isf et le cas échéant du coefficient am, présentés précédemment, pour modifier les caractéristiques spectrales fréquentielles du filtre de prédiction linéaire A(z) ou de façon équivalente du 1 filtre de synthèse A(z) Ce résultat ne peut pas être atteint en revanche lorsque le filtre est représenté par ses coefficients usuels am. Les avantages et les applications qui en découlent sont nombreux, comme on le verra plus loin dans la description d'exemples de réalisation en référence aux dessins. Dans une réalisation, le procédé peut comporter une optimisation fréquentielle du filtre d'amélioration par ajustement individuel de chacun des facteurs d'amortissement. Ainsi, le procédé peut comporter en particulier une optimisation fréquentielle du filtre d'amélioration du signal, comprenant un ajustement des facteurs d'amortissement, qui sont alors associés individuellement à chacun des paramètres fréquentiels LSF et/ou ISF.
Dans une réalisation, les facteurs d'amortissement précités peuvent être calculés en fonction d'au moins une différence entre au moins deux paramètres fréquentiels LSF successifs ou entre deux paramètres fréquentiels ISF successifs.
En complément ou en variante, ils peuvent être déduits d'une courbe de variation de facteurs d' amortissement en fonction de la fréquence, représentative de caractéristiques psychoacoustiques du signal. Ces réalisations permettent avantageusement de compenser des effets de surtension, notamment lorsque les fréquences des paramètres LSF ou ISF sont proches en fréquences, comme on le verra plus loin en référence à la figure 4. Comme décrit en détails plus loin, le filtre d'amélioration peut être composé d'au moins une cellule dont les coefficients sont calculés en fonction des paramètres fréquentiels LSF et/ou ISF et de facteurs d'amortissement. En complément ou en variante, il peut être mis en oeuvre sous la forme d'une structure de type Moyenne Ajustée et/ou Auto-Régressive (ou « ARMA »), composée de cellules d'ordre 1 ou 2 associées respectivement aux paramètres fréquentiels LSF et/ou ISF et à des coefficients de filtre de pondération perceptuelle. Avantageusement, on peut prévoir aussi que le filtre comporte un module de compensation de pente calculé en fonction d'un signal de référence de pente cible à approcher. Cette réalisation permet de corriger un effet de la compensation de surtensions sur le spectre comme expliqué plus loin. Dans une application avantageuse au codage/décodage dudit signal numérique, le procédé peut comporter une recherche d'un signal d'excitation utilisant un filtre de pondération perceptuelle fonction dudit filtre d'amélioration du signal. La recherche du signal d'excitation peut utiliser un filtre de pondération perceptuelle, dans le cadre d'une recherche d'un signal de prédiction à long-terme.
En complément ou en variante, la recherche du signal d'excitation peut utiliser un filtre de pondération perceptuelle, dans le cadre d'une recherche d'un signal d'excitation dans un dictionnaire algébrique ou stochastique. Ainsi, pour la mise oeuvre du masquage par exemple dans les codeurs/décodeurs prédictifs, notamment les codeurs de type CELP, il est alors possible au sens de l'invention d'agir de façon contrôlée sur le filtre de pondération perceptuelle, avantageusement pour lui donner une forme désirée. Le procédé peut comporter, dans un mode de réalisation, une étape d'utilisation d'une pluralité de filtres en cascade, représentés par des polynômes dont les racines sont fonction des paramètres fréquentiels LSF et/ou ISF. La présente invention vise aussi un programme informatique comportant des instructions pour la mise en oeuvre du procédé ci-avant, lorsque ce programme est exécuté par un processeur. Elle vise aussi un support mémoire stockant un tel programme Elle vise aussi un dispositif de codage/décodage d'un signal, comportant au moins des moyens d'obtention de paramètres ISF et/ou LSF, et de calcul d'optimisation fréquentielle d'un filtre d'amélioration de signal, pour la mise en oeuvre du procédé ci-avant.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description détaillée ci-après présentant des exemples possibles de réalisation, et à l'examen des dessins annexés sur lesquels : - la figure la illustre une représentation du filtre de prédiction A(z) en fonction des paramètres LSF suivant l'état de l'art, - la figure lb illustre une représentation du filtre de prédiction A(z) en fonction des paramètres ISF suivant l'état de l'art, - la figure 2a détaille une représentation du filtre d'amélioration A'sFr (z) en exploitant les paramètres ISF, - la figure 2b détaille une représentation du filtre d'amélioration ALSFY (z) en exploitant les paramètres LSF, - la figure 3 illustre une application de l'invention au cas de filtres en cascade (H ISF7 (z) dans l'exemple illustré), - la figure 4 illustre une modification des caractéristiques spectrales du filtre A(z) en AisFy ,z, ) suivant une caractéristique de l'invention (en trait épais pour le filtre non modifié, en traits pointillés pour un codeur AMR-WB avec y=0,92, en trait fin pour le filtre modifié au sens de l'invention avec si Delta_isf < 100 Hz : amortissement y=0,95 (compensation des fortes sur-tensions), si Delta_isf < 300 Hz : y=0,97 (compensation de sur-tensions moyennes), sinon pas d'amortissement : y =1), - la figure 5a illustre une décroissance affine de l'amortissement y en fonction de la fréquence pour un traitement d'optimisation de l'amortissement, avec les valeurs de y échantillonnées sur cette courbe à des positions fréquentielles correspondant aux ISF (issues pour l'exemple de l'analyse d'un signal de parole), - la figure 5b présente un exemple de calcul des facteurs d'amortissement yi en fonction de l'écart fréquentiel entre les paramètres ISF ou LSF successifs avec yioo = 0,95 et y300 = 0,97, pour un traitement d'optimisation de l'amortissement, - la figure 6 illustre une chaîne de codage - transmission décodage, avec une implémentation de l'invention notamment au bloc 630, - la figure 7 détaille le bloc 630, dans un exemple de réalisation, - la figure 8a présente à nouveau un exemple d'allure spectrale au sens de l'art antérieur des filtres de la figure 4, tandis que la figure 8b illustre une optimisation au sens de l'invention et que la figure 8c présente cette optimisation combinée avantageusement à une correction de pente fréquentielle, - la figure 9a illustre un filtrage par un filtre à moyenne ajustée, représenté par ses coefficients de prédiction, tandis que la figure 9b illustre un filtrage par un filtre à moyenne ajustée, représenté par ses coefficients ISF, - la figure 10a illustre un filtrage par un filtre autorégressif, représenté par ses coefficients de prédiction, tandis que la figure 10b illustre un filtrage par un filtre autorégressif, représenté par ses coefficients ISF, - la figure 11 illustre un système comportant à titre d'exemple deux terminaux TER, TER' reliés via un canal de transmission 640 et comprenant des dispositifs respectifs de codage/décodage CODEC.
A titre illustratif, il est présenté tout d'abord une version simplifiée de la mise en 1 oeuvre de la présente invention, dans laquelle le filtre de synthèse est donné par on A(z) peut noter qu'une version quantifiée du filtre pourrait être aussi utilisée tout en respectant l'esprit de l'invention. On montre alors comment il est possible de modifier les caractéristiques spectrales du filtre 1représenté par ses fréquences ISF ou LSF en A(z) introduisant des facteurs d'amortissement y, sur les racines de polynômes de la représentation ISF ou LSF. En effet, dans l'état de l'art selon par exemple la norme 3GPP AMR-WB ou de façon équivalente UIT-T G.722.2, le filtre de prédiction linéaire A(z) est modifié en introduisant un facteur d'amortissement, qui est renommé ici rAmR " afin d'éviter toute confusion avec la notation y, utilisée dans l'invention, pour donner un filtre de pondération perceptuelle W(z) = A(z / AMR WB) par 1 A(zi rAMR-WB) où yAmR " 0,92 . La fonction de transfert du filtre de masquage de bruit est donnée par : ayant pour résultat de produire un bruit mis en forme 1 M 1+ la-n --A Y'n MR-WB -Z -m m=1 Comme le montre la figure 4 (courbe en traits pointillés pour Y - AMR WB = 0,92 ), les formants sont amortis avec des maxima qui restent pratiquement au même endroit que ceux du filtre 1/ A(z) ce qui s'explique par le fait que (z Y AMR WB) a pour effet de ramener les zéros de A(z) vers l'intérieur du cercle unité. Cependant, les formants peu prononcés sont très atténués, ou disparaissent (notamment dans les fréquences élevées). L'invention permet de remédier à cet état de fait. On a représenté en effet sur la figure 4 : - un spectre du filtre de synthèse 1/ A(z) pour un extrait de parole (trait gras), - un spectre du filtre de synthèse de pondération perceptuelle d'un codeur/décodeur selon la norme AMR-WB, de type 1/ A(z / 0,92) (en pointillé), et - le spectre du filtre 1/ AISFY (z) obtenu par application de l'invention (trait fin). Les facteurs d'amortissement y, sont donnés à titre d'exemple : Si Delta_isf < 100Hz alors y = 0,95 . Sinon, si Delta_isf < 300 alors y = 0,97 . Dans les autres cas les isf sont plus éloignées alors on n'introduit pas d'amortissement (y =1). Un algorithme de ce type est décrit par la figure 5b. Il apparaît clairement que le premier pic est conservé sur AisFr(z) modifié alors qu'il est trop amorti pour le codeur/décodeur AMR- WB. Il en est de même pour les autres formants, moins sur-tendus certes, mais dont l'allure est conservée alors que pour codeur/décodeur AMR-WB seule l'allure générale du spectre est conservée. Notamment le formant au voisinage de 4800 Hz est conservé par la méthode de l'invention alors qu'il disparaît pour codeur/décodeur AMR-WB. Selon une approche développée ci-après, pour avoir plus de souplesse pour la modification des caractéristiques spectrales de A(z) ou de façon équivalente de 1/ A(z) , il est possible de travailler sur l'expression de A(z) représenté par ses zéros zi , comme suit : A(z) = n(i_zi.z-i), où zi sont les zéros de A(z) .
Cette technique nécessite de calculer les M racines du polynôme A(z) qui sont soit réelles, soit complexes conjuguées deux à deux, étant donné que A(z) est à coefficients réels. Ici encore, on considère cette formulation équivalente d'un point de vue mathématique à la définition initiale de A(z) , sachant qu'en pratique la précision limitée du calcul numérique par un processeur pourrait induire une légère différence quantitative. Dans cette représentation, on peut maintenant affecter un facteur d'amortissement à chaque racine, ce qui a l'effet de ramener les zéros vers l'intérieur du cercle unité : A7(z) = On rappelle que pour obtenir un polynôme à coefficients réels, il convient d'affecter le même amortissement y, = ri pour chaque paire de racines complexes conjuguées d'indices i et j, soit quand zi = zj . Cette façon de procéder offre une bonne souplesse de 1 modification de A(z) et de façon équivalente . Elle présente cependant A(z) l'inconvénient de nécessiter l'extraction des racines de A(z) , ce qui est possible par des algorithmes itératifs mais reste cependant trop complexe, à l'heure actuelle, pour être implémentée dans les codeurs retenus par les organismes de normalisation. Une autre solution plus judicieuse et de complexité réduite est présentée ci-après. Plutôt que de travailler sur les racines du polynôme A(z) , on utilise les représentations de A(z) données par le jeu de fréquences ISF ou LSF de chaque trame. On introduit en particulier des facteurs d'amortissement yi qui dépendent de chaque fréquence LSF ou ISF, c'est-à-dire de leur position sur l'axe des fréquences. En référence à la figure 4, on s'aperçoit que la résonance au voisinage de 250 Hz a pu être contrôlée en affectant un facteur de 0,95 aux fréquences ISF tombant dans le voisinage de ce formant (en fait quand la différence des fréquences ISF entre elles est inférieure à 100 Hz). En outre, les formants peu prononcés sont conservés (pas d'amortissement par exemple pour y, = 1).
La mise en oeuvre du contrôle des caractéristiques spectrales, pour les fréquences ISF, est illustrée sur la figure 2a. Dans un premier temps (étape 200), les facteurs yi à affecter au polynôme d'ordre 2 de chaque fréquence ISF sont calculés en fonction du positionnement en fréquence de chaque ISF. Les facteurs 70, 77' correspondent aux zéros du polynôme 1- z-2 en z =1 (fréquence normalisée 0) et en z = -1 (fréquence normalisée n). Dans un second temps (étape 210), la représentation AISFY (z) de A(z) en fonction des ISF et des facteurs 7 est donnée dans le domaine transformé en z, par : M/2-1 A/SF, ( z ) 0.51(1+ am ) (1-2a fl(y )z f y - 1+ 2( 2i,) '7. 2) i=0 + (1- am )(1+ fio(70 7,r)z-1 f20(707,r)z-2) M/2-2 n(1--2q2i+ji(72,+1)Z1 f2(72,+1)Z2 i=0111 où les coefficients qi sont donnés en fonction des ISF, notés isf, , par une relation du type qi=cos(27cisfiT). Un exemple de fonction f1 est donné par f1(7, ) = ri et de fonction f2 par f2(7, ) = ri2, que l'on complète avec les fonctions fi° (70 , 77') = 77' - 70 et f20 ( 212z-) = 70.77'. Dans ce mode de réalisation, le coefficient am reste inchangé. Dans une variante, on pourrait modifier ce coefficient. M IS-m Les coefficients du filtre modifié AIST (z) 1am F 7.Z sont typiquement obtenus m=0 en filtrant l'impulsion unité par AISFY (z) (équation précédente) pour donner la réponse impulsionnelle almsFY (m=0,...,M). Ce principe est utilisé dans le calcul de la récurrence détaillée ci-après. Il convient de préciser que d'autres modes de calcul peuvent être envisagés tout en respectant l'esprit de l'invention, par exemple un calcul des coefficients basé sur un développement formel des produits de polynômes. On note alors P1 ( z ) et P2 (z) les polynômes : M/2-1 Pl(Z) = 11 (1_2,2ifi(72,)z-i±f2(72,)z-2) i=0 M/2-2 P2 (Z)(1-2g2i+lf1(72i+1)z1+ 2 et les polynômes partiels pl (z) et P2 (z) par : p1(z) = (1- 2q2ifi(2,2i)z-1+ f2(72,)z-2)Pii1(z) P2 (z) (1- 2q2i_iifi(212i+1)z-1± f2(72i+i)z-2)Pi-21(z) Ces équations fournissent une récurrence permettant d'aboutir aux polynômes : P1 (z) pm1 / 2( 1, z, ) et P2(z) = PM2/2-2(Z) 2i+2 2i+2 En posant Pl(z) = (n).z' et P2(z) = p2(n).z' , on peut écrire les n=0 n=0 formules récursives suivantes: (n) = P fi(72i) + f 2(72i) - 2) , i=1,...,M/2-1, n=0,...,2i+2 Pi(n) = Pi2_1(n) 2q2i+ii;(72i+i) Pi2_1(n -1) + f2(72,i+i) Pi2_1(n - 2), i=1,...,M/2-2, n=0,...,2i+2 avec l'initialisation suivante : P10(0) =1, Pio (1) = -2170,f1(70) , Pio (2) = f2 (ro) ; Pô (0) =1 , pô (1) = -2171,f1(21) (2) = f2 (ri) ; et où tout autre terme utilisé dans la récurrence pour n<0 sont initialisés à O. Puis, on effectue l'opération : 22 2 ( + f (if if 1 2 ( 1 2 PM / 2-1 ^ni pm12- 2 ^ni .-i-Pm12-2^n- f20(70, i-Pmi2-2(n n = 0, M On effectue enfin la sommation des coefficients partiels : anISF, _ 0.51(1+ am )PM 12 1(n) + (1- am )Pm22 /2-1(n)1, n = 0, ..., M Ces coefficients définissent le filtre modifié voulu : M AISF (z) =aISTY z_n n n=0 La mise en oeuvre du contrôle des caractéristiques spectrales, pour les fréquences LSF, est décrite par la figure 2b. Dans un premier temps (étape 250) les facteurs 7 à affecter au polynôme d'ordre 2 de chaque fréquence LSF sont calculés en fonction du positionnement en fréquence de chaque LSF. Dans un second temps (étape 260), la représentation ALsFr(z) de A(z) en fonction des fréquences LSF et des facteurs y est donnée dans le domaine transformé en z : M/2-1 ALSF, ( z ) 0.51(1+ fi(72.c)Z1) n (1-2a f,(1, '- 2i) -z 1 ±f 2 s, 2i,)-7 2) i=0 M/2-1 +(1-fi(70)z-1) n (1-2q2i,1f1(72i,1)z1+f2(72i,1) 2) i=0 où les coefficients qi sont donnés en fonction des fréquences LSF, notées lsf, , par une relation du type qi = cos(2711sfiT) . Là encore, comme pour le domaine des ISF, deux racines réelles, associées à des ISF implicites situées à la fréquence nulle et à la fréquence de Nyquist (ou fréquence normalisée 7r), peuvent être affectées par des facteurs d'amortissement, respectivement 70 et 77 . Un exemple de fonction fi est donné par f1(7) = ri et de fonction f2 par f2(7) = ri2 . Les facteurs ri , 70 et 72.' sont généralement, mais pas nécessairement, inférieurs ou égaux à 1. La réponse impulsionnelle de ALSFY (z) est calculée par un algorithme du même type que celui utilisé pour les fréquences ISF et présenté ci-avant ou par un autre algorithme effectuant par exemple la demie-somme des produits de polynômes développés sous forme de sommes On peut en outre prendre la précaution de ne pas faire évoluer les valeurs des facteurs 7 de façon trop importante entre les fréquences ISF (ou LSF) successives, car il est préférable que des ISF voisines ne soient pas affectées par des amortissements trop différents, afin de garder un contrôle pertinent des propriétés du spectre et de garantir la stabilité du filtre résultant. Les modes de réalisation décrits ici à titre d'exemple respectent cette démarche.
L'invention peut d'ailleurs prévoir une étape optionnelle de test de stabilité, en calculant par exemple les fréquences ISF (ou LSF) associées au filtre modifié AisFY (z) (ou ALSFy(z)) au sens de l'état de l'art comme décrit ci-avant et en vérifiant ensuite l'alternance des ISF (LSF) paires et impaires. En variante, on peut recalculer les coefficients PARCOR ki à partir des coefficients du même filtre, suivant des relations de récurrence décrites dans l'état de l'art, et vérifier une double-inégalité du type -1 < ki < +1 pour tout i=1,...,M. A l'issue de ce test, si une instabilité du filtre est révélée par défaut de cette alternance des ISF ou LSF, ou bien de l'inégalité sur les coefficients k, diverses options sont envisageables, telles que par exemple réduire les écarts entre facteurs y (voire, revenir à une définition plus classique du filtre perceptuel, en cas d'instabilité au-delà d'un seuil). Les paramètres du filtre perceptuel peuvent donc être redéfinis pour aboutir à un filtre stable, tout en restant dans l'esprit de l'invention. Le procédé décrit jusqu'à présent permet de contrôler sélectivement l'amortissement 1 1 1 des pics d'un filtre de pondération ou à partir d'un filtre LPC AtsFy (z ) ALsFy (z) A(z) mais en contrepartie il peut affecter la pente générale du spectre. L'invention prévoit le cas échéant la mise en cascade d'un module de compensation de pente spectrale Ps (z) . En 1 effet, le fait d'appliquer aux surtensions initiales du filtre des facteurs A(z) d'amortissement qui varient en fonction de la fréquence, induit potentiellement un effet de 1 1 pente globale sur la courbe résultante AIST, (z) ou A LSF, (z) par comparaison avec l'allure 1 générale de A z) ou bien d'une version uniformément amortie 1/ A(z / y) où y est ( constant. Ceci est particulièrement vrai dans un cas tel que décrit par la figure 5a, où l'on définit les termes y selon une loi décroissante de la fréquence isf , avec des valeurs relativement proches de 1 en basse fréquence et relativement éloignées de 1 en haute fréquence. L'effet observé est une pente négative d'autant plus prononcée que les valeurs de y s'approchent de 1, et que les surtensions initiales sont relativement fortes. Pour illustrer cet effet, il est pris sur la figure 8a l'exemple d'un signal artificiel composé de 7 composantes tonales dont le spectre est présenté sur cette figure 8a, ainsi que sa modélisation LPC d'ordre 16 : 1/ A(z) . A titre de référence, on montre également la courbe de mise en forme du bruit 1/ A(z / 0,92) associée à un filtre perceptuel W '(z) dans le domaine du signal, pour lequel le facteur d'amortissement est constant : y R wB = 0,92 . Enfin, la figure 8a présente également une courbe de masquage (« masking threshold » en anglais) calculée d'après le même signal original, indiquant la mise en forme de bruit idéale (à un décalage global près, en dB) qui le rendrait le moins perceptible possible. On observe que, mis à part la disparité des surtensions, l'ensemble de ces courbes présente une pente similaire. La figure 8b illustre quant à elle la courbe 1/ AisFr(z) associée à une loi affine décroissante y( f ) ayant comme bornes [ y0 = 0, 99, y, = 0, 85] . Cette courbe reproduit bien mieux que la courbe « standard » 1/ A(z / 0,92) l'aspect sur-tendu des pics de la courbe de masquage vers les basses fréquences ainsi que l'aspect adouci des bosses vers les hautes fréquences, ce qui illustre l'intérêt de la présente invention. En revanche, elle présente très clairement une pente plus importante que les autres. Or, une telle pente présente en soi un inconvénient majeur si elle n'est pas compensée : elle implique une pénalisation excessive de la partie des basses fréquences du spectre (se traduisant par une injection importante de bruit, ou bien encore une altération significative de la reconstruction de composantes du signal) en comparaison de la partie des hautes fréquences, détruisant le bénéfice de la mise en forme sélective des pics. Il convient donc, lorsque la structure finale du filtre perceptuel et le choix des valeurs extrêmes de y le nécessitent, de corriger la structure du filtre par un module de compensation de pente Ps (z) qui peut en toute généralité être par exemple un filtre ARMA à un ou plusieurs coefficients: NN ND P (z) = PD(z) , avec PN (Z) P N (M)Z m et PD (Z) = p D (m)z m PN (z) ni=o ni=o pour donner le filtre incluant la correction de pente : AisFy (z)ps(z. ) ou ALsFY (z) Ps(z) 1 a z -1 On décrit plus précisément l'exemple suivant du filtre de masquage isF1 A (z) 1 où Ps(z) = tilt -1 est un filtre autorégressif d'ordre 1. 1-a1 z Le dénivelé de pente dû au filtre Ps (z) sera égal à: P (z ) 1+ ai,* D = s (z = e po) 1- atilt P1 - Pour un dénivelé désiré DN , on peut en déduire la valeur de atat tilt a = DN -1 DN +1 Une façon de calculer la pente automatiquement consiste à prendre comme référence l'allure globale de courbes dont le comportement est réputé correct pour la pondération perceptuelle, par exemple on peut prendre comme référence la courbe A(z / 7AMR-WB) 7AMR-WB = 0,92 comme pour le codeur/décodeur AMR-WB.
On calcule alors atilt de sorte que le filtre 1 z) ou 1 ( _ a (z) illt ) / AIST7 ( (1- ai,* (z)) / ALSFY ( z) ) 1 ait la même pente que le filtre , ou de façon A(z / 7AMR-WB) , ) ou A(z / Y / A LSF, f z\ \ 1 A ISFy ( z, équivalente que A(z / Y - AMR-WB ) i FI \ - AMR WB) ) ait la même pente que 1/ (1- alult z-1) - Les étapes de calcul sont celles habituellement mises en oeuvre pour l'estimation d'un filtre LPC, mais spécialisées ici à l'ordre 1, avec : - le calcul d'une réponse impulsionnelle h(n) de A(z I 7AMR-WB) I A IsFY (z) ou \ 1 A -riLSF / \ A(z / 7AMR-WB ) i 7 U), tronquée à un nombre d'échantillons raisonnable pour minimiser les coûts de calcul, - le calcul des coefficients d'auto-corrélation R(0) et R(1), d'ordre 0 et 1, de h(n), - le calcul de ult al = R(1)1R(0) La figure 8c montre la courbe corrigée de façon satisfaisante par l'utilisation de cette cellule de « tilt » supplémentaire, avec l'implémentation des calculs ci-dessus. Par extension et procédant de façon similaire, il est possible de définir un filtre correcteur d'ordre supérieur en calculant les coefficients d' autocorrélation d'ordres supérieurs et d'utiliser un algorithme de type Levinson-Durbin pour en déduire les coefficients du filtre. Le cas particulier d'un filtre d'ordre 2 : Ps (z) = 1 1- a2 z-1 -a2,2'z' 1 implique par exemple les calculs suivants (selon la technique décrite notamment dans "Digital Processing of Speech Signais", L.R. Rabiner & R.W. Schafer) : 1 avec a2 = R(1)R(0) -R(1)R(2) 1 R2(0) -R2(1) 2 = R(2)R(0) -R2(1) Q2 R2(0) -R2(1) Bien entendu, d'autres courbes dérivant plus ou moins directement de l'analyse du signal peuvent être utilisées comme références. L'exemple de réalisation précédent visant à ajuster le filtre de compensation de pente Ps (z) se généralise au cas où A(z / Y , AMR WB) est remplacé par un autre filtre de référence. Dans une variante, le filtre A(z / Y , AMR WB) est remplacé par un filtre de prédiction linéaire ou plus généralement un filtre ARMA estimé à partir d'une courbe de masquage. Lorsque le traitement d'une trame de signal est décomposé sur plusieurs sous-trames, les coefficients du filtre A(z) (et donc ceux du filtre W(z) ) peuvent être mis à jour à chaque sous-trame. Le calcul du ou des coefficients du filtre de correction de pente peut être effectué à chaque sous-trame. Ce calcul peut également être effectué une seule fois par trame, par exemple d'après les données de la dernière sous-trame de la trame, auquel cas les coefficients des autres sous-trames peuvent être calculés par simple interpolation linéaire, par exemple.
En référence à la figure 3, dans un cas général, le filtre de modélisation du signal audionumérique peut être donné par une cascade de filtres de prédiction linéaire : 1 1 A (z) Ai(z)....Aq(z) = , chacun pouvant être représenté au sens de l'invention par ses coefficients ISF ou LSF.
On indique qu'il en est de même pour un codeur/décodeur AMR-WB selon la norme 3GPP TS 26.190 où deux filtres sont mis en cascade : un filtre de préaccentuation à coefficient fixe et un filtre de prédiction linéaire à 16 coefficients calculé sur le signal pré-accentué. Dans ce cas, on peut généraliser le principe de l'invention à une cascade de filtres de prédiction.
Il est alors possible de prendre comme filtre de pondération perceptuelle au moins un des q filtres du produit des filtres modifiés suivant l'invention. A titre d'exemple, dans le codeur/décodeur AMR-WB, deux filtres de synthèse sont en jeu et le filtre de masquage de bruit est calculé à partir du filtre A2 (z) déterminé à partir du signal pré-accentué par A1(z) .
En référence à la figure 3, à l'étape 300, on calcule les facteurs d'amortissement à affecter à chaque cellule du filtre ARMA lorsque le filtre de masquage est constitué d'une cascade de filtres, ce qui constitue d'ailleurs une généralisation du masquage au sens de la norme AMR-WB. A l'étape 310, on effectue le produit des cellules en cascade : qISFz H isFy ( ) ISF ( ) J-1 ADJ (z) Le même type de filtre HisFY (z) peut être obtenu pour un produit de cellules en cascade à partir de LSF. Il est décrit maintenant un mode de réalisation possible de l'invention en référence aux figures 6 et 7. Dans la figure 6, on calcule le filtre de pondération utilisé pour le calcul de l'excitation, y compris l'excitation à long-terme, dans le bloc 630, afin de mettre en forme le bruit de reconstruction par une technique d'analyse par synthèse. Le calcul du signal d'excitation dans le bloc 630 mettant en oeuvre la pondération AISFy z^ ) ou ALsFr ( z) est décrit en détail par la figure 7. En référence à la figure 6, le signal audionumérique entre dans un bloc 600 d'analyse à court terme LPC qui comprend le calcul d'un ou de plusieurs filtres de modélisation d'un signal audionumérique, le filtre étant par exemple représenté par l'expression générale : 1 1 A (z) Aq (z)....A2A1(z) On prend ci-après pour exemple, à titre illustratif non limitatif, le cas de deux filtres 20 comme dans le codeur/décodeur 3GPP AMR-WB et le codeur/décodeur UIT-T G.718 : - un filtre de préaccentuation AI (z) =1- 0, 68z-1 - un filtre de prédiction linéaire d'ordre M pour A2 (z) . Les caractéristiques du filtre A (z) sont alors modifiées à partir de ses ISF (par exemple) pour en produire un filtre de masquage de bruit utilisé dans les codeurs 25 audionumériques, en particulier les codeurs CELP. Dans le bloc 610, on calcule ensuite les facteurs 7 qui sont fonction d'une loi, par exemple une loi affine décroissante (comme illustré sur la figure 5a), et/ou définis par un algorithme qui évalue la différence entre les ISF ou LSF successives pour calculer l'amortissement ri (dont l'organigramme est illustré sur la figure 5b). Connaissant la fréquence des isfi , on calcule la valeur de ri grâce à la fonction linéaire, on en déduit les valeurs f1(7,) = ri et f2(ri) = 7,2 dans le cas le plus simple et finalement le filtre AISFY (z) du bloc 620 est donné par l'équation : M / 2-1 ) 0.5 (1+am ) n (1-2.72,72,z 1+ riz-2) i=0 + (1- am )(1+ 70)z-1- 70.72,z-2) M/2-2 (1-2q2i+172i,1z 1+ 7;i+1z 2) i=0 Le filtre AISFY (z) est ensuite corrigé par le filtre de pente pour donner le filtre AISFY Ps(z) . On peut noter que le cas Ps (z) =1 ramène au cas précédent. Le générateur d'excitation (bloc 630) reçoit le signal à coder s (n) ou le cas échéant, le signal préaccentué, les ISF ou les LSF quantifiées (ou de façon équivalente les coefficients du filtre de synthèse ainsi quantifié) et les coefficients du filtre perceptuel AISFY (z)p(z) ou ALSFY (z)P(z) et génère des paramètres d'excitation qui sont, avec les ISF ou LSF quantifiées, transmis (via un canal 640) au décodeur 650. A partir des paramètres quantifiés, le décodeur 650 produit un signal de synthèse décodé g (n) en filtrant le signal d'excitation décodé é (n) par le filtre de synthèse A(z) 1 où A(z) est le filtre de synthèse calculé à partir des paramètres ISF ou LSF quantifiées ou encore filtré directement par le filtre récursif de synthèse représenté par ses paramètres ISP/LSP. Si l'excitation a été calculée sur le signal pré-emphasé, comme dans l'AMR-WB, ce filtrage est suivi d'une désaccentuation qui compense la préaccentuation réalisée au 20 codeur. Le bloc 630 de la figure 6 est maintenant décrit en détails, en référence à la figure 7, en prenant pour exemple le calcul de l'excitation dans un codeur CELP où le signal du dictionnaire adaptatif et celui d'un dictionnaire fixe sont calculés par une méthode d'analyse 1 par synthèse en minimisant le bruit de codage entre l'entrée S(z) et le signal synthétisé S(z) pondéré par le filtre de mise en forme du bruit W '(z) : 2 dz z \ 1 S(z)ê(z)+ g ,Ck(z) W '(z) ECELPV` B(z)Â (z) 271- j où B(z) est le « prédicteur de pitch » du dictionnaire adaptatif formant un filtre de synthèse de pitch (à long terme) 1 1est le filtre de synthèse de prédiction linéaire B(z) A(z) (à court terme), le signal ê(z) est la transformée en z du signal issu du dictionnaire de formes d'ondes pour les instants précédents la trame courante (par convention <0) et nul pour n>0 et Ck (z) l'excitation sur le bloc courant cadrée par le gain g,. Le prédicteur de pitch peut être à un coefficient, auquel cas B(z) =1- g pz To où gp est le gain de pitch associé à la fréquence fondamentale (ou « pitch ») To . Dans d'autres cas, le prédicteur de pitch peut avoir plusieurs coefficients, ou encore être à retard fractionnaire. De plus, comme dans la norme AMR-WB, le filtre B(z) peut inclure un filtre passe-bas visant à limiter les harmoniques de pitch jusqu'à une certaine fréquence limite inférieure à la fréquence de Nyquist.
Cette équation est l'équation fondamentale du codage CELP avec analyse par synthèse et minimisation du critère CELP utilisant une pondération perceptuelle W '(z) . Le 2 bruit de codage peut alors être mis en forme et présente un spectre S(z) - S(z) de la forme: 2 , avec W '(z) ayant une des formes décrites précédemment. 1 W '(z) Pour parvenir au schéma de la figure 7, l'excitation CELP est séparée en deux composantes : la première ê(z) correspond à l'excitation passée et est nulle pour chaque échantillon de la trame courante ; son filtrage par le modèle de synthèse 1 1 B(z) A(z) pour chaque instant d'échantillonnage de la trame courante donne le "ringing", la seconde gkCk(z) donne par filtrage à mémoire nulle la contribution de la trame courante au signal de synthèse. Suivant que l'on filtre la différence entre le signal et la contribution de l'excitation passée ou que l'on soustrait la différence des signaux filtrés, on obtient deux modes de calcul différents de la cible. Le premier cas de figure est celui du codeur/décodeur AMR-WB tandis que le second est utilisé dans le schéma de principe de la figure 8 selon la norme ITUT G.718. Dans le cas général, le filtre de synthèse est constitué d'une cascade de filtres et le filtre de pondération est généré à partir d' au moins une cellule du type A(z / .
Dans les normes AMR-WB et ITU-T G.718, une pré-accentuation fixe est utilisée avant le calcul du filtre LPC à partir duquel est calculé le filtre de pondération. Dans cet exemple, non limitatif, le filtre de synthèse est constitué d'un filtre 1 suivi d'un filtre de A(z) désaccentuation 1 avec /3 = 0.68. Moyennant le filtre de pondération perceptuelle 1- )6z1 W '(z) = A(z / 7AMR-WB) ' le critère CELP sera donné par: 2 dz z 1 S(z) êcz2+ gcCk(z) A(z rAMR-WB) ECELP B(z)A(z)(1- )6z-1) Ci Sc A(z rAMR-WB) En définissant W(z) = le critère CELP devient : 1- flz , 2 dz z \ 1 ê(z)+ gcrk(z) W(z) ECELP Pre \Z/ B(Z)Â(Z) 271-j Sc - où Spre(Z) est le signal pré-accentué Spre(Z)= (1-flz 1 )S(z). Il est donc équivalent de calculer l'excitation CELP sur le signal original avec le filtre de pondération W '(z) , que de minimiser le critère CELP sur le signal pré-accentué A(z / 7AMR-WB) 1-fiz avec le filtre de pondération "combiné" W(z) = -1 tel que défini précédemment. Dans la suite, à titre d'exemple, on choisit à titre non limitatif d'opérer sur le signal pré-accentué comme décrit en référence au mode de réalisation du bloc 630 de la figure 7, étant entendu que l'autre façon de procéder peut s'en déduire. Ce type d'approche est conforme au calcul du signal d'excitation dans un codeur selon la norme 3GPP AMR-WB ou encore selon la norme la norme UIT-T-G.718.
En particulier, le filtre de pondération W '(z) , qui vaut A(z / AMR-WB) dans l'état de l'art quand on le considère s'appliquant dans le domaine du signal non pré-accentué, est changé en A/sFr (z)P,(z) ou ALsFr (z)P(z) dont les caractéristiques spectrales ont été modifiées au sens de l'invention, c'est-à-dire à partir d'expressions impliquant les ISF ou LSF et les facteurs yt , avec filtres de compensation de pente, comme décrit précédemment.
Le signal pré-accentué s pre(n) est d'abord filtré par : AisFy (z)ps(z) ffi flz 1) ou ALsFr (z)P, (z) /(1- /3z-1) (bloc 700), pour donner le signal pré-accentué filtré s A1SF (z)p (z) ALSFY (z)P (z) , Puis, la réponse du filtre (de type ou s au bloc 710) (1- flz-1)Â(z) (1- flz-1)Â(z) à une entrée nulle avec les conditions initiales constituées du signal pré-accentué reconstitué pour n <0 , est soustraite du signal pré-accentué filtré sp,,,,(n) (opérateur 720) pour donner le signal cible x(n). Ici, 1/ A(z) est le filtre de synthèse LPC partiel défini par ses coefficients quantifiés. Les filtrages par le filtre AISFY (z)P (z) ou ALSFY (z)P (z) sont réalisés en cascade. Le filtrage par AISFY (z) ou ALSFY (z) peut être effectué de deux façons : - la première consiste à filtrer le signal sp, w(n) par la réponse impulsionnelle du filtre M M A 1ST, (z) amISF, z_m-m ou ALSFY (z) rz de coefficients aISTy ou aLSFY calculéem ni=o ni=o comme décrit précédemment et en référence à la figure 9a (pour le cas des ISF) ; - la deuxième consiste à effectuer le filtrage directement à partir du filtre défini par ses ISF comme décrit par la figure 9b, ou à partir d'un filtre défini suivant une structure similaire mais par ses LSF ; c'est-à-dire que la structure de filtrage est alors composée de cellules d'ordre 1 et 2 telles que mises en évidence plus haut, associées respectivement aux ISF ou LSF et aux facteurs d'amortissement yi .
Des formes de réalisation de la présente invention présentent également un intérêt pour des applications dans d'autres modules de traitement du signal, comme par exemple au niveau du filtrage de synthèse par 1/ A(z) , ou de la même façon par sa version quantifiée 1/ A(z) , ce module de filtrage apparaissant dans les codecs CELP comme dans les codecs AMR-WB. Le filtrage par 1/ A(z) peut ainsi être effectué de façon classique ou bien mis 1 1 en oeuvre par le filtre récursif AtsFy ( z ) ou ALSFy (z) structuré en cellules d'ordre 1 et 2 associées respectivement aux coefficients ISF ou LSF conformément à la figure 10, en posant y, =1, c'est-à-dire sans facteur d'amortissement. La façon de filtrer au moyen des filtres représentés par leurs ISF ou LSF permet de mieux lisser les transitions de trames du fait que ces coefficients ont de meilleures propriétés d'interpolation. Dans sa forme générale, le filtrage d'un signal E(z) par le filtre SF1 pour A (z) donner Sy(z) avec y pouvant avoir la valeur 1, avec : Sy(z) = AuF, (z)E(z) ou Sy(z) ALsFy (z)E(z) conformément à la figure 10a est tel que : 1 1 M12- S (z)- 2 (1+am) n (1- 2q2, + 2) M / 2-2 = E(z) ( 1 - am ) - 1)(1+ Y , _ Z 1) fl (1- 2q2i+172i+1Z 1 ± 7;i+1Z 2 ) i=0 En décomposant le produit de cellules d'ordre 2 en cellules élémentaires, la sortie d'une cellule en fonction de l'entrée est donnée par : ( z ) 1 . (z) 2q2,212iz-iSi (z)± iz zz) i=0,...,M / 2 -1 Pour le calcul de chaque échantillon n, on calcule d'abord la somme des prédictions pondérées du premier terme du filtre: 2 Predl(z)=(1+am)I -2q2, (z) (z) =0 et du second terme: Pred 2 (Z) = (1- am ) 27 (M --2 2 é2 -2q2i+1 72+1Z 1 (Z) 7;i+1Z 20i (.Z) i=0 ,'0 ém2 , 72r z -1:§m2 (z) r '37, 1" 1- 2 et on obtient dans le domaine temporel : s(n) = e(n) - [predi (n)+ pred2 (n)1 . 2 On met ensuite à jour les mémoires du filtre (n) et (n) du filtre de la figure 10b ainsi que les contenus des cellules au temps n -1 et n -2 . L'homme de l'art saura adapter ce schéma au cas des LSF pour traiter le filtrage 1 d'un signal E(z) par le filtre Ls, suivant une structure similaire. A (z) La recherche de l'excitation définie par B(z) qui est un prédicteur de pitch à un ou plusieurs coefficients ou à retard fractionnaire To et par le gain gp dans le dictionnaire adaptatif (bloc 730) est ensuite effectuée. Le critère qui est minimisé est l'erreur quadratique du signal x11 (n) égal à la différence (opérateur 750) entre le signal « cible » x(n) et les versions décalées du retard d qui peut être fractionnaire et filtrées (au bloc 740) du dictionnaire adaptatif 730. Cette opération est très complexe si elle est effectuée de façon exhaustive et en général on utilise une recherche sous-optimale d'abord en « boucle ouverte » pour focaliser la recherche en « boucle fermée ». , Elle fait intervenir un filtre (bloc 740) de type A (Z)P (z) Fi (z) A LSFy (z) p(z) Fi(z) est un filtre passe-bas optionnel à plusieurs coefficients, où Fi(Z) 1- I k-1 Â(z) actionné ou non en fonction d'un critère d'erreur quadratique pondéré, comme décrit dans la norme TS 26.190 AMR-WB.
Une fois trouvés le retard optimal To et le gain optimal gp , le signal « cible » est réactualisé en soustrayant (opérateur 750) du signal cible x(n) la contribution du dictionnaire adaptatif pour donner le signal cible mis à jour x11 (n) . 1- )3z-1 Â(z) OU Le calcul du signal d'excitation du dictionnaire algébrique est ensuite effectué. Le dictionnaire (bloc 760) utilisé est par exemple un dictionnaire algébrique multiimpulsionnel de type ACELP, mais d'autres dictionnaires sont possibles par exemple des dictionnaires algébriques issus de codes binaires ou de codes correcteurs d'erreur ou encore des dictionnaires stochastiques. Le principe de la recherche consiste à filtrer les formes d'onde du dictionnaire par une cascade de filtres AisFy (z)ps (z) F2 (z) ALSFy (z)ps(z) F2 (z) (z)(1-flz-1) Â(z) ou Fp (z)(1 flz-1) Â(z) et à cadrer par un facteur de gain g, puis à minimiser l'erreur quadratique du signal cible réactualisé xii,,(n) (bloc 780).
Le filtre F2 (z) est un filtre optionnel de modification des caractéristiques spectrales du dictionnaire algébrique ou stochastique. F p(z) est un pré-filtre de renforcement de pitch ou « pitch sharpening » sur la figure 7. A titre d'exemple, celui-ci est donné par F (z) =1- 0,85z-T P' dans la norme 3GPP AMR-WB, où TF, est la partie entière du pitch fractionnaire To.
Cette étape requiert le calcul de la réponse impulsionnelle du filtre : AISF (z) , ) z, F ( F 2(Z) F p(Z)(1 6 Z-1 ) Â(Z) ALsFr (z)P(z) F2(z) OU F (Z)(1 6 Z-1 ) Â(z) , laquelle étape est mise en oeuvre avantageusement par le traitement au sens de l'invention, avec le filtre de masquage modifié A1SF (z)P,(z) ou ALSF (z)P,(z) donné par sa représentation en fonction des ISF avec les deux méthodes possibles soit en filtrant directement par la réponse impulsionnelle du filtre LSF LSF A , y z, ) ou Ar (z) , soit en filtrant directement à partir des ISF ou LSF et du filtre de pente. Il est connu de l'homme de l'art que, pour des dictionnaires algébriques, la minimisation du critère CELP s'effectue au moyen d'algorithmes rapides, par exemple du type de ceux utilisés dans l'AMR-WB pour des dictionnaires algébriques multiimpulsionnels et que la recherche met en oeuvre la matrice triangulaire inférieure de Toëplitz basée sur la réponse impulsionnelle des filtres définis ci-dessus. Dans ce mode de réalisation, l'exemple choisi est celui d'un filtre utilisant les ISF mais, bien entendu, un filtre utilisant des LSF peut être prévu de manière équivalente.
L'invention s'applique donc au traitement des signaux numériques avantageusement mais non limitativement dans les cas où les coefficients ISF ou LSF sont disponibles notamment pour la synthèse des signaux avec amortissement des surtensions trop fortes, le calcul du filtre de masquage de bruit avec contrôle du bruit dans les formants, la réduction de bruit dans les traitements audio notamment et en particulier dans les codeurs/décodeurs. Ainsi l'invention s'applique à un codage prédictif autre que le codage CELP, par exemple un codage avec rétroaction de bruit tel que mis en oeuvre dans les normes UIT-T G.711.1 et G.722 Annexe B, ou un codage prédictif par transformée de type TCX (Transform Coding eXcitation), où le filtre de pondération de type A(z/y) serait remplacé par un filtre AISFY (z) ou ALsFr(z) Par ailleurs l'invention s'applique tant au codage (comme représenté à titre d'exemple précédemment sur les figures 6 et 7) qu'au décodage, notamment dans le cadre d'une optimisation de filtre d'amélioration quelconque du signal au décodage. Elle vise ainsi aussi bien un dispositif codeur qu'un dispositif décodeur, par exemple dans des terminaux respectifs TER et TER' comportant des dispositifs CODEC de codage/décodage respectifs, compatibles, comportant des moyens tels qu'un processeur PROC et une mémoire de travail MEM (figure 11) pour la mise en oeuvre du procédé ci-avant. Ces terminaux sont reliés par un canal de transmission 640 (d'un réseau de télécommunications typiquement) qui peut être conforme au canal 640 représenté sur la figure 6. La description de l'invention faite précédemment suppose un ordre de prédiction linéaire pair. L'homme de l'art saura comment adapter le principe de l'invention au cas d'un ordre de prédiction linéaire impair, ce qui par exemple change la définition des polynômes P(z) et Q(z) pour les LSF suivant l'équation : (M-1)/2 (M-3)/2 ALsF (z) 0.5 n (1_2,2,z-1+z1+(1-z-2) i=0 i=0 Il en est de même pour les ISF dans le cas d'un ordre impair.
On a décrit ci-avant des modes de réalisation dans lesquels on utilise des paramètres fréquentiels ISF ou LSF pour calculer le filtre d'amélioration. Toutefois, il est possible d'utiliser les deux types de paramètres à la fois ISF et LSF. Par exemple, il peut être prévu une première détermination brute du filtre et des facteurs d'amortissement dans un premier domaine (par exemple à partir des ISF ou des LSF), puis un ajustement des facteurs d'amortissement dans le domaine dual (en utilisant les LSF ou les ISF, respectivement).

Claims (13)

  1. REVENDICATIONS1. Procédé de traitement d'un signal numérique pour un codage/décodage du signal, comportant la construction d'un filtre d'amélioration ( AisFr (z) Ps (z) ALsF" (z) P (z) ; H'51 (z) , HisF, (z)) de qualité dudit signal, le procédé comportant en outre l'obtention de paramètres fréquentiels de type LSF pour « Fréquences de Lignes Spectrales » et/ou de type ISF pour « Fréquences Spectrales d'hnmitance », issus d'une analyse de prédiction linéaire (LPC) dudit signal ; caractérisé en ce que le filtre d'amélioration est défini par une combinaison de polynômes dont des coefficients sont fonctions au moins des paramètres fréquentiels LSF et/ou ISF, et en ce que le procédé comporte les étapes : - déterminer des facteurs d'amortissement ( ) associés à des racines respectives desdits polynômes (200 ; 250 ; 300), - calculer le filtre d'amélioration ( AlsFr(z) ; AISF (Z) ) au moins en fonction desdits paramètres fréquentiels LSF et/ou ISF et desdits facteurs d'amortissement (210 ; 260 ; 310).
  2. 2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte une optimisation fréquentielle du filtre d'amélioration par ajustement individuel d'au moins un desdits facteurs d'amortissement.
  3. 3. Procédé selon l'une des revendications 1 et 2, caractérisé en ce que les facteurs d'amortissement sont calculés en fonction d'au moins une différence entre au moins deux paramètres fréquentiels LSF successifs ou entre deux paramètres fréquentiels ISF successifs.
  4. 4. Procédé selon l'une des revendications précédentes, caractérisé en ce que les facteurs d'amortissement (ri) sont déduits d'une courbe de variation de facteurs d'amortissement (7(f)) en fonction de la fréquence, représentative de caractéristiques psychoacoustiques dudit signal.
  5. 5. Procédé selon l'une des revendications précédentes, caractérisé en ce que le filtre F ISF d'amélioration est composé d'au moins une cellule (AD j (z) et/ou AD f(z) ) dont les coefficients sont calculés en fonction des paramètres fréquentiels LSF et/ou ISF et de facteurs d'amortissement ( ).
  6. 6. Procédé selon l'une des revendications précédentes, caractérisé en ce que le filtre est mis en oeuvre sous la forme d'une structure de type Moyenne Ajustée et/ou Auto-Régressive, composée de cellules d'ordre 1 ou 2 associées respectivement aux paramètres fréquentiels LSF et/ou ISF et à des facteurs d'amortissement ( y; ).
  7. 7. Procédé selon l'une des revendications précédentes, caractérisé en ce que le filtre comporte un module de compensation de pente calculé en fonction d'un signal de référence de pente cible à approcher. 15
  8. 8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une recherche d'un signal d'excitation utilisant un filtre de pondération perceptuelle fonction dudit filtre d'amélioration du signal.
  9. 9. Procédé selon la revendication 8, caractérisé en ce que la recherche du signal d'excitation 20 utilise un filtre de pondération perceptuelle dans le cadre d'une recherche d'un signal de prédiction à long-terme.
  10. 10. Procédé selon l'une des revendications 8 et 9, caractérisé en ce que la recherche du signal d'excitation utilise un filtre de pondération perceptuelle dans le cadre d'une recherche 25 d'un signal d'excitation dans un dictionnaire algébrique ou stochastique.
  11. 11. Procédé selon l'une des revendications 8, 9 et 10, caractérisé en ce qu'il comporte une étape d'utilisation d'une pluralité de filtres en cascade, représentés par des polynômes dont les racines sont fonction desdits paramètres fréquentiels LSF et/ou ISF. 30
  12. 12. Programme informatique comportant des instructions pour la mise en oeuvre du procédé selon l'une des revendications 1 à 11, lorsque ce programme est exécuté par un processeur. 10
  13. 13. Dispositif de codage/décodage d'un signal, caractérisé en ce qu'il comporte au moins des moyens d'obtention de paramètres ISF et/ou LSF, et de calcul (600, ..., 630) d'optimisation fréquentielle d'un filtre d'amélioration de signal, pour la mise en oeuvre du procédé selon l'une des revendications 1 à 11.
FR1252195A 2012-03-12 2012-03-12 Modification des caracteristiques spectrales d'un filtre de prediction lineaire d'un signal audionumerique represente par ses coefficients lsf ou isf. Withdrawn FR2987931A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1252195A FR2987931A1 (fr) 2012-03-12 2012-03-12 Modification des caracteristiques spectrales d'un filtre de prediction lineaire d'un signal audionumerique represente par ses coefficients lsf ou isf.
PCT/FR2013/050472 WO2013135997A1 (fr) 2012-03-12 2013-03-06 Modification des caractéristiques spectrales d'un filtre de prédiction linéaire d'un signal audionumérique représenté par ses coefficients lsf ou isf

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1252195A FR2987931A1 (fr) 2012-03-12 2012-03-12 Modification des caracteristiques spectrales d'un filtre de prediction lineaire d'un signal audionumerique represente par ses coefficients lsf ou isf.

Publications (1)

Publication Number Publication Date
FR2987931A1 true FR2987931A1 (fr) 2013-09-13

Family

ID=46754525

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1252195A Withdrawn FR2987931A1 (fr) 2012-03-12 2012-03-12 Modification des caracteristiques spectrales d'un filtre de prediction lineaire d'un signal audionumerique represente par ses coefficients lsf ou isf.

Country Status (2)

Country Link
FR (1) FR2987931A1 (fr)
WO (1) WO2013135997A1 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996021218A1 (fr) * 1995-01-06 1996-07-11 Matra Communication Procede de codage de parole a analyse par synthese

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996021218A1 (fr) * 1995-01-06 1996-07-11 Matra Communication Procede de codage de parole a analyse par synthese

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RAPPORTEUR Q10/16: "Draft revised ITU-T Recommendation G.729 Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction (CS-ACELP)", ITU-T SG16 MEETING; 14-11-2006 - 24-11-2006; GENEVA,, no. T05-SG16-061114-TD-WP3-0182, 7 November 2006 (2006-11-07), XP030100355 *

Also Published As

Publication number Publication date
WO2013135997A1 (fr) 2013-09-19

Similar Documents

Publication Publication Date Title
EP2366177B1 (fr) Codage de signal audionumerique avec mise en forme du bruit dans un codeur hierarchique
EP0782128B1 (fr) Procédé d&#39;analyse par prédiction linéaire d&#39;un signal audiofréquence, et procédés de codage et de décodage d&#39;un signal audiofréquence en comportant application
EP1907812B1 (fr) Procede de commutation de debit en decodage audio scalable en debit et largeur de bande
EP1989706B1 (fr) Dispositif de ponderation perceptuelle en codage/decodage audio
EP2452337B1 (fr) Allocation de bits dans un codage/décodage d&#39;amélioration d&#39;un codage/décodage hiérarchique de signaux audionumériques
EP1692689B1 (fr) Procede de codage multiple optimise
EP2452336B1 (fr) Codage/décodage perfectionne de signaux audionumériques
EP1994531A2 (fr) Codage/decodage perfectionnes d&#39;un signal audionumerique, en technique celp
FR3008533A1 (fr) Facteur d&#39;echelle optimise pour l&#39;extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2005424A2 (fr) Procede de post-traitement d&#39;un signal dans un decodeur audio
EP2652735B1 (fr) Codage perfectionne d&#39;un etage d&#39;amelioration dans un codeur hierarchique
EP2171713B1 (fr) Codage de signaux audionumériques
FR2987931A1 (fr) Modification des caracteristiques spectrales d&#39;un filtre de prediction lineaire d&#39;un signal audionumerique represente par ses coefficients lsf ou isf.
WO2011144863A1 (fr) Codage avec mise en forme du bruit dans un codeur hierarchique
EP1192619B1 (fr) Codage et decodage audio par interpolation
FR2990552A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences
EP1192618B1 (fr) Codage audio avec liftrage adaptif
FR2737360A1 (fr) Procedes de codage et de decodage de signaux audiofrequence, codeur et decodeur pour la mise en oeuvre de tels procedes
WO2002029786A1 (fr) Procede et dispositif de codage segmental d&#39;un signal audio
EP1192620A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20131129