FR2897212A1 - Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants - Google Patents

Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants Download PDF

Info

Publication number
FR2897212A1
FR2897212A1 FR0601175A FR0601175A FR2897212A1 FR 2897212 A1 FR2897212 A1 FR 2897212A1 FR 0601175 A FR0601175 A FR 0601175A FR 0601175 A FR0601175 A FR 0601175A FR 2897212 A1 FR2897212 A1 FR 2897212A1
Authority
FR
France
Prior art keywords
components
component
phase
datum
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR0601175A
Other languages
English (en)
Inventor
Pierrick Philippe
Patrice Collen
Christophe Veaux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0601175A priority Critical patent/FR2897212A1/fr
Priority to EP07731600A priority patent/EP1982330A2/fr
Priority to PCT/FR2007/050775 priority patent/WO2007091000A2/fr
Priority to US12/278,882 priority patent/US20090187411A1/en
Publication of FR2897212A1 publication Critical patent/FR2897212A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Abstract

L'invention concernt un procédé de codage d'un signal audio source, comprenant une étape de transformation d'un espace amplitude / temps vers un espace multi-composantes décrit en amplitude, en phase et en temps, délivrant une pluralité de composantes. Selon l'invention, le procédé de codage comprend les étapes suivantes :- comparaison entre elles des composantes, de façon à définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité prédéterminé ;- codage, pour au moins un des groupes :- d'au moins une donnée de référence du groupe ;- d'au moins une donnée de complément, associée à au moins une des composantes du groupe, et permettant de reconstruire, en combinaison avec l'information de référence, au moins une information représentative d'au moins une composante.

Description

Procédé de codage d'un signal audio source, dispositif de codage, procédé
de décodage, signal, support de données, produits programme d'ordinateur correspondants. 1. Domaine de l'invention Le domaine de l'invention est celui du codage et du décodage de signaux audionumériques et plus précisément de signaux audio, tels que des signaux de musique ou de parole, comprenant un ensemble d'harmoniques, ou de sinusoïdes. Une application particulière de l'invention est l'amélioration du standard MPEG Audio (ISO/IEC 14496-3) qui prévoit que les données audio sont modélisées selon un codage paramétrique pour permettre une transmission du son et/ou de la parole à très bas débit. Plus généralement, l'invention se place dans le cadre de la transmission, du stockage et de la compression des sons et de la musique de façon efficace. 2. Solution de l'art antérieur Une méthode classique pour transmettre de façon efficace un signal audio consiste tout d'abord à décomposer ce dernier en composantes sinusoïdales, puis à transmettre des informations relatives à ces composantes de façon qu'un récepteur soit en mesure d,e restituer le signal à partir de ces informations. En effet, ces techniques de transmission exploitent les caractéristiques particulières d'une composante sinusoïdale selon laquelle celle-ci est hautement prédictible, et de ce fait, transmissible à un très faible débit. On détaille ci-après la décomposition d'un signal en composantes sinusoïdales ainsi que les techniques classiques de codage de ce type de signal. 2.1 Analyse sinusoïdale La décomposition de signaux audio en composantes sinusoïdales est bien connue. Pour une présentation exhaustive de cette technique, on peut notamment se référer aux documents R. McAulay, T Quatieri, "Speech analysis/ synthesis based on a sinusoidal representation", IEEE Trans. on Acoustics, Speech and Signal Processing, vol. 34(4), pp. 744û 754, 1986 et Y. Medan, E. Yair and D.
Chazan, "Super Resolution Pitch Determination of Speech Signais" IEEE trans on Signal Processing vol. 39(1), pp. 40-48,1991. La modélisation sinusoïdale se base sur le principe de décomposition d'un signal en une somme de sinusoïdes de fréquences, d'amplitudes et de phases variables dans lie temps (partiels), et de bruit. En ne considérant que la partie déterministe du signal audio x(t), le signal modélisé .z(t) s'exprime alors par: K-1 .x(t) = ak n cos((I)k,n(t)), avec : k=0 - nT stsnT-1 ; - K correspond au nombre total de partiels contenus dans le signal ; - ak n représente l'amplitude du partiel k durant la trame d'indice n ; - cl'k,n (t) représente la phase du partiel k durant la trame n ; - T représente le nombre d'échantillons décrivant une trame d'analyse. La phase (I)k n(t) d'un partiel d'indice k dépend de sa fréquence fk n et de sa phase initiale cpk,o telle que : el:ek,n (t) = 2Jr fk nt + (pk 0 • L'ensemble des trois paramètres (ak,n,fk,n et cpk,o) permettent ainsi de décrire de façon concise, sur un intervalle de temps T , le signal x(t) à modéliser. 2.2 Codage de composantes sinusoïdales On peut se référer aux documents W. B. Kleijn and K. K. Paliwal, Speech Coding and Synthesis, Elsevier, Amsterdam, 1995, H. Purnhagen , N. Meine "HILN - The MPEG-4 Parametric Audio Coding Tools", ISCAS 2000 Vol III pp 201-204 etB. den Brinker, E.Schuijers and W.Oomen,"Parametric coding for high-quality audio", in Proc. 112nd AES Convention, Munich, Germany, 2002 pour une explication détaillée du codage et de la transmission des composantes sinusoïdales. Plus généralement, le codage de composantes sinusoïdales a pour but de coder les paramètres ak,n , fk,n et cpk 0 sous forme condensée en introduisant une distorsion de quantification. Ces valeurs quantifiées sont ensuite représentées de façon compacte par exemple à l'aide d'un codage dit sans pertes, c'est-à-dire réduisant le débit d'informations sans affecter le signal d'une erreur supplémentaire. Dans la plupart des systèmes de codage/décodage, les composantes de phases (Pk, p ne sont pas transmises. Cette approche est basée sur le fait que l'oreille perçoit mal l'influence de la phase sur un signal musical. Ne sont alors codées que les trajectoires de la fréquence fk,,, et de l'amplitude ak,n Classiquement, les valeurs de ces deux derniers paramètres sont quantifiées et transmises indépendamment les unes des autres, par le biais d'un quantificateur scalaire, par l'emploi d'une échelle logarithmique. Une autre technique de codage, appelée codage SSC (pour SinuSoidal Coding en anglais) propose quant à elle un codage explicite des phases instantanées. On rappelle qu'une composante sinusoïdale d'indice k est représentée, sur une trame d'analyse d'indice n par une fréquence fk n , une phase instantanée, 'Pk,n et une amplitude ak n, considérées comme constantes durant cette trame. Cependant, ces trois paramètres évoluent au fil du signal, donc varient d'une trame à la suivante. Pour plus de clarté, nous ne décrivons pas dans la suite du document les informations relatives à la transmission du paramètre d'amplitude ak n, ce dernier n'entrant pas dans le cadre de la présente invention. Ces évolutions temporelles de fréquence et de phase peuvent être respectivement représentées par des fonctions temporelles qu'on notera fk(t) et cpk(t). Le codage de ces éléments est détaillé en Annexe A.
Dans le cadre de la transmission, le codage, le stockage de signaux audio, on constate donc que les techniques de l'art antérieur proposent de transmettre les composantes sinusoïdales soit en estimant et en codant de manière indépendante les phases et les fréquences analysées, soit de manière conjointe, en utilisant la phase déroulée. De plus, quelle que soit la technique utilisée, il est nécessaire de transmettre ces informations pour chacune des composantes.
De manière générale, ces techniques de l'art antérieur de codage de composantes sinusoïdales sont coûteuses en termes de débit, ou de mémoire de stockage. En effet, il est nécessaire d'envoyer au moins une information pour chaque trame d'analyse. De plus, cette opération est réitérée pour chacune des composantes sinusoïdales du signal sonore à transmettre, puisque celles-ci sont analysées et traitées indépendamment les unes des autres. Ceci implique des étapes de quantification, codage, transmission ou stockage nombreuses et coûteuses. De telles techniques nuisent à l'efficacité de transmission ou de stockage.
Enfin, les techniques de prédiction mises en oeuvre sont efficaces uniquement lorsque la fréquence du partiel considéré est relativement stable dans le temps. Si cela n'est pas le cas, l'erreur de prédiction temporelle devient importante, augmentant de façon non négligeable la distorsion lors de la reconstruction du signal audio. 3. Objectifs de l'invention L'invention a notamment pour objectif de pallier ces inconvénients de l'art antérieur. Plus précisément, un objectif de la présente invention consiste à fournir une nouvelle technique de codage paramétrique des signaux , ainsi qu'une technique de décodage correspondante. Pour une même qualité de reconstruction, la solution proposée permet de réduire le débit de transmission. Un autre objectif de la présente invention est de fournir une technique qui permette de réduire de façon importante l'espace mémoire nécessaire au stockage d'un signal harmonique codé.
Notamment, un des objectifs de l'invention est de fournir une technique qui soit particulièrement adaptée à la transmission ou au stockage de signaux audionumériques, de parole ou de musique, et qui permette un codage efficace des composantes sinusoïdales d'un tel signal. Un autre objectif de l'invention est de fournir une technique qui soit particulièrement efficace en termes de débit de transmission des composantes sinusoïdales, tout en générant une distorsion de signal équivalente, voire inférieure, aux techniques classiques de l'art antérieur. Un objectif supplémentaire de l'invention est de proposer une telle technique qui s'étende ou soit aisément adaptable à, la plupart des spécifications existantes dans les différents standards du domaine du codage des signaux multimédia, telles que la norme MPEG-4 notamment. 4. Exposé de l'invention Ces différents objectifs, ainsi que d'autres qui apparaîtront par la suite, sont atteints à l'aide d'un procédé de codage d'un signal audio source, comprenant une étape de transformation d'un espace amplitude / temps vers un espace multi composantes décrit en amplitude, en phase et en temps, délivrant une pluralité de composantes. Selon l'invention, le procédé de codage comprend les étapes suivantes : comparaison entre elles des composantes, de façon à définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité prédéterminé ; codage, pour au moins un des groupes : - d'au moins une donnée de référence du groupe ; - d'au moins une donnée de complément, associée à au moins une des composantes du groupe, et permettant de reconstruire, en combinaison avec l'information de référence, au moins une information représentative d'au moins une composante. Ainsi, l'invention repose sur une approche nouvelle et inventive du codage d'un signal audio source exploitant les caractéristiques des composantes sinusoïdales qui le constituent. En effet, le procédé de l'invention regroupe et code les composantes sinusoïdales du signal présentant un degré de similitude. Ainsi, il est possible de reconstruire chacune des composantes d'un groupe à partir de la connaissance de la composante de référence et de la donnée de complément correspondante. Une telle technique permet d'éviter de coder toutes les composantes indépendamment les unes des autres, et présente ainsi un gain très important en termes d'informations à quantifier, prédire, stocker ou encore transmettre. Avantageusement, le critère de similarité tient compte d'une évolution de la phase d'au moins deux composantes. Une telle évolution de phase est aussi appelée phase déroulée. Dans un mode de réalisation avantageux, l'étape de comparaison met en oeuvre un calcul de corrélation entre l'évolution de phase des deux composantes. Le coefficient de corrélation permet en effet de refléter, selon sa valeur, un degré de ressemblance.
De façon avantageuse, l'étape de codage met en oeuvre un codage différentiel selon un axe temporel comprenant : une étape de prédiction de la donnée de référence et/ou de la donnée de complément, par rapport à au moins une valeur précédente correspondante ; - une étape de détermination d'au moins un résidu à coder, par différence entre une donnée prédite et une donnée réelle. Avantageusement, le résidu est codé selon une période multiple de la période d'échantillonnage d'extraction des composantes, et en ce qu'une information représentative du multiple est générée.
Ce multiple est aussi appelé facteur de décimation. On gagne ainsi en termes de quantité d'informations à coder et quantifier. De façon avantageuse, l'étape de codage met en oeuvre un codage différentiel selon un axe fréquentiel comprenant : une étape de codage d'au moins une donnée de référence, représentative d'une composante de référence dudit groupe ; - une étape de codage d'au moins une donnée de complément, représentative d'une autre composante du groupe, par comparaison avec la donnée de référence. Avantageusement, l'étape de codage met en oeuvre, pour chaque composante d'indice k, les équations suivantes : ()k,n ='ek,nù1 + (q)l,n ù ~1,nù1) al dk,n il'k,n ù eek,n' où n est l'indice de temps ; - cl)k,n est la valeur, à un instant indicé n, de la phase de la composante d'indice k ; IV" k,n est une donnée de prédiction, à un instant indicé n, de la phase de la composante d'indice k ; fîèk,n-1 est une donnée quantifiée, à un instant indicé n-1, de la phase de la composante harmonique d'indice k ; tiel,n__1 est une donnée quantifiée, à un instant indicé n-1, de la phase de la composante d'indice 1;
ak et al sont des valeurs proportionnelles aux fréquences de base des composantes k et 1, choisies de façon à ce que le rapport de ces valeurs soit représentatif d'un rapport de fréquence entre la composante sinusoïdale d'indice k et la composante sinusoïdale d'indice 1; - dk n est une valeur de résidu, à un instant indicé n, entre la valeur de phase et la donnée de prédiction de la composante d'indice k. L'invention concerne par ailleurs un produit programme d'ordinateur pour la mise en oeuvre du procédé de codage tel que décrit précédemment.
L'invention concerne encore un dispositif de codage d'un signal audio source, comprenant des moyens de mise en oeuvre d'un tel procédé. L'invention concerne également un signal codé représentatif d'un signal audio source, dont les composantes d'un tel signal sont regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité,
chacun des groupes comprenant : au moins une donnée de référence dudit groupe ; au moins une donnée de complément, associée à au moins une des composantes du groupe, et permettant de reconstruire, en combinaison avec ladite information de référence, au moins une information représentative d'au moins une composante.
Ce signal peut bien sûr comporter différentes informations produites par le procédé de codage décrit ci-dessus. L'invention concerne également un support de données comprenant au moins un tel signal codé.
L'invention concerne par ailleurs un procédé de décodage d'un tel signal codé. Ce procédé comprend les étapes suivantes : obtention de la ou les données de référence et de la ou les données de complément ; reconstruction de la ou les informations représentatives des composantes, à partir des données de référence et de complément. Un tel procédé de décodage permet de décoder un signal codé selon le procédé de codage de l'invention tel que décrit précédemment. Avantageusement, un tel procédé de décodage comprend une étape de construction d'un signal audio reconstruit, représentatif du signal audio source, en tenant compte des informations représentatives des composantes. Selon l'invention, un tel procédé de décodage comprend notamment : une étape de décodage d'au moins une donnée de référence, représentative d'une composante de référence du groupe ; - une étape de décodage d'au moins une donnée de complément représentative d'une autre composante du groupe, par comparaison avec la donnée de référence ; une étape de reconstruction de l'autre composante par combinaison de la donnée de référence et de la donnée de complément. Le procédé de décodage permet ainsi de reconstruire efficacement les composantes présentant un lien harmonique avec une composante de référence (mise en oeuvre d'un décodage inter ), Avantageusement, la donnée de complément ayant été codée selon une période multiple d'une période d'échantillonnage, le procédé de décodage comprend une étape d'interpolation d'une donnée de complément estimée pour les instants pour lesquels une donnée de complément n' a pas été codée.
De façon avantageuse, l'étape de construction de l'évolution de phase met en oeuvre l'équation suivante : (Dk,n = Ok,n-m + ((Dl,n fl + Op * q[index] où : ' k,n-m est une donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de la composante d'indice k ; - (î i,n est une donnée quantifiée, à un instant indicé n, de la phase reconstruite de la composante d'indice 1; - (Î'l,n-m est une donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de la composante d'indice 1; - fk -est une valeur de la fréquence reconstruite correspondant à la composante d'indice k ; - f, - est une valeur de la fréquence reconstruite correspondant à la composante du groupe de référence ; - A p est un pas de quantification ; 15 - giindex] est une valeur entière correspondant à une valeur quantifiée de correction. De façon avantageuse, un tel procédé de décodage comprend : une étape de prédiction selon un axe temporel de la donnée de référence par rapport à au moins une valeur précédente 20 correspondante, délivrant au moins une donnée prédite ; une étape d'ajout à au moins une des données prédites d'un résidu correspondant transmis dans le signal de façon à obtenir une donnée réelle reconstruite. Le procédé de décodage selon l'invention permet ainsi de reconstruire les 25 données non transmises par prédiction (mise en œuvre d'un décodage intra ). Avantageusement, le résidu est codé selon une période multiple d'une période d'échantillonnage, et le procédé de décodage comprend une étape d'interpolation d'un résidu estimé pour les instants pour lesquels un résidu n a pas été codé. 10 Plus précisément, le procédé de décodage peut mettre en oeuvre l'équation suivante : (bk,n ù 2 * k,n-m ù (Dk,n-2m + Ap * q[index] où : - 4)k,n-m est une donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de la composante d'indice k ; 1î'k,n-2m est une donnée quantifiée, à un instant indicé n-2m, de la phase reconstruite de ladite composante d'indice k ; dp est un pas de quantification d'une erreur de quantification ; - q[index i est une valeur entière correspondant à une valeur quantifiée de correction. L'invention concerne aussi un produit programme d'ordinateur pour la mise en oeuvre du procédé de décodage tel que décrit précédemment. L'invention concerne enfin un dispositif de décodage d'un signal codé représentatif d'un signal audio source. Selon l'invention, le signal comprenant une représentation du signal source sous la forme d'une pluralité de composantes décrites dans un espace de représentation en amplitude, en phase et en temps, les composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun des groupes comprenant : - au moins une donnée de référence du groupe ; - au moins une donnée de complément, associée à au moins une des composantes du groupe, et permettant de reconstruire, en combinaison avec l'information de référence, au moins une information représentative d'une composante, le dispositif comprend : des moyens d'obtention de la ou les données de référence et de la ou les données de complément ; des moyens de reconstruction de la ou les informations représentatives des composantes, à partir des données de référence et de complément.
Un tel dispositif peut notamment mettre en oeuvre le procédé de décodage tel que décrit précédemment, et comprend les moyens nécessaires pour ce faire. 5. Liste des figures D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1 illustre la prédiction linéaire décrite en Annexe A ; - la figure 2 est un organigramme simplifié du procédé de codage selon l'invention ; la figure 3 est un graphique de l'évolution des phases et fréquences des composantes sinusoïdales d'un signal audio source ; la figure 4 est un organigramme du procédé de décodage selon l'invention; les figures 5A et 5B illustrent schématiquement un dispositif de codage et un dispositif de décodage mettant en oeuvre l'invention. 6. Description d'un mode de réalisation de l'invention 6.1 Principe général L'invention propose donc une approche tout à fait nouvelle et efficace de codage d'un signal harmonique, permettant d'améliorer sa transmission ou son stockage, en réduisant le débit nécessaire pour la transmission ou l'espace mémoire pour le stockage, tout en assurant un signal reconstruit de haute qualité, et ce même si les variations de fréquence au cours du temps sont importantes. L'invention exploite pour cela de façon nouvelle et efficace le fait que les composantes sinusoïdales d'un signal sont étroitement liées. En effet, considérant un signal harmonique ou quasi-harmonique, on définit de façon connue la relation suivante entre une composante harmonique de référence (appelée souvent fondamentale), de fréquence notée fo ,n à la trame d'indice n, et une composante harmonique, du même signal, qu'on appelle composante de complément, d'indice k , à la fréquence notée fk,n
12 fk,n = f ),n ' k\/l + (k2 -1)/3 /3 représente un facteur d'inharmonicité proche de zéro et pouvant être négligé pour les sons vocaux par exemple. A titre d'exemple, il vaut 0,0004 pour le piano.
On note ak alors le rapport entre la fréquence fk,n de la composante d'indice k et la fréquence fo ,n de la composante de référence d'indice 0, soit :
fk,n ak= J0,n En d'autres termes, à chaque composante d'indice k correspond un facteur ak, reflétant une relation d'harmonicité avec la composante de référence.
Une autre caractéristique importante de l'invention consiste à transmettre certaines informations, notamment les informations de complément obtenues par codage différentiel, avec un rafraîchissement temporel plus espacé. Une telle technique permet ainsi de réduire encore plus le débit nécessaire, sans affecter la qualité du signal reconstruit, pour les composantes fréquentielles les plus stables
en particulier. En relation avec la figure 2, le synoptique d'un système d'analyse pour la transmission et le codage d'un signal audio tel que proposé par l'invention comprend, de manière générale, trois étapes principales.
Un signal x(t) sonore est traité dans une étape 21 d'analyse sinusoïdale,
qui consiste à décomposer le signal audio x(t) en entités sinusoïdales et à en extraire ainsi, pour chaque composante d'indice k , les informations d'amplitude ak ,n , de phase (Pk n et enfin de fréquence fk,n , à chaque trame d'indice n . On obtient un signal x(t) approché de x(t) de la forme : K-1 î(t) = ak ,n cos(eek n(t)), telle que déjà décrite en préambule.
k=0 Il s'ensuit l'étape 22 d'appariement des entités harmoniques, ou entités sinusoïdales, qui consiste à les regrouper par familles harmoniques : il s'agit ici d'effectuer un travail de classification dans lequel les composantes sinusoïdales ayant une relation harmonique entre elles sont identifiées.
Cette étape 22 d'appariement peut être réalisée en comparant notamment les phases déroulées de chaque composante. Une telle étape permet de définir, pour une composante sinusoïdale d'indice k , une composante sinusoïdale de référence dont la phase déroulée est notée (D,2 ainsi qu'une donnée de complément, ak, représentant la relation existant entre cette dernière composante et la composante de référence. Ainsi, il sera possible de reconstruire la composante d'indice k simplement à partir des informations transmises sur la composante de référence (comme sa phase déroulée 4è,,) ainsi que de cette donnée ak de complément.
La donnée de complément ak , la phase déroulée Onde la composante de référence ainsi que les informations de phase, d'amplitude et de fréquence de la composante d'indice k sont ensuite quantifiées et codées dans une étape 23. Les données quantifiées représentant le signal x(t) sont alors transmises (24). De telles données quantifiées sont notamment les âk et des valeurs quantifiées de fréquence de base (notée index_f0), ainsi que de la phase initiale de la référence de base, notée q[0], et aussi des paramètres représentatifs de l'erreur de prédiction lors du codage, notés q[1], q[index]. Ces derniers paramètres quantifiés représentatifs du signal audio source encodé sont des valeurs entières qui sont multipliées par un pas de quantification correspondant lors de la reconstruction du signal. Ils sont explicités plus en détail dans la suite de la présente description. C'est à partir de ces données que l'harmonique d'indice k pourra être reconstruit par un décodeur, sans perte de qualité. On développe maintenant plus en détail les étapes 22 et 23 d'appariement des entités harmoniques et de quantification et de codage. 6.2 Appariement des entités harmoniques (étape 22) L'étape 21 d'analyse sinusoïdale présentée en relation avec la figure 2 permet donc d'obtenir une représentation, pour chacune des composantes sinusoïdales du signal, de l'évolution de leur phase et de leur fréquence. On parle alors de phase déroulée. Elles sont illustrées par la figure 3. L'axe des abscisses représente le temps en termes de trames d'indice n, et l'axe des ordonnées représente la phase déroulée, en radians. L'idée ici est d'exploiter cette connaissance des phases déroulées pour identifier des groupes de ressemblance entre un certain nombre d'harmoniques.
On voit notamment sur la figure 3 qu'il est possible de déterminer trois groupes, ou entités, 31, 32, 33. On note que les entités 31 et 32 comprennent chacune un groupe de composantes, représentées par leur phase déroulée, alors que l'entité 33 ne contient d'une seule composante sinusoïdale. Pour réaliser l'étape d'appariement, on peut par exemple calculer les coefficients de corrélation Pk,l entre deux composantes harmoniques d'indices respectifs k et l de phase déroulée différentiées selon la formule : n=N-1 (dk n - dk)(dl,n - dl ) ___ n=1 Pk'l n=N-1 _ n=N-1 avec (dk n - dk )2 ' (dl n - dl )~ n=1 n=1 dk,n = (Dk,n - (Dk,n-1, c'est-à-dire la phase déroulée différentiée entre la trame d'indice n et la trame d'indice n -1 pour la composante d'indice k ; 1 n=N-1
N - 1 cl)k n - tek,n-1 ; n=1 - N est le nombre d'instants temporels communs aux composantes k el 1. Un exemple de résultats des calculs de corrélation est exposé dans le 20 tableau suivant :15 k \1 1 2 3 4 5 6 7 8 9 10 1 1.0000 0.9927 0.9914 1.0000 0.9920 0.9912 -0.1568 -0.1543 -0.1443 0.2549 2 0.9927 1.0000 0.9798 0.9927 0.9882 0.9848 -0.0377 -0.0365 -0. 0225 0.2843 3 0.9914 0.9798 1.0000 0.9914 0.9857 0.9910 -0.3137 -0.3094 -0. 3017 0.2120 4 1.0000 0.9927 0.9914 1.0000 0.9920 0.9912 -0.1568 -0.1543 -0. 1443 0.2549 0.9920 0.9882 0.9857 0.9920 1.0000 0.9837 -0.0144 -0.0128 -0.0023 0.3152 6 0.9912 0.9848_ 0.9910 0.9912 0.9837 1.0000 -0.0194 -0.0136 -0.0053 0.3568 7 -0.1568 -0.0377 -0.3137 -0.1568 -0.0144 -0.0194 1.0000 0.9998 0.9993 0.3667 8 -0.1543 -0.0365 -0.3094 -0.1543 -0.0128 -0.0136 0.9998 1.0000 0.9996 0.3665 9 -0.1443 -0.0225 -0.3017 -0.1443 -0.0023 -0.0053 0.9993 0.9996 1.0000 0.3832 0.2549 0.2843 0.2120 0.2549 0.3152 0.3568 0.3667 0.3665 0.3832 1.0000 La similarité entre composantes est donc mesurée par le calcul du coefficient de corrélation. On considère que deux composantes d'indices respectifs k et l appartiennent à la même entité lorsque la valeur du coefficient de corrélation est supérieure à un seuil, par exemple à une valeur i = 0,95 . 5 En relation avec la figure 3 et le tableau précédent, on voit alors que les composantes ayant les phases déroulées indicées 311, 312, 313, 314, 315 et 316 appartiennent à la même entité 31. De même les composantes ayant les phases déroulées indicées 321, 322 et 323 appartiennent à une même seconde entité 32. Enfin, la composante de phase 10 déroulée 331 ne présente de similitude avec aucune autre composante, puisque le coefficient de corrélation de cette composante avec toute autre composante est faible. Elle représente alors à elle seule une troisième entité 33. Les entités disposant d'une relation harmonique, à savoir les entités 31 et 32 sont ainsi rassemblées et chacun des partiels est affecté d'un facteur ak, ou données de complément, dénotant son rapport harmonique avec une composante de référence, dont la phase déroulée est notée On, et représentant alors la trajectoire commune à l'entité considérée. On exprime alors la phase déroulée à la trame d'indice n de la composante harmonique d'indice k en fonction de la phase déroulée de la composante de référence par la formule suivante : (Dk,n = ak (I)n + + bk n avec : 16 - bk n représente un bruit aléatoire expliquant l'erreur de mesure
effectuée sur les fréquences et les phases, ainsi que l'inadéquation de ces mesures vis-à-vis du modèle harmonique ;
- ak est le facteur précédemment introduit par la relation : ak=k• Jl+(k2û1)I3; k,o est une correction de phase initiale. On constate alors au vu de cette formule qu'il est possible d'obtenir la valeur d'une phase déroulée d'une composante d'indice k à la trame d'indice n à partir de la phase déroulée d'une composante de référence.
Dans un mode de réalisation particulier, il est possible de calculer les valeurs de Cn et de ak par itération jusqu'à la convergence des deux équations suivantes : n=N-1 (1'n _ n==0 ak n= N-1 2
n=0 k=K-1 4~ aklek,n (Dn kk=K-1 Ces deux relations peuvent être considérées par morceaux : si par exemple, les composantes 311 et 312 de la figure 3 ne couvrent qu'un intervalle commun N1 < N , alors la formule permettant de calculer cDn ne sera appliquée que sur les portions communes au deux composantes, et la formule permettant de calculer ak n'intégrera pas les indices non représentés (N étant le nombre d'instants temporels 20 communs défini précédemment). On note que selon le mode de réalisation choisi, il est possible de choisir pour valeur initiale de en l'une des phases déroulées des composantes d'indice k , ou également choisir : (Dn = lVn E[O,N -1]. De plus, dans un autre mode de réalisation, la puissance de bk n , notée ok , 25 peut également servir à l'appariement : les composantes sinusoïdales répondant et correctement à l'équation précédente seront en effet entachées d'une variance ak faible. Dans un mode de réalisation supplémentaire, cet appariement peut également se faire à l'aide d'un critère de maximum de vraisemblance, en maximisant la probabilité de 1k,n connaissant le modèle décrit par Jn et les ak.
Ces mesures a posteriori peuvent donc confirmer l'appariement réalisé selon le principe de la corrélation présenté. En d'autres termes, et dans un premier mode de réalisation, chaque composante d'indice k , de phase déroulée notée 1k n sera parfaitement décrite par la transmission (ou le stockage) d'une phase déroulée (Dl n d'une composante de référence d'indice 1 choisie parmi l'ensemble K des composantes du signal, des facteurs ak ainsi que des paramètres bk,n , avec l'indice k ayant une valeur différente de celle de l'indice 1. Dans un second mode de réalisation, on transmet pour chaque phase déroulée de référence une valeur fin, de référence commune à toutes les composantes du signal à transmettre, puis pour chaque composante, les facteurs ak et les paramètres bk n , avec 0 s k s K ù 1 . 6.3 Quantification et codage (étape 23) La connaissance des évolutions des fréquences et des phases de chaque composante sinusoïdale, ainsi que des relations de similarité entre chacune d'entre elles, est ici exploitée pour un codage optimal. Suite à l'étape d'appariement, les entités sinusoïdales sont regroupées en deux familles. Une première famille comprenant des liens d'harmonicité et une seconde famille de composantes indépendantes entre elles (du type de l'entité 33 présentée en relation avec la figure 3).
Dans le cadre de la transmission d'entité appartenant à la première famille, il est alors nécessaire de transmettre, pour une composante d'indice k , le signal de référence dont l'évolution de phase et fréquence est notée Ibn, ou bien (D1,n, selon le mode de réalisation choisi, l'erreur d'estimation bk n ainsi que le facteur ak, reflétant l'harmonicité de la composante d'indice k avec la composante de référence. L'erreur d'estimation bk n est une valeur de résidu qui permet de compenser l'erreur de prédiction lors de la reconstruction du signal. Selon le paramètre à coder et la famille à laquelle l'entité considérée appartient, on considère deux types de codages, présentés ci-après, appelés respectivement codage Intra et codage Inter. 6.3.1 Le codage Intra Dans le mode de quantification Intra composante, il s'agit de quantifier une évolution de phase et de fréquence, ou phase déroulée, relativement à elle-même, sans référence à aucune autre composante. Cette description est basée sur une technique de prédiction linéaire, connue en soi. En d'autres termes, on prédit la valeur de la phase déroulée à un instant, à partir de sa valeur aux instants précédents. Selon un mode de réalisation préférentiel de l'invention, cette technique de prédiction est étendue en utilisant des décimations temporelles, de façon à réduire le débit nécessaire à la transmission des informations.
Par exemple, la prédiction linéaire de la phase déroulée de la composante d'indice k à l'instant n + 2m , notée (Dn+2m ' est calculée de la façon suivante : n+2m = 2 .''k,n+m û ~k,n avec - ^:bk,n+m est la valeur quantifiée de cl3k,n+m ; - m est un facteur de décimation temporelle représentant une période multiple de la période d'échantillonnage ; -El3k,n+1 = m [(m û 1)Îk,n + l - EDk,n+m ] avec 1 s l s m û 1. Si la durée du signal n'est pas exactement un multiple de m , alors les extrémités seront extrapolées sous forme linéaire en utilisant les dernières valeurs reçues par le décodeur.
On obtient alors une valeur de résidu, notée Ek n , qui sera effectivement transmise (ou stockée), sous forme quantifiée et codée aux instants n = l • m , multiples de m valant : ek,n = (Dk,n ù'k,n • Ce signal est représentatif d'un écart entre la valeur réelle et la valeur prédite de l'évolution en fréquence et en phase. Une telle méthode est particulièrement efficace pour transmettre des composantes dont la fréquence varie peu au cours du temps. Il faut en effet s'assurer que l'erreur de reconstruction augmentée par cette décimation temporelle assure par ailleurs une réduction importante du débit de transmission. La réduction de débit sera d'autant plus importante que tk,n décrit une droite par morceaux.
Les éléments ou entités codées et quantifiées selon ce type de codage Intra sont alors les suivantes : le facteur de décimation m ; le jeu de signaux ék n , valeurs quantifiées de ek n aux instants multiples de m; la quantification sera par exemple réalisée par un quantificateur scalaire (uniforme ou non) ou vectoriel. Cette quantification peut être suivie d'un codeur entropique de type Huffman ou arithmétique. les valeurs initiales quantifiées nécessaires au prédicteur éièk,O et . Pour ce faire, on peut transmettre une fréquence initiale Jk o permettant de retrouver l'évolution (i#k m par la relation : (I)k,m = (Pk,o + maTfk,o Ces valeurs peuvent être quantifiées par un quantificateur scalaire (uniforme ou non) et éventuellement également codées par un code de longueur variable. Des valeurs convenables pour m couvrent la plage 1 s m s 16 .
En d'autres termes, on met en oeuvre ici un codage différentiel selon un axe temporel. 6.3.2 Le codage Inter Il s'agit maintenant de coder conjointement une composante sinusoïdale relativement à une autre, en utilisant leur relation d'harmonicité, ou de similarité.
On exprime l'évolution de phase et de fréquence (I)k,n d'une composante d'indice k à un instant de trame d'indice n par rapport à une composante dont l'évolution est notée ED1 n , d'indice 1, qui lui est harmoniquement liée. Afin d'obtenir un fonctionnement identique aussi bien au niveau du codeur que du décodeur, les (Dk,n seront exprimées par rapport à une version quantifiée de (Dl ,n notée (i.1,n On appelle ce type de codage le codage Inter. Grâce à la relation d'harmonicité, une valeur prédite de (Dk n, notée el)" k,n est obtenue selon la relation suivante : a qek,n = ~k,n-1 + (bl,n-1) al On voit au travers de cette formule que la valeur à un instant n de la phase déroulée d'une composante codée par codage Inter est obtenue d'une part à partir de sa valeur prédite à un instant précédent n -1(éI3k,n-1), et d'autre part à partir de la valeur prédite de la phase déroulée d'une composante de référence d'indice 1 aux instants n et n - 1 ((bl n et (ièl,n-1).
C'est alors l'erreur de prédiction dk n qui sera transmise sous forme quantifiée : dk,n = (Dk,n - k,n • En effet, la connaissance de cette erreur par le décodeur, ou le dispositif de restitution, est utile pour corriger l'erreur de prédiction générée à l'encodage, et assurer ainsi une bonne qualité du signal audio reconstruit.
Grâce à cette erreur de prédiction, il sera possible de reconstruire avec précision l'harmonique d'indice k , à l'aide de la composante de référence d'indice 1. Plus précisément, le signal dk n est l'erreur de prédiction de l'harmonique d'indice k par rapport à l'harmonique de référence d'indice 1, cumulée à l'erreur de quantification réalisée sur (Dl,n . Si et n est quantifiée suffisamment précisément, alors dk n ne représente que l'erreur de prédiction entre harmonique. Dans un mode de réalisation préférentiel, ce type de codage Inter peut lui aussi reposer sur une version décimée de (Dl,n . De même, les signaux dk n peuvent être eux aussi transmis sous forme décimée. On pourra alors exprimer la prédiction de kn sous la forme a 0k,n = ~k,n-m + a~ (ïl n - 'l n-m). Dans ce cas, dk n ne sera transmis que pour les indices n multiples de m. En résumé, les éléments transmis dans le cas du codage Inter sont donc les suivants : une composante de base (transmise en mode Intra selon le mode de réalisation préférentiel) ; les valeurs des données de complément, ou facteur, ak, transmis soit sous forme directe, soit sous forme d'une fréquence J qui permet de retrouver ak = 9-par rapport à la composante de
référence d'indice 1 ; les erreurs de prédiction dk n quantifiées sous forme décimée ou non ; les phases déroulées initiales 4:13k ,O quantifiées par un quantificateur scalaire (uniforme ou non) et éventuellement codées par un code de longueur variable (arithmétique, ou Huffman par exemple). L'invention s'étend également à la transmission d'un signal en Intra, commun (lin assorti de ak et lpk o , mais sans transmission des dk,n , (Fin pouvant représenter une composante à restituer (c'est-à-dire un (Dn k ), ou non, selon le 15 mode de réalisation choisi. En conclusion, les inventeurs ont constaté que les performances de ces types de codages mettant en oeuvre la décimation sont avantageuses. Par exemple, la caractéristique de débit en fonction de la distorsion d'un codage Intra avec décimation d'un facteur deux permet d'économiser un débit substantiel par 20 rapport à une transmission de type Intra sans décimation, d'environ 30%. En termes de performances, si la fréquence de la phase déroulée cbi n de la composante de référence varie rapidement au cours du temps, alors le coût de la transmission, en codage Intra, sera élevé car le modèle prédictif temporel sera mal respecté. En revanche, lorsqu'on appuiera la quantification des phases déroulées 25 (k n des composantes liées sur ce signal, alors les effets des variations temporelles auront disparu : le codage en mode Inter sera donc particulièrement adapté aux composantes harmoniques de forte variation temporelle. 6.4 Procédé de décodage 10 L'invention concerne par ailleurs le procédé de décodage d'un signal codé et quantifié tel que décrit précédemment. Là aussi, selon le type de codage réalisé (mode Intra ou Inter), on envisage deux types de décodage.
La figure 4 représente un synoptique général du procédé de décodage selon l'invention. Un train binaire contenant les données quantifiées (q[0], q[1], q[index], index__f0, a...) représentatives d'une trame d'indice n du signal audio source quantifié est tout d'abord décodée dans une étape 41 de décodage syntaxique. Il est possible de se référer à l'annexe B de la présente description pour une des informations détaillées sur cette étape 41.
Il s'en suit une étape de test 42 sur le type de codage par lequel a été codée la trame reçue : mode = =inter ? . Si la réponse à ce test est oui, une étape 431 de décodage en mode Inter est mise en oeuvre. Sinon, la trame est décodée en mode Intra dans une étape 432.
On obtient alors en sortie de chacune de ces étapes 431 ou 432 de décodage les informations recherchées de phase 9Pk n , de fréquence fk,n et d'amplitude ak,1 . Ces informations sont ensuite exploitées dans une étape 44 de synthèse sinusoïdale, dans laquelle est reconstruite la composante sinusoïdale considérée.
Enfin, un test 45 est réalisé pour déterminer si la composante traitée est la dernière ou non : Dernière composante ? . Sinon, les étapes 41, 42, 431, 432, 44 et 45 sont réitérées. Si oui, une étape 46 finale d'addition d'un résiduel est réalisée avant la restitution du signal par un haut-parleur 47.
On décrit maintenant plus en détail chacune de ces étapes.
6.4.1 Mode Intra (étape 432) On définit A p Ap comme étant les pas de quantification respectifs pour la fréquence initiale et l'erreur de prédiction sur la phase ( A p peut être différent pour la première valeur de phase et ses suivantes, comme il peut être rendu adaptatif par l'utilisation d'un quantificateur au pas de quantification adaptatif).
Des valeurs convenables sont de l'ordre de - . 32 On note index_ O l'indice fréquentiel de la composante codée en mode Inter servant de référence. Cet index est un entier, qui permet de reconstruire la valeur réelle de la fréquence de base fk de la composante d'indice k en multipliant cet index par le pas de quantification de la fréquence A f . On obtient la valeur reconstruite de fk : fk . - Dans un second mode de réalisation, index f0 peut être utilisé pour pointer directement dans une table permettant d'obtenir les valeurs fk reconstruites de fk . De façon similaire q[0], q[l] et q[index] sont des entiers correspondant à une valeur quantifiée de la phase de la composante d'indice k et par lesquels on 10 obtient une valeur reconstruite en les multipliant par le pas de quantification Ap appliqué aux phases. De façon plus détaillée, q[0] correspond à la valeur quantifiée de la phase initiale d'une composante, q[l] correspond à la valeur quantifiée de la correction à appliquer à la phase d'une composante aux instant multiples de m et q[index] correspond à la valeur quantifiée de la correction à 15 appliquer à la phase aux instants indicés n (entre les instants multiples de m). La reconstruction d'une composante en mode Intra se fait de la façon suivante: construction de la fréquence de base de la composante k à partir du pas de quantification de cette valeur et de sa valeur 20 quantifiée: fk = 4 f * index_ O ; - construction de la phase initiale de la composante k à partir du pas de quantification de cette valeur et de sa valeur quantifiée: ii3k ,O = Op * q[0] ; - construction de la phase à l'instant m de la composante k à partir 25 de la phase initiale de cette composante, de sa fréquence de base, de l'instant considéré pondéré et d'une valeur quantifiée pondérée par un pas de quantification : (13k,m = IDk,o + m • a fk - + A p * q[l ] ; - construction de la phase à chaque instant multiple du facteur de décimation par extrapolation des deux instants précédents décimés et d'une correction quantifiée multipliée par un pas de quantification : El)k,n = 2 • (Dk,n-m - k,n-2m + A p * q[index] ; Les valeurs intermédiaires entre les indices n - m et n sont reconstruites à l'aide de l'équation précédemment introduite (Dk,n+l= 1)ED- kn+1• k,n+m,. Si n n'est pas un multiple de m , alors les dernières valeurs sont extrapolées de façon linéaire : (Dk,n+m = (Dk,n + (m - n)co , avec cu étant proportionnel à la dérivée de (bk,n
6.4.2 Mode Inter (étape 431) On décrit maintenant le décodage d'une composante sinusoïdale d'indice k , codée en mode Inter par rapport à une composante d'indice 1 déjà quantifiée en Inter (ou éventuellement en Intra). La reconstruction d'une composante en mode Inter se fait de la façon suivante: - construction de la fréquence de base de la composante d'indice k à partir du pas de quantification de cette valeur et de sa valeur quantifiée : fk = Af * index_f0 ; - construction de la phase initiale de la composante k à partir du pas de quantification de cette valeur et de sa valeur quantifiée: =Ap*gIOI; - construction de la phase à l'instant d'indice n de la composante k à partir de la phase au temps n m de cette composante, de sa fréquence de base et de celle de référence 1, des phases reconstituées de la composante de référence et d'une correction quantifiée multipliée par un pas de quantification : (i^k,n = (i3k,n-m + (~l,n (131,n-m) fk + A *q[index] .
Les valeurs intermédiaires entre les indices n - m et n sont reconstruites à l'aide de l'équation précédemment introduite : 4lek,n+l = m [(m-1)4kn+1•113k,n+mi . Si n n'est pas un multiple de m , alors les dernières valeurs sont extrapolées de façon linéaire :41)- = (Dk,n + (m û n)w , avec w étant proportionnel à la dérivée de (bk,n 6.5 Reconstruction En utilisant les phases déroulées reconstruites ïk n, on retrouve les fréquences et phases instantanées à partir des équations précédemment introduites PPk,n = cpk(nT) == mod(4 k(t = nT),2ir) et au choix une des fonctions (ek,n+l ù k,n ~k,n+l ù ~k,n ce' fn+1 = fn û 2 • aT U fn+1 = aT également introduite en préambule de la présente description. Les fréquences instantanées et phases instantanées ainsi déterminées alimentent ensuite des synthétiseurs sinusoïdaux (étape 44) commandés par ces valeurs. L'ensemble des composantes sinusoïdales est ensuite sommé pour 15 retrouver la partie déterministe du signal audio. Cette partie déterministe est ensuite optionnellement complétée par un signal résiduel (étape 46), sous la forme d'un bruit de confort ou par un signal codé par un codeur par transformée de type AAC. Le signal complet ainsi reconstruit alimente ensuite un convertisseur 20 numérique analogique qui permet de restituer le son (étape 47). 6.6_ Dispositifs de mise en oeuvre Le procédé de l'invention peut être mis en oeuvre un dispositif de codage, dont la structure est présentée en relation avec la figure 5A. Un tel dispositif comprend une mémoire M 500, une unité de traitement 25 501, équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 502. A l'initialisation, les instructions de code du programme d'ordinateur 502 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 501. L'unité de traitement 501 reçoit en entrée un signal audio source à coder 503. Le microprocesseur P de l'unité de traitement 501 met en oeuvre le procédé de codage décrit ci-dessus, selon les instructions du programme Pg 502. L'unité de traitement 501 délivre en sortie des données quantifiées représentatives du signal audio source codé 504.
L'invention concerne également un dispositif de décodage d'un signal codé représentatif d'un signal audio source selon l'invention, dont la structure générale simplifiée est illustrée schématiquement par la figure 5B. Il comprend une mémoire M 510, une unité de traitement 511, équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur Pg 512. A l'initialisation, les instructions de code du programme d'ordinateur 512 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 511. L'unité de traitement 511 reçoit en entrée un signal codé représentatif d'un signal audio source 513. Le microprocesseur P de l'unité de traitement 511 met en oeuvre le procédé de décodage selon les instructions du programme Pg 112, pour délivrer un signal audio reconstruit 512.
ANNEXE A La relation entre fk,n et la fréquence instantanée fk(t) est : fk,n = fk(nT). De même, le lien entre la phase cpk,n et la phase instantanée cpk(t) est : cPk,n = cPk (nT) .
De façon à modéliser l'évolution temporelle au fil du signal des paramètres de fréquence et de phase, il a été introduit la notion de phase déroulée (Dk(t), portant à la fois pour chacune des composantes sinusoïdales du signal à modéliser, la fréquence instantanée fk(t) et la phase instantanée cpk(t). La phase déroulée tk(t) permet donc de représenter à la fois l'évolution de la phase instantanée et de la fréquence instantanée d'un partiel sous la forme d'une unique fonction temporelle continue, puis échantillonnée. En d'autres termes, on modélise l'évolution de la phase Ebk,n(t)initialement introduite, sur toute la longueur du signal. Dans le cas idéal, lorsque l'estimateur chargé de décomposer le signal audio en partiels est parfait, on met en rapport les fréquences fk,n et les phases instantanées gPk,n par les deux relations suivantes : = nT) fk,n = h (nT) = â(ek(t t T k,n = cpk (nT) = mod(EDk (t = nT ), 27r) , avec mod(a,b) représentant la fonction modulo, c'est-à-dire le reste de la division entière de a par b.
Plus spécifiquement, il existe une relation entre la valeur de la phase déroulée à la trame n + 1 et la valeur à la trame n , ce qui permet alors d'estimer la phase déroulée 1k(t) par prédiction. En effet, d'une trame d'indice n à la trame suivante d'indice n +1, la phase déroulée s'exprime par : (n+l)T (1)k,n+1 = (Dk,n + a f fk(t)dt avec a = nT e On note par la suite & k,n+1 la variation de la phase déroulée d'une trame (n+1)T à la suivante, soit : O ,n+l = f fk (t) • dt . nT Dans le cas où la fréquence est considérée comme constante au cours du temps, la quantité Ocpk,n+1 est constante au cours du temps, et la fonction (Dk(t)est une droite.
Dans le cas où la fréquence fk(t) varie peu entre les instants nT et (n + 2)T , alors la variation de la phase déroulée est considérée comme constante, c'est-à-dire que : tl,Dk,n+2 A k,n+let on prédit alors crèk,n+ 2 par la relation suivante : (I)k,n+2 = 2 . (13k,n+1 ù Crek,n
L'erreur d'estimation, ou de prédiction est : Ek,n+2 = (Dk,n+2 û eDk,n+2 L'écart Dcpk,n+1 de phase déroulée entre deux instants est aussi appelé déroulement de phase.
La figure 1 illustre la prédiction de la phase déroulée du partiel d'indice k , aux instants nT' , (n + 1)T et (n + 2)T . L'axe des abscisses présente le temps et l'axe des ordonnées la valeur de la phase déroulée (tek (t).
On constate que l'erreur de prédiction Ek,n+2 est faible devant le 15 déroulement de phase O ,n+2 Toujours dans le cas où la fréquence d'un partiel varie peu dans le temps, une seconde variante possible pour prédire la phase déroulée, c'est-à-dire pour déduire la valeur de la phase à un instant à partir de sa valeur à un instant précédent, est d'utiliser la relation suivante : 4k,n+1 = + aT n n+1 2
20 Se basant sur le principe de base du codage stipulant qu'un signal de faible énergie est beaucoup moins coûteux à transmettre qu'un signal de forte énergie, la technique classique consiste alors à transmettre ou à stocker l'ensemble des éléments Ek n . Etant petits devant les éléments A k n , ils seront moins coûteux à en termes de débit ou de mémoire. 25 Ayant transmis la phase déroulée initiale (Dk,p, la phase à la trame suivante (Dk,l ainsi que la suite d'éléments {En}n=2,...,N_1, il est possible de reconstruire, à la précision voulue, les phases et les fréquences initialement déterminées suivant les relations suivantes :
(Dk,n+2 2 ' cDk,n+1 ù e'k,n + En et În+l = fn ù (I)k,n+l ù sl)k,n , avec l'hypothèse que la conservation 2•aT de la fréquence qui entraîne l'approximation suivante : fn+1 = ~k,n+1 ù ~k,n aT ANNEXE B Syntaxe de transmission des phases déroulées Un exemple de syntaxe de transmission des modes Inter et Intra est présenté dans ce paragraphe.
La table suivante décrit la syntaxe de la fonction read_sinus de lecture des composantes sinusoïdales. uimsbf signifie unsigned integer most significant bit first en anglais (pour : bit de poids le plus fort de l'entier non signé en premier). Le mode Intra/Inter est lu, permettant de savoir sous quelle forme la composante sinusoïdale est lue. Suivant le mode lu, la syntaxe est décodée, puis les phases déroulées sont reconstruites suivant le mode. L'index de la composante Syntaxe Nombre Mnemoni de bits que read_sinus(index) { infra _mode 1 uimsbf N 7 uimsbf if(intra_mode) { intra_sinus(N); reconstruit_phase_intra(phase[index I); base_index=index; // nouvel index intra de reference } else { inter_sinus(N); reconstruit_phase_inter(phase[index],phase[base_inde } Intra servant de référence à la composante Inter suivante est constamment mis à jour. vlclbf signifie variable length code, least bit first en anglais (pour : code de longueur variable, bit de poids le plus faible en premier). Huff() est une fonction permettant retrouver un index stocké sous forme d'un code à longueur variable. L'index de décimation est lu, suivi d'une valeur de fréquence. Ensuite la 10 phase initiale est lue suivie des erreurs de prédiction qui serviront à reconstruire les phases déroulées. La table suivante décrit la syntaxe de la fonction inter_sinus de détection du mode de codage Inter. La table suivante décrit la syntaxe de la fonction intra_sinus de détection du mode de codage Intra. Syntaxe Nombre Mnemoni de bits que intra_sinus(N) { index_m 4 uimsbf index_f0 10 uimsbf m= 1 +i ndex_m; K=(N-1)/m+ 1; q[0] 5 uismbf for(k=1;k<K;k++) { q[k]=Huff() 2..31 vlclbf } Syntaxe Nombre Mnémoni de bits que inter_sinus(N) { index _m 4 uimsbf index f0 10 uimsbf m=1+index_rn; K=(N-1)/m+l ; q[0] 5 uismbf for(k= l ;k<K;.k++) { q[k]=Huff() 3..14 vlclbf } L'index de décimation est lu, suivi d'une valeur de fréquence. Ensuite la phase initiale est lue suivie des erreurs de prédiction qui serviront à reconstruire les phases déroulées. Une autre alternative consiste à ne pas transmettre les index_fO pour les 5 composantes codées en mode Inter. Le rapport ak devenant implicite et croissant : une composante codée en Inter après une composante en Intra aura une valeur par
défaut ak = 2 ce qui équivaudrait à .Îk = 2 , ak étant augmenté de 1 à chaque fi réception de composante Inter, jusqu'à ce qu'on rencontre une nouvelle composante codée en Intra.

Claims (19)

REVENDICATIONS
1. Procédé de codage d'un signal audio source, comprenant une étape de transformation d'un espace amplitude / temps vers un espace multi-composantes décrit en amplitude, en phase et en temps, délivrant une pluralité de composantes, caractérisé en ce qu'il comprend les étapes suivantes : comparaison entre elles desdites composantes, de façon à définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité prédéterminé ; - codage, pour au moins un desdits groupes : - d''au moins une donnée de référence dudit groupe ; - d''au moins une donnée de complément, associée à au moins une des composantes dudit groupe, et permettant de reconstruire, en combinaison avec ladite information de référence, au moins une information représentative d'au moins une composante.
2. Procédé de codage selon la revendication 1, caractérisé en ce que ledit critère de similarité tient compte d'une évolution de la phase d'au moins deux composantes.
3. Procédé de codage selon la revendication 2, caractérisé en ce que ladite étape de comparaison met en oeuvre un calcul de corrélation entre ladite évolution de phase desdites au moins deux composantes.
4. Procédé de codage selon l'une quelconque des revendications 1 à 3, caractérisé en ce que ladite étape de codage met en oeuvre un codage différentiel selon un axe temporel comprenant : - une étape de prédiction de ladite donnée de référence et/ou de ladite donnée cle complément, par rapport à au moins une valeur précédente correspondante, délivrant au moins une donnée prédite ; une étape de détermination d'au moins un résidu à coder, par différence entre d'une desdites données prédites et d'une donnée réelle correspondante.
5. Procédé de codage selon la revendication 4, caractérisé en ce que ledit résidu est codé selon une période multiple d'une période d'échantillonnage, et en ce qu'une information représentative dudit multiple est générée.
6. Procédé de codage selon l'une quelconque des revendications 1 à 5, caractérisé en ce que ladite étape de codage met en oeuvre un codage différentiel selon un axe fréquentiel comprenant : une étape de codage d'au moins une donnée de référence, représentative d'une composante de référence dudit groupe ; une étape de codage d'au moins une donnée de complément, représentative d'une autre composante dudit groupe, par comparaison avec ladite donnée de référence.
7. Procédé de codage selon la revendication 6, caractérisé en ce que ladite étape de codage met en oeuvre, pour chaque composante d'indice k les équations suivantes : a e'k,n = ~k,n-1 + a1 (Ï1,n - ~1,n-1 dk,n ='ek n - ~k n , où - n est l'indice de temps ; (I)k,n est la valeur, à un instant indicé n, de la phase de la composante d'indice k; 20 uk,n est une donnée de prédiction, à un instant indicé n, de la phase de la composante d'indice k ; - 4i)k,n._1 est une donnée quantifiée, à un instant indicé n-1, de la phase de ladite composante harmonique ; (iél,n-.1 est une donnée quantifiée, à un instant indicé n-1, de la phase de 25 la composante d'indice 1; ak et al sont des valeurs proportionnelles aux fréquences de base des composantes k et 1, choisies de façon à ce que le rapport de ces valeurs soit représentatif d'un rapport de fréquence entre la composante sinusoïdale d'indice k et la composante sinusoïdale d'indice 1;15- dk n est une valeur de résidu, à un instant indicé n, entre ladite valeur de phase et ladite donnée de prédiction de la composante d'indice k.
8. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en oeuvre du procédé de codage selon au moins une des revendications 1 à 7.
9. Dispositif de codage d'un signal audio source, comprenant des moyens de transformation d'un espace amplitude / temps vers un espace mufti-composantes décrit en amplitude, en phase et en temps, délivrant une pluralité de composantes, caractérisé en ce qu'il comprend : - des moyens de comparaison desdites composantes entre elles, de façon à définir au moins un groupe d'au moins deux composantes selon au moins un critère de similarité ; - des moyens de codage, pour au moins un desdits groupes : d'au moins une donnée de référence dudit groupe ; - d'au moins une donnée de complément, associée à au moins une des composantes dudit groupe, et permettant de reconstruire, en combinaison avec ladite information de référence, au moins une information représentative d'au moins une composante.
10. Signal codé représentatif d'un signal audio source, comprenant une représentation du signal source sous la forme d'une pluralité de composantes décrites dans un espace de représentation en amplitude, en phase et en temps, caractérisé en ce que lesdites composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun desdits groupes comprenant : au moins une donnée de référence dudit groupe ; au moins une donnée de complément, associée à au moins une des composantes dudit groupe, et permettant de reconstruire, en combinaisonavec ladite information de référence, au moins une information représentative d'au moins une composante.
11. Support de données comprenant au moins un signal codé représentatif d'un signal audio source, comprenant une représentation du signal source sous la forme d'une pluralité de composantes décrites dans un espace de représentation en amplitude, en phase et en temps, lesdites composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun desdits groupes comprenant : au moins une donnée de référence dudit groupe ; au moins une donnée de complément, associée à au moins une des composantes dudit groupe, et permettant de reconstruire, en combinaison avec ladite information de référence, au moins une information représentative d'au moins une composante.
12. Procédé de décodage d'un signal codé représentatif d'un signal audio source, caractérisé en ce que, ledit signal comprenant une représentation du signal source sous la forme d'une pluralité de composantes décrites dans un espace de représentation en amplitude, en phase et en temps, lesdites composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun desdits groupes comprenant : au moins une donnée de référence dudit groupe ; au moins une donnée de complément, associée à au moins une des composantes dudit groupe, et permettant de reconstruire, en combinaison avec ladite information de référence, au moins une information représentative d'une composante, ledit procédé comprend les étapes de : obtention de la ou desdites données de référence et de la ou desdites données de complément ;reconstruction de la ou desdites informations représentatives desdites composantes, à partir desdites données de référence et de complément.
13. Procédé de décodage selon la revendication 12, caractérisé en ce qu'il comprend une étape de construction d'un signal audio reconstruit, représentatif dudit signal auclio source, en tenant compte desdites informations représentatives desdites composantes.
14. Procédé de décodage selon l'une quelconque des revendications 12 et 13, caractérisé en ce qu'il comprend : une étape de décodage d'au moins une donnée de référence, représentative 10 d'une composante de référence dudit groupe ; une étape de décodage d'au moins une donnée de complément représentative d'une autre composante dudit groupe, par comparaison avec ladite donnée de référence ; une étape de reconstruction de ladite autre composante par combinaison de 15 ladite donnée de référence et de la ou desdites données de complément.
15. Procédé de décodage selon la revendication 14, caractérisé en ce que lesdites données de complément sont codées selon une période multiple d'une période d'échantillonnage, et en ce qu'il comprend une étape d'interpolation de données de complément estimées pour les périodes d'échantillonnage pour 20 lesquelles une donnée de complément n'a pas été codée.
16. Procédé de décodage selon l'une quelconque des revendications 12 à 15, caractérisé en ce qu'il met en oeuvre l'équation suivante : (Dk, n -(1)k,n-m + ((Dl,n - )fk + Op * q[index] où : .%i - 'k,n-m est une donnée quantifiée, à un instant indicé n-m, de la 25 phase reconstruite de ladite composante d'indice k ; - ci'1 n est une donnée quantifiée, à un instant indicé n, de la phase reconstruite de ladite composante d'indice 1; -(i'1,n-m est une donnée quantifiée, à un instant indicé n-m, de la phase reconstruite de ladite composante d'indice 1;- fk est une valeur de ladite fréquence reconstruite correspondant à ladite composante ; - fl est une valeur de ladite fréquence reconstruite correspondant à ladite composante du groupe de référence ; - LAI, est un pas de quantification d'une erreur de quantification ; - q[indexi est une valeur entière correspondant à une valeur quantifiée de correction.
17. Procédé de décodage selon l'une quelconque des revendications 12 à 16, caractérisé en ce qu'il comprend : une étape de prédiction selon un axe temporel de ladite donnée de référence par rapport à au moins une valeur précédente correspondante, délivrant au moins une donnée prédite ; une étape d'ajout à au moins une desdites données prédites d'un résidu correspondant transmis dans ledit signal, de façon à obtenir une donnée réelle reconstruite.
18. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en oeuvre du procédé de décodage selon l'une au moins des revendications 12 à 17.
19. Dispositif de décodage d'un signal codé représentatif d'un signal audio source, caractérisé en ce que, ledit signal comprenant une représentation du signal source sous la forme d'une pluralité de composantes décrites dans un espace de représentation en amplitude, 25 en phase et en temps, lesdites composantes étant regroupées en au moins un groupe d'au moins deux composantes selon au moins un critère de similarité, chacun desdits groupes comprenant : - au moins une donnée de référence dudit groupe ;au moins une donnée de complément, associée à au moins une des composantes dudit groupe, et permettant de reconstruire, en combinaison avec ladite information de référence, au moins une information représentative d'une composante, ledit dispositif comprend : des moyens d'obtention de la ou desdites données de référence et de la ou desdites données de complément ; des moyens de reconstruction de la ou desdites informations représentatives desdites composantes, à partir desdites données de 10 référence et de complément.
FR0601175A 2006-02-09 2006-02-09 Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants Pending FR2897212A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR0601175A FR2897212A1 (fr) 2006-02-09 2006-02-09 Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants
EP07731600A EP1982330A2 (fr) 2006-02-09 2007-02-09 Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants
PCT/FR2007/050775 WO2007091000A2 (fr) 2006-02-09 2007-02-09 Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants
US12/278,882 US20090187411A1 (en) 2006-02-09 2007-02-09 Method for encoding a source audio signal, corresponding encoding device, decoding method, signal, data carrier and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0601175A FR2897212A1 (fr) 2006-02-09 2006-02-09 Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants

Publications (1)

Publication Number Publication Date
FR2897212A1 true FR2897212A1 (fr) 2007-08-10

Family

ID=37056453

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0601175A Pending FR2897212A1 (fr) 2006-02-09 2006-02-09 Procede de codage d'un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d'ordinateur correspondants

Country Status (4)

Country Link
US (1) US20090187411A1 (fr)
EP (1) EP1982330A2 (fr)
FR (1) FR2897212A1 (fr)
WO (1) WO2007091000A2 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543027A (zh) * 2020-12-16 2021-03-23 中国石油大学(华东) 基于模式识别的窄脉宽负脉冲式下传信号解码方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
WO2005036529A1 (fr) * 2003-10-13 2005-04-21 Koninklijke Philips Electronics N.V. Codage audio

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60113034T2 (de) * 2000-06-20 2006-06-14 Koninkl Philips Electronics Nv Sinusoidale kodierung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
WO2005036529A1 (fr) * 2003-10-13 2005-04-21 Koninklijke Philips Electronics N.V. Codage audio

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543027A (zh) * 2020-12-16 2021-03-23 中国石油大学(华东) 基于模式识别的窄脉宽负脉冲式下传信号解码方法及系统
CN112543027B (zh) * 2020-12-16 2022-11-15 中国石油大学(华东) 基于模式识别的窄脉宽负脉冲式下传信号解码方法及系统

Also Published As

Publication number Publication date
EP1982330A2 (fr) 2008-10-22
WO2007091000A3 (fr) 2007-10-18
WO2007091000A2 (fr) 2007-08-16
US20090187411A1 (en) 2009-07-23

Similar Documents

Publication Publication Date Title
JP5356406B2 (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
EP2586133B1 (fr) Contrôle d&#39;une boucle de rétroaction de mise en forme de bruit dans un codeur de signal audionumérique
EP1997103B1 (fr) Procede de codage d&#39;un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d&#39;ordinateur correspondants
CA2766777C (fr) Allocation de bits dans un codage/decodage d&#39;amelioration d&#39;un codage/decodage hierarchique de signaux audionumeriques
EP2277172A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique
EP1575032A2 (fr) Procédé et dispositif pour le codage et décodage audio sans perte
EP1905010A2 (fr) Dispositif de codage/decodage hierarchique
NO341186B1 (no) Selektiv anvendelse ved bruk av flere entropimodeller i adaptiv koding og dekoding
FR2867649A1 (fr) Procede de codage multiple optimise
TWI539445B (zh) 音訊解碼器、系統、解碼方法及相關電腦程式
WO2007090988A2 (fr) Procede et dispositif de codage hierarchique d&#39;un signal audio source, procede et dispositif de decodage, programmes et signal correspondants
EP2183851A1 (fr) Codage/decodage par plans de symboles, avec calcul dynamique de tables de probabilites
FR3024582A1 (fr) Gestion de la perte de trame dans un contexte de transition fd/lpd
JP2007504503A (ja) 低ビットレートオーディオ符号化
EP1385150B1 (fr) Procédé et dispositif pour la caractérisation des signaux audio transitoires
EP1875465A1 (fr) Procede d&#39;adaptation pour une interoperabilite entre modeles de correlation a cout terme de signaux numeriques
WO2009081003A1 (fr) Codage/decodage par transformee, a fenetres adaptatives
FR2897212A1 (fr) Procede de codage d&#39;un signal audio source, dispositif de codage, procede de decodage, signal, support de donnees, produits programme d&#39;ordinateur correspondants
JP2014501395A (ja) 階層型符号器における改良ステージの改良符号化
US10734005B2 (en) Method of encoding, method of decoding, encoder, and decoder of an audio signal using transformation of frequencies of sinusoids
FR2901433A1 (fr) Conversion entre representations en domaines de sous-bandes pour des bancs de filtres variant dans le temps
EP2589045B1 (fr) Codage/décodage prédictif linéaire adaptatif
JP2011009860A (ja) 符号化方法、復号方法、符号化器、復号器、プログラム
WO2011107434A1 (fr) Quantification contrainte par la distribution
WO2011144863A1 (fr) Codage avec mise en forme du bruit dans un codeur hierarchique