EP2168121B1

EP2168121B1 - Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe

Info

Publication number: EP2168121B1
Application number: EP08806144.5A
Authority: EP
Inventors: Adil Mouhssine; Abdellatif Benjelloun Touimi; Pierre Duhamel
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2007-07-03
Filing date: 2008-07-01
Publication date: 2018-06-06
Anticipated expiration: 2028-07-01
Also published as: EP2168121A1; US8612220B2; US20100198585A1; WO2009007639A1

Description

La présente invention concerne les dispositifs de codage de signaux audio, destinés notamment à prendre place dans des applications de transmission ou de stockage de signaux audio numérisés et compressés.
L'invention est relative plus précisément aux modules de quantification compris dans ces dispositifs de codage audio.
L'invention concerne plus particulièrement le codage de scène sonore 3D. Une scène sonore 3D, encore appelée son spatialisé, comprend une pluralité de canaux audio correspondant chacun à des signaux monophoniques.
Une technique de codage de signaux d'une scène sonore utilisée dans le codeur « MPEG Audio Surround » (cf. « Text of ISO/IEC FDIS 23003-1, MPEG Surround », ISO/IEC JTC1 / SC29 / WG11 N8324, July 2006, Klagenfurt, Austria), comprend l'extraction et le codage de paramètres spatiaux à partir de l'ensemble des signaux audio monophoniques sur les différents canaux. Ces signaux sont ensuite mélangés pour obtenir un signal monophonique ou stéréophonique, qui est alors comprimé par un codeur mono ou stéréo classique (par exemple de type MPEG-4 AAC, HE-AAC, etc). Au niveau du décodeur, la synthèse de la scène sonore 3D restituée se fait à partir des paramètres spatiaux et du signal mono ou stéréo décodé.
Le codage des signaux multicanaux nécessite dans certains cas l'introduction d'une transformation (KLT, Ambiophonique, DCT...) permettant de mieux prendre en compte les interactions qui peuvent exister entre les différents signaux de la scène sonore à coder.
Il est toujours besoin d'accroitre la qualité audio des scènes sonores restituées après une opération de codage et décodage.
DERRIEN O & DUHAMEL P: "Une approche statistique pour l'optimisation du MPEG-2/4 AAC (Advanced Audio Coder) en mode stéréophonique matricé (MS stéréo)",ACTES DE COLLOQUES DU GROUPE D'ETUDES DU TRAITEMENT DU SIGNAL ET DES IMAGES (GRETSI), 2003, pages 1-4, divulgue un procédé de quantification de composantes dans un système MS stéréo.
L'objet de l'invention est de trouver une amélioration pour la quantification dans un système multicanaux. Cet objet est résolu par les revendication indépendantes. Suivant un premier aspect, l'invention propose un procédé de quantification de composantes, certaines au moins de ces composantes étant déterminées chacune en fonction d'une pluralité de signaux audio d'une scène sonore et calculables par application d'une transformation linéaire sur lesdits signaux audio.
Selon le procédé, on détermine une fonction de quantification à appliquer audites composantes dans une bande de fréquence donnée en testant une condition relative à au moins un signal audio et dépendant au moins d'une comparaison effectuée entre un seuil de masquage psychoacoustique relatif au signal audio dans la bande de fréquence donnée, et une valeur déterminée en fonction de la transformation linéaire inverse et d'erreurs de quantification des composantes par ladite fonction sur la bande de fréquence donnée.
Un tel procédé permet donc de déterminer une fonction de quantification qui permette de masquer, dans le domaine d'écoute de restitution, le bruit introduit par rapport au signal audio de la scène sonore initiale. La scène sonore restituée après les opérations de codage et décodage présente donc une meilleure qualité audio.
En effet, l'introduction d'une transformée multicanal (par exemple de type ambiophonique) transforme les signaux réels dans un nouveau domaine différent du domaine d'écoute. La quantification des composantes résultant de cette transformée selon les méthodes de l'état de l'art, basées sur un critère perceptuel (i.e. respectant le seuil de masquage sur ces derniers), ne garantit pas une distorsion minimale sur les signaux réels restitués dans le domaine d'écoute. En effet, le calcul de la fonction de quantification selon l'invention permet de garantir que les bruits de quantification induits sur les signaux réels par la quantification des composantes transformées sont minimaux au sens d'un critère perceptuel. La condition d'une amélioration maximale de la qualité perceptuelle des signaux dans le domaine d'écoute est alors vérifiée.
Dans un mode de réalisation la condition est relative à plusieurs signaux audio et dépend de plusieurs comparaisons, chaque comparaison étant effectuée entre un seuil de masquage psychoacoustique relatif à un signal audio respectif dans la bande de fréquence donnée, et une valeur déterminée en fonction de la transformation linéaire inverse et d'erreurs de quantification des composantes par ladite fonction.
Cette disposition accroît encore la qualité audio de la scène sonore restituée.
Dans un mode de réalisation, la détermination de la fonction de quantification est réitérée lors de l'actualisation des valeurs des composantes à quantifier. Cette disposition permet également d'accroître la qualité audio de la scène sonore restituée, en adaptant la quantification dans le temps en fonction des caractéristiques des signaux.
Dans un mode de réalisation, on teste la condition relative à un signal audio au moins en comparant le seuil de masquage psychoacoustique relatif au signal audio et un élément représentant la valeur $\sum_{j = 1}^{r} (h_{i, j}^{2} B_{j} {(s)}^{\frac{3}{2}} μ_{\begin{matrix} 1 \\ 2 \end{matrix}, j} (s)),$
où s est la bande de fréquence donnée, r est le nombre de composantes, h_i,j est le coefficient de la transformée linéaire inverse relatif au signal audio et à la j^ème composante avec j=1 à r, B_j (s) représente un paramètre de la fonction de quantification dans la bande s relative à la j^ème composante et $μ_{\begin{matrix} 1 \\ 2 \end{matrix}, j} (s)$
est l'espérance mathématique dans la bande s de la racine carrée de la j^ème composante.
Dans un mode de réalisation, on détermine une fonction de quantification à appliquer audites composantes dans la bande de fréquence donnée à l'aide d'un processus itératif générant à chaque itération un paramètre de la fonction de quantification candidat vérifiant la condition et associé à un débit correspondant, l'itération étant stoppée lorsque le débit est inférieur à un seuil donné.
Une telle disposition permet ainsi de déterminer simplement une fonction de quantification à partir des paramètres déterminés, permettant le masquage du bruit dans le domaine d'écoute de restitution tout en réduisant le débit de codage en dessous d'un seuil donné.
Dans un mode de réalisation, la transformation linéaire est une transformation ambiophonique.
Dans un mode de réalisation particulier, la transformation linéaire est une transformation ambiophonique (appelée en anglais « ambisonic »). Cette disposition permet d'une part de réduire le nombre de données à transmettre puisque, en général, les N signaux peuvent être décrits d'une manière très satisfaisante par un nombre de composantes ambiophoniques réduit (par exemple, un nombre égal à 3 ou 5), inférieur à N. Cette disposition permet en outre une adaptabilité du codage à tout type de système de rendu sonore, puisqu'il suffit au niveau du décodeur, d'appliquer une transformée ambiophonique inverse de taille Q'x(2p'+1), (où Q' est égal au nombre de haut-parleurs du système de rendu sonore utilisé en sortie du décodeur et 2p'+1 le nombre de composantes ambiophoniques reçues), pour déterminer les signaux à fournir au système de rendu sonore.
L'invention peut être mise en oeuvre avec toute transformation linéaire, par exemple la DCT ou encore la transformée KLT (en anglais « Karhunen Loeve Transform ») qui correspond à une décomposition sur des composantes principales dans un espace représentant les statistiques des signaux et permet de distinguer les composantes les plus énergétiques des composantes les moins énergétiques.
Suivant un deuxième aspect, l'invention propose un module de quantification adapté pour quantifier des composantes, certaines au moins de ces composantes étant déterminées chacune en fonction d'une pluralité de signaux audio d'une scène sonore et calculables par application d'une transformation linéaire sur lesdits signaux audio, ledit module de quantification étant adapté pour mettre en oeuvre les étapes d'un procédé suivant le premier aspect de l'invention.
Suivant un troisième aspect, l'invention propose un codeur audio adapté pour coder une scène audio comprenant plusieurs signaux respectifs en un flux binaire de sortie, comprenant :

un module de transformation adapté pour calculer par application d'une transformation linéaire sur lesdits signaux audio, des composantes dont certaines au moins sont déterminées chacune en fonction d'une pluralité des signaux audio d'une scène sonore ; et
un module de quantification suivant le deuxième aspect de l'invention adapté pour déterminer au moins une fonction de quantification sur au moins une bande de fréquence donnée et pour quantifier les composantes sur la bande de fréquence donnée en fonction d'au moins la fonction de quantification déterminée ;
le codeur audio étant adapté pour constituer un flux binaire en fonction au moins de données de quantification délivrées par le module de quantification.

Suivant un quatrième aspect, l'invention propose un programme d'ordinateur à installer dans un module de quantification, ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé suivant le premier aspect de l'invention lors d'une exécution du programme par des moyens de traitement dudit module.
Suivant un cinquième aspect, l'invention propose des données de codage, déterminées suite à la mise en oeuvre d'un procédé de quantification suivant le premier aspect de l'invention.
D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels :

la figure 1 représente un codeur dans un mode de réalisation de l'invention ;
la figure 2 représente un décodeur dans un mode de réalisation de l'invention ;
la figure 3 est un organigramme représentant des étapes d'un procédé dans un mode de réalisation de l'invention.

La figure 1 représente un codeur audio 1 dans un mode de réalisation de l'invention. Il s'appuie sur la technologie des codeurs audio perceptuels, par exemple de type MPEG-4 AAC.
Le codeur 1 comprend un module 2 de transformation temps/fréquence, un module 3 de transformation linéaire, un module 4 de quantification, un module 5 de codage entropique de Huffman et un module 6 de calcul de courbe de masquage, en vue de la transmission d'un flux binaire Φ représentant les signaux fournis en entrée du codeur 1.
Une scène sonore 3D comprend N canaux sur chacun un signal audio respectif S ₁, ..., S_N est délivré.
La figure 2 représente un décodeur audio 100 dans un mode de réalisation de l'invention.
Le décodeur 100 comprend un module 101 de lecture de séquence binaire, un module 102 de quantification inverse, un module 103 de transformation linéaire inverse, un module 104 de transformation fréquence/temps.
Le décodeur 100 est adapté pour recevoir en entrée le flux binaire Φ transmis par le codeur 1 et pour délivrer en sortie Q' signaux S'₁, ..., S'_Q , destinés à alimenter les Q' haut-parleurs H1, H2 ..., HQ' respectifs d'un système de rendu sonore 105.

Opérations réalisées au niveau du codeur :

Le module 2 de transformation temps/fréquence du codeur 1 reçoit en entrée les N signaux S ₁, ..., S_N de la scène sonore 3D à coder, sous forme de blocs successifs.
Chaque bloc m reçu comporte N trames temporelles indiquant chacune différentes valeurs prises au cours du temps par un signal respectif.
Sur chaque trame temporelle de chacun des signaux, le module 2 de transformation temps/fréquence effectue une transformation temps/fréquence, dans le cas présent, une transformée en cosinus discrète modifiée (MDCT).
Ainsi, suite à la réception d'un nouveau bloc comportant une nouvelle trame pour chacun des signaux S_i , il détermine, pour chacun des signaux S_i , i=1 à N, sa représentation spectrale X_i, caractérisée par M coefficients MDCT X_i,t, avec t = 0 à M-1. Un coefficient MDCT X_i,t représente ainsi le spectre du signal Si pour une fréquence F_i.
Les représentations spectrales X_i des signaux S_i , i= 1 à N, sont fournies en entrée du module 3 de transformation linéaire.
Les représentations spectrales X_i des signaux S_i , i= 1 à N, sont en outre fournies en entrée du module 6 de calcul des courbes de masquage.
Le codage de signaux multicanaux comporte dans le cas considéré une transformation linéaire, permettant de prendre en compte les interactions entre les différents signaux audio à coder, avant le codage monophonique, par le module 4 de quantification, des composantes résultant de la transformation linéaire.
Le module 3 de transformation linéaire est adapté pour effectuer une transformation linéaire des coefficients des représentations spectrales (X_i )_1≤i≤N fournis. Dans un mode de réalisation, il est adapté pour effectuer une transformation spatiale. Il détermine alors les composantes spatiales des signaux (X_i )_1≤i≤N , dans le domaine fréquentiel, résultant de la projection sur un référentiel spatial dépendant de l'ordre de la transformation. L'ordre d'une transformation spatiale se rattache à la fréquence angulaire selon laquelle elle « scrute » le champ sonore.
Dans le mode de réalisation considéré, le module 3 de transformation linéaire effectue une transformation ambiophonique d'ordre p (par exemple p=1), qui donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées.
Pour plus d'information sur les transformations ambiophoniques, on pourra se référer aux documents suivants : « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 31 juillet 2001, « A highly scalable spherical microphone array based on an orthonormal décomposition of the sound field », Jens Meyer - Gary Elko, Vol. Il - pp. 1781-1784 in Proc. ICASSP 2002.
Le module 3 de transformation spatiale délivre ainsi r (r= 2p+1) composantes ambiophoniques (Y_j )_1≤j≤r. Chaque composante ambiophonique Y_j considérées dans le domaine fréquentiel, comporte M paramètres spectraux Y_j,t pour t = 0 à M-1. Le paramètre spectral Y_j,t se rapporte à la fréquence F_t pour t = 0 à M-1.
Les composantes ambiophoniques sont déterminés de la façon suivante : $[\begin{matrix} Y_{1,0} & \cdot & \cdot & Y_{1, M - 1} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot \\ \cdot & \cdot & \cdot & \cdot \\ Y_{r,0} & \cdot & \cdot & Y_{r, M - 1} \end{matrix}] = R [\begin{matrix} X_{1,0} & \cdot & \cdot & X_{1, M - 1} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot \\ \cdot & \cdot & \cdot & \cdot \\ X_{N,0} & \cdot & \cdot & X_{N, M - 1} \end{matrix}]$
où $R = {(R_{i, j})}_{\begin{matrix} 1 \leq i \leq r \\ 1 \leq j \leq N \end{matrix}}$
est la matrice de transformation ambiophonique d'ordre p pour la scène sonore spatiale, avec $R_{i, j} = 1 R_{i, j} = \sqrt{2} \cos [(\frac{1}{2}) θ_{j}]$
si i pair et $R_{i, j} = \sqrt{2} \sin [(\frac{i - 1}{2}) θ_{j}]$
si i impair supérieur ou égale à 3, et θj est l'angle de propagation du signal S_j dans l'espace de la scène 3D.
Chacune des composantes ambiophoniques est donc déterminée en fonction de plusieurs signaux (S_i )_1≤i≤N.
Le module 6 de calcul de courbe de masquage est adapté pour déterminer la courbe de masquage spectral de chaque trame d'un signal Si considéré individuellement dans le bloc m, à l'aide de sa représentation spectrale Xi et d'un modèle psychoacoustique.
Le module 6 de calcul de courbe de masquage calcule ainsi un seuil de masquage $M_{T}^{m} (s, i),$
relatif à la trame de chaque signal (S_i )_1≤i≤N dans le bloc m, pour chaque bande de fréquence s considérée lors de la quantification. Chaque bande de fréquence s est élément d'un ensemble de bandes de fréquence comprenant par exemple les bandes telles que normalisées pour le codeur MPEG-4 AAC.
Les seuils de masquage $M_{T}^{m} (s, i)$
pour chaque signal S_i et chaque bande de fréquences s sont délivrés au module 4 de quantification.
Le module 4 de quantification est adapté pour quantifier les composantes (Y_j )_1≤j≤r qui lui sont fournies en entrée, de manière à réduire le débit nécessaire à la transmission. Des fonctions de quantification respectives sont déterminées par le module 4 de quantification sur chaque bande de fréquence s.
Dans une bande s quelconque, le module 4 de quantification quantifie chaque coefficient spectral ${(Y_{j, t})}_{\begin{matrix} 1 \leq i \leq r \\ 0 \leq t \leq M - 1 \end{matrix}}$
tel que la fréquence F_t est élément de la bande de fréquence s. Il détermine ainsi un indice de quantification i(k) pour chaque coefficient spectral ${(Y_{j, t})}_{\begin{matrix} 1 \leq i \leq r \\ 0 \leq t \leq M - 1 \end{matrix}}$
tel que la fréquence F_t est élément de la bande de fréquence s.
Pour une bande s considérée, k prend les valeurs de l'ensemble {k _min, _s,k _min+1 _,s,...k _max,s}, et (k _max _,s - k _min+1,s +1) est égal au nombre de coefficients spectraux à quantifier dans la bande s pour l'ensemble des composantes ambiophoniques.
La fonction de quantification Q^m appliquée par le module 4 de quantification pour les coefficients ${(Y_{j, t})}_{\begin{matrix} 1 \leq j \leq r \\ 0 \leq t \leq M - 1 \end{matrix}}$
calculés pour un bloc m de signaux prend la forme suivante, conformément à la norme MPEG-4 AAC :
$Q^{m} (Y_{j, t}) = Arr ({(\frac{Y_{j, t}}{B_{j}^{m} (s)})}^{\frac{3}{4}})$
avec la fréquence F_t élément de la bande de fréquence s, et il existe k élément de {k _min,s,k _min+1,s,... _kmax,s} tel que Q^m(Y_j,t ) = i(k). $B_{j}^{m} (s),$
coefficient d'échelle relatif à la composante ambiophonique Y_j, prend des valeurs discrètes. Il dépend du paramètre d'échelle entier relatif $ϕ_{j}^{m} (s) : B_{j}^{m} (s) = 2^{\frac{1}{4} ϕ_{j}^{m (s)}} .$
Arr est une fonction d'arrondi délivrant une valeur entière. Arr(x) est par exemple la fonction fournissant l'entier le plus proche de la variable x, ou encore la fonction « partie entière » de la variable x, etc.
Le module 4 de quantification est adapté pour déterminer une fonction de quantification à appliquer sur une bande de fréquence s vérifiant que le seuil de masquage $M_{T}^{m} (s, i)$
de chaque signal S_i dans le domaine d'écoute, avec 1 ≤ i ≤ N, est supérieur à la puissance de l'erreur apportée, sur un signal audio restitué dans le domaine d'écoute correspondant au canal i (et non pas dans le domaine de transformation linéaire), par les erreurs de quantification apportée aux composantes ambiophoniques.
Le module 4 de quantification est donc adapté pour déterminer, lors du traitement d'un bloc m de signaux, la fonction de quantification définie à l'aide des paramètres d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r}$
relatifs à chaque bande s, telle que, pour tout i, 1 ≤ i ≤ N, l'erreur introduite sur le signal S_i dans la bande s par la quantification des composantes ambiophoniques est inférieure au seuil de masquage $M_{T}^{m} (s, i)$
du signal S_i sur la bande s.
Un problème à résoudre par le module 4 de quantification est donc de déterminer, sur chaque bande s, l'ensemble des coefficients d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r}$
vérifiant la formule (1) suivante : ${\{B_{j}^{m} / P_{e}^{m} (s, i) \leq M_{T}^{m} (s, i),1 \leq i \leq N\}}_{1 \leq j \leq r}$
où $P_{e}^{m} (s, i)$
est la puissance d'erreur introduite sur le signal S_i suite aux erreurs de quantification introduites par la quantification, définie par les coefficients d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r},$
des composantes ambiophoniques.
Ainsi, B_j (s) représente un paramètre caractérisant la fonction de quantification dans la bande s relative à la j^ème composante. Le choix de B_j (s) détermine de manière bijective la fonction de quantification utilisée.
Cette disposition a pour effet que le bruit apporté dans le domaine d'écoute par la quantification sur les composantes issues de la transformation linéaire reste masqué par le signal dans le domaine d'écoute, ce qui contribue à une meilleure qualité des signaux restitués dans le domaine d'écoute.
Dans un mode de réalisation, le problème indiqué ci-dessus par la formule (1) est traduit sous la forme de la formule (2) suivante : ${\{B_{j}^{m} / Probabilité (P_{e}^{m} (s, i) \leq M_{T}^{m} (s, i)) \geq α,1 \leq i \leq N\}}_{1 \leq j \leq r},$
où α est un taux fixé de respect du seuil de masquage.
La probabilité est calculée pour la trame relative au signal S_i du bloc m considéré et sur l'ensemble des bandes de fréquence s.
La justification de cette traduction est réalisée dans le document « Optimisation de la quantification par modèles statistiques dans le codeur MPEG Advanced Audio coder (AAC) - Application à la spatialisation d'un signal comprimé en environnement MPEG-4 », Thèse de doctorat de Olivier Derrien - ENST Paris, 22 novembre 2002, nommé ci-après « document Derrien ». Selon ce document, on cherche à modifier la quantification de manière à diminuer la distorsion perçue par l'oreille d'un signal résultant d'un filtrage de spatialisation HRTF (en anglais « Head Related Transfer Function » encore appelé filtre de tête modélisant l'effet de chemin de propagation entre la position de la source sonore et l'oreille humaine et prenant en compte l'effet dû à la tête et au torse d'un auditeur, appliqué après le décodage.
Par ailleurs, $P_{e}^{m} (s, i) = \sum_{k = k_{\min}}^{k = k_{\max}} e_{i}^{m} {(k)}^{2},$
où ${\{e_{i}^{m} (k)\}}_{k_{\min} \leq k \leq k_{\max}}$
sont les erreurs introduites sur les K_s = (k _max,s - k _min+1,s +1) coefficients spectraux du signal S_i correspondant à des fréquences dans la bande s.
Soit $H = {(h_{i, j})}_{\begin{matrix} 1 \leq i \leq N \\ 1 \leq j \leq r \end{matrix}}$
la matrice inverse de la matrice de transformation ambiophonique R, alors $e_{i}^{m} (k) = \sum_{j = 1}^{j = r} h_{i, j} v_{j}^{m} (k),$
où ${\{v_{j}^{m} (k)\}}_{k_{\min, s} \leq k \leq k_{\max, s}}$
sont les erreurs de quantification introduites sur les (k _max _,s - k _min+1,s + 1) coefficients spectraux de composantes ambiophoniques correspondant à des fréquences dans la bande s.
Ainsi $P_{e}^{m} (s, i) = \sum_{k = k_{min, s}}^{k = k_{\max}, s} {(\sum_{j = 1}^{j = r} h_{i, j} v_{j}^{m} (k))}^{2} .$
On effectue les hypothèses suivantes :

les erreurs de quantification $e_{i}^{m} (k)$
sont des variables aléatoires indépendantes équi-distribuées selon l'indice k ;
les erreurs de quantification $e_{i}^{m} (k)$
sont des variables aléatoires selon l'indice i ;
le nombre d'échantillons dans une bande s est suffisamment grand ;
le codeur 1 travaille à haute résolution.

Sous ces hypothèses et par application du théorème de la limite centrale, la puissance $P_{e}^{m} (s, i)$
de l'erreur de quantification, dans une sous-bande s et pour un signal S_i , tend, lorsque le nombre de coefficients dans une bande s augmente, vers une gaussienne dont la moyenne $m_{P_{e}^{m} (s, S_{i})}$
et la variance $σ_{P_{e}^{m} (s, S_{i})}$
sont données par les formules suivantes : ${\begin{cases} m_{P_{e}^{m} (s, i)} & = \sum_{k = k_{\min, s}}^{k_{\max, s}} E [e_{i}^{m} {(k)}^{2}] \\ σ_{P_{e}^{m} (s, i)}^{2} & = \sum_{k = k_{\min, s}}^{k_{\max, s}} E [e_{i}^{m} {(k)}^{4}] - E {[e_{i}^{m} {(k)}^{2}]}^{2} \end{cases}$
où la fonction E[x] délivre la moyenne de la variable x.
La contrainte « Probabilité $(P_{e}^{m} (s, i) \leq M_{T}^{m} (s, i)) \geq α$
» indiquée dans la formule 2 ci-dessus s'écrit alors à l'aide de la formule (3) suivante : $m_{P_{e}^{m} (s, i)} + β (α) σ_{P_{e}^{m} (s, i)} \leq M_{T}^{m} (s, i)$
Avec : $β (α) = \sqrt{2} {Erf}^{- 1} (2 α - 1)$
et la fonction Erf ^-1(x) est l'inverse de la fonction d'erreur d'Euler.
Les variables $e_{i}^{m} (k)$
étant indépendantes selon l'indice i, on en déduit : $E [e_{i}^{m} {(k)}^{2}] = \sum_{j = 1}^{r} h_{i, j}^{2} E [v_{i}^{m} {(k)}^{2}]$
Par conséquent, on obtient : $m_{P_{e}^{m} (s, i)} = \sum_{k = k_{\min, s}}^{k_{\max, s}} \sum_{j = 1}^{r} h_{i, j}^{2} E [v_{i}^{m} {(k)}^{2}] = \sum_{j = 1}^{r} h_{i, j}^{2} \sum_{k = k_{\min, s}}^{k_{\max, s}} E [v_{j}^{m} {(k)}^{2}]$
Les variables aléatoires $e_{i}^{m} (k)$
étant indépendantes et équi-distribuées selon l'indice k, les variables aléatoires $v_{i}^{m} (k)$
sont également indépendantes et équi-distribuées selon l'indice k. Par conséquent : $m_{P_{e}^{m} (s, i)} = K_{s} \cdot \sum_{j = 1}^{r} h_{i, j}^{2} E [{(v_{i}^{m} (s))}^{2}]$
avec : $K_{s} = k_{\max, s} - k_{\min, s} + 1$
On suppose que les puissances $P_{e}^{m} (s, i)$
d'erreur de quantification tendent vers des gaussiennes, alors : $E [e_{i}^{m} {(k)}^{4}] = 3 E {[e_{i}^{m} {(k)}^{2}]}^{2}$
D'où : $σ^{2}_{P_{e}^{m} (s, i)} = 2 \sum_{k = k_{\min, s}}^{k_{\max, s}} E {[e_{i}^{m} {(k)}^{2}]}^{2}$
Ainsi on peut écrire : $σ^{2}_{P_{e}^{m} (s, i)} = 2 \sum_{k = k_{\min, s}}^{k_{\max, s}} {(h_{i, j}^{2} \sum_{j = 1}^{r} E [v_{j}^{m} {(k)}^{2}])}^{2}$
A partir de cette dernière équation, et en appliquant l'inégalité de Cauchy-Schwartz : $σ_{P_{e}^{m} (s, i)} = \sqrt{2} \sqrt{\sum_{k = k_{\min, s}}^{k_{\max, s}} {(h_{i, j}^{2} \sum_{j = 1}^{r} E [v_{j}^{m} {(k)}^{2}])}^{2}} \leq \sqrt{2} \sum_{k = k_{\min, s}}^{k_{\max, s}} h_{i, j}^{2} \sum_{j = 1}^{r} E [v_{j}^{m} {(k)}^{2}]$
Ce qui implique que : $σ_{P_{e}^{m} (s, i)} \leq \sqrt{2} m_{P_{e}^{m} (s, i)}$
Par ailleurs, en haute résolution : $E [v_{j}^{2}] \approx \frac{16}{9} E [e_{R}^{2}] B_{j}^{m} {(s)}^{\frac{3}{2}} μ_{\frac{1}{2}, j} (s)$
avec $μ_{\frac{1}{2}, j}$
représentant l'espérance mathématique de ${| Y_{j}^{m} |}^{\frac{1}{2}}$
dans la sous bande s traitée et e_R l'erreur d'arrondi propre à la fonction d'arrondi Arr.
Si Arr(x) est par exemple la fonction fournissant l'entier le plus proche de la variable x, e_R est égale à 0,5. Si Arr(x) est la fonction « partie entière » de la variable x, e_R est égale à 1.
Ainsi la contrainte donnée par la formule (3) relative au signal S_i , i= 1 à N, sur une bande s, s'écrit sous la forme suivante : $K_{s} \frac{16}{9} E [e_{R}^{2}] (1 + \sqrt{2} β (α)) \sum_{j = 1}^{r} (h_{i, j}^{2} B_{j}^{m} {(s)}^{\frac{3}{2}} μ_{\frac{1}{2}, j} (s)) \leq M_{T}^{m} (s, i)$
Il est ainsi possible, à partir de cette dernière équation, de déterminer si des coefficients d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r}$
calculés par le module 4 de quantification pour coder les composantes de la transformée, permettent ou non de respecter le seuil de masquage tel que considéré dans le domaine du signal.
Cette dernière équation représente une condition suffisante pour que le bruit correspondant au canal i soit masqué en sortie dans le domaine d'écoute.
Dans un mode de réalisation de l'invention, le module 4 de quantification est adapté pour déterminer à l'aide de cette dernière équation, pour un bloc m de trames courant, des coefficients d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r}$
garantissant que le bruit dans le domaine d'écoute est masqué.
Dans un mode de réalisation particulier de l'invention, le module 4 de quantification est adapté pour déterminer, pour un bloc m de trames courant, des coefficients d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r}$
garantissant que le bruit dans le domaine d'écoute est masqué et en outre permettant de respecter une contrainte de débit.
Dans un mode de réalisation, les conditions à respecter sont les suivantes :

Minimiser le débit global $D^{m} = \sum_{j = 1}^{r} D_{j}^{m}$
Sous la contrainte : $K_{s} \frac{16}{9} E [e_{R}^{2}] (1 + \sqrt{2} β (α)) \sum_{j = 1}^{r} (h_{i, j}^{2} B_{j}^{m} {(s)}^{\frac{3}{2}} μ_{\frac{1}{2}, j} (s)) \leq M_{T}^{m} (s, i)$
pour toute bande s, avec $D_{j}^{m}$
le débit global attribué à la composante ambiophonique Y_j .

On peut écrire que : $D_{j}^{m} = \sum_{s} D_{j}^{m} (s)$
où $D_{j}^{m} (s)$
est le débit attribué à la composante ambiophonique Y_j dans la bande s.
Minimiser le débit global D^m revient donc à minimiser le débit $D^{m} (s) = \sum_{j = 1}^{r} D_{j}^{m} (s)$
dans chaque bande s. Dans une première approximation, on peut écrire que le débit attribué à une composante ambiophonique dans une bande s est une fonction logarithmique du coefficient d'échelle, soit : $D_{j}^{m} (s) = D_{j,0}^{m} - γ \ln (B_{j}^{m} (s))$
La nouvelle fonction à minimiser s'écrit donc sous la forme suivante : $F (s) = - \sum_{j = 1}^{r} \ln (B_{j}^{m} (s))$
Pour résoudre le problème de quantification par bande en minimisant le débit global sous la contrainte (3), il faut donc minimiser la fonction F sous la contrainte (3).
La résolution de ce problème d'optimisation sous contrainte est par exemple effectuée à l'aide de la méthode des Lagrangiens.
La fonction Lagrangienne s'écrit sous la forme suivante : $L (B, λ) = - \sum_{j = 1}^{r} \ln (B_{j}^{m} (s)) + \sum_{i = 1}^{N} λ_{i} [K_{s} \frac{16}{9} E [e_{R}^{2}] (1 + \sqrt{2} β (α)) \sum_{j = 1}^{r} (h_{i, j}^{2} B_{j}^{m} {(s)}^{\frac{3}{2}} μ_{\frac{1}{2}, j} (s)) - M_{T}^{m} (s, i)]$
$L (B, λ) = - \sum_{j = 1}^{r} \ln (B_{j}^{m} (s)) + Δ_{j}^{m} (λ) B_{j}^{m} {(s)}^{\frac{3}{2}} - \sum_{i = 1}^{N} λ_{i} M_{T}^{m} (s, i)$
Avec : $Δ_{j}^{m} (λ) = μ_{\frac{1}{2}, j} (s) K_{s} \frac{16}{9} E [e_{R}^{2}] (1 + \sqrt{2} β (α)) \sum_{i = 1}^{N} h_{i, j}^{2} λ_{i}$
et les valeurs λ_j , 1 ≤ j ≤ N, sont les coordonnées du vecteur de Lagrange λ.
La mise en oeuvre de la méthode des Lagrangiens permet d'écrire tout d'abord que, pour 1 ≤ j ≤ r : $B_{j}^{m} (s) = \frac{3}{2} \frac{1}{Δ_{j}^{m} (λ)}$
On remplace par ces termes les coefficients d'échelle dans l'équation de Lagrange. Et on cherche alors à déterminer la valeur du vecteur de Lagrange λ qui maximise la fonction $ω (λ) = L ((B_{1}^{m} (s), \dots, B_{r}^{m} (s)), λ),$
par exemple à l'aide de la méthode du gradient de la fonction ω.
D'après la méthode du gradient d'Uzawa ∇w(λ), où $\nabla ω (λ) = (\begin{array}{l} \frac{\partial ω}{\partial λ_{1}} (λ) \\ ⋮ \\ \frac{\partial ω}{\partial λ_{N}} (λ) \end{array})$
les dérivées partielles ne sont autres que les contraintes calculées pour les $B_{j}^{m} (s) = \frac{3}{2} \frac{1}{Δ_{j}^{m} (λ)} .$
On utilise la méthode itérative de gradient relatif (cf. notamment le document Derrien) pour résoudre ce système.
L'équation générale (formule (4)) de mise à jour du vecteur de Lagrange lors d'une (k+1)^ième itération de la méthode s'écrit alors sous la forme suivante : $λ^{k + 1} = λ^{k} \otimes (1 + ρ m \otimes \nabla ω (λ^{k}))$
avec le vecteur de Lagrange λ avec un exposant (k+1) indiquant le vecteur actualisé et le vecteur de Lagrange λ avec un exposant k indiquant le vecteur calculé précédemment lors de la k^ième itération, ⊗ désignant le produit terme à terme entre deux vecteurs de même taille, ρ désignant le pas de l'algorithme itératif et m étant un vecteur de pondération.
Dans un mode de réalisation, de manière à assurer la convergence de la méthode itérative, on choisit le vecteur m égal à : $(\begin{array}{l} \frac{1}{M_{T}^{m} (s,1)} \\ ⋮ \\ \frac{1}{M_{T}^{m} (s, N)} \end{array})$
Dans le mode de réalisation considéré, le module 4 de quantification est adapté pour mettre en oeuvre les étapes du procédé décrit ci-dessous en référence à la figure 3 sur chaque bande de quantification s lors de la quantification d'un bloc m de signaux (S_i )_1≤i≤N.
Le procédé est basé sur un algorithme itératif comprenant des instructions pour mettre en oeuvre les étapes décrites ci-dessous lors de l'exécution de l'algorithme sur des moyens de calcul du module 4 de quantification.
Dans une étape a/ d'initialisation (k=0) : on définit la valeur du pas d'itération ρ, une valeur D représentant un seuil de débit et la valeur des coordonnées (λ ₁, ...λ_N ) du vecteur de Lagrange initial avec λ_j = λ ⁰, 1 ≤ j ≤ N.
Les étapes de la boucle itérative pour une (k+1)^ème itération, avec k entier supérieur ou égal à 0, sont les suivantes.
Dans une étape b/, les valeurs des coordonnées λ_j , 1 ≤ j ≤ N du vecteur de Lagrange considérées étant celles calculées précédemment lors de la k^ième itération, on calcule pour 1 ≤ j ≤ N : $Δ_{j}^{m} (λ) = μ_{\frac{1}{2}, j} (s) K_{s} \frac{16}{9} E [e_{R}^{2}] (1 + \sqrt{2} β (α)) \sum_{i = 1}^{N} h_{i, j}^{2} λ_{i}$
Puis dans une étape c/, on calcule les coefficients d'échelle, pour 1 ≤ j ≤ r : $B_{j}^{m} (s) = \frac{3}{2} \frac{1}{Δ_{j}^{m} (λ)}$
Dans une étape d/, on calcule la valeur de la fonction F sur la bande s, représentant le débit correspondant pour la bande s : $F (s) = - \sum_{j = 1}^{r} \ln (B_{j}^{m} (s))$
Dans une étape e/, on compare la valeur F(s) calculée avec le seuil donné D.
Si la valeur F(s) calculée est supérieure au seuil donné D, on calcule, dans une étape f/, la valeur du vecteur de Lagrange λ pour la (k+1)^ème itération à l'aide de l'équation (4) indiquée ci-dessus et du vecteur de Lagrange calculé lors de la k^ème itération.
Puis, dans une étape g/, on incrémente l'indice k d'une unité et on réitère les étapes b/, c/, d/ et e/.
Si la valeur F(s) calculée à l'étape e/, est inférieure au seuil donné D, on stoppe les itérations. On a alors déterminé des coefficients d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r}$
pour la bande de quantification s permettant de masquer, dans le domaine d'écoute, le bruit dû à la quantification dans la bande s, des composantes ambiophoniques (Y_j )_1≤j≤r, tout en garantissant que le débit nécessaire pour cette quantification dans la bande s est inférieur à une valeur déterminée, fonction de D.
On applique ensuite la fonction de quantification ainsi déterminée pour les bandes s respectives et composantes ambiophoniques respectives aux coefficients spectraux des composantes ambiophoniques. Les indices de quantification ainsi que des éléments de définition de la fonction de quantification sont fournis au module 5 de codage de Huffman.
Les données de codage délivrées par le module 5 de codage de Huffman sont ensuite transmises sous forme de flux binaire Φ au décodeur 100.

Opérations réalisées au niveau du décodeur :

Le module 101 de lecture de séquence binaire est adapté pour extraire des données de codage présentes dans le flux Φ reçu par le décodeur et en déduire, dans chaque bande s, des indices de quantification i(k) et des coefficients d'échelle ${(B_{j}^{m} (s))}_{1 \leq j \leq r} .$
Le module de quantification inverse 102 est adapté pour déterminer les coefficients spectraux, relatifs à la bande s, des composantes ambiophoniques correspondants en fonction des indices de quantification i(k) et des coefficients d'échelles ${(B_{j}^{m} (s))}_{1 \leq j \leq r}$
dans chaque bande s.
Ainsi un coefficient spectral Y_j,t relatif à la fréquence F_t élément de la bande s de la composante ambiophonique Y_j et représenté par l'indice de quantification i(k) est restitué par le module 102 de quantification inverse à l'aide de la formule suivante : $Y_{j, t} = A_{j}^{m} (s) i {(k)}^{\frac{4}{3}}$
Un décodage ambiophonique est ensuite appliqué aux r composantes ambiophoniques décodées, de manière à déterminer Q' signaux S'₁, S'₂, ..., S'_Q, destinés aux Q' haut-parleurs H1, H2 ..., HQ'.
Le bruit de quantification à la sortie du décodeur 100 est une constante qui ne dépend que de la transformée R utilisée et du module 4 de quantification car les données psychoacoustiques utilisées lors du codage ne prennent pas en considération les traitements effectués lors de la restitution par le décodeur. En effet, le modèle psychoacoustique ne prend pas en compte les interactions acoustiques entre les différents signaux, mais calcule la courbe de masquage d'un signal comme s'il était le seul écouté. L'erreur calculée sur ce signal reste donc constante et masquée pour toute matrice de décodage ambiophonique utilisée. Cette matrice de décodage ambiophonique va simplement modifier la distribution de l'erreur sur les différents haut-parleurs en sortie.

Claims

Procédé de quantification de composantes, certaines au moins desdites composantes ((Y_j )_1≤j≤r) étant déterminées chacune en fonction d'une pluralité de signaux audio ((S_j )_1≤j≤N) d'une scène sonore et calculées par application d'une transformation linéaire multicanal, ambiophonique et à plus de deux canaux, sur lesdits signaux audio,
selon lequel on détermine une fonction de quantification (Q^m) à appliquer audites composantes dans une bande de fréquence donnée (s) en testant une condition relative à au moins un signal audio (S_i ) et dépendant au moins d'une comparaison effectuée entre :
- un seuil de masquage psychoacoustique $(M_{T}^{m} (s, i))$
relatif au signal audio dans la bande de fréquence donnée, et

- une valeur déterminée en fonction de la transformation linéaire multicanal inverse et d'erreurs de quantification des composantes par ladite fonction sur la bande de fréquence donnée.
Procédé selon la revendication 1, selon lequel la condition est relative à plusieurs signaux audio et dépend de plusieurs comparaisons, chaque comparaison étant effectuée entre un seuil de masquage psychoacoustique relatif à un signal audio respectif dans la bande de fréquence donnée, et une valeur déterminée en fonction de la transformation linéaire multicanal inverse et d'erreurs de quantification des composantes par ladite fonction.
Procédé selon la revendication 1 ou la revendication 2, selon laquelle la détermination de la fonction de quantification (Q^m) est réitérée lors de l'actualisation des valeurs des composantes à quantifier.
Procédé selon l'une quelconque des revendications précédentes, selon lequel on teste la condition relative à un signal audio au moins en comparant le seuil de masquage psychoacoustique relatif au signal audio et un élément représentant la valeur mathématique $\sum_{j = 1}^{r} (h_{i, j}^{2} B_{j} {(s)}^{\frac{3}{2}} μ_{_{2}^{1}, j} (s)),$
où s est la bande de fréquences donnée, r est le nombre de composantes, h_i,j est le coefficient de la transformée linéaire multicanal inverse relatif au signal audio (Si) et à la j^ième composante avec j=1 à r, B_j (s) est un coefficient d'échelle relatif à la composante ambiophonique Yj prenant des valeurs discrètes et caractérisant la fonction de quantification (Q^m) dans la bande s relative à la j^ième composante et $μ_{_{2, j}^{1}} (s)$
est l'espérance mathématique dans la bande s de la racine carrée de la j^ième composante.
Procédé selon l'une quelconque des revendications précédentes, selon lequel on détermine une fonction de quantification à appliquer audites composantes dans la bande de fréquence donnée à l'aide d'un processus itératif générant à chaque itération un paramètre de la fonction de quantification candidat vérifiant la condition et associé à un débit correspondant, l'itération étant stoppée lorsque le débit est inférieur à un seuil donné.
Module (4) de quantification adapté pour quantifier au moins des composantes ((Y_j )_1≤j≤r) déterminées chacune en fonction d'une pluralité de signaux audio ((S_j )_1≤j≤N) d'une scène sonore et calculées par application d'une transformation linéaire multicanal sur lesdits signaux audio, ledit module de quantification étant adapté pour mettre en oeuvre les étapes d'un procédé selon l'une quelconque des revendications 1 à 5.
Codeur audio (1) adapté pour coder une scène audio comprenant plusieurs signaux audio respectifs ((S_j )_1≤j≤N) en un flux binaire de sortie (Φ), comprenant :
- un module (3) de transformation adapté pour calculer par application d'une transformation linéaire multicanal sur lesdits signaux audio, des composantes ((Y_j )_1≤j≤r) dont au moins certaines sont déterminées chacune en fonction d'une pluralité des signaux audio ; et

- un module (4) de quantification selon la revendication 6 adapté pour déterminer au moins une fonction de quantification (Q^m) sur au moins une bande de fréquence donnée (s) et pour quantifier les composantes sur la bande de fréquence donnée en fonction d'au moins la fonction de quantification déterminée ;
ledit codeur étant adapté pour constituer un flux binaire en fonction au moins de données de quantification délivrées par le module de quantification.
Programme d'ordinateur à installer dans un module (4) de quantification, ledit programme comprenant des instructions pour mettre en oeuvre les étapes d'un procédé selon l'une quelconque des revendications 1 à 5 lors d'une exécution du programme par des moyens de traitement dudit module.
Données de codage (Φ), déterminées suite à la mise en oeuvre d'un procédé de quantification selon l'une quelconque des revendications 1 à 5.