FR2943867A1

FR2943867A1 - Traitement d'egalisation de composantes spatiales d'un signal audio 3d

Info

Publication number: FR2943867A1
Application number: FR0952035A
Authority: FR
Inventors: Jerome Daniel; Nicolas Epain
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2010-10-01

Abstract

L'invention se rapporte à un procédé de traitement d'un signal audio 3D comportant une pluralité de composantes spatiales comprenant un traitement d'égalisation (EGAL.) en fonction d'un ordre des composantes spatiales et d'une fréquence. Le procédé est tel que les paramètres du traitement d'égalisation sont déterminés de façon dynamique selon les étapes d'estimation (EST.SU) d'un niveau de signal utile du signal 3D à un instant donné et à une fréquence donnée, de détermination (DET.B) d'un niveau représentatif du bruit d'acquisition dans au moins une composante spatiale du signal 3D pour une fréquence donnée, de détermination (DET.S) d'un seuil de tolérance du niveau du bruit d'acquisition pour au moins une composante spatiale, à un instant donné et à une fréquence donnée par rapport au niveau de signal utile estimé et de détermination (DET.EGAL.) de paramètres de traitement d'égalisation selon les composantes spatiales pour un instant donné et une fréquence donnée en fonction du seuil de tolérance correspondant et du niveau représentatif du bruit d'acquisition correspondant. L'invention se rapporte également à un dispositif mettant en oeuvre le procédé de traitement ainsi décrit.

Description

Traitement d'égalisation de composantes spatiales d'un signal audio 3D

La présente invention concerne le traitement de signaux audio numériques et plus particulièrement des signaux audio 3D.

L'invention est plus particulièrement relative à des flux audio 3D comportant une pluralité de composantes spatiales, les composantes spatiales étant associées à des fonctions de directivité. L'invention s'applique à des systèmes de codage/décodage de scènes sonores 3D, la restitution de cette scène sonore étant effectuée sur une pluralité de haut- parleurs ou au casque. Les scènes sonores ainsi codées peuvent être stockées et diffusées pour des applications multimédia de diffusion de films, jeux vidéo ou tout type de contenu multimédia. L'invention s'applique également dans le domaine des télécommunications pour des applications de téléconférence de groupe spatialisée ou encore pour des techniques de "formation de voie" ("beamforming" en anglais) pour effectuer une séparation spatiale et/ou une réduction de bruit et améliorer ainsi les communications. Un exemple de flux audio 3D est un flux de type ambiophonique ("ambisonic" en anglais), plus précisément au format HOA (pour "Higher Order Ambisonic" en anglais). Ce type de flux audio peut être obtenu par exemple par une prise de son à partir d'un réseau sphérique de microphones. Pour plus d'informations sur ce type de prise de son, on peut se référer au document suivant: "3D Sound Field Recording with Higher Order Ambisonics-Objective Measurements and Validation of a 4th Order Spherical Microphone", S.Moreau, J.Daniel, S.Bertet, in 120th AES Convention Paris (2006). 2943867 -2

Le flux audio avec ses composantes spatiales peut également être obtenu après un traitement de spatialisation appliqué à N canaux correspondants à des signaux monophoniques. Ce type de traitement de spatialisation peut être de type ambiophonique. Un encodage ambiophonique d'ordre M donne une représentation 5 spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées. Pour plus d'informations sur les transformations ambiophoniques, on pourra se référer au document suivant: Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte 10 multimédia , Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 2001. Par rapport à d'autres technologies audio 3D, les signaux au format HOA présente l'avantage d'utiliser une description hiérarchique du champ sonore. L'ajout de composantes d'ordre supérieur à un, permet d'améliorer la résolution de la description spatiale obtenue, c'est-à-dire de localiser de façon plus précise les sources 15 sonores ou de mieux les distinguer les unes par rapport aux autres. La figure 2 illustre le principe général d'une chaine de traitement audio 3D utilisant la technologie HOA. Une scène sonore peut être capturée par l'intermédiaire d'une antenne de microphones telle que représenté en 20 sur la figure 2. Cette antenne capture un 20 champ sonore S qui est ensuite codé (COD. HOA) par un module de codage HOA 21 de cette scène sonore naturelle. Un signal Sc au format HOA, en est issu. Une scène sonore peut également être obtenue à partir d'une pluralité de signaux monophoniques Si, ...,Sm pris par exemple par des microphones d'appoint ou obtenus par une synthèse sonore. Ces signaux monophoniques sont 25 ensuite codés par le module de codage 22 pour délivrer un signal Sc au format HOA. La scène audio 3D obtenue peut alors subir par le module 23, un certain nombre de -3 modifications (MOD.) comme par exemple des rotations de la scène, un mixage ou des sélections de direction d'incidences particulières. La scène sonore est ensuite décodée (DECOD.HOA) par un module de décodage 24 en prenant en compte les informations spatiales contenues dans les signaux HOA pour une restitution du son sur un ensemble de haut-parleurs 26 ou sur un casque audio 27 ou encore pour un traitement d'analyse spatiale de la scène. Le codage HOA d'une scène sonore est différent selon que l'on traite de signaux monophoniques placées artificiellement dans l'espace et constituant ainsi une scène sonore ou selon que l'on traite d'une scène sonore réelle capturée par une antenne de microphone. Le codage HOA idéal d'un signal monophonique S issu d'une source éloignée ayant une onde plane d'incidence (Os, 8s) s'écrit par l'équation:

B: = S.Y (Os,8s) (1) où les fonctions harmoniques sphériques Ym (0 ,8 ) décrivent une base orthonormée: Y;,,' ,n / 2m+1\ (2ù8 (mùn)!P sin8 mn (0 on ) (m+n)! P. ( ) (2) cos n0 si a = +1 X sin n0 si a = -1 (ignoré si n = 0) Les Pmn(sin(S) sont les fonctions de Legendre associées. Bmn représente ainsi une composante ambiophonique reliée à un champ de pression acoustique p par la série de Fourier-Bessel. La figure la représente le système de coordonnées sphériques utilisé pour 20 ces équations, où une direction est représentée par les angles d'azimut O et d'élévation 8. Une représentation des fonctions harmoniques sphériques est également représentée en figure lb. On peut ainsi voir la composante omnidirective Yoo (W) , les -4 composantes bidirectives Yô (Z) , Y~ (X) , YT' (Y) et les composantes de dimensions supérieures. Une représentation tridimensionnelle ou "3D" dite "d'ordre M" comprend K = (M+1)2 composantes dont les triplets d'indices {m,n,6} sont tels que 0<m<M, 0<n<m, 6= 1. Une représentation bidimensionnelle ou "2D" d'ordre M comprend un sous-ensemble de ces composantes en ne retenant que les indices m=n, soit K=2M+l composantes. Ainsi, l'ensemble des composantes spatiales s'échelonnent suivant une dimension complémentaire (autre que fréquence ou temps) qui traduit les fréquences angulaires associées. La notion de résolution spatiale ou ordre d'encodage se définit alors par la fréquence angulaire maximale représentée, donc liée au nombre de composantes spatiales présentes de façon significative. Cependant, cet encodage idéal ne s'applique que lorsqu'on connaît les propriétés spatiales du champ sonore, c'est-à-dire dans le cas de sources sonores 15 virtuelles. Dans le cas d'une scène sonore naturelle, les contraintes physiques liées à l'utilisation de l'antenne de microphones se traduisent par une qualité de codage variable en fonction de la fréquence. En particulier, il est généralement plus difficile d'obtenir les composantes spatiales d'ordre élevé lorsque la fréquence est basse. 20 Ainsi, le codage spatial de scènes sonores naturelles est réalisé grâce à la connaissance a priori des relations mathématiques reliant les composantes spatiales du champ sonore enregistré avec les signaux microphoniques. Ces relations dépendent notamment du type de capteurs microphoniques utilisés et, le cas échéant, de la diffraction acoustique introduite par la présence de 25 l'antenne. En pratique, on fait l'hypothèse que ces relations sont linéaires et on modélise ces relations par une matrice de filtres à réponse impulsionnelle finie (FIR). 2943867 -5

Le codage consiste alors à inverser cette matrice de filtre. Dans le cas général, cette opération est réalisée par une matrice filtres FIR inverses encore appelés filtres d'encodage. Dans le cas particulier où on utilise une antenne dite sphérique de 5 microphones, c'est-à-dire que tous les capteurs sont situés à égale distance du centre de l'antenne, la matrice d'encodage peut être une matrice de gains à appliquer aux signaux microphoniques. Chaque composante spatiale obtenue est filtrée par un filtre égalisateur qui dépend de l'ordre harmonique sphérique de la composante. 10 Le rôle de ces filtres d'égalisation est de compenser la présence plus ou moins forte des composantes spatiales vues par l'antenne de microphones, en fonction de la fréquence et de l'ordre harmonique sphérique. En pratique, plus l'ordre harmonique sphérique est élevé, moins les composantes spatiales sont présentes lorsque la fréquence est faible relativement à la taille de l'antenne.

Par conséquent, un des rôles des filtres d'égalisation est d'amplifier le signal des composantes d'ordre élevé à basse fréquence. En référence à la figure 3, on peut comparer les signaux illustrés à gauche représentant le niveau des signaux HOA en fonction de la fréquence et selon différents stades de traitement et les signaux illustrés à droite, représentant les signaux de bruit d'acquisition. Ainsi, les signaux représentés en Al sont issus des microphones de la sphère de microphones comportant ici 24 microphones. Le bruit d'acquisition des microphones est ici représenté en B1, les capteurs de bruit ne mesurant que des bruits non corrélés entre eux.

L'étape El de codage HOA par matriçage a pour effet de produire ici des composantes spatiales dont le niveau est ici "naturel" représentées en A2. En 2943867 -6

revanche, le matriçage ne change pas le niveau relatif des signaux décorrélés comme les signaux de bruit illustrés en B2. Lors de l'étape E2 d'application des filtres égalisateurs, les composantes spatiales d'ordre 1, 2 et 3 vont égaler le niveau du signal de l'ordre 0 comme illustré 5 en A3 à respectivement 100, 500 et 1000Hz. Cependant, cette étape amplifie également le niveau relatif du bruit présent dans les composantes spatiales d'ordre 1, 2 et 3 comme illustré en B3, ce qui peut rendre ce bruit audible. Selon le document cité ci-dessus des auteurs S.Moreau, J.Daniel et S.Bertet, une méthode de définition des filtres d'égalisation s'effectue par la détermination d'un 10 paramètre d'amplification à appliquer aux composantes spatiales des signaux HOA, pour toute la durée du codage. Cette amplification est déterminée de façon à trouver un compromis entre une amplification correcte des composantes d'ordre supérieur à basse fréquence pour augmenter la résolution spatiale et une amplification restreinte du niveau de bruit. 15 En effet, la qualité de codage dépend fortement du seuil d'amplification choisi comme illustré en référence à la figure 4. Sur cette figure, la première colonne indique différents niveaux d'amplification, la deuxième colonne illustre les signaux HOA codés et égalisés avec le niveau d'amplification correspondant, la troisième colonne illustre le niveau de 20 bruit d'acquisition après amplification correspondante et enfin, la quatrième colonne illustre la résolution spatiale des signaux HOA à 1000 Hz. On peut ainsi facilement se rendre compte que si l'amplification maximale est forte, les composantes spatiales d'ordre élevé sont correctement codées à partir d'une fréquence plus faible, la résolution spatiale est donc meilleure. En contrepartie, 25 le niveau relatif du bruit d'acquisition dans les composantes codées est nettement plus important. - 7

La détermination de ce compromis est donc effectuée une fois pour toute pour l'opération de codage. Elle est faite généralement par une méthode empirique. Le rapport signal sur bruit pour une même scène sonore n'est cependant pas constant dans le temps. Il se peut en effet, qu'un contenu sonore d'un orchestre présente des phases où l'orchestre joue "fortissimo" et des phases où il joue "pianissimo". Dans les phases où le son a un niveau plus fort, le signal utile est nettement supérieur au signal de bruit d'acquisition et inversement. Dans les phases où le son est faible, le signal de bruit peut devenir audible. Le choix d'un niveau d'amplification sur toute la durée de l'enregistrement 10 ou de la séquence de la scène sonore n'est donc pas optimal. Ainsi, si le choix du niveau d'amplification sur les composantes spatiales s'effectue pour le pire cas de niveau du son, la résolution spatiale des composantes à basse fréquence sera alors faible ou tout du moins sous-optimale. Il existe donc un besoin d'adapter le traitement d'égalisation des 15 composantes spatiales selon le contenu et le niveau du signal de la scène sonore. La présente invention vient améliorer la situation. A cet effet, elle propose un procédé de traitement d'un signal audio 3D comportant une pluralité de composantes spatiales comprenant un traitement d'égalisation en fonction d'un ordre des composantes spatiales et d'une fréquence. Le 20 procédé est tel que les paramètres du traitement d'égalisation sont déterminés de façon dynamique selon les étapes suivantes: - estimation d'un niveau de signal utile du signal 3D à un instant donné et à une fréquence donnée; - détermination d'un niveau représentatif du bruit d'acquisition dans au 25 moins une composante spatiale du signal 3D pour une fréquence donnée; - 8

- détermination d'un seuil de tolérance du niveau du bruit d'acquisition pour au moins une composante spatiale, à un instant donné et à une fréquence donnée par rapport au niveau de signal utile estimé; - détermination de paramètres de traitement d'égalisation selon les composantes spatiales pour un instant donné et une fréquence donnée en fonction du seuil de tolérance correspondant et du niveau représentatif du bruit d'acquisition correspondant. Ainsi, l'égalisation sur les composantes spatiales est faite de façon dynamique, à un instant donné en fonction des fluctuations que peut avoir le contenu 10 sonore et donc du rapport signal sur bruit. A chaque instant, le meilleur compromis entre résolution spatiale et niveau de bruit est trouvé. Ainsi, le traitement d'égalisation selon un mode de réalisation de l'invention, agit sur la résolution spatiale du signal audio 3D et impacte peu le niveau global du 15 signal, à l'inverse des techniques connues de contrôle de dynamique de signaux ("Dynamic Range Control "en anglais), par exemple celles qui ont vocation à rejeter le bruit de fond par expansion de la dynamique, en-deçà d'un seuil de niveau de signal ("Noise Gate" en anglais). Les différents modes particuliers de réalisation mentionnés ci-après peuvent 20 être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé défini ci-dessus. Dans un mode particulier de réalisation, le signal audio 3D est un signal de type ambiophonique et l'estimation du signal utile correspond à la mesure du niveau de la composante omnidirective du signal ambiophonique. 25 Ainsi, dans le cas particulier des signaux ambiophoniques, la composante omnidirective est relativement robuste au bruit et représente donc bien le signal utile. 2943867 -9

Avantageusement, l'estimation du signal utile s'effectue par un calcul de densité spectrale de puissance sur des trames de N échantillons du signal. Ce calcul effectué sur des trames de N échantillons, permet d'obtenir des mesures dynamiquement. 5 Dans un mode particulier de réalisation, le calcul de densité spectrale entre deux trames successives comporte une étape supplémentaire de lissage temporel. Les différences trop importantes de densité spectrale entre deux trames successives sont ainsi lissées de façon à éviter des changements trop brusques des paramètres d'égalisation qui pourraient engendrer des artefacts audibles lors de la restitution de la scène sonore. De façon simple, la détermination d'un paramètre d'égalisation est la détermination d'un filtre passe haut à appliquer à au moins une composante spatiale du signal pour une fréquence donnée et à un instant donné. Pour un meilleur compromis entre résolution spatiale et niveau de bruit, la détermination d'un paramètre d'égalisation s'effectue par la détermination selon les composantes spatiales, d'un gabarit fonction du temps et de la fréquence, d'un filtre d'égalisation. Dans un premier mode de réalisation, l'étape de traitement d'égalisation est combinée au codage spatial du signal audio.

Les étapes de codage et d'égalisation sont alors combinées. Dans le cas d'un traitement de codage microphonique à base de filtres FIR ou dans le domaine fréquentiel, la "combinaison" se fait en multipliant les courbes fréquentielles représentatives des filtres de traitement par les courbes fréquentielles d'égalisation à l'instant considéré. Dans un cas général, on peut toujours faire suivre l'étape de "codage" immédiatement de l'étape d'égalisation dynamique, réalisée à 2943867 - 10 -

l'aide de filtres FIR ou éventuellement IIR (moyennant le respect de la cohérence de phase entre signaux). Dans un second mode de réalisation, l'étape de traitement est effectuée sur le signal audio codé spatialement. 5 Le traitement d'égalisation corrige ainsi des signaux qui ont déjà été codés. Cette correction peut ainsi être faite dans un dispositif indépendant du dispositif de codage et peut prendre en compte des critères autres que les critères de codage, comme par exemple des critères de restitution de la scène sonore. Dans une variante de réalisation, le procédé comporte en outre une étape de 10 correction du niveau des composantes spatiales d'ordre inférieur à une composante spatiale pour laquelle un traitement d'égalisation est effectué. Ceci améliore la perception que l'on peut avoir du signal sonore restitué en évitant les effets de coloration ou de mauvaise balance entre les sons graves et aigus. L'invention propose également un dispositif de traitement d'un signal audio 15 3D comportant une pluralité de composantes spatiales comprenant un module de traitement d'égalisation en fonction d'un ordre des composantes spatiales et d'une fréquence. Le dispositif est tel qu'il comporte en outre: - des moyens d'estimation d'un niveau de signal utile du signal 3D à un instant donné et à une fréquence donnée; 20 - des moyens de détermination d'un niveau représentatif du bruit d'acquisition dans au moins une composante spatiale du signal 3D pour une fréquence donnée; - des moyens de détermination d'un seuil de tolérance du niveau du bruit d'acquisition pour au moins une composante spatiale, à un instant donné et à une 25 fréquence donnée par rapport au niveau de signal utile estimé; 2943867 -11-

- des moyens de détermination de paramètres de traitement d'égalisation selon les composantes spatiales pour un instant donné et une fréquence donnée en fonction du seuil de tolérance correspondant et du niveau représentatif du bruit d'acquisition correspondant. 5 Elle vise également un système de codage/décodage de signal audio comprenant un tel dispositif de traitement, notamment un codeur comportant un tel dispositif. Elle vise enfin un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de traitement selon l'invention, 10 lorsqu'elles sont exécutées par un processeur.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: 15 - la figure la décrite précédemment, illustre la direction de propagation d'une onde plane dans l'espace; - la figure lb décrite précédemment, illustre les composantes harmoniques sphériques dans le cas d'une représentation spatiale ambiophonique d'ordre 3; - la figure 2 décrite précédemment, illustre un système de codage/décodage 20 classique d'une scène sonore d'un format HOA; - la figure 3 décrite précédemment, illustre différents états selon la position dans la chaine de traitement, des composantes spatiales d'un signal HOA issu d'une prise de son d'un réseau sphérique de microphones et du signal de bruit d'acquisition; - la figure 4 décrite précédemment, illustre l'influence du niveau 25 d'amplification sur les composantes spatiales du signal HOA, sur le signal de bruit d'acquisition et sur la résolution spatiale du signal HOA; 2943867 - 12 -

- la figure 5 illustre sous forme d'organigramme les étapes principales d'un procédé de traitement d'égalisation selon un mode de réalisation de l'invention, d'un signal de type HOA; - la figure 6 illustre un système de codage/décodage de signaux HOA 5 comportant un dispositif de traitement d'égalisation selon un mode de réalisation de l'invention; - la figure 7 illustre différents exemples de détermination de paramètres de traitement d'égalisation selon un mode de réalisation de l'invention; - la figure 8 illustre un exemple de dispositif de traitement mettant en oeuvre 10 le procédé de traitement d'égalisation selon un mode de réalisation de l'invention. En référence à la figure 5, un procédé de traitement d'égalisation d'un signal de type HOA selon un mode de réalisation est maintenant décrit. A l'étape E51, une estimation du signal utile est effectué à un instant t donné et à une fréquence donnée. Pour effectuer cette étape d'estimation, un signal 15 d'observation est capturé. Ce signal d'observation Sobs,t,f pris à un instant t et à une fréquence f, peut être le signal à la sortie des microphones, ou encore des composantes HOA des signaux déjà codés. Dans le cas où le signal observé est le signal HOA codé, la première composante de ce signal est prise en compte pour l'estimation du signal utile. Cette 20 première composante est la composante omnidirective telle que décrite précédemment. Nous la nommerons par la suite W. En effet, dans le cas où la distribution spatiale des microphones est régulière, cette composante correspond à une moyenne des signaux microphoniques. Cette moyenne est donc relativement robuste au bruit. 2943867 - 13 -

Dans le cas où le signal d'observation est celui à la sortie des microphones, les propriétés spectrales du signal peuvent être retrouvées par la connaissance du filtrage réalisé sur les signaux microphoniques lors du codage HOA. L'estimation du niveau du signal utile consiste à observer la répartition de 5 l'énergie sonore contenue dans le signal observé en fonction du temps et de la fréquence. Un mode possible de réalisation est par exemple le calcul de la densité spectrale de puissance à court terme par exemple sur des trames de N échantillons du signal observé. Ce calcul par trames successives peut être réalisé par une technique classique d'addition/recouvrement. 10 Entre deux trames d'échantillons du signal, une étape supplémentaire de lissage temporel peut être effectuée afin d'éviter de trop brusques variations du calcul de la densité. Une étape E52 de détermination d'un niveau représentatif du bruit d'acquisition pour une composante spatiale donnée ou un ordre HOA donné est 15 également effectuée en fonction de la fréquence. Cette étape de détermination est effectuée par exemple à partir d'un signal de bruit observé ou déduit de caractéristiques des moyens d'acquisition. Le domaine d'observation du bruit peut être par exemple le domaine des signaux HOA codés. L'observation du bruit s'effectue idéalement en l'absence de signal utile ou 20 lorsque celui-ci est faible. Typiquement, l'estimation du bruit pourra se faire par moyenne de la densité spectrale de puissance des signaux microphoniques captés sur les trames où ceux-ci sont à la fois décorrélés deux à deux et de densité spectrale minimale. De manière plus générale, pour cette phase d'estimation des caractéristiques 25 du bruit de fond, on pourra utiliser des procédés connus dans le domaine de la réduction de bruit. 2943867 - 14 -

Le domaine d'observation du bruit d'acquisition peut être également celui à la sortie des microphones. Le bruit d'acquisition de ces microphones est ainsi observé. Pour retrouver ce bruit dans le domaine des signaux HOA codés, il suffit alors d'appliquer des caractéristiques de bruit du codage HOA au signal de bruit 5 observé. Le niveau représentatif du bruit d'acquisition dans une composante spatiale, pour une fréquence donnée peut aussi être calculé à partir de caractéristiques de bruit connues des microphones d'acquisition. Contrairement au signal utile, le bruit d'acquisition est supposé stationnaire 10 dans le temps. Les propriétés spectrales du signal de bruit sont calculées une fois pour toutes en fonction de la fréquence. Dans un mode particulier de réalisation, la densité spectrale de puissance du signal de bruit est calculée. Cette densité spectrale de puissance peut être calculée de différentes 15 manières. Des mesures de bruit peuvent par exemple être prises préalablement en l'absence de signal utile. Il est possible également d'évaluer le bruit à partir de passages sonores où le signal utile est faible. 20 Une autre possibilité est de prendre en compte les caractéristiques des constructeurs de microphones et d'en déduire par calculs le bruit engendré par ces microphones. Enfin, à défaut d'estimation ou de spécification précise, il est possible de laisser l'utilisateur déterminer lui-même une courbe supposée représentative du bruit 25 microphonique: d'une part à partir de profils fréquentiels prédéterminés ou bien dessinés par l'utilisateur; d'autre part en ajustant le niveau global de la courbe. De tels 2943867 - 15 - réglages pourront avantageusement se faire "à l'oreille", en fonction du niveau de bruit perçu en bout de chaîne, après application du présent procédé. Dans un mode de réalisation, la densité spectrale de puissance du bruit est calculée dans le domaine HOA à partir des caractéristiques du bruit provenant du 5 domaine des signaux microphoniques. Dans cet exemple, on suppose que la densité spectrale de puissance du bruit est connue en moyenne sur les capteurs. Sous l'hypothèse que les bruits sont décorrélés entre eux, la densité spectrale de puissance du bruit au sein de la composante HOA cmn est donnée par la formule suivante: 10 Bmn (.f) = Bmic(f)~ Emn (f )02 (3) i=1 où Bm~c est la densité spectrale du bruit en moyenne sur les capteurs, Q est le nombre de capteurs constituant l'antenne et Emn' est la réponse en fréquence du filtre d'encodage appliqué sur le signal provenant du capteur i pour générer la composante Cmn 15 Dans le cas où l'on utilise un schéma d'encodage dédié à une antenne sphérique de microphones, il est préférable de calculer la densité spectrale de puissance moyenne du bruit présent pour les signaux HOA d'un ordre donné. En effet, les filtres utilisés au moment de l'encodage sont alors identiques pour toutes les composantes d'un ordre donné. On obtiendra dans ce cas un filtre correctif pour 20 chaque ordre HOA. Dans le cas où le calcul est réalisé à partir de données provenant du domaine des microphones, la densité spectrale moyenne de bruit présent pour les composantes d'ordre m est donné par: Bm (/ ) = Bmic L LI (~) Emn (/ ) O 2 2m +1 n=-m i=1 où les notations sont identiques à celles de l'équation (3). (4) 2943867 -16-

En revenant à la figure 5, à partir des informations issues des étapes E51 et E52, le procédé selon le mode de réalisation décrit, comporte une étape E53 de détermination d'un seuil de tolérance du niveau de bruit pour une composante spatiale ou un ordre HOA donné. 5 Il existe également différentes façons de procéder à cette détermination du seuil de tolérance. La tolérance au bruit est donnée en fonction de la fréquence et du niveau de signal utile. Une possibilité simple est la détermination d'un rapport signal sur bruit minimal, constant en fonction de la fréquence. Par exemple, si l'on impose que le 10 rapport signal sur bruit soit supérieur à 40dB, la valeur du seuil en fonction de la fréquence est donnée par: T(f) 104 où S(f) est la valeur de la densité spectrale de puissance du signal utile à la fréquence f. 15 Cette valeur imposée peut être prédéfinie à l'initialisation du dispositif de traitement ou peut être choisie par l'utilisateur du système de codage/décodage. On peut alternativement choisir un modèle dans lequel le rapport signal sur bruit dépend de la fréquence, suivant une pondération caractérisant le fonctionnement de l'audition humaine (exemple : pondération A ou C connue pour 20 pondérer le niveau acoustique par rapport au seuil d'audibilité). Dans ce cas, la valeur du seuil de tolérance est donnée par la relation: r(f)= R(f) (6) où R(f) est la valeur du rapport signal sur bruit à la fréquence f. Cette pondération peut également être prédéfinie ou choisie par l'utilisateur. S(f) (5) - 17 -

Dans une dernière variante, on peut utiliser un modèle caractérisant l'audibilité du bruit d'acquisition au sein du signal utile, et dépendant non seulement de la fréquence, mais également du niveau absolu du signal utile (modèle de masquage fréquentiel). Le seuil de tolérance est alors obtenu par la formule: F(f)=M(S(f),f) (7) où M est la fonction définissant le modèle de masquage fréquentiel. Dans cette dernière variante, c'est l'utilisateur qui détermine la tolérance au bruit d'acquisition. En fonction du seuil de tolérance ainsi déterminé pour les composantes spatiales du signal HOA, l'étape E54 détermine les paramètres de traitement d'égalisation à appliquer aux composantes spatiales à un instant donné et à une fréquence donnée. Deux modes de traitement d'égalisation sont par exemple envisageables. Dans le premier mode, le rôle du traitement est de limiter le niveau de bruit à un certain niveau de tolérance. Le traitement réalisé consiste donc à appliquer un filtrage passe-haut les composantes HOA concernées. Dans ce mode de réalisation, une première étape consiste à calculer le rapport entre le niveau de bruit pour une composante ou un ordre donné et le seuil de tolérance préalablement défini, selon la relation suivante: 52m(f) _ r(f) (8) B.(f) Deux cas de figure se présentent alors, en fonction de la valeur du minimum atteint par S2. Dans le cas où ce dernier est supérieur ou égal à 1, le bruit est considéré comme tolérable : le filtre correctif doit donc avoir une réponse en fréquence 25 constante et égale à 1. 2943867 - 18 -

Dans le cas où ce minimum est inférieur à 1, il existe une plage de fréquence dans laquelle le bruit est considéré comme trop important : on génère dans ce cas un filtre passe-haut de pente connue, et dont la fréquence de coupure est obtenue grâce à la donnée de cette pente, du minimum atteint par S2 et de la 5 fréquence à laquelle ce minimum est atteint. Dans ce mode d'utilisation, il est préférable que l'amplification des composantes spatiales initialement réalisée par les filtres d'encodage soit assez importante, de manière à assurer une résolution spatiale suffisamment fine. Dans un mode de réalisation particulier, il peut être envisagé de choisir 10 volontairement une amplification importante pour le codage HOA, sachant que l'égalisation selon l'invention va permettre de réajuster le niveau des composantes. Dans le second mode de traitement d'égalisation, le rôle du traitement est de corriger le contenu fréquentiel des composantes HOA dans le but d'offrir le meilleur compromis entre niveau de bruit et résolution spatiale. Dans ce cas les filtres 15 d'égalisation peuvent atténuer ou, le cas échéant, augmenter le niveau des signaux HOA à basse-fréquence. De même que dans le mode d'utilisation en limiteur de bruit, la première étape est le calcul de 52(f). Trois cas de figure sont alors envisageables. Dans le cas où le minimum atteint par S2 est inférieur à 1, le bruit est 20 considéré comme trop élevé. On génère alors un filtre passe-haut de la même manière que celle décrite pour le premier mode de traitement ou on choisit un filtre dont le gabarit permet d'atténuer la composante spatiale correspondante pour les basses fréquences. Dans le cas où le minimum atteint par S2 est égal à 1, il est considéré que le 25 compromis bruit /résolution spatiale est optimal. Le filtre correctif doit donc avoir une réponse en fréquence constante et égale à 1. 2943867 - 19 -

Dans le cas où le minimum atteint par S2 est supérieur à 1, il est possible d'amplifier plus fortement les composantes spatiales. On détermine alors le niveau maximal amax d'amplification des filtres d'encodage maintenant le niveau de bruit en deçà du seuil de tolérance. La réponse en fréquence du filtre d'égalisation est ensuite 5 calculée comme le ratio de la réponse du filtre d'encodage correspondant à amax par celle du filtre d'encodage réellement utilisé. On obtient alors le gabarit d'un filtre à appliquer à la composante spatiale correspondante. Un exemple de ces différents cas de figure est illustré en référence à la figure 7. 10 Ainsi, En 71, on peut voir en trait plein épais, le niveau du signal utile, en fonction de la fréquence. Le niveau de bruit d'acquisition pour une composante spatiale donnée ou un ordre HOA donné est représenté en trait plein fin. Un seuil de tolérance du bruit a été déterminé et est représenté en trait pointillé épais. Le niveau de bruit d'acquisition est ici supérieur au seuil de tolérance pour les basses 15 fréquences. L'étape de détermination des paramètres de traitement d'égalisation en 74, va permettre de déterminer un filtre dont le gabarit est à titre d'exemple, illustré en 75 et qui permet d'atténuer le niveau de la composante spatiale correspondante de façon à ce que le signal de bruit atteigne un niveau inférieur au seuil de tolérance comme 20 représenté en pointillé fin en 71. Ce gabarit peut aussi avoir une pente sensiblement constante en basse fréquence au lieu d'être sous forme de palier. En 72, on remarque que le niveau de bruit d'acquisition est bien inférieur au seuil de tolérance. Il n'est donc pas utile d'agir sur la composante spatiale dans cette fenêtre temporelle. Le compromis bruit / résolution spatiale est considéré comme 2943867 - 20 -

optimal. Le filtre correctif doit donc avoir une réponse en fréquence constante et égale à 1 comme représenté en 76. En 73, on peut remarquer que le niveau de bruit d'acquisition est bien inférieur au seuil de tolérance pour les basses fréquences. 5 Dans ce cas, le filtre correctif défini en 74 et illustré en 77, va amplifier le niveau de la composante spatiale correspondante à basse fréquence, ce qui va augmenter le niveau de bruit dans les limites raisonnables par rapport au seuil de tolérance. Le niveau du bruit d'acquisition va alors atteindre le seuil de tolérance 10 comme représenté en 73 en trait pointillé fin. Les filtres de traitement d'égalisation ainsi déterminés ont comme propriétés, une phase identique et sont de préférence linéaire de façon à conserver les relations de phases entre les signaux HOA. Pour contrôler l'évolution temporelle des filtres d'égalisation, et notamment 15 éviter des variations trop brusques qui pourraient avoir un effet gênant pour l'auditeur, on pourra exploiter les procédés classiques de contrôle dynamique du signal ("Dynamic Range Control") comme décrit par exemple dans le document "Dynamic Range Control of Digital Audio Signais" by McNally, Guy W.JAES Volume 32 Issue 5 pp. 316-327; May 1984. 20 On pourra appliquer un lissage temporel sur les paramètres des filtres d'égalisation (comme les fréquences de transition ou de coupure), avec un temps de réaction éventuellement différencié selon qu'il s'agit d'une augmentation ou une diminution du niveau du signal de référence (respectivement temps d'attaque et de relaxation). 2943867 - 21 -

En référence à nouveau à la figure 5, l'étape E55 effectue le traitement par application des filtres ainsi déterminés sur les composantes HOA qui le nécessitent. On obtient ainsi les signaux HOA égalisés de façon optimale au cours du temps. Le niveau de certaines composantes spatiales peut avoir été atténué selon la 5 fréquence. La résolution de ces composantes est alors basse et agit sur le rendu spatial du contenu sonore. Au contraire, dans certaines phases de codage où par exemple le son est de niveau élevé, certaines composantes spatiales vont pouvoir être amplifiées de façon à augmenter la résolution spatiale du signal sonore et ainsi permettre un meilleur rendu 10 du son spatialisé. Un compromis idéal entre résolution spatiale et niveau de bruit est ainsi trouvé tout au long du codage. L'essentiel du message audio reste présent dans la composante omnidirective (d'ordre 0) du signal HOA. Cette composante reste invariante, le 15 traitement d'égalisation décrit ci-dessus s'appliquant pour les composantes d'ordre supérieur. Cependant, la variation du niveau des composantes spatiales d'ordre supérieur peut impacter, à la restitution, après décodage spatial, la sensation de niveau perçu pour une fréquence donnée. 20 Dans un mode de réalisation particulier de l'invention, le traitement d'égalisation peut compenser cette variation de niveau final en réajustant le niveau des composantes spatiales, y compris celle omnidirective d'ordre 0. Ainsi, en cas de diminution par le traitement d'égalisation selon l'invention, des composantes d'ordre supérieur à m pour une fréquence donnée, une légère 25 augmentation du niveau des composantes d'ordre inférieur ou égal à m est alors effectuée pour la fréquence donnée de façon à préserver le niveau final perçu. 2943867 - 22 -

La figure 6 représente un système de codage/décodage de signaux HOA. Dans ce système, on retrouve l'antenne de microphones en 20, le module de codage HOA des signaux en 21, le module de modifications des signaux HOA codés 23, le module de décodage HOA 24 ainsi que les équipements de restitution haut-parleurs 5 en 26 et casque en 27 tels que décrits en référence à la figure 2. Ce système de codage/décodage comporte un dispositif de traitement d'égalisation 60 selon un mode de réalisation de l'invention. Ce dispositif de traitement comporte un module 601 comportant des moyens d'estimation du signal utile à un instant donné et à une fréquence donnée. Il comporte un module 602 10 comportant des moyens de détermination d'un niveau représentatif du bruit d'acquisition pour une composante donnée, un module de détermination d'un seuil de tolérance du niveau du bruit d'acquisition à un instant donné et à une fréquence donnée pour une composante donnée par rapport au signal utile estimé. Le dispositif 60 comporte également un module 604 comportant des moyens de détermination de 15 paramètres de traitement d'égalisation selon les composantes spatiales, pour un instant donné et une fréquence donné, en fonction du seuil de tolérance et du niveau représentatif du bruit d'acquisition. Enfin, le dispositif 60 comporte un module 605 de traitement d'égalisation consistant à appliquer le traitement déterminé aux composantes spatiales correspondantes du signal HOA. Le traitement peut par 20 exemple être réalisé dans le domaine fréquentiel, à l'aide d'une méthode de filtrage d'égalisation basée sur l'utilisation de la transformée de Fourier rapide. Dans ce contexte, le filtrage consiste à multiplier le spectre des composantes HOA par la réponse fréquentielle des filtres d'égalisation déterminés par le module 604. Ce dispositif de traitement peut dans un premier mode de réalisation, être 25 intégré au module de codage HOA 21. Dans ce cas de figure, les traitements d'égalisation ainsi que le filtrage d'encodage sont combinés. 2943867 - 23 -

Les filtres d'encodage vont alors comporter les filtres d'égalisation variables dans le temps selon le procédé de l'invention pour apporter l'effet d'égalisation dynamique. Ainsi, dans le cas où un filtrage par transformée de Fourier rapide est utilisé, 5 on pourra avantageusement effectuer le traitement au même moment qu'un autre traitement employant la même méthode de filtrage par exemple pour l'encodage des signaux HOA. Les réponses fréquentielles des filtres d'encodage seront alors préalablement multipliées par celles des filtres d'égalisation. On peut également envisager de réaliser le traitement par sous-bandes de 10 fréquence. Dans ce cas le filtre d'égalisation est appliqué en multipliant le spectre des composantes HOA par un gain unique pour chaque sous-bande. Ce mode de traitement est avantageux dans le cas où le reste de la chaîne de traitement mis en oeuvre utilise déjà une analyse par sous-bandes de fréquence (par exemple dans le cas où les signaux sont encodés dans un format de compression audio). Dans le cas où ce 15 type de filtrage est utilisé, il pourra être avantageux de calculer la valeur des densités spectrales de puissance par sous-bandes de fréquence. Dans un second mode de réalisation, le dispositif de traitement d'égalisation est inséré dans la chaine de codage/décodage, après le codage des signaux HOA. Le dispositif permet ainsi d'effectuer une correction sur les signaux HOA codés. Il 20 corrige ainsi le contenu spectral des signaux HOA au cours du temps. La définition des filtres d'égalisation requiert dans ce cas la fourniture des caractéristiques d'encodage associées au flux. Dans un mode particulier de réalisation, de telles caractéristiques sont transmises avec le flux HOA. Ce peut être sous forme de courbes d'égalisation 25 appliquées (auxquelles s'apparentent l'amplification du bruit à un offset prêt), et au besoin, de courbes d'égalisation théoriques (obtenues lorsqu'on fait tendre la limite 2943867 -24-

d'amplification vers l'infini). Ces courbes peuvent être décrites par un ensemble de points fréquentiels, éventuellement restreint à un domaine typique d'action des égaliseurs (basse/moyenne fréquence). Ces caractéristiques (ou ces courbes) peuvent également être décrites de façon paramétrique, par exemple en termes de pentes 5 (description asymptotique), de fréquences de transition ou de coupure, etc. La figure 8 décrit un mode de réalisation particulier du dispositif de traitement 60 selon l'invention. Matériellement, ce dispositif 60 comporte typiquement un processeur P coopérant avec un bloc mémoire BM incluant une mémoire de stockage et/ou de travail. Le bloc mémoire peut avantageusement 10 comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé au sens de l'invention, lorsque ces instructions sont exécutées par le processeur P du dispositif 60. Le dispositif reçoit en entrée un signal sonore Se comportant une pluralité de composantes spatiales et envoie en sortie un signal égalisé Sept. Il met en oeuvre 15 notamment les étapes d'estimation d'un niveau de signal utile du signal 3D à un instant donné et à une fréquence donnée, de détermination d'un niveau représentatif du bruit d'acquisition dans au moins une composante spatiale du signal 3D pour une fréquence donnée, de détermination d'un seuil de tolérance du niveau du bruit d'acquisition pour au moins une composante spatiale, à un instant donné et à une 20 fréquence donnée par rapport au niveau de signal utile estimé et de détermination de paramètres de traitement d'égalisation selon les composantes spatiales pour un instant donné et une fréquence donnée en fonction du seuil de tolérance correspondant et du niveau représentatif du bruit d'acquisition correspondant et une étape de traitement d'égalisation prenant en compte les paramètres déterminés. 25 Typiquement, la figure 5 peut illustrer un organigramme représentant l'algorithme d'un tel programme informatique. 2943867 - 25 -

Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire du dispositif 60. Ce dispositif 60 selon l'invention peut être indépendant ou intégré dans un 5 codeur de signal audionumérique. Un tel codeur peut être intégré à un équipement multimédia de type ordinateur, agenda électronique, téléphone mobile, enregistreur/lecteur de contenu multimédia, etc... L'invention est décrite ici pour des signaux au format HOA. Elle reste 10 cependant applicable à des flux audio présentés sous un format autre que HOA. On peut considérer par exemple une forme matricée correspondant à un décodage spatial pour haut-parleurs ou bien traduisant une décomposition du champ sonore en ondes planes, ou toute autre transformation linéaire inversible. Moyennant la connaissance implicite ou explicite de la matrice (ou autre transformation) 15 permettant de revenir au domaine HOA, le procédé d'égalisation peut s'appliquer suivant l'une des modalités décrites précédemment. L'invention a essentiellement été décrite pour une application de reproduction sonore spatialisée, sur haut-parleurs ou bien casque d'écoute. Elle s'applique également à des fins de séparation spatiale ou débruitage par formation de 20 voie ("beamforming .

Claims

REVENDICATIONS1. Procédé de traitement d'un signal audio 3D comportant une pluralité de composantes spatiales comprenant un traitement d'égalisation (EGAL.) en fonction d'un ordre des composantes spatiales et d'une fréquence, caractérisé en ce que les paramètres du traitement d'égalisation sont déterminés de façon dynamique selon les étapes suivantes: - estimation (EST.SU) d'un niveau de signal utile du signal 3D à un instant donné et à une fréquence donnée; - détermination (DET.B) d'un niveau représentatif du bruit d'acquisition dans au moins une composante spatiale du signal 3D pour une fréquence donnée; - détermination (DET.S) d'un seuil de tolérance du niveau du bruit d'acquisition pour au moins une composante spatiale, à un instant donné et à une fréquence donnée par rapport au niveau de signal utile estimé; - détermination (DET.EGAL.) de paramètres de traitement d'égalisation selon les composantes spatiales pour un instant donné et une fréquence donnée en fonction du seuil de tolérance correspondant et du niveau représentatif du bruit d'acquisition correspondant.
2. Procédé selon la revendication 1, caractérisé en ce que le signal audio 3D est un signal de type ambiophonique et l'estimation du signal utile correspond à la mesure du niveau de la composante omnidirective du signal ambiophonique.
3. Procédé selon la revendication 1, caractérisé en ce que l'estimation du signal utile s'effectue par un calcul de densité spectrale de puissance sur des trames de N échantillons du signal. 2943867 - 27 -
4. Procédé selon la revendication 3, caractérisé en ce que le calcul de densité spectrale entre deux trames successives comporte une étape supplémentaire de lissage temporel.
5. Procédé selon la revendication 1, caractérisé en ce que la détermination 5 d'un paramètre d'égalisation est la détermination d'un filtre passe haut à appliquer à au moins une composante spatiale du signal pour une fréquence donnée et à un instant donné.
6. Procédé selon la revendication 1, caractérisé en ce que la détermination d'un paramètre d'égalisation s'effectue par la détermination selon les composantes 10 spatiales, d'un gabarit fonction du temps et de la fréquence, d'un filtre d'égalisation.
7. Procédé selon la revendication 1, caractérisé en ce que l'étape de traitement d'égalisation est combinée au codage spatial du signal audio.
8. Procédé selon la revendication 1, caractérisé en ce que l'étape de traitement est effectuée sur le signal audio codé spatialement. 15
9. Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre une étape de correction du niveau des composantes spatiales d'ordre inférieur à une composante spatiale pour laquelle un traitement d'égalisation est effectué.
10. Dispositif de traitement d'un signal audio 3D comportant une pluralité de composantes spatiales comprenant un module de traitement d'égalisation (605) en 20 fonction d'un ordre des composantes spatiales et d'une fréquence, caractérisé en ce qu'il comporte en outre: - des moyens (601) d'estimation d'un niveau de signal utile du signal 3D à un instant donné et à une fréquence donnée; - des moyens (602) de détermination d'un niveau représentatif du bruit 25 d'acquisition dans au moins une composante spatiale du signal 3D pour une fréquence donnée; 2943867 - 28 - - des moyens (603) de détermination d'un seuil de tolérance du niveau du bruit d'acquisition pour au moins une composante spatiale, à un instant donné et à une fréquence donnée par rapport au niveau de signal utile estimé; - des moyens (604) de détermination de paramètres de traitement 5 d'égalisation selon les composantes spatiales pour un instant donné et une fréquence donnée en fonction du seuil de tolérance correspondant et du niveau représentatif du bruit d'acquisition correspondant.
11. Codeur de signal audio comprenant un dispositif de traitement selon la revendication 10. 10
12. Programme informatique comportant des instructions de code pour la mise en oeuvre des étapes d'un procédé de traitement selon l'une des revendications 1 à 9, lorsqu'elles sont exécutées par un processeur.