EP1992198B1

EP1992198B1 - Optimisation d'une spatialisation sonore binaurale a partir d'un encodage multicanal

Info

Publication number: EP1992198B1
Application number: EP07731684.2A
Authority: EP
Inventors: Julien Faure; Jérôme DANIEL; Marc Emerit
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2006-03-09
Filing date: 2007-03-01
Publication date: 2016-07-20
Anticipated expiration: 2027-03-01
Also published as: US20090067636A1; EP1992198A2; US9215544B2; WO2007101958A2; WO2007101958A3

Description

La présente invention vise un traitement de signaux sonores pour leur spatialisation.
La restitution sonore spatialisée permet à un auditeur de percevoir des sources sonores provenant d'une direction ou d'une position quelconque de l'espace.
Les techniques particulières de restitution sonore spatialisées auxquelles se rapporte la présente invention sont basées sur les fonctions de transfert acoustique de la tête entre les positions de l'espace et le conduit auditif. Ces fonctions de transfert dites "HRTF" (pour "Head Related Transfer Functions") concernent la forme fréquentielle des fonctions de transfert. On désignera ci-après par "HRIR" (pour "Head Related Impulse Response") leur forme temporelle.
Par ailleurs, le terme "binaural" vise la restitution sur un casque stéréophonique avec néanmoins des effets de spatialisation. La présente invention ne se limite pas à cette technique et s'applique notamment aussi à des techniques dérivées du binaural comme les techniques de restitution dite "transaurale", c'est-à-dire sur haut-parleurs distants. De telles techniques peuvent alors utiliser ce qui est appelé une "annulation de diaphonie" (ou "cross-talk cancellation") qui consiste à annuler les chemins croisés acoustiques de manière à ce qu'un son, ainsi traité puis émis par les haut-parleurs, puisse n'être perçu que par une seule des deux oreilles d'un auditeur.
Le terme "multicanal", dans le traitement pour la restitution sonore spatialisée, consiste à produire une représentation du champ acoustique sous forme de N signaux (dites composantes spatiales). Ces signaux contiennent l'ensemble des sons qui composent le champ sonore avec néanmoins des pondérations qui dépendent de leur direction (ou "incidence") et décrites par N fonctions d'encodage spatial associées. La reconstruction du champ sonore, pour la restitution en un point choisi, est alors assurée par N' fonctions de décodage spatial (avec le plus souvent N=N').
Dans le cas particulier du binaural, cette décomposition permet de faire de l'encodage et du décodage dits "binaural multicanal". Les fonctions de décodage (qui sont en réalité des filtres), associées à un jeu de fonctions d'encodage spatial donné (qui sont en réalité des gains d'encodage), lorsqu'ils sont optimums en restitution, assurent un sentiment d'immersion parfaite de l'auditeur à l'intérieur d'une scène sonore, alors qu'il ne dispose en réalité, pour la restitution binaurale, que de deux haut-parleurs (oreillettes d'un casque ou haut-parleurs distants).
Les avantages d'une approche multicanal pour les techniques binaurales sont multiples puisque l'étape d'encodage est indépendante de l'étape de décodage.
Ainsi, dans le cas d'une composition d'une scène sonore virtuelle à partir de signaux synthétisés ou enregistrés, l'encodage est généralement peu coûteux en mémoire et/ou en calculs puisque les fonctions spatiales sont des gains qui dépendent uniquement des incidences des sources à encoder et non pas du nombre de sources elles-mêmes. Le décodage a aussi un coût indépendant du nombre de sources à spatialiser.
Dans le cas en outre d'un champ sonore réel mesuré par un réseau de microphones et encodé selon des fonctions spatiales connues, il est possible aujourd'hui de trouver des
fonctions de décodage qui permettent une écoute binaurale satisfaisante. Enfin, les fonctions de décodage peuvent être individualisées pour chacun des auditeurs.
La présente invention vise en particulier une obtention perfectionnée des filtres de décodage et/ou des gains d'encodage en technique binaurale multicanale. Le contexte est le suivant : des sources sont spatialisées par encodage multicanal et la restitution du contenu encodé spatialement s'effectue par application de filtres de décodage appropriés.
On connaît par la référence WO-00/19415 un traitement de binaural multicanal qui prévoit le calcul de filtres de décodage. En désignant par :

g_i (θ_p ,ϕ_p ) des fonctions spatiales d'encodage fixées où g est le gain correspondant au canal i ∈ 1,..,N et à la position p ∈ 1,..,P définie par ses angles d'incidence θ (azimut) et ϕ (élévation),
L(θ_p,ϕ_p,f) et R(θ_p,ϕ_p,f) des bases de fonctions HRTF obtenues en mesurant les fonctions de transfert acoustique de chaque oreille L et R d'un individu pour un nombre P de positions de l'espace (p ∈ 1,...,P) et pour une fréquence donnée f, on prévoit dans ce document WO-00/19415 essentiellement deux étapes pour obtenir des filtres à partir de ces fonctions spatiales.

On extrait les retards de chaque HRTF. En effet, la forme d'une tête est habituellement telle que, pour une position donnée, un son arrive à une oreille un certain temps avant d'arriver à l'autre oreille (un son situé à gauche arrivant bien entendu à l'oreille gauche avant d'arriver à l'oreille droite). La différence de retard t entre les deux oreilles est un indice interaural de localisation appelé ITD (pour "Interaural Time Différence"). On définit alors de nouvelles bases de HRTF notées L et R par : $L (θ_{p}, ϕ_{p}, f) = T_{L} (θ_{p}, ϕ_{p}) \underset{̲}{L} (θ_{p}, ϕ_{p}, f) pour p = 1, 2, ..., P$
$R (θ_{p}, ϕ_{p}, f) = T_{R} (θ_{p}, ϕ_{p}) \underset{̲}{R} (θ_{p}, ϕ_{p}, f) pour p = 1, 2, ..., P$
où T_L,R = e^j2πftL,R, avec un retard t_L,R
On obtient dans la seconde étape des filtres de décodage L _i (f) et R_i (f) du canal i qui satisfont les équations : $\underset{̲}{L} (θ_{p}, ϕ_{p}, f) = \sum_{i = 1, N} g_{i} (θ_{p}, ϕ_{p}) L_{i} (f) pour p = 1, 2, ..., P,$
et $\underset{̲}{R} (θ_{p}, ϕ_{p}, f) = \sum_{i = 1, N} g_{i} (θ_{p}, ϕ_{p}) R_{i} (f) pour p = 1, 2, ..., P,$
ce qui s'écrit aussi, en notation matricielle, L = GL et R = GR , G désignant une matrice de gains.
Pour obtenir ces filtres, ce document propose une méthode dite "de calcul de la pseudo-inverse" qui vise à satisfaire les équations précédentes au sens des moindres carrés, soit : $\underset{̲}{L} = GL \to L = (G^{T} - G^{- 1}) G^{T} \underset{̲}{L}$
La mise en oeuvre d'une telle technique nécessite donc de réintroduire un retard correspondant à l'ITD au moment de l'encodage de chaque source sonore. Chaque source est donc encodée deux fois (une fois pour chaque oreille). Le document WO-00/19415 précise qu'il est possible de ne pas extraire les retards mais qu'alors, la qualité de rendu sonore serait moindre. En particulier, la qualité est meilleure, même avec moins de canaux, si l'on extrait les retards.
Par ailleurs, une deuxième approche, proposée dans le document US-5,500,900 , pour calculer conjointement les filtres de décodage et les fonctions spatiales d'encodage consiste à décomposer les jeux de HRIR en effectuant une analyse en composantes principale (PCA) puis en sélectionnant un nombre réduit de composantes (qui correspond au nombre de canaux).
Une approche équivalente, proposée dans US-5,596,644 , utilise plutôt une décomposition en valeurs singulières (SVD). Si les retards sont extraits des HRIR avant la décomposition, puis utilisés au moment de l'encodage, la reconstruction des HRIR est très bonne avec un nombre réduit de composantes.
Lorsque les retards sont laissés dans les filtres originaux, le nombre de canaux doit être augmenté afin d'obtenir une reconstruction de bonne qualité.
De plus, ces techniques de l'art antérieur ne permettent pas d'avoir des fonctions spatiales d'encodage universelles. En effet, la décomposition donne des fonctions spatiales différentes pour chaque individu.
On indique aussi que le binaural multicanal peut aussi être vu comme la simulation en binaural d'un rendu multicanal sur une pluralité de haut-parleurs (plus de deux). On parle alors de la méthode dite "des haut-parleurs virtuels" lorsque néanmoins la restitution binaurale se fait, selon cette approche, uniquement sur deux oreillettes d'un casque ou sur deux haut-parleurs distants. Le principe d'une telle restitution consiste à considérer une configuration de haut-parleurs répartis autour de l'auditeur. Lors du rendu sur deux haut-parleurs réels, des lois de panoramique d'intensité (ou " pan pot ") sont utilisées pour donner alors la sensation à l'auditeur que des sources sont réellement positionnées dans l'espace uniquement à partir de deux haut-parleurs. On parle alors de "sources fantômes". Des règles similaires sont utilisées pour définir des positions de haut-parleurs virtuels, ce qui revient à définir des fonctions spatiales d'encodage. Les filtres de décodage correspondent directement aux fonctions HRIR calculées aux positions des haut-parleurs virtuels.
Pour un rendu spatial performant avec un faible nombre de canaux, les techniques de l'art antérieur nécessitent l'extraction des retards des HRIR. Les techniques de prise de son ou d'encodage multicanal en un point de l'espace sont largement utilisées puisqu'il est alors possible de faire subir des transformations aux signaux encodés (par exemple des rotations). Or, dans le cas où le signal à décoder est un signal multicanal mesuré (ou encodé) en un point, l'information de retard n'est pas extractible à partir du signal seul. Les filtres de décodage doivent alors permettre de reproduire les retards pour un rendu sonore optimal. De plus, dans le cas d'enregistrements, le nombre de canaux peut être faible et les techniques de l'art antérieur ne permettent pas un bon décodage avec peu de canaux sans extraire les retards. Par exemple en technique d'acquisition à partir de microphones ambiophoniques, le signal multicanal acquis peut n'être constitué que de quatre canaux, typiquement. On entend par "microphones ambiophoniques" des microphones composés de capteurs directifs coïncidents. Les retards interauraux doivent alors être reproduits au décodage.
Plus généralement, l'extraction des retards présente au moins deux autres inconvénients majeurs :

les retards doivent être pris en compte (rajout d'une étape) au moment de l'encodage, ce qui augmente les ressources nécessaires en calcul,
les retards étant pris en compte au moment de l'encodage, les signaux doivent être encodés pour chaque oreille et le nombre de filtrages nécessaire au décodage est double.

La présente invention vient améliorer la situation.
Elle propose à cette effet un procédé de spatialisation sonore avec un encodage multicanal et pour une restitution binaurale sur deux haut-parleurs, comprenant un encodage spatial défini par des fonctions d'encodage associées à une pluralité de canaux d'encodage et un décodage par application de filtres pour une restitution en contexte binaural sur les deux haut-parleurs.
Le procédé au sens de l'invention comporte les étapes :

a) obtenir un jeu original de fonctions de transfert acoustique propres à une morphologie d'individu (HRIR;HRTF),
b) choisir des fonctions d'encodage spatial et/ou des filtres de décodage, et
c) par itérations successives, optimiser les filtres associés aux fonctions d'encodage choisies ou les fonctions d'encodage associées aux filtres choisis, ou conjointement les filtres et les fonctions d'encodage choisis, en minimisant une erreur calculée en fonction d'une comparaison entre :
- le jeu original de fonctions de transfert, et
- un jeu de fonctions de transfert reconstruit à partir des fonctions d'encodage et des filtres de décodage, optimisés et/ou choisis.

Ce que l'on entend par "fonctions de transfert acoustique propres à une morphologie d'individu" peut concerner les fonctions HRIR exprimées dans le domaine temporel. Toutefois, il n'est pas exclu de considérer à la première étape a) les fonctions HRTF exprimées dans le domaine fréquentiel et, en réalité, correspondant habituellement aux transformées de Fourier des fonctions HRIR.
Ainsi, de façon générale, l'invention propose le calcul par optimisation des filtres associés à un ensemble de gains d'encodage choisis ou des gains d'encodage associés à un ensemble de filtres de décodage choisis, ou une optimisation conjointe des filtres de décodage et des gains d'encodage. Ces filtres et/ou ces gains ont par exemple été fixés ou calculés initialement par les techniques de la pseudo-inverse ou des haut-parleurs virtuels, décrites notamment dans le document WO-00/19415 . Puis, ces filtres et/ou les gains associés sont améliorés, au sens de l'invention, par une optimisation itérative qui vise à réduire une fonction d'erreur prédéterminée.
L'invention propose ainsi la détermination de filtres de décodage et de gains d'encodage qui permettent à la fois une bonne reconstruction du retard mais aussi une bonne reconstruction de l'amplitude des HRTF (module des HRTF), et ce, pour un faible nombre de canaux, comme on le verra en référence à la description détaillée ci-après.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :

la figure 1 illustre les étapes générales d'un procédé au sens de l'invention,
la figure 2 illustre l'amplitude (niveaux de gris) des fonctions temporelles HRIR (sur plusieurs échantillons successifs Ech) qui ont été choisies pour la mise en oeuvre de l'étape E0 de la figure 1, en fonction de l'azimut (en degrés notés deg°),
la figure 3 illustre l'allure de quelques premiers harmoniques sphériques en contexte ambiophonique, en tant que fonctions d'encodage spatial dans un premier mode de réalisation,
les figures 4A, 4B, 4C comparent les performances du traitement selon le premier mode de réalisation, pour une solution non optimisée (figure 4A), pour une solution partiellement optimisée par quelques itérations de traitement (figure 4B) et pour une solution complètement optimisée par le traitement au sens de l'invention (figure 4C),
la figure 5 illustre les fonctions d'encodage dans la technique des haut-parleurs virtuels utilisée dans un second mode de réalisation,
la figure 6 compare une fonction HRTF moyenne réelle (représentée en trait plein) aux fonctions HRTF moyenne reconstruites en utilisant la solution de la pseudo-inverse au sens de l'art antérieur (représentée en traits pointillés), la solution de départ donnée par la méthode des haut-parleurs virtuels (représentés en traits interrompus longs) et la solution optimisée convergente, au sens du second mode de réalisation de l'invention (représentés en traits mixtes),
la figure 7 compare les variations du retard interaural ITD original (traits pleins) à celui obtenu par la solution optimisée au sens du second mode de réalisation de l'invention (traits mixtes), à celui reconstruit à partir de la technique des haut-parleurs virtuels (traits interrompus longs) et à celui reconstruit à partir des filtres obtenus par la solution de la pseudo-inverse au sens de l'art antérieur (traits pointillés),
la figure 8 représente schématiquement un système de spatialisation pouvant être obtenu par la mise en oeuvre du premier mode de réalisation, en tenant compte des retards interauraux à l'encodage,
la figure 9 représente schématiquement un système de spatialisation pouvant être obtenu par la mise en oeuvre du second mode de réalisation, sans prise en compte des retards interauraux à l'encodage mais en incluant ces retards dans les filtres de décodage.

Dans un exemple de réalisation, le procédé au sens de l'invention peut se décomposer en trois étapes :

a) obtenir un jeu de HRIR (oreille gauche et /ou oreille droite) en P positions autour de l'auditeur, noté ci-après H(θ_p,ϕ_p,t),
b) fixer des fonctions d'encodage spatial et/ou des filtres de base, les fonctions d'encodages étant notées g(θ,ϕ,n) (ou encore g(θ,ϕ,n,f)), où :
- θ,ϕ sont les angles d'incidence en azimut et élévation,
- n est l'indice du canal d'encodage considéré,
- et f est la fréquence,
c) et trouver les filtres associés aux fonctions spatiales fixées ou les fonctions spatiales associées aux filtres fixés ou une combinaison de filtres et de fonctions spatiales associés, par une technique d'optimisation qui sera décrite en détail plus loin.

On indique simplement ici que, pour la mise en oeuvre de la première étape a) précitée, l'obtention des HRTF de la deuxième oreille peut être déduite de la mesure de la première oreille par symétrie. Le jeu de fonctions HRIR peut par exemple être mesuré sur un sujet en positionnant des microphones à l'entrée de son conduit auditif. En variante, ce jeu de HRIR peut aussi être calculé par des méthodes de simulation numérique (modélisation de la morphologie du sujet ou calcul par réseau de neurones artificiels) ou encore avoir fait l'objet d'un traitement choisi (réduction du nombre d'échantillons, correction de la phase, ou autre).
Il est possible dans cette étape a) d'extraire les retards des HRIR, de les stocker puis de les rajouter au moment de l'encodage spatial, les étapes b) et c) restant inchangées. Cette réalisation sera décrite en détail en référence notamment à la figure 8.
Cette première étape a) porte la référence E0 sur la figure 1.
Pour la mise en oeuvre de l'étape b), si l'on cherche à obtenir des filtres optimisés d'une part, il faut fixer les fonctions d'encodage spatial g(θ,ϕ,n) (ou g(θ,ϕ,n,f)) et, pour obtenir des fonctions spatiales optimisées d'autre part, il faut fixer les filtres de décodage notés F(t,n).
Néanmoins, il peut être prévu d'optimiser conjointement, à la fois les filtres et les fonctions spatiales, comme indiqué ci-dessus.
Le choix d'une optimisation des fonctions spatiales ou d'une optimisation des filtres de décodage peut dépendre de divers contextes d'application.
Si les fonctions d'encodage spatial sont fixées, elles sont alors reproductibles et universelles et l'individualisation des filtres se fait simplement au décodage.
Par ailleurs, les fonctions d'encodage spatial, lorsqu'elles comportent un grand nombre de zéros parmi n canaux d'encodage comme dans le second mode de réalisation décrit plus loin, permettent de limiter le nombre d'opérations lors de l'encodage. Les lois de panoramique d'intensité ("pan pot") entre des haut-parleurs virtuels en deux dimensions et leurs extensions en trois dimensions peuvent être représentées par des fonctions d'encodage comportant seulement deux gains non nuls, au plus, pour deux dimensions et trois gains non nuls pour trois dimensions, pour une seule source donnée. Le nombre de gains non nuls est, bien entendu, indépendant du nombre de canaux et, surtout, les gains nuls permettent d'alléger les calculs d'encodage.
Quant aux fonctions d'encodage proprement dites, plusieurs choix s'offrent encore.
Les fonctions spatiales du type harmoniques sphériques en contexte ambiophonique ont des qualités mathématiques qui permettent de faire subir des transformations aux signaux encodés (par exemple des rotations du champ sonore). De plus, de telles fonctions assurent une compatibilité entre le décodage binaural et des enregistrements ambiophoniques basés sur une décomposition du champ sonore en harmoniques sphériques.
Les fonctions d'encodage peuvent être des fonctions de directivités réelles ou simulées de microphones afin de permettre une écoute d'enregistrements en binaural multicanal. Les fonctions d'encodage peuvent être quelconques (non universelles) et déterminées par une méthode quelconque, le rendu devant alors être optimisé lors d'étapes subséquentes du procédé au sens de l'invention.
Les fonctions spatiales peuvent aussi bien être fonction du temps ou de la fréquence. L'optimisation se fera alors en tenant compte de cette dépendance (par exemple en optimisant de manière indépendante chaque échantillon temporel ou fréquentiel).
Pour ce qui concerne les filtres de décodage, ces derniers peuvent être fixés de manière à ce que le décodage puisse être universel.
Les filtres de décodage peuvent être choisis aussi de manière à réduire le coût en ressources qu'implique le filtrage. Par exemple, l'utilisation de filtres dits "à réponse impulsionnelle infinie" ou "IIR" est avantageuse.
Les filtres de décodages peuvent aussi être choisis selon un critère psychoacoustique, par exemple construit à partir de bandes de Bark normalisées.
De manière plus générale, les filtres de décodage peuvent être déterminés par une méthode quelconque. Le rendu, notamment pour un auditeur individuel, peut alors être optimisé lors d'étapes suivantes du procédé portant sur les fonctions d'encodage.
Cette deuxième étape b) relative au calcul d'une solution initiale S0 porte la référence E1 sur la figure 1. En bref, elle consiste à choisir les filtres de décodage (référencés "F") et/ou les fonctions d'encodage spatial (référencées "g") et déterminer une solution initiale S0 pour les fonctions d'encodage ou les filtres de décodage, par une méthode choisie aussi.
Par exemple, dans le cas où les fonctions spatiales fixées sont des fonctions définissant les lois de panoramique d'intensité (" pan pot ") entre des haut-parleurs virtuels, les filtres de la solution de départ S0 à l'étape E1 peuvent être directement les fonctions HRIR données aux positions correspondantes des haut-parleurs virtuels.
Dans cet exemple, il peut être prévu aussi d'optimiser conjointement les filtres de décodage et les gains d'encodage, la solution de départ S0 étant encore déterminée par des fonctions définissant les lois de panoramique d'intensité (" pan pot ") en tant que fonctions d'encodage et par les fonctions HRIR, elles-mêmes, données aux positions des haut-parleurs virtuels, en tant que filtres de décodage.
Dans un autre exemple où les fonctions d'encodage spatiales sont fixées comme étant des harmoniques sphériques, on calcule les filtres de décodage à l'étape E1 à partir de la pseudo-inverse, pour déterminer la solution de départ S0.
Plus généralement, la solution de départ S0 à l'étape E1 peut être calculée à partir de la solution aux moindres carrés : $F = HRIR g^{- 1}$
Il convient de préciser ici que les éléments F, HRIR et g sont des matrices. En outre, la notation g ^-1 désigne la pseudo-inverse de la matrice de gain g selon l'expression : g ^-1 = pinv(g) = g ^T .(g.g ^T)^-1, la notation g ^T désignant la transposée de la matrice g.
De manière générale encore, la solution de départ S0 peut être quelconque (aléatoire ou fixée), l'essentiel étant qu'elle mène à l'obtention d'une solution convergée SC à l'étape E6 de la figure 1.
La figure 1 illustre aussi les opérations E2, E3, T4, E5, E6 de l'étape générale c), d'optimisation au sens de l'invention. Ici, cette optimisation est menée par itérations. A titre d'exemple aucunement limitatif, la méthode d'optimisation dite "du gradient" (recherche de zéros de la dérivée première d'une fonction d'erreur à plusieurs variables par différences finies) peut être appliquée. Bien entendu, des méthodes variantes qui permettent d'optimiser des fonctions selon un critère établi peuvent aussi être considérées.
A l'étape E2, la reconstruction du jeu de fonctions HRIR donne alors un jeu reconstruit HRIR* = gF différent du jeu original, à la première itération.
A l'étape E3, le calcul d'une fonction d'erreur est un point important de la méthode d'optimisation au sens de l'invention. Une fonction d'erreur proposée consiste à minimiser simplement la différence de modules entre la transformée de Fourier HRTF* du jeu de fonctions HRIR reconstruite et la transformée de Fourier HRTF du jeu de fonctions HRIR original (donné à l'étape E0). Cette fonction d'erreur, notée c, s'écrit : $c = \sum_{p} \sum_{f} {||F (HRIR)| - F |(HRIR *)||}^{2} soit c = \sum_{p} \sum_{f} {||HRTF (p, f)| - |HRTF * (p, f)||}^{2},$
où F (X) désigne la transformée de Fourier de la fonction X.
D'autres fonctions d'erreur permettent aussi un rendu spatial optimal. Par exemple, il est possible de pondérer les fonctions HRIR par un gain qui dépend de la position des fonctions HRIR afin de mieux reconstruire certaines positions privilégiées de l'espace, ce qui s'écrit : $c = \sum_{p} w_{p} \sum_{f} {||F (HRIR)| - F |(HRIR *)||}^{2} ou c = \sum_{p} w_{p} \sum_{f} {||HRTF (p, f)| - |HRTF * (p, f)||}^{2},$
où w_p est le gain correspondant à une position p. Il est ainsi possible de favoriser la reconstruction de certaines zones spatiales de la fonction HRIR (par exemple la partie frontale).
De la même façon, il est aussi possible de pondérer les fonctions HRIR en fonction du temps ou de la fréquence.
La fonction d'erreur peut aussi minimiser la différence d'énergie entre les modules, soit : $c = \sum_{p} \sum_{t} {|F {|(HRIR)|}^{2} - {|F (HRIR *)|}^{2}|}^{2} ou c = \sum_{p} \sum_{f} {|{|HRTF (p, f)|}^{2} - {|HRTF * (p, f)|}^{2}|}^{2}$
De manière générale, on retiendra que toute fonction d'erreur calculée entièrement ou en partie à partir des fonctions HRIR peut être prévue (module, phase, retard ou ITD estimé, différences interaurales, ou autre).
Par ailleurs, si le critère d'erreur porte sur les échantillons fréquentiels des fonctions HRTF, indépendamment les uns des autres contrairement à ce qui était proposé ci-avant (somme sur toutes les fréquences pour le calcul de la fonction d'erreur c), les itérations d'optimisation peuvent être appliquées successivement à chaque échantillon fréquentiel, avec l'avantage de réduire alors le nombre de variables simultanées, d'avoir une fonction d'erreur propre à chaque fréquence f et de rencontrer un critère d'arrêt en fonction de la convergence propre à chaque fréquence.
L'étape T4 est un test pour arrêter ou non l'itération de l'optimisation en fonction d'un critère d'arrêt choisi. Il peut s'agir d'un critère caractérisant le fait que :

la variable c a atteint une valeur minimale ε, et/ou que
la variable c ne décroît plus suffisamment, et/ou que
un nombre maximal d'itérations est atteint, et/ou que
les modifications des filtres ne sont plus suffisantes, ou autre.

Si le critère est atteint (flèche 0 en sortie du test T4), les filtres F(n,t) ou les gains g(θ,ϕ,n) ou les couples filtre/gains calculés permettent d'obtenir un rendu spatial optimal, comme on le verra notamment en référence à la figure 4C ou à la figure 6 ci-après. Le traitement s'arrête alors par l'obtention d'une solution convergée (étape E6).
Si le critère n'est pas atteint (flèche N en sortie du test T4), selon la fonction d'erreur utilisée, il est difficile de connaître de manière analytique quelle doit être l'évolution des filtres F ou des gains g afin de minimiser l'erreur c. On a avantageusement recours à un calcul de gradient pour ajuster les filtres et/ou les gains afin qu'ils mènent à une réduction de la fonction d'erreur c (étapes itératives E5).
Ce traitement est avantageusement assisté par informatique. Une fonction dénommée "fminunc" du module "optimization Toolbox" du logiciel Matlab®, programmée de façon appropriée, permet de réaliser les étapes E2, E3, T4, E5, E6 décrites ci-avant en référence à la figure 1.
Bien entendu, cette réalisation illustrée sur la figure 1 s'applique tout aussi bien lorsqu'il a été choisi de fixer à l'étape E1 les filtres de décodage, puis d'optimiser les fonctions d'encodage spatial lors des étape E2,E3,E5,E6. Elle s'applique aussi lorsqu'il a été choisi d'optimiser de manière itérative à la fois les fonctions d'encodage et les filtres de décodage.

Premier mode de réalisation

On décrit ci-après un exemple d'optimisation des filtres de décodage d'un contenu issu d'un encodage spatial par des fonctions harmoniques sphériques en contexte ambiophonique d'ordre élevé (ou "high order ambisonic"), pour une restitution vers du binaural. Il s'agit ici d'un cas sensible car si des sources ont été enregistrées ou encodées en contexte ambiophonique, les retards interauraux doivent être respectés dans le traitement au décodage, par application des filtres de décodage.
Dans la mise en oeuvre de l'invention exposée ci-après à titre d'exemple, on a choisi de se limiter au cas de deux dimensions et on cherche alors à fournir des filtres optimisés afin de décoder un contenu ambiophonique à l'ordre 2 (cinq canaux ambiophoniques) pour une écoute binaurale sur casque à oreillettes.
Pour la réalisation de la première étape a) du procédé général décrit ci-avant (référence E0 de la figure 1), on utilise un jeu de fonctions HRIR mesuré pour l'oreille gauche en chambre sourde et pour 64 valeurs d'angle d'azimut différentes et allant de 0 à environ 350° (ordonnées du graphe de la figure 2). Les filtres de ce jeu de fonctions HRIR ont été réduits à 32 échantillons temporels non nuls (abscisses du graphe de la figure 2). On suppose une symétrie de la tête de l'auditeur et les HRIR de l'oreille droite sont les symétriques des HRIR de l'oreille gauche.
En variante de mesures à effectuer sur un individu, on peut obtenir les fonctions HRIR à partir de bases de données standard ("tête de Kemar") ou par modélisation de la morphologie de l'individu, ou autre.
Les fonctions spatiales d'encodage choisies ici sont les harmoniques sphériques calculées à partir des fonctions cos( mθ ) et sin( mθ ), avec des fréquences angulaires croissantes m=0,1,2,..., N pour caractériser la dépendance en azimut (comme illustré sur la figure 3), et à partir des fonctions de Legendre pour la dépendance en élévation, pour un encodage 3D.
La solution de départ S0 pour l'étape E1 est donnée par calcul de la pseudo-inverse (avec résolution linéaire). Cette solution de départ constitue la solution de décodage qui était proposée en tant que telle dans le document WO-00/19415 de l'art antérieur décrit ci-avant. La technique d'optimisation employée au sens de l'invention est préférentiellement celle du gradient décrite ci-avant. La fonction d'erreur c employée correspond aux moindres carrés sur le module de la transformée de Fourier des fonctions HRIR, soit : $c = \sum_{p} \sum_{f} {||HRTF (p, f)| - |HRTF * (p, f)||}^{2}$
Les figures 4A, 4B, 4C montrent l'allure temporelle (sur quelques dizaines d'échantillons temporels) des cinq filtres de décodage et les erreurs de reconstruction du module (en dB, illustrées par des niveaux de gris) et de la phase (en radians, illustrées par des niveaux de gris) de la transformée de Fourier des fonctions HRIR pour chaque position (ordonnées repérées en azimut) et pour chaque fréquence (abscisses repérées en fréquences), respectivement :

à l'issue de la première étape E1 (solution de départ S0 obtenue par résolution linéaire par calcul de la pseudo-inverse),
après quelques itérations E5 (solution intermédiaire SI),
à l'issue de la dernière étape de traitement E6 (solution convergée SC).

Pour la solution de départ qui constituait pourtant la solution de décodage au sens du document WO-00/19415 , le module des fonctions HRTF est relativement mal reconstruit, la plupart des erreurs de reconstruction étant supérieures à 8 dB. Néanmoins, il apparaît que l'erreur sur la phase n'est pratiquement pas modifiée au cours des itérations. Cette erreur est toutefois minimale en basses fréquences et sur la partie ispilatérale des fonctions HRTF (région à 0-180° d'azimut). Par contre, l'erreur sur le module diminue fortement au fur et à mesure des itérations d'optimisation, surtout dans cette région ispilatérale. L'optimisation au sens de l'invention permet donc d'améliorer le module des fonctions HRTF sans modifier la phase, donc le retard de groupe, et, de là et surtout, le retard interaural ITD, de sorte que le rendu est particulièrement fidèle grâce à la mise en oeuvre de ce premier mode de réalisation.

Second mode de réalisation

On décrit ci-après un exemple d'optimisation des filtres de décodage pour des fonctions spatiales issues de lois de panoramique d'intensité ("pan pot"), consistant en termes simples en des règles de mixage.
Les lois de panoramique (dites "de panning") sont couramment employées par les techniciens du son pour produire des contenus audio, notamment des contenus multicanaux aux formats dits "surround" qui sont utilisés en restitution sonore 5.1, 6.1 , ou autre. Dans ce second mode de réalisation, on cherche à calculer les filtres qui permettent de restituer un contenu "surround" sur un casque. Dans ce cas, l'encodage par des lois de panning est réalisé par mixage d'une ambiance sonore selon un format "surround" (pistes 5.1 d'un enregistrement numérique par exemple). Les filtres optimisés à partir des mêmes lois de panning permettent alors d'obtenir un décodage binaural optimal pour le rendu souhaité avec cet effet "surround".
La présente invention s'applique avantageusement au cas où les positions des haut-parleurs virtuels correspondent à des positions d'un système de restitution multicanal grand public, à effet "surround". Les filtres de décodage optimisés permettent alors un décodage de contenus multimédias grand public (typiquement des contenus multicanaux avec effet "surround") pour une restitution sur deux haut-parleurs, par exemple sur casque en binaural. Cette restitution en binaural d'un contenu qui est par exemple initialement au format 5.1 est optimisée grâce à la mise en oeuvre de l'invention.
Ci-après, on décrit le cas d'un exemple de dix haut-parleurs virtuels, "disposés" autour de l'auditeur.
On obtient tout d'abord les fonctions HRIR en 64 positions autour de l'auditeur, comme décrit en référence au premier mode de réalisation ci-avant.
On détermine dans ce second mode de réalisation les fonctions spatiales données par les lois de panoramique d'intensité ou "panning" (ici en tangente) entre chaque couple de haut-parleurs adjacents, par une relation du type : $\tan (θ_{v}) = \frac{L - R}{L + R} \tan (u),$
où :

L est le gain du haut-parleur de gauche,
R est le gain du haut-parleur de droite,
u est l'angle entre les haut-parleurs (360/10=36° dans cet exemple, comme illustré sur la figure 5),
θ_v est l'angle pour lequel on souhaite calculer les gains (typiquement l'angle entre le plan de symétrie des deux haut-parleurs et la direction souhaitée).

Les formes des dix fonctions spatiales retenues en fonction de l'azimut sont données sur la figure 5. Pour chaque azimut, seuls deux gains, au maximum, à associer aux canaux d'encodage sont non nuls. En effet, on considère ici qu'un haut-parleur virtuel est "placé" de telle sorte qu'un gain (s'il est disposé sur un axe d'encodage) ou deux gains (s'il est disposé entre deux axes d'encodage), seulement, sont à déterminer pour définir l'encodage. En revanche, on indique qu'aucun gain d'encodage n'est nul a priori en contexte ambiophonique dont les fonctions d'encodage sont illustrées sur la figure 3 décrite ci-avant. Néanmoins, la qualité de restitution avec un choix d'encodage ambiophonique, après optimisation au sens du premier mode de réalisation, est généralement très appréciée.
La méthode d'optimisation utilisée dans le second mode de réalisation est encore celle du gradient. La solution de départ S0 à l'étape E1 est donnée par les dix filtres de décodage qui correspondent aux dix fonctions HRIR données aux positions des haut-parleurs virtuels. Les fonctions spatiales fixées sont les fonctions d'encodage représentant les lois de panning. La fonction d'erreur c est basée sur le module de la transformée de Fourier des fonctions HRIR, soit : $c = \sum_{p} \sum_{f} {||HRTF (p, f)| - |HRTF * (p, f)||}^{2}$
On se réfère maintenant à la figure 6, laquelle compare une fonction HRTF réelle (représentée en trait plein), moyennée sur un ensemble de 64 positions mesurées (pour des angles d'azimut allant de 0 à environ 350°), aux fonctions HRTF moyennes reconstruites en utilisant :

la solution de départ pseudo-inverse, sans optimisation (représentée en traits pointillés),
la solution de départ donnée par la méthode plus adaptée des haut-parleurs virtuels (représentée en traits interrompus longs),
et la solution optimisée convergente après quelques itérations, au sens de l'invention (représentée en traits mixtes).

La solution optimisée au sens de l'invention concorde parfaitement avec la fonction originale, ce qui s'explique par le fait que la fonction d'erreur c proposée ici vise à réduire au maximum l'erreur sur le module de la fonction.
La figure 7 illustre les variations du retard interaural ITD en fonction de la position en azimut des fonctions HRIR. La solution optimisée permet de reconstruire un retard ITD (traits mixtes) relativement proche de l'ITD original (traits pleins), mais tout aussi proche néanmoins que celui reconstruit à partir de la solution de départ, ici obtenue par la technique des haut-parleurs virtuels (traits interrompus longs). Le retard ITD reconstruit à partir des filtres obtenus par résolution linéaire (pseudo-inverse), représenté par des traits pointillés sur la figure 7, est assez irrégulier et éloigné de l'ITD original. Ces résultats confirment bien la faible performance de la méthode par résolution linéaire lorsque les retards sont reconstruits à partir des filtres de décodage.
L'optimisation du procédé au sens de l'invention permet donc de reconstruire à la fois le module des fonctions HRTF et le retard de groupe ITD entre les deux oreilles.
De plus, il est apparu dans ce second mode de réalisation que la qualité des filtres reconstruits n'est pas affectée par le choix des fonctions d'encodage. De ce fait, il est possible d'utiliser des fonctions spatiales d'encodage quelconque, par exemple comportant avantageusement beaucoup de zéros, comme dans cet exemple de réalisation, ce qui permet de réduire d'autant les ressources nécessaires au calcul de l'encodage.

Exemples de mise en oeuvre

L'objet de cette partie de la description est d'apprécier le gain en termes de nombre d'opérations et de ressources en mémoire nécessaires pour la mise en oeuvre de l'encodage et du décodage binaural multicanal au sens de l'invention, avec des filtres de décodage qui incluent la prise en compte du retard.
Le cas traité dans l'exemple décrit ici est celui de deux sources spatialement distinctes à encoder en multicanal et à restituer en binaural. Les deux exemples de mise en oeuvre des figures 8 et 9 utilisent les propriétés de symétrie des fonctions HRIR.
L'exemple donné à la figure 9 correspond au cas où les gains d'encodage sont obtenus par application de la méthode des haut-parleurs virtuels selon le second mode de réalisation décrit plus haut. La figure 8 présente une mise en oeuvre de l'encodage et du décodage multicanal lorsque les retards ne sont pas inclus dans les filtres de décodage mais doivent être pris en compte dès l'encodage. Elle peut correspondre à celle de l'art antérieur décrit ci-avant WO-00/19415 , si tant est que les filtres de décodage (et/ou les fonctions d'encodage) n'ont pas été optimisés au sens de l'invention.
La réalisation de la figure 8 consiste, en termes génériques, à extraire, à partir des fonctions de transfert obtenues à l'étape a), des informations de retard interaural, tandis que l'optimisation, au sens de l'invention, des fonctions d'encodage et/ou des filtres de décodage est menée ici à partir des fonctions de transfert desquelles ont été extraites ces informations de retard. Ensuite, ces retards interauraux peuvent être stockés puis appliqués ultérieurement, en particulier à l'encodage.
Dans l'exemple de la figure 8, la symétrie des fonctions HRTF pour l'oreille droite et l'oreille gauche permet de considérer n filtres F _j,L et n filtres symétriques F_j,L, donc 2n canaux. Les gains d'encodage sont notés $g_{j, L}^{i}$
(les gains d'indice R n'ayant pas besoin d'être pris en compte du fait de la symétrie), où i va de 1 à K pour K sources à considérer (dans l'exemple K=2) et j va de 1 à n pour n filtres F_j,L.
Sur les figures 8 et 9, on a adopté, bien entendu, les mêmes notations S ₁ et S ₂ pour les deux sources à encoder, chacune étant placée en une position donnée de l'espace.
Sur la figure 8, on note $τ_{ITD}^{1}$
et $τ_{ITD}^{2}$
les retards (ITD) correspondant aux positions des sources S ₁ et S ₂. Dans cet exemple, les deux sons sont censés arriver à l'oreille droite avant d'arriver à l'oreille gauche.
Sur la figure 9, on note aussi $g_{j, L}^{i}$
les gains d'encodage pour la position de la source i et pour le canal j ∈ [1,..., n ]. On rappelle que les gains pour l'oreille gauche ou droite sont identiques, la symétrie étant introduite lors du filtrage.
Pour la partie décodage de la figure 8, on note F _j,L les filtres de décodage pour le canal j et
les filtres symétriques des filtres F _j,L. On indique ici que dans le cas de haut-parleurs virtuels, le filtre symétrique d'un haut-parleur virtuel donné (un canal donné) est le filtre du haut-parleur virtuel symétrique (en considérant le plan de symétrie gauche/droite de la tête).
Enfin, on note L et R les canaux binauraux gauche et droit.
Dans la mise en oeuvre de la figure 8, comme le retard ITD est introduit au moment de l'encodage, les signaux multicanaux pour la voie gauche sont différents de ceux pour la voie droite. Les conséquences de l'introduction de retards à l'encodage sont donc la multiplication par deux du nombre d'opérations d'encodage et la multiplication par deux du nombre de canaux, par rapport à la seconde mise en oeuvre illustrée sur la figure 9 et profitant des avantages qu'offre le second mode de réalisation de l'invention. Ainsi, en référence à la figure 8, chaque signal issu d'une source S_i dans le bloc d'encodage ENCOD est dédoublé pour que soit appliqué à l'un d'eux un retard (positif ou négatif) $τ_{ITD}^{1},$
$τ_{ITD}^{2},$
et chaque signal dédoublé est multiplié par chaque gain
les résultats des multiplications étant regroupés ensuite par indice de canal j (n canaux) et selon qu'un retard interaural a été appliqué ou non (2 fois n canaux au total). Les 2n signaux obtenus sont véhiculés à travers un réseau, stockés, ou autre, en vue d'une restitution et, pour ce faire, sont appliqués à un bloc de décodage DECOD comportant n filtres F _j,L pour une voie de gauche L et n filtres symétriques
pour une voie de droite R. On rappelle que la symétrie des filtres résulte du fait que l'on considère une symétrie des fonctions HRTF. Les signaux auxquels sont appliqués les filtres sont regroupés en chaque voie et le signal résultant de ce regroupement est destiné à alimenter l'un des deux haut-parleurs en restitution sur deux haut-parleurs distants (auquel cas il convient d'ajouter une opération d'annulation des chemins croisés) ou directement l'un des deux canaux d'un casque à oreillettes en restitution binaurale.
La figure 9 présente, quant à elle, une mise en oeuvre de l'encodage et du décodage multicanal lorsque les retards sont, au contraire, inclus dans les filtres de décodage au sens du second mode de réalisation utilisant la méthode des haut-parleurs virtuels et en exploitant l'observation résultant des figures 6 et 7 ci-avant.
Ainsi, le fait de ne pas avoir à prendre en compte les retards interauraux à l'encodage permet de réduire le nombre de canaux à n (et non plus 2n). L'utilisation de la symétrie des filtres de décodage permet en outre, dans la mise en oeuvre de la figure 9, d'appliquer le principe du filtrage de décodage par une somme $(F_{j, L} + {F̑}_{j, L}) / 2$
sur k premiers canaux (k étant ici le nombre de haut-parleurs virtuels positionnés entre 0 et 180° inclus), suivie d'une différence $(F_{j, L} - {F̑}_{j, L}) / 2$
sur les canaux suivants et donc de réduire de moitié le nombre de filtrages nécessaires. Bien entendu, chaque somme ou chaque différence de filtres est à considérer comme un filtre en soi. Ce qui est indiqué ici comme étant une somme ou une différence de filtres est à considérer en relation avec les expressions des filtres F _j,L et
décrits ci-avant en référence à la figure 8.
On indique que cette mise en oeuvre de la figure 9 serait, en revanche, impossible si les retards devaient être intégrés à l'encodage comme illustré sur la figure 8.
Le traitement au décodage de la figure 9 se poursuit par un regroupement des sommes SS et un regroupement des différences SD alimentant par leur somme la voie L (module SL délivrant le signal SS+SD) et par leur différence la voie R (module DR délivrant le signal SS-SD).
Ainsi, alors que la solution illustrée sur la figure 8 nécessite :

à l'encodage, la prise en compte de deux retards, des multiplications par 4n gains et 2n sommes, et
au décodage 2n filtrages et 2n sommes,

figure 9

2n gains et n sommes à l'encodage, et
n filtrages, n sommes et simplement une somme et une différence globale, au décodage.

Par ailleurs, même si le stockage en mémoire requiert, pour les deux solutions, les mêmes capacités (stockage de n filtres en calculant les retards et les gains à la volée), la mémoire de travail utile (tampon) pour la mise en oeuvre de la figure 8 requiert plus du double de celle utile pour la mise en oeuvre de la figure 9, puisque 2n canaux transitent entre l'encodage et le décodage et qu'il faut implémenter une ligne à retard par source dans la mise en oeuvre de la figure 8.
La présente invention vise alors un système de spatialisation sonore avec un encodage multicanal et pour une restitution sur deux canaux comprenant un bloc d'encodage spatial ENCOD défini par des fonctions d'encodage associées à une pluralité de canaux d'encodage et un bloc de décodage DECOD par application de filtres pour une restitution en contexte binaural. En particulier, les fonctions d'encodage spatial et/ou les filtres de décodage sont déterminés par la mise en oeuvre du procédé décrit ci-avant. Un tel système peut correspondre à celui illustré sur la figure 8, dans une réalisation pour laquelle les retards sont intégrés au moment de l'encodage, ce qui correspond à l'état de l'art au sens du document WO-00/19415 .
Une autre réalisation avantageuse consiste en la mise en oeuvre du procédé selon le second mode de réalisation pour construire alors un système de spatialisation avec un bloc d'encodage direct, sans application de retard, de manière à réduire un nombre de canaux d'encodage et un nombre correspondant de filtres de décodage, lesquels incluent directement les retards interauraux ITD, selon un avantage qu'offre la mise en oeuvre de l'invention, comme illustré sur la figure 9.
Cette réalisation de la figure 9 permet d'atteindre une qualité de rendu spatial au moins aussi bonne, sinon meilleure, que les techniques de l'art antérieur, et ce, avec un nombre de filtres deux fois moins important et un coût de calcul moindre. En effet, comme on l'a montré en référence aux figures 6 et 7, dans le cas où la décomposition vise un jeu de fonctions HRIR, cette réalisation permet une qualité de reconstruction du module des HRTF et du retard interaural meilleure que les techniques de l'art antérieur avec un nombre de canaux réduit.
La présente invention vise aussi un programme informatique comportant des instructions pour la mise en oeuvre du procédé décrit ci-avant et dont l'algorithme peut être illustré par un organigramme général du type représenté sur la figure 1.

Claims

Procédé de spatialisation sonore avec un encodage multicanal et pour une restitution sur deux haut-parleurs, comprenant un encodage spatial défini par des fonctions d'encodage associées à une pluralité de canaux d'encodage et un décodage par application de filtres pour une restitution en contexte binaural sur les deux haut-parleurs, caractérisé en ce qu'il comporte les étapes :
a) obtenir un jeu original de fonctions de transfert acoustique propres à une morphologie d'individu (HRIR;HRTF),

b) fixer des fonctions d'encodage spatial (g(θ,ϕ,n,f)) et/ou des filtres de décodage ( F (t,n)), et

c) par itérations successives, optimiser les filtres associés aux fonctions d'encodage choisies ou les fonctions d'encodage associées aux filtres choisis, ou conjointement les filtres et les fonctions d'encodage choisis, en minimisant une erreur (c(HRIR,HRIR*)) calculée en fonction d'une comparaison entre :
- le jeu original de fonctions de transfert (HRIR), et

- un jeu de fonctions de transfert reconstruit (HRIR*) à partir des fonctions d'encodage et des filtres de décodage, optimisés et/ou choisis.

caractérisé en ce que la comparaison de l'étape c) est calculée par des différences entre modules respectifs des fonctions de transfert originales (HRTF(p,f)) et reconstruites (HRTF*(p,f)), exprimées dans le domaine fréquentiel, pour chaque position de l'espace associée à une fonction de transfert.
Procédé selon la revendication 1, caractérisé en ce que le jeu de fonctions de transfert reconstruit (HRIR*) est calculé par multiplication des filtres par les fonctions d'encodage (g(θ,ϕ,n), g(θ,ϕ,n,f)) à chaque itération.
Procédé selon la revendication 2, caractérisé en ce que l'on choisit à l'étape b) des fonctions d'encodage spatial qui représentent des lois de panoramique d'intensité à partir de positions de haut-parleurs virtuels.
Procédé selon la revendication 3, caractérisé en ce que les positions des haut-parleurs virtuels correspondent à des positions d'un système de restitution multicanal à effet "surround", les filtres de décodage optimisés permettant un décodage de contenus multimédias multicanaux avec effet "surround" pour une restitution sur deux haut-parleurs.
Procédé selon l'une des revendications 3 et 4, caractérisé en ce que les fonctions d'encodage comportent une pluralité de gains nuls à associer à des canaux d'encodage.
Procédé selon l'une des revendications précédentes, caractérisé en ce qu'on extrait, à partir des fonctions de transfert (HRIR, HRTF) obtenues à l'étape a), des informations de retard interaural, tandis que l'optimisation des fonctions d'encodage (g(θ,ϕ,n), g(θ,ϕ,n,f)) et/ou des filtres de décodage est menée (F(t,n)) à partir de fonctions de transfert auxquelles ont été extraites lesdites informations de retard, lesdites informations de retard étant appliquées ultérieurement, à l'encodage.
Procédé selon l'une des revendications 1 à 5, caractérisé en ce que des informations de retard interaural sont prises en compte dans l'optimisation des filtres de décodage (F(t,n)), et en ce que l'encodage spatial est mené sans application de retard (ITD).
Procédé selon l'une des revendications précédentes, caractérisé en ce que l'on choisit, à l'étape b), une partie au moins des fonctions de transfert obtenues (HRTF), en tant que filtres de décodage.
Procédé selon la revendication 2, caractérisé en ce que l'on choisit à l'étape b) des fonctions d'encodage spatial (g(θ,ϕ,n), g(θ,ϕ,n,f)), du type harmoniques sphériques en contexte ambiophonique.
Procédé selon l'une des revendications 1, 2, 3, 4, 5, 6, 7 et 9, caractérisé en ce que l'on calcule, pour la première itération d'optimisation, les filtres de décodage (F(t,n)) par une solution du type pseudo-inverse.
Procédé selon la revendication 1, caractérisé en ce que chaque différence est pondérée en fonction d'une direction donnée de l'espace pour privilégier certaines desdites directions.
Programme informatique pour déterminer des fonctions d'encodage (g(θ,ϕ,n)) et/ou des filtres de décodage (F(t,n)), pour un traitement de spatialisation sonore avec un encodage spatial multicanal et un décodage pour une restitution binaurale sur deux haut-parleurs, caractérisé en ce qu'il comporte des instructions pour l'exécution du procédé selon l'une des revendications précédentes.
Système de spatialisation sonore avec un encodage multicanal et pour une restitution sur deux haut-parleurs, comprenant un bloc d'encodage spatial (ENCOD) défini par des fonctions d'encodage associées à une pluralité de canaux d'encodage et un bloc de décodage (DECOD) par application de filtres pour une restitution en contexte binaural sur deux haut-parleurs, caractérisé en ce que le système est adapté à la mise en oeuvre du procédé selon l'une des revendications 1 à 11.
Système selon la revendication 13, caractérisé en ce que les fonctions d'encodage spatial et/ou les filtres de décodage sont déterminés par la mise en oeuvre du procédé selon la revendication 7,
et en ce qu'il comporte un bloc d'encodage direct et sans application de retard de manière à réduire un nombre de canaux d'encodage et un nombre correspondant de filtres de décodage.