FR3009158A1 - Spatialisation sonore avec effet de salle - Google Patents

Spatialisation sonore avec effet de salle Download PDF

Info

Publication number
FR3009158A1
FR3009158A1 FR1357299A FR1357299A FR3009158A1 FR 3009158 A1 FR3009158 A1 FR 3009158A1 FR 1357299 A FR1357299 A FR 1357299A FR 1357299 A FR1357299 A FR 1357299A FR 3009158 A1 FR3009158 A1 FR 3009158A1
Authority
FR
France
Prior art keywords
input signals
transfer function
room effect
signal
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1357299A
Other languages
English (en)
Inventor
Gregory Pallone
Marc Emerit
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR1357299A priority Critical patent/FR3009158A1/fr
Priority to PCT/FR2014/051728 priority patent/WO2015011359A1/fr
Priority to EP14748239.2A priority patent/EP3025514B1/fr
Priority to KR1020217001620A priority patent/KR102310859B1/ko
Priority to ES14748239T priority patent/ES2754245T3/es
Priority to JP2016528570A priority patent/JP6486351B2/ja
Priority to CN201480052602.XA priority patent/CN105684465B/zh
Priority to KR1020167003222A priority patent/KR102206572B1/ko
Priority to US14/906,311 priority patent/US9848274B2/en
Publication of FR3009158A1 publication Critical patent/FR3009158A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

L'invention concerne un procédé de spatialisation sonore, dans lequel on applique au moins un filtrage, avec sommation, à au moins deux signaux d'entrée (I(1), I(2),..., I(L)), caractérisé en ce que le filtrage comporte: l'application d'au moins une première fonction de transfert à effet de salle (Ak(1), Ak(2), ..., Ak(L)), la première fonction de transfert étant spécifique à chaque signal d'entrée, - et l'application d'au moins une deuxième fonction de transfert à effet de salle (Bmeank), la deuxième fonction de transfert étant commune à tous les signaux d'entrée.

Description

Spatialisation sonore avec effet de salle L'invention est relative au traitement de données sonores, et plus particulièrement à la spatialisation (dite « rendu 3D ») de signaux audio. Une telle opération est par exemple exécutée lors du décodage d'un signal audio 3D codé, représenté sur un certain nombre de canaux, vers un nombre de canaux différents, deux par exemple, pour permettre la restitution des effets 3D audio sur un casque d'écoute. L'invention est également relative à la transmission et à la restitution de signaux audio multicanaux et à leur conversion vers un dispositif de restitution, transducteur, imposé par l'équipement d'un utilisateur. C'est par exemple le cas pour la restitution d'une scène sonore 5.1 par un casque d'écoute audio, ou par une paire de hauts parleurs. L'invention est également relative à la restitution, dans le cadre d'un jeu ou enregistrement vidéo par exemple, d'un ou plusieurs échantillons sonores stockés dans des fichiers, en vue de leur spatialisation. Dans le cas d'une source monophonique statique, la binauralisation est basée sur le filtrage du signal monophonique par la fonction de transfert entre la position désirée de la source et chacune des deux oreilles. Le signal binaural (deux canaux) obtenu peut alors alimenter un casque audio et fournir la sensation à l'auditeur d'une source à la position simulée. Ainsi, le terme « binaural » vise la restitution d'un signal sonore avec des effets de spatialisation. Chacune des fonctions de transfert simulant différentes positions peuvent être mesurées en chambre sourde, aboutissant ainsi à un ensemble de HRTF (pour « Head Related Transfer Functions » ou « Fonctions de Transferts Relatives à la Tête ») dans lesquelles aucun effet de salle n'est présent. Ces fonctions de transfert peuvent également être mesurées dans une salle « classique », aboutissant ainsi à un ensemble de BRIR (pour « Binaural Room Impulse Response » ou « Réponse Impulsionnelle Binaurale de salle») dans lesquelles l'effet de salle, ou réverbération, est présent.
L'ensemble des BRIR correspondent donc à un ensemble de fonctions de transfert entre une position donnée et les oreilles d'un auditeur (réel ou tête artificielle) placé dans une salle. La technique habituelle de mesure de BRIR consiste à envoyer successivement dans chacun des haut-parleurs réels, positionnés autour d'une tête (réelle ou artificielle) équipée de microphones dans les oreilles, un signal de test (par exemple un signal sweep, une séquence binaire pseudo- aléatoire ou un bruit blanc). Ce signal de test rend possible, lors d'un traitement hors temps réel, la reconstitution (généralement par déconvolution) de la réponse impulsionnelle entre la position du haut-parleur et chacune des deux oreilles.
La différence entre un ensemble de HRTF et de BRIR se situe principalement dans la longueur de la réponse impulsionnelle, de l'ordre de la milliseconde pour les HRTF, à l'ordre de la seconde pour les BRIR. Le filtrage étant basé sur la convolution entre le signal monophonique et la réponse impulsionnelle, la complexité pour effectuer une binauralisation avec des BRIR (contenant un effet de salle) est nettement plus élevée qu'avec des HRTF. Il est possible par cette technique de simuler au casque ou sur un nombre limité de haut-parleurs une écoute d'un contenu multicanal (L canaux) généré par L haut-parleurs dans une salle. En effet, il suffit de considérer chacun des L haut-parleurs comme une source virtuelle positionnée idéalement par rapport à l'auditeur, de mesurer dans la salle à simuler les fonctions de transfert (pour les oreilles gauche et droite) de chacun de ces L haut-parleurs, puis d'appliquer à chacun des L signaux audio (censés alimenter les L haut-parleurs réels) les filtres BRIR correspondant aux haut-parleurs. Les signaux alimentant chacune des oreilles sont sommés pour fournir un signal binaural alimentant un casque audio.
On note I(1) (avec 1=[1,L]) le signal d'entrée censé alimenter les L haut-parleurs. On note BRIed(1), les BRIR de chacun des haut-parleurs pour chacune des deux oreilles, et on note Owd le signal binaural de sortie. La binauralisation du signal multicanal s'écrit donc : Og =11(1) * BRIRg (1) 1=1 Od =11(1) * BRIRd (1) 1=1 Où * représente l'opérateur de convolution. Par la suite, l'indice 1 tel que / E [1, L] fait référence à un des L haut-parleurs. On a bien une BRIR pour un signal 1. Ainsi, en référence à la figure 1, deux convolutions (une pour chaque oreille) sont présentes pour chaque haut-parleur (étapes S1 1 à S1L). Pour L haut-parleurs, la binauralisation nécessite donc 2.L convolutions. On peut calculer la complexité C. dans le cas d'une implémentation rapide par bloc. Une implémentation rapide par bloc est par exemple donnée par une transformée de Fourier rapide (FFT pour « Fast Fourier Transform »). Le document « Submission and Evaluation Procedures for 3D Audio » (MPEG 3D Audio) précise une formule possible pour le calcul de Cc., : C'', = + 2). (nBlocs). (6.10 g2(2F sl nBlocs)) Dans cette équation, L représente le nombre de FFT pour transformer en fréquence les signaux d'entrée (1 FFT par signal d'entrée), le 2 représente le nombre de FFT inverse pour obtenir le signal binaural temporel (2 FFT inverse pour les deux canaux du binaural), le 6 indique un coefficient de complexité par FFT, le second 2 indique un bourrage de zéros nécessaire pour éviter les problèmes dus à la convolution circulaire, Fs indique la taille de chacune des BRIR, et nBlocs représente le fait d'utiliser un traitement par bloc, plus réaliste dans une approche où la latence ne doit pas être excessivement élevée, et . représente la multiplication. Ainsi pour utilisation typique avec nBlocs=10, Fs=48000, L=22, la complexité par échantillon de signal multicanal pour une convolution directe basée sur une FFT est de Cc., = 19049 multiplications-additions. Cette complexité est trop élevée pour une implémentation réaliste à l'heure actuelle sur des processeurs courants (mobiles par exemple), il est donc nécessaire de diminuer cette complexité sans dégrader fortement le rendu de la binauralisation. Pour que la spatialisation soit de bonne qualité, la totalité du signal temporel des BRIR doit être appliqué. La présente invention vient améliorer la situation. Elle vise à diminuer fortement la complexité de la binauralisation d'un signal multicanal avec effet de salle tout en conservant au mieux la qualité audio.
La présente invention propose à cet effet un procédé de spatialisation sonore, dans lequel on applique au moins un filtrage, avec sommation, à au moins deux signaux d'entrée (I(1), I(2), I(L)), caractérisé en ce que le filtrage comporte: - l'application d'au moins une première fonction de transfert à effet de salle (Ak(1), Ak(2), Ak(L)), cette première fonction de transfert étant spécifique à chaque signal d'entrée, - et l'application d'au moins une deuxième fonction de transfert à effet de salle (Bmeank), cette deuxième fonction de transfert étant commune à tous les signaux d'entrée. Les signaux d'entrée correspondent par exemple aux différents canaux d'un signal multicanal. Un tel filtrage peut en particulier délivrer au moins deux signaux de sortie destinés à une restitution spatialisée (en binaural ou en transaural, ou encore en restitution ambiophonique faisant intervenir plus de deux signaux de sortie). Dans un mode de réalisation particulier, le filtrage délivre précisément deux signaux de sortie, le premier signal de sortie étant spatialisé pour l'oreille gauche et le second signal de sortie étant spatialisé pour l'oreille droite. Cela rend notamment possible la conservation du degré de corrélation naturel qui peut exister entre les oreilles gauche et droite à basses fréquences. Les propriétés physiques (par exemple l'énergie ou la corrélation entre les différentes fonctions de transfert) des fonctions de transfert sur certains intervalles temporels rendent possible des simplifications. Sur ces intervalles, on peut ainsi approximer les fonctions de transferts par un filtre moyen. L'application des fonctions de transfert à effet de salle est donc avantageusement compartimentée sur ces intervalles. Au moins une première fonction de transfert spécifique à chaque signal d'entrée peut être appliquée pour les intervalles où il n'est pas possible de faire d'approximations. Au moins une deuxième fonction de transfert approximée à un filtre moyen peut être appliquée pour les intervalles où il est possible de faire des approximations. L'application d'une seule fonction de transfert commune à chacun des signaux d'entrée réduit sensiblement le nombre de calcul à effectuer pour la spatialisation. La complexité de cette spatialisation est donc avantageusement réduite. Cette simplification réduit ainsi avantageusement le temps de traitement tout en sollicitant moins le ou les processeurs utilisés pour ces calculs. Dans un mode de réalisation particulier, les première et deuxième fonctions de transfert sont respectivement représentatives: - de propagations sonores directes et de premières réflexions sonores de ces propagations ; et - d'un champ sonore diffus présent après ces premières réflexions, et le procédé au sens de l'invention comporte en outre: - l'application de premières fonctions de transfert respectivement spécifiques aux signaux d'entrée, et - l'application d'une deuxième fonction de transfert, identique pour tous les signaux d'entrée, et résultant d'une approximation globale d'un effet de champ sonore diffus. Ainsi, la complexité du traitement est avantageusement réduite par cette approximation. De plus, l'influence d'une telle approximation sur la qualité du traitement est réduite car cette approximation est liée aux effets de champ sonore diffus et non aux propagations sonores directes. Ces effets de champ sonore diffus sont en effet moins sensibles à des approximations. Les premières réflexions sonores sont typiquement une première succession d'échos de l'onde sonore.
Dans un exemple de réalisation concret, on considère que ces premières réflexions sont au nombre de deux, au plus. Dans un autre mode de réalisation, une étape préalable de construction des première et deuxième fonctions de transfert à partir de réponses impulsionnelles incorporant un effet de salle, comporte, pour la construction d'une première fonction de transfert, les opérations: - de détermination d'un instant de début de présence d'ondes sonores directes, - de détermination d'un instant de début de présence du champ sonore diffus après les premières réflexions, et - de sélection, dans une réponse impulsionnelle, d'une partie de la réponse qui s'étend temporellement entre l'instant de début de présence d'ondes sonores directes jusqu'à l'instant de début de présence de champ diffus, la partie de réponse sélectionnée correspondant à la première fonction de transfert. Dans un mode de réalisation particulier, l'instant de début de présence de champ diffus est déterminé à partir de critères prédéterminés. Dans un exemple de réalisation possible, la détection d'une décroissance monotone d'une densité spectrale de puissance sonore dans une salle donnée peut typiquement caractériser le début de présence du champ diffus, et, de là, donner l'instant de début de présence du champ diffus. Dans une variante, l'instant de début de présence peut être déterminé par une estimation en fonction des caractéristiques de la salle, par exemple simplement à partir du volume de la salle comme on le verra plus loin. En variante, dans un exemple de réalisation plus simple, on peut considérer que si une réponse impulsionnelle s'étend sur N échantillons, alors l'instant de début de présence du champ diffus intervient par exemple après N/2 échantillons de la réponse impulsionnelle. Ainsi, l'instant de début de présence est prédéterminé et correspond donc à une valeur fixe. Typiquement, cette valeur peut correspondre par exemple au 2048' échantillon sur 48000 échantillons d'une réponse impulsionnelle incorporant un effet de salle. L'instant de début de présence d'ondes sonores directes, précité, peut correspondre par exemple au début du signal temporel d'une réponse impulsionnelle avec effet de salle. Dans un mode de réalisation complémentaire, la deuxième fonction de transfert est construite à partir d'un ensemble de parties de réponses impulsionnelles commençant temporellement après l'instant de début de présence du champ diffus.
Dans une variante, la deuxième fonction de transfert peut être déterminée à partir des caractéristiques de la salle, ou de filtres standards prédéterminées. Ainsi, les réponses impulsionnelles incorporant un effet de salle sont avantageusement compartimentées en deux parties séparées par un instant de début de présence. Une telle séparation rend possible un traitement adapté à chacune de ces parties. On peut prendre par exemple une sélection des premiers échantillons (les 2048 premiers) d'une réponse impulsionnelle pour l'utiliser en tant que première fonction de transfert dans le filtrage et ignorer alors les échantillons restants (de 2048 à 48000 par exemple) ou les moyenner avec ceux d'autres réponses impulsionnelles. L'intérêt d'une telle réalisation est alors, de façon particulièrement avantageuse, de simplifier les calculs de filtrage spécifiques aux signaux d'entrée, et de rajouter une forme de bruit issu de la diffusion sonore qui peut être calculé à partir des secondes moitiés de réponses impulsionnelles (sous forme de moyenne par exemple comme on le verra plus loin), ou encore simplement à partir d'une réponse impulsionnelle prédéterminée, estimée simplement en fonction de caractéristiques de la salle donnée (son volume, les revêtements des parois de la salle, ou autres), ou d'une salle standard. Dans une autre variante, la deuxième fonction de transfert est donnée par application d'une formule du type : L avec k l'indice relatif à un signal de sortie, E [1; L] l'indice relatif à un signal d'entrée, L le nombre de signaux d'entrée, une fonction de transfert normalisée obtenue à partir d'un ensemble de parties de réponses impulsionnelles commençant temporellement après l'instant de début de présence du champ diffus.
Dans un mode de réalisation, les première et deuxième fonctions de transfert sont obtenues à partir d'une pluralité de réponses impulsionnelles binaurales de salle BRIR. Dans un autre mode de réalisation, ces première et deuxième fonctions de transfert sont obtenues à partir de valeurs expérimentales issues de mesure de propagations et réverbérations dans une salle donnée. Ainsi, le traitement est effectué à partir de données expérimentales. De telles données traduisent très précisément les effets de salle et garantissent donc un grand réalisme du rendu.
Dans un autre mode de réalisation, les première et deuxième fonctions de transfert sont obtenues à partir de filtres de référence, synthétisés par exemple avec un réseau de retards bouclés. Dans un mode de réalisation, on applique une troncature au début des BRIR. Ainsi, les premiers échantillons de BRIR pour lesquels l'application aux signaux d'entrée n'a pas d'influence sont avantageusement supprimés. Dans un autre mode de réalisation particulier, on applique un délai de compensation de troncature de début de BRIR. Ce délai de compensation permet de compenser le décalage temporel introduit par la troncature.
Dans un autre mode de réalisation, on applique une troncature en fin de BRIR. Ainsi, les derniers échantillons de BRIR pour lesquels l'application aux signaux d'entrée n'a pas d'influence sont avantageusement supprimés. Dans un mode de réalisation, le filtrage comporte l'application d'au moins un délai de compensation correspondant à un écart temporel entre l'instant précité de début d'ondes sonores directes et l'instant de début de présence de champ diffus. Ainsi, les retards pouvant être introduits par l'application de fonctions de transfert temporellement décalées sont avantageusement compensés. Dans un autre mode de réalisation, les première et deuxième fonctions de transfert à effet de salle sont appliquées parallèlement aux signaux d'entrée. De plus, au moins un délai de compensation est appliqué aux signaux d'entrée filtrés par les deuxièmes fonctions de transfert. Ainsi, un traitement simultané de ces deux fonctions de transfert est possible pour chacun des signaux d'entrée. Un tel traitement réduit avantageusement le temps de traitement pour la mise en oeuvre de la présente invention. Dans un autre mode de réalisation, on pondère au moins un signal d'entrée par un poids, ce poids étant spécifique à chacun des signaux d'entrée. Ainsi, les écarts énergétiques entre les différents signaux d'entrées peuvent être pris en compte même si le traitement qui leur est appliqué est en partie approximé par un filtre moyen. Dans un mode de réalisation, chacun des signaux de sortie est donné par application d'une formule du type : L L 1. Ok =I(I (0 * Ak (0) + Z-IDD .1( wk (0. 1(0) * gean 1=1 1=1 avec k l'indice relatif à un signal de sortie, Ok un signal de sortie, 1 E [1; L] l'indice relatif un signal d'entrée parmi les signaux d'entrée, L le nombre de signaux d'entrée, 1(1) un signal d'entrée parmi les signaux d'entrée, Ak (1) une fonction de transfert avec effet de salle parmi les premières fonctions de transfert avec effet de salle, ean une fonction de transfert avec effet de salle parmi les deuxièmes fonctions de transfert avec effet de salle, Wk (1) un poids de pondération parmi les poids de pondération, z-iDD correspond à l'application du délai de compensation, où . est la multiplication, et où * est l'opérateur de convolution. Dans un autre mode de réalisation, une étape de décorrélation est appliquée aux signaux d'entrée préalablement à l'application des deuxièmes fonctions de transfert. Dans ce mode de réalisation, les signaux de sortie sont donc obtenus par application d'une formule du type : L L Ok (1) * Ak (0) + Z-IDDwk1 (0. Id (0) * gean 1=1 1=1 avec Id(l) un signal d'entrée décorrélé parmi lesdits signaux d'entrée, les autres valeurs étant celles définies ci-avant. Ainsi, les écarts d'énergies dus aux différences énergétiques entre les additions de signaux corrélés et les additions de signaux décorrélés peuvent être pris en compte.
Dans un mode de réalisation particulier, la décorrélation est appliquée préalablement au filtrage. Ainsi, on peut s'affranchir d'étapes de compensation d'énergie pendant le filtrage. Dans un autre mode de réalisation, on applique à au moins un signal d'entrée, au moins un gain de compensation d'énergie. Ainsi, l'amplitude de sortie est avantageusement normalisée. Dans un mode de réalisation particulier, le gain de compensation d'énergie est fonction de la corrélation entre les signaux d'entrée. Ainsi, la corrélation entre signaux est avantageusement prise en compte.
Dans un mode de réalisation, les signaux de sortie sont obtenus par application d'une formule du type : L L ok = Iu(1) * Ak(0) + . G (1 (0).1(w k (0. 1(1)) * gean 1 1=1 =1 avec G(I(1)) le gain de compensation d'énergie déterminé, les autres valeurs étant celles définies ci-avant. Dans une variante, G ne dépend pas de I(1).
Dans un mode de réalisation, le poids pour la pondération est donné par application d'une formule du type : IE Brneank ve (0 = ,\IEBk(i) avec k l'indice relatif à un signal de sortie, / E [1; L] l'indice relatif un signal d'entrée parmi les signaux d'entrée, L le nombre de signaux d'entrée, avec E Bmeank l'énergie d'une fonction de transfert avec effet de salle parmi les deuxièmes fonctions de transfert avec effet de salle, EBk(i) une énergie relative au gain en normalisation. L'invention vise aussi un programme informatique comportant des instructions pour la mise en oeuvre du procédé décrit ci-avant.
L'invention peut être mise en oeuvre par un dispositif de spatialisation sonore, comportant au moins un filtre avec sommation appliqué à au moins deux signaux d'entrée (I(1), I(2), I(L)), caractérisé en ce que le filtre utilise: au moins une première fonction de transfert à effet de salle (Ak(1), Ak(2), Ak(L)), cette première fonction de transfert étant spécifique à chaque signal d'entrée, - et au moins une deuxième fonction de transfert à effet de salle (Bmeank), cette deuxième fonction de transfert étant commune à tous les signaux d'entrée. Un tel dispositif peut prendre la forme matérielle par exemple d'un processeur et éventuellement d'une mémoire de travail, typiquement dans un terminal de communication.
L'invention peut également être mise en oeuvre dans un module de décodage de signaux sonores, en tant que signaux d'entrée, comportant le dispositif de spatialisation décrit ci-avant. D'autres avantages et caractéristiques de l'invention apparaîtront à la lecture de la description détaillée ci-après d'exemples de réalisation de l'invention et à l'examen des dessins sur lesquels : - la figure 1 illustre un procédé de spatialisation de l'art antérieur, - la figure 2 illustre schématiquement les étapes d'un procédé au sens de l'invention, dans un exemple de réalisation, - la figure 3 représente une réponse impulsionnelle binaurale de salle BRIR, - la figure 4 illustre schématiquement les étapes d'un procédé au sens de l'invention, dans un exemple de réalisation, - la figure 5 illustre schématiquement les étapes d'un procédé au sens de l'invention, dans un exemple de réalisation, - la figure 6 représente schématiquement un dispositif comportant des moyens de mise en oeuvre du procédé au sens de l'invention.
On se réfère à la figure 6 pour illustrer tout d'abord un contexte possible de mise en oeuvre de la présente invention dans un dispositif de type terminal connecté TER (par exemple un téléphone, smartphone ou autre, ou encore une tablette connectée, un ordinateur connecté, ou autres). Un tel dispositif TER comporte des moyens de réception (une antenne typiquement) de signaux audio Xc codés en compression, un dispositif de décodage DECOD délivrant des signaux décodés X prêts à être traités par un dispositif de spatialisation avant la restitution des signaux audio (par exemple par en binaural sur un casque à oreillettes CAS). Bien entendu, dans certains cas, il peut être avantageux de garder les signaux partiellement décodés (par exemple dans le domaine des sous-bandes) si le traitement de spatialisation est effectué dans le même domaine (traitement fréquentiel dans le domaine des sous-bandes par exemple). En référence encore à la figure 6, le dispositif de spatialisation se présente par une combinaison d'éléments : - hardware comportant typiquement un ou plusieurs circuits CIR coopérant avec une mémoire de travail MEM et un processeur PROC, - et software, dont les figures 2 et 4 sont des exemples d'organigrammes en illustrant l'algorithme général. Ici, la coopération entre les éléments hardware et software produit un effet technique procurant notamment une économie de complexité de la spatialisation pour sensiblement un même rendu audio (même sensation pour un auditeur), comme on le verra plus loin. On se réfère maintenant à la figure 2 pour décrire un traitement au sens de l'invention, ainsi mis en oeuvre par des moyens informatiques. Dans une première étape S21, une préparation des données est effectuée. Cette préparation est optionnelle, les signaux peuvent être traités selon les étapes S22 et suivantes sans ce pré-traitement. En particulier, cette préparation consiste à effectuer une troncature de chaque BRIR pour ignorer les échantillons inaudibles au début et à la fin de la réponse impulsionnelle. Cette préparation, pour la troncature en début de réponse impulsionnelle TRONC S, à l'étape S211, consiste à déterminer un instant de début d'ondes sonores directes et peut-être mis en oeuvre par les étapes suivantes : - Une somme cumulée des énergies de chacun des filtres BRIR(1) est calculée. Typiquement, cette énergie est calculée par une somme au carré des amplitudes des échantillons 1 à j, avec j compris dans [1 ; JI avec J le nombre d'échantillon d'un filtre BRIR. - La valeur d'énergie du filtre d'énergie maximum valMax (parmi les filtres relatifs à l'oreille gauche et à l'oreille droite) est calculée. - Pour chacun des haut-parleurs 1, on calcule l'indice pour lequel l'énergie de chacun des filtres BRIR(1) dépasse un certain seuil en dB calculé par rapport à valMax (e.g. valMax-50dB). - L'indice de troncature iT retenu pour toutes les BRIR est l'indice minimum parmi tous les indices des BRIR et il est considéré comme l'instant de début d'ondes sonores directes.
L'indice iT obtenu correspond donc au nombre d'échantillons à ignorer pour chacune des BRIR. Une troncature brutale en début de réponse impulsionnelle avec une fenêtre rectangulaire peut mener à des artefacts audibles si elle est appliquée dans une partie trop énergétique. Il peut donc être préférable d'appliquer une fenêtre de fondu d'entrée adaptée, cependant si des précautions ont été prises dans le seuil choisi, ce fenêtrage devient inutile, car inaudible (on coupe juste du signal inaudible).
Le synchronisme entre BRIR rend possible l'application d'un délai constant pour toutes les BRIR dans un souci de simplicité d'implémentation, même si une optimisation de complexité est possible. La troncature de chaque BRIR pour ignorer les échantillons inaudibles à la fin de la réponse impulsionnelle TRONC E, à l'étape S212, peut être réalisée à partir d'étape similaires à celles décrites ci-avant, adaptées pour convenir à la fin de la réponse impulsionnelle. Une troncature brutale en fin de réponse impulsionnelle avec une fenêtre rectangulaire peut mener à des artefacts audibles sur des signaux impulsionnels où la queue de réverbération peut se révéler audible. Ainsi, dans un mode de réalisation, on applique une fenêtre de fondu de sortie adaptée.
A l'étape 22, une isolation en synchronisme ISOL A/B est effectuée. Cette isolation en synchronisme consiste à séparer, pour chaque BRIR, la partie « son direct » et « premières réflexions » (ou Direct, noté A) et de la partie « son diffus » (ou Diffus, noté B). En effet, le traitement à effectuer sur la partie « son diffus » peut avantageusement être différent de celui à effectuer sur la partie « son direct » dans la mesure où il est préférable d'avoir une meilleure qualité de traitement sur la partie « son direct » que sur la partie « son diffus ». Ceci rend possible une optimisation du rapport qualité/complexité. En particulier, pour réaliser l'isolation en synchronisme, on détermine un index « iDD » d'échantillon unique et commun à toutes les BRIR (d'où le terme « synchronisme ») à partir duquel on considère que le reste de la réponse impulsionnelle correspond à un champ diffus. On partitionne donc les réponses impulsionnelles BRIR(1) en deux : A(1) et B(1), où la concaténation des deux correspond à BRIR(1). La figure 3 montre l'index de partitionnement iDD à l'échantillon 2000. La partie à gauche de cet indice iDD correspond à la partie A. La partie à droite de cet indice iDD correspond à la partie B.
Dans un mode de réalisation, ces deux parties sont isolées, sans fenêtrage, afin de subir des traitements différents. Dans une variante, un fenêtrage entre les parties A(1) et B(1) est appliqué. L'indice iDD peut-être spécifique à la salle pour laquelle les BRIR ont été déterminés. Le calcul de cet indice peut donc dépendre de l'enveloppe spectrale, de la corrélation des BRIR ou encore de l'échogramme de ces BRIR. Par exemple, iDD peut être déterminé par une formule du type iDD = \117salle avec Vsalle le volume de la salle de mesure. Dans un mode de réalisation, iDD est une valeur fixe, typiquement 2000. Dans une variante, iDD varie, avantageusement de manière dynamique, en fonction de l'environnement à partir duquel les signaux d'entrée sont capturés.
Le signal de sortie pour les oreilles gauche (g) et droite (d), représenté par Ogid, s'écrit donc : L O9/ci =11(1) * BRIRg /C1(1) = Ofild + Z-iDD . 09/d 1=1 =Il (0 * Ag id (I) + Z-iDD .11(1) * Bed (I) 1=1 1=1 où Z-1DD correspond au délai de iDD échantillons. L'application de ce délai aux signaux est effectuée en stockant les valeurs calculées pour Ef=1/(/) * Bed (0 dans une mémoire temporaire (par exemple dans un buffer) et en les restituant au moment voulu. Dans un mode de réalisation, les index d'échantillons choisis pour A et B peuvent également tenir compte des longueurs de trames dans le cas d'intégration dans un codeur audio. En effet, des tailles typiques de trames de 1024 échantillons peut mener à un choix tel que A fasse 1024 et B fasse 2048, en s'assurant que B est bien une zone de champ diffus pour toutes les BRIR.
En particulier, il peut être intéressant que la taille de B soit un multiple de la taille de A car si le filtrage est implémenté par blocs de FFT, alors le calcul d'une FFT pour A peut être réutilisé pour B. Un champ diffus se caractérise par le fait qu'il est statistiquement identique en tous les points de la salle. Ainsi, sa réponse en fréquence varie peu en fonction du haut-parleur à simuler. La présente invention exploite cette caractéristique dans le but de remplacer tous les filtres Diffus 13(1) de toutes les BRIR par un seul et unique filtre « moyen » Bmean afin de diminuer fortement la complexité due aux convolutions multiples. Pour cela, on peut modifier la partie champ diffus B à l'étape S23B, toujours en référence à la figure 2. A l'étape S23B1, on calcule la valeur du filtre moyen Bmean. D'abord, il est extrêmement rare que le système complet soit calibré idéalement, on peut donc appliquer un gain de pondération qui sera reporté dans le signal d'entrée afin d'effectuer une unique convolution par oreille pour la partie champs diffus. On décompose donc les BRIR en des filtres normalisés en énergie, et on reporte le gain de normalisation /E Bg M(l) dans le signal d'entrée : 0 e I d = 1[i (I) * B gi d = 1[1 (I) * (\lE Eigid(o- Bnormed (0)1 1=1 1=1 E Bg /dm. 1 (0) * BriOnne d (0 g/d avec Bnornig Id (1) = B (l) oùE »ea(l) représente l'énergie de B9/d(l). \IE Lig / d (0 Ensuite, on approxime Bn'mgid (0 par un seul et unique filtre moyen Bmeangict qui n'est plus fonction du haut-parleur 1, mais qu'il est possible de normaliser également en énergie : oeid'-, (nid =1 (\lEgg/d(0.1(0) / Bmeangld \ \.,\lE Brneang I d l 1=1 I- avec Bmeangld = -zvi, =1[ normgict Dans un mode de réalisation, ce filtre moyen peut être obtenu par moyennage des échantillons temporels. Dans une variante, il peut être obtenu par tout autre type de moyennage comme par exemple un moyennage des densités spectrales de puissance. Dans un mode de réalisation, l'énergie du filtre moyen EBmeang/d peut être mesurée directement à partir du filtre construit Bmeangict - Dans une variante, il peut également être estimé en prenant en compte l'hypothèse que les filtres Bnormed (0 sont décorrélés. En effet, dans ce cas, comme on somme des signaux d'énergie unitaire, on a : L 2 Eu° 1 gid = = .(L. E Bnormg / d) = me an 1 1 1[Bnormgict 1=1 L'énergie peut être calculée sur l'ensemble des échantillons correspondants à la partie champ diffus.
A l'étape S23B2, on calcule la valeur du facteur de pondération Wgid (/). Un seul facteur de pondération à appliquer au signal d'entrée est calculé, prenant en compte les normalisations des filtres Diffus et du filtre moyen: 1E IBmeangict Ôgid y 1391c1(1) 1(1) =1[( 1=1 wgld (). 1 (1)) &Wang id 1=1 lE n'meang I d Avec W9/d (0 = EBTneangici \IE B9 d (0 Le filtre moyen étant constant, il peut sortir de la somme : L Ô`q id = wgld (0. I (0 * Bni eangict Ainsi, les L convolutions avec la partie champ diffus sont remplacées par une seule convolution avec un filtre moyen, moyennant une somme pondérée du signal d'entrée.
A l'étape S23B3, on peut optionnellement calculer un gain G corrigeant le gain du filtre moyen Bmeangict - En effet, dans le cas de la convolution entre les signaux d'entrée et les filtres non approximés, quelles que soient les valeurs de corrélation entre les signaux d'entrée, le filtrage par des filtres décorrélés que sont les Bed (1) mène à des signaux à sommer qui sont alors eux aussi décorrélés. A l'inverse, dans le cas de la convolution entre les signaux d'entrée et le filtre moyen approximé, l'énergie du signal issu de la sommation des signaux filtrés va dépendre de la valeur de corrélation existant entre les signaux d'entrée. Par exemple, * si tous les signaux d'entrée I(1) sont identiques et d'énergie unitaire, et que les filtres B(1) sont tous décorrélés (puisque champs diffus) et d'énergie unitaire, on a : L Engld = energie 1[1 (1) * _ R normgld(01 = L 1=1 * si tous les signaux d'entrée I(1) sont décorrélés et d'énergie unitaire, et que les filtres B(1) sont Bmeangid tous d'énergie unitaire, mais remplacés par des filtres identiques , on a: \IEBrnean9Id e- nergie mean 7 7 B 9/d \I\ 1(1) * Eeld = \1=1 \,\lE Bmeang /d 1[1(0 * Bmeang/1\ 2L/ 1 1 1 = energie = L \-\/E gld 1=1 -'7nean \lE Bmeangid Car les énergies des signaux décorrélés s'ajoutent. 1=1 Ce cas est équivalent au précédent dans le sens où les signaux issus du filtrage sont tous décorrélés, grâce aux signaux d'entrée dans le premier cas, et grâce aux filtres dans le second cas. * si tous les signaux d'entrée I(1) sont identiques et d'énergie unitaire, et que les filtres B(1) sont tous d'énergie unitaire, mais remplacés par des filtres identiques Bmeangid , on a: IE Brneang d Eog/de = nergie 7 L7 Bine g/d \ 1(0 * an \1=1 Brneangid L / \ 2 = energie 1 1 I[/(1) Bmeangil \.,\/Bmeang E /d 1-1 Brneang = L2 Car les énergies des signaux identiques s'ajoutent en quadrature (car leurs amplitudes s'ajoutent). Ainsi, - si deux haut-parleurs sont actifs simultanément, alimentés par des signaux décorrélés, alors aucun gain n'est apporté en appliquant les étapes S23B1 et S23B2 par rapport à la méthode classique. - si deux haut-parleurs sont actifs simultanément, alimentés par des signaux identiques, alors un gain de 10.1og10(L21L)= 10. /ogio (22/2) = 3.01dB est apporté en appliquant les étapes S23B1 et S23B2 par rapport à la méthode classique. - si trois haut-parleurs sont actifs simultanément, alimentés par des signaux identiques, alors un gain de 10.1og10(L21L)= 10. /ogio (32/3) = 4.77dB est apporté en appliquant les étapes S23B1 et S23B2 par rapport à la méthode classique. Les cas évoqués ci-avant correspondent aux cas extrêmes de signaux identiques ou décorrélés. Ces cas sont toutefois réalistes : une source positionnée au milieu de deux haut-parleurs, virtuels ou réels, fournira un signal identique à ces deux haut-parleurs (par exemple avec une technique de type VBAP, pour « Vector base amplitude panning »). Dans le cas d'un positionnement dans un système 3D, les 3 haut-parleurs peuvent recevoir le même signal au même niveau. Ainsi, on peut appliquer une compensation afin de respecter l'énergie des signaux binauralisés.
Idéalement, ce gain de compensation G sera déterminé en fonction du signal d'entrée (soit G(I(1))) et sera appliqué à la somme des signaux d'entrée pondérés : L Ôgld = G.1[ Bmean g / d wg/d(o. 1(01 1=1 Le gain G(1(0) peut être estimé par un calcul de corrélation entre chacun des signaux. Il peut également être estimé en comparant les énergies des signaux avant et après sommations. Dans ce cas, le gain G peut varier dynamiquement au cours du temps, en fonction par exemple des corrélations entre les signaux d'entrée, qui varient eux-mêmes au cours du temps. Dans un mode de réalisation simplifié, il est possible de fixer un gain constant, par exemple G = -3dB = 10-3/20, ce qui évitera d'avoir à effectuer une estimation de corrélation qui peut être coûteuse. Le gain constant G peut alors être appliqué hors ligne aux facteurs de pondération Gd(t) (donnant ainsi wg/ ), ou au filtre Bme ang / d , ce qui évitera l'application d'un gain supplémentaire au vol. Une fois les fonctions de transfert A et B isolées et les filtres Bmeang / d (optionnellement les poids Wgid (0 et G) calculés, on applique ces fonctions de transfert et ces filtres aux signaux d'entrée. Dans un premier mode de réalisation, décrit en référence à la figure 4, le traitement du signal multicanal par application des filtres Direct (A) et Diffus (B) pour chacune des oreilles est effectué de la manière suivante : - On applique (étapes S4A1 à S4AL) au signal multicanal d'entrée un filtrage efficace (par exemple convolution directe basée-FFT) par les filtres Direct (A), comme décrit dans l'état de l'art. On obtient un signal 'e l:1 - En fonction des relations entre les signaux d'entrée, notamment en fonction de leur corrélation, on peut optionnellement corriger à l'étape S4B11 le gain du filtre moyen Bmeang / d par application du gain G aux signaux de sortie après sommation des signaux d'entrée préalablement pondérés (étapes M4B1 à M4BL). - On applique au signal multicanal B à l'étape S4B1 un filtrage efficace par le filtre Diffus moyen Bmean. Cette étape a bien lieu après sommation des signaux d'entrée préalablement pondérés (étapes M4B1 à M4BL). On obtient le signal e d . - On applique au signal ÔgBid un délai iDD afin de compenser le retard introduit lors de l'étape d'isolation du signal B à l'étape S4B2. - Les signaux ()Ag/d et (nid sont sommés. - Si une troncature éliminant les échantillons inaudibles au début des réponses impulsionnelles a été réalisée, alors on applique à l'étape S41 au signal d'entrée un délai iT correspondant aux échantillons inaudibles supprimés.
Dans une variante, en référence à la figure 5, les signaux ne sont pas seulement calculés pour les oreilles gauches et droites (indices g et d ci-avant) mais pour k dispositifs de restitution (typiquement des haut-parleurs). Dans un second mode de réalisation, on applique le gain G préalablement à la sommation des signaux d'entrée, c'est-à-dire pendant les étapes de pondération (étapes M4B1 à M4BL).
Dans un troisième mode de réalisation, on applique une décorrélation aux signaux d'entrée. Ainsi, les signaux sont décorrélés après convolution par le filtre Bmean quelles que soient les corrélations d'origine entre signaux d'entrée. On peut utiliser une implémentation efficace de décorrélation (par exemple en utilisant un réseau de retards bouclés) afin d'éviter l'utilisation de filtres de décorrélation couteux.
Ainsi, en supposant de manière réaliste que des BRIR de longueur 48000 échantillons peuvent être : - tronquées entre l'échantillon 150 et l'échantillon 3222 par la technique décrite à l'étape S21, - décomposées en deux parties : champ direct A de 1024 échantillons, et champ diffus B de 2048 échantillons, par la technique décrite à l'étape S22, alors la complexité de binauralisation peut être approximativement donnée par : Cmv = CinvA CmvB L+2).(6.1og2(2.NA)) + (L+2).(6.1og2(2.NB)) Avec NA et NB les tailles en échantillons de A et B Ainsi pour nBlocs=10, Fs=48000, L=22, NA=1024 et NB=2048, la complexité par échantillon de signal multicanal pour une convolution basée-FFT est de Cc., = 3312 multiplications-additions. Ce résultat est cependant logiquement à comparer à une solution simple implémentant seulement la troncature, soit pour nBlocs=10, Fs=3072, L=22 : Ciron, = (L+2).(nBlocs).(6.1og2(2.Fs/ nBlocs)) = 13339 Il existe donc un facteur 19049/3312=5.75 de complexité entre l'état de l'art et la présente invention, et encore un facteur 13339/3312=4 de complexité entre l'état de l'art bénéficiant de la troncature et la présente invention. Si la taille de B est un multiple de la taille de A, alors si le filtrage est implémenté par blocs de FFT, le calcul d'une FFT pour A peut être réutilisé pour B. On a donc besoin de L FFT sur NA points, qui serviront à la fois au filtrage par A et par B, deux FFT inverse sur NA points pour obtenir le signal binaural temporel, et la multiplication des spectres en fréquence. Dans ce cas, la complexité peut être approximée (les additions sont négligées, (L+1) correspond à la multiplication des spectres, L pour A et 1 pour B) par : CiiN2 = (L+2).(6.log2(2.NA)) + (L+1) = 1607 Avec cette approche, on gagne encore un facteur 2, et donc un facteur 12 et 8 par rapport à l'état de l'art non tronquée et tronquée. L'invention peut trouver une application directe dans la norme MPEG-H 3D Audio.
Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant ; elle s'étend à d'autres variantes. Ainsi par exemple, on a décrit ci-avant un mode de réalisation dans lequel le signal Direct A n'est pas approximé par un filtre moyen. Bien entendu, on peut utiliser filtre moyen de A pour faire les convolutions (étapes S4A1 à S4AL) avec les signaux issus des haut-parleurs.
On a décrit ci-avant un mode de réalisation basé sur le traitement d'un contenu multicanal généré pour L haut-parleurs. Bien sûr, le contenu multicanal peut-être généré par tout type de source audio comme par exemple la voix, un instrument de musique, un bruit quelconque, etc. On a décrit ci-avant un mode de réalisation basé sur des formules s'appliquant dans un certain domaine de calcul (par exemple domaine transformé). Bien sûr, la présente invention ne se limite pas à ces formules et ces formules peuvent être modifiées pour être applicables dans d'autres domaines de calcul (par exemple domaine temporel, domaine fréquentiel, domaine temps-fréquence, etc.). On a décrit ci-avant un mode de réalisation basé sur des valeurs de BRIR déterminées dans une salle. Bien sûr, on peut mettre en oeuvre la présente invention pour tout type d'environnement extérieur (par exemple salle de concert, plein air, etc.).
On a décrit ci-avant un mode de réalisation basé sur l'application de deux fonctions de transfert. Bien sûr, on peut mettre en oeuvre la présente invention avec plus de deux fonctions de transfert. Par exemple, on peut isoler en synchronisme une partie relative aux sons émis directement, une partie relative aux premières réflexions et une partie relative aux sons diffus.

Claims (15)

  1. REVENDICATIONS1. Procédé de spatialisation sonore, dans lequel on applique au moins un filtrage, avec sommation, à au moins deux signaux d'entrée (I(1), I(2), I(L)), caractérisé en ce que le filtrage comporte: - l'application d'au moins une première fonction de transfert à effet de salle (Ak(1), Ak(2), Ak(L)), ladite première fonction de transfert étant spécifique à chaque signal d'entrée, - et l'application d'au moins une deuxième fonction de transfert à effet de salle (Bmeank), ladite deuxième fonction de transfert étant commune à tous les signaux d'entrée.
  2. 2. Procédé selon la revendication 1, caractérisé en ce que lesdites première et deuxième fonctions de transfert sont respectivement représentatives: - de propagations sonores directes et de premières réflexions sonores desdites propagations ; et - d'un champ sonore diffus présent après lesdites premières réflexions, et en ce qu'il comporte : - l'application de premières fonctions de transfert respectivement spécifiques aux signaux d'entrée, et - l'application d'une deuxième fonction de transfert, identique pour tous les signaux d'entrée, et résultant d'une approximation globale d'un effet de champ sonore diffus.
  3. 3. Procédé selon la revendication 2, caractérisé en ce qu'il comporte une étape préalable de construction desdites première et deuxième fonctions de transfert à partir de réponses impulsionnelles incorporant un effet de salle, ladite étape préalable comportant, pour la construction d'une première fonction de transfert, les opérations: - de détermination d'un instant de début de présence d'ondes sonores directes, - de détermination d'un instant de début de présence dudit champ sonore diffus après les premières réflexions, et - de sélection, dans une réponse impulsionnelle, d'une partie de la réponse qui s'étend temporellement entre ledit instant de début de présence d'ondes sonores directes jusqu'audit instantde début de présence de champ diffus, ladite partie de réponse sélectionnée correspondant à ladite première fonction de transfert.
  4. 4. Procédé selon revendication 3, caractérisé en ce que la deuxième fonction de transfert est construite à partir d'un ensemble de parties de réponses impulsionnelles commençant temporellement après ledit instant de début de présence du champ diffus.
  5. 5. Procédé selon l'une des revendications 3 ou 4, dans lequel ladite deuxième fonction de transfert est donnée par application d'une formule du type : r> avec k l'indice relatif à un signal de sortie, E [1; L] l'indice relatif à un signal d'entrée, L le nombre de signaux d'entrée, 87107711 ) une fonction de transfert normalisée obtenue à partir d'un ensemble de parties de réponses impulsionnelles commençant temporellement après ledit instant de début de présence du champ diffus.
  6. 6. Procédé selon l'une des revendications 3 à 5, caractérisé en ce que ledit filtrage comporte l'application d'au moins un délai de compensation correspondant à un écart temporel entre ledit instant de début d'ondes sonores directes et ledit instant de début de présence de champ diffus.
  7. 7. Procédé selon la revendication 6, caractérisé en ce que lesdites première et deuxième fonctions de transfert à effet de salle sont appliquées parallèlement auxdits signaux d'entrée et en ce que ledit au moins un délai de compensation est appliqué aux signaux d'entrée filtrés par lesdites deuxièmes fonctions de transfert.
  8. 8. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'on pondère au moins un signal d'entrée par un poids, ledit poids étant spécifique à chacun des signaux d'entrée.
  9. 9. Procédé selon la revendication 8, caractérisé en ce que chacun desdits signaux de sortie est donné par application d'une formule du type : L L Ok = (0 * Ak (0) + Z-IDD .1( wk (0. 1(0) * gean 1=1 1=1 avec k l'indice relatif à un signal de sortie, k. un signal de sortie, E [1; L] l'indice relatif un signal d'entrée parmi lesdits signaux d'entrée, L le nombre de signaux d'entrée, 1(1) un signal d'entrée parmi lesdits signaux d'entrée, 24'1:0 une fonction de transfert avec effet de salle parmi lesdites premières fonctions de transfert avec effet de salle, une fonction de transfert avec effet de salle parmi lesdites deuxièmes fonctions de transfert avec effet de salle, un poids de pondération parmi lesdits poids de pondération, D correspond à l'application dudit délai de compensation, où . est la multiplication, et où * est l'opérateur de convolution.
  10. 10. Procédé selon la revendication 8, caractérisé en ce qu'il comprend une étape de décorrélation des signaux d'entrée, préalablement à l'application des deuxièmes fonctions de transfert et en ce que chacun desdits signaux de sortie est donné par application d'une formule du type :Ok = /(I(1) * Ak (0) + z-iDDw k 1 (i) . d (0) * letean 1=1 1=1 avec k l'indice relatif à un signal de sortie, 0' un signal de sortie, E [1; L] l'indice relatif un signal d'entrée parmi lesdits signaux d'entrée, L le nombre de signaux d'entrée, /(/) un signal d'entrée parmi lesdits signaux d'entrée, Id(l) un signal d'entrée décorrélé parmi lesdits signaux d'entrée, une fonction de transfert avec effet de salle parmi lesdites premières fonctions de transfert avec effet de salle, une fonction de transfert avec effet de salle parmi lesdites deuxièmes fonctions de transfert avec effet de salle, un poids de pondération parmi lesdits poids de pondération, D correspond à l'application dudit délai de compensation, où . est la multiplication, et où * est l'opérateur de convolution.
  11. 11. Procédé selon la revendication 8, caractérisé en ce qu'il comprend une étape de détermination d'un gain de compensation d'énergie en fonction des signaux d'entrée et en ce que chacun desdits signaux de sortie est donné par application d'une formule du type : L L 1 0k = (1) * Ak (0) + z-'131 G (1 (0).1(wk (0.1(1)) * gean 1 1=1 =1 avec k l'indice relatif à un signal de sortie, un signal de sortie, E [1; L] l'indice relatif un signal d'entrée parmi lesdits signaux d'entrée, L le nombre de signaux d'entrée,1(1) un signal d'entrée parmi lesdits signaux d'entrée, G(I(1)) ledit gain de compensation d'énergie déterminé, une fonction de transfert avec effet de salle parmi lesdites premières fonctions de transfert avec effet de salle, une fonction de transfert avec effet de salle parmi lesdites deuxièmes fonctions de transfert avec effet de salle, un poids de pondération parmi lesdits poids de pondération, D correspond à l'application dudit délai de compensation, où . est la multiplication, et où est l'opérateur de convolution.
  12. 12. Procédé selon l'une des revendications 8 à 11, caractérisé en ce que ledit poids est donné par application d'une formule du type : avec k l'indice relatif à un signal de sortie, E [1; L] l'indice relatif un signal d'entrée parmi lesdits signaux d'entrée, L le nombre de signaux d'entrée, avec ik l'énergie d'une fonction de transfert avec effet de salle parmi lesdites deuxièmes fonctions de transfert avec effet de salle, 20 une énergie relative au gain en normalisation.
  13. 13. Programme informatique comportant des instructions pour la mise en oeuvre du procédé selon l'une des revendications 1 à 12, lorsque ces instructions sont exécutées par un processeur.
  14. 14. Dispositif de spatialisation sonore, comportant au moins un filtre avec sommation appliqué à au moins deux signaux d'entrée (I(1), I(2), ..., I(L)), caractérisé en ce que le filtre utilise: - au moins une première fonction de transfert à effet de salle (Ak(1), Ak(2), Ak(L)), ladite première fonction de transfert étant spécifique à chaque signal d'entrée, - et au moins une deuxième fonction de transfert à effet de salle (Bmeank), ladite deuxième fonction de transfert étant commune à tous les signaux d'entrée.
  15. 15. Module de décodage de signaux sonores, comportant un dispositif de spatialisation selon la revendication 14, desdits signaux sonores en tant que signaux d'entrée.
FR1357299A 2013-07-24 2013-07-24 Spatialisation sonore avec effet de salle Withdrawn FR3009158A1 (fr)

Priority Applications (9)

Application Number Priority Date Filing Date Title
FR1357299A FR3009158A1 (fr) 2013-07-24 2013-07-24 Spatialisation sonore avec effet de salle
PCT/FR2014/051728 WO2015011359A1 (fr) 2013-07-24 2014-07-04 Spatialisation sonore avec effet de salle
EP14748239.2A EP3025514B1 (fr) 2013-07-24 2014-07-04 Spatialisation sonore avec effet de salle
KR1020217001620A KR102310859B1 (ko) 2013-07-24 2014-07-04 공간 효과를 갖는 사운드 공간화
ES14748239T ES2754245T3 (es) 2013-07-24 2014-07-04 Espacialización sonora con efecto de sala
JP2016528570A JP6486351B2 (ja) 2013-07-24 2014-07-04 空間効果を用いる音響空間化
CN201480052602.XA CN105684465B (zh) 2013-07-24 2014-07-04 具有室内效应的声音空间化
KR1020167003222A KR102206572B1 (ko) 2013-07-24 2014-07-04 공간 효과를 갖는 사운드 공간화
US14/906,311 US9848274B2 (en) 2013-07-24 2014-07-04 Sound spatialization with room effect

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1357299A FR3009158A1 (fr) 2013-07-24 2013-07-24 Spatialisation sonore avec effet de salle

Publications (1)

Publication Number Publication Date
FR3009158A1 true FR3009158A1 (fr) 2015-01-30

Family

ID=49876752

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1357299A Withdrawn FR3009158A1 (fr) 2013-07-24 2013-07-24 Spatialisation sonore avec effet de salle

Country Status (8)

Country Link
US (1) US9848274B2 (fr)
EP (1) EP3025514B1 (fr)
JP (1) JP6486351B2 (fr)
KR (2) KR102310859B1 (fr)
CN (1) CN105684465B (fr)
ES (1) ES2754245T3 (fr)
FR (1) FR3009158A1 (fr)
WO (1) WO2015011359A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3001701B1 (fr) * 2014-09-24 2018-11-14 Harman Becker Automotive Systems GmbH Systèmes et procédés de reproduction audio
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
JP1640846S (fr) * 2018-10-16 2019-09-09
CN109584892A (zh) * 2018-11-29 2019-04-05 网易(杭州)网络有限公司 音效模拟方法、装置、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045294A1 (en) * 2004-09-01 2006-03-02 Smyth Stephen M Personalized headphone virtualization
WO2007031906A2 (fr) * 2005-09-13 2007-03-22 Koninklijke Philips Electronics N.V. Procede et dispositif de generation d'un son tridimensionnel

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2851879A1 (fr) * 2003-02-27 2004-09-03 France Telecom Procede de traitement de donnees sonores compressees, pour spatialisation.
JP2006279588A (ja) * 2005-03-29 2006-10-12 Yamaha Corp 多地点通信会議用端末
EP1927266B1 (fr) * 2005-09-13 2014-05-14 Koninklijke Philips N.V. Codage audio
JP2010118978A (ja) * 2008-11-14 2010-05-27 Victor Co Of Japan Ltd 音像定位制御装置および音像定位制御方法
US9431987B2 (en) * 2013-06-04 2016-08-30 Sony Interactive Entertainment America Llc Sound synthesis with fixed partition size convolution of audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045294A1 (en) * 2004-09-01 2006-03-02 Smyth Stephen M Personalized headphone virtualization
WO2007031906A2 (fr) * 2005-09-13 2007-03-22 Koninklijke Philips Electronics N.V. Procede et dispositif de generation d'un son tridimensionnel

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BREEBAART J ET AL: "Multi-channel goes mobile: MPEG surround binaural rendering", AES INTERNATIONAL CONFERENCE. AUDIO FOR MOBILE AND HANDHELD DEVICES, 2 September 2006 (2006-09-02), pages 1 - 13, XP007902577 *
JEAN-MARC JOT: "Real-time spatial processing of sounds for music, multimedia and interactive human-computer interfaces", MULTIMEDIA SYSTEMS, vol. 7, no. 1, 1 January 1999 (1999-01-01), pages 55 - 69, XP055116104, ISSN: 0942-4962, DOI: 10.1007/s005300050111 *
MERIMAA JUHA ET AL: "Spatial Impulse Response Rendering I: Analysis and Synthesis", JAES, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, vol. 53, no. 12, 1 December 2005 (2005-12-01), pages 1115 - 1127, XP040507491 *
SAVIOJA L ET AL: "CREATING INTERACTIVE VIRTUAL ACOUSTIC ENVIRONMENTS", JOURNAL OF THE AUDIO ENGINEERING SOCIETY, AUDIO ENGINEERING SOCIETY, NEW YORK, NY, US, vol. 47, no. 9, 1 September 1999 (1999-09-01), pages 675 - 705, XP000927390, ISSN: 1549-4950 *
STEWART REBECCA ET AL: "Generating a Spatial Average Reverberation Tail Across Multiple Impulse Responses", CONFERENCE: 35TH INTERNATIONAL CONFERENCE: AUDIO FOR GAMES; FEBRUARY 2009, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 1 February 2009 (2009-02-01), XP040509247 *

Also Published As

Publication number Publication date
JP6486351B2 (ja) 2019-03-20
WO2015011359A1 (fr) 2015-01-29
US20160174013A1 (en) 2016-06-16
US9848274B2 (en) 2017-12-19
EP3025514B1 (fr) 2019-09-11
CN105684465A (zh) 2016-06-15
KR20210008952A (ko) 2021-01-25
JP2016527815A (ja) 2016-09-08
CN105684465B (zh) 2018-06-12
KR102206572B1 (ko) 2021-01-22
KR20160034942A (ko) 2016-03-30
EP3025514A1 (fr) 2016-06-01
KR102310859B1 (ko) 2021-10-12
ES2754245T3 (es) 2020-04-16

Similar Documents

Publication Publication Date Title
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
EP1992198B1 (fr) Optimisation d'une spatialisation sonore binaurale a partir d'un encodage multicanal
EP1999998B1 (fr) Procede de synthese binaurale prenant en compte un effet de salle
JP5406956B2 (ja) オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
EP2319037B1 (fr) Reconstruction de données audio multicanal
EP2005420A1 (fr) Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal
FR2852779A1 (fr) Procede pour traiter un signal electrique de son
EP3025514B1 (fr) Spatialisation sonore avec effet de salle
EP3005362A1 (fr) Appareil et procédé permettant d'améliorer une perception d'un signal sonore
EP3400599B1 (fr) Encodeur ambisonique ameliore d'une source sonore a pluralite de reflexions
EP2009891B1 (fr) Transmission de signal audio dans un système de conférence audio immersive
Florencio et al. Maximum a posteriori estimation of room impulse responses
FR3065137A1 (fr) Procede de spatialisation sonore
EP1994526B1 (fr) Synthese et spatialisation sonores conjointes
EP3058564B1 (fr) Spatialisation sonore avec effet de salle, optimisee en complexite
CN116261086A (zh) 声音信号处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20160331