FR3060830A1 - Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne - Google Patents

Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne Download PDF

Info

Publication number
FR3060830A1
FR3060830A1 FR1663079A FR1663079A FR3060830A1 FR 3060830 A1 FR3060830 A1 FR 3060830A1 FR 1663079 A FR1663079 A FR 1663079A FR 1663079 A FR1663079 A FR 1663079A FR 3060830 A1 FR3060830 A1 FR 3060830A1
Authority
FR
France
Prior art keywords
ambisonic
matrix
sub
order
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1663079A
Other languages
English (en)
Inventor
Mathieu Baque
Alexandre Guerin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR1663079A priority Critical patent/FR3060830A1/fr
Priority to PCT/FR2017/053622 priority patent/WO2018115666A1/fr
Priority to ES17829231T priority patent/ES2834087T3/es
Priority to CN201780079018.7A priority patent/CN110301003B/zh
Priority to EP17829231.4A priority patent/EP3559947B1/fr
Priority to US16/471,371 priority patent/US10687164B2/en
Publication of FR3060830A1 publication Critical patent/FR3060830A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

L'invention vise un procédé mis en œuvre par des moyens informatiques, de traitement d'un contenu ambisonique comportant une pluralité de composantes ambisoniques d'une pluralité d'ordres définissant une succession de canaux ambisoniques dans chacun desquels est représentée une composante ambisonique, le procédé comportant : - un filtrage fréquentiel des composantes ambisoniques dans une pluralité de bandes de fréquences, - une élaboration d'une matrice (B) de décodage ambisonique, - un traitement de la matrice (B) de décodage ambisonique pour extraire, par réduction de dimension de matrice, une pluralité de sous-matrices (B1, B2) de décodage ambisonique chacune associée à un ordre ambisonique et à une bande de fréquences choisie pour cet ordre ambisonique, - des applications respectives des sous-matrices de décodage aux composantes ambisoniques dans chaque bande de fréquences choisie, et une reconstruction bandes-à-bandes des résultats desdites applications respectives, pour délivrer une pluralité de signaux décodés, associés chacun à une source sonore.

Description

© N° de publication : 3 060 830 (à n’utiliser que pour les commandes de reproduction)
©) N° d’enregistrement national : 16 63079 ® RÉPUBLIQUE FRANÇAISE
INSTITUT NATIONAL DE LA PROPRIÉTÉ INDUSTRIELLE
COURBEVOIE
©) Int Cl8 : G 10 L 19/008 (2017.01), H 04 S 3/00
DEMANDE DE BREVET D'INVENTION A1
©) Date de dépôt : 21.12.16. ©) Demandeur(s) : ORANGE Société anonyme — FR.
©) Priorité :
©) Inventeur(s) : BAQUE MATHIEU et GUERIN
ALEXANDRE.
(43) Date de mise à la disposition du public de la
demande : 22.06.18 Bulletin 18/25.
©) Liste des documents cités dans le rapport de
recherche préliminaire : Se reporter à la fin du
présent fascicule
(© Références à d’autres documents nationaux ©) Titulaire(s) : ORANGE Société anonyme.
apparentés :
©) Demande(s) d’extension : @) Mandataire(s) : CABINET PLASSERAUD.
AMBISONIQUE REEL POUR UN DECODAGE
FR 3 060 830 - A1
164) TRAITEMENT EN SOUS-BANDES D'UN CONTENU PERFECTIONNE.
©) L'invention vise un procédé mis en oeuvre par des moyens informatiques, de traitement d'un contenu ambisonique comportant une pluralité de composantes ambisoniques d'une pluralité d'ordres définissant une succession de canaux ambisoniques dans chacun desquels est représentée une composante ambisonique, le procédé comportant:
- un filtrage fréquentiel des composantes ambisoniques dans une pluralité de bandes de fréquences,
- une élaboration d'une matrice (B) de décodage ambisonique,
- un traitement de la matrice (B) de décodage ambisonique pour extraire, par réduction de dimension de matrice, une pluralité de sous-matrices (B1, B2) de décodage ambisonique chacune associée à un ordre ambisonique et à une bande de fréquences choisie pour cet ordre ambisonique,
- des applications respectives des sous-matrices de décodage aux composantes ambisoniques dans chaque bande de fréquences choisie, et une reconstruction bandesà-bandes des résultats desdites applications respectives, pour délivrer une pluralité de signaux décodés, associés chacun à une source sonore.
Figure FR3060830A1_D0001
Figure FR3060830A1_D0002
Traitement en sous-bandes d'un contenu ambisonique réel pour un décodage perfectionné
La présente invention se rapporte au domaine du traitement de signal audio ou acoustique, et plus particulièrement au traitement de contenus sonores multicanal réels au format ambiophonique (ou « ambisonique » ci-après).
La technique ambisonique consiste à exploiter dans chaque bande de fréquences un sous-ensemble de canaux qui possèdent des caractéristiques de directivité recherchées. A titre d'exemple d'application, on peut citer :
- La séparation de sources sonores :
o Pour le divertissement (karaoké : suppression de la voix), o Pour la musique (mixage des sources séparées dans un contenu multicanal), o Pour les télécommunications (rehaussement de la voix, débruitage), o Pour la domotique (commande vocale), o Le codage audio multicanal.
- Le décodage pour une diffusion multicanal :
Pour le cinéma,
Pour la musique,
Pour la réalité virtuelle.
L'ambisonie consiste en une projection du champ acoustique sur une base de fonctions harmoniques sphériques (base illustrée sur la figure 1), pour obtenir une représentation spatialisée de la scène sonore. La fonction Yfn (β,Φ) est l'harmonique sphérique d'ordre m et d'indice ησ, dépendant des coordonnées sphériques (0, φ), définie avec la formule suivante :
Cn (θ, Φ) = Ρτηηίεοεφ)· { cosn0 si σ = 1 sinn0 si σ = — 1 etn > 1 où Pmn(cos</)) est une fonction polaire impliquant le polynôme de Legendre :
Figure FR3060830A1_D0003
n (m+n)!
(—l)n(l - COS2 x)z ^Pm(x) avec e0 = 1 et e0 = 2 pour η > 1 etPm(x) =
2m. m! dxn (x2 - l)m
Dans la représentation de la figure 1, le premier « vecteur » de la base d'harmoniques sphériques (en haut de la figure 1) correspond à l'ordre m=0, les trois « vecteurs » dans la ligne suivante correspondent à l'ordre m=l (orientés suivant les trois directions de l'espace), etc.
En pratique, un encodage ambisonique réel se fait à partir d'un réseau de capteurs, généralement répartis sur une sphère, qui sont combinés pour synthétiser un contenu ambisonique dont les canaux respectent au mieux les directivités des harmoniques sphériques (comme illustré sur la figure 2). En référence à la figure 2, un microphone MIC comporte une pluralité de capsules piézoélectriques Cl, C2, ... qui reçoivent des ondes sonores selon différentes directions d'arrivée de l'espace. Une unité de traitement UT recevant les signaux issus de ces capsules réalise un encodage ambisonique à l'aide d'une matrice de filtres présentée ci-après, et délivre des signaux ambisoniques (formalisés dans une base d'harmoniques sphériques du type illustré sur la figure 1).
On décrit ci-après les principes de base de l'encodage ambisonique.
Le formalisme ambisonique, initialement limité à la représentation de fonctions harmoniques sphériques d'ordre 1, a par la suite été étendu aux ordres supérieurs. Le formalisme ambisonique avec un nombre de composantes plus important est communément nommé « Higher Order Ambisonics » (ou « HOA » ci-après).
A chaque ordre m correspondent 2m+l fonctions harmoniques sphériques, comme illustré sur la figure 1. Ainsi, un contenu d'ordre M contient un total de (M+l)2 canaux (4 canaux à l'ordre 1, 9 canaux à l'ordre 2, 16 canaux à l'ordre 3, et ainsi de suite).
On entend ci-après par « composantes ambisoniques » le signal ambisonique dans chaque canal ambisonique, en référence aux « composantes vectorielles » dans une base vectorielle qui serait formée par chaque fonction harmonique sphérique. Ainsi par exemple, on peut compter :
- une composante ambisonique pour l'ordre m=0,
- trois composantes ambisoniques pour l'ordre m=l,
- cinq composantes ambisoniques pour l'ordre m=2,
- sept composantes ambisoniques pour l'ordre m=3, etc.
Les signaux ambisoniques captés pour ces différentes composantes sont alors répartis sur un nombre N de canaux qui se déduit de l'ordre maximum m qu'il est prévu de capter dans la scène sonore. Par exemple, si une scène sonore est captée avec un microphone ambisonique à 20 capsules piézoélectriques, alors l'ordre ambisonique maximum capté est M=3, afin qu'il n'y ait pas plus de 20 canaux N=(M+1)2, le nombre de composantes ambisoniques considérées est 7+5+3+1 = 16 et le nombre N de canaux est N=16, donné par ailleurs par la relation N=(M+1)2, avec M=3.
La captation ambisonique x(t) d'ordre M et composée de N sources sonores s, d'incidence (¾ φι) se propageant en champ libre peut s'écrire alors mathématiquement sous la forme matricielle suivante :
%(t) = As(t) =
WMA)
Υμιι(Θν’Φν)s(t)
Où A est une matrice dite « matrice de mélange », de dimensions (M+l)2 x N et dont chaque colonne A, contient les coefficients de mélange de la source i.
Physiquement, cette matrice A correspond aux coefficients d'encodage de chaque source i, associés à chaque direction de chaque source i. Pour extraire les sources d'un tel contenu, il faut procéder à l'estimation d'une matrice B dite « matrice de séparation », inverse de la matrice A. Pour obtenir la matrice B, une étape de séparation aveugle de sources peut être mise en œuvre, par exemple en utilisant un algorithme d'analyse en composantes indépendantes (ou « ACI » ci-après), ou encore un algorithme d'analyse en composantes principales. La matrice B=A_1 permet l'extraction des sources par l'opération suivante :
s(t) = Bx(t)
Cette étape revient à faire de la formation de voies (ou « beamforming » ci-après), c'est-à-dire à combiner différents canaux ayant des directivités distinctes, afin de créer une nouvelle composante possédant la directivité souhaitée. Un exemple de beamforming pour extraire trois composantes, pour un contenu HOA d'ordre 2, 4 ou 6, est illustré figure 3. Plus l'ordre est élevé, plus le beamforming est directif et le nombre de composantes pouvant être extraites est élevé.
En pratique, la génération des signaux ambisoniques x(t)=As(t) passe par une étape intermédiaire de captation microphonique tel qu'illustré sur la figure 2, où les sources s(t) sont captées par les capsules du microphone MIC pour former les signaux pl, p2, p3... On formalise ensuite la matrice d'encodage microphonique E telle que x(t)=E.p(t), pour obtenir les composantes ambisoniques xl, x2, ..., xN (dans N canaux ambisoniques comme illustré sur la figure 4). En référence maintenant à la figure 4, on estime, comme présenté ci-avant, la matrice de décodage B inverse de la matrice A, pour déterminer les signaux de sources si, s2, s3 :
s(t) = Bx(t)
Pour décoder un contenu HOA sur un système de haut-parleurs, la démarche est similaire. On acquière des signaux ambisoniques dans N canaux xl, x2, ..., xN, mais, ici, au lieu de considérer s(t) comme la somme des contributions de sources, on considère s(t) comme la somme des signaux émis par un jeu de haut-parleurs (ce qui permet d'alimenter alors effectivement ces haut-parleurs avec les signaux si, s2, s3...). On formule donc ici la matrice de décodage B à partir des positions des hautparleurs d'un système de restitution sonore et on extrait les signaux destinés aux haut-parleurs selon le même procédé que celui utilisé pour la séparation de sources.
En réalité, les capteurs utilisés possèdent des limitations physiques qui entraînent une dégradation de l'encodage microphonique, et donc une dégradation de la directivité des composantes ambisoniques. Par exemple, l'encodage des hautes fréquences se dégrade lorsque l'espacement inter-capteurs devient approximativement plus grand qu'une demi-longueur d'onde : ceci est dû au phénomène de repliement spatial. En basses fréquences, les capsules microphoniques tendent à devenir omnidirectionnelles et il devient impossible d'obtenir les directivités recherchées. Plus précisément, les dégradations en basses fréquences sont plus marquées lorsqu'il s'agit de synthétiser des composantes ambisoniques d'ordre élevé. De manière générale, les directivités associées sont plus complexes et donc plus sensibles aux variations de propriétés des capteurs. La figure 5 illustre le degré de corrélation entre un encodage théorique et un encodage réel à partir d'un microphone sphérique à 32 capsules, en fonction de la fréquence et de l'ordre ambisonique. La figure 5 montre que le degré de corrélation le plus élevé est généralement atteint pour des fréquences comprises entre 1 kHz et 10 kHz. Néanmoins, pour les autres gammes de fréquences (excepté pour les ordres ambisoniques 0 et 1), l'extraction de sources ne conduirait pas toujours au même résultat pour un encodage théorique et pour un encodage réel de ces mêmes sources. Plus précisément, pour des fréquences en-dehors de l'intervalle [1 kHz-ΊΟ kHz], Les composantes extraites sont potentiellement dégradées.
La figure 6 montre la directivité réelle dans le plan horizontal des premières composantes des ordres 0, 1, 2 et 3 en fonction de la fréquence sonore. Il apparaît, sur la figure 6, que les composantes réelles ne sont pas convenablement encodées. En effet, si on prend l'exemple de la composante de l'ordre 0 à la fréquence de 10 kHz, on constate qu'elle n'est pas circulaire, contrairement à la composante théorique et à la même composante calculée aux fréquences entre 300 et 1000Hz. Ainsi, la directivité de cette composante à la fréquence de 10kHz n'est plus respectée, ce qui pourrait induire un rendu spatial dégradé. Par ailleurs, les composantes à l'ordre 1, 2 et 3 ont également des directivités biaisées pour des fréquences plus basses que 10 kHz.
Plus généralement, dès lors que la directivité théorique n'est plus respectée, le beamforming effectué ne permet plus d'extraire convenablement les composantes recherchées. Par exemple, cela se traduit par l'apparition d'interférences pendant la séparation des sources. Cela peut également se traduire par une dégradation du rendu spatial dans des bandes de fréquences concernées par une diffusion multicanal. Plus particulièrement, on constate une perte d'énergie en basses fréquences dans les ordres élevés pendant l'encodage. Cela induit que les sources extraites grâce à des canaux d'ordres élevés peuvent perdre une partie de leur énergie dans les fréquences concernées.
L'utilisation du beamforming pour la séparation de sources ou la restitution d'un contenu ambisonique idéal ou d'une captation multicanal est déjà utilisée notamment pour la séparation, ou encore pour le décodage multicanal. Pour la séparation de sources, une inversion de la matrice de mélange estimée par analyse en composantes indépendantes est utilisée pour extraire les sources. Pour le décodage multicanal, la matrice des coefficients ambisoniques relatifs aux haut-parleurs peut être inversée. En revanche, le traitement d'un contenu ambisonique réel, affecté par les limitations physiques du système d'enregistrement, n'est pas abordé dans l'art antérieur. La seule solution proposée actuellement est de limiter la bande-passante totale des sources extraites, ce qui n'est pas satisfaisant.
La présente invention vient améliorer cette situation.
Elle propose à cet effet un procédé, mis en œuvre par des moyens informatiques, de traitement d'un contenu ambisonique comportant une pluralité de composantes ambisoniques d'une pluralité d'ordres définissant une succession de canaux ambisoniques dans chacun desquels est représentée une composante ambisonique, le procédé comportant :
- un filtrage fréquentiel des composantes ambisoniques dans une pluralité de bandes de fréquences,
- une élaboration d'une matrice de décodage ambisonique,
- un traitement de la matrice de décodage ambisonique pour extraire, par réduction de dimension de matrice, une pluralité de sous-matrices de décodage ambisonique chacune associée à un ordre ambisonique et à une bande de fréquences choisie pour cet ordre ambisonique, des applications respectives des sous-matrices de décodage aux composantes ambisoniques dans chaque bande de fréquences choisie, et une reconstruction bandes-àbandes des résultats desdites applications respectives, pour délivrer une pluralité de signaux décodés, associés chacun à une source sonore.
On entend ici par « source sonore » aussi bien :
- une source sonore effectivement identifiée et localisée dans l'espace tridimensionnel (en technique d'extraction de source), auquel cas la matrice de décodage est une matrice de séparation de sources, ou
- un haut-parleur parmi plusieurs haut-parleurs, de position bien identifiée dans l'espace, et alimenté en particulier par l'un des signaux décodés précités.
L'élaboration de sous-matrices de décodage ambisonique pour chaque bande de fréquences, et pour chaque ordre ambisonique, permet de tirer parti dans chaque bande de fréquences d'un nombre maximum de canaux ambisoniques qui sont réellement valides dans chaque sous-matrice, afin de restituer un signal décodé peu ou pas dégradé.
Selon une réalisation, chaque sous-matrice de décodage ambisonique est associée à une bande de fréquences choisie en fonction d'un critère de validité des composantes ambisoniques de l'ordre auquel est associée ladite sous-matrice, dans ladite bande de fréquences choisie.
Une telle réalisation permet d'isoler les composantes ambisoniques constituant chaque ordre, afin de les traiter dans la plage de fréquences dans laquelle elles sont valides. Par « valides », on entend un respect de la représentation ambisonique théorique, comme par exemple l'ordre m=4 dans la bande de fréquences 4000 à 6000 Hz dans l'exemple de la figure 5, ou encore l'ordre m=3 dans la bande de fréquences 2000 à 9000 Hz.
Ainsi, dans une réalisation, le critère de validité des composantes peut être défini par des conditions de captation desdites composantes ambisoniques, par au moins un microphone ambisonique.
Dans cette réalisation par exemple, le procédé peut comprendre en outre :
- une réception de données d'au moins un microphone ambisonique utilisé pour capter lesdites composantes ambisoniques ;
- une détermination des bandes de fréquences choisies pour construire lesdites sousmatrices, en fonction desdites données de microphone ambisonique.
La connaissance des données du microphone ambisonique utilisé pour la captation ambisonique permet d'affiner la détermination des bandes de fréquences choisies pour l'élaboration des sousmatrices. En effet, le traitement ambisonique est fait sur des sous-matrices dont les composantes ambisoniques répondent strictement au critère de validité dans les bandes de fréquences associées.
Toutefois, les données du microphone ambisonique utilisé pour la captation ne sont pas toujours accessibles. En variante, on peut donc prévoir la détermination des bandes de fréquences à l'aide d'un abaque préalablement établi à partir de mesures effectuées sur une pluralité de microphones ambisoniques, afin d'établir des plages de fréquences « moyennes », associées à un ordre ambisonique, dans lesquelles les composantes ambisoniques de chaque ordre ambisonique répondent généralement au critère de validité précité.
Ainsi, selon une réalisation, chaque sous-matrice de décodage ambisonique étant associée à un ordre ambisonique et à une bande de fréquences choisie pour cet ordre ambisonique, une bande de fréquences peut être choisie dans une plage de 100Hz à 10kHz pour l'ordre ambisonique m=l, une bande de fréquences peut être choisie dans une plage de 500Hz à 10kHz pour l'ordre ambisonique m=2, une bande de fréquences peut être choisie dans une plage de 2000Hz à 9000Hz pour l'ordre ambisonique m=3, une bande de fréquences peut être choisie dans une plage de 3000Hz à 7000Hz pour l'ordre ambisonique m=4.
Ainsi, il s'avère qu'il est possible de définir un critère de validité sur la base de valeurs moyennes des bandes de fréquence pour chaque ordre ambisonique, même si les données du microphone ambisonique utilisé pour la captation de composantes ambisoniques sont inaccessibles.
Selon une réalisation particulière, le traitement de la matrice de décodage ambisonique comporte :
- une inversion de la matrice élaborée de décodage ambisonique, pour obtenir une matrice de mélange dont :
* les lignes correspondent à des canaux ambisoniques respectifs, et * les colonnes correspondant à des sources sonores,
- un traitement de la matrice de mélange pour extraire, par réduction de dimension de matrice, une pluralité de sous-matrices de mélange chacune associée à un ordre ambisonique et à une bande de fréquences choisie, et
- une inversion des sous-matrices de mélange pour obtenir respectivement lesdites sous-matrices de décodage ambisonique.
On comprend ainsi qu'un filtrage fréquentiel des composantes d'ordre m=4 entre 4000 à 6000 Hz, dans l'exemple de la figure 5, permet de construire une sous-matrice, en particulier de mélange (matrice notée A ci-avant), à N=(m+l)z=25 lignes, en retenant les 25 premiers canaux ambisoniques. Néanmoins, à cet effet, il est préférable que le signal ambisonique soit suffisamment représenté dans cette bande de fréquences 4-6 kHz, comme on le verra plus loin. Par ailleurs, si le signal ambisonique est bien représenté aussi dans les basses fréquences, par exemple entre 100 et 200Hz, on peut construire en outre une sous-matrice pour l'ordre m=l par exemple, à N=4 lignes. On peut donc obtenir finalement une pluralité de sous-matrices de mélange, chacune associée à un ordre ambisonique m, et comportant chacune un nombre de lignes correspondant à un nombre de canaux ambisoniques valides pour cet ordre m et dans la bande de fréquences à laquelle cette sous-matrice est associée.
Dans une réalisation, le traitement du contenu ambisonique est mené pour une séparation de source et ladite matrice de décodage est une matrice de séparation aveugle de sources élaborée à partir des composantes ambisoniques.
Par exemple, la matrice de séparation peut être élaborée à partir des composantes ambisoniques filtrées à une bande de fréquences choisie et préférentiellement dans laquelle le nombre de canaux ambisoniques valides selon le critère précité est maximum.
Ainsi, les canaux sont retenus pour une exactitude de représentation à un tel ordre ambisonique le plus élevé, mais aussi pour conserver un maximum de canaux représentés correctement dans cette bande de fréquences, à des ordres ambisoniques moins élevés.
Dans cette réalisation, on peut simplifier des sous-matrices de mélange avant leur inversion, par réduction d'un nombre de colonnes de chaque sous-matrice, les colonnes restantes des sousmatrices étant choisies de manière à conserver des signaux de plus grandes énergies après application des sous-matrices de décodage.
En effet, conserver les signaux de plus grande énergie permet de mieux représenter, et donc de mieux restituer, le champ sonore.
En complément ou en variante, on peut choisir de privilégier des signaux extraits les plus décorrélés, ou les plus indépendants suivant un critère d'indépendance choisi.
Ainsi, dans cette réalisation, on simplifie des sous-matrices de mélange avant leur inversion, par réduction d'un nombre de colonnes de chaque sous-matrice, les colonnes restantes des sous3060830 matrices étant choisies de manière à conserver des signaux les moins corrélés après application des sous-matrices de décodage.
Par ailleurs, dans un environnement réverbérant, le signal est constitué des champs directs issus de la propagation équivalente « champ libre » de chaque source et de réflexions sur des parois de l'environnement acoustique. Ainsi, dans une réalisation alternative ou complémentaire, on simplifie des sous-matrices de mélange avant leur inversion, par réduction d'un nombre de colonnes de chaque sous-matrice, les colonnes restantes des sous-matrices étant choisies de manière à conserver des signaux correspondant à des champs sonores directs après application des sous-matrices de décodage.
Bien entendu, dans une réalisation où le traitement du contenu ambisonique est mené pour une restitution ambisonique sur une pluralité de haut-parleurs, la matrice de décodage précitée peut être une matrice inverse de positions spatiales relatives des haut-parleurs.
Dans une réalisation illustrée plus loin en référence à la figure 9, le procédé comprend en particulier, pour un contenu ambisonique décomposé en sous-bandes de fréquences, une application de sousmatrices de décodage, obtenues par :
- Pour chaque ordre ambisonique du contenu, une détermination d'une bande de fréquences sur laquelle ledit ordre respecte un critère de validité prédéterminé d'encodage ambisonique,
- Sur la base desdites bandes de fréquences, une application d'un banc de filtres au contenu ambisonique pour produire une pluralité de signaux en sous-bandes, de dimensions variables correspondant à des canaux ambisoniques valides dans cette sous-bande,
- Une détermination d'une matrice de décodage de taille maximale dans la bande de fréquence de l'ordre ambisonique maximal et d'une matrice de mélange associée, inverse ou pseudo-inverse de ladite matrice de décodage,
- Pour chaque autre bande de fréquences, une détermination d'une matrice de mélange de taille réduite, sous-matrice de ladite matrice de mélange, et d'une sous-matrice de séparation, inverse ou pseudo-inverse de ladite sous-matrice de mélange,
- Une reconstruction des signaux séparés pleine-bande par application d'un banc de filtre de synthèse aux signaux séparés issus de la multiplication desdits signaux par lesdites matrices.
La présente invention vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé lorsque ce programme est exécuté par un processeur. Un exemple ίο d'ordinogramme de l'algorithme général d'un tel programme est illustré sur la figure 7 commentée ci-après, laquelle est précisée dans les figures 8 et 9.
La présente invention vise aussi un dispositif informatique comportant :
- une interface d'entrée pour recevoir des signaux de composantes ambisoniques,
- une interface de sortie pour délivrer des signaux décodés, associés chacun à une source sonore,
- et un programme informatique pour la mise en œuvre du procédé.
Un exemple d'un tel dispositif est illustré sur la figure 10 commentée plus loin.
La présente invention propose ainsi d'utiliser la formation de voies à partir d'un encodage ambisonique réel en tirant parti, dans chaque bande de fréquences, de tous les canaux dont la directivité respecte le formalisme ambisonique. Une forme de réalisation présentée ci-avant permet alors de déterminer une ou plusieurs matrices de mélange Ak, correspondant à des sous-matrices obtenues à partir de la matrice théorique A, et formulées chacune dans une bande de fréquences, puis inversée pour donner des matrices de décodage Bk.
Ainsi, l'invention offre un traitement générique d'un contenu ambisonique quelconque, et notamment réel, possiblement affecté par des limitations physiques d'un système d'enregistrement, et ce sans aucune contrainte visant à limiter la bande-passante totale des sources extraites.
D'autres avantages et caractéristiques de l'invention apparaîtront à la lecture de la description détaillée ci-après d'exemples de réalisation de l'invention, et à l'examen des dessins annexés sur lesquels :
- la figure 1 illustre une base de fonctions harmoniques sphériques d'ordre 0 (première ligne) à 3 (dernière ligne), avec en gris clair les valeurs positives, et en gris foncé les valeurs négatives,
- la figure 2 illustre un système d'encodage ambisonique à partir d'un microphone sphérique,
- la figure 3 illustre la formation de voies pour l'extraction de trois composantes, pour différents ordres ambisoniques,
- la figure 4 illustre très schématiquement un système de décodage ambisonique à partir de composantes ambisoniques,
- la figure 5 illustre la corrélation entre un encodage ambisonique idéal et un encodage réel,
-la figure 6 illustre la directivité dans le plan horizontal, mesurée pour un encodage ambisonique réel (avec de gauche à droite successivement les composantes des ordres 0, 1, 2 et 3),
- la figure 7 illustre les principales étapes d'un exemple de procédé au sens de l'invention,
- la figure 8 illustre les étapes d'un mode de réalisation particulier du procédé selon l'invention,
- la figure 9 est un schéma-bloc d'un algorithme de traitement correspondant au mode de réalisation illustré sur la figure 7, et
- la figure 10 illustre schématiquement un dispositif possible pour la mise en œuvre de l'invention.
Le schéma d'ensemble d'un procédé de traitement ambisonique global au sens de l'invention est présenté figure 7. Il s'agit par exemple d'un procédé de décodage ambisonique. On entend par les termes « décodage ambisonique » aussi bien la fourniture de signaux décodés par exemple destinés à alimenter des haut-parleurs respectifs pour une restitution ambiophonique, qu'une fourniture, de façon plus générale, de signaux associés chacun à une source sonore, notamment dans la technique de séparation de sources.
A l'étape SI, on dispose d'un contenu ambisonique x(t) comprenant une pluralité de composantes ambisoniques CA, d'ordres successifs m=0, 1, ..., M (avec par exemple M=4) et, issu d'un enregistrement, ou d'une « captation », par au moins un microphone ambisonique MIC. Un microphone ambisonique est un microphone composé d'une pluralité de capsules microphoniques généralement réparties de manière sphérique et de manière la plus régulière possible. Ces capsules jouent le rôle de capteurs de signaux sonores. Les capsules microphoniques sont agencées sur le microphone ambisonique de manière à capter des signaux sonores selon leur directivité dans l'espace. Comme illustré sur la figure 5, l'ensemble des capsules formant un tel microphone ambisonique peut acquérir différentes composantes ambisoniques à des ordres ambisoniques jusqu'à M, mais l'exactitude de la représentation ambisonique pour ces différents ordres n'est pas réellement respectée pour toutes les fréquences du spectre audio entre 0 et 20kHz. Néanmoins, l'invention propose ici d'isoler certaines fréquences du spectre pour lesquelles les composantes ambisoniques, pour des ordres donnés, sont exactes (comme par exemple dans la plage de fréquences entre 4000 et 6000Hz pour l'ordre m=4 sur la figure 5, ou plus largement la plage entre 2000Hz et 9000 Hz pour l'ordre m=3, etc.).
Néanmoins, les variations fréquentielles de l'exactitude de représentation ambisonique de chaque ordre de la figure 5 sont obtenues pour un microphone particulier ayant des dimensions et un nombre donné de capsules. Ainsi, pour un autre microphone, d'autres variations spectrales peuvent être attendues.
L'étape S2 vise donc à récupérer les données caractérisant le microphone ambisonique MIC (et éventuellement les conditions de captation du contenu ambisonique c(t), et/ou encore les conditions de réverbération pendant la captation, ou autres).
Plus généralement, une donnée caractérisante du microphone ambisonique MIC peut être l'espacement inter-capsules. En effet, l'encodage des hautes fréquences se dégrade lorsque l'espacement inter-capteurs devient plus grand qu'une demi-longueur d'onde. Ceci est dû au phénomène de repliement spatial (ou « aliasing »). A l'inverse, pour un signal basse fréquence, des capsules microphoniques trop rapprochées ne peuvent générer la directivité souhaitée.
A l'étape S3, on peut appliquer un banc de filtre d'analyse BFA au contenu ambisonique x(t) afin de sélectionner ensuite, à l'étape S31, des signaux de composantes ambisoniques filtrés dans des plages de fréquences dans lesquelles la représentation ambisonique pour un ordre donné m est la plus exacte (respectant ainsi un « critère de validité » de la représentation ambisonique), et ce en fonction des données du microphone définies ci-dessus.
En fonction du type de traitement appliqué au contenu ambisonique x(t), entre un traitement de séparation de sources SAS ou un traitement en vue d'une restitution sur haut-parleurs RES, l'étape S4 vise l'obtention d'une matrice de décodage B, en fonction du type de traitement choisi. Dans le cas d'une restitution ambisonique sur haut-parleurs, la matrice de décodage B est l'inverse d'une matrice A contenant des coefficients propres à des positions spatiales de haut-parleurs utilisés pour la restitution.
Dans le cas d'une séparation de sources, la matrice de décodage B est élaborée initialement à l'étape S4 en vue d'un traitement de séparation aveugle de sources à partir des composantes ambisoniques filtrées et sélectionnées. Plus particulièrement, cette matrice de décodage B est élaborée pour la bande de fréquences contenant le plus grand nombre de canaux ambisoniques valides (et le plus grand ordre susceptible d'être obtenu M).
La détermination des bandes de fréquences de validité des différents ordres ambisoniques peut être adaptée au microphone ambisonique ayant servi à la captation des composantes ambisoniques à décoder. Pour ce faire, il est possible par exemple de se baser sur les variations fréquentielles de l'exactitude de la représentation ambisonique pour différents ordres m, du type illustré sur la figure
5.
Plus généralement, il peut être déterminé encore une allure « moyenne » des variations fréquentielles de l'exactitude de la représentation ambisonique pour les différents ordres m pour différents modèles de microphones ambisoniques, et se servir de ces allures moyennes si ces données ne sont pas disponibles, au décodage.
A l'étape S7, on détermine au moins deux matrices Bl, B2, issues d'une réduction matricielle de la matrice de décodage B pour chaque sous-bande de fréquences (dans l'exemple illustré les sousbandes de fréquences fl et f2). Un exemple de réalisation plus précis de cette réduction matricielle sera décrit plus loin en référence à la figure 8. Puis, à l'étape S8, on effectue le produit de chaque matrice Bl et B2 obtenues à l'étape précédente par les signaux ambisoniques filtrés dans les sousbandes fl, f2 correspondantes. On obtient ainsi, dans chaque sous-bande k (k=l,2), un ensemble de signaux extraits sk.
A l'étape S9, on combine les vecteurs de signaux extraits si (1 pour k=l) et s2 (2 pour k=2) afin d'obtenir les signaux reconstruits pleine bande (par application par exemple d'un banc de filtre de synthèse).
La figure 8 illustre les étapes d'un mode de réalisation particulier du procédé selon l'invention. Plus précisément, la figure 8 présente des étapes du procédé qui peuvent être mises en œuvre entre les étapes S4 et S7 de la figure 7.
A l'étape S4, comme décrit ci-dessus, on obtient la matrice de décodage B définie plus haut. A l'étape S5 on peut effectuer une inversion de cette matrice de décodage B (ou de façon équivalente, une détermination de sa pseudo-inverse) afin d'obtenir la matrice de mélange A correspondante (étape S51). Dans le cas d'une séparation de sources, la matrice de mélange A peut ainsi contenir des coefficients relatifs à des positions respectives de sources sonores à extraire. Dans le cas d'une restitution sur haut-parleurs, la matrice de mélange A peut contenir des coefficients relatifs à la position des haut-parleurs sur lesquels on souhaite restituer les signaux décodés. Plus précisément, les lignes de la matrice de mélange A correspondent aux canaux ambisoniques successifs (définissant successivement les ordres m=0 à m=M, où M est l'ordre ambisonique maximum disponible) et ses colonnes correspondent aux sources ou aux haut-parleurs.
A l'étape S6, on peut effectuer une diminution des dimensions de la matrice de mélange A, pour obtenir des sous-matrices Al, A2. Il s'agit d'une réduction matricielle dont le nombre de lignes correspond aux nombres de canaux ambisoniques pour chaque ordre. Typiquement, si les signaux ambisoniques sont bien encodés dans la bande de 100 à 1000Hz, où l'ordre m=l est bien respecté (au moins pour le microphone ambisonique de la figure 5), il est extrait déjà de la matrice A une sous-matrice Al à N=4 lignes associée à l'ordre m=l et à la bande de fréquences 100-1000Hz. Ensuite, si les signaux ambisoniques sont bien représentés dans la bande de 1000 à 10 000Hz, où l'ordre m=2 est bien respecté, il est extrait ensuite de la matrice A une matrice A2 à N=9 lignes et associée à l'ordre m=2 et à la bande de fréquences 1000-10 000Hz, et ainsi de suite. Le nombre de sous-matrices dépend ainsi de l'ordre du contenu ambisonique x(t) dont les composantes sont retenues comme valides à l'étape S31. Chaque sous-matrice correspond alors à une bande de fréquences, et peut ainsi contenir un nombre de lignes correspondant au nombre de canaux valides pour cette bande de fréquences. Plus précisément, comme illustré sur la figure 8, pour chaque sousbande, on identifie le nombre de canaux valides correspondant. Par exemple, pour une sous-bande fl choisie pour l'ordre m=l du contenu ambisonique x(t), on extrait une matrice Al comportant quatre lignes (Nl=(m+1)2) correspondant aux quatre canaux ambisoniques à l'ordre 1, et le nombre de « sources » (sources à extraire ou haut-parleurs) en colonnes. Comme illustré sur la figure 8, les quatre lignes retenues pour la construction de la sous-matrice Al sont les coefficients de la matrice initiale globale A :
-Cil, C12, C13,
-C21, C22, C23,
-C31, C32, C33, et
- C41, C42, C43.
Concernant la sous-matrice A2, ces lignes de la matrice globale A peuvent être reprises, ainsi que les suivantes, jusqu'à la ligne :
-C91, C92, C93.
Pour la matrice de mélange A2, correspondant à l'ordre 2 du contenu ambisonique x(t), et donc à la sous-bande f2, on conserve donc neuf lignes, correspondant aux neuf canaux de l'ordre 2, et le nombre de sources à extraire en colonnes.
Chaque sous-matrice de mélange ainsi obtenue est de dimension N x Ntarget, avec Ntarget le nombre de sources issues de la séparation de sources aveugle ou le nombre de haut-parleurs prévus pour une restitution.
Dans le cas d'une restitution sur haut-parleurs, le nombre de haut-parleurs est préférentiellement égal ou supérieur au nombre de lignes. Par exemple, pour la matrice de mélange Al de quatre lignes, on peut ne conserver qu'un jeu de quatre colonnes. Dans le cas d'une séparation de sources, le nombre de colonnes peut être inférieur ou égal au nombre de lignes. Par exemple, pour la matrice de mélange Al de quatre lignes, on peut supprimer des colonnes et garder par exemple des sources dont les signaux sont de plus grandes énergies et/ou celles qui sont les moins corrélés (sources les moins « mélangées » possibles) et/ou les signaux correspondent au champ direct des sources, ou autres.
A l'étape S71 on effectue une inversion de chaque sous-matrice de mélange Al, A2 afin d'obtenir respectivement les sous-matrices de décodage Bl, B2 présentées plus haut (étape S7). Le passage par la matrice de mélange A permet en particulier de conserver des niveaux satisfaisants d'énergie des composantes ambisoniques liées à chaque ordre, malgré les réductions matricielles. En d'autres termes, les étapes S5 à S71 permettent « d'affiner » le décodage du contenu ambisonique x(t).
La figure 9 est un schéma-bloc d'un algorithme de traitement correspondant au mode de réalisation illustré sur les figures 7 et 8. On a repris les mêmes références d'étapes SI, S2, etc., pour désigner des étapes identiques ou similaires et présentées ci-avant en référence aux figures 7 et 8.
On nomme « canaux » les signaux microphoniques ambisoniques et « sources » les signaux à extraire (sources effectivement à extraire ou les signaux d'alimentation des haut-parleurs). A l'étape SI, on dispose d'un contenu ambisonique x(t) d'ordre M, comprenant une pluralité de canaux ambisoniques N enregistrés à traiter. De manière générale, le nombre de canaux ambisoniques enregistrés est égale à N=(M+1)2. A l'étape S2, on dispose des données relatives à la captation ambisonique du contenu x(t) (données relatives au microphone ambisonique MIC utilisé, etc.).
Connaissant les limites de validité de l'encodage microphonique, on détermine une bande de fréquences pour chaque ordre ambisonique. Un banc de filtre permettant une reconstruction est appliqué aux N canaux ambisoniques à l'étape S3, pour donner K sous-bandes notées xk. Les sousbandes sont choisies pour correspondre aux différentes plages de validité de l'encodage microphonique.
Dans une réalisation particulière à l'étape S4A illustrée en trait plein, on utilise une matrice B de séparation de sources élaborée en fonction des composantes ambisoniques filtrées en fréquence (flèche de dessus venant sur le rectangle S4A). Plus particulièrement, une méthode de séparation aveugle de sources est appliquée dans la sous-bande contenant le plus de canaux valides, pour obtenir une matrice de séparation B de dimensions Ntarget x N, Ntarget étant le nombre de sources obtenues par la méthode de séparation aveugle dans la sous-bande de fréquences choisie.
Les canaux valides sont déterminés à partir d'un critère de validité relatif à chaque ordre du contenu ambisonique x(t) en fonction de chaque bande de fréquences du banc de filtres. Plus généralement, afin de maximiser la qualité de la séparation de sources, on choisit une bande de fréquences comprenant le plus de composantes ambisoniques valides. On entend par « valides » des composantes dont les critères énergétiques ou la directivité n'ont pas été biaisés lors de la captation ambisonique, comme présenté ci-avant en référence à la figure 5. La validité de chaque ordre dans des bandes de fréquences du domaine audio peut être établie en connaissant les limites du microphone ambisonique utilisé lors de la captation du contenu ambisonique x(t), ou encore à l'aide d'un abaque établi sur la base de mesures effectuées sur une pluralité de microphones ambisoniques, permettant de réaliser une moyenne de la validité de chaque ordre ambisonique dans chaque bande de fréquences.
Par exemple, les canaux ambisoniques d'ordre 1 ont tendance à être valides dans une bande de fréquences allant de 100HZ à environ 10kHz. La bande de fréquences dans laquelle les canaux ambisoniques d'ordre 2 peuvent être plus généralement valides peut par exemple aller de 1kHz à 9kHz, etc.
Dans une réalisation variante en vue d'une restitution d'une scène sonore sur plusieurs haut-parleurs (plus de deux en général), à l'étape S4B (illustrée par les traits en pointillés sur la figure 9, pour désigner cette variante), la matrice de décodage est construite en fonction de la position des hautparleurs sur lesquels le contenu doit être restitué. Plus exactement, cette matrice B de décodage correspond à l'inverse d'une matrice de mélange A qui est définie par les positions spatiales respectives des haut-parleurs.
En revenant au traitement général (pour une restitution ou pour une séparation de sources), à l'étape S5, la matrice de mélange « théorique » A (pour les deux variantes précitées) est construite par inversion de B. Pour la séparation de sources, la matrice de mélange est composée de N lignes et de Ntarget colonnes, la ième colonne contenant les coefficients harmoniques sphériques, relatifs aux coordonnées (0ί; φι) de la source s,. Ci-dessous se trouve un exemple de matrice de mélange A dans le cas d'une séparation de sources pour un contenu ambisonique d'ordre 2 composé de cinq sources :
9x5
Sj S2 s3
1 1
ZMn η\(2) uom — .<(1)
J- Ordre 0
Ordre 1
Ordre 2
U2(5)
Pour la diffusion sur haut-parleurs, A est composée de N lignes et d'un minimum de N colonnes, la ième colonne contenant les coefficients harmoniques sphériques, relatifs aux coordonnées (0j, φι) du haut-parleur i.
A l'étape S6, et pour chaque sous-bande k, une sous-matrice de mélange Ak est construite, telle que Ak est une version tronquée de la matrice A, en ne conservant que les Nk lignes correspondant aux canaux effectivement valides dans cette sous-bande k.
Pour la séparation de sources, si Nk est inférieur au nombre de sources Ntarget recherchées dans la sous-bande, on ne conserve qu'un jeu de Ntarget,k, colonnes (avec Ntarget,k inférieur ou égal à Nk), choisies suivant des critères énergétiques (par exemple en séparant les sources ayant la plus grande contribution) ou suivant d'autres critères d'intérêt tels que définis précédemment. La matrice Ak a ainsi pour dimensions Nkx Ntarget,k, avec Ntarget,k = min(Nk, Ntarget) par exemple. Ci-dessous se trouve un exemple d'une matrice Ak(4x4) tronquée à l'ordre 1 ambisonique :
Composantes conservées ftt
9x5
1 5, s2 S3 s4 i
1 1 1 1
tflU) îïi(2) /1.(3) >»(4)
’Üo
-^(D
y/i(5)
U2(5)
J- Ordre 0
Ordre 1 rQtarei valide non valide
Pour la restitution sur haut-parleurs, un jeu de Nk haut-parleurs est sélectionné pour la restitution, et Ak a donc pour dimensions Nk x Nk.
A l'étape S7, la matrice Ak est inversée pour donner Bk. Lorsque la sous-matrice Ak n'est pas une matrice carrée, une infinité de possibilités existe pour l'inversion. Une pseudo-inversion peut être appliquée, ou encore une inversion en appliquant des contraintes supplémentaires (par exemple choix de la solution donnant le beamforming le plus directif, ou minimisant les lobes secondaires).
De manière générale, on entend par « inversion de matrice », aussi bien une inversion classique de matrice, qu'une pseudo-inversion comme présenté ci-avant.
Puis, à l'étape S8, Bk est appliquée à la sous-bande xk pour obtenir les signaux sk tels que sk = Bk. xk
Une fois que des sources ont été extraites dans chaque sous-bande, les signaux pleine-bande correspondants sont reconstruits par un filtre de synthèse à partir des signaux de sous-bandes de même direction, à l'étape S9.
Ci-dessous, un exemple de mise en œuvre du procédé selon un mode de réalisation particulier de l'invention est décrit à titre d'exemple.
On dispose d'un contenu ambisonique d'ordre 2 (9 canaux) échantillonné à 16kHz, noté x(t) constitué de 3 sources que l'on veut extraire. L'encodage ambisonique aux ordres 0 et 1 est valide entre 200Hz et 8000Hz. L'encodage de l'ordre 2 est valide entre 900Hz et 8000Hz.
Un banc de filtre est implémenté, constitué de deux bandes de fréquences, 200Hz-900Hz (jusqu'à l'ordre 1) et 900Hz-8000Hz (utilisation de l'ordre 2)
Le banc de filtre est appliqué à x(t), pour former xl(t) et x2(t). xl(t) est constitué de 4 canaux (ambisonie d'ordre 1) et x2(t) contient 9 canaux (ambisonie d'ordre 2).
Une matrice de séparation B de dimensions 3x9 est estimée par analyse en composantes indépendantes effectuée dans la sous-bande 900Hz-8000Hz c'est-à-dire x2(t).
Une matrice de mélange théorique A, de dimensions 9x3, est déduite par inversion de B, chaque colonne i contenant les coefficients harmoniques sphériques de la source i.
Dans le même temps, les matrices Al et A2 sont calculées à partir de A pour extraire les sources dans chaque sous-bande :
- Al contient uniquement les coefficients jusqu'à l'ordre 1 pour les trois sources, soit : Al= A (les quatre premières lignes, les trois premières colonnes),
- A2 contient les coefficients relatifs aux neufs canaux pour les trois sources, on a donc : A2=A
Al et A2 sont inversées pour former les matrices de séparation B1 et B2.
Les trois sources sont extraites dans chaque sous-bande d'indices respectifs 1 et 2:
sl=Bl.xl et s2=B2.x2
Puis, les sources pleine-bande sont reconstituées par application du filtre de synthèse aux signaux en sous-bandes si et s2, par exemple par sommation bandes à bandes (si le banc de filtres d'analyse a opéré en bande de base) :
s= si + s2
En référence à la figure 10, la présente invention vise en outre un dispositif DIS pour la mise en oeuvre de l'invention. Ce dispositif DIS peut comporter une interface d'entrée IN pour recevoir des signaux ambisoniques x(t). Le dispositif DIS peut comprendre une mémoire MEM pour stocker des instructions d'un programme informatique au sens de l'invention. Les instructions du programme informatique sont des instructions de traitement des signaux ambisoniques x(t). Elles sont mises en oeuvre par un processeur PROC, afin de délivrer, via une interface de sortie OUT, des signaux décodés s(t).
Bien entendu, la présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.
Typiquement, les plages de fréquences pour lesquelles la représentation ambisonique est valide sont données ci-avant à titre d'exemple et peuvent différer selon la nature du ou des microphones ambisoniques utilisés pour la captation, voire des conditions de captation elles-mêmes.

Claims (16)

  1. Revendications
    1. Procédé, mis en oeuvre par des moyens informatiques, de traitement d'un contenu ambisonique comportant une pluralité de composantes ambisoniques d'une pluralité d'ordres définissant une succession de canaux ambisoniques dans chacun desquels est représentée une composante ambisonique, le procédé comportant :
    - un filtrage fréquentiel des composantes ambisoniques dans une pluralité de bandes de fréquences,
    - une élaboration d'une matrice (B) de décodage ambisonique,
    - un traitement de la matrice (B) de décodage ambisonique pour extraire, par réduction de dimension de matrice, une pluralité de sous-matrices (Bl, B2) de décodage ambisonique chacune associée à un ordre ambisonique et à une bande de fréquences choisie pour cet ordre ambisonique, des applications respectives des sous-matrices de décodage aux composantes ambisoniques dans chaque bande de fréquences choisie, et une reconstruction bandes-àbandes des résultats desdites applications respectives, pour délivrer une pluralité de signaux décodés, associés chacun à une source sonore.
  2. 2. Procédé selon la revendication 1, dans lequel chaque sous-matrice est associée à une bande de fréquences choisie en fonction d'un critère de validité des composantes ambisoniques de l'ordre auquel est associée ladite sous-matrice, dans ladite bande de fréquence choisie.
  3. 3. Procédé selon la revendication 2, dans lequel le critère de validité des composantes est défini par des conditions de captation desdites composantes ambisoniques, par au moins un microphone ambisonique.
  4. 4. Procédé selon la revendication 3, comportant :
    - une réception de données d'au moins un microphone ambisonique utilisé pour capter lesdites composantes ambisoniques ;
    - une détermination des bandes de fréquences choisies pour construire lesdites sousmatrices (Bl, B2), en fonction desdites données de microphone ambisonique.
  5. 5. Procédé selon l'une des revendications précédentes, dans lequel, chaque sous-matrice de décodage ambisonique (Bl, B2) étant associée à un ordre ambisonique et à une bande de fréquences choisie pour cet ordre ambisonique, une bande de fréquences est choisie dans une plage de 100Hz à 10kHz pour l'ordre ambisonique m=l, une bande de fréquences est choisie dans une plage de 500Hz à 10kHz est choisie pour l'ordre ambisonique m=2, une bande de fréquences est choisie dans une plage de 2000Hz à 9000Hz est choisie pour l'ordre ambisonique m=3, une bande de fréquences est choisie dans une plage de 3000Hz à 7000Hz est choisie pour l'ordre ambisonique m=4.
  6. 6. Procédé selon l'une des revendications précédentes, dans lequel le traitement de la matrice (B) de décodage ambisonique comporte :
    - une inversion de la matrice élaborée (B) de décodage ambisonique, pour obtenir une matrice (A) de mélange dont :
    * les lignes correspondent à des canaux ambisoniques respectifs, et * les colonnes correspondant à des sources sonores,
    - un traitement de la matrice de mélange (A) pour extraire, par réduction de dimension de matrice, une pluralité de sous-matrices de mélange (Al, A2) chacune associée à un ordre ambisonique et à une bande de fréquences choisie, et
    - une inversion des sous-matrices de mélange (Al, A2) pour obtenir respectivement lesdites sous-matrices (Bl, B2) de décodage ambisonique.
  7. 7. Procédé selon l'une des revendications précédentes, dans lequel le traitement du contenu ambisonique est mené pour une séparation de source et ladite matrice de décodage (B) est une matrice de séparation aveugle de sources élaborée à partir des composantes ambisoniques (S4A).
  8. 8. Procédé selon la revendication 7, prise en combinaison avec la revendication 2, dans lequel la matrice de séparation (B) est élaborée à partir des composantes ambisoniques filtrées à une bande de fréquences choisie et dans laquelle le nombre de canaux ambisoniques valides selon ledit critère est maximum.
  9. 9. Procédé selon l'une des revendications 7 et 8, prises en combinaison avec la revendication 6, comportant en outre une simplification des sous-matrices de mélange (Al, A2) avant leur inversion, par réduction d'un nombre de colonnes de chaque sous-matrice, les colonnes restantes des sous-matrices étant choisies de manière à conserver des signaux de plus grandes énergies après application des sous-matrices de décodage.
  10. 10. Procédé selon l'une des revendications 7 à 9, prises en combinaison avec la revendication 6, comportant en outre une simplification des sous-matrices de mélange (Al, A2) avant leur inversion, par réduction d'un nombre de colonnes de chaque sous-matrice, les colonnes restantes des sous-matrices étant choisies de manière à conserver des signaux les moins corrélés après application des sous-matrices de décodage.
  11. 11. Procédé selon l'une des revendications 7 à 10, prises en combinaison avec la revendication 6, comportant en outre une simplification des sous-matrices de mélange (Al, A2) avant leur inversion, par réduction d'un nombre de colonnes de chaque sous-matrice, les colonnes restantes des sous-matrices étant choisies de manière à conserver des signaux correspondant à des champs sonores directs après application des sous-matrices de décodage.
  12. 12. Procédé selon l'une des revendications 1 à 6, dans lequel le traitement du contenu ambisonique est mené pour une restitution ambisonique sur une pluralité de haut-parleurs et ladite matrice de décodage (B) est une matrice inverse de positions spatiales relatives des haut-parleurs (S4B).
  13. 13. Procédé selon l'une des revendications précédentes, comportant, pour un contenu ambisonique (x) décomposé en sous-bandes de fréquences (k), une application de sousmatrices de décodage (Bk), obtenues par :
    - Pour chaque ordre ambisonique du contenu, une détermination d'une bande de fréquences sur laquelle ledit ordre respecte un critère de validité prédéterminé d'encodage ambisonique,
    - Sur la base desdites bandes de fréquences, une application d'un banc de filtres au contenu ambisonique (x) pour produire une pluralité de signaux en sous-bandes (xk), de dimensions variables correspondant à des canaux ambisoniques valides dans cette sous-bande (k),
    - Une détermination d'une matrice de décodage (B) de taille maximale dans la bande de fréquence de l'ordre ambisonique maximal et d'une la matrice de mélange associée (A), inverse ou pseudo-inverse de ladite matrice de décodage (B),
    - Pour chaque autre bande de fréquences (k), une détermination d'une matrice de mélange
    5 (Ak) de taille réduite, sous-matrice de ladite matrice de mélange (A), et d'une sous-matrice de décodage (Bk), inverse ou pseudo-inverse de ladite sous-matrice de mélange (Ak),
    - Une reconstruction des signaux séparés pleine-bande (s) par application d'un banc de filtre de synthèse aux signaux séparés (sk) issus de la multiplication desdits signaux (xk) par lesdites matrices (Bk).
  14. 14. Programme informatique caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon l'une des revendications 1 à 13, lorsque ce programme est exécuté par un processeur.
  15. 15 15. Dispositif informatique comportant :
    - une interface d'entrée pour recevoir des signaux de composantes ambisoniques,
    - une interface de sortie pour délivrer des signaux décodés, associés chacun à une source sonore,
    - et un circuit de traitement pour la mise en œuvre du procédé selon l'une des
  16. 20 revendications 1 à 13.
    1/7
    Ο «0 S & & &
FR1663079A 2016-12-21 2016-12-21 Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne Withdrawn FR3060830A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR1663079A FR3060830A1 (fr) 2016-12-21 2016-12-21 Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
PCT/FR2017/053622 WO2018115666A1 (fr) 2016-12-21 2017-12-15 Traitement en sous-bandes d'un contenu ambisonique réel pour un décodage perfectionné
ES17829231T ES2834087T3 (es) 2016-12-21 2017-12-15 Procesamiento en sub-bandas de un contenido ambisónico real para el perfeccionamiento de un descodificador
CN201780079018.7A CN110301003B (zh) 2016-12-21 2017-12-15 改进解码用实际三维声内容的子频带中的处理
EP17829231.4A EP3559947B1 (fr) 2016-12-21 2017-12-15 Traitement en sous-bandes d'un contenu ambisonique réel pour un décodage perfectionné
US16/471,371 US10687164B2 (en) 2016-12-21 2017-12-15 Processing in sub-bands of an actual ambisonic content for improved decoding

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1663079 2016-12-21
FR1663079A FR3060830A1 (fr) 2016-12-21 2016-12-21 Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne

Publications (1)

Publication Number Publication Date
FR3060830A1 true FR3060830A1 (fr) 2018-06-22

Family

ID=58162877

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1663079A Withdrawn FR3060830A1 (fr) 2016-12-21 2016-12-21 Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne

Country Status (6)

Country Link
US (1) US10687164B2 (fr)
EP (1) EP3559947B1 (fr)
CN (1) CN110301003B (fr)
ES (1) ES2834087T3 (fr)
FR (1) FR3060830A1 (fr)
WO (1) WO2018115666A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3096550A1 (fr) * 2019-06-24 2020-11-27 Orange Dispositif de captation sonore à réseau de microphones perfectionné
FR3112016A1 (fr) * 2020-06-30 2021-12-31 Fondation B-Com Procédé de conversion d’un premier ensemble de signaux représentatifs d’un champ sonore en un second ensemble de signaux et dispositif électronique associé

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201818959D0 (en) * 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010076460A1 (fr) * 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
EP2469741A1 (fr) * 2010-12-21 2012-06-27 Thomson Licensing Procédé et appareil pour coder et décoder des trames successives d'une représentation d'ambiophonie d'un champ sonore bi et tridimensionnel
EP2592846A1 (fr) * 2011-11-11 2013-05-15 Thomson Licensing Procédé et appareil pour traiter des signaux d'un réseau de microphones sphériques sur une sphère rigide utilisée pour générer une représentation d'ambiophonie du champ sonore
EP2866475A1 (fr) * 2013-10-23 2015-04-29 Thomson Licensing Procédé et appareil pour décoder une représentation du champ acoustique audio pour lecture audio utilisant des configurations 2D
CN104754471A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 基于麦克风阵列的声场处理方法和电子设备
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
EP3007167A1 (fr) * 2014-10-10 2016-04-13 Thomson Licensing Procédé et appareil de compression à faible débit binaire d'une représentation d'un signal HOA ambisonique d'ordre supérieur d'un champ acoustique
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010076460A1 (fr) * 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GRACZYK J SKOGLUND GOOGLE INC M: "Ambisonics in an Ogg Opus Container; draft-ietf-codec-ambisonics-01.txt", AMBISONICS IN AN OGG OPUS CONTAINER; DRAFT-IETF-CODEC-AMBISONICS-01.TXT, INTERNET ENGINEERING TASK FORCE, IETF; STANDARDWORKINGDRAFT, INTERNET SOCIETY (ISOC) 4, RUE DES FALAISES CH- 1205 GENEVA, SWITZERLAND, 22 November 2016 (2016-11-22), pages 1 - 10, XP015116784 *
M. BAQUÉ, A. GUÉRIN, M.MELON: "Séparation de sources appliquée à un contenu ambisonique: localisation et extraction des champs directs", CONGRÈS FRANÇAIS D'ACOUSTIQUE ET LE 20E COLLOQUE VIBRATIONS, SHOCKS AND NOISE, CFA/VISHNO 2016, 1 April 2016 (2016-04-01), Le Mans, pages 1 - 6, XP055361095, Retrieved from the Internet <URL:https://www.researchgate.net/profile/Manuel_Melon/publication/301349833_Separation_de_sources_appliquee_a_un_contenu_ambisonique_localisation_et_extraction_des_champs_directs/links/57149f7e08aeff315ba363c5/Separation-de-sources-appliquee-a-un-contenu-ambisonique-localisation-et-extraction-des-champs> [retrieved on 20170403] *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3096550A1 (fr) * 2019-06-24 2020-11-27 Orange Dispositif de captation sonore à réseau de microphones perfectionné
WO2020260780A1 (fr) * 2019-06-24 2020-12-30 Orange Dispositif de captation sonore a réseau de microphones perfectionné
US11895478B2 (en) 2019-06-24 2024-02-06 Orange Sound capture device with improved microphone array
FR3112016A1 (fr) * 2020-06-30 2021-12-31 Fondation B-Com Procédé de conversion d’un premier ensemble de signaux représentatifs d’un champ sonore en un second ensemble de signaux et dispositif électronique associé
EP3934282A1 (fr) * 2020-06-30 2022-01-05 Fondation B-COM Procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux et dispositif électronique associé

Also Published As

Publication number Publication date
US10687164B2 (en) 2020-06-16
CN110301003B (zh) 2023-04-21
EP3559947B1 (fr) 2020-09-02
WO2018115666A1 (fr) 2018-06-28
US20190335291A1 (en) 2019-10-31
EP3559947A1 (fr) 2019-10-30
CN110301003A (zh) 2019-10-01
ES2834087T3 (es) 2021-06-16

Similar Documents

Publication Publication Date Title
EP2374123B1 (fr) Codage perfectionne de signaux audionumeriques multicanaux
EP1992198B1 (fr) Optimisation d&#39;une spatialisation sonore binaurale a partir d&#39;un encodage multicanal
EP2374124B1 (fr) Codage perfectionne de signaux audionumériques multicanaux
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
EP2005420B1 (fr) Dispositif et procede de codage par analyse en composante principale d&#39;un signal audio multi-canal
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
EP2002424B1 (fr) Dispositif et procede de codage scalable d&#39;un signal audio multi-canal selon une analyse en composante principale
EP3427260B1 (fr) Codage et décodage optimisé d&#39;informations de spatialisation pour le codage et le décodage paramétrique d&#39;un signal audio multicanal
EP2901718B1 (fr) Procede et systeme de restitution d&#39;un signal audio
EP1600042A1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
EP3559947B1 (fr) Traitement en sous-bandes d&#39;un contenu ambisonique réel pour un décodage perfectionné
EP3635718B1 (fr) Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal
FR3045915A1 (fr) Traitement de reduction de canaux adaptatif pour le codage d&#39;un signal audio multicanal
FR3049084A1 (fr)
EP3025514B1 (fr) Spatialisation sonore avec effet de salle
EP3025342B1 (fr) Procédé de suppression de la réverbération tardive d&#39;un signal sonore
EP4042418B1 (fr) Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés
EP4172986A1 (fr) Codage optimise d&#39;une information representative d&#39;une image spatiale d&#39;un signal audio multicanal
FR2996043A1 (fr) Procede et dispositif pour separer des signaux par filtrage spatial a variance minimum sous contrainte lineaire
WO2009081002A1 (fr) Traitement d&#39;un flux audio 3d en fonction d&#39;un niveau de presence de composantes spatiales
WO2019020437A1 (fr) Procédé et système de traitement d&#39;un signal audio incluant un encodage au format ambisonique
FR2943867A1 (fr) Traitement d&#39;egalisation de composantes spatiales d&#39;un signal audio 3d

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20180622

ST Notification of lapse

Effective date: 20190906