FR3116348A1

FR3116348A1 - Localisation perfectionnée d’une source acoustique

Info

Publication number: FR3116348A1
Application number: FR2011874A
Authority: FR
Inventors: Jérôme Daniel; Srdan Kitic
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-05-20
Also published as: WO2022106765A8; CN116472471A; KR20230109670A; WO2022106765A1; JP2023550434A; US20240012093A1; EP4248231A1

Abstract

L’invention concerne le traitement de signaux sonores acquis par au moins un microphone, par exemple de type ambisonique, pour localiser au moins une source sonore dans un espace comportant au moins une paroi. On applique une transformée temps fréquences aux signaux acquis, et, à partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé V(f), complexe avec une partie réelle et une partie imaginaire, ce vecteur ayant à son dénominateur une composante différente d’une composante omnidirectionnelle W(f). En particulier, ce vecteur caractérise une composition entre :* un premier trajet acoustique, direct entre la source et le microphone, représenté par un premier vecteur U0, et* au moins un deuxième trajet acoustique issu d’une réflexion sur la paroi et représenté par un deuxième vecteur U1,le deuxième trajet ayant, au microphone, un premier retard TAU1, par rapport au trajet direct. En fonction du retard TAU1, du premier vecteur U0 et du deuxième vecteur U1, on détermine au moins un paramètre parmi une direction (DoA) du trajet direct, une distance d0 de la source au microphone, une distance z0 de la source à ladite paroi.

Description

Localisation perfectionnée d’une source acoustique

La présente invention relève du domaine de la localisation de sources acoustiques, notamment pour l’estimation de direction acoustique ou « DoA » (Direction of Arrival) par un système microphonique compact (par exemple un microphone apte à capter des sons en représentation « ambiophonique » ou « ambisonique » ci-après).

Une application possible est par exemple la formation de voies ou (« beamforming », qui passe alors par une séparation spatiale de sources audio, afin notamment d’améliorer la reconnaissance de la parole (par exemple pour un assistant virtuel par interaction vocale). Un tel traitement peut aussi intervenir dans le codage audio 3D (pré-analyse d’une scène sonore pour coder des signaux principaux de façon individuelle), ou encore permettre l’édition spatiale de contenu sonore immersif éventuellement en audio-visuel (à vocation artistique, radiophonique, cinéma, etc.). Elle permet aussi le suivi de locuteur en téléconférence ou la détection d’événements sonores (avec ou sans vidéo associée).

Dans l’état de l’art qui s’intéresse aux encodages de type ambisonique (ou équivalents), l’essentiel des approches se base sur les composantes spatiales issues d’une analyse fréquentielle (une représentation temps-fréquence typiquement issue d’un traitement par transformée de Fourier à court terme ou « STFT », ou une représentation de signaux temporels à bande étroite issue d’un banc de filtres).

Les signaux ambisoniques à l’ordre 1 sont rassemblés sous forme vectorielle suivant l’équation Eq.1 donnée en ANNEXE ci-après. La convention d’encodage de Eq.1 est présentée ici par commodité mais sans restriction car les conversions avec d’autres conventions peuvent être implémentées tout aussi bien. Ainsi lorsque le champ est assimilable à une onde plane unique venant d’une direction décrite par le vecteur unitaire U1 (donc la direction DoA de la source) et portant le signal émis s1(t), on peut l’écrire selon l’équation Eq.2 (ANNEXE).

En pratique, les signaux sont analysés dans le domaine fréquentiel, trame après trame, ce qui donne l’expression Eq.3 (ANNEXE), et pour le cas d’une onde unique sous la forme Eq.4, et par extension pour N ondes sous la forme Eq.5.

Une catégorie de méthodes s’appuie sur l’analyse du vecteur vélocité V(f) ou du vecteur intensité I(f) (le premier étant une version alternative du second, normalisée par la puissance de la composante de référence omnidirectionnelle), comme exprimé en Eq.6 et Eq.7.

Les méthodes qui exploitent des échantillons fréquentiels complexes basent l’estimation de la localisation essentiellement sur l’information contenue dans la partie réelle de tels vecteurs (liée à l’intensité active et caractéristique de la propagation d’onde en ce qu’elle est directement liée au gradient du champ de phase).

La partie imaginaire (partie réactive associée au gradient d’énergie) est quant à elle considérée caractéristique de phénomènes acoustiques stationnaires.

On voit en effet que dans le cadre d’une onde plane seule, le vecteur vélocité se résume à V = U1.

La méthode connue (dite « DirAC ») opère soit sur des échantillons temporels filtrés en sous-bandes auquel cas ils sont réels et le vecteur intensité l’est aussi, soit sur des échantillons fréquentiels complexes auquel cas c’est la partie réelle du vecteur intensité qui est seule exploitée comme désignant la direction de provenance (ou plus précisément, son opposée). En complément, le calcul d’un coefficient dit de « diffuseness », lié au rapport entre norme du vecteur et l’énergie du champ sonore, permet de décider si l’information disponible à la fréquence considérée est plutôt caractéristique de composantes directionnelles (auquel cas la direction du vecteur détermine la localisation) ou bien d’une « ambiance » (champ issu de réverbération diffuse et/ou d’un mélange de sources sonores secondaires indifférenciées).

Une autre méthode notée ci-après « VVM » s’appuie sur le vecteur vélocité et les statistiques de la direction angulaire de sa partie réelle, pondérée par certains facteurs liés au ratio entre parties réelles et imaginaires et leurs normes. Une cartographie sphérique (histogramme 2D, par exemple équi-rectangulaire) est établie par collecte de valeurs sur l’ensemble des échantillons fréquentiels et sur un certain nombre de trames temporelles. L’estimation se fonde donc essentiellement sur un maximum de probabilité et est soumise à une certaine latence.

Une autre catégorie de méthodes dite de la « covariance », présentée parfois comme une extension de la première, met en jeu le calcul d’une matrice de covariance des composantes spatiales (également parfois nommée matrice de Densité Spectrale de Puissance ou « PSD ») par sous-bandes fréquentielles. Là encore, la partie imaginaire est parfois totalement ignorée. Il faut noter que la première ligne (ou première colonne) de cette matrice est équivalente au vecteur intensité lorsque les composantes spatiales sont de type ambisonique. Bon nombre de ces approches font intervenir des méthodes « sous-espaces » et des algorithmes parfois coûteux surtout lorsqu’ils travaillent sur une quantité importante de sous-bandes fréquentielles, et lorsqu’ils exploitent des résolutions spatiales plus élevées.

Ces méthodes « basées vecteur » ou « basées matrice » s’attachent à discerner les composantes « directionnelles » associées à des sources ou chemins acoustiques localisables, d’une part, de composantes d’ambiance, d’autre part.

Parmi les limites observées de telles méthodes, elles sont gênées par l’interférence du son direct (qui indique la direction de la source acoustique) avec les réflexions, même dans le cas d’une unique source acoustique simultanément active. Au-delà d’un certain degré de présence d’un effet de salle par exemple, elles ne peuvent pas donner une estimation raisonnable assez souvent et/ou l’estimation est trop souvent biaisée. Lorsque l’objet comprenant le dispositif de captation (microphone ambisonique par exemple) et de localisation acoustique est placé par exemple sur une table ou près d’un mur (et/ou si c’est le cas de la source acoustique), de telles surfaces de réflexion ont tendance à induire un biais angulaire systématique.

En effet, la localisation est en général biaisée par l’interférence systématique du son direct avec des réflexions associées à la même source acoustique. Lorsqu’elle est basée sur le vecteur vélocité, c’est la partie réelle du vecteur vélocité qui est essentiellement considérée cependant que la partie imaginaire est habituellement ignorée (ou tout au moins sous utilisée). Les réflexions acoustiques, considérées comme gênantes, ne sont pas intégrées dans la problématique d’estimation. Elles restent donc une composante ignorée, non modélisée, sans prendre en compte les structures d’interférence particulières induites.

Ainsi, pour des applications du type précité, la localisation acoustique est en général estimée en termes seulement angulaires. D’ailleurs, aucune approche efficace ne semble proposer une évaluation de distance à partir d’un seul point de captation (considéré comme unique pour un système microphonique coïncident ou plus généralement « compact », c’est-à-dire contenu dans un volume de dimension petite par rapport aux distances des sources acoustiques, soit typiquement de l’ordre de la dizaine de centimètres pour un microphone ambisonique).

Pourtant, certains contextes applicatifs requièrent l’information additionnelle de distance de la source en plus de sa direction (donc une localisation 3D en XYZ). Ce sont par exemple :
- la navigation virtuelle dans des environnements réels captés en 3D (car la modification appropriée de l’angle et l’intensité d’une source dépend de la translation XYZ relative entre cet objet et le microphone),
- la localisation de sources pour identifier des locuteurs (notamment pour une enceinte connectée ou autre),
- la surveillance, les dispositifs d’alerte dans des environnements domestique ou industriel,
ou autres.

Une approche particulièrement avantageuse, présentée dans le document FR1911723, utilise le vecteur vélocité du son pour obtenir notamment la direction d’arrivée du son, son retard (donc la distance à la source), les retards liés à des réflexions éventuelles et la détermination ainsi de positions de cloisons. Une telle réalisation permet de modéliser l’interférence entre l’onde directe et au moins une onde indirecte (issue de réflexion) et exploiter les manifestations de ce modèle sur l’intégralité du vecteur vélocité (sur sa partie imaginaire comme sur sa partie réelle).

Néanmoins, cette technique, quoique déjà opérationnelle, peut encore faire l’objet de perfectionnements.

L’invention vient améliorer la situation.

Il est proposé un procédé de traitement de signaux sonores acquis par au moins un microphone,
pour une localisation d’au moins une source sonore dans un espace comportant au moins une paroi, dans lequel :
- On applique une transformée temps fréquences aux signaux acquis,
- A partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé V’(f), estimé à partir d’une expression d’un vecteur vélocité V(f) dans laquelle une composante de référence D(f), différente d’une composante omnidirectionnelle W(f), apparait au dénominateur de ladite expression, ladite expression étant complexe avec une partie réelle et une partie imaginaire, le vecteur vélocité généralisé V’(f) caractérisant une composition entre :
* un premier trajet acoustique, direct entre la source et le microphone, représenté par un premier vecteur U0, et
* au moins un deuxième trajet acoustique issu d’une réflexion sur la paroi et représenté par un deuxième vecteur U1,
le deuxième trajet ayant, au microphone, un premier retard TAU1, par rapport au trajet direct,
- En fonction du retard TAU1, du premier vecteur U0 et du deuxième vecteur U1, on détermine au moins un paramètre parmi :
* une direction (DoA) du trajet direct,
* une distance d0 de la source au microphone,
* une distance z0 de la source à ladite paroi.

Ainsi, le vecteur vélocité généralisé V’(f), précité, est construit à partir du vecteur vélocité V(f) qui s’exprime généralement en fonction d’une composante au dénominateur qui est omnidirectionnelle. Le vecteur vélocité généralisé V’(f) remplace le vecteur vélocité « classique » V(f) au sens du document FR1911723 précité, avec alors une composante « de référence » au dénominateur qui est différente d’une composante omnidirectionnelle, Cette composante de référence peut en effet être plus « sélective » vers la direction d’arrivée du son. Dans un exemple de réalisation présenté plus loin notamment en référence aux figures 6A à 6D et 7, la direction d’arrivée du son permettant de calculer la composante de référence peut être obtenue en première approximation en utilisant le vecteur vélocité classique V(f) par exemple lors d’une première itération d’un procédé itératif convergeant progressivement vers une DoA exacte.

Il a alors été observé au sens de la présente invention que la détermination des paramètres précités DoA, d0, z0, notamment, est plus juste et/ou plus précise en utilisant un tel vecteur vélocité généralisé V’(f) avec une composante de référence plus pertinente, à la place du vecteur vélocité V(f). En particulier, ce procédé est plus robuste notamment dans les situations où une forte réflexion sonore est due à une cloison disposée près du microphone ou d’une source sonore active.

On a cité ci-dessus les paramètres précités DoA, d0, z0. Il convient d’indiquer que dans un mode de réalisation typiquement, l’expression du vecteur vélocité généralisé permet aussi de déterminer notamment le retard TAU1, présenté plus haut.

Dans un mode de réalisation, le procédé peut comprendre, comme indiqué plus haut, une pluralité d’itérations dans une partie au moins desquelles on utilise le vecteur vélocité généralisé V’(f) avec à son dénominateur une composante de référence D(f) déterminée en fonction d’une approximation de la direction du trajet direct (DoA) obtenue à une itération précédente. Dans la plupart des situations, ces itérations convergent vers une direction DoA plus juste.

Un tel procédé peut comprendre alors une première itération dans laquelle on utilise le vecteur vélocité « classique » V(f) à la place du vecteur vélocité généralisé V’(f). Comme décrit dans le document FR1911723, le vecteur vélocité V(f) s’exprime dans le domaine fréquentiel en faisant apparaitre au dénominateur la composante omnidirectionnelle W(f). Il est alors possible de déterminer au moins, à l’issue de cette première itération, une première approximation de la direction du trajet direct (DoA).

Ainsi, pour au moins une deuxième itération ultérieure à la première itération, on utilise le vecteur vélocité généralisé V’(f), estimé à partir d’une expression du vecteur vélocité V(f) au dénominateur de laquelle la composante omnidirectionnelle W(f) est remplacée par la composante de référence D(f), cette dernière étant spatialement plus sélective que la composante omnidirectionnelle W(f).

Par exemple, dans un mode de réalisation, la composante de référence D(f) est plus sélective dans une direction correspondant à la première approximation précitée de la direction du trajet direct (DoA).

Les itérations peuvent être répétées jusqu’à atteindre une convergence selon un critère prédéterminé. En particulier, il peut s’agir d’un critère de causalité pour identifier avec un degré de certitude raisonnable tout au moins de premières réflexions sonores sur des obstacles (ou « cloisons » ci-dessus) dans l’environnement de propagation du son entre le microphone et une source.

Dans une forme de réalisation particulière, à chaque itération :
- On applique en outre une transformée inverse, des fréquences vers le temps, à ladite expression du vecteur vélocité généralisé V’(f) pour obtenir, dans le domaine temporel, une succession de pics liés chacun à une réflexion sur au moins une paroi, outre un pic lié à une arrivée du son selon ledit trajet direct (DoA), et
- On réalise une nouvelle itération s’il apparait dans la succession de pics un signal dont l’abscisse temporelle est inférieure à celle du pic de trajet direct et dont l’amplitude est supérieure à un seuil choisi (éventuellement adaptatif),
le critère de causalité étant vérifié si l’amplitude du signal est inférieure audit seuil.
L’obtention de cette succession de pics peut être en lien typiquement avec le formalisme présenté dans l’équation Eq.B4=39b donnée en annexe, et décrit plus loin en référence à la , mais ici appliqué bien entendu au vecteur vélocité généralisé V’(f).

Il peut être mis fin aux itérations précitées du procédé, par exemple :
- dans un premier cas où l’amplitude du signal précité est inférieure au seuil choisi, et
- dans un deuxième cas où la répétition des itérations n’entraine pas de diminution significative de l’amplitude de ce signal.

Dans un exemple de réalisation, il est fait suite au deuxième cas par la mise en œuvre des étapes suivantes, les signaux acquis étant délivrés sous forme de trames successives d’échantillons :
- Pour chaque trame, on estime un score de présence d’une attaque sonore dans la trame (conformément par exemple à une équation du type Eq.53 de l’annexe), et
- On sélectionne les trames à scores supérieurs à un seuil pour traiter les signaux sonores acquis dans les trames sélectionnées.

En effet, si la convergence vers une solution de DoA n’est pas aisée du fait de la proximité de cloisons entrainant des premières réflexions sonores immédiates, il peut être préférable de rechercher la réaction immédiate de ces cloisons à une attaque sonore (en début d’émission d’un son).

Relativement aux expressions respectives des vecteurs vélocité « classique » et « généralisé » et dans une réalisation où les signaux acquis sont captés par un microphone ambisonique, le vecteur vélocité « classique » V(f) peut être exprimé dans le domaine fréquentiel par des composantes ambisoniques d’ordre 1 sous une forme de type :
V(f)= 1/W(f) [X(f), Y(f), Z(f)]^T,
W(f) étant la composante omnidirectionnelle,
tandis que le vecteur vélocité généralisé V’(f), exprimé dans le domaine fréquentiel par des composantes ambisoniques d’ordre 1, se présente sous une forme de type :
V(f)= 1/D(f) [X(f), Y(f), Z(f)]^T,
D(f) étant la composante de référence, précitée, différente de la composante omnidirectionnelle.

L’ordre considéré est ici de 1, ce qui permet d’exprimer les composantes du vecteur vélocité dans un repère tridimensionnel, mais d’autres réalisations sont possibles avec notamment un ordre ambisonique plus élevé.

Dans une réalisation, une estimation de la direction du trajet direct assimilée au premier vecteur U0, peut être déterminée à partir d’une moyenne sur un ensemble de fréquences de la partie réelle du vecteur vélocité généralisé V’(f) exprimé dans le domaine fréquentiel (conformément au formalisme de l’équation Eq.24 appliqué ici bien entendu au vecteur vélocité généralisé V’(f)).

Ainsi, déjà l’expression du vecteur vélocité dans le domaine fréquentiel permet de donner une estimation du vecteur U0.

Dans une réalisation plus avancée toutefois :
- On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporel V’(t),
- On recherche au moins un maximum dans l’expression du vecteur vélocité généralisé V’(t)max en fonction du temps, après une durée du trajet direct, et
- On en déduit le premier retard TAU1, correspondant au temps donnant le maximum V’(t)max.

Dans cette réalisation en outre, on peut alors :
- estimer le deuxième vecteur U1 en fonction de valeurs du vecteur vélocité normalisé V’ relevées aux indices temporels t=0, TAU1 et 2xTAU1, pour définir un vecteur V1 tel que :
V1 = V’(TAU1) - ( (V’(TAU1) . V’(2.TAU1)) / || V’(TAU1) ||²) V’(0),
Le vecteur U1 étant alors donné par : U1 = V1 / ||V1||.

Ensuite :
- On peut déterminer des angles respectifs PHI0 et PHI1 du premier vecteur U0 et du deuxième vecteur U1, par rapport à ladite paroi, tels que :
PHI0=arcsin(U0.nR) et PHI1=arcsin(U1.nR), où nR est un vecteur unitaire et normal à la paroi, et
- La distance d0 entre la source et le microphone peut être déterminée en fonction du premier retard TAU1 par une relation du type :
d0 = (TAU1xC)/((cosPHI0/cosPHI1)-1), où C est la vitesse du son.

En outre, la distance z0 de la source à ladite paroi peut alors être déterminée par une relation du type :
z0 = d0 (sinPHI0 – sinPHI1)/2

On peut ainsi déterminer tous les paramètres pertinents quant à la localisation de la source (de la par exemple), ici dans le cas où une seule paroi est présente, mais ce modèle peut être généralisé à la présence de plusieurs parois.

Ainsi dans une réalisation où l’espace comprend une pluralité de parois :
- On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporel V’(t) sous la forme d’une succession de pics (formalisme correspondant en première approche à l’équation Eq.39b de l’annexe),
- On identifie, dans la succession de pics, des pics liés à une réflexion sur une paroi de ladite pluralité de parois, chaque pic identifié ayant une abscisse temporelle fonction d’un premier retard TAUn du trajet acoustique issu de la réflexion sur la paroi n correspondante, par rapport au trajet direct,
- En fonction de chaque premier retard TAUn, du premier vecteur U0 et de chaque deuxième vecteur Un représentant un trajet acoustique issu d’une réflexion sur une paroi n, on détermine au moins un paramètre parmi :
* la direction (DoA) du trajet direct,
* la distance d0 de la source au microphone, et
* au moins une distance zn de la source à la paroi n.

Comme on peut l’observer sur la qui est un exemple appliqué au vecteur vélocité « classique » mais pouvant s’adapter au vecteur vélocité généralisé, l’expression du vecteur vélocité (classique comme généralisé), après transformée inverse (fréquences vers temps), présente une succession de pics, laquelle est illustrée aussi sur la à titre didactique, où des maximas sont atteints pour des valeurs multiples des retards précités (TAU1, 2TAU1, etc. ; TAU2, 2TAU2, etc.) entre le trajet direct et les trajets issus d’au moins une réflexion sur une paroi, ainsi que pour des combinaisons de ces retards (TAU1+TAU2, 2TAU1+TAU2, TAU1+2TAU2, etc.).

On peut alors exploiter ces pics pour identifier en particulier les pics liés au moins à une réflexion sur une paroi n et qui ont donc des abscisses temporelles multiples (x1, x2, x3, etc.) du retard TAUn associé à cette paroi n.

Comme les combinaisons de retards différents peuvent complexifier l’identification des retards simples (TAU1, TAU2, TAU3, etc.) et la présence de parois associées, on peut présélectionner une première partie de pics à des abscisses temporelles positives les plus petites, pour identifier dans cette partie les pics associés chacun à une réflexion sur une paroi (sans avoir ainsi la combinaison de retards différents TAU1+TAU2, 2TAU1+TAU2, TAU1+2TAU2, etc. qui peut apparaitre après les premiers pics). Une telle réalisation suppose toutefois que le critère de causalité précité est atteint (sans quoi des pics « secondaires » peuvent aussi être obtenus par combinaisons des retards avec des multiplicateurs négatifs, de sorte que leurs combinaisons avec des retards « positifs » peuvent se retrouver à des abscisses temporelles positives petites).

Ainsi dans le cas d’une situation idéale où les pics liés à une réflexion sur une paroi n ont possiblement des abscisses temporelles multiples du retard TAUn associé à cette paroi n, on peut effectuer une présélection d’une première partie de pics à des abscisses temporelles positives les plus petites, pour identifier dans cette partie les pics associés chacun à une seule réflexion sur une paroi.

Dans la réalisation où les signaux acquis par le microphone se présentent sous la forme d’une succession d’échantillons, on peut appliquer plus généralement à ces échantillons une fenêtre de pondération à variation exponentielle décroissante dans le temps (comme on le verra plus loin en référence à la figure ).

Eventuellement en complément, on peut placer cette fenêtre en tout début d’attaque sonore (voire juste avant le début d’attaque). On évite ainsi la gêne des réflexions multiples.

L’application d’une telle fenêtre de pondération permet d’obtenir une première estimation moins biaisée des paramètres U0, d0, etc. issus de l’exploitation de l’expression du vecteur vélocité dans le domaine temporel, notamment lorsqu’il s’agit du vecteur vélocité « classique », par exemple dans le cadre d’une première itération du procédé. En effet, dans certaines situations où la magnitude cumulée des réflexions est plus grande pour que celle du son direct, l’estimation des paramètres précités peut être biaisée. Ces situations peuvent être détectées lorsqu’il est observé des pics à des abscisses temporelles négatives (courbe en haut de la ) dans l’expression temporelle du vecteur vélocité. L’application d’une fenêtre de pondération du type précité permet de ramener ces pics à des abscisses positives comme illustré par la courbe du bas de la , et de donner des estimations moins biaisées.

Il convient de retenir néanmoins que cette réalisation est optionnelle dans la mesure où l’utilisation du vecteur vélocité généralisé à la place du vecteur vélocité « classique » permet déjà une estimation pratiquement non biaisée des paramètres U0, d0, etc., y compris dans ce type de situation. Néanmoins, un tel traitement peut intervenir par exemple pour une première itération du procédé avec le vecteur vélocité « classique » ou encore dans le deuxième cas, précité, de non-convergence du traitement itératif.

Dans une réalisation, on peut en outre appliquer itérativement une pondération q(f), associée chacune à une bande de fréquences f, au vecteur vélocité (généralisé ou classique) dans le domaine fréquentiel selon une expression du type:
q(f) = exp (- |Im(V(f)).m|/ (|| Im(V(f)) ||),
où Im(V(f)) est la partie imaginaire du vecteur vélocité (classique ou généralisé, et noté ici simplement « V(f) »), et m est un vecteur unitaire normal au plan défini par le vecteur U0 et une normale à la paroi (typiquement l’axe Z de la commentée en détail plus loin).

Une telle réalisation permet de sélectionner les bandes de fréquences les plus exploitables pour la détermination des paramètres précités.

La présente invention vise aussi un dispositif de traitement de signaux sonores, comportant un circuit de traitement agencé pour la mise en œuvre du procédé ci-avant.

A titre illustratif, la présente schématiquement un tel circuit de traitement pouvant comporter alors :

- une interface d’entrée IN pour recevoir des signaux SIG acquis par le microphone (pouvant comporter plusieurs pastilles piézoélectriques pour composer ces signaux, par exemple en contexte ambisonique),

- un processeur PROC coopérant avec une mémoire de travail MEM pour traiter ces signaux notamment pour élaborer l’expression du vecteur vélocité généralisé afin d’en tirer les paramètres souhaités d0, U0, etc., dont des valeurs peuvent être délivrées par l’interface de sortie OUT.

Un tel dispositif peut se présenter sous la forme d’un module de localisation d’une source sonore dans un environnement 3D, ce module étant connecté à un microphone (type antenne sonore, ou autre). Inversement, il peut s’agir d’un moteur de rendu sonore en fonction d’une position donnée d’une source dans un espace virtuel (comportant une ou plusieurs parois) en réalité augmentée.

La présente invention vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un processeur d’un circuit de traitement.

Par exemple, les figures 3A, 3B et 7 illustrent un exemple d’ordinogramme possible de l’algorithme d’un tel programme.

Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.

Dans la description détaillée qui va suivre, on désigne indistinctement le vecteur vélocité généralisé et le vecteur généralisé « classique », par le même vocable de « vecteur vélocité », avec la même notation V (V(f) ;V(t)) notamment dans les équations présentées en annexe. Lorsqu’il est question spécifiquement du vecteur vélocité généralisé, il est désigné explicitement sous ce vocable et noté V’ (V’(f) ; V’(t)). Dans une première partie de la description jusqu’à la , on rappelle les principes qui sont à la base du formalisme utilisé dans le document FR1911723 et repris ici dans les équations données en annexe.

Plus généralement, d’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

La montre à titre illustratif différents paramètres intervenant pour une localisation d’une source sonore selon un mode de réalisation.

La montre à titre illustratif les différents pics successifs que présente l’expression temporelle d’un vecteur vélocité après sa transformée inverse des fréquences vers le temps (« IDFT »).

La montre les étapes de début d’un traitement algorithmique pour déterminer les paramètres pertinent U0, d0, etc.,

Et la montre la suite des étapes du traitement de la .

La montre schématiquement un dispositif au sens de l’invention selon un mode de réalisation.

La montre une fenêtre de pondération des échantillons des signaux acquis, exponentiellement décroissante dans le temps, selon un mode de réalisation.

La compare une expression temporelle après IDFT du vecteur vélocité :
- sans traitement préalable des échantillons par la fenêtre de pondération (courbe du haut),
- et avec traitement par la fenêtre (courbe du bas).

Les figures 6A , 6B et 6C , représentent l’allure des pics liés présents dans l’expression temporelle du vecteur vélocité généralisé V’(t), au fur et à mesure d’itérations du procédé décrit plus loin en référence à la ,

La illustre très schématiquement et à titre illustratif la forme de la composante de référence D(f) apparaissant au dénominateur de l’expression du vecteur vélocité généralisé V’(f), au fil de plusieurs itérations successives du procédé, et

La représente schématiquement les étapes d’un procédé itératif au sens de l’invention, selon une forme de réalisation donnée ici à titre d’exemple.

Le vecteur vélocité peut être calculé de façon connue en soi. Quelques paramétrages particuliers peuvent être recommandés toutefois pour l’amélioration des résultats finaux obtenus.

Habituellement, des spectres fréquentiels B(f) de signaux ambisoniques sont d’abord obtenus typiquement par Transformée de Fourier à Court Terme (ou STFT pour « Short Term Fourier Transform ») pour une succession de trames temporelles b(t), en général chevauchantes (avec addition/recouvrement par exemple). Ici, l’ordre des composantes ambisoniques peut être m=1 pour quatre composantes (sans perte de généralité toutefois, les calculs pouvant s’adapter à des ordres plus élevés).

Alors, pour chacune des trames temporelles, un vecteur vélocité est calculé ensuite pour l’ensemble des échantillons fréquentiels comme ratio des composantes directionnelles X(f), Y(f) et Z(f) :
- sur la composante omnidirectionnelle W(f) (équation Eq.6 de l’ANNEXE), pour le vecteur vélocité classique, ou
- sur une composante de référence D(f), pour le vecteur vélocité généralisé, D(f) remplaçant W(f) dans l’équation Eq.6 de l’ANNEXE.

On peut envisager des réalisations introduisant en outre un lissage temporel ou une consolidation par somme pondérée, comme décrit plus loin.

Avec un tel ratio (X(f)/W(f), Y(f)/W(f), Z(f)/W(f) ; X(f)/D(f), Y(f)/D(f), Z(f)/D(f)), on fait disparaître substantiellement la caractéristique du signal source pour mettre en évidence les caractéristiques du canal acoustique, si tant est que la composition spectrale du signal audio excite une quantité substantielle de fréquences utiles (par exemple sur une large bande de fréquences).

Dans les applications présentées précédemment, on peut considérer la situation d’une source acoustique aux caractéristiques stables (en position et en rayonnement, au moins sur quelques trames consécutives) émettant un signal s(t), dans un environnement acoustique stable (parois et objets réfléchissants, éventuellement diffractant, etc., donc responsables de ce qu’on désigne usuellement par « effet de salle » même si l’on peut se trouver en dehors d’une « salle » en tant que telle). Ces signaux sont captés par un microphone de type ambisonique. Les signaux ambisoniquesb(t) résultent de l’encodage spatial combiné de différentes versions du signal s(t) selon ses trajets direct et indirects, ce que l’on nomme « effet du canal acoustique ». Cela se traduit par la convolution du signal par une réponse impulsionnelle spatialeh(t) dont chaque canal (ou dimension) est associé à une composante ambisonique, comme exprimé dans l’équation Eq.8 de l’ANNEXE.

Cette réponse impulsionnelle est nommée SRIR pour «Spatial Room Impulse Response» et se représente généralement comme une série de pics temporels :
- le premier pic, situé au temps t=TAU0 (temps de propagation), correspondant au son direct,
- le deuxième pic, à t=TAU1 correspond à une première réflexion,
etc.

Ainsi on doit pouvoir lire dans ces pics la direction de provenance de ces fronts d’onde, avec en première approximation l’expression du vecteur u_ndonné dans l’équation Eq.9-1. En pratique, la réponse impulsionnelle spatiale est une donnée inconnue, mais il est exposé ici comment remonter indirectement à certaines de ses caractéristiques, à travers le vecteur vélocité, calculé sur la base du signal ambisoniqueb(t).

Pour le mettre en évidence, on décrit d‘abord le lien entre la réponse impulsionnelleh(t), le signal émis s(t), et les signaux ambisoniquesb(t) (Eq.9-2) sur un intervalle temporel observé, choisi. Pour être exacte, cette expression suppose une absence de tout bruit de mesure et d’autres sources acoustiques dont le signal serait capté directement ou indirectement sur l’intervalle temporel considéré. Ainsi, tout le signal direct et indirect de la source est capté sur cet intervalle temporel.

On montre qu’en opérant une Transformée de Fourier sur tout cet intervalle temporel, le vecteur vélocité qui en découle est uniquement caractéristique de la réponse impulsionnelle spatiale. Cette transformée dite LT (car « plus long terme » qu’une STFT) convertit b(t), s(t) et h(t) en B(f), S(f) et H(f) selon l’équation Eq.10. Ce support temporel peut correspondre à une fenêtre temporelle s’étendant sur plusieurs trames de signal consécutives.

On déduit alors, de l’expression de la convolution dans le domaine des fréquences, celle du vecteur vélocité, calculé à l’équation Eq.11. Cette expression Eq.11 devient caractéristique du canal acoustique (autrement dit, de l’effet de salle) et non plus du signal émis, pour peu que celui-ci présente une énergie non-nulle (en pratique, détectable) pour chaque fréquence f, sur la période temporelle considérée.

En pratique et comme il a été évoqué, une modalité fréquente est de procéder à une analyse temps-fréquence par trame, où chaque Transformée de Fourier à Court Terme s’applique à un fenêtrage temporel qui ne vérifie pas a priori que le signal observé résulte entièrement et seulement d’un produit de convolution de l’équation Eq.9. Cela fait qu’au sens strict, le vecteur vélocité ne peut pas s’écrire sous une forme qui ne caractérise que le canal acoustique (comme la partie droite de l’équation Eq.11). Cependant il en est fait ici autant que possible l’approximation (équation Eq.20 introduite plus loin) dans le cadre de cette description, tout en exploitant des avantages de l’analyse à court terme présentée ci-après.

On cherche à des étapes ultérieures une succession de pics d’énergie qui caractérisent d’une part le trajet direct du signal émis depuis la source et reçu par le microphone, puis les premières réflexions sur une ou plusieurs parois, tant que ces réflexions sont identifiables. On peut se concentrer alors sur ce qui est caractéristique du début de la réponse impulsionnelle spatiale, à savoir en premier lieu le premier pic temporel, dont on déduit la direction du son direct, et éventuellement les pics temporels suivants, caractéristiques des premières réflexions.

Pour ce faire, on inspecte l’effet d’une interférence entre le son direct et au moins une réflexion, sur l’expression du vecteur vélocité complexe, de façon à estimer des paramètres pertinents pour définir la position de la source sonore.

On introduit un modèle simplifié d’un trajet direct (n=0) combiné à N réflexions spéculaires (n=1,…,N) pour le début de la réponse impulsionnelle comme présenté dans l’équation Eq.12., où g_n, TAU_n, et u_n, sont respectivement l’atténuation, le retard et la direction de provenance de l’onde d’indice n (nième réflexion) arrivant au système microphonique. Dans la suite, pour des raisons de simplification mais sans restriction de généralité, on considère des retards et atténuation relatifs au son direct, ce qui revient à poser les termes de l’équation Eq.13 pour n=0.

L’expression fréquentielle correspondante est donnée à l’équation Eq.14, avec le cas particulier de gamma₀= 1 pour le son direct. Bien entendu, la variable gamma_n, quel que soit n supérieur à 0, est fonction de la fréquence f.

Il s’en suit l’expression fréquentielle du champ ambisonique, si on néglige la partie plus tardive, donnée par l’expression Eq.16.

Le vecteur vélocité à court-terme s’exprime alors par l’équation Eq.17, ou encore par l’équation Eq.18 selon une version régularisée avec un terme EPSILON non nul de façon à éviter des valeurs (quasi) infinies lorsque la composante au dénominateur est (presque) nulle. Dans l’équation Eq.17 ou Eq.18, la composante W (propre au vecteur vélocité classique) peut être remplacée par la composante de référence D pour exprimer le vecteur vélocité généralisé. En réalité, dans le cas général, D remplace W au dénominateur, l’expression du vecteur vélocité classique V correspondant au cas particulier où D=W. Toutefois, pour la commodité de l’exposé ici, il est présenté dans les premières équations de l’annexe des notations relatives au cas particulier où D=W, données pour le vecteur vélocité classique mais facilement transposables au vecteur vélocité généralisé en conservant à l’esprit que D y remplace W.

L’analyse à court-terme permet d’observer, au cours du temps et selon l’évolution dynamique du signal source, des empreintes fréquentielles (notées « FDVV » ci-après), caractéristiques de sous-mélanges de fronts d’onde au sein de la réponse impulsionnelle spatiale. Un sous-mélange caractéristique (smx pour « submix »), pour une observation donnée, est modélisé selon Eq.19, dans les domaines temporel et fréquentiel.

Dans l’approche décrite ci-après, on s’attache à caractériser l’empreinte fréquentielle FDVV comme découlant d’un modèle implicite de sous-mélangeH ^smxpar l’approximation exprimée en Eq.20 (qui n’est en générale pas une égalité exacte sauf situations particulières). L’expression de l’équation Eq.20 est donnée ici en pratique pour le vecteur vélocité classique et peut être adaptée pour le vecteur vélocité généralisé en remplaçant H_W par le matriçage du vecteur H par une matrice décrite plus loin.

En particulier à des instants d’attaque du signal, le modèle impliciteh ^smx(t) s’apparente plausiblement au début de la réponse impulsionnelle spatialeh ^early(t) au moins en termes de directions et retards relatifs de fronts d’onde. Les paramètres implicites de gains relatifs g_n étant quant à eux impactés par le fenêtrage temporel et les caractéristiques dynamiques du signal, ils ne se présentent pas nécessairement comme conformes à ceux de la réponse impulsionnelle. S’intéressant ici prioritairement à l’onde directe (qui fournit la DoA) et à une ou quelques réflexions précoces, il est considéré essentiellement les situations où l’observation en est caractéristique.

A des fins d’illustration notamment, il est exposé ci-après un exemple de traitement ne tenant en compte qu’une seule réflexion avec estimation dans le domaine fréquentiel du vecteur vélocité classique, le cas du vecteur vélocité généralisé étant présenté plus loin. On traite ici le cas d’une interférence simple (essentiellement entre le son direct et une première réflexion), et on montre comment déterminer les paramètres cherchés en mettant en lumière une structure spatio-fréquentielle particulière, en regardant non seulement la partie réelle mais aussi la partie imaginaire du vecteur vélocité. En effet, le champ ambisonique s’écrit selon Eq.21, et on en déduit le vecteur vélocité selon Eq.22. Il découle de cette expression que les parties réelles et imaginaires parcourent des segments parallèles dans l’espace 3D (respectivement affine et linéaire) lorsque les fréquences parcourent le spectre audio considéré comme présenté dans Eq.23. Le segment affine (partie réelle) est sur une droite contenant les vecteurs unitaires U0 et U1 pointant vers les ondes respectivement directe et indirecte, et les deux segments sont orthogonaux au plan médian de ces deux vecteurs (et donc la partie imaginaire du vecteur l’est toujours elle-même puisqu’elle se trouve sur le segment linéaire). Par ailleurs, en supposant une distribution homogène des déphasages entre les ondes (donc un balayage représentatif des fréquences), selon un calcul de statistiques, la moyenne de la partie réelle du vecteur vélocité est égale au vecteur U0 comme exprimé en Eq.24 et le maximum de probabilité est une moyenne de U0 et U1 pondérée par l’amplitude respective des ondes comme exprimé en Eq.25. Les détections de DoA basées sur un maximum de probabilité sont donc entachées d’un biais angulaire systématique, donnant une direction intermédiaire entre le son direct et sa direction. Les équations Eq.23 montrent que ce balayage spatial se fait avec une périodicité fréquentielle égale à l’inverse du retard TAU1 entre les deux ondes. Il est donc possible d’extraire les directions U0 et U1 ainsi que le retard TAU1 à partir des observations, lorsque de telles structures spatio-fréquentielles peuvent être observées. Il est présenté plus loin une autre réalisation d’estimation de ces paramètres dans le domaine temporel (description en lien avec la ).

En disposant d’un a priori sur l’orientation de la surface de réflexion par rapport au repère du microphone, on peut alors déduire de l’estimation de U0, U1, TAU1, l’information de distance absolue d de la source par rapport au microphone, et éventuellement l’altitude des deux. En effet, en notant d0 la distance de la source S0 au microphone M, et d1 celle de son image-miroir S1 par rapport à la surface de réflexion R comme illustré sur la , la surface R est orthogonale au plan formé par les vecteurs U0 et U1. Les trois points (M,S0,S1) sont dans un même plan orthogonal à la surface R. Il reste à définir un paramètre à déterminer pour définir l’orientation (ou inclinaison) du plan de réflexion. Dans le cas d’une réflexion par le sol ou le plafond (détectée ainsi parce que U1 pointe vers le sol ou le plafond), on peut exploiter l’hypothèse que celui-ci est horizontal et parallèle au plan X-Y du repère du microphone ambisonique. Alors les distances d0 et d1 sont liées par la relation Eq.26, laquelle donne d’ailleurs directement la distance du microphone M à l’axe (S0,S1), PHI0 et PHI1 étant les angles d’élévation respectifs des vecteurs U0 et U1.

On a en outre une estimation du retard TAU1 du son réfléchi relativement au son direct, ce qui permet d’accéder à une autre relation Eq.27 entre les distances, puisque que leur différence traduit le retard de trajet acoustique, avec un facteurcqui est la vitesse du son.

En exprimant d1 en fonction de d0, cette dernière quantité devient la seule inconnue, qui peut être estimée selon Eq.28. On obtient également la distance de la source au plan de réflexion, c’est-à-dire sa hauteur ou altitude z0 par rapport au sol selon Eq.29, ainsi que celle du microphone en Eq.30.

Les différents paramètres U0, U1, PHI0, PHI1, d1, d0, etc. sont illustrés sur la dans l’exemple d’une réflexion sur un sol. Bien entendu, des paramètres similaires peuvent être déduits quant à une réflexion sur un plafond. De la même manière, des paramètres similaires peuvent être déduits quant à une réflexion sur toute autre surface de réflexion R dont l’orientation par rapport au référentiel du microphone est connue, orientation que l’on caractérise par la normale nR (vecteur unitaire orthogonal à la surface R). Il suffit de redéfinir les angles PHI0 et PHI1 par rapport à la surface réfléchissante R, de façon générale en tant que PHI0=arcsin(U0.nR) et PHI1=arcsin(U1.nR). On peut ainsi déterminer par le vecteur U1 associé à chaque cas de réflexion des positions respectives de ces obstacles, pour des applications de réalité augmentée ou en robotique pour une estimation de localisation par détection acoustique.

Dans les cas où l’orientation n_Rde la surface de réflexion n’est pas connue a priori, il est possible de l’estimer complètement si l’on dispose, par des observations à différents moments, d’estimations des paramètres de front d’onde associées à au moins deux positions de source, pour lesquelles on détecte une réflexion par ce même plan de réflexion. On dispose ainsi d’un premier jeu de paramètres (U0, U1, TAU1) et d’au moins un deuxième (U0’, U1’, TAU1’). Comme U0 et U1 définissent un plan orthogonal au plan R, leur produit vectoriel définit un axe de ce plan R, et il en est de même d’un produit vectoriel tiré de U0’ et U’1.

Ces produits vectoriels respectifs (non-colinéaires) définissent à eux deux l’orientation du plan R.

Toutefois, une limitation du modèle à seulement deux ondes interférentes (un son direct et une onde réfléchie) est qu’il peut être difficile de discriminer les différentes premières réflexions sur les cloisons. Par ailleurs, le comportement spatio-fréquentiel du vecteur vélocité se complexifie rapidement lorsque des réflexions supplémentaires sont introduites. En effet, le parcours des parties réelles et imaginaires se combinent alors, et de façon non triviale, suivant plusieurs axes :
- dans des plans parallèles pour une onde directe et deux réflexions,
- ou dans tout l’espace en général.

Ces distributions spatio-fréquentielle complexes rendent trop fastidieuse la détermination des paramètres du modèle lorsque plusieurs surfaces de réflexion sont à considérer.

Une solution à ce problème consiste à opérer une analyse temps-fréquence plus sélective temporellement (c’est-à-dire avec des fenêtres temporelles plus courtes) pour avoir la chance de voir se manifester un mélange acoustique plus simple lors des attaques d’amplitude (transitoires, montée du signal), c’est-à-dire réduire le nombre de réflexions interférant avec le son direct dans le mélange présent dans la trame en question. Cependant dans certaines situations, les retards associés aux réflexions successives peuvent être trop proches les uns des autres pour isoler l’effet de la première réflexion dans son interférence avec le son direct.

Il est proposé alors ci-après un traitement permettant de séparer facilement les effets de multiples interférences et de caractériser celles-ci. Une première étape consiste à convertir l’empreinte du vecteur vélocité dans le domaine temporel (ou « TDVV », pour "Time-Domain Velocity Vector"), au moyen d’une Transformée de Fourier Inverse comme présenté en Eq.31. Cela a pour effet de condenser les effets de cyclicité fréquentielle associée à certains axes et qui se manifestent en de complexes pérégrinations du vecteur vélocité, en des données plus parcimonieuses et donc plus facilement analysables. En effet une telle conversion fait apparaître des séries de pics à intervalles temporels réguliers, pics dont les plus importants sont facilement détectables et extractibles (voir par exemple la ).

Une propriété remarquable est que par construction (du fait de la Transformée de Fourier inverse) le vecteur en t=0 est égal à la moyenne du vecteur vélocité dans le domaine fréquentiel (moyenne de sa partie réelle si on ne considère que le demi-spectre des fréquences positives). Une telle observation est pertinente pour l’estimation de la DoA principale U0.

Repartant du modèle fréquentiel du vecteur vélocité pour deux ondes interférences (son direct et une réflexion), on peut reformuler utilement le dénominateur grâce au développement de Taylor de l’Eq.32. Avec les conditions sur x et gamma1 données dans l’Eq.32, on arrive à l’expression Eq.33 du vecteur vélocité (classique), et sous condition que la réflexion est d’amplitude moindre que le son direct (g1<g0=1, ce qui est le cas en général pour des débuts d’attaque du son), la Transformée de Fourier inverse de cette expression converge et se formule comme exprimé dans l’équation Eq.34, où l’on identifie un premier pic en t=0 qui donne U0 (la direction du son direct), puis une série de pics caractéristiques de l’interférence de la réflexion avec le son direct.

Ces pics sont placés en des instants t=kTAU1 multiples (entiers non nuls k>0) du retard TAU1, et sont d’amplitude exponentiellement décroissante en norme (selon le gain g1). En utilisant le vecteur vélocité classique, ils sont associés tous à des directions colinéaires à la différence U0-U1, donc orthogonales au plan médian entre ces deux vecteurs, et de direction (signe) alternante. L’avantage d’avoir converti le vecteur vélocité dans le domaine temporel est la présentation de façon parcimonieuse et quasi-immédiate des paramètres recherchés ( ).

Ainsi, il est possible de déterminer, outre la DoA principale U0 :
- le retard TAU1, possiblement pour plusieurs parois distinctes,
- puis un vecteur colinéaire à U0-U1 que l’on normalise en un vecteur unitaire n, dont on peut se servir, avec l’équation Eq.41 par exemple (donnée pour le vecteur vélocité classique), pour
- déduire U1 comme étant le symétrique de U0 par rapport à leur plan médian, et
- optionnellement, le paramètre d’atténuation g1 (celui-ci étant susceptible d’être modifié par les paramètres d’analyse temps-fréquence, en particulier par la forme d’une fenêtre d’analyse et par son placement temporel relativement aux événements acoustiques observés. L’estimation de ce paramètre est donc de moindre utilité dans les contextes d’application visés ici).

L’observation des pics temporels suivants permet de vérifier s’ils sont sensiblement conformes à la même série (retards multiples TAU1, retards multiples TAU2, etc.) et donc caractéristiques de la même interférence, sans quoi il faut par exemple déterminer la présence de multiples réflexions.

On distingue ci-après un cas à « conditions favorables » où, dans le cas de N réflexions, on applique le développement de Taylor pour donner le vecteur vélocité classique selon Eq.35, sous condition que la somme sur N des gammas à l’équation Eq.35 reste inférieure à 1. La série de Taylor, qui traduit le dénominateur dans l’expression initiale, peut se réécrire en utilisant la loi multinomiale de l’équation Eq.36, ce qui permet de réorganiser l’expression du modèle de vecteur vélocité classique V en somme de plusieurs séries, avec des « séries croisées » représentées par le terme SC de Eq.37. Pour le vecteur vélocité généralisé V’, on retrouve une équation légèrement différente dans l’équation Eq.B2 à la fin de l’annexe, cette équation étant notée également Eq.35b car elle correspond à l’équation Eq.35 mais donnée ici pour le vecteur vélocité généralisé. D’ailleurs à la fin de l’annexe sont données les équations propres au vecteur vélocité généralisé V’ et la correspondance avec une équation précédemment écrite et propre au vecteur vélocité classique, est indiquée par un « b » après le numéro d’équation (Eq.xxb).

Sous la condition Eq.38 pour le vecteur vélocité classique et toute fréquence f (équation Eq.B3=38b pour le vecteur vélocité généralisé), on en déduit par Transformée de Fourier inverse la série temporelle suivante Eq.39 (équation Eq.B4=39b pour le vecteur vélocité généralisé), avec des séries à retards combinés SARC. On identifie un premier pic en t=0 qui donne U0 (la direction du son direct), puis pour chaque réflexion une série de pics caractéristiques de l’interférence de cette réflexion avec le son direct. Sur la figure 2 par exemple, ces pics sont placés à des abscisses temporelles positives successives, TAU, 2TAU, 3TAU, etc., multiples du retard TAU entre la réflexion sur une paroi et le trajet direct.

Il apparait ensuite (pour des abscisses temporelles plus grandes) des séries caractéristiques d’interférences entre plusieurs réflexions sur plusieurs parois et le son direct, dont les retards sont d’autres combinaisons (avec facteurs entiers positifs) de leurs différents retards.

En effet, la illustre une telle série dans le cas simplifié de deux réflexions interférant avec un son direct. Chaque marqueur (respectivement rond, croix, losange) indique par son ordonnée la contribution des vecteurs U0, U1, U2 (caractéristiques du son direct, d’une première réflexion et d’une deuxième réflexion respectivement) à l’empreinte temporelle TDVV en fonction des abscisses temporelles. On voit ainsi que la réception du son direct est caractérisée par le premier pic au temps zéro et d’amplitude 1, illustrée par un rond. L’interférence d’une première réflexion (retard TAU1) avec le trajet direct occasionne une première série de pics en TAU1, 2xTAU1, 3xTAU1, etc., qui sont marqués ici par une croix à une extrémité et un rond à l’autre extrémité (haut-bas). L’interférence d’une deuxième réflexion (retard TAU2) avec le trajet direct occasionne une deuxième série de pics en TAU2, 2xTAU2, 3xTAU2, etc., marqués ici par un losange à une extrémité et un rond à l’autre extrémité. Intervient ensuite un élément des « séries croisées », c’est-à-dire les interférences entre les réflexions (premier retard : TAU1+TAU2, puis 2TAU1+TAU2, puis TAU1+2TAU2, etc.). Ces séries croisées, dont l’expression est accessible mais longue à écrire dans un cas général, ne sont pas explicitées ici par souci de concision, d’autant qu’elles n’ont pas besoin d’être exploitées pour estimer les paramètres pertinents dans le traitement présenté ici.

On décrit ci-après l’analyse de l’empreinte temporelle par estimation séquentielle des paramètres.

L’estimation des paramètres du modèle d’après une série temporelle calculée se fait de façon similaire au cas d’une seule réflexion précédemment décrit. On se place d’abord dans la situation la plus générale (excluant des cas particuliers traités ensuite), correspondant à un cas favorable lorsque les retards ne se « chevauchent » pas : les séries décrites ci-dessus ne connaissent alors pas de coïncidence temporelle, c’est-à-dire que tout pic identifiable appartient à une seule d’entre elles. Donc en relevant les pics temporels par retard croissant à partir de t=0, tout nouveau pic détecté, de retard TAUnew, peut être soit attribué à une série déjà identifiée, soit définir le début d’une nouvelle série. En effet, compte-tenu d’un ensemble de retards caractéristiques de réflexions déjà identifiées, le premier cas se détecte s’il existe des entiers positifs k ou pour partie nuls donnant TAUnew selon Eq.40, sans quoi on tombe dans le deuxième cas et l’on augmente le jeu des réflexions identifiées en introduisant le nouveau retard TAUN+1, associé à une direction que l’on peut estimer de la manière décrite dans le cas d’une réflexion seule.

En pratique, il peut ne pas être nécessaire de chercher à expliquer de nombreux pics temporels. On se restreint à de premiers pics observés, d’autant plus qu’ils sont les plus facilement détectables car d’amplitudes (ou magnitudes, en valeur absolue) plus importantes que les suivants. Ainsi, les situations où des retards ont des multiples communs mais sont de rang Ki ; Kj élevés (ou non faibles) peuvent être analysées en fonction de l’amplitude par le traitement ci-dessus.

Tant que la somme des modules de gains implicites gn (n>0) est inférieure à 1 (Eq.38 pour le vecteur vélocité classique), la Transformée de Fourier inverse (Eq.31) donne une empreinte temporelle unidirectionnelle se développant sur les temps positifs.

Si en revanche la somme des modules de gains implicites gn (n>0) est supérieure à 1, la Transformée de Fourier inverse donne une empreinte temporelle TDVV « bidirectionnelle », avec des séries se développant en général à la fois vers les temps positifs et vers les temps négatifs (courbe du haut de la à titre d’illustration). Une telle situation dans laquelle un ou plusieurs gains de réflexion seraient plus grands que 1 peut se rencontrer par exemple quand l’onde directe est d’amplitude moins grande que la somme des amplitudes des ondes issues des réflexions sur une ou plusieurs cloisons. Dans ce « cas défavorable », le pic principal au temps zéro ne correspond plus strictement au vecteur u0, mais à un mélange de celui-ci avec une proportion plus ou moins importante des vecteurs désignant les directions des réflexions. Cela entraîne un biais de localisation (de la ‘DoA estimée’). Un autre symptôme est que le pic principal a alors une norme différente de 1 en général, et plus souvent inférieure à 1.

L’invention vient proposer un procédé robuste notamment dans ce type de situation. Elle propose d’aménager l’expression du vecteur vélocité en conférant une sélectivité spatiale vers la DoA à la composante D qui apparait à son dénominateur à la place de la composante omnidirectionnelle W habituelle.

En conférant une figure de directivité à la composante de référence D, l’atténuation relative associée à chaque réflexion d’indice n est affectée au dénominateur par un facteur BETAn, en même temps qu’un facteur global NU0 est calculé (équation Eq.B1 de l’annexe), ce qui aboutit à une expression du vecteur vélocité généralisé donnée par l’équation Eq.B2=35b pour un modèle à N réflexions, comme introduit ci-avant pour le cas du vecteur vélocité généralisé. On notera que la condition pour un développement en série de Taylor tel que présenté dans le membre de droite de l’équation, est maintenant donnée par l’équation Eq.B3=38b. On comprend bien que grâce aux facteurs d’atténuation supplémentaires BETAn, cette condition est plus facilement respectée dans plus de situations. Il est rappelé qu’un indicateur du respect de cette condition et du modèle qui en découle, est le caractère causal de la série temporelle globale. Sous cette condition vérifiée pour l’ensemble des fréquences, le modèle de vecteur vélocité généralisé dans le domaine temporel se décline alors sous la forme de l’équation Eq.B4=39b qui fait apparaître (de façon similaire au cas du vecteur vélocité classique, à l’équation Eq.39) :
- un premier pic en t=0 donc la direction donne la DoA, le vecteur U0 s’obtenant par normalisation de l’équation Eq.B5,
- autant de séries temporelles que de réflexions, chacune associée à l’interférence entre une réflexion et le son direct, et dont la valeur des vecteurs observés à intervalles réguliers TAUn, est reportée dans l’équation Eq.B6,
- et des séries à retards combinés notées SARC qui ne sont pas utilisées dans la procédure d’estimation qui suit.

Partant de l’équation Eq.B6 en fin d’annexe, on retient une relation particulière entre deux vecteurs successifs d’une série, notamment entre les deux premiers vecteurs V’(TAUn) et V’(2.TAUn), les plus saillants. L’équation Eq.B7 fait ainsi apparaître un facteur (-Gn/BETAn) noté ici « RHO » et dont l’équation Eq.B8 propose une estimation en tant que produit scalaire des deux premiers vecteurs précités de la même série V’(TAUn) et V’(2.TAUn), ce produit scalaire étant divisé par la norme au carré du premier. En réintégrant le facteur RHO dans l’équation Eq.B6, l’équation Eq.B9 obtenue peut être réorganisée pour donner l’équation Eq.B10. Celle-ci montre dans son membre de droite, le vecteur Un (en particulier, le vecteur U1 si l’on se focalise sur la première réflexion et sa série associée), affecté par un facteur NU0/Gn qui est positif (sauf situation a priori rare telle qu’une réflexion avec inversion de phase) : il peut donc être obtenu par normalisation du membre de gauche V’(TAUn)-RHO.V’(0).

Par ailleurs, le facteur global NU0 est susceptible d’intégrer d’autres facteurs d’influence que la directivité de référence, par exemple une réduction globale d’amplitude qui pourrait être provoquée par une limitation de la bande passante fréquentielle du signal source, et/ou son masquage partiel par du bruit (bien que ce dernier effet soit en général plus complexe à modéliser). Il est intéressant de noter que finalement, la direction du vecteur U1 (ou plus généralement Un) peut être estimée de la même façon et ce pour une cause quelconque de cette réduction globale d’amplitude NU0.

On notera par ailleurs que ce mode d’estimation s’applique également au vecteur vélocité classique (auquel cas il faut simplement considérer que BETAn=1).

On décrit ci-après un exemple de réalisation pratique utilisant le vecteur vélocité généralisé, pour déterminer des paramètres tels que la DoA notamment.

Dans cet exemple de réalisation décrit ici à titre illustratif en référence aux figures 6A à 6D, et 7, une première estimation des retards (étape S71 de la ) est effectuée avec le vecteur vélocité classique, calculé « normalement » :
V(f) = 1/W(f) [X(f), Y(f), Z(f)]T
par exemple ici sur des composantes ambisoniques du premier ordre.

A l’étape S721, des calculs présentés ci-avant sont menés à partir de l’expression fréquentielle du vecteur vélocité classique V(f) jusqu’à l’estimation de l’expression temporelle du vecteur vélocité classique V(t).

A l’étape S731, l’analyse de l’expression temporelle du vecteur vélocité classique V(t) est réalisée en tant que série temporelle de pics. Dans cette analyse, on détermine en particulier s’il est possible de l’identifier effectivement (à des perturbations mineures près) à une série temporelle de type unidirectionnel se développant uniquement dans les temps positifs (comme une véritable « réponse causale »), comme décrit par les équations Eq.39 et Eq.40 de l’annexe.

Si on trouve, dans l’analyse de l’expression du vecteur vélocité classique V(t) dans le domaine temporel, des structures de pics dans des temps négatifs (par exemple supérieures en énergie ou en amplitude à un seuil THR choisi), comme typiquement les pics présents en abscisses négatives de la , alors cela signifie qu’on ne peut pas raisonnablement l’identifier à l’équation Eq.39 et donc que l’estimation de la DoA donnée par le pic V(t=0) est biaisée. Qui plus est, cela est symptomatique du fait que la condition de convergence de la série de Taylor permettant d’aboutir à l’équation Eq.39 n’est pas remplie, et donc du fait que la quantité d’ondes indirectes mélangées au son direct dans le dénominateur du calcul de V(f), est proportionnellement trop importante. Dans l’amélioration proposée ici, on réduit cette proportion d’ondes indirectes par filtrage spatial. Cela signifie qu’il faut améliorer une directivité (celle rentrant en jeu au dénominateur) dans l’estimation du vecteur vélocité V(f).

On applique alors un filtrage spatial aux données ambisoniques obtenues pour former un faisceau dans la direction (DoA) estimée à l’étape S751 en tant que V(t==0) d’après le vecteur vélocité obtenu précédemment (étape S71). En effet, tout en étant probablement erronée, cette première estimation est susceptible de fournir une approximation certes grossière mais suffisante pour orienter ce faisceau vers la provenance du son direct et atténuer les réflexions venant de secteurs angulaires plus lointains.

On calcule un vecteur vélocité modifié V’(f), puis V’(t) dans le domaine temporel (étape S781), sur la base de ces données ambisoniques filtrées.

On détermine au test S732 s’il reste encore des pics d’abscisses temporelles inférieures à 0 dans l’expression temporelle de vecteur vélocité modifié V’(t). On peut déterminer que la structure de signal présente dans les abscisses temporelles négatives (estimée par exemple en énergie (référencée « NRJ » sur la ) et donnée par exemple par l’intégrale du signal aux temps négatifs) reste supérieure à un seuil THR, comme illustré à titre d’exemple sur la , même si l’on peut noter une amélioration relativement à la précédente.

Dans ce cas, on peut réitérer le procédé à nouveau en prenant l’estimation de la DoA(n) grossière obtenue précédemment (S752) pour déterminer une composante de référence D(f) (notée D(n) pour l’itération n du procédé à l’étape S762) dont la directivité permet de représenter la direction du son direct de façon plus sélective que son estimation D(n-1) à l’itération précédente et remplacer (S772) cette dernière D(n-1) dans l’estimation du vecteur vélocité généralisé V’(f), puis V’(t) à l’étape S782. Ainsi, la directivité d’une composante de référence « capte » plus sélectivement la direction estimée du son direct qu’une composante de référence à une itération précédente. Dans cet exemple de réalisation, on ne dispose pas forcément des ordres ambisoniques supérieurs à 1 et pourtant on peut ajuster à la fois l’orientation et la forme de la directivité pour capter mieux le son direct et ce en captant moins certaines réflexions par exemple.

Le procédé peut ainsi être réitéré jusqu’à ce que les pics à des temps négatifs soient inférieurs en amplitude ou en énergie au seuil choisi THR, comme illustré sur la .

Ainsi, il est conféré successivement une sélectivité croissante vis-à-vis du son direct à la composante qui est au dénominateur du vecteur vélocité (classique puis généralisé) au fur et à mesure des itérations, dans son expression à l’ordre 1. Dans la , on est alors passé de la composante W omnidirectionnelle sous forme d’une sphère (en gris clair), à une composante D(1) plus sélective et ayant dans cet exemple la forme d’une super-cardioïde en gris plus foncé, puis à D(2) ayant une forme de super-cardioïde plus étroite en gris sombre.

En reprenant plus en détail le procédé illustré sur la , la première étape S71 commence par la construction du vecteur vélocité classique dans le domaine fréquentiel V(f) avec la composante omnidirectionnelle W(f) à son dénominateur. A l’étape S721, il est estimé son expression V(t) dans le domaine temporel. Ensuite, si au test S731, il est identifié une structure de signal représentant l’expression temporelle du vecteur vélocité classique V(t) avec des pics de sorte que l'énergie NRJ de cette structure de signal à des abscisses temporelles négatives (t<0) reste inférieure à un seuil fixé THR (flèche KO), alors la situation acoustique présente permet déjà de dériver directement du vecteur vélocité classique une DoA non biaisée. Dans ce cas, il peut être déterminé les paramètres DoA, U0, U1, etc. à l’étape S741 comme décrit précédemment. Sinon (flèche OK en sortie du test S731), l’estimation de la DoA directement par le vecteur vélocité classique est biaisée, et il doit être procédé à au moins une première itération (n=1) dans laquelle le vecteur vélocité est affiné pour déterminer un vecteur vélocité généralisé, comme suit.

A partir de cette estimation de DoA, même biaisée (obtenue à l’étape S751), on estime une composante de référence D(1) à l’étape S761 dans le domaine fréquentiel, pour remplacer à l’étape S771 la composante omnidirectionnelle W(f) dans l’expression du vecteur vélocité, maintenant « généralisé », V’(f). A l’étape S781, l’expression temporelle du vecteur généralisé V’(t) est estimée pour déterminer au test S732 s’il reste une énergie significative (supérieure au seuil THR) dans la structure du signal de cette expression V’(t) à des abscisses temporelles négatives. Si tel n’est pas le cas (flèche KO en sortie du test S732) le procédé peut s’arrêter à cette première itération en donnant les paramètres DoA, etc. à l’étape S742. Sinon, le procédé est réitéré, en mettant à jour l’indice n d’itérations du procédé, à l’étape S791 (ici, les étapes référencées S79x étant relatives aux itérations du procédé, comme l’incrémentation de l’indice n (étape S793) ou la détermination de l’arrêt du procédé S792-S794).

Comme précédemment, en fonction de la DoA grossière estimée à l’itération précédente (étape S752), il est estimé une nouvelle composante de référence D(n) à l’étape S762, pour remplacer l’ancienne composante de référence D(n-1) au dénominateur du vecteur vélocité généralisé V’(f) à l’étape S772. De cette nouvelle expression du vecteur vélocité généralisé V’(f) dans le domaine fréquentiel, on détermine son expression dans le domaine temporel V’(t) à l’étape S782. On réitère la comparaison de sa structure de signal (en énergie par rapport au seuil THR) au test S733, pour déterminer si la nouvelle DoA qui peut en être estimée serait biaisée ou non. Si tel n’est pas le cas (flèche KO en sortie du test S733), alors on peut obtenir les paramètres notamment de DoA, etc. à l’étape S743, ici après trois itérations comme dans l’exemple illustratif des figures 6A à 6C. Sinon (flèche OK en sortie du test S733), le procédé doit être réitéré à nouveau à partir de l’étape S752 avec la DoA dernièrement estimée, même grossière et possiblement biaisée.

Il est décrit ci-après un exemple de calcul possible de la composante de référence D(f) à partir d’une DoA estimée précédemment. Dans un formalisme tel que celui présenté dans les équations de l’annexe, la composante dérive typiquement d’un matriçage (ou d’une somme pondérée par un vecteur ) des composantes ambisoniques:

, où
- est un vecteur de signaux décrivant un champ ambisonique dans le domaine fréquentiel tel que par exemple où , dans le cas d’une onde plane portant un signal S(f) et provenant d’une direction décrite par le vecteur unitaire , de sorte que pour le mélange d’ondes directes et indirectes considéré on a , où est le vecteur des coefficients harmoniques sphériques , et
- peut être un vecteur de type ‘steering vector’ provoquant un beamforming (« formation de voie » ou « formation de faisceau » en français) orienté en général dans une direction particulière (qu’on peut désigner aussi par un vecteur unitaire ), de sorte que , ,
en définissant un gain de ‘steering gain’ tel que :

Jusqu’à l’ordre 1, la fonction sphérique est à symétrie axiale, les degrés de liberté disponibles n’influençant que la proportion entre lobes positif et négatif (le cas échéant) en plus de l’orientation. A partir de l’ordre 2 et suivant les coefficients du vecteur , le lobe principal (a priori dans la direction ciblée) n’a pas forcément de symétrie, et des lobes secondaires peuvent avoir des formes et orientations plus variées. Donc en dépit de la notation , le beamforming n’est pas uniquement paramétré par la direction principale ciblée .

Dans le cas particulier d’une directivité formée à symétrie axiale, il est de la forme :

Le gain s’exprime alors comme un polynôme du produit scalaire (une variante de polynôme de Legendre) :

Les coefficients diagonaux peuvent prendre en compte :
- d’une part, le choix de convention d’encodage ambisonique, donc de calcul des fonctions harmoniques sphériques ;
- et d’autre part, des critères pour jouer sur la forme du faisceau (ou « beam ») en affinant la forme choisie du faisceau grâce au choix de ces coefficients diagonaux (finesse et proportion des lobes principal et secondaires, par exemple).

On peut se référer utilement pour ces aspects au document de thèse de Jérôme Daniel (2000), notamment aux pages 182 à 186 et à la figure 3.14, où les outils proposés pour le décodage spatial sont directement applicables à la construction de directivité à partir de signaux ambisoniques comme présenté ici pour la composante de référence D.

Selon un tel formalisme, on retiendra qu’il est possible de définir des coefficients de gain pour conférer une sélectivité à la composante D(f) exprimée ci-dessus en fonction de .

En référence à nouveau à la , il convient de noter que selon les situations acoustiques, il se peut qu’on ne trouve aucune forme du vecteur vélocité généralisé V’(t) dans le domaine temporel ayant une bonne allure de type « causal », et donc une bonne estimation de DoA. En référence à nouveau à la , il est ajouté à titre d’exemple un critère d’arrêt pour sortir des itérations du procédé quand il n’améliore plus la forme du signal illustrant le vecteur vélocité généralisé V’(t) dans le domaine temporel. Ainsi, si à la fin d’une itération précédente, au test S733, l’énergie de ce signal est toujours supérieure au seuil THR dans les abscisses temporelles négatives (t<0), et si les itérations du procédé n’améliorent pas (ou plus) l’estimation du vecteur vélocité généralisé V’(t), ce qui peut se manifester à la fois par :
- des énergies de signal supérieures au seuil THR pour les temps négatifs, et
- des énergies de signal ne décroissant pas d’une itération n-1 à la suivante n (flèche KO en sortie du test S792),
alors les itérations du procédé peuvent s’arrêter à l’étape S794.

Sinon (flèche OK en sortie du test S792), le procédé peut être exécuté pour une itération suivante à l’étape S793 en commençant par une incrémentation du compteur d’itération n.

Pour minimiser l’occurrence du cas où le procédé doit s’arrêter à l’étape S794, par faute de convergence vers une solution de DoA non biaisée, dans une telle situation acoustique la « pire », il est possible de reprendre l’enseignement du document précité FR1911723, pour des solutions permettant par exemple d’isoler les meilleures trames pour augmenter les chances d’une détermination non biaisée (trames d’attaque de signal par exemple).

En effet, comme décrit dans le document FR1911723, en fonction de l’importance relative de ce problème, on peut évaluer à quel point le vecteur U0 offre une estimation de DoA raisonnable (faiblement biaisée), fournissant donc un facteur de confiance sur l’estimation et permettant de retenir préférentiellement l’estimation faite sur certaines trames. Lorsque le risque de biais d’estimation s’avère excessif, on peut sélectionner les trames les moins exposées à ce problème, comme décrit plus loin en référence aux figures 3A et 3B.

Les réalisations décrites ci-après peuvent s’appliquer alors à l’estimation du vecteur vélocité classique notamment, par exemple lors d’une première itération du procédé décrit précédemment en référence à la . Etant déjà décrits dans le document FR1911723, ces traitement à appliquer au vecteur vélocité classique sont alors rappelés ci-après.

On peut procéder donc à l’observation des premiers pics pour une salle donnée par l’analyse fréquentielle de sous-trames temporelles. Les trames où se localisent des attaques du signal (montée d’énergie, transitoire, etc.) sont celles qui permettent d’observer un mélange acoustique impliquant seulement les fronts d’onde les plus précoces : le son direct et une ou plusieurs réflexions (de sorte que la « somme des gammas » précitée reste inférieure à 1 selon Eq.38).

S’agissant de trames contenant les attaques du signal, on peut ajuster (éventuellement de façon dynamique) la fenêtre temporelle pour l’analyse fréquentielle, en lui donnant par exemple une forme asymétrique et globalement décroissante, de sorte que la « bosse » de la fenêtre donne plus de poids à la montée du signal (attaque, transitoire) donc au son direct, et progressivement moins de poids (par exemple, mais sans obligation, de façon approximativement exponentielle). Ainsi on réduit artificiellement l’amplitude des fronts d’onde plus tardifs par rapport aux fronts d’onde plus précoces, et on s’approche de la condition de convergence la série de Taylor assurant un développement temporel unidirectionnel.

Il est présenté ci-après à titre d’exemple un fenêtrage temporel de type exponentiel décroissant, à appliquer sur le signal analysé, afin de ramener l’analyse de l’empreinte temporelle qui en découle à un cas favorable sans biais substantiel sur l’estimation des directions d’arrivée des ondes. On pose l’opération, valable à partir d’un temps t₀désigné comme le temps 0 par commodité, et correspondant de préférence à l’instant d’une attaque de signal, précédée de silence, comme à l’équation Eq.42, avec ALPHA>0, et, en y réintégrant la forme convolutive impliquant s(t) eth(t), on trouve la forme de l’équation Eq.43.

L’équation Eq.44 fait intervenir alors la propriété de l’exponentielle pour laquelle ce choix se justifie, pour aboutir à la forme donnée à Eq.45, ce qui revient à établir l’équation Eq.46.

Donc si l’on modélise la réponse impulsionnelle par un ensemble de réflexions spéculaires s’ajoutant au son direct, on obtient, l’équation Eq.47.

Ainsi, si la somme des gamma est supérieure ou égale à 1 (avec une possibilité de « série bidirectionnelle »), il est toujours possible de déterminer un facteur d’atténuation ALPHA tel que la somme des gains ainsi « adaptés » (Eq.48) devienne inférieure à 1.

On constate alors que l’empreinte temporelle est de nature unidirectionnelle, ce qui est mis en évidence par des pics uniquement pour des temps positifs après application de la fenêtre à exponentielle décroissante (partie inférieure de la ). On observe aussi qu’en pratique l’énergie du signal observé décroit très vite avec l’exponentielle, l’impact numérique –sur les estimations– d’une troncature dudit signal devient tout à fait négligeable au-delà d’un temps relativement court de troncature. En d’autres termes, on obtient à plus court terme les avantages d’une analyse à long terme qui englobe à la fois tout le signal excitateur et sa réverbération. En effet, le « TDVV » observé est conforme au modèle d’interférence sans les erreurs dues à la dynamique du signal. C’est donc une double propriété que possède la pondération par une telle fenêtre, qui permet idéalement d’obtenir une empreinte temporelle exploitable.

En pratique, ne connaissant pas à l’avance l’amplitude des réflexions, il convient de déterminer l’atténuation ALPHA, en cherchant de préférence un compromis entre une valeur suffisamment basse pour assurer l’unidirectionnalité de l’empreinte temporelle et une valeur qui n’est pas trop basse pour éviter d’amoindrir les chances de détection et d’estimation des ondes indirectes. Par exemple, on peut déterminer cette valeur en termes de facteur d’atténuation a_EXPpar une durée t_EXPqui soit physiquement représentative des phénomènes observés (typiquement 5ms) de sorte que ALPHA = - (log a_EXP)/ t_EXP

Un processus itératif (par exemple par dichotomie) peut être mis en œuvre pour ajuster la valeur d’atténuation. A partir d’une valeur d’atténuation seuil, lorsque l’empreinte temporelle obtenue est détectée comme bidirectionnelle donc a priori avec un vecteur U0 biaisé, on réitère l’analyse avec une atténuation plus forte, sinon on adopte au moins l’estimation de U0 et si les pics suivants sont peu discernables (car diminués avec l’atténuation) alors on réitère l’analyse avec une atténuation intermédiaire entre les deux précédentes, et ainsi de suite s’il le faut jusqu’à pouvoir estimer le vecteur U1.

Néanmoins, l’approche d’une fenêtre à décroissance exponentielle peut être sensible aux perturbations notamment en début de fenêtrage où elles sont amplifiées de façon importante. Une perturbation autre qu’un bruit peut être simplement la réverbération de la source elle-même au début du fenêtrage si elle a été activée peu de temps avant. On peut alors introduire des traitements de débruitage pour réduire de telles perturbations.

On peut prévoir de manière générale des fenêtres temporelles de formes et/ou tailles différentes, voire un chevauchement entre fenêtres avec recouvrement afin de maximiser les chances d’obtenir une « empreinte favorable ».

On choisit une taille de DFT initiale généralement plus grande que cette fenêtre d’analyse.

Bien entendu, on se place dans le contexte de traitement de signaux audionumériques, échantillonnés à une fréquence d’échantillonnage donnée, sous la forme de blocs successifs (ou « trames ») d’échantillons.

On peut prévoir optionnellement encore un prétraitement avec détection d’attaque, de transitoire, etc., puis dé-bruitage temps-fréquence par exemple par définition d’un masque (filtre temps-fréquence, éventuellement binaire), de façon à éviter d’introduire dans l’empreinte d’interférence des éléments issus d’autres sources d’ambiance et/ou de champ diffus. Il convient de calculer la réponse impulsionnelle du masque (résultat de la transformée inverse) pour contrôler l’influence du masque sur l’analyse des pics. On peut alternativement l’intégrer dans une pondération fréquentielle de l’empreinte d’une trame considérée à mémoriser, de façon à calculer ultérieurement une moyenne pondérée d’empreintes fréquentielles correspondant a priori à des mélanges interférents semblables (typiquement sur des attaques de signal, en vérifiant que la source concernée n’a pas bougé, ce que l’on peut deviner à travers une estimation des retards).

Ainsi, on procède ensuite à l’extraction des pics et à leur observation, par exemple d’après la norme |V(t)| : un pic maximum, puis le suivant, donnent TAU1 (en général), etc.

On procède ensuite au diagnostic de l’empreinte temporelle, en détectant (d’après {tau_n} et V(sum(k_n.tau_n))) :
- si on a un re-bouclage temporel (une sorte d’ « aliasing » circulaire) du fait du choix d’une FFT sur un support temporel trop court,
- si on a bien une série unidirectionnelle progressive, ou au contraire une série bidirectionnelle,
ou encore si on est dans un cas particulier d’une série sans atténuation notable (quand la somme des gains sum(gn) reste proche de 1) ou encore d’une série rétrograde (quand au moins un gain g_n implicite > 1).

On peut alors :
- attribuer une note de « bonne trame » ou de « bonne empreinte » (permettant une estimation fiable,a priorisans biais de DoA, car unidirectionnelle), et la mémoriser,
- faire l’estimation (Un) et
- ajuster l’analyse en amont au besoin par le choix d’une fenêtre temporelle adaptée.

On a décrit ci-avant une analyse de l’empreinte temporelle mais une analyse fréquentielle peut être opérée plus simplement comme suit.

Il est facile de montrer mathématiquement que le pic au temps zéro est par construction égal à la moyenne du vecteur vélocité sur son spectre complet (la partie réelle s’annulant par symétrie hermitienne), ou encore de sa partie réelle si on ne considère que les fréquences positives. On peut estimer qu’il est alors inutile de calculer une Transformée inverse du FDVV pour avoir une estimation de DoA si on ne s’intéresse qu’au son direct. L’examen temporel du TDVV permet cependant de détecter si cette DoA est fiable (critère de développement vers les temps positifs et croissants).

Ce cas favorable s’observe plus plausiblement lors d’attaques du signal source, lorsque le mélange est encore peu complexe. De manière générale il suffit d’opérer l’estimation sur ces moments.

Par ailleurs, en pratique, les empreintes fréquentielle et temporelle du VV ne sont pas toujours identifiables à un modèle idéal de mélange d’ondes interférentes. Il se peut que le signal source n’excite pas suffisamment ou pas toujours aux moments-clés une plage significative de fréquences, faute de puissance émise, éventuellement compte tenu de la concurrence d’autres composantes du champ sonore capté (SNR ou SIR insuffisant). Ceci peut être lié à un fond sonore d’ambiance plus ou moins diffus (autres sources sonores), bruit microphonique.

On peut alors pratiquer l’un au moins de ces traitements ou plusieurs de ces traitements en combinaison :
- sélection d’échantillons temps-fréquence avec détection d’attaque selon des algorithmes évolués,
- lissage du vecteur vélocité sur plusieurs trames (moyenne de V(f) pondérée par exemple par les |W(f)|²des trames en question et un facteur d’oubli éventuellement dynamique), éventuellement en passant par le vecteur intensité,
- procéder à une moyenne de V(f) pondérée par |W(f)|²sur une sélection de trames d’attaque (si les retards extraits sont identiques), pour compléter l’empreinte fréquentielle et consolider l’empreinte temporelle.
Pour des raisons d’économie de calcul, on peut préconiser en outre de ne réaliser les calculs de TDVV, voire, en amont, de FDVV, que pour des trames que l’on détecte comme étant plus consistantes en information : par exemple les trames d’attaque si l’on est dans des situations où elles sont détectables par des traitements simples, auquel cas on a même intérêt à positionner la fenêtre d’analyse sur la montée du signal.

Pour la bonne estimation de retards non entiers (retard fractionnaire et ses multiples dans la série temporelle), on peut envisager une estimation de pic par interpolation inter-échantillons et/ou une analyse fréquentielle locale (en isolant le pic sur un voisinage resserré temporellement) et affiner le retard d’après la réponse en phase.

On peut effectuer une sélection préalable de pics temporels d’après une estimation courante des retards caractéristiques des séries.

Ainsi, on peut résumer les étapes mises en œuvre dans un exemple de réalisation possible comme illustré sur les figures 3A et 3B. A l’étape S1, on calcule la transformée de Fourier (de temporel à fréquentiel) des signaux ambisoniques qui peuvent être sous forme d’une succession de « trames » (blocs d’échantillons successifs). Pour chaque trame k transformée (étape S2), on peut appliquer un masque dynamique à certaines des bandes de fréquences pour lesquelles le rapport signal à bruit est inférieur à un seuil (certaines bandes de fréquences pouvant en effet être fortement bruitées par exemple par un bruit inhérent au microphone ou autre, de sorte que l’exploitation d’un signal capté dans cette bande de fréquences est compromise). En particulier, la recherche de bruit par bande de fréquences est opérée à l’étape S3 préférentiellement sur la composante « omni » W, et les bandes de fréquences altérées par le bruit (au-delà d’un seuil par exemple tel que SNR<0dB) sont masquées (c’est-à-dire mises à zéro) à l’étape S4.

Ensuite à l’étape S5, le vecteur vélocité V(f) est calculé dans le domaine fréquentiel par exemple par l’équation Eq.6 (ou encore sous la forme de Eq.11, Eq.18 ou Eq.20).

Dans un exemple de réalisation ici, on applique des poids q(f) calculés comme décrit plus loin pour donner plus ou moins d’importance à des bandes de fréquences f. Une telle réalisation permet d’exprimer le vecteur vélocité V(f) dans des bandes de fréquences où son évolution est significative. Pour ce faire, on calcule itérativement les poids optimums en fonction de U0 et V(f). Ainsi, en revenant au traitement algorithmique de la , à l’étape S6, les différents poids q(f) sont mis à 1. A l’étape S7, on applique la pondération q(f) appliquée à V(f) par bande, de sorte que Vbar(f) = q(f)V(f). A l’étape S8, on détermine U0 pour chaque trame k, tel que :
U0(k) = E(Re(Vbar(f))), où E(x) est ici à titre d’exemple l’espérance de x, ce qui s’apparente ainsi à une moyenne sur l’ensemble des fréquences de la partie réelle du vecteur vélocité estimé Vbar(f).

Bien entendu, cette première estimation de U0(k) est grossière. Elle est affinée itérativement en calculant les poids par rapport à la détermination précédente de U0(k) en utilisant l’équation Eq.49 s’appuyant sur la partie imaginaire du vecteur V(f), et où le vecteur m est un vecteur unitaire, normal au plan défini par le vecteur U0 et une normale à la paroi (la direction z de la par exemple). Le vecteur m est estimé itérativement aussi en fonction de U0 à l’étape S9, puis les poids sont calculés par Eq.49 à l’étape S10. Les poids trouvés sont appliqués à l’étape S7, et l’estimation de U0 est affinée jusqu’à convergence en sortie du test S11. A cette étape on a estimé U0(k) pour les différentes trames.

On peut en déduire U1, par une relation du type Eq.41 décrite précédemment. Dans la variante décrite ici, on détermine U1 par les équations Eq.50 à Eq.52, en ayant préalablement appliqué une transformée inverse IDFT (de fréquentielle vers temporelle) à l’étape S12 au vecteur Vbar(f) trouvé à l’étape S7, pour obtenir une représentation temporelle V(t) du vecteur vélocité. Une telle réalisation permet, comme vu précédemment en référence à la , d’identifier les différents retards TAU1, TAU2, etc. en cas de différentes surfaces réfléchissantes. Le premier retard TAU1 est identifié car il s’agit d’un premier pic de V(t) dans le temps qui suit l’instant de réception du trajet direct. Ainsi, dans l’équation Eq.51, tmax(k) est l’instant qui maximise le module de V(t)k calculé pour la trame k.

Au test S13, on vérifie pour chaque trame que le module de V(t=0) est bien supérieur à celui de V(t) pour t>0. Une trame ne vérifiant pas cette condition est éliminée à l’étape S14. On détermine ensuite à l’étape S15 les différents retards, TAU1, puis TAU2 (en retirant des modules de V(t)k à comparer dans Eq.51 ceux correspondant au retard TAU1), etc. Le retard TAUm est donné par la composante tmax trouvée à chaque itération m, divisée par la fréquence d’échantillonnage fs conformément à Eq.52, tenant compte que les temps t et tmax(k) sont d’abord exprimés en termes d’indice d’échantillon (le temps zéro étant pris comme référence pour l’indice zéro). On peut alors calculer également les vecteurs U1, U2, etc., avec l’équation Eq.50.

Les autres paramètres peuvent être déterminés également, notamment d0 donné par Eq.28 à l’étape S16 (en vérifiant ensuite au test S17 une cohérence avec des données de salle classique telle que d0min=0, et d0max=5m ; sinon la trame comporte une erreur et peut être rejetée à l’étape S14).

L’étape S18 peut consister à sélectionner davantage les « bonnes » trames, représentatives d’une attaque de son avec de premières réflexions. Le critère D(k) de sélection de telles trames peut être illustré à titre d’exemple par l’équation Eq.53 où C(f)_i ^(k)désigne une magnitude (amplitude en valeur absolue) détectée sur le canal ambisonique i, à l’échantillon temps fréquence (t, f) issu de la première transformée (temps vers fréquences) de la trame k. Epsilon désigne une valeur positive non nulle pour éviter un zéro au dénominateur en absence de signal.Fdésigne le nombre total de sous-bandes de fréquences utilisées.

On peut ainsi ne retenir à l’étape S22 que les trames dont le critère D(k) calculé à partir de Eq.53 n’est pas plus petit que 90% du maximum Dmax trouvé à l’étape S21 parmi les critères de toutes les trames D(k).

Ainsi, à l’étape S18, les valeurs D(k) sont calculées pour l’ensemble des trames, puis à l’étape S19, le traitement délivre les U0(k), d0(k), D(k) pour les différentes trames. A l’étape S20, les valeurs D(k) sont collectées pour identifier à l’étape S21 la plus élevée et éliminer à l’étape S22 les trames dont la valeur D(k) est inférieur à 0,9 Dmax.

Enfin, à l’étape S23, le vecteur U0 qui est retenu est préférentiellement ici le médian (plutôt que le moyen) parmi les vecteurs U0 des différentes trames retenues. La distance d0 retenue est aussi la valeur médiane parmi les distances d0 des différentes trames retenues.

Bien entendu la présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d’exemple ; elle s’étend à d’autres variantes.

On a décrit ci-avant une application à un traitement de signaux ambisoniques d’ordre 1 (FOA). L’ordre peut être supérieur pour un enrichissement en termes de résolution spatiale.

En effet, on a décrit ci-avant une représentation ambisonique d’ordre 1, mais il est possible de prévoir des ordres supérieurs. Dans ce cas, le calcul vecteur vélocité est augmenté des ratios des composantes directionnelles d’ordres supérieurs sur la composante W(f), et les vecteurs Un sont implicitement augmenté d’autant de dimensions. L’augmentation des dimensions (au-delà de 3) et donc de la résolution spatiale permet de mieux différencier les vecteurs U0, U1, … Un entre eux, et de détecter plus facilement, dans l’empreinte temporelle, les pics V(k*TAUn) qui sont proportionnels à (U0-Un), même lorsque les vecteurs U0 et Un sont proches angulairement, ce qui arrive dans le cas de réflexions rasantes (lorsque la source est lointaine et/ou proche du sol par exemple). Cela permet donc d’estimer plus finement les paramètres recherchés U0, U1, d0, etc. il convient de préciser en outre que le fait de ne garder ici que les trois composantes d’ordre 1 (X, Y, Z) au numérateur est indépendant du fait qu’on exploite éventuellement des composantes d’ordre(s) supérieur(s) disponibles pour construire la composante de référence au dénominateur. On peut dans tous les cas (quel que soit le dénominateur) envisager une amélioration du traitement ci-avant (de même que le traitement présenté dans FR1911723) en ajoutant des composantes d’ordre(s) supérieur(s) au numérateur, augmentant ainsi la dimensionnalité du vecteur vélocité et permettant notamment de mieux différencier ses pics dans le domaine temporel.

Plus généralement, on peut remplacer le vecteur vélocité par un ratio entre composantes d’une représentation acoustique spatiale de type « coïncident » dans le domaine fréquentiel et travailler dans un système de coordonnées caractéristique de ladite représentation spatiale.

Pour pallier les cas par exemple de plusieurs sources, le calcul de TDVV peut être exploité plus généralement en association avec des méthodes d’Intelligence Artificielle, dont les réseaux de neurones. Quelques stratégies d’entraînement envisagées (par exemple sur des empreintes issues de modèles ou de SRIR fenêtrées, et pas forcément d’après des signaux originaux) peuvent permettre que le réseau apprenne à exploiter la succession de trames pour améliorer les détections et estimations par rapport à des situations de salles données.

Par ailleurs, on a décrit ci-avant en référence aux figures 6A à 6D et 7, la possibilité d’estimer dans un premier temps le vecteur vélocité classique V(f) pour déterminer une première estimation grossière de la DoA et d’affiner ensuite l’estimation du vecteur vélocité généralisé V’(f) à partir de cette estimation grossière pour donner une DoA plus exacte. Bien entendu, il s’agit simplement d’un exemple de réalisation possible. Dans une variante par exemple, il est possible de découper d’emblée l’espace en plusieurs secteurs, de donner ainsi une directivité à la composante au dénominateur D(f) dans chacun de ces secteurs, et d’essayer une convergence du calcul de la DoA avec des procédés itératifs (du type de la à partir de l’étape S761 où D(1) serait simplement calculée en fonction du secteur angulaire considéré), ces procédés itératifs étant menés en parallèle pour chacun de ces secteurs. Il s’agit d’un exemple possible de réalisation. Alternativement, on peut retenir le « meilleur » secteur angulaire (ou les quelques meilleurs) selon le critère de validité du modèle causal présenté ci-avant, puis optimiser les estimations dans la ou les directions retenues, y compris en termes de variantes de forme du dénominateur. En effet, de façon plus générale, on peut envisager en outre d’évaluer en première étape et/ou lors d’étapes ultérieures une pluralité de vecteurs vélocité généralisés, respectivement associés à des directivités (au dénominateur) diversement formées.

De façon plus générale, la recherche d’un formation de faisceau ou « beamforming » qui donne une direction d’arrivée du son ou DoA fiable peut être abordée comme un problème général d’optimisation et avoir recours à ce titre à une variété de stratégies. On peut identifier donc :
- un critère de minimisation (une fonction à minimiser) qui traduit/prédit la validité du modèle causal. De façon un peu simpliste et donc améliorable, il s’agit dans la description ci-avant de la recherche d’énergie relative du signal dans les abscisses temporelles négatives ;
- les paramètres à optimiser sont les paramètres de beamforming, formulés par exemple comme les coefficients de la matrice D impliquée dans les équations Eq. A1 et A4, ou bien comme la direction Theta ( ) et les paramètres de forme de faisceau ( ) de l’équation EQ.A5 lorsqu’on opte pour une symétrie axiale ou dans le cas où on est restreint à l’ordre 1 ;
- un jeu (ou des jeux) de paramètres initiaux, typiquement une directivité « omni » ( =[1 0…]) ; ou bien une directivité favorable mémorisée au cours d’utilisations antérieures ; ou bien une multiplicité de directivités pointant dans un ensemble de directions représentatives de l’espace, voire traduisant en plus différentes formes de directivité ;
- un principe d’ajustement des paramètres testés (au cours des itérations) car typiquement une réorientation du faisceau acoustique dans la dernière DoA estimée n’est pas toujours un choix suffisamment robuste : il faut alors, plutôt qu’arrêter l’algorithme faute d’amélioration, repartir de l’une des situations mémorisées (et a priori la meilleure du point de vue du critère de minimisation) et ajuster les paramètres suivant un autre axe (par exemple un paramètre de forme de directivité) ou une autre combinaison d’axes.

De façon plus générale, des approches usuelles dont par exemple celle du gradient stochastique, ou des optimisations par lots (‘batch’ en anglais) peuvent être envisagées, le nombre d’itérations induites pouvant néanmoins impliquer un coût important.

Il convient d’ajouter toutefois que contrairement à des tâches courantes d’optimisation, les paramètres visés in fine (les vecteurs Un typiquement) ne sont pas directement ceux qui sont optimisés, mais ils en découlent. On notera qu’il y a alors potentiellement une multiplicité de jeux de paramètres de beamforming qui pourraient être tous autant ‘optimaux’ dans le sens où ils induisent le respect d’un modèle causal. Dès lors, ils permettent tous alors de déduire le même jeu de paramètres Un de façon a priori exacte.

ANNEXE

Eq.1

Eq.2 ,

Eq.3 ;

Eq.4

Eq.5 :

Eq.6

Eq.7 ;

Eq.8

Eq.9-1

Eq.9-2

Eq.10 ;

;

Eq.11 =

Eq.12

Eq.13 ;

Eq.14 ;

Eq.15

Eq.16

Eq.17

Eq.18

Eq.19 ;

Eq.20

Eq.21

Eq.22

Eq.23

Eq.24 ; Eq.25

Eq.26

Eq.27

Eq.28

Eq.29 ; Eq.30

Eq.31

Eq.32 ; ;

Eq.33 =

Eq.34

Eq.35

Eq.36

Eq.37

Eq.38 ;

Eq.39

Eq.40 ; ; TAUN+1=

Eq.41

Eq.42

Eq.43

Eq.44

Eq.45

Eq.46

( ; )

Eq.47

( )

Eq.48

Eq.49

Eq.50

Eq.51

Eq.52

Eq.53

Eq.A1

Eq.A2

Eq.A3

Eq.A4

Eq.A5

Eq.A6

Eq.B1

Eq.B2=35b

Eq.B3=38b

Eq.B4=39b

Eq.B5 avec

Eq.B6

Eq.B7

Eq.B8

Eq.B9

Eq.B10

Claims

Procédé de traitement de signaux sonores acquis par au moins un microphone,
pour une localisation d’au moins une source sonore dans un espace comportant au moins une paroi, dans lequel :
- On applique une transformée temps fréquences aux signaux acquis,
- A partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé V’(f), estimé à partir d’une expression d’un vecteur vélocité V(f) dans laquelle une composante de référence D(f), différente d’une composante omnidirectionnelle W(f), apparait au dénominateur de ladite expression, ladite expression étant complexe avec une partie réelle et une partie imaginaire, le vecteur vélocité généralisé V’(f) caractérisant une composition entre :
* un premier trajet acoustique, direct entre la source et le microphone, représenté par un premier vecteur U0, et
* au moins un deuxième trajet acoustique issu d’une réflexion sur la paroi et représenté par un deuxième vecteur U1,
le deuxième trajet ayant, au microphone, un premier retard TAU1, par rapport au trajet direct,
- En fonction du retard TAU1, du premier vecteur U0 et du deuxième vecteur U1, on détermine au moins un paramètre parmi :
* une direction (DoA) du trajet direct,
* une distance d0 de la source au microphone,
* une distance z0 de la source à ladite paroi.
Procédé selon la revendication 1, comprenant une pluralité d’itérations dans une partie au moins desquelles on utilise le vecteur vélocité généralisé V’(f) avec à son dénominateur une composante de référence D(f) déterminée en fonction d’une approximation de la direction du trajet direct (DoA) obtenue à une itération précédente.
Procédé selon la revendication 2, comprenant une première itération dans laquelle on utilise le vecteur vélocité V(f) à la place du vecteur vélocité généralisé V’(f), le vecteur vélocité V(f) s’exprimant dans le domaine fréquentiel et faisant apparaitre au dénominateur la composante omnidirectionnelle W(f), afin de déterminer au moins, à l’issue de cette première itération, une première approximation de la direction du trajet direct (DoA),
et dans lequel, pour au moins une deuxième itération ultérieure à la première itération, on utilise le vecteur vélocité généralisé V’(f), estimé à partir d’une expression du vecteur vélocité V(f), au dénominateur de laquelle la composante de référence D(f) remplace la composante omnidirectionnelle W(f), la composante de référence D(f) étant spatialement plus sélective que la composante omnidirectionnelle W(f).
Procédé selon la revendication 3, dans lequel la composante de référence D(f) est plus sélective que la composante omnidirectionnelle W(f), dans une direction correspondant à ladite première approximation de la direction du trajet direct (DoA).
Procédé selon l'une des revendications 2 à 4, dans lequel les itérations sont répétées jusqu’à atteindre une convergence selon un critère prédéterminé de causalité.
Procédé selon la revendications 5, dans lequel à chaque itération :
- On applique en outre une transformée inverse, des fréquences vers le temps, à ladite expression du vecteur vélocité généralisé V’(f) pour obtenir, dans le domaine temporel, une succession de pics liés chacun à une réflexion sur au moins une paroi, outre un pic lié à une arrivée du son selon ledit trajet direct (DoA), et
- On réalise une nouvelle itération s’il apparait dans la succession de pics un signal dont l’abscisse temporelle est inférieure à celle du pic de trajet direct et dont l’amplitude est supérieure à un seuil choisi,
le critère de causalité étant vérifié si l’amplitude du signal est inférieure audit seuil.
Procédé selon l'une des revendications 5 et 6, dans lequel il est mis fin aux itérations :
- dans un premier cas où l’amplitude dudit signal est inférieure au seuil choisi, et
- dans un deuxième cas où la répétition des itérations n’entraine pas de diminution d’amplitude dudit signal telle que ladite amplitude dudit signal est inférieure audit seuil choisi (THR, S732).
Procédé selon la revendication 7, dans lequel il est fait suite au deuxième cas par la mise en œuvre des étapes suivantes, les signaux acquis étant délivrés sous forme de trames successives d’échantillons :
- Pour chaque trame, on estime (S18) un score de présence d’une attaque sonore dans la trame (Eq.53), et
- On sélectionne (S22) les trames à scores supérieurs à un seuil pour traiter les signaux sonores acquis dans les trames sélectionnées.
Procédé selon l’une des revendications précédentes, dans lequel les signaux acquis sont captés par un microphone ambisonique, et dans lequel le vecteur vélocité V(f) est exprimé dans le domaine fréquentiel par des composantes ambisoniques d’ordre 1 sous une forme de type :
V(f)= 1/W(f) [X(f), Y(f), Z(f)]^T,
W(f) étant la composante omnidirectionnelle,
et le vecteur vélocité généralisé V’(f) est exprimé dans le domaine fréquentiel par des composantes ambisoniques d’ordre 1 sous une forme de type :
V(f)= 1/D(f) [X(f), Y(f), Z(f)]^T,
D(f) étant ladite composante de référence, différente de la composante omnidirectionnelle.
Procédé selon l’une des revendications précédentes, dans lequel une estimation de la direction du trajet direct, assimilée au premier vecteur U0, est déterminée à partir d’une moyenne sur un ensemble de fréquences de la partie réelle du vecteur vélocité généralisé V’(f) exprimé dans le domaine fréquentiel (Eq.24).
Procédé selon l'une des revendications précédentes, dans lequel :
- On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporel V’(t),
- On recherche au moins un maximum dans l’expression du vecteur vélocité généralisé V’(t)max en fonction du temps, après une durée du trajet direct, et
- On en déduit le premier retard TAU1, correspondant au temps donnant le maximum V’(t)max.
Procédé selon la revendication 11, dans lequel :
- on estime le deuxième vecteur U1 en fonction de valeurs du vecteur vélocité normalisé V’ relevées aux indices temporels t=0, TAU1 et 2xTAU1, pour définir un vecteur V1 tel que :
V1 = V’(TAU1) - ( (V’(TAU1) . V’(2.TAU1)) / || V’(TAU1) ||² ) V’(0),
Le vecteur U1 étant alors donné par : U1 = V1 / ||V1||.
Procédé selon la revendication 12, dans lequel :
- On détermine des angles respectifs PHI0 et PHI1 du premier vecteur U0 et du deuxième vecteur U1, par rapport à ladite paroi, tels que :
PHI0=arcsin(U0.nR) et PHI1=arcsin(U1.nR), où nR est un vecteur unitaire et normal à la paroi, et
- La distance d0 entre la source et le microphone est déterminée en fonction du premier retard TAU1 par une relation du type :
d0 = (TAU1xC)/((cosPHI0/cosPHI1)-1), où C est la vitesse du son.
Procédé selon la revendication 13, dans lequel la distance z0 de la source à ladite paroi est déterminée par une relation du type :
z0 = d0 (sinPHI0 – sinPHI1)/2
Procédé selon l'une des revendications précédentes, dans lequel, l’espace comprenant une pluralité de parois :
- On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporel V’(t) sous la forme d’une succession de pics (Eq.39b, FIG.2),
- On identifie, dans la succession de pics, des pics liés à une réflexion sur une paroi de ladite pluralité de parois, chaque pic identifié ayant une abscisse temporelle fonction d’un premier retard TAUn du trajet acoustique issu de la réflexion sur la paroi n correspondante, par rapport au trajet direct,
- En fonction de chaque premier retard TAUn, du premier vecteur U0 et de chaque deuxième vecteur Un représentant un trajet acoustique issu d’une réflexion sur une paroi n, on détermine au moins un paramètre parmi :
* la direction (DoA) du trajet direct,
* la distance d0 de la source au microphone, et
* au moins une distance zn de la source à la paroi n.
Procédé selon la revendication 15, dans lequel les pics liés à une réflexion sur une paroi n ont des abscisses temporelles multiples du retard TAUn associé à cette paroi n, et dans lequel on présélectionne une première partie de pics à des abscisses temporelles positives les plus petites, pour identifier dans ladite partie les pics associés chacun à une seule réflexion sur une paroi.
Dispositif de traitement de signaux sonores, comportant un circuit de traitement pour la mise en œuvre du procédé selon l’une des revendications précédentes.
Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 16, lorsque lesdites instructions sont exécutées par un processeur d’un circuit de traitement.