FR3143932A1 - Obtention d’une réponse impulsionnelle d’une salle - Google Patents

Obtention d’une réponse impulsionnelle d’une salle Download PDF

Info

Publication number
FR3143932A1
FR3143932A1 FR2213494A FR2213494A FR3143932A1 FR 3143932 A1 FR3143932 A1 FR 3143932A1 FR 2213494 A FR2213494 A FR 2213494A FR 2213494 A FR2213494 A FR 2213494A FR 3143932 A1 FR3143932 A1 FR 3143932A1
Authority
FR
France
Prior art keywords
moving average
velocity vector
autoregressive
vector
impulse response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2213494A
Other languages
English (en)
Inventor
Srdan Kitic
Jérôme Daniel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR2213494A priority Critical patent/FR3143932A1/fr
Priority to PCT/EP2023/084655 priority patent/WO2024126242A1/fr
Publication of FR3143932A1 publication Critical patent/FR3143932A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Il est proposé un traitement de signaux sonores acquis par un réseau de microphones et issus d’une source sonore, pour caractériser acoustiquement un espace (ESP) comportant le réseau (MIC) et la source et délimité par une paroi (PAR). On applique une transformée temps fréquences aux signaux acquis, et à partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé. On exprime en particulier le vecteur vélocité généralisé dans le domaine temporel v(t) sous la forme d’une succession de pics comportant au moins un pic lié à la réflexion sur la paroi et à une abscisse temporelle fonction du retard TAU1, et l’expression dans le domaine temporel du vecteur vélocité généralisé est modélisée par une moyenne mobile autorégressive ARMA définie par un filtre autorégressif AR et une moyenne mobile MA. On prévoit ainsi un traitement des signaux sonores acquis par application du filtre autorégressif AR, pour obtenir une réponse impulsionnelle caractérisant l’espace (ESP) et issue de la moyenne mobile MA. Figure de l’abrégé : Figure 8

Description

Obtention d’une réponse impulsionnelle d’une salle
La présente description concerne le domaine du traitement de données sonores. Elle concerne plus particulièrement l’obtention d’une réponse impulsionnelle d’une salle (espace cloisonné), à partir d’une réponse impulsionnelle dite « réponse impulsionnelle relative généralisée ».
La connaissance des propriétés acoustiques et géométriques d’un environnement peut permettre d’obtenir ou d’améliorer l’obtention de résultats pertinents dans le traitement de signaux audios pour une multitude de cas d’usages. Il peut être avantageux de réaliser simultanément des traitements audios incluant à la fois la localisation et la séparation des sources sonores dans un environnement, notamment dans des conditions défavorables (par exemple en présence d’obstacles empêchant une propagation sonore en ligne droite). Les besoins pour de tels traitements sont nombreux notamment dans des applications d’encodage spatial, de réalité augmentée, de navigation de robots, de caractérisation de salles, et autres.
Lorsque la modalité sonore est utilisée pour estimer l’environnement acoustique, il est généralement nécessaire d’exploiter les caractéristiques de multi-microphones qui codent des informations spatiales. Une représentation particulièrement bien adaptée d’un champ sonore 3D est le format audio ambiophonique d’ordre élevé (ou HOA pour « Higher Order Ambisonics »), appelé « ambisonique » ci-après, se basant sur la décomposition en harmoniques sphériques de la pression acoustique sur une sphère. Des canaux ambisoniques coïncident entre eux mais diffèrent par leur directivité, c’est-à-dire par leur sensibilité aux excitations provenant de différentes directions spatiales. Ils peuvent être enregistrés par des dispositifs spécifiques (le plus souvent des réseaux de microphones sphériques dits « SMA » pour « Spherical Microphone Arrays ») ou créés artificiellement. Dans un environnement donné, et pour la source et une position de dispositif de microphone SMA données, chaque canal HOA admet une réponse impulsionnelle de salle (notée « RIR » pour « Room Impulse Response »), particulière. Ces réponses RIR fournissent l’information sur l’environnement où le son se propage, en particulier dans la première partie des réponses (c’est-à-dire dans les « premiers échos »).
Même si l’empreinte spatiale est intégrée dans l’audio enregistré, la récupération de ces informations n’est pas simple. D’une part, les RIR sont liées au signal source (inconnu) et, d’autre part, l’enregistrement peut être contaminé par du bruit. Pour cette raison, toutes les méthodes d’inférence fondent leur analyse sur un ensemble de RIR préenregistrées ou estimées (pas nécessairement au format HOA). Bien qu’une telle analyse puisse être difficile en soi (par exemple, en raison du problème « d’étiquetage » de l’écho visant à attribuer chaque pic de signal à une réflexion sur une cloison), il s’agit d’une hypothèse très forte qui limite les applications aux seuls cas d’utilisation où des RIR sont disponibles. Pour contourner ce problème, une approche d’inférence aveugle peut être basée sur l’analyse des matrices de corrélation spatiale dites « alignées en phase ». Cependant, la complexité de calcul de cette approche semble prohibitive pour un traitement en temps réel.
Comme alternative, on pourrait considérer des empreintes relatives, c’est-à-dire une fonction de transfert relative (notée « ReTF », dans le domaine fréquentiel) ou une réponse impulsionnelle relative (notée « ReIR », dans le domaine temporel) pour déduire les propriétés de l’environnement. ReTF et ReIR modélisent la relation entre les canaux individuels et un signal de référence donné, qui est généralement choisi comme étant l’un des canaux. Théoriquement, ces représentations sont indépendantes de la source, mais le prix à payer dans cette méthode est que certaines informations sont inévitablement perdues (en particulier, le temps de propagation et l’atténuation absolue d’un signal se propageant directement de la source au microphone). En règle générale, les réponses ReIR ne sont pas causales et leur analyse est beaucoup plus complexe que celle des RIR.
Dans les travaux correspondant au document WO-2022/106765, il a été démontré néanmoins que l’utilisation du signal de référence qui est une combinaison linéaire de tous les canaux (c’est-à-dire une forme de faisceau référence) est avantageuse lors de l’extraction de l’information des ReIR des signaux ambisoniques. Plus particulièrement, si une formation de faisceau (ou « beamforming » ci-après) atténue suffisamment les réflexions acoustiques par rapport à la propagation directe, la ReIR correspondante (appelée « Vecteur Vélocité Généralisé », et notée « GTVV » ci-après) admet une expression informative et compacte dans le domaine temporel. Dans ces conditions, la ReIR généralisée est causale et relativement clairsemée, et permet donc une estimation, basée sur le pic de la direction d’arrivée du son (notée DoA), des directions des réflexions acoustiques et de leurs retards associés.
Le vecteur GTVV (soit donc la ReIR dans le domaine ambisonique avec beamforming) est plus robuste aux conditions acoustiques défavorables que la ReIR « standard » pour laquelle le signal de référence est généralement le canal ambisonique omnidirectionnel d’ordre zéro. Cependant, il est limité par les performances du beamforming appliqué. Par exemple, si un beamforming de directivité maximale et indépendant du signal est utilisé, sa directivité est une fonction quadratique de l’ordre HOA donné. Cependant, les dispositifs de microphone SMA classiques ne fournissent généralement pas de formats ambisoniques d’ordre suffisamment élevé : le plus souvent, ils ne sont capables d’enregistrer que les signaux ambisoniques du premier ordre (FOA). Cela est particulièrement vrai pour des appareils simples, par exemple des appareils portatifs, prenant en charge les FOA seulement. En outre, la prise en charge des fréquences des canaux d’ordre supérieur diminue progressivement avec l’ordre HOA, à mesure que l’amplification du bruit aux basses fréquences et le phénomène d’aliasing spatial aux hautes fréquences commencent à se manifester.
Toutefois, les propriétés théoriques favorables du vecteur GTVV ont tendance à diminuer à de faibles ordres ambisoniques, en raison de l’incapacité du beamforming à supprimer efficacement les réflexions. Le problème est encore aggravé par l’augmentation de la distance entre le microphone et la source, car davantage de réflexions tombent dans le lobe principal du beamforming et dans le même temps la prépondérance du son direct diminue vis-à-vis des réflexions. En pratique, on peut observer que l’empreinte GTVV n’est plus causale, et que les directions estimées sont moins précises.
De plus, même lorsque la représentation GTVV reste valide, extraire les directions et les retards par l’identification/sélection de pics n’est pas forcément simple. Un vecteur GTVV facile d’utilisation peut être considéré comme la réponse RIR multicanal (sans délai, centré) impliqué par un filtre causal. La conséquence est que la même réflexion est infiniment répétée comme un écho, aux instances temporelles correspondant à des multiples entiers de son retard relatif, avec son signe alterné et une amplitude décroissante. Ainsi, ces séries peuvent interférer les unes avec les autres, altérant l’information qui peut en être déduite, ou même masquant la présence de réflexions d’amplitudes plus faibles par exemple.
Résumé
La présente description vient améliorer la situation.
Elle propose à cet effet un procédé de traitement de signaux sonores acquis par au moins un réseau de microphones et issus d’au moins une source sonore, pour caractériser acoustiquement un espace comportant le réseau et la source et délimité par au moins une paroi,
dans lequel :
- On applique une transformée temps fréquences aux signaux acquis,
- A partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé V(f), complexe avec une partie réelle et une partie imaginaire, le vecteur vélocité caractérisant une composition entre :
* un premier trajet acoustique, direct entre la source et le réseau de microphones, représenté par un premier vecteur U0, et
* au moins un deuxième trajet acoustique issu d’une réflexion sur la paroi et représenté par un deuxième vecteur U1,
le deuxième trajet ayant, au réseau de microphones, un retard TAU1, par rapport au trajet direct,
- On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporelv(t) sous la forme d’une succession de pics comportant au moins un pic lié à la réflexion sur ladite paroi et à une abscisse temporelle fonction du retard TAU1.
En particulier dans ce procédé, l’expression dans le domaine temporel du vecteur vélocité généralisé est modélisée par une moyenne mobile autorégressive ARMA définie par un filtre autorégressif AR et une moyenne mobile MA, et le procédé comporte alors un traitement des signaux sonores acquis par application du filtre autorégressif AR, pour obtenir une réponse impulsionnelle caractérisant ledit espace et issue de la moyenne mobile MA.
Grâce à cette disposition, les informations stockées dans la représentation du vecteur vélocité généralisé, exprimé dans le domaine temporel (et noté ci-après « GTVV »), peuvent être extraites de manière plus robuste car plus générale pour une situation acoustique quelconque, afin d’obtenir une réponse impulsionnelle caractérisant un espace à au moins une paroi (un espace tel qu’une salle et correspondant ainsi à une réponse impulsionnelle de type RIR pour « Room Impulse Response »). Plus particulièrement, comme décrit plus loin dans les exemples de réalisation, cette réponse impulsionnelle peut être qualifiée de « réduite » (et notée « RdRIR » pour « Reduced Room Impulse Response ») car l’expression temporelle du vecteur vélocité généralisé, de laquelle est déduite cette réponse impulsionnelle, ne présente des retards de réflexion que relativement au retard de réception au microphone du trajet acoustique direct depuis la source (et non pas des retards dans l’absolu). De même, les amplitudes des réflexions sont relatives par rapport à l’amplitude de la réception au microphone du son direct (non réfléchi par une paroi). Néanmoins, une telle réponse impulsionnelle, même relative, permet déjà de caractériser efficacement l’espace acoustique considéré, et ce simplement en traitant l’expression temporelle du vecteur vélocité généralisé comme un modèle ARMA.
Ainsi, cette réponse impulsionnelle réduite RdRIR est issue du modèle ARMA, et se distingue en cela de la réponse impulsionnelle relative ReIR, introduite précédemment, et qui, elle, s’obtient directement de l’expression du vecteur vélocité généralisé.
Dans une forme de réalisation, les signaux acquis sont appliqués à des canaux ambisoniques, et le filtre autorégressif AR est commun à tous les canaux.
Une telle réalisation en représentation ambisonique présente l’avantage de ne pas nécessiter d’ordre ambisonique trop élevé (de premiers ordres ou « FOA » pour « First Order Ambisonic » pouvant suffire pour obtenir une réponse impulsionnelle satisfaisante).
Dans une réalisation où l’espace précité est délimité par une pluralité de parois, l’expression dans le domaine temporel du vecteur vélocité généralisé comporte une série de pics comprenant un pic lié au trajet direct (ou « DoA » pour « Direction of Arrival ») suivi de pics liés chacun à au moins une réflexion sur une paroi n. Le procédé comporte alors :
- optimiser le filtre autorégressif pour modéliser ladite série de pics sous la forme d’une moyenne mobile autorégressive multivariée.
Ainsi, la représentation temporelle du vecteur vélocité généralisé se présente bien à la modélisation par une moyenne ARMA multivariée.
Dans une telle réalisation notamment, le procédé peut comporter :
- à partir de l’expression du vecteur vélocité généralisé dans le domaine temporelv(t) sous la forme de ladite série de pics, optimiser le filtre autorégressif en exploitant une propriété de causalité d’une réponse impulsionnelle.
En effet, le vecteur vélocité généralisé peut s’exprimer dans le domaine temporel sous la forme :

etsont des filtres causaux représentant respectivement la partie moyenne mobile MA et la partie régressive AR du modèle ARMA, et sont liés par, pour une formation de faisceauwà recevoir par le réseau de microphones et selon une direction d’arrivée du son depuis la source sonore, et où :
, etdésignent les paramètres d’une nième onde plane réfléchie par une paroi n de l’espace,
étant un vecteur d’encodage directionnel de propagation de la nième onde,
étant une atténuation relative de la nième onde et
étant un retard de la nième onde par rapport audit trajet direct,
étant une vecteur de propagation propre au trajet direct,
étant une réponse de formations de faisceaux au nième front d’onde, avec.
Dans une telle réalisation, la partie autorégressivepeut alors être estimée en minimisant :

sous la contrainte, oùest un canal du vecteur vélocité généralisé, représenté par un modèle ARMA multivarié, la partie autorégressiveétant commune à tous les canaux du vecteur vélocité généralisé.
Dans une telle réalisation, l’estimation depar minimisation de revient à résoudre un système de prédiction linéaire, qui est avantageusement surdéterminé.
Avec les notations présentées ci-dessus, la réponse impulsionnelle peut être donnée par la moyenne mobile, telle que :
Comme la représentation temporelle du vecteur vélocité généralisé peut présenter des amplitudes positives et négatives (comme illustré à titre d’exemple sur la figure 2), on peut appliquer une correction de signe d’amplitudes à la moyenne mobilepour obtenir expression habituelle de la réponse impulsionnelle : sous forme positive.
Par ailleurs, dans une réalisation, ladite réponse impulsionnelle est choisie de durée finie. Cette durée peut être choisie en particulier pour éviter de prendre en compte un champ diffus de réverbération (typiquement des réflexions multiples d’ordre élevé qui apparaitraient tout à droite de la ) et ne traiter ainsi que les réflexions précoces sur la ou les parois de l’espace considéré.
Dans une telle réalisation, il peut être exploité cette propriété selon laquelle la réponse impulsionnelle précitée est de durée finie pour fixer une limite maximale de longueur de filtres pour la partie autorégressive AR et pour la partie moyenne mobile MA.
Dans une réalisation en outre, la partie moyenne mobile MA peut être centrée sur un retard correspondant à un instant de réception au microphone du son issu de la source.
Selon un autre aspect, il est visé un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un circuit de traitement. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.
Selon un autre aspect, il est visé aussi un dispositif comportant un circuit de traitement comportant une interface pour recevoir des données de signaux sonores acquis par un réseau de microphones, et configuré pour mettre en œuvre le procédé ci-avant.
D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
La illustre un exemple de succession d’étapes d’un procédé du type ci-avant,
La illustre un exemple d’une représentation temporelle du vecteur vélocité généralisé,
La montre des exemples réels de vecteurs vélocité généralisés (au centre) dans différentes conditions, les représentations ARMA correspondantes (à droite), et les réponses impulsionnelles réelles (à gauche), les modèles ARMA étant plus fidèles aux réponses impulsionnelles réelles,
La , la et la illustrent les performances de résultats obtenus par la mise en œuvre du procédé ci-avant comparativement à d’autres traitements (ou absence de traitement), respectivement pour différentes durées de cycles de réverbération sonore,
La illustre une évaluation d’erreur sur la direction d’arrivée du son (DoA) uniquement, dans des conditions expérimentales similaires à celles des figures 4 à 6, montrant une performance plus nette de la mise en œuvre du procédé ci-avant sur les réflexions en particulier,
La illustre schématiquement un dispositif pour la mise en œuvre du procédé.
On se réfère tout d’abord à la illustrant des étapes d’un procédé du type ci-avant selon un exemple de réalisation.
On décrit dans un premier temps les grands principes des étapes de la .
Des signaux ambisoniques d’ordre quelconque sont par exemple enregistrés par un dispositif de type microphone SMA (ou sont générés autrement, par simulation ou autre). Ces signaux multicanaux sont ensuite utilisés pour l’estimation du vecteur vélocité généralisé GTVV. Cette estimation est souvent effectuée de manière pratique en calculant la transformée de Fourier inverse de la fonction de transfert relative ReTF, correspondante, dans le domaine fréquentiel, comme décrit notamment dans le document WO-2022/106765. Ainsi, les signaux ambisoniques sont généralement transformés en une représentation temps-fréquence (par exemple par STFT, pour « Short-Time-Fourier-Transform ») au préalable, et un estimateur robuste est utilisé pour obtenir la ReTF.
La forme temporelle du vecteur GTVV est présentée à titre illustratif sur la et montre :
- un pic à retard nul et lié au chemin acoustique direct, associé à la DoA principale du son (pour « Direction of Arrival » ou « direction d’arrivée »), et
- des pics liés à des retards supérieurs et liés à des réflexions sur des cloisons.
L’empreinte temporelle du vecteur GTVV peut être considérée comme la réalisation d’un processus de moyenne mobile autorégressive multivariée ou « ARMA », où le filtre autorégressif AR (au dénominateur) est commun à tous les canaux.
Par conséquent, une fois le vecteur GTVV obtenu, on procède aux calculs en estimant les paramètres du modèle ARMA correspondant. Le filtre AR est d’abord estimé à partir de la série chronologique donnée par le vecteur GTVV comme illustré à titre d’exemple sur la , reprise du document précité WO-2022/106765, en exploitant le fait que les réponses RIR sont causales (comme il en va de même pour les filtres AR et MA du modèle ARMA).
On peut en outre fixer la limite maximale sur la longueur des filtres AR et MA, puisque la première partie des RIR est supposée avoir une durée finie ; en pratique, un tel filtre AR peut être calculé efficacement en estimant un modèle de prédiction linéaire appliqué à la partie appropriée de l’empreinte GTVV.
Une fois que le filtre AR est disponible, les filtres MA peuvent être estimés en faisant simplement convoluer le vecteur GTVV par le filtre AR (une estimation efficace, de type Prony par exemple), ou par estimation au sens des moindres carrés (estimation de type Shanks par exemple) ; ici aussi, on peut envisager des procédures d’inférence plus avancées, par exemple en appliquant une certaine structure entre les entrées correspondantes des filtres MA.
Idéalement, les filtres MA devraient se rapprocher des réponses RIR normalisées, dont le pic principal est centré sur le retard nul de la représentation (invariant aux gain et retard absolus, en raison de la perte d’information dans ReIR, comme mentionné précédemment). En raison de sa similitude avec les RIR, une telle séquence de filtres MA est appelée RdRIR pour « Reduced Room Impulse Response ».En réalité, les réponses RIR sont considérées comme ayant une amplitude positive et sont des fonctions continues dans le temps. Lorsqu’ils sont représentés par une série chronologique discrète (multicanal), les réponses RIR sont préfiltrées par un filtre anti-aliasing, qui présente souvent une réponse impulsionnelle contenant à la fois des amplitudes positives et négatives. Puisque le même filtre est appliqué à tous les canaux HOA, il est possible d’observer le signe de la réponse RdRIR estimée à l’ordre zéro et (s’il est négatif) inverser le signe de tous les canaux pour un échantillon de temps donné.
Après avoir corrigé les signes de la représentation RdRIR, on peut procéder à l’inférence des fronts d’ondes acoustiques. Une façon non limitative de le faire est d’effectuer la sélection d’un pic sur la série des pics en amplitude de la réponse RdRIR à différents moments.
L’application de la modélisation ARMA au vecteur GTVV (ReIR généralisée) dans le domaine ambisonique est décrite plus en détail ci-après.
Les principes présentés peuvent être adaptés aux réponses ReIR standards (non ambisoniques) par exemple, dans le but d’estimer la différence de temps d’arrivée (ou TdoA), en considérant une paire de microphones enregistrant le même signal source.
La description mathématique qui suit couvre la définition du vecteur GTVV, l’inférence de front d’onde lorsque cette dernière est théoriquement valide (c’est-à-dire lorsque la condition de convergence expliquée ci-dessous est satisfaite), ainsi que la dérivation de la méthode de « pré-conditionnement GTVV » basée sur l’ARMA et présentée ci-dessus.
On note ci-aprèsle vecteur de coefficients d’expansion harmoniques sphériques (noté « SH ») concaténés (correspondant aux « canaux HOA ») jusqu’à l’ordreL, à la fréquencef. Les signaux enregistrés sont supposés être dus à une source sonore en champ lointain à l’azimut, à l’élévationet à la distancedu réseau de microphones SMA, dans un environnement intérieur (une salle cloisonnée typiquement). Étant donné une formation de faisceauw(ou « beamforming » ci-après) à large bande et dirigée (approximativement) vers la DoA, le vecteur vélocité généralisé dans le domaine fréquentiel (GFVV) est défini comme suit, comme décrit notamment dans WO-2022/106765 :
, etdésignent les paramètres de la nième onde plane réfléchie par une cloison de la salle, avec :
, le vecteur d’expansion SH dans la direction,
, son atténuation relative et
, son retard (par rapport à la composante de propagation directe).
Ensuite,est le vecteur SH de l’onde plane dans la direction DoA donnée par, tandis queest la réponse des formateurs de faisceaux au nième front d’onde (avec).
L’approximation est due aux hypothèses simplificatrices intégrées dans le côté droit de l’équation ci-dessus : la décomposition des ondes planes a été donnée en termes deréflexions acoustiques dominantes, et la formation de faisceaux et les atténuations relatives sont censées être indépendantes de la fréquence.
La transformée de Fourier inversepar canal du vecteur GFVV, donne son homologue temporel GTVV :
En pratique, le traitement se fait dans le domaine STFT (pour « Short-Time-Fourier-Transform »), et la durée temporelle GTVV est dictée par la fenêtre choisie. La fenêtre de longueurest centrée par rapport au GTVV, à, c’est-à-dire
Sous la conditionde convergence des séries de Taylor (géométriques), le GTVV admet une expression de la forme :

Équation 1
cumule des ''termes croisés'' (qui sont relatifs à l’interférence mutuelle entre différents fronts d’onde).
L’expression ci-dessus « Équation 1 » permet d’estimer immédiatement le front d’onde du son directen évaluant, tandis que le reste implique la sommation de la série infinie correspondant aux fronts d’onde réfléchis.
Mais puisque, chaque série infinie a une amplitude qui décroit avec la position temporelle du pic:

Équatio n 2
Lorsque le beamforming est très sélectif, sa réponse est, d’où. Si ce n’est pas le cas, on peut améliorer l’estimation deen « débiaisant » le vecteur observé.
Étant donné une estimation de, et une collection de vecteurs SH(correspondant à un ensemble de directions), et sachant queest strictement positif, on peut récupéreren trouvant un élément qui maximise la corrélation avecdans l’Équation 2, ce qui s’écrit :

Équatio n 3
Alternativement, on peut recourir à une optimisation non linéaire et résoudre l’Equation 2 sous forme paramétrique, oùdevient la fonction des variables de direction.
La condition de convergence :implique que le beamforming atténue considérablement les réflexions, ce qui dépend du type de beamforming appliqué, mais aussi bien entendu de l’environnement acoustique et de l’ordre HOA.
Pour des raisons de calcul, il est pratique d’utiliser des beamformings simples, tels que le beamforming de directivité maximaledonné par(en encodage ambisonique N3D, sachant qu’il suffit de pondérer les signaux acquis par le microphone ambisonique (à plusieurs capsules piézoélectriques pour recueillir plusieurs signaux sonores) pour passer d’un type d’encodage à un autre).
Néanmoins, en raison de la largeur de son lobe principal, ce beamforming est trop permissif aux ordres ambisoniques bas (par exemple le ou les FOA), et donc, l’expression de l’Équation 1 peut ne plus être valide.
Néanmoins, le vecteur GTVV peut toujours être écrit sous la forme :

etsont tous deux des filtres causaux, liés par
Cette expression révèle une structure particulière (chaque canal GTVVpeut être vu comme une réalisation du modèle ARMA multivarié, dont la partie autorégressiveest commune à tous les canaux).
La partie MA, ou la sériede la réponse RdRIR (Reduced Room Impulse Response), admet ainsi une expression de type:

Équatio n 4
Puisque, on peut estimeren minimisant

sous la contrainte.
Il s’agit avantageusement d’un problème surdéterminé : la longueur du filtreest, tandis que le nombre de points de données est(la partie non causale de la représentationdu vecteur GTVV). Avec l’augmentation de l’ordrede HOA, l’estimation devrait devenir plus précise, car davantage de données deviennent disponibles pour la régression.
Cette fonction de coût peut être étendue pour incorporer des poids, ainsi que la dernière partie de la série de front d’onde, qui est supposée être un signal de faible magnitude semblable à un bruit :
Comme les deux filtres sont liées par l’expression linéaire, en imposant le condition, le support du filtreest aussi implicitement raccourci deà.
En principe, il serait possible d’intégrer plus de structure dans(ou), en modifiant encore la fonction de coût d’origine. Un tel exemple peut consister à utiliser des normes favorisant le caractère épars d’un groupe pour modéliser le support. Cependant, résoudre un tel problème d’optimisation requiert habituellement des moyens additionnels de calcul. Par conséquent, il est proposé ici à titre d’exemple une minimisation au sens des moindres carrés.
En prenant la dérivée partielle de par rapport à un élément filtrant AR et noté, et en fixant le résultat à zéro, on obtient :


Les deux fonctions d’autocorrélation définies ci-dessus peuvent être calculées efficacement à l’aide d’une transformée de Fourier rapide. Leur somme globale (pondérée) peut être notée :
.
Puisque, l’estimation des coefficients restants revient à un problème de prédiction linéaire classique :

qui peut être résolu par diverses méthodes.
Par exemple, en vue d’utiliser des solveurs rapides de Toeplitz (ou « fast Toeplitz-based solvers »), il est possible de modifier légèrement la fonction de coût originale et minimiser plutôt une fonction de substitution du type :

où :
et
Une fois quea été calculé, on peut récupérer le segment non nul de(la RdRIR) en évaluant.
Une telle réalisation est très efficace sur le plan du calcul informatique. Cependant, on peut choisir d’appliquer une approche plus élaborée comme par exemple estimer la RdRIR dans le sens des moins carrés (méthode dite « de Shank »), ou même effectuer une optimisation alternée pour améliorer à la fois l’AR et la RdRIR (connu sous le nom d’algorithme de Steiglitz-McBride). Ces approches nécessitent l’estimation du filtre AR inverse, qui est généralement approximé par un filtre FIR optimal dans le sens des moindres carrés.
La représentation des caractéristiques est donnée sous forme matriciellereprésente la séquence des vecteurs GTVV de l’Équation 1 ou la séquence RdRIR estiméede l’Equation 3, pour chaque.
Un exemple de ces séquences, pour un enregistrement à partir d’un dispositif SMA recueillant des FOA d’une source vocale, et pour une réponse RIR multicanale réelle (décalée de telle sorte que son pic principal est placé à) est donné à la . Il apparait que la RdRIR proposée se rapproche alors plus fidèlement de la structure RIR que l’empreinte du vecteur GTVV.
La DoA est évaluée à partir du vecteur correspondant au zéro retard dans la matrice, tandis que les directions restantes sont obtenues en sélectionnant les pics d’amplitude de ses vecteurs colonnes. L’indice du pic choisi révèle le retard relatif de la direction donnée par rapport au trajet direct du son.
Ensuite, il peut être quantifié une erreur angulaire sur les directions associées aux dix plus grands pics de la séquence correspondante.
Il est considéré ci-après trois approches:
- aucune ou « none » (pas de post-traitement),
- non biaisée ou « debias » (correction de biais à l’aide de l’Équation 3), et
- avec correction « arma » (RdRIR) au sens du procédé présenté ci-avant,
et ce pour différents ordres ambisoniques (ou « order »),, ou.
Plus particulièrement, les évaluations sont menées pour l’ordre HOA,, et, avec un SNR égal à 0dB, 10dB, 20dB et « Inf » dB (c’est-à-dire pratiquement sans bruit). Chaque résultat est l’estimation médiane de 10 répétitions de la configuration de simulation donnée (c’est-à-dire pour le temps de réverbération donné et le niveau de bruit gaussien blanc additif). Les expériences simulent une salle rectangulaire de taille 5 x 4 x 3 m3, avec le réseau de microphones et la source vocale positionnés de manière aléatoire, mais leur distance étant comprise entre 0,5 et 6 m.
La réalisation de l’expérience pour trois cycles de réverbération (RT60=200ms, RT60=400ms et RT60=600ms) est présentée respectivement aux figures 4, 5 et 6. Les résultats présentent clairement que la RdRIR fournit les estimations les plus précises, les performances de toutes les approches augmentant avec l’ordre HOA, et s’aggravant avec l’augmentation du temps de réverbération et du niveau de bruit. Il est frappant, cependant, que la RdRIR surpasse souvent les approches restantes, même lorsque son ordre HOA est inférieur à celui des deux autres approches.
Dans la , il est présenté une évaluation de l’erreur de DoA uniquement, dans des conditions expérimentales similaires, pour RT60 = 400ms. Bien que l’estimation de la RdRIR présente à nouveau l’erreur angulaire la plus faible, pour tous les niveaux de SNR, la différence ici est moins significative. Cela suggère que la principale amélioration du post-traitement ARMA réside dans la meilleure prédiction des fronts d’onde qui sont réfléchis en particulier.
On a illustré sur la un exemple de dispositif pour la mise en œuvre du procédé ci-avant, et comportant typiquement :
- une interface INT de réception de signaux issus d’un microphone MIC par exemple ambisonique (à plusieurs capsules piézoélectriques par exemple), le microphone MIC étant disposé dans un espace ESP comportant au moins une paroi PAR,
- un processeur PROC relié à l’interface INT pour traiter les signaux reçus par exemple en représentation ambisonique, exprimer le vecteur vélocité généralisé dans le temps en fonction de ces signaux, et en déduire le modèle ARMA pour délivrer une réponse impulsionnelle RdRIR de l’espace ESP,
- une mémoire MEM stockant des données d’instruction d’un programme informatique au sens de la présente description, et accessible par le processeur PROC pour lire ces données et exécuter le procédé ci-avant.
L’obtention de la réponse impulsionnelle de l’espace ESP permet notamment de quantifier les propriétés acoustiques et géométriques de cet espace (par exemple pour obtenir simultanément la localisation et la séparation des sources sonores dans l’espace ESP, ou autres). La connaissance des propriétés acoustiques et géométriques d’un tel environnement ESP peut permettre d’obtenir ou d’améliorer l’obtention de résultats pertinents dans le traitement de signaux audios pour diverses applications d’encodage spatial, de réalité augmentée, de navigation de robots, de caractérisation de salles, et autres. Comme démontré ci-avant, l’utilisation du modèle ARMA pour obtenir cette réponse impulsionnelle de salle est simple de mise en œuvre (notamment pour le faible ordre ambisonique nécessité) et donne des résultats satisfaisants comme illustré sur les figures 4 à 7.

Claims (14)

1. Procédé de traitement de signaux sonores acquis par au moins un réseau de microphones et issus d’au moins une source sonore, pour caractériser acoustiquement un espace comportant le réseau et la source et délimité par au moins une paroi,
dans lequel :
- On applique une transformée temps fréquences aux signaux acquis,
- A partir des signaux acquis, on exprime dans le domaine fréquentiel un vecteur vélocité généralisé V(f), complexe avec une partie réelle et une partie imaginaire, le vecteur vélocité caractérisant une composition entre :
* un premier trajet acoustique, direct entre la source et le réseau de microphones, représenté par un premier vecteur U0, et
* au moins un deuxième trajet acoustique issu d’une réflexion sur la paroi et représenté par un deuxième vecteur U1,
le deuxième trajet ayant, au réseau de microphones, un retard TAU1, par rapport au trajet direct,
- On applique une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour l’exprimer dans le domaine temporelv(t) sous la forme d’une succession de pics comportant au moins un pic lié à la réflexion sur ladite paroi et à une abscisse temporelle fonction du retard TAU1,
dans lequel l’expression dans le domaine temporel du vecteur vélocité généralisé est modélisée par une moyenne mobile autorégressive ARMA définie par un filtre autorégressif AR et une moyenne mobile MA,
Le procédé comportant un traitement des signaux sonores acquis par application du filtre autorégressif AR, pour obtenir une réponse impulsionnelle caractérisant ledit espace et issue de la moyenne mobile MA.
2. Procédé selon la revendication 1, dans lequel les signaux acquis sont appliqués à des canaux ambisoniques, le filtre autorégressif AR étant commun à tous les canaux.
3. Procédé selon l'une des revendications précédentes, dans lequel, pour un espace délimité par une pluralité de parois, l’expression dans le domaine temporel du vecteur vélocité généralisé comporte une série de pics comprenant un pic lié au trajet direct (DoA) suivi de pics liés chacun à au moins une réflexion sur une paroi n,
Le procédé comportant :
- optimiser le filtre autorégressif pour modéliser ladite série de pics sous la forme d’une moyenne mobile autorégressive multivariée.
4. Procédé selon la revendication 3, comportant :
- à partir de l’expression du vecteur vélocité généralisé dans le domaine temporelv(t) sous la forme de ladite série de pics, optimiser le filtre autorégressif en exploitant une propriété de causalité d’une réponse impulsionnelle.
5. Procédé selon la revendication 4, dans lequel le vecteur vélocité généralisé s’exprime dans le domaine temporel sous la forme :

etsont des filtres causaux représentant respectivement la partie moyenne mobile MA et la partie régressive AR du modèle ARMA, et sont liés par, pour une formation de faisceauwà recevoir par le réseau de microphones et selon une direction d’arrivée du son depuis la source sonore, et où :
, etdésignent les paramètres d’une nième onde plane réfléchie par une paroi n de l’espace,
étant un vecteur d’encodage directionnel de propagation de la nième onde,
étant une atténuation relative de la nième onde et
étant un retard de la nième onde par rapport audit trajet direct,
étant une vecteur de propagation propre au trajet direct,
étant une réponse de formations de faisceaux au nième front d’onde, avec.
6. Procédé selon la revendication 5, dans lequel la partie autorégressiveest estimée en minimisant :

sous la contrainte, oùest un canal du vecteur vélocité généralisé, représenté par un modèle ARMA multivarié, la partie autorégressiveétant commune à tous les canaux du vecteur vélocité généralisé.
7. Procédé selon la revendication 6, dans lequel l’estimation depar minimisation de revient à résoudre un système de prédiction linéaire, surdéterminé.
8. Procédé selon l'une des revendications 5 à 7, dans lequel la réponse impulsionnelle est donnée par la moyenne mobile, telle que :
9. Procédé selon la revendication 8, dans lequel on applique une correction de signe d’amplitudes à la moyenne mobilepour obtenir la réponse impulsionnelle sous forme positive.
10. Procédé selon l'une des revendications précédentes, dans lequel ladite réponse impulsionnelle est de durée finie.
11. Procédé selon la revendication 10, dans lequel il est fixé une limite maximale de longueur de filtres pour la partie autorégressive AR et pour la partie moyenne mobile MA.
12. Procédé selon l'une des revendications précédentes, dans lequel la partie moyenne mobile MA est centrée sur un retard correspondant à un instant de réception au microphone du son issu de la source.
13. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications précédentes, lorsque lesdites instructions sont exécutées par un circuit de traitement.
14. Dispositif comportant un circuit de traitement comportant une interface pour recevoir des données de signaux sonores acquis par un réseau de microphones, et configuré pour mettre en œuvre le procédé selon l’une des revendications 1 à 12.
FR2213494A 2022-12-15 2022-12-15 Obtention d’une réponse impulsionnelle d’une salle Pending FR3143932A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR2213494A FR3143932A1 (fr) 2022-12-15 2022-12-15 Obtention d’une réponse impulsionnelle d’une salle
PCT/EP2023/084655 WO2024126242A1 (fr) 2022-12-15 2023-12-07 Obtention d'une réponse impulsionnelle d'une salle

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2213494 2022-12-15
FR2213494A FR3143932A1 (fr) 2022-12-15 2022-12-15 Obtention d’une réponse impulsionnelle d’une salle

Publications (1)

Publication Number Publication Date
FR3143932A1 true FR3143932A1 (fr) 2024-06-21

Family

ID=85222347

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2213494A Pending FR3143932A1 (fr) 2022-12-15 2022-12-15 Obtention d’une réponse impulsionnelle d’une salle

Country Status (2)

Country Link
FR (1) FR3143932A1 (fr)
WO (1) WO2024126242A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220026531A1 (en) * 2015-07-17 2022-01-27 Chenshu Wu Method, apparatus, and system for sound sensing based on wireless signals
WO2022106765A1 (fr) 2020-11-19 2022-05-27 Orange Localisation perfectionnée d'une source acoustique
EP4046390A1 (fr) * 2019-10-18 2022-08-24 Orange Localisation perfectionnee d'une source acoustique

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220026531A1 (en) * 2015-07-17 2022-01-27 Chenshu Wu Method, apparatus, and system for sound sensing based on wireless signals
EP4046390A1 (fr) * 2019-10-18 2022-08-24 Orange Localisation perfectionnee d'une source acoustique
WO2022106765A1 (fr) 2020-11-19 2022-05-27 Orange Localisation perfectionnée d'une source acoustique

Also Published As

Publication number Publication date
WO2024126242A1 (fr) 2024-06-20

Similar Documents

Publication Publication Date Title
EP2898707B1 (fr) Calibration optimisee d'un systeme de restitution sonore multi haut-parleurs
EP3807669B1 (fr) Localisation de sources sonores dans un environnement acoustique donné
JP6837099B2 (ja) 音響エコーキャンセルのための室内インパルス応答の推定
Xiao et al. Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation
KR20110110800A (ko) 희소 필터링에 의해 링크된 신호들의 분산 감지
EP3040989B1 (fr) Procédé de séparation amélioré et produit programme d'ordinateur
EP3895446B1 (fr) Procede d'interpolation d'un champ sonore, produit programme d'ordinateur et dispositif correspondants.
Pezzoli et al. Implicit neural representation with physics-informed neural networks for the reconstruction of the early part of room impulse responses
EP3025342B1 (fr) Procédé de suppression de la réverbération tardive d'un signal sonore
FR3143932A1 (fr) Obtention d’une réponse impulsionnelle d’une salle
WO2022106765A1 (fr) Localisation perfectionnée d'une source acoustique
Olivieri et al. Physics-Informed Neural Network for Volumetric Sound field Reconstruction of Speech Signals
FR3051959A1 (fr) Procede et dispositif pour estimer un signal dereverbere
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置
EP4315328A1 (fr) Estimation d'un masque optimise pour le traitement de donnees sonores acquises
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique
Amerineni Multi Channel Sub Band Wiener Beamformer
Hashemgeloogerdi Acoustically inspired adaptive algorithms for modeling and audio enhancement via orthonormal basis functions
FR3132960A1 (fr) Localisation d’une source acoustique en mouvement
JP2012048133A (ja) 残響除去方法とその装置とプログラム
Uppaluru Blind deconvolution and adaptive algorithms for de-reverberation

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20240621