EP1605440B1

EP1605440B1 - Procédé de séparation de signaux sources à partir d'un signal issu du mélange

Info

Publication number: EP1605440B1
Application number: EP20050291254
Authority: EP
Inventors: Laurent Benaroya
Original assignee: AUDIONAMIX SA
Current assignee: Audionamix SA
Priority date: 2004-06-11
Filing date: 2005-06-10
Publication date: 2010-11-24
Anticipated expiration: 2025-06-10
Also published as: EP1605440A1; FR2871593A1; DE602005024890D1; FR2871593B1

Description

La présente invention concerne un procédé de détermination des signaux de séparation respectivement relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux.
Le domaine de la présente invention est celui du traitement numérique de signaux relatifs à des sources sonores, dits aussi plus simplement signaux de son, audiophoniques ou audio. Dans ce domaine particulier, les traitements effectués sur les signaux de son le sont non pas dans le domaine temporel mais dans le domaine fréquentiel. Aussi, utilise-t-on fréquemment au préalable à tout traitement une transformée de Fourier à court terme qui est une transformée linéaire associant à un signal dans le domaine temporel échantillonné {x(t₁), ...,x(t_N)} un signal bidimensionnel temps fréquence noté ici x(t_k,f), où t_k est un indice de trame du signal numérique échantillonné et f est un indice, généralement discret, de fréquence. Le signal x(t_k,f) est donc un signal du domaine fréquentiel et il se présente sous forme de trames indicées en t_k.
Dans la présente description, toutes les grandeurs dont il s'agit sont décrites au moyen de variables aléatoires gaussiennes multidimensionnelles. Le mélange observé à l'instant t s'exprime sous la forme : $S_{obs} (t, f) = S (t, f) + b (t, f)$
où b(t) est un bruit blanc gaussien de variance σ² _b et S(t,f) est le vecteur dont chaque composante est associée à une source : $S (t, f) = (\begin{matrix} s_{1} (t, f) \\ ⋮ \\ s_{N} (t, f) \end{matrix})$
Pour chaque fréquence f et pour chaque source i, s₁(t,f) suit une loi gaussienne centrée et de variance $σ_{i}^{2} (f)$
(f)
Pour désigner les variables sous forme de vecteur ou de matrice, des lettres en majuscule sont utilisées.
Par ailleurs encore, dans la présente demande la notion de signal se confond souvent à celle de la variable aléatoire qui la représente.
En ce qui concerne la séparation de signaux audio, on connaît un procédé qui est basé sur un filtre, dit filtre de Wiener, qui en définitive effectue une estimée du signal de séparation Ŝ_W (t,f) sous l'hypothèse de la stationnarité globale des signaux de mélange. Si l'on appelle x(t_k,f) la variable aléatoire qui décrit le signal du domaine fréquentiel issu du mélange des signaux des sources, et qui est appliqué à l'entrée du filtre, l'espérance de la variable aléatoire décrivant le signal de sortie du filtre est conditionnée aux signaux x(t_k,f). On peut donc écrire : ${\hat{S}}_{W} (t_{k}, f) = E [S (t_{k}, f) | x (t_{k}, f)]$
Dans le cas du filtre de Wiener, chaque composante du vecteur Ŝ_W (t_k ,f) peut être obtenue par la relation suivante : ${\hat{S}}_{W} (t, f) = (\begin{matrix} {\hat{S}}_{W, 1} (t, f) \\ ⋮ \\ {\hat{S}}_{W, N} (t, f) \end{matrix}) avec {\hat{s}}_{W, i} (t, f) = \frac{e_{i} (f)}{\sum_{j} e_{j} (f) + σ_{b}^{2}} x (t, f)$
où e_i(f) est la fraction d'énergie de la source i contenue a priori dans le signal de mélange, à la fréquence d'indice f, N étant le nombre totale de sources et x(t_k ,f) étant le signal de mélange.
On considère, à titre illustratif uniquement, le cas particulier de deux sources délivrant des signaux respectivement notés dans le domaine temporel, s₁(t) et s₂(t). Au départ, l'on dispose d'un signal de son, noté dans le domaine temporel x(t) représentatif du mélange de ces signaux de son : $x (t) = s_{1} (t) + s_{2} (t) .$
Dans une phase préalable d'apprentissage, on a évalué les deux sources sonores et on a plus exactement estimé leurs formes spectrales caractéristiques respectives $σ_{1}^{2}$
(f) et $σ_{2}^{2}$
(f), qui représentent, en définitive comme il est connu, leurs répartitions énergétiques en fonction de la fréquence. Si l'on considère que les signaux dans le domaine fréquentiel relatifs à ces deux sources s ₁(t,f) et s ₂(t,f) sont des variables aléatoires gaussiennes, non stationnaires, $σ_{1}^{2}$
(f) et $σ_{2}^{2}$
(f) représentent respectivement leur variance. Le filtre de Wiener délivre une estimation du signal de son de chaque source et, ce dans le domaine fréquentiel, en accord avec les relations suivantes : ${\hat{s}}_{W, 1} (t, f) = \frac{σ_{1}^{2} (f)}{σ_{1}^{2} (f) + σ_{2}^{2}} x (t, f)$
${\hat{s}}_{W, 2} (t, f) = \frac{σ_{2}^{2} (f)}{σ_{1}^{2} (f) + σ_{2}^{2}} x (t, f)$
qui peuvent s'écrire sous forme matricielle de la manière suivante : $S (t_{k}, f) = P . x (t_{k}, f)$
Où P est une matrice qui décrit les coefficients de pondération et qui est donnée ci-dessous pour N sources : $P = [\frac{σ_{1}^{2} (f)}{\sum_{i = 1}^{N} σ_{i}^{2} (f)} \dots \frac{σ_{N}^{2} (f)}{\sum_{i = 1}^{N} σ_{i}^{2} (f)}]$
Dans le cadre de la séparation de signaux de sons, le filtre de Wiener présente les principaux inconvénients suivants. Il opère de manière identique sur toutes les trames du signal de son de mélange et il ne tient donc pas des changements du contenu énergétique sonore d'une trame à l'autre. En définitive, il n'est pas un filtre adaptatif. Un autre inconvénient réside dans le fait qu'il ne prend en compte qu'une forme spectrale caractéristique par source sonore alors même que les sources sonores présentent une grande variété spectrale en terme de timbre, de hauteur, d'intensité, etc.
Des améliorations du filtre de Wiener ont été proposées pour tenir compte de ces inconvénients et ont abouti à notamment deux méthodes qui sont essentiellement basées sur l'utilisation de formes spectrales multiples pour décrire chacune des sources impliquées.
La première de ces méthodes a été introduite dans le cadre de la reconnaissance de parole et a été ensuite utilisée en audio. Selon cette méthode, le signal de son de chaque source s_i(t) est caractérisé par un ensemble de K_i formes spectrales $σ_{k_{i}}^{2}$
(f), k_i ∈ [1,...,K_i]. Si l'on considère N sources, leur mélange est caractérisé par un ensemble de K₁ x K₂ x ... x K_N N-uplets de formes spectrales caractéristiques ( $σ_{k_{1}}^{2}$
(f) ,..., $σ_{k_{N}}^{2}$
(f)). Pour chaque trame d'indice t_k, la méthode consiste à d'abord choisir le N-uplet de formes spectrales qui correspond le mieux au signal de son du mélange. Par exemple, elle peut consister à maximaliser la probabilité de correspondance entre le spectrogramme du mélange |x(t_k ,f)|² et la variance résultant du couple de formes spectrales. Ensuite, elle consiste à filtrer par un filtrage de Wiener classique le mélange en utilisant le N-uplet de formes spectrales ainsi sélectionné. On peut constater que cette méthode est adaptative puisque le choix des paramètres du filtre dépend de l'indice de trame t_k considéré.
Le principal inconvénient de cette méthode réside dans sa complexité algorithmique. En effet, si K formes spectrales caractéristiques par source i et N sources i sont considérées dans le mélange, K^N N-uplets de formes spectrales caractéristiques doivent être testés pour chaque trame si bien que la complexité est en O(Kⁿ x T) si T est le nombre de trames du signal mélange à analyser. Cet inconvénient de complexité peut rendre cette méthode rédhibitoire, notamment lorsque le nombre de formes spectrales caractéristiques par source est relativement important.
Une autre méthode a également été proposée pour rendre adaptatif le procédé de séparation. Comme précédemment, le signal de son de chaque source s_i(t) est caractérisé par un ensemble de K_i formes spectrales caractéristiques $σ_{k_{i}}^{2}$
(f) mais qui sont là regroupées dans un dictionnaire de formes spectrales. Ainsi, le spectrogramme du mélange |x(t_k ,f)|² est décomposé sur l'union des dictionnaires en présence et il est donc possible d'écrire : ${|x (t_{k}, f)|}^{2} \approx \sum_{k_{1} = 1}^{K_{1}} a_{k_{1}} (t_{k}) σ_{k_{1}}^{2} (f) + \dots + \sum_{k_{2} = 1}^{K_{N}} a_{k_{N}} (t_{k}) σ_{k_{N}}^{2} (f)$
où les coefficients a_ki (t), sont nommés "facteurs d'amplitude", sont les inconnues à résoudre.
On notera que l'équation ci-dessus peut s'interpréter comme s'il y avait K₁ +...+ K_N sources élémentaires stationnaires qui sont caractérisées chacune par une forme spectrale $σ_{k_{i}}^{2}$
(f) et qui se mélangent entre elles avec des facteurs d'amplitude respectifs a_ki (t) fonction du temps. On notera que chaque facteur d'amplitude a_ki (t) d'une source élémentaire est caractéristique de l'enveloppe de cette source. Il est donc un nombre positif.
L'équation ci-dessus peut se réécrire de la manière suivante : ${|x (t_{k}, f)|}^{2} \approx \sum_{i = 1}^{K_{1}} e_{i} (t_{k}, f) avec e_{i} (t_{k}, f) = \sum_{k = 1}^{K_{i}} a_{k} (t_{k}) σ_{k, i}^{2} (f)$
e_i(t_k,f) représente la fraction d'énergie de la source i contenue dans le mélange à analyser.
Une première méthode pour estimer les signaux de son des sources 1 à N est de mettre en oeuvre un filtrage de Wiener temps fréquence classique, néanmoins adaptatif dès lors qu'il dépend de l'indice de trame t. Ce filtre est appelé filtre de Wiener généralisé. On a donc pour la source i, l'estimée ŝ_i,Wg (t_k ,f) : ${\hat{s}}_{i, W_{s}} (t_{k}, f) = \frac{e_{i} (t_{k}, f)}{\sum_{i = 1}^{N} e_{i} (t_{k}, f)} x (t_{k}, f)$
Une autre méthode, dite de resynthèse, considère l'amplitude du signal de son de chaque source i comme étant égale à $\sqrt{e_{i} (t_{k}, f)}$
et sa phase comme étant estimée par celle du mélange. Il est donc possible d'écrire pour la source i : ${\tilde{s}}_{i} (t_{k}, f) = \sqrt{e_{i} (t_{k}, f)} . sign [\tilde{x} (t_{k}, f)]$
où $sign [x] = \frac{x}{|x|}$
correspond à la phase de x.
Cette seconde méthode par l'utilisation de dictionnaire de formes spectrales caractéristique présente l'avantage par rapport à la précédente méthode de diminuer la complexité algorithmique. En effet, pour n sources possédant chacune K formes spectrales, la complexité algorithmique est en O(n x K x T) où T est le nombre de trames à analyser, donc inférieure à celle de la méthode précédente qui était en O(Kⁿ x T).
Les trois méthodes qui viennent d'être présentées présentent néanmoins l'inconvénient majeur que la phase de chacune des sources impliquées (ou des sources élémentaires impliquées selon la méthode utilisée) est rigoureusement égale à la phase du mélange. Or, en général, les sources qui s'additionnent n'ont pas toutes la même phase si bien que, dans les méthodes présentées ci-dessus, lors de la séparation, il y a destruction de la structure de phase des sources, ce qui peut entraîner des effets gênants pour l'écoute des signaux de son des sources recouvrées. Le système auditif humain est en effet très sensible aux cohérences de phase dans les signaux audio, notamment les cohérences inter-trames pour f fixée (phase cohérente entre s(t _k+1,f) et s(t_k ,f)) et les cohérences de phase pour une même trame mais pour différentes valeurs de la fréquence f (phase de s(t_k ,f)pour différentes valeurs de f). Ces effets de cohérence de phase sont notamment très sensibles sur les sons harmoniques, comme les sons d'un instrument de musique, ou encore les sons voisés, alors qu'ils sont moins importants sur les bruits blancs, roses, etc. ou encore les sons d'instrument de percussion.
La publication intitulée « Blind source separation using temporal predictability » de STONE J.V et la publication intitulée « An online algorithm for blind source extraction based on non-linear prediction approach » de MANDIC D.P et AL décrivent des procédés de détermination des signaux de séparation relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux.
La thèse intitulée « Séparation de plusieurs sources sonores avec un seul microphone » de Elie Laurent BENAROYA décrit l'étude de la séparation de sources sonores avec un seul capteur à partir d'une extension du filtrage de Wiener à des modèles de mélange de Gaussiennes pour les sources ainsi qu'à partir d'une décomposition non négative du spectre du mélange sur un dictionnaire de forme spectrale caractéristique des sources.
Le but de la présente est de proposer une méthode de séparation des signaux relatifs à des sources sonores à partir d'un signal issu de mélange de ces signaux qui ne présente pas les incohérences de phase des méthodes citées ci-dessus.
Pour ce faire, un procédé de détermination des signaux de séparation respectivement relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux est défini dans la revendication 1, lesdits signaux se présentant sous forme de trames successives, ledit procédé incluant pour chacune desdites sources :

une étape de détermination d'un signal d'estimée ;
une étape de prédiction (E40) d'un signal prédit pour la trame présente basée sur le signal de séparation pour la trame précédente ; et
une étape de détermination du signal de séparation (E50) pour la trame présente sur la base dudit signal prédit et dudit signal d'estimée, caractérisé en ce que ladite étape de détermination du signal de séparation consiste à sommer de manière pondérée le signal d'estimée et le signal prédit, le signal d'estimée étant pondéré par un premier coefficient matriciel déterminé de manière à minimiser la covariance du signal de séparation,

^p

_k

^p

_k

^e

_k

α (t_{k}, f) = {[{Cov}^{e} (t_{k}, f) + {Cov}^{p} (t_{k}, f)]}^{- 1} \cdot {Cov}^{p} (t_{k}, f)

Ce procédé s'applique également à des signaux non sonores tels que tous signaux numériques issus de l'échantillonnage d'un transducteur permettant la transformation d'une grandeur physique en un signal électrique.
A cet effet, l'invention a pour objet un procédé de détermination des signaux de séparation respectivement relatifs à des sources non sonores à partir d'un signal issu du mélange de ces signaux tel que défini dans la revendication 2 lesdits signaux se présentant sous forme de trames successives, ledit procédé incluant pour chacune desdites sources:

une étape de détermination d'un signal d'estimée ;
une étape de prédiction (E40) d'un signal prédit pour la trame présente basée sur le signal de séparation pour la trame précédente ;et
une étape de détermination du signal de séparation (E50) pour la trame présente sur la base dudit signal prédit et dudit signal d'estimée, caractérisé en ce que ladite étape de détermination du signal de séparation consiste à sommer de manière pondérée le signal d'estimée et le signal prédit, le signal d'estimée étant pondéré par un premier coefficient matriciel déterminé de manière à minimiser la covariance du signal de séparation,

^p

_k

^p

_k

^e

_k

α (t_{k}, f) = {[{Cov}^{e} (t_{k}, f) + {Cov}^{p} (t_{k}, f)]}^{- 1} \cdot {Cov}^{p} (t_{k}, f)

Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels :

La Fig. 1 est un schéma synoptique d'un système de séparation des signaux relatifs à des sources sonores à partir d'un signal issu de mélange de ces signaux selon la présente invention, et
La Fig. 2 est un diagramme montrant les différentes étapes mises en oeuvre par un procédé de séparation de signaux selon la présente invention.

Dans la suite de la description, on considérera des sources sonores qui sont en elles-mêmes élémentaires, c'est-à-dire qui sont caractérisées chacune par une forme spectrale caractéristique donnée. Mais, on considèrera également des sources sonores dont la caractéristique de forme spectrale est une caractéristique parmi plusieurs caractéristiques de forme spectrale possibles, par exemple appartenant à un dictionnaire de formes spectrales caractéristiques (voir le préambule de la présente description). Comme on le mentionnait dans le préambule de la description, on peut alors considérer une source sonore comme étant une combinaison pondérée d'une pluralité de sources sonores élémentaires dont chacune présente une caractéristique de forme spectrale donnée (par exemple issue d'un dictionnaire ou déterminée).
De manière à résoudre le problème des incohérences de phase des méthodes de l'état de la technique mentionnées en préambule de la description, la présente invention prévoit des moyens de lien entre trames adjacentes. En d'autres termes, chaque source sonore élémentaire est déterminée d'une manière récursive et itérative.
On a représenté à la Fig. 1, un système de séparation de signaux de sons issus de sources sonores selon un mode de réalisation de la présente invention qui comporte ces moyens de liens entre trames adjacentes. Ce système est essentiellement constitué d'une unité d'estimation 10 qui, sur la base d'un signal de mélange du domaine fréquentiel notée noté x(t_k,f) obtenu par exemple par une transformée de Fourier à court terme du signal x(t) dans le domaine temporel échantillonné, délivre un signal d'estimée représentée par la variable aléatoire S^e(t_k,f) dont chaque composante $s_{i}^{e}$
(t_k,f) est le signal d'estimée pour une source du mélange d'indice i. Si l'on dispose de N sources élémentaires, le signal de d'estimée est représenté par un vecteur dont chaque composante est relative à une source : $S^{e} (t_{k}, f) = (\begin{matrix} s_{1}^{e} (t_{k}, f) \\ \cdot \\ s_{N}^{e} (t_{k}, f) \end{matrix})$
L'unité d'estimation 10 est telle que l'espérance du signal en sa sortie est conditionnée aux signaux x(t_k,f) qui sont réellement observés. On peut donc écrire : $S^{e} (t_{k}, f) = E [S (t_{k}, f) | x (t_{k}, f)]$
L'unité d'estimation 10 est par exemple un filtre de Wiener (voir les différentes formes de ce type de filtre données dans le préambule de la présente description), une unité fonctionnant par une méthode de seuillage temps-fréquence, ou par une méthode dite Ephraïm et Malah, etc. Par exemple, dans le cas d'un filtre de Wiener, chaque composante du vecteur S^e(t_k,f) peut être obtenu par la relation suivante : $S^{e} (t_{k}, f) = (\begin{matrix} {\hat{S}}_{1, W_{g}} (t_{k}, f) \\ ⋮ \\ {\hat{S}}_{N, W} (t_{k}, f) \end{matrix}) avec {\hat{s}}_{i, W_{g}} (t_{k}, f) = \frac{e_{i} (t_{k}, f)}{\sum_{i = 1}^{N} e_{i} (t_{k}, f)} x (t_{k}, f)$
où e_i(t_k,f) est la fraction d'énergie de la source i contenue dans le signal de mélange, dans la trame d'indice t_k et de fréquence d'indice f, N étant le nombre totale de sources et x̃(t_k,f) étant le signal de mélange.
On rappelle ici que pour une source élémentaire i, on peut écrire : $e_{i} (t_{k}, f) = \sum_{k_{i} = 1}^{K_{i}} a_{k_{i}} (t_{k}) σ_{k_{i}}^{2} (f)$
où K_i représente le nombre de sources élémentaires considérés pour la source i, a_ki(t_k) représente le facteur d'amplitude de la source élémentaire d'indice k_i et $σ_{k_{i}}^{2}$
(f) la variance de cette source élémentaire d'indice k_i.
Le système de séparation de signaux de sons de sources sonores représenté à la Fig. 1 comporte encore une unité de mise à jour 20 et une unité de prédiction 30. Ce sont ces unités 20 et 30 qui constituent les moyens de lien inter-trame qui sont mentionnés ci-dessus.
L'unité de prédiction 30 est prévue pour délivrer un signal de prédiction considéré comme une variable aléatoire correspondante S^p(t_k,f)
On rappelle ici que si l'on dispose de N sources élémentaires, le signal de prédiction est un vecteur dont chaque composante est relative à une source : $S^{p} (t_{k}, f) = (\begin{matrix} s_{1}^{p} (t_{k}, f) \\ ⋮ \\ s_{N}^{p} (t_{k}, f) \end{matrix})$
Comme on peut le constater sur la Fig. 1, l'unité de mise à jour 20, sur la base du signal de prédiction S^p(t_k,f) délivré par l'unité de prédiction 30 et du signal d'estimée S^e(t_k,f) délivré par l'unité d'estimation 10 délivre, quant à elle, le signal de séparation dont la variable aléatoire est notée S^tot(t_k,f).
Si l'on dispose de N sources élémentaires, le signal de séparation est représenté par un vecteurs dont chaque composante est relative à une source : $S^{tot} (t_{k}, f) = (\begin{matrix} s_{1}^{tot} (t_{k}, f) \\ ⋮ \\ s_{N}^{tot} (t_{k}, f) \end{matrix})$
Concernant l'unité de prédiction 30, dans le cas le plus simple elle peut revenir à introduire un terme de décalage entre deux trames successives, par son unité 32, et l'on peut donc écrire : $S^{p} (t_{k}, f) = H (f) \cdot S^{tot} (t_{k - 1}, f)$
Le signal prédit pour la trame présente est basé sur le signal de séparation pour la trame précédente.
L'espérance du signal de prédiction est donnée par la relation suivante : ${\hat{S}}^{p} (t_{k}, f) = H (f) \cdot {\hat{S}}^{tot} (t_{k - 1}, f)$
où H(f) est un terme qui, dans le domaine fréquentiel, est représentatif du décalage entre deux trames successives et qui, du fait que les signaux considérés sont des signaux stationnaires, peut s'écrire : $H (f) = \exp [2 πi \frac{f . M}{T}]$
où T est la longueur d'une trame, M le décalage considéré, et i le nombre complexe tel que i² = -1. Généralement, le décalage M entre trame est inférieur à la longueur T d'une trame et, même, il est souvent moitié de la longueur d'une trame : $M = T / 2$
Quant à l'unité de mise à jour 20, elle est prévue pour déterminer le signal de séparation S^tot(t_k,f) en sommant de manière pondérée le signal d'estimée S^e(t_k,f) et le signal prédit S^p(t_k,f). Dans le mode de réalisation représenté, le signal d'estimée S^e(t_k,f) est pondéré par un coefficient matriciel α(tk,f) alors que le signal prédit est pondéré par un coefficient I-α(tk,f), I étant la matrice unité.
Par exemple, ceci est réalisé en additionnant, dans un additionneur 21, au signal prédit S^p(t_k,f) un signal d'erreur calculé comme la différence entre le signal prédit S^p(t_k,f) et le signal d'estimée S^e(t_k,f), ledit signal d'erreur étant pondéré par un coefficient α(tk,f), la pondération étant effectuée par une unité de pondération 23. On peut donc écrire la relation : $S^{tot} (t_{k}, f) = S^{p} (t_{k}, f) + α (t_{k}, f) . (S^{e} (t_{k}, f) - S^{p} (t_{k}, f))$
Le système de séparation représenté à la Fig. 1 est prévu pour déterminer la matrice de coefficients optimale α(tk,f) permettant de minimiser la variance de l'estimation du signal de séparation S^tot(t_k,f). On peut montrer que cette valeur optimale du facteur de pondération est donnée par la relation suivante de la covariance du signal prédit Cov^p(t_k,f) et de la somme de la covariance du signal prédit Cov^p(t_k,f) et de la covariance du signal d'estimée Cov^e(t_k,f), soit : $α (t_{k}, f) = {[{Cov}^{e} (t_{k}, f) + {Cov}^{p} (t_{k}, f)]}^{- 1} \cdot {Cov}^{p} (t_{k}, f)$
La valeur du coefficient de pondération α(t_k,f) étant connue, il est possible de déterminer l'espérance du signal de séparation $S_{0}^{tot}$
(t_k,f) qui constitue alors la sortie de l'unité de mise à jour 20 : $S_{0}^{tot} (t_{k}, f) = S_{0}^{p} (t_{k}, f) + α (t_{k}, f) . (S_{0}^{e} (t_{k}, f) - S_{0}^{p} (t_{k}, f))$
On va donc procéder conformément au diagramme de la Fig. 2. Dans ce diagramme, on peut constater qu'il présente deux branches I et II : la première I regroupe les étapes E10, E20 et E30 et correspond aux calculs des covariances des différentes variables aléatoires aboutissant essentiellement au calcul de la matrice de coefficients optimale α(t_k,f) alors que la seconde II qui regroupe les étapes E40 et E50 correspond aux calculs des espérances de ces variables aléatoires aboutissant au calcul de l'espérance du signal de séparation en fonction du signal d'estimation délivré par l'unité d'estimation 10.
Plus précisément, à l'étape E10, est effectuée la mise à jour de la covariance du signal prédit représentée, on le rappelle, par la variable aléatoire S^p(t_k+1,f)
Du fait de l'unité 32 qui lie entre elles deux trames successives, on peut montrer facilement que la covariance du signal prédit est donnée par la relation suivante : ${Cov}^{p} (t_{k}, f) = {Cov}^{tot} (t_{k - 1}, f) + var (b^{p} (t_{k}, f))$
avec $var (b^{p} (t_{k}, f))$
variance du bruit de prédiction.
Le module de la fonction H(f) est en effet égal à 1.
La variance du bruit de prédiction var(b^p(t_k,f)) dépend des sources ou sous-sources considérées et de la fréquence f. Elle ne dépend pas de la trame considérée, si bien qu'elle peut également s'écrire : $var (b^{p} (t_{k}, f)) = var (b^{p} (f))$
Cette variance est avantageusement estimée dans une phase d'apprentissage. En définitive, on a : ${Cov}^{p} (t_{k}, f) = {Cov}^{tot} (t_{k - 1}, f) + var (b^{p} (f))$
Cov^tot(t_k-1,f) est une grandeur qui a été calculée à l'itération précédente (voir étape E30 ci-dessous).
A l'étape E20, on détermine la matrice de coefficients α(t_k,f) optimale. Pour ce faire, on utilise l'expression ci-dessus : $α (t_{k}, f) = {[{Cov}^{e} (t_{k}, f) + {Cov}^{p} (t_{k}, f)]}^{- 1} \cdot {Cov}^{p} (t_{k}, f)$
La covariance du signal de séparation prédit Cov^p(t_k,f) est donnée par le calcul effectué à l'étape E10. Quant à la covariance du signal d'estimée Cov^e(t_k,f), elle est déterminée par les formes spectrales caractéristiques $σ_{k_{i}}^{2}$
(f) et les facteurs d'amplitude a_ki (t_k) des sources ou sources élémentaires considérées.
On rappelle que l'équation du mélange est la suivante : $x (t, f) = \sum_{j} s_{j} (t, f) + b (t, f)$
où b(t,f) représente l'expression d'un bruit blanc gaussien stationnaire de variance $σ_{b}^{2}$
Quant aux sources élémentaires s_i (t,f), elles sont considérées a priori comme des sources gaussiennes non stationnaires de variance a_i(t,f) $σ_{i}^{2}$
(f) mais comme stationnaires conditionnellement à a_i(t).
Le signal d'estimé S^e(t,f) du mélange de l'ensemble des sources élémentaires est une variable aléatoire gaussienne de variance Cov^e(t,f):
On a pu montrer que cette covariance du signal d'estimée Cov^e(t_k,f) pouvait s'exprimer de la manière suivante : ${Cov}^{e} (t_{k}, f) = (\begin{matrix} a_{1} (t_{k}) σ_{1}^{2} (f) & 0 & 0 \\ 0 & ⋱ & 0 \\ 0 & 0 & a_{N} (t_{k}) σ_{N}^{2} (f) \end{matrix}) - \frac{1}{\sum_{j = 1}^{N} \begin{matrix} a_{j} (t_{k}) σ_{j}^{2} (f) \end{matrix} + σ_{b}^{2}} (\begin{matrix} a_{1} (t_{k}) σ_{1}^{2} (f) \\ ⋮ \\ a_{N} (t_{k}) σ_{N}^{2} (f) \end{matrix}) (\begin{matrix} a_{1} (t_{k}) σ_{1}^{2} (f) & \dots & a_{N} (t_{k}) σ_{N}^{2} (f) \end{matrix})$
expression dans laquelle :

a_j(t_k,f) est le facteur d'amplitude de la source ou de la source élémentaire d'indice j, pour la trame d'indice t_k et pour la fréquence d'indice f,
σ_j(f) est la forme spectrale caractéristique de la source ou de la source élémentaire d'indice j et pour la fréquence f,
σ_b est la variance d'un bruit blanc gaussien, et
N est le nombre total de sources élémentaires considérées.

A l'étape E30, la matrice de covariance du signal de séparation est remise à jour en utilisant l'expression suivante : ${Cov}^{tot} (t_{k}, f) = [I - α (t_{k}, f)] . {Cov}^{p} (t_{k}, f)$
expression dans laquelle :

I est la matrice identité,
α (t_k,f) est la matrice de coefficients telle que déterminée à l'étape E20 ci-dessus,
Cov^p(t_k,f) est la covariance du signal de séparation prédit telle que calculée à l'étape E10.

Après l'étape E30, pour ce qui concerne les calculs liés aux covariances, la trame suivante est considérée et le processus est repris à l'étape E10.
On considère maintenant les étapes E40 et E50 liées aux calculs des espérances. A l'étape E40, on détermine l'espérance du signal prédit $S_{0}^{p}$
(t_k,f) laquelle est donnée par la relation suivante en fonction de l'espérance du signal de séparation $S_{0}^{tot}$
(t_k-1,f) déterminée à la trame précédente : $S_{0}^{p} (t_{k}, f) = H (f) \cdot S_{0}^{tot} (t_{k - 1}, f)$
A l'étape E50, l'espérance du signal de séparation est calculée au moyen de l'expression suivante : $S_{0}^{tot} (t_{k}, f) = S_{0}^{p} (t_{k}, f) + α (t_{k}, f) . (S_{0}^{e} (t_{k}, f) - S_{0}^{p} (t_{k}, f))$
expression dans laquelle :

$S_{0}^{p}$
(t_k,f) est l'espérance du signal de séparation prédit déterminé à l'étape E10 ci-dessus,
$S_{0}^{e}$
(t_k,f) est l'espérance du signal d'estimée telle qu'il apparaît à la sortie du l'unité d'estimation 10, et
α(t_k,f) est la matrice de coefficients telle que déterminée à l'étape E20 ci-dessus.

L'espérance du signal de séparation $S_{0}^{tot}$
(t_k,f) est le signal de sortie du système. Ses composantes sont les signaux de séparation de chacune des sources ou des sources élémentaires considérées.
A l'étape E60, l'espérance du signal de séparation de la trame Tr , $S_{o}^{tot}$
(t_k,f) est décalée d'une trame pour obtenir l'espérance du signal de séparation de la trame t _k-1 et cette dernière espérance est utilisée au cours de l'étape E40.
Après les étapes E50 et E60, la trame suivante est considérée et le processus est repris à l'étape E40 pour ce qui concerne les étapes liées aux calculs des espérances.
Les étapes E10 et E40 sont mises en oeuvre par l'unité de prédiction 30 alors que les étapes E20, E30 et E50 sont mises en oeuvre par l'unité de mise à jour 20.
On notera qu'à l'initialisation du procédé, l'espérance et la covariance de la variable aléatoire représentant le signal de séparation sont mise à zéro puis les étapes E10 et E40 sont mises en oeuvre.

Claims

Procédé de détermination des signaux de séparation respectivement relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux, lesdits signaux se présentant sous forme de trames successives, ledit procédé incluant pour chacune desdites sources :
- une étape de détermination d'un signal d'estimée des sources

- une étape de prédiction (E40) d'un signal prédit pour la trame présente basée sur le signal de séparation pour la trame précédente ; et,

- une étape de détermination du signal de séparation (E50) pour la trame présente sur la base dudit signal prédit et dudit signal d'estimée,
caractérisé en ce que ladite étape de détermination du signal de séparation consiste à sommer de manière pondérée le signal d'estimée et le signal prédit, le signal d'estimée étant pondéré par un premier coefficient matriciel α(t_k ,f) et le signal prédit étant pondéré par un second coefficient matriciel égal à la matrice unité moins le premier coefficient matriciel, ledit premier coefficient matriciel étant déterminé de manière à minimiser la covariance du signal de séparation,
et en ce que la valeur dudit premier coefficient matriciel est calculée au moyen de la relation suivante de la covariance du signal prédit Cov^p(t_k,f)et de la somme de la covariance du signal prédit Cov^p(t_k,f) et de la covariance du signal d'estimée Cov^e(t_k,f), soit : $α (t_{k}, f) = {[{Cov}^{e} (t_{k}, f) + {Cov}^{p} (t_{k}, f)]}^{- 1} \cdot {Cov}^{p} (t_{k}, f)$
Procédé de détermination des signaux de séparation respectivement relatifs à des sources non sonores à partir d'un signal issu du mélange de ces signaux, lesdits signaux se présentant sous forme de trames successives, ledit procédé incluant pour chacune desdites sources :
- une étape de détermination d'un signal d'estimée des sources;

- une étape de prédiction (E40) d'un signal prédit pour la trame présente basée sur le signal de séparation pour la trame précédente ; et,

- une étape de détermination du signal de séparation (E50) pour la trame présente sur la base dudit signal prédit et dudit signal d'estimée
caractérisé en ce que ladite étape de détermination du signal de séparation consiste à sommer de manière pondérée le signal d'estimée et le signal prédit, le signal d'estimée étant pondéré par un premier coefficient matriciel et le signal prédit étant pondéré par un second coefficient matriciel égal à la matrice unité moins le premier coefficient matriciel, ledit premier coefficient matriciel étant déterminé de manière à minimiser la covariance du signal de séparation,
et en ce que la valeur dudit premier coefficient matriciel est calculée au moyen de la relation suivante de la covariance du signal prédit Cov^p (t_k, f) et de la somme de la covariance du signal prédit Cov^p(t_k,f) et de la covariance du signal d'estimée Cov^e(t_k,f), soit : $α (t_{k}, f) = {[{Cov}^{e} (t_{k}, f) + {Cov}^{p} (t_{k}, f)]}^{- 1} \cdot {Cov}^{p} (t_{k}, f)$
Procédé de séparation selon la revendication 1 ou la revendication 2, caractérisé en ce que la covariance du signal prédit Cov^p (t_k,f) est déterminée en fonction de la covariance du signal de séparation Cov^tot(t_k-1,f) pour la trame précédente au moyen de la relation suivante : ${Cov}^{p} (t_{k}, f) = {Cov}^{tot} (t_{k - 1}, f) + var (b^{b} (t_{k}, f))$

var(b^p(t_k,f)) étant la variance du bruit de prédiction qui dépend des sources ou sous-sources considérées.
Procédé de séparation selon la revendication 3, caractérisé en ce que ladite variance du bruit de prédiction var(b^p(t_k,f)) est estimée dans une phase d'apprentissage.
Procédé de séparation selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ladite covariance du signal d'estimée Cov^e(t_k,f) est déterminée au moyen de la relation suivante : ${Cov}^{e} (t_{k}, f) = (\begin{matrix} a_{1} (t_{k}) σ_{1}^{2} (f) & 0 & 0 \\ 0 & ⋱ & 0 \\ 0 & 0 & a_{N} (t_{k}) σ_{N}^{2} (f) \end{matrix}) - \frac{1}{\sum_{j = 1}^{N} a_{j} (t_{k}) σ_{j}^{2} (f) + σ_{b}^{2})} (\begin{matrix} a_{1} (t_{k}) σ_{1}^{2} (f) \\ ⋮ \\ a_{N} (t_{k}) σ_{N}^{2} (f) \end{matrix}) (\begin{matrix} a_{1} (t_{k}) σ_{1}^{2} (f) \end{matrix} \dots \begin{matrix} a_{N} (t_{k}) σ_{N}^{2} (f) \end{matrix})$

expression dans laquelle :
- a_j(t_k,f) est le facteur d'amplitude de la source ou de la source élémentaire d'indice j, pour la trame d'indice t_k et pour la fréquence d'indice f,

- σ_j(f) est la forme spectrale caractéristique de la source ou de la source élémentaire d'indice j et pour la fréquence f,

- σ_b est la variance d'un bruit blanc gaussien, et

- N est le nombre total de sources ou de sources élémentaires considérées.
Procédé de séparation selon l'une quelconque des revendications 1 à 5, caractérisé en ce que la matrice de covariance du signal de séparation est remise à jour en utilisant l'expression suivante : ${Cov}^{tot} (t_{k}, f) = [I - α (t_{k}, f)] {Cov}^{p} (t_{k}, f)$

Expression dans laquelle :
- I est la matrice identité ;

- α (t_k,f) est la matrice du premier coefficient de pondération ; et

- Cov^p(t_k,f) est la covariance du signal prédit.
Procédé de séparation selon l'une quelconque des revendications 1 à 6, caractérisé en ce qu'il comporte une étape de détermination du signal d'estimée S^e(t_k,f), chaque composante ${\hat{s}}_{i}^{c} (t_{k}, f)$
correspondant à l'estimation d'une source élémentaire i dudit signal d'estimée S^e(t_k,f) étant obtenue à partir des formules suivantes : ${\hat{s}}_{i}^{e} (t_{k}, f) = \frac{e_{i} (t_{k}, f)}{\sum_{j = 1}^{N} e_{j} (t_{k}, f)} . x (t_{k}, f)$
$e_{i} (t_{k}, f) = \sum_{k_{i} = 1}^{K_{i}} a_{k_{i}} (t_{k}) σ_{k_{i}}^{2} (f)$

dans lesquelles :
- e_i(t_k,f) étant la fraction d'énergie de la source i contenue dans le signal issu du mélange des signaux, dans une trame d'indice t_k et de fréquence d'indice f, N étant le nombre totale de sources ;

- x(t_k,f) étant le signal issus du mélange des signaux ;

- K_i étant le nombre de sources élémentaires considérés pour la source i ;

- a_ki (t_k) étant le facteur d'amplitude de la source élémentaire d'indice k_i ; et,

- $σ_{k_{i}}^{2} (f)$
étant la variance de cette source élémentaire d'indice k_i.