FR2871593A1 - Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d'un signal issu du melange de ces signaux - Google Patents

Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d'un signal issu du melange de ces signaux Download PDF

Info

Publication number
FR2871593A1
FR2871593A1 FR0406365A FR0406365A FR2871593A1 FR 2871593 A1 FR2871593 A1 FR 2871593A1 FR 0406365 A FR0406365 A FR 0406365A FR 0406365 A FR0406365 A FR 0406365A FR 2871593 A1 FR2871593 A1 FR 2871593A1
Authority
FR
France
Prior art keywords
signal
separation
sources
determining
covariance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0406365A
Other languages
English (en)
Other versions
FR2871593B1 (fr
Inventor
Laurent Benaroya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIST TECHNOLOGIES SARL
Original Assignee
MIST TECHNOLOGIES SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIST TECHNOLOGIES SARL filed Critical MIST TECHNOLOGIES SARL
Priority to FR0406365A priority Critical patent/FR2871593B1/fr
Priority to EP20050291254 priority patent/EP1605440B1/fr
Priority to DE200560024890 priority patent/DE602005024890D1/de
Publication of FR2871593A1 publication Critical patent/FR2871593A1/fr
Application granted granted Critical
Publication of FR2871593B1 publication Critical patent/FR2871593B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

La présente invention concerne un procédé de détermination des signaux de séparation respectivement relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux, lesdits signaux se présentant sous forme de trames successives, ledit procédé incluant une étape de détermination d'un signal d'estimée de chacune desdites sources.Selon la présente invention, il est caractérisé en ce qu'il inclut de plus, pour chacune desdites sources :- une étape de prédiction (E40) d'un signal prédit pour la trame présente basée sur le signal de séparation pour la trame précédente,- une étape de détermination du signal de séparation (E50) pour la trame présente sur la base dudit signal prédit et dudit signal d'estimée.

Description

La présente invention concerne un procédé de détermination des signaux de
séparation respectivement relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux.
Le domaine de la présente invention est celui du traitement numérique de signaux relatifs à des sources sonores, dits aussi plus simplement signaux de son, audiophoniques ou audio. Dans ce domaine particulier, les traitements effectués sur les signaux de son le sont non pas dans le domaine temporel mais dans le domaine fréquentiel. Aussi, utilise-t-on fréquemment au préalable à tout traitement une transformée de Fourier à court terme qui est une transformée linéaire associant à un signal dans le domaine temporel échantillonné {x(ti), ...,x(tN)} un signal bidimensionnel temps fréquence noté ici x(tk,f), où tk est un indice de trame du signal numérique échantillonné et f est un indice, généralement discret, de fréquence. Le signal x(tk,f) est donc un signal du domaine fréquentiel et il se présente sous forme de trames indicées en tk.
Dans la présente description, toutes les grandeurs dont il s'agit sont décrites au moyen de variables aléatoires et peuvent donc s'exprimer sous la forme: S(t,f) = E[S(t,f)] + b(t,f) où E(x) est l'espérance de la variable x et b(t,f) est un bruit que l'on considère ici centré et gaussien. L'espérance E[S(t,f)] sera par la suite notée de manière générale S((k,f).
Par ailleurs, du fait que plusieurs sources sont considérées, ces variables aléatoires sont en réalité des vecteurs dont chaque composante est liée à une source.
Pour désigner ces variables sous forme de vecteur ou de matrice, des lettres en majuscule sont utilisées.
Par ailleurs encore, dans la présente demande, la notion de signal se confond souvent à celle de la variable aléatoire qui la représente.
En ce qui concerne la séparation de signaux audio, on connaît un procédé qui est basé sur un filtre, dit filtre de Wiener, qui en définitive effectue une estimée du signal de séparation. Si l'on considère la variable aléatoire S(tk,f) représentative de son signal de sortie, on peut écrire: S(tk,f) = E[S(tk.t)] + b(tk,f) où E(x) est l'espérance de la variable x et b(tk,f) est un bruit que l'on considère ici centré et gaussien. L'espérance E[S(tk,f)] sera par la suite notée de manière générale So(tk,f). Si l'on appelle X(tk,f) la variable aléatoire qui décrit le signal du domaine fréquentiel issu du mélange des signaux des sources, et qui est appliqué à l'entrée du filtre, l'espérance de la variable aléatoire décrivant le signal de sortie du filtre est conditionnée aux signaux X(tk,f). On peut donc écrire: So(tk,f) = E[S(tk, f) X(tk,f)] Dans le cas du filtre de Wiener, chaque composante du vecteur S(t k,f) peut être obtenue par la relation suivante: se(tk f) = e(tk,f) @(tk,f)
N
ei(tk,f) où e;(tk,f) est la fraction d'énergie de la source i contenue dans le signal de mélange, dans la trame d'indice tk et de fréquence d'indice f, N étant le nombre total de sources et k (t k, f) étant le signal de mélange.
On considère, à titre illustratif uniquement, le cas particulier de deux sources délivrant des signaux respectivement notés dans le domaine temporel, si(t) et s2(t). Au départ, l'on dispose d'un signal de son, noté dans le domaine temporel x(t) représentatif du mélange de ces signaux de son: x(t) = si(t) + s2(t).
Dans une phase préalable d'apprentissage, on a évalué les deux sources sonores et on a plus exactement estimé leurs formes spectrales caractéristiques respectives r (f) et o (f), qui représentent, en définitive comme il est connu, leurs répartitions énergétiques en fonction de la fréquence. Si l'on considère que les signaux dans le domaine fréquentiel relatifs à ces deux sources s, (t, f) et sz (t, f) sont des variables aléatoires gaussiennes, stationnaires, 62 (f) et c(f) représentent respectivement leur variance. Le filtre de Wiener délivre une estimation du signal de son de chaque source et, ce dans le domaine fréquentiel, en accord avec les relations suivantes: 61 (f) (tf) _ 2 x(t,f) 6, 2 (f) + 6, (f) --)(t,f) _ 0.2(f)z x(t f) 6, 2 (f)+z(f) qui peuvent s'écrire sous forme matricielle de la manière suivante: S(tk,f) = P. X(tk,f) Où P est une matrice qui décrit les coefficients de pondération et qui est donnée ci- dessous pour N sources: lai (f) Do2(f) i=l i.1 Une interprétation simple du filtre de Wiener est que, dans le domaine fréquentiel, il répartit le mélange en fonction du rapport des énergies contenues dans les sources correspondantes. On remarquera qu'en particulier, si, dans une bande de fréquence f;, la répartition énergétique de la première source 6i (f;) est très supérieure à celle de la seconde source 622 (fi), le mélange est essentiellement réparti sur la première source et ainsi: s,(tk,fi) x(tk, f1) et sz(tk,f;) 0 L'inverse est également vrai. Dans le cas où les répartitions énergétiques sont sensiblement égales (3. (fi) o (fi) , les estimations des signaux de sons des deux sources sont sensiblement égales: si(tk,fi)- sz(tk'fi) 6; (f) 6N (f) r = [ N, ..., r Dans le cadre de la séparation de signaux de sons, le filtre de Wiener présente les principaux inconvénients suivants. Il opère de manière identique sur toutes les trames du signal de son de mélange et il ne tient donc pas compte des changements du contenu énergétique sonore d'une trame à l'autre. En définitive, il n'est pas un filtre adaptatif Un autre inconvénient réside dans le fait qu'il ne prend en compte qu'une forme spectrale caractéristique par source sonore alors même que les sources sonores présentent une grande variété spectrale en ternie de timbre, de hauteur, d'intensité, etc. De manière générale, le filtre de Wiener ne tient pas compte du fait qu'un événement sonore particulier, tel que par exemple une note jouée par un instrument donné, a une signature spectrale qui lui est propre et qui devrait le rendre reconnaissable.
Des améliorations du filtre de Wiener ont été proposées pour tenir compte de ces inconvénients et ont abouti à notamment deux méthodes qui sont essentiellement basées sur l'utilisation de formes spectrales multiples pour décrire chacune des sources impliquées.
La première de ces méthodes a été introduite dans le cadre de la reconnaissance de parole et a été ensuite utilisée en audio. Selon cette méthode, le signal de son de chaque source si(t) est caractérisé par un ensemble de K; formes spectrales o (f), k; E [1,...,K;]. Si l'on considère N sources, leur mélange est caractérisé par un ensemble de KI x K2 x... x KN N-uplets de formes spectrales caractéristiques ((72 (f) ,.. . , 6k, (f) ). Pour chaque trame d'indice tk, la méthode consiste à d'abord choisir le N-uplet de formes spectrales qui correspond le mieux au signal de son du mélange. Par exemple, elle peut consister à maximaliser la probabilité de correspondance entre le spectrogramme du mélange Ix(t k, f) I2 et la variance résultant du couple de formes spectrales. Ensuite, elle consiste à filtrer par un filtrage de Wiener classique le mélange en utilisant le N-uplet de formes spectrales ainsi sélectionné. On peut constater que cette méthode est adaptative puisque le choix des paramètres du filtre dépend de l'indice de trame tk considéré.
Le principal inconvénient de cette méthode réside dans sa complexité algorithmique. En effet, si K formes spectrales caractéristiques par source i et N sources i sont considérées dans le mélange, KN N-uplets de formes spectrales caractéristiques doivent être testés pour chaque trame si bien que la complexité est en O(K x T) si T est le nombre de trames du signal mélange à analyser. Cet inconvénient de complexité peut rendre cette méthode rédhibitoire, notamment lorsque le nombre de formes spectrales caractéristiques par source est relativement important.
Une autre méthode a également été proposée pour rendre adaptatif le procédé de séparation. Comme précédemment, le signal de son de chaque source si(t) est caractérisé par un ensemble de K; formes spectrales caractéristiques ak (f) mais qui sont là regroupées dans un dictionnaire de formes spectrales. Ainsi, le spectrogramme du mélange PX(tk,f) est décomposé sur l'union des dictionnaires en présence et il est donc possible d'écrire:
N
(f) +... + ak,.(tk)6,.(f) k,=1 k,=I où les coefficients ak, (t) , qui sont généralement nommés "facteurs d'amplitude", sont les inconnues à résoudre.
On notera que l'équation ci-dessus peut s'interpréter comme s'il y avait Ki +...+ KN sources élémentaires stationnaires qui sont caractérisées chacune par une forme spectrale 62 (f) et qui se mélangent entre elles avec des facteurs d'amplitude respectifs ak; (t) fonction du temps. On notera que chaque facteur d'amplitude a k; (t) d'une source élémentaire est caractéristique de l'enveloppe de cette source. Il est donc un nombre positif.
L'équation ci-dessus peut se réécrire de la manière suivante: Ix(tk,f) 2 Eei(tk,f) où ei (t k, f) représente la fraction d'énergie de la source i contenue dans le 25 mélange à analyser.
Une première méthode pour estimer les signaux de son des sources 1 à N est de mettre en oeuvre un filtrage de Wiener temps fréquence classique, néanmoins adaptatif dès lors qu'il dépend de l'indice de trame t. On a donc pour la source i: s;(tk,f) ei(tk'f) X(tk,f) :ei (tk,f) Une autre méthode, dite de resynthèse, considère l'amplitude du signal de son de chaque source i comme étant égale à .je (t k,f) et sa phase comme étant estimée par celle du mélange. Il est donc possible d'écrire pour la source i: (tk,f)= /e;(th,f).sign[X(tk,f)] où sign[x] = - correspond à la phase de x. x Cette seconde méthode par l'utilisation de dictionnaire de formes spectrales caractéristiques présente l'avantage par rapport à la précédente méthode de diminuer la complexité algorithmique. En effet, pour n sources possédant chacune K formes spectrales, la complexité algorithmique est en O(n x K x T) où T est le nombre de trames à analyser, donc inférieure à celle de la méthode précédente qui était en O(K" x T).
Les deux méthodes qui viennent d'être présentées présentent néanmoins l'inconvénient majeur que la phase de chacune des sources impliquées (ou des sources élémentaires impliquées selon la méthode utilisée) est rigoureusement égale à la phase du mélange. Or, en général, les sources qui s'additionnent n'ont pas toutes la même phase si bien que, dans les méthodes présentées ci-dessus, lors de la séparation, il y a destruction de la structure de phase des sources, ce qui peut entraîner des effets gênants pour l'écoute des signaux de son des sources recouvrées. Le système auditif humain est en effet très sensible aux cohérences de phase dans les signaux audio, notamment les cohérences inter-trames pour f fixée (phase cohérente entre s (t k+, ,f) et s (t k, f)) et les cohérences de phase pour une même trame mais pour différentes valeurs de la fréquence f (phase de s (t k, f) pour différentes valeurs de f). Ces effets de cohérence de phase sont notamment très sensibles sur les sons harmoniques, comme les sons d'un instrument de musique, ou encore les sons voisés, alors qu'ils sont moins importants sur les bruits blancs, roses, etc. ou encore les sons d'instrument de percussion.
Le but de la présente invention est de proposer une méthode de séparation des signaux relatifs à des sources sonores à partir d'un signal issu de mélange de ces signaux qui ne présente pas les incohérences de phase des méthodes citées ci-dessus.
Pour ce faire, la présente invention concerne un procédé de détermination des signaux de séparation respectivement relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux, lesdits signaux se présentant sous forme de trames successives, ledit procédé incluant une étape de détermination d'un signal d'estimée de chacune desdites sources. Il est caractérisé en ce qu'il inclut de plus, pour chacune desdites sources: - une étape de prédiction (E40) d'un signal prédit pour la trame présente basée sur le signal de séparation pour la trame précédente, - une étape de détermination du signal de séparation (E50) pour la trame présente sur la base dudit signal prédit et dudit signal d'estimée.
Avantageusement, ladite étape de détermination du signal de séparation consiste à sommer de manière pondérée le signal d'estimée et le signal prédit, lesdits coefficients de pondération étant déterminés de manière à minimiser la covariance du signal de séparation.
Avantageusement, le signal d'estimée est pondéré par un premier coefficient matriciel alors que le signal prédit est pondéré par un second coefficient matriciel égal à la matrice unité moins le première coefficient matriciel, ledit premier coefficient matriciel étant déterminé de manière à minimiser la covariance du signal de séparation.
Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels: La Fig. 1 est un schéma synoptique d'un système de séparation des signaux relatifs à des sources sonores à partir d'un signal issu de mélange de ces signaux selon la présente invention, et La Fig. 2 est un diagramme montrant les différentes étapes mises en oeuvre par un procédé de séparation de signaux selon la présente invention.
Dans la suite de la description, on considérera des sources sonores qui sont en elles-mêmes élémentaires, c'est-à-dire qui sont caractérisées chacune par une forme spectrale caractéristique donnée. Mais, on considérera également des sources sonores dont la caractéristique de forme spectrale est une caractéristique parmi plusieurs caractéristiques de forme spectrale possibles, par exemple appartenant à un dictionnaire de formes spectrales caractéristiques (voir le préambule de la présente description). Comme on le mentionnait dans le préambule de la description, on peut alors considérer une source sonore comme étant une combinaison pondérée d'une pluralité de sources sonores élémentaires dont chacune présente une caractéristique de forme spectrale donnée (par exemple issue d'un dictionnaire ou déterminée).
De manière à résoudre le problème des incohérences de phase des méthodes de l'état de la technique mentionnées en préambule de la description, la présente invention prévoit des moyens de lien entre trames adjacentes. En d'autres termes, chaque source sonore élémentaire est déterminée d'une manière récursive et itérative.
On rappelle que dans la présente description, toutes les grandeurs dont il s'agit sont décrites au moyen de variables aléatoires et peuvent donc s'exprimer sous la forme: S(t,f) = E[S(t,t)] + b(t,f) où E(x) est l'espérance de la variable x et b(t,f) est un bruit que l'on suppose ici centré et gaussien dont seule la variance est prise en considération. L'espérance E[S(t,f)] sera par la suite notée de manière générale So(t,f).
On a représenté à la Fig. 1 un système de séparation de signaux de sons issus de sources sonores selon un mode de réalisation de la présente invention qui comporte ces moyens de lien entre trames adjacentes. Ce système est essentiellement constitué d'une unité d'estimation 10 qui, sur la base d'un signal de mélange du domaine fréquentiel noté X(tk,f) obtenu par exemple par une transformée de Fourier à court terme du signal x(t) dans le domaine temporel échantillonné, délivre un signal d'estimée représenté par la variable aléatoire S(tk,f) dont chaque composante s; (t k,f) est le signal d'estimée pour une source du mélange d'indice i. Si l'on dispose de N sources élémentaires, le signal d'estimée est représenté par un vecteur dont chaque composante est relative à une source: Y e s,(tk,f) Sc(tk,f) = e) SN(tk,t, La variable aléatoire représentant le signal d'estimée S(tk,f) peut s'écrire de la manière suivante: S(tk,f)=S(tk,f)+b(tk,f) L'unité d'estimation 10 est telle que l'espérance du signal en sa sortie est conditionnée aux signaux X(tk,f) qui sont réellement observés. On peut donc écrire: Sô(tk,f) = E[S(tk,f) !X(tk,f)] L'unité d'estimation 10 est par exemple un filtre de Wiener (voir les différentes formes de ce type de filtre données dans le préambule de la présente description), une unité fonctionnant par une méthode de seuillage temps-fréquence, ou par une méthode dite Ephraïme et Malah, etc. Par exemple, dans le cas d'un filtre de Wiener, chaque composante du vecteur Se (t k, f) peut être obtenue par la relation suivante: s (t,f) N'(tk,f) .s(tk,f) eI(tk,f) où e;(tk,f) est la fraction d'énergie de la source i contenue dans le signal de mélange, dans la trame d'indice th et de fréquence d'indice f, N étant le nombre total de sources et X(t k,f) étant le signal de mélange.
On rappelle ici que pour une source élémentaire i, on peut écrire: K; e; (tk,f)= 1 a k;=1 où K; représente le nombre de sources élémentaires considérées pour la source i, ) représente le facteur d'amplitude de la source élémentaire d'indice k1 et6, (f) la variance de cette source élémentaire d'indice k1. On notera que K; pourrait être égal à 1 et, dans ce cas, le facteur d'amplitude a;(tk) vaudrait 1.
Le système de séparation de signaux de sons de sources sonores représenté à la Fig. 1 comporte encore une unité de mise à jour 20 et une unité de prédiction 30. Ce sont ces unités 20 et 30 qui constituent les moyens de lien inter-trame qui sont mentionnés ci-dessus.
L'unité de prédiction 30 est prévue pour délivrer un signal de prédiction dont la variable aléatoire correspondante S" (tk,f) peut s'exprimer sous la forme: SP(tk,f) _ ( f)+bP(tk,f) On rappelle ici que si l'on dispose de N sources élémentaires, le signal de prédiction est un vecteur dont chaque composante est relative à une source: ( s,)(tk,f) Sr(tk,f CSN(tk, ) Comme on peut le constater sur la Fig. 1, l'unité de mise à jour 20, sur la base du signal de prédiction S'(tk,f) délivré par l'unité de prédiction 30 et du signal d'estimée S (tk,f) délivré par l'unité d'estimation 10 délivre, quant à elle, le signal de séparation dont la variable aléatoire est notée S (tk f) Si l'on dispose de N sources élémentaires, le signal de séparation est représenté par un vecteur dont chaque composante est relative à une source: /stot(tk Stot (tk f) _ tot) s (tk,f) Concernant l'unité de prédiction 30, elle introduit un terme de décalage entre deux trames successives, par son unité 32, et l'on peut donc écrire: SP(tk,f)=e(f).S (tk,,f) Le signal prédit pour la trame présente est basé sur le signal de séparation pour la trame précédente.
L'espérance du signal de prédiction est donnée par la relation suivante: Sg(tk,f)=e(f) (tk1,f) où e(t) est un terme qui, dans le domaine fréquentiel, est représentatif du décalage entre deux trames successives et qui, du fait que les signaux considérés sont des signaux stationnaires, peut s'écrire: e(f) = exp 2ni f.M T où T est la longueur d'une trame, M le décalage considéré, et i le nombre complexe tel que i2 = -1. Généralement, le décalage M entre trame est inférieur à la longueur T d'une trame et, même, il est souvent moitié de la longueur d'une trame: M = T/2 Quant à l'unité de mise à jour 20, elle est prévue pour déterminer le signal de séparation Sor(tk,f) en sommant de manière pondérée le signal d'estimée Se(tk,I) et le signal prédit SP(tk,f). Dans le mode de réalisation représenté, le signal d'estimée SC(tk,f) est pondéré par un coefficient matriciel a(tk,f) alors que le signal prédit est pondéré par un coefficient I-a(tk,f), I étant la matrice unité.
Par exemple, ceci est réalisé en additionnant, dans un additionneur 21, au signal prédit SP(tk,f) un signal d'erreur calculé comme la différence entre le signal prédit SP(tk,f) et le signal d'estimée SC(tk,f), ledit signal d'erreur étant pondéré par un coefficient a(tk,f), la pondération étant effectuée par une unité de pondération 23. On peut donc écrire la relation: Stor(tk,f)=SP(tk,f)+a(tk,f).(Se(tk,f) SP(tk,f)) 25 Si l'on développe cette expression, on obtient: S1ot(tk,f)=So(tk,f)+a(tk,f). (se(tk,f) Sg(tk,f)) +bP(tk,f)+a(tk,f).(be(tk,f) bP(tk,f)) Le premier terme est l'espérance du signal de séparation So (t k, f) alors que le second terme est sa partie aléatoire, notée ici bo(tk,f) : S' (t,,f)=St(tk,f)+b '(tk,f) Le système de séparation représenté à la Fig. 1 est prévu pour déterminer la matrice de coefficients optimale a(tk,f) permettant de minimiser la variance de la partie aléatoire b (tk.f) du signal de séparation S t (tk, f) . On peut montrer que cette valeur optimale du facteur de pondération est donnée par la relation suivante de la covariance du signal prédit Cov' (t k Met et de la somme de la covariance du signal prédit Cov" (t k, f) et de la covariance du signal d'estimée Cove (t k, f) , soit: a(tk,f) =[Cove(tk,f)+CovP(t,,f)l ' ÉCovP(tk,f) La valeur du coefficient de pondération a(tk,f) étant connue, il est possible de déterminer l'espérance du signal de séparation Sot' (t k,f) qui constitue alors la sortie de l'unité de mise à jour 20: S (t,,f)=Sô(tk,f)+a(tk,f).(So(tk,f) Sg(tk,f)) On va donc procéder conformément au diagramme de la Fig. 2. Dans ce diagramme, on peut constater qu'il présente deux branches I et II: la première I regroupe les étapes E10, E20 et E30 et correspond aux calculs des covariances des différentes variables aléatoires aboutissant essentiellement au calcul de la matrice de coefficients optimale a(tk,f) alors que la seconde II qui regroupe les étapes E40 et E50 correspond aux calculs des espérances de ces variables aléatoires aboutissant au calcul de l'espérance du signal de séparation en fonction du signal d'estimation délivré par l'unité d'estimation 10.
Plus précisément, à l'étape E10, est effectuée la mise à jour de la covariance du signal prédit représenté, on le rappelle, par la variable aléatoire S tk+I,f) dont l'expression est la suivante: S''(tk,f) =So(tk,f) +b'(tk,f) Du fait de l'unité 32 qui lie entre elles deux trames successives, on peut montrer facilement que la covariance du signal prédit est donnée par la relation suivante: 13 Cov''(tk,f) = Cov (tk,,f)+var(bP(tk,f)) Le module de la fonction e(f) est en effet égal à 1.
La variance du bruit de prédiction var(b1(tk,f)) dépend des sources ou sous-sources considérées et de la fréquence f. Elle ne dépend pas de la trame considérée, si bien qu'elle peut également s'écrire: var(bP(tk,f))= var(b''(f)) Cette variance est avantageusement estimée dans une phase d'apprentissage. En définitive, on a: CovP(tk,f)=Cov '(tk_,,f)+var(bP(f)) Cov (tk_,, f) est une grandeur qui a été calculée à l'itération précédente (voir étape E30 ci-dessous).
A l'étape E20, on détermine la matrice de coefficients a(tk,f) optimale. Pour ce faire, on utilise l'expression ci-dessous: a(tk,f)=[Cove(tk,f)+ CovP(tk,f) ÉCovP(tk,f) La covariance du signal de séparation prédit Covr(tk,f) est donnée par le calcul effectué à l'étape E10. Quant à la covariance du signal d'estimée CovC(tk,f), elle est déterminée par les formes spectrales caractéristiques a2 (f) et les facteurs d'amplitude ak; (tk) des sources ou sources élémentaires considérées.
On rappelle que l'équation du mélange est la suivante: X(t, f) = si (t,f)+ b(t,f) où b(t,f)représente l'expression d'un bruit blanc gaussien stationnaire de variance G',2). Quant aux sources élémentaires s; (t, f) , elles sont considérées a priori comme des sources gaussiennes non stationnaires de variance a(t,f)a; (f) mais comme stationnaires conditionnellement à ai(t).
On peut également écrire le signal d'estimée Se(t,f) du mélange de l'ensemble des sources élémentaires: Se(tk,f) = E[S(tk,f) X(tk,f)]+be(tk, f) où E[.) désigne l'espérance conditionnée au signal X(tk,f) d'observation et be(tk,f) est un bruit blanc gaussien de moyenne nulle et de covariance précisément égale à Cove(tk,f). On a pu montrer que cette covariance du signal d'estimée Cove(tk,t) pouvait s'exprimer de la manière suivante: (al (tk)ai (f) 0 0 Cove(tk,f) = 0 0 0 0 aN(tk)G'X(f)) 1 al(tk)ai (f)(al(tk)61 (f) aN(tk)6N(f)) expression dans laquelle: - a;(tk,f) est le facteur d'amplitude de la source ou de la source élémentaire d'indice j, pour la trame d'indice tk et pour la fréquence d'indice f, - a;(t) est la forme spectrale caractéristique de la source ou de la source élémentaire d'indice j et pour la fréquence f, - ab est la variance d'un bruit blanc gaussien, et - N est le nombre total de sources ou de sources élémentaires considérées.
A l'étape E30, la matrice de covariance du signal de séparation est remise à jour en utilisant l'expression suivante: Covt (tkf)=[I a(tk,f) ICovp(tk, f) expression dans laquelle: - I est la matrice identité, - a(tk,f) est la matrice de coefficients telle que déterminée à l'étape E20 ci-dessus, Covr(tk,f) est la covariance du signal de séparation prédit telle que calculée à l'étape E10.
Après l'étape E30, pour ce qui concerne les calculs liés aux covariances, la trame suivante est considérée et le processus est repris à l'étape E10.
On considère maintenant les étapes E40 et E50 liées aux calculs des espérances. A l'étape E40, on détermine l'espérance du signal prédit Sô (tk,f) laquelle est donnée par la relation suivante en fonction de l'espérance du signal de séparation g' (t k_, , f) déterminée à la trame précédente: Sô(tk,f)=e(f)ÉSo'(tk_,,f) A l'étape E50, l'espérance du signal de séparation est calculée au moyen de l'expression suivante: S ( t ' f)=S' (t 6,f)+a(t6,f).S (t6 g' 6 f) (t,f 0 k 0 0) expression dans laquelle: - So(tk,f)est l'espérance du signal de séparation prédit telle que déterminée à l'étape E10 ci-dessus, - Sô(tk,f)est l'espérance du signal d'estimée telle qu'il apparaît à la sortie de l'unité d'estimation 10, et - a(tk,f) est la matrice de coefficients telle que déterminée à l'étape E20 ci- dessus.
L'espérance du signal de séparation S (tk,f) est le signal de sortie du système. Ses composantes sont les signaux de séparation de chacune des sources ou des sources élémentaires considérées.
Après l'étape E50, la trame suivante est considérée et le processus est repris à l'étape E40 pour ce qui concerne les étapes liées aux calculs des espérances.
Les étapes E10 et E40 sont mises en oeuvre par l'unité de prédiction 30 alors que les étapes E20, E30 et E50 sont mises en oeuvre par l'unité de mise à jour 20.
On notera qu'à l'initialisation du procédé, l'espérance et la covariance de la variable aléatoire représentant le signal de séparation sont mises à zéro puis les étapes El0 et E40 sont mises en oeuvre.

Claims (8)

REVENDICATIONS
1) Procédé de détermination des signaux de séparation respectivement relatifs à des sources sonores à partir d'un signal issu du mélange de ces signaux, lesdits signaux se présentant sous forme de trames successives, ledit procédé incluant une étape de détermination d'un signal d'estimée de chacune desdites sources, caractérisé en ce qu'il inclut de plus, pour chacune desdites sources: - une étape de prédiction (E40) d'un signal prédit pour la trame présente basée sur le signal de séparation pour la trame précédente, - une étape de détermination du signal de séparation (E50) pour la trame présente sur la base dudit signal prédit et dudit signal d'estimée.
2) Procédé de détermination des signaux de séparation selon la revendication 1, caractérisé en ce que ladite étape de détermination du signal de séparation consiste à sommer de manière pondérée le signal d'estimée et le signal prédit, lesdits coefficients de pondération étant déterminés de manière à minimiser la covariance du signal de séparation.
3) Procédé de détermination des signaux de séparation selon la revendication 2, caractérisé en ce que le signal d'estimée est pondéré par un premier coefficient matriciel alors que le signal prédit est pondéré par un second coefficient matriciel égal à la matrice unité moins le premier coefficient matriciel, ledit premier coefficient matriciel étant déterminé de manière à minimiser la covariance du signal de séparation.
4) Procédé de détermination des signaux de séparation selon la revendication 3, caractérisé en ce que la valeur dudit premier coefficient matriciel est calculée au moyen de la relation suivante de la covariance du signal prédit Cov P (t k, f) et de la somme de la covariance du signal prédit Covp(tk,f) et de la covariance du signal d'estimée Cov(tk,f), soit: a(tk,f)=[Cov(tk,f)+Cov tk,f)] ' ÉCov tk,f)
5) Procédé de détermination des signaux de séparation selon la revendication 4, caractérisé en ce que la covariance du signal prédit Cov''(tk,f)est déterminée en fonction de la covariance du signal de séparation Cov (t k_, , f) pour la trame précédente au moyen de la relation suivante: Cov'(tk.t)Covr '(tk,,f)+var(b''(tk,f)) var(b (tk, f)) étant la variance du bruit de prédiction qui dépend des sources ou sous- sources considérées.
6) Procédé de détermination des signaux de séparation selon la revendication 5, caractérisé en ce que ladite variance du bruit de prédiction var(bP (t k, f)) est estimée dans une phase d'apprentissage.
7) Procédé de détermination des signaux de séparation selon une des revendications 4 à 6, caractérisé en ce que ladite covariance du signal d'estimée Cove (t k,f) est déterminée au moyen de la relation suivante: (al(tk)6i (f) 0 0 Cov(tk,f)= 0 0 0 0 aN(tk)6N(f) (ai(tk)6i (f)
N
lai(tk)6'f (f)+ 6-b aN(tk)aN(f),(al(tk)621(f) aN(tk)6N(f)) expression dans laquelle: - ai(tk,t) est le facteur d'amplitude de la source ou de la source élémentaire d'indice j, pour la trame d'indice tk et pour la fréquence d'indice f, - 6;(f) est la forme spectrale caractéristique de la source ou de la source élémentaire d'indice j et pour la fréquence f, - ab est la variance d'un bruit blanc gaussien, et - N est le nombre total de sources ou de sources élémentaires considérées.
8) Procédé de détermination des signaux de séparation selon une des revendications 4 à 7, caractérisé en ce que la matrice de covariance du signal de séparation est remise à jour en utilisant l'expression suivante: Cov' (tk,f)[I a(tk,f)1Covp(tk,f) expression dans laquelle: - I est la matrice identité, - a(tk,t) est la matrice du premier coefficient de pondération, 10 - CovP(tk,f) est la covariance du signal prédit.
FR0406365A 2004-06-11 2004-06-11 Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d'un signal issu du melange de ces signaux Expired - Fee Related FR2871593B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR0406365A FR2871593B1 (fr) 2004-06-11 2004-06-11 Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d'un signal issu du melange de ces signaux
EP20050291254 EP1605440B1 (fr) 2004-06-11 2005-06-10 Procédé de séparation de signaux sources à partir d'un signal issu du mélange
DE200560024890 DE602005024890D1 (de) 2004-06-11 2005-06-10 Verfahren zur Quellentrennung eines Signalgemisches

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0406365A FR2871593B1 (fr) 2004-06-11 2004-06-11 Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d'un signal issu du melange de ces signaux

Publications (2)

Publication Number Publication Date
FR2871593A1 true FR2871593A1 (fr) 2005-12-16
FR2871593B1 FR2871593B1 (fr) 2007-02-09

Family

ID=34942399

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0406365A Expired - Fee Related FR2871593B1 (fr) 2004-06-11 2004-06-11 Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d'un signal issu du melange de ces signaux

Country Status (3)

Country Link
EP (1) EP1605440B1 (fr)
DE (1) DE602005024890D1 (fr)
FR (1) FR2871593B1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11558699B2 (en) 2020-03-11 2023-01-17 Sonova Ag Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENAROYA L ET AL: "Non negative sparse representation for wiener based source separation with a single sensor", 2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). HONG KONG, APRIL 6 - 10, 2003, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY : IEEE, US, vol. VOL. 1 OF 6, 6 April 2003 (2003-04-06), pages VI613 - VI616, XP010640826, ISBN: 0-7803-7663-3 *
MANDIC D P ET AL: "An on-line algorithm for blind source extraction based on nonlinear prediction approach", NEURAL NETWORKS FOR SIGNAL PROCESSING, 2003. NNSP'03. 2003 IEEE 13TH WORKSHOP ON TOULOUSE, FRANCE SEPT. 17-19, 2003, PISCATAWAY, NJ, USA,IEEE, 17 September 2003 (2003-09-17), pages 429 - 438, XP010712478, ISBN: 0-7803-8177-7 *
STONE J V: "Blind source separation using temporal predictability", NEURAL COMPUTATION MIT PRESS USA, vol. 13, no. 7, 2001, pages 1559 - 1574, XP002303769, ISSN: 0899-7667 *

Also Published As

Publication number Publication date
DE602005024890D1 (de) 2011-01-05
EP1605440A1 (fr) 2005-12-14
FR2871593B1 (fr) 2007-02-09
EP1605440B1 (fr) 2010-11-24

Similar Documents

Publication Publication Date Title
FR2639459A1 (fr) Procede de traitement du signal et appareil de formation de donnees issues d'une source sonore
FR2943875A1 (fr) Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
EP2255357A2 (fr) Appareil et procédé pour convertir un signal audio en une représentation paramétrée, appareil et procédé pour modifier une représentation paramétrée, appareil et procédé pour synthétiser une représentation paramétrée d'un signal audio
EP1730729A1 (fr) Procede et systeme ameliores de conversion d'un signal vocal
EP2419900A1 (fr) Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
WO2005106853A1 (fr) Procede et systeme de conversion rapides d'un signal vocal
EP2795618B1 (fr) Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant
FR2702075A1 (fr) Procédé de génération d'un filtre de pondération spectrale du bruit dans un codeur de la parole.
WO2004088633A1 (fr) Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse
EP0685833B1 (fr) Procédé de codage de parole à prédiction linéaire
EP0195441B1 (fr) Procédé de codage à faible débit de la parole à signal multi-impulsionnel d'excitation
Amado et al. Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes
FR2871593A1 (fr) Procede de determination des signaux de separation respectivement relatifs a des sources sonores a partir d'un signal issu du melange de ces signaux
CN107146630B (zh) 一种基于stft的双通道语声分离方法
Woodruff et al. Resolving overlapping harmonics for monaural musical sound separation using pitch and common amplitude modulation
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP0734013B1 (fr) Determination d'un vecteur d'excitation dans un codeur CELP
EP3934282A1 (fr) Procédé de conversion d'un premier ensemble de signaux représentatifs d'un champ sonore en un second ensemble de signaux et dispositif électronique associé
FR2751776A1 (fr) Procede d'extraction de la frequence fondamentale d'un signal de parole
EP1192618B1 (fr) Codage audio avec liftrage adaptif
EP1714273A1 (fr) Procede de restauration de partiels d'un signal sonore
EP0686964B1 (fr) Procédé et système pour produire un signal analogique de synthèse
EP1194923B1 (fr) Procedes et dispositifs d'analyse et de synthese audio
Trzos Frequency warping via warped linear prediction
EP1190414A1 (fr) Codage et decodage audio avec composantes harmoniques et phase minimale

Legal Events

Date Code Title Description
CA Change of address
CD Change of name or company name
CJ Change in legal form
PLFP Fee payment

Year of fee payment: 13

PLFP Fee payment

Year of fee payment: 14

PLFP Fee payment

Year of fee payment: 15

PLFP Fee payment

Year of fee payment: 16

ST Notification of lapse

Effective date: 20210206