CZ303191B6 - Zpusob slepé separace akustických signálu z jejich konvolutorní smesi - Google Patents

Zpusob slepé separace akustických signálu z jejich konvolutorní smesi Download PDF

Info

Publication number
CZ303191B6
CZ303191B6 CZ20080752A CZ2008752A CZ303191B6 CZ 303191 B6 CZ303191 B6 CZ 303191B6 CZ 20080752 A CZ20080752 A CZ 20080752A CZ 2008752 A CZ2008752 A CZ 2008752A CZ 303191 B6 CZ303191 B6 CZ 303191B6
Authority
CZ
Czechia
Prior art keywords
matrix
acoustic signals
sft
signal
acoustic
Prior art date
Application number
CZ20080752A
Other languages
English (en)
Other versions
CZ2008752A3 (cs
Inventor
Koldovský@Zbynek
Tichavský@Petr
Original Assignee
Technická univerzita v Liberci
Ústav teorie informace a automatizace AV CR, v.v.i.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technická univerzita v Liberci, Ústav teorie informace a automatizace AV CR, v.v.i. filed Critical Technická univerzita v Liberci
Priority to CZ20080752A priority Critical patent/CZ303191B6/cs
Publication of CZ2008752A3 publication Critical patent/CZ2008752A3/cs
Publication of CZ303191B6 publication Critical patent/CZ303191B6/cs

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

Podstata zpusobu slepé separace akustických signálu s.sub.1.n.(t) až s.sub.n.n.(t) z jejich konvolutorní smesi podle rešení spocívá v tom, že se v prvním kroku urcí hlavní relativní zpoždení d.sub.ij.n., kde i znací i-tý mikrofon a má hodnotu i=2 až m, a j znací j-tý signál a má hodnotu j=1 až n, s jakými prichází hlavní vlny akustických signálu ze zdroju (2, 20) akustických signálu k mikrofonum (3, 30) vuci referencnímu mikrofonu (3, 30). V druhém kroku se pak sestaví datová matice X, jejíž rádky obsahují N vzorku signálu x.sub.k.n.(t), kde k znací index mikrofonu (3, 30) a má hodnotu k=1 až m z mikrofonu (3, 30), pricemž tyto vzorky jsou v dusledku hlavních relativních zpoždení d.sub.ij.n. vzájemne posunuty o hlavní posunutí p.sub.ij.n. vzorku, kde i znací i-tý mikrofon (3, 30) a má hodnotu i=2 až m, a j znací j-tý signál a má hodnotu j=1 až n. Pro každý akustický signál s.sub.1.n.(t) až s.sub.n.n.(t) pak existují v datové matici X alespon dva rádky, v nichž má hlavní vlna tohoto akustického signálu s.sub.1.n.(t) až s.sub.n.n.(t) stejné hlavní relativní zpoždení d.sub.ij.n., pricemž následne se ke každému rádku dále priradí L-1 rádku predstavujících posunutí p.sub.ij.n.+1 až p.sub.ij.n.+L-1, které odpovídají odraženým vlnám akustických signálu s.sub.1.n.(t) až s.sub.n.n.(t), pricemž v datové matici X se nevyskytují duplicitní rádky. Na takto vytvorenou datovou matici X je dále aplikován algoritmus pro analýzu nezávislých komponent, címž je vytvorena ctvercová matice W, jejímž následným maticovým soucinem s datovou maticí X je pripravena matice C obsahující statisticky nezávislé komponenty akustických signálu s.sub.1.n.(t) až s.sub.n

Description

Způsob slepé separace akustických signálů z jejich konvolutorní směsi
Oblast techniky
Vynález se týká způsobu slepé separace akustických signálů zjejich konvolutorní směsi tvořené hlavními a odraženými vlnami akustických signálů ze zdroje akustických signálů, která je snímána m mikrofony, z nichž jeden je referenční, přičemž tento způsob probíhá v časové oblasti.
Dosavadní stav techniky
Úlohou slepé separace akustických signálů je získání požadovaného konkrétního signálu ze směsi několika signálů pocházejících z různých zdrojů, která je snímaná soustavou snímačů (např. mikrofonů), přičemž není známá poloha jednotlivých zdrojů akustických signálů, poloha snímačů, akustické parametry prostředí, kterým se směs signálů šíří, ani další informace o jednotlivých signálech. Přitom se může navíc např. poloha zdrojů akustických signálů a/nebo poloha snímačů měnit v čase. Vhodně navržený způsob slepé separace akustických signálů je využitelný pro široké spektrum různorodých aplikací, kde je nutno ze směsi různých akustických signálů získat jeden nebo několik „užitečných“ akustických signálů, a ostatní signály potlačit či izolovat. Tato metoda je pak využitelná např. při dálkovém přenosu akustických signálů nebo zpracování zvukových záznamů těchto signálů, kdy umožňuje např. odstranění šumu způsobeného pri přenosu nebo pořízení akustického signálu a zvýšení kvality takového přenosu a/nebo záznamu. Tento způsob je využitelný také při vyhodnocování řečových signálů, např. pri počítačovém rozpoznávání řeči, pri vzdálené komunikaci člověka s počítačem, kdy je řeč snímána vzdálenými mikrofony nebo mikrofonním polem.
Dosavadní způsoby separace akustických signálů jsou založeny převážně na separaci ve frekvenční nebo v časo-frekvenční oblasti za pomoci Fourierovy transformace. I přes to, že užití těchto způsobů je poměrně rozšířené, vykazují množství nevýhod, z nichž nej významnější je nutnost opatření relativně dlouhých úseků dat, což významně omezuje či dokonce vylučuje použití těchto metod v situacích, kdy se v čase mění poloha zdrojů akustických signálů a/nebo poloha jejich snímačů. Separace ve frekvenční oblasti přitom dále představuje řešení složitého permutačního problému s vysokou softwarovou i hardwarovou náročností.
Tohoto typuje i způsob popsaný v práci L. Parra a C. Spence „Convolutive Blind Source Separation of Non-stationary Sources“ IEEE Transactions on Speech and Audio Processing, pp. 320 až 370, květen 2000 patentovaná v EP 1 070 390. Tento způsob předpokládá dostatečně velké frekvenční rozlišení (délka Diskrétní Fourierovy transformace), kdy je kruhová konvoluce přibližně rovna lineární konvoluci, díky čemuž lze nahradit konvolutorní model směsi signálů soustavou komplexních lineárních modelů bez zpoždění a odrazů, kde každý z modelů je uvažován zvlášť pro příslušné frekvenční pásmo. Každý tento model je potom řešen pomocí kritérií využívajících nestacionarity akustických signálů. Permutační problém vyplývající ze slepé separace je zde vyřešen tak, aby délka výsledného separujícího filtru v časové oblasti byla minimální, což je ekvivalentní s požadavkem optimální hladkosti a spojitosti filtru ve frekvenční oblasti. Další metoda podobně operující ve frekvenční oblastí je EP 1 752 969, resp. analogie WO 2006/085 537.
Alternativou k těmto metodám jsou separační metody, které pracují v časové oblasti. Tyto metody mají společné to, že pracují s maticí časově posunutých signálů, naměřených na daném mikrofonním poli. Počet řádků v této matici je dán součinem počtu mikrofonů a počtu posunutí, který reprezentuje délku separujícího inverzního filtru.
V literatuře lze odlišit dvě možnosti separace v časové oblasti. V té první se hledá taková lineární kombinace řádků datové matice, aby reprezentovala vždy jeden separovaný zdroj. Tato lineární
- 1 CZ 303191 B6 kombinace je hledána tak, aby byla co nejodlišnější od stacionárního Gaussovského šumu, tj. byla co nejvíce ne-Gaussovská nebo nestacionární. Každý separovaný zdroj je rekonstruován pouze zjedné takové komponenty. Příkladem je práce S. Douglas, M. Gupta, H. Sawada, and
S. Makíno, „Spatio-temporal FastICA Algorithms for the Blind Separation of Convolutive Mix5 tures, IEEE Trans, on Audio, Speech and Language Processing, Vol. 15, No. 5, pp. 1511 až 1520, July 2007. Problémem těchto metod je, že jejich účinnost silně závisí na tom, ze kterých komponent jsou zdroje rekonstruovány. Výsledek je tak závislý na správné inicializaci, která se však musí nutně opírat o nějakou apriorní informaci, tedy třeba skutečnou pozici mikrofonů a zdrojů.
Práce Herbert Buchner, Robert Aichner, Walter Kellermann „TRINICON: A Versatile Framework for Multichanel Blind Signál Processing“ Proč. IEEE International Conference On Acoustics, Speech and Signál Processing (ICASSP), pp. 889 až 892, vol. 3, Montreal, Kanada, květen 2004 popisuje metodu, kde je lineární prostor generovaný řádky datové matice separován t5 na bloky/podprostory, z nichž každý by měl reprezentovat jeden separovaný zdroj. TRINICON umožňuje kombinovat různá kriteria pro separaci, totiž nestačionaritu, ne-Gaussovskost a spektrální diversitu. Zvolené kriterium je minimalizováno pomocí gradientní metody, přesněji pomocí přirozeného gradientu. Nevýhodu této metody je, že není zaručena její konvergence, může být pomalá a stacionární řešení, která je výsledkem iteračního postupu, nemusí být globální mini20 mum účelové funkce. Výsledkem tedy nemusí být dobře separované signály.
Existující metody slepé separace v časové oblasti neřeší situaci, kdy mikrofonní pole má velké rozměry a hlavní akustická vlna od každého zdroje přichází k mikrofonům s významně odlišným zpožděním. Inverzní separuj ící filtr by totiž měl mít délku větší nebo rovnou rozdílu těchto zpož25 dění a byl by tak potřeba hodně dlouhý, a tedy výpočetně náročný.
Cílem vynálezu je navrhnout způsob slepé separace akustických signálů z jej ich konvolutomí směsi v časové oblasti, který by odstranil nevýhody dosavadního stavu techniky a současně dosahoval menší výpočtové náročnosti.
Podstata vynálezu
Podstata způsobu slepé separace akustických signálů sft) az s„(t) z jej ich konvolutomí směsi podle vynálezu spočívá v tom, že v prvním kroku se určí hlavní relativní zpoždění d,Jt kde i značí i-tý mikrofon a má hodnotu i = 2 až m, a j značí j-tý signál a má hodnotu j = 1 až n, s jakými přichází hlavní vlny akustických signálů ze zdrojů akustických signálů k mikrofonům vůči referenčnímu mikrofonu. Ve druhém kroku se pak sestaví datová matice X, jejíž řádky obsahují N vzorků signálů xdt), kde k značí index mikrofonu a má hodnotu k = 1 až n zaznamenaných na mikrofonech, přičemž tyto vzorky jsou v důsledku hlavních relativních zpoždění dy vzájemně posunuty o hlavní posunutí py vzorků, kde i značí i—tý mikrofon a má hodnotu i = 2 az m, a j značí j-tý signál a má hodnotu j = 1 až n, a pro každý akustický signál sf(t) až s„(t) existují v datové matici X alespoň dva řádky, v nichž má hlavní vlna tohoto akustického signálu sft) až s„(t) stejné hlavní relativní zpoždění dy. Během přípravy datové matice X se dále ke každému řádku přiradí L-\ řádků představujících posunutí py+\ až py+L-1 odražených vln akustických signálů st(t) až s„(t), kde L představuje nominální počet posunutí ptJ+1 až ρ,,+L-l odražených vln akustických signálů sft) až s„(t), přičemž v datové matici X se nevyskytují duplicitní řádky. Účelem sestavení datové matice X je umožnění aplikace filtru pro provedení operace konvoluce signálů xft) až xm(t) zaznamenaných mikrofony prostřednictvím maticových operací, konkrétně maticového násobení, a zejména aplikace ICA metod, které pracují pouze s lineární směsí akustických signálů xi(t) ažxm(t) bez jejich zpoždění a odrazů. Na takto vytvořenou datovou matici X je dále aplikován algoritmus pro analýzu nezávislých komponent, čímž je vytvořena čtvercová matice W, jejímž následným maticovým součinem s datovou maticí X je připravena matice C obsahující statisticky nezávislé komponenty akustických signálů sf(t) až s„(t). Ve třetím kroku se prostřednictvím projekčních operátorů vypočte matice podobnosti D mezi jednotlivými nezávis-2CZ 303191 B6 lými komponentami akustických signálů st(t) až s„(t), přičemž následně jsou podle této matice metodou shlukování vytvořeny shluky nezávislých komponent akustických signálů sft) ažs„(t). Ve čtvrtém kroku se z nezávislých komponent jednotlivých shluků, vytváří pro každý akustický signál sft) až s„(t) rekonstruovaná datová matice X, z níž jsou dále vytvořeny odezvy separova5 ného signálu odpovídající danému shluku nezávislých komponent na všech m mikrofonech.
V pátém kroku jsou následně kombinovány odezvy každého separovaného signálu ze všech mikrofonů m do jednoho kanálu. Tím je z konvolutomí směsi akustických signálů separován libovolný z těchto signálů. Přitom se ukazuje, že pro dobrou separaci postačují inverzní filtry délky 10 až 20, nebo delší filtry, které však mají pouze 10 až 20 nenulových koeficientů.
io
Hlavní relativní zpoždění dt/, se s výhodou určí pomocí zjednodušeného modelu míšení akustických signálů s/(t) až sn(t), přičemž na tento model je možné aplikovat například metodu odhadu času příchodu (TOA).
Pro systémy s neměnnou polohou zdrojů akustických signálů a mikrofonů je výhodné a výpočetně rychlejší určit hlavní relativní zpoždění d,j výpočtem ze známé polohy zdrojů akustických signálů vůči poloze mikrofonů.
Za předpokladu, že hlavní relativní zpoždění c/,, jsou malá, což nastává zejména v případech, kdy vzájemné vzdálenosti mikrofonů jsou v porovnání s jejich vzdálenostmi od zdrojů akustických signálů st(t) až s„(t) malé (např. u tzv. miniaturních mikrofonových polí), lze první krok způsobu slepé separace podle vynálezu zcela vynechat, a všechna hlavní relativní zpoždění d,t volit rovna nule.
Pro malý počet zdrojů akustických signálů a malý počet mikrofonů je výhodné, použít pro odhad hlavních relativních zpoždění di} lokálních maxim vzájemné kovariance signálů xt(t) a x2(t) z mikrofonů. Přičemž pro snadnější nalezení těchto maxim je dále výhodné, pokud se signály xft) až x2(t) z mikrofonů předzpracují bělicím filtrem.
Jako nej výhodnější algoritmus pro analýzu nezávislých komponent se jeví algoritmus, který minimalizuje vzájemnou informaci mezi komponentami skrze optimalizaci nelineární objektivní funkce, a poté provádí test sedlových bodů, aby byla zaručena globální konvergence, a dále tzv. „dolaďování“ (fine-tuning) pro maximální zpřesnění výsledku. Jako použitelná se jeví např. algoritmus EFICA vyvinutý původci, který předpokládá negaussovskost původních signálů, díky čemuž je použitelný na velmi širokou škálu signálů.
V případě, že akustickým signálem je lidská řeč či jiný nestacionární akustický signál, je výhodnější použití algoritmu, který hledá komponenty prostřednictvím přibližné vzájemné diagonalizace matic s optimálními váhami, přičemž tyto matice jsou kovariační matice bloků datové matice
X rozdělené po délce, tak, aby délka bloku odpovídala délce, kde jsou akustické signály přibližně stacionární, tj. pro lidskou řeč přibližně 20 až 40 ms. Tím de facto hledá komponenty, které mají co nejodlišnější dynamiku. Takovým algoritmem je např. algoritmus BGWEDGE. Ten má oproti algoritmu AFICA tu výhodu, že nepoužívá k výpočtu statisticky vyššího než druhého řádu, což obecně umožňuje rychlejší výpočet.
Po vytvoření matice podobnosti D jsou, s využitím např. hierarchického klastrování, vytvářeny shluky nezávislých komponent jednotlivých akustických signálů s{(t) až
Přitom je z výpočetního hlediska výhodné, pokud je před zpětnou rekonstrukcí datové matice X so pro každý akustický signál sft) až s„(t) k matici podobnosti D přičtena její transpozice DT.
Rekonstruovaná datová matice X je pak získána vynásobením nezávislých komponent akustických signálů s/(t) až s„(t) vahou představující příslušnost dané nezávislé komponenty k danému shluku, přičemž takto získaná matice C je dále násobena maticí W-1.
-3CZ 303191 B6
Váha představující příslušnost dané nezávislé komponenty k danému shlukuje přitom pro každou nezávislou komponentu vypočtena buď na základě podobnosti této komponenty s komponentami náležejícími do tohoto shluku, nebo fuzzy-klastrovacím algoritmem.
V případech, kdy je akustickým signálem lidská řeč, je výhodné po jejím separování dále využít časofrekvenčního maskování separovaných akustických signálů, při kterém dojde k dalšímu potlačení zbylé interference a zvýraznění řeči.
Přehled obrázků na výkresech
Podstata vynálezu bude vysvětlena s pomocí přiloženého výkresu, na kterém značí obr. 1 jednu z nejjednodušších situací pro použití způsobu slepé separace akustických signálů z jej ich konvolutomí směsi podle vynálezu.
Příklady provedení vynálezu
Podstatou vynálezu je způsob slepé separace akustických signálů z konvolutomí směsi akustických signálů, který probíhá v časové oblasti, a který obsahuje pět postupně prováděných kroků.
Konvolutomí směs akustických signálů je směs akustických signálů, která je vytvořena přirozeným míšením akustických signálů v akustickém prostředí. Konvolutomí se nazývá proto, že proces míšení je popsán pomocí operace konvoluce, což zároveň odpovídá aplikaci mixovacího filtru s mnoha vstupy (původními akustickými signály) a mnoha výstupy (smísené signály zachycené na mikrofonech). Pro ideální separaci jednotlivých akustických signálů je pak nejvhodnější najít k tomuto mixovacímu filtru filtr inverzní. V praxi ovšem stačí najít pouze takový filtr, který nemusí být nutně inverzní, avšak který je schopen separovat původní akustické signály z jejich konvolutomí směsi. Průběh separace v časové oblasti znamená, že všechny výpočty a operace jsou prováděny přímo s netransformovanými signály zachycenými na mikrofonech.
Na obr. 1 je znázorněna situace, kdy se v prostoru 1, jehož hranice umožňují odraz akustických signálů, nachází dva nezávislé zdroje 2 a 20 akustických signálů st(t) aí s„(t) a dva nezávislé mikrofony 3 a 30 pro jejich zaznamenávání. Přesná poloha zdrojů 2 a 20 akustických signálů S/(t) až s„(t) a mikrofonů 3 a 30 v prostoru 1, rozměry prostoru 1 a jeho akustické charakteristiky přitom nejsou známé. Odtud označení „slepá“ separace akustických signálů. Mikrofony 3 a 30 jsou propojeny s neznázoměnou zvukovou kartou PC nebo jiného vyhodnocovacího zařízení, na kterém probíhají s využitím vhodného výpočtového software, např. Matlab, výpočtové operace způsobu slepé separace akustických signálů podle vynálezu.
Situace schematicky znázorněná na obr. 1 představuje pouze nejjednodušší příklad s minimálním počtem zdrojů 2 a 20 akustických signálů Sj(t) až s2(t) a mikrofonů 3 a 30, a slouží pouze pro vysvětlení podstaty vynálezu. Taje však využitelná v podstatě pro libovolný počet zdrojů 2, 20 akustických signálů s/(t) až s„(t) a mikrofonů 3, 30, a je omezena pouze výpočetními možnostmi použitého vyhodnocovacího zařízení a software.
V prvním kroku způsobu podle vynálezu se s pomocí zjednodušeného modelu míšení akustických signálů Sj(i) až s„(t) odhadnou relativní zpoždění, s jakými přichází hlavní (přímé) vlny akustických signálů Si(t) aí sn(t) ze zdrojů akustických signálů k jednotlivým mikrofonům, vůči referenčnímu (prvnímu) mikrofonu, na němž jsou relativní zpoždění nedefinována jako nulová. Vzhledem k tomu, že se jedná o relativní zpoždění hlavních vln akustických signálů Si(t) až s„(t), jsou dále označována jako hlavní relativní zpoždění du, kde i značí i-tý mikrofon a má hodnotu i = 2 až m, a j značí j-tý signál a má hodnotu j = 1 až n. Hlavní relativní zpoždění d,, nabývají obvykle kladných hodnot, avšak v případě, že hlavní vlna akustického signálu si(t) až sn(t) dorazí
-4CZ 303191 B6 k některému z mikrofonů dříve než k referenčnímu mikrofonu, nabývá hlavní relativní zpoždění d„ hodnotu zápornou.
Obecný zjednodušený model míšení n signálů stfl) až sn(t) na m mikrofonech, na jejichž výstu5 pech jsou měřené signály xt(t) ažxm(t) se sestaví následovně:
X, (/)=«„.?, (/) + ... + «,„*„(/) +2 (0 = »21Í, 0 - ^21) + · + a2„Sn 0 ~ d2„ ) xm (0 = am\si 0 - dm\) + · + am„s„ (Z - d„„) přičemž pro situaci znázorněnou na obr. 1 platí tvar:
x, (z) = a,(Z) + al2s,(Z) x,(z) = Oji^i (Z — d,\) + — ^22)
I kde a,„ kde i značí i—tý mikrofon a má hodnotu i = 1 až m a j značí j-tý signál a má hodnotu j = 1 až n, jsou neznámé koeficienty zesílení resp. zeslabení, které jsou závislé na vzdálenosti zdrojů akustických signálů od mikrofonů.
Tento model tedy uvažuje pouze šíření hlavních vln akustických signálů sft) až s„(t). Libovolný j-tý akustický signál s/t)je pak na libovolném /—tém mikrofonu zpožděn o hlavní relativní zpoždění dtl, kde i = 2 až m, aj = 1 až w. Hodnoty hlavních relativních zpoždění dlf se odhadnou někte20 rým ze známých způsobů určených pro tento model, např. metodou pro odhad času příchodu, známou pod označením TO A (time-of-arrival) estimation, apod.
Pro příklad znázorněný na obr. 1 se dvěma zdroji 2 a 20 akustických signálů s{(t) až s2(t) a dvěma mikrofony 3 a 30 lze k odhadu hlavního relativního zpoždění, se kterými dorazí hlavní vlna 230 akustického signálu stft) na mikrofon 30, a hlavní vlna 2030 akustického signálu s2(t) na mikrofon 30. použít například dvou lokálních maxim vzájemné kovariance signálů xt(í) a xtft) z mikrofonů 3 a 30. Přitom nezáleží na pořadí těchto maxim, protože pro slepou separaci není rozhodující pořadí akustických signálů. Proto lze definovat, že hlavní relativní zpoždění akustického signálu stft) ze zdroje akustického signálu 2, resp. hlavní relativní zpoždění, se kterým dorazí jeho hlavní vlna 230 na mikrofon 30 vůči hlavní vlně 23, která dorazí na mikrofon 3, je dáno vztahem:
d2i = argmax E[x1(Z)x2(Z + r)] τ kde E představuje operátor střední hodnoty, argmax značí argument maxima přes proměnnou τ a xtft) axtft) jsou postupně signály z prvního a druhého mikrofonu.
Operátor střední hodnoty E je pro praktické výpočty s výhodou nahrazen aritmetickým průměrem výběrových hodnot.
Obdobně lze hlavní relativní zpoždění, se kterým dorazí hlavní vlna 2030 akustického signálu stft) ze zdroje akustického signálu 20 na mikrofon 30 vůči hlavní vlně 203 tohoto akustického signálu, která dorazí na mikrofon 3, určit jako argument druhého lokálního maxima funkce ^tfd(t)xtft + τ)] přes proměnnou τ,
-5 CZ 303191 B6 kde E představuje operátor střední hodnoty a Xi(t) a x2(t) jsou postupně signály z prvního a druhého mikrofonu 3, 30.
Pro snadnější a spolehlivější detekci maxim je výhodné, pokud se signály xi(t) až x2(t) z mikrofonů 3 a 30 ještě před detekcí zpracují známými „bělícími filtry“, které upraví jejich spektrum tak, aby bylo konstantní (ploché), což obě maxima zvýrazftuje.
Za předpokladu, že hlavní relativní zpoždění dt/ jsou malá, což nastává zejména v případech, kdy vzájemné vzdálenosti mikrofonů jsou v porovnání sjejich vzdálenostmi od zdrojů akustických io signálů si(t) až s„(t) malé (např. u tzv. miniaturních mikrofonových polí), lze první krok způsobu slepé separace podle vynálezu zcela vynechat, a pro následující kroky uvažovat, že všechna hlavní relativní zpoždění dit jsou rovna nule.
V opačných případech lze, za splnění předpokladu, že poloha zdrojů akustických signálů sf(t) až s„(t) a mikrofonů je v prostoru neměnná, nahradit odhad hlavních relativních zpoždění změřením vzdáleností zdrojů akustických signálů srft) až sn(t) a mikrofonů, a za použití známé rychlosti zvuku a vzorkovací frekvence použitých mikrofonů tato hlavní relativní zpoždění přímo vypočítat.
V druhém kroku slepé separace akustických signálů podle vynálezu se sestaví datová matice X, jejíž řádky obsahují N vzorků signálů xk(t), kde k značí index mikrofonu a má hodnotu k = 1 až n, zaznamenaných m mikrofony, které jsou vzájemně posunuty (zpožděny) o vzorků, kde i značí i-tý mikrofon a má hodnotu i = 1 až m a j značí j-tý signál a má hodnotu j = 1 až kj, přičemž jejich volba a volba jejich počtu k, pro každé /je popsána níže.
*| (Z-/?,>) x,(Z-A2) xi(t~Pu + 1) x,(Z-Pi2+l) ··· XN-Pn+N) ··· XiO-Pn+N) • «
xN~PiO xN-Pu, +0 • • a ... χΝ-Ρ^+Ν) a a a ·
XnSt-PnO xm0~Pm2) « ^('-Λη+Ι) X^t-Pnl+ty • a · ··· XnO-Pml+N} ··· Χ^-Ρη,Ι+Ν) . •
xmo-pmky xm(t-pmkm +1) ♦ * : xm0-Pmkm +N)
Účelem sestavení této datové matice je umožnění aplikace filtru pro provedení operace konvoluce signálů xi(t) až xm(t) zaznamenaných mikrofony prostřednictvím maticových operací, konkrét30 ně maticového násobení, a zejména aplikace ICA metod, které pracují pouze s lineární směsí akustických signálů bez jejich zpoždění a odrazů. Taková lineární směs akustických signálů je totiž popsaná právě jednoduchým maticovým násobením. Jinými slovy je operace konvoluce převedena na operaci maticového násobení.
Celkový počet posunutí ptJ v datové maticí X, a tedy i počet řádků této datové matice X, je dán m součtem . Volnou posunutí p,2 se současně volí také nenulové koeficienty filtru pro separa-6CZ 303191 B6 ci, takže je možno, při zachování počtu řádků datové matice X, měnit délku tohoto filtru. Vhodnou volbou posunutí a jejich počtu tak lze, při zachování dostatečné délky filtru, výrazně snížit výpočetní náročnost následujících výpočetních operací.
Volba posunutí p„ je nejprve provedena na základě hodnot hlavních relativních zpoždění d„ získaných v předcházejícím kroku, a to tak, aby ke každému signálu sk(t), kde k značí index signálu a má hodnotu k - 1 až n, ze signálů st(t) až s„(t) existovaly v datové matici X alespoň dva řádky, v nichž má hlavní vlna signálu sk(t) stejné relativní zpoždění. Jinými slovy, posunutí p,, jsou volena tak, aby existovala lineární kombinace dvou různých řádků datové matice X, která neobsahuje signál sk(t).
Pro případ šíření dvou signálů srft) a s2(t) bez odrazů, které jsou snímány dvěma mikrofony 3 a 30 dle příkladu znázorněném na obr. 1, platí:
Xj (/) = 6/,, (Z) + CZ, 2^2 (f)
X2 (Z) — CI2,5, (Z č/τ] ) T 2 ^22 )
Po odhadu zpoždění d2} a d22 je voleno k}= 1 a Aj=2, a posunutí p/t - 0, p2f=-d2i a p22, neboť v tomto případě platí *,(') = «11^(0+ «12^(0 a současně X1 (t - Pil) = X2 (f + d2\) = °2I51 (0 + a22S2 9 ~ d22 + d2l) , takže takto posunuté řádky datové matice X obsahují akustický signál st(t) se stejným hlavním relativním zpožděním, zde nulovým. Proto existuje lineární kombinace signálů xrft) až x2(t-p2i) zaznamenaných mikrofony, která neobsahuje hlavní vlnu akustického signálu st(t) zdroje 2, čímž lze dosáhnout separace akustického signálu $2(t) zdroje 20 od akustického signálu st(t) zdroje 2.
Posunutí py získaná výše popsanou metodou jsou dále nazývána hlavními posunutími. Konečná volba posunutí, a tedy konečná volba matice X, však musí ještě být dále upravena, jak je popsáno níže.
Hlavní posunutí jejichž počet je m*n, kde m je počet mikrofonů a n počet signálů, totiž postačují pouze za předpokladu výše definovaného zjednodušeného modelu, který bere v potaz pouze hlavní (přímé) vlny akustických signálů s/(t) až nikoli však už jejich odrazy od hranic prostředí 1 nebo v něm umístěných předmětů. Pro zanesení vlivu odrazů akustických signálů sft) až sn(t) je nutno do datové matice X s každým hlavním posunutím py připojit ještě posunutí ρ,,+7 až Píj+L-1, které zohledňuje zpoždění vedlejších (odražených) vln akustických signálů sft) až Jinými slovy, ke každému řádku datové matice X, který odpovídá vzorkům signálu xft-py posunutým o hlavní posunutí py, se dále přiřadí L—l řádků odpovídajících posunutým akustickým signálům x,(t-pij+l) až xft-py+L-l).
Podle tohoto pravidla se tedy předchozí příklad změní následujícím způsobem: volba k{ - L a k2 = 2L, posunutí pn = 0, pJ2 = 7 až pJL = LI, dále p22 = -d2i+l až p2i, = - d2i+L-l, a dále posunutí p2,L -i = —d22, p2.ic2 = - d22+l až p2i2L = - d227L-l. Volený parametr L určuje nominální počet nenulových koeficientů aplikovaného filtru a obvykle se volí v rozsahu od 1 do 80. Jeho hodnota ovlivňuje celkový počet kt, kde i značí i-tý mikrofon a má hodnotu i - 1 až m, posunutí pý, a tedy i počet řádků matice X.
-7CZ 303191 B6
Pro konkrétní i = 1 až m se mohou některá posunutí p,j opakovat v důsledku, čehož je nutné jejich konečný počet dále upravit takovým způsobem, aby se žádné posunutí stejného signálu neopakovalo.
Tímto způsobem je tedy vytvořena datová matice X, která je připravena pro aplikací algoritmů pro analýzu nezávislých komponent.
Jsou-Ii např. v předchozím příkladu podle obr. 1 zpoždění ¢/2/ a = 5 a nominální počet nenulových koeficientů filtru L = 3, potom p2i = - 3, p22 - - Z Ρ23 = - A Ρ24 = - 5 až p25 = - 4, P26 ~ - í, přičemž k2 = 6. Posunutí p2} ap26 jsou stejná a proto je uvažujeme pouze jednou, takže nakonec k2 - 5.
Konečný počet všech posunutí pih a tedy počet řádků datové matice X, je několikanásobně větší než počet mikrofonů m a akustických zdrojů «, přičemž jeho maximální hodnota je rovna součinu mnL. Tento počet je dále označen jako M.
Na formovanou datovou matici X je dále aplikován některý ze známých algoritmů pro analýzu nezávislých komponent (1CA), přičemž jako nejvýhodnější se na základě experimentů jeví algoritmus „EFICA“ popsaný v článku Z. Koldovský, P. Tichavský and E. Oja, „Efficient Variant of Algorithm FastlCA for Independent Component Analysis Attaining the Cramér-Rao Lower Bound“, IEEE Trans, on Neural Networks, Vol. 17, No. 5, Sept 2006, který minimalizuje vzájemné informace mezi komponentami, prostřednictvím optimalizace nelineární objektivní funkce, a který následně provádí test sedlových bodů a dolaďování (fine-tuning).
Další možností, zejména v případech, kdy jsou akustické signály tvořené lidskou řečí, je použití algoritmu „BGWEDGE“ popsaného koncepčně v článku P. Tichavský, A. Yeredor, and J. Nielsen, „A Fast Approximate Joint Diagonál ization Algorithm Using a Criterion with a Block Diagonál Weight Matrix“, Proč, of ICASSP 2008, Las Vegas, U.S.A. a podrobněji v práci
P. Tichavský, A. Yeredor: „Fast Approximate Joint Diagonalizatíon Incorporating Weight Matrices“, IEEE Transactions on Signál Processing, 2009, který hledá komponenty prostřednictvím přibližné vzájemné diagonalizace matic s optimálními váhami, přičemž tyto matice jsou kovarianční matice bloků datové matice X rozdělené po délce, a délka každého bloku je v intervalu od cca 20 do cca 40 milisekund.
Použitý ICA algoritmus nachází lineární transformaci, vyjádřenou čtvercovou maticí W velikosti MxM, přičemž dále platí, že řádky matice C získané maticovým násobením čtvercové matice W a datové matice X jsou v nějakém statistickém smyslu mezi sebou maximálně nezávislé.
Tím, že řádky datové matice X tvoří posunuté signály xft) až xm(t) z m mikrofonů, které jsou směsí původních akustických signálů stft) až s„(t), jsou tyto řádky (signály) závislé. Vzhledem k počátečnímu předpokladu pro využití metody ICA, jímž je nezávislost původních akustických signálů st(t) až sn(t), je dále zřejmé, že řádky výsledné matice C, tím že jsou nezávislé, odpovídají původním nezávislým akustickým signálům sft) azs„(t).
Dáte je volbou posunutí (řádků) v datové matici X zaručena existence lineárních kombinací jejích řádků, které obsahují oddělené původní akustické signály stft) až stft). Na základě výše zmíněného lze předpokládat, že řádky matice C získané metodou ICA obsahují M libovolně filtrovaných avšak vzájemně oddělených původních signálů stft) až stft). Řádky matice C jsou dále nazývány nezávislé komponenty nebo zkráceně komponenty.
Třetím krokem způsobu podle vynálezu je výpočet matice podobnosti D mezi jednotlivými nezávislými komponentami akustických signálů stft) až stft), ajejich shlukování s pomocí některého ze známých klastrovacích algoritmů. Cílem tohoto kroku je zjistit, které nezávislé komponenty matice C odpovídají stejným původním akustickým signálům stft) až stft), a tedy tvoří tzv.
„shluk“, který je možné následně využit k rekonstrukci odpovídajícího akustického signálu.
-8CZ 303191 B6
Z tohoto důvodu je nutné definovat vzájemnou podobnost komponent a na základě ní provést shlukovou analýzu, známou také jako „shlukování“ či „klastrování“.
Nezávislé komponenty, tj. řádky matice C, budou dále označovány cft) až Vzdálenost /-té ne závislé komponenty c,(t) ody-té nezávislé komponenty Cj(t), a tedy /y-tý prvek matice podobnosti D, lze určit jako vzdálenost c„ což je sloupcový vektor, jehož prvky odpovídají /—tému řádku matice C, tedy nezávislé komponentě Cj(t), od lineárního obalu vektorů obdobně vzniklých z2L+l časových posunutí y-té nezávislé komponenty cft), tedy od cft-L) až c,(t+L). Tuto vzdálenost, která obecně není symetrická, lze počítat jako Dy=E[PjC,], kde E značí výběrovou io střední hodnotu a P, je projekční operátor, pro které platí P, = I - CýC,C‘ kde I jednotková matice resp. operátor identity, a Cj je matice, jejíž řádky jsou zmíněná posunutí y-té komponenty c,(t), tedy cft-L) až c,(t+L).
is Zde je nutné poznamenat, že součin QC7, je až na násobek nenulovou konstantou roven výběrově autokovariační matici komponenty cft), takže tato matice je efektivně a rychle vypočtena pomocí rychlé Fourierovy transformace (FFT) a následně invertována pomocí rychlého Levinsonova algoritmu. Díky tomu je výpočet prvků matice podobnosti D rychlejší.
Výsledná matice podobnosti D s prvky Dy je dále s výhodou symetrizována přičtením vlastní transpozice DT, pro usnadnění dalších výpočtů. Podle této matice podobnosti D se roztřídí nezávislé komponenty cfit) až cuft) do shluků klastrovacím algoritmem, např. pomocí hierarchického klastrování.
Výsledkem třetího kroku způsobu podle vynálezu jsou shluky nezávislých komponent cft) až cx,(t) získaných ve druhém kroku, přičemž každý tento shluk odpovídá jednomu zdroji akustického signálu. Příslušnost nezávislé komponenty ke každém shlukuje vyjádřena vahou v intervalu 0 až 1, přičemž váha rovna 1 znamená absolutní příslušnost a váha rovna 0 absolutní nepříslušnost dané nezávislé komponenty k danému shluku. Váha příslušnosti y-té nezávislé komponenty k /30 tému shlukuje pro každé y=l až M vypočtena jako
kde K, je množina indexů komponent přiřazených /-tému shluku klastrovacím algoritmem a α je 35 volený parametr v rozsahu 1 až 8, přičemž jeho standardní hodnota je 2. Takto vypočtené váhy jsou normovány
2'.. = λ, /[ max 2'
/)=1,..M p J aby se jejich hodnoty pohybovaly v rozsahu 0 až 1.
Váhy mohou být v dalších příkladech provedení určeny prostřednictvím fuzzy-klastrovacího algoritmu.
Ve čtvrtém kroku se provádí zpětná rekonstrukce odezev od jednotlivých akustických signálů na jednotlivých mikrofonech, jejímž cílem je získat odezvu každého akustického signálu na všech mikrofonech tak, jak by tento akustický signál zně samostatně bez ostatních signálů.
-9CZ 303191 B6
Akustický signál současně znějících akustických zdrojů na /-tém mikrofonu je popsán vztahem *,(') = ΣΣΛ«(Φ» 6-τ) k=\ r=() kde h,,(t) je impulsní odezva mezi zdrojem a mikrofonem. Odezvay-tého akustického signálu stft) na /-tém mikrofonu je potom <(ο=ΣΜΓ>*, ('-*).
r=0
Odezvy jednotlivých akustických signálů jsou rekonstruovány z komponent příslušných shluků vytvořených v předcházejícím kroku, přičemž rekonstrukce probíhá zvlášť pro každý shluk nezávislých komponent. Nezávislé komponenty, tedy řádky matice C, jsou násobeny vahou příslušnosti komponent ke shluku, přičemž takto upravená matice je dále násobena maticí W“’. Tím je pro každý akustický signál vytvořena zrekonstruovaná verze původní datové matice X obsahující pouze komponenty příslušné podle jejich váhy k danému shluku.
Pro k-tý shluk je zrekonstruovaná datová matice označena jako X(k) a její řádky jako x^ (t) až (t).
Konkrétně pak platí X(k> = W’1 · diagR/*' ,...Λ]ΐ, kde λ® až tfk)M jsou váhy určující příslušnost jednotlivých nezávislých komponent ke A-tému shluku a diag[A/w označuje diagonální matici s hodnotami λί® na diagonále.
Odezva akustického signálu příslušejícímu ke A-tému shluku na /-tém mikrofonu je dále odhadnuta sečtením těch řádků rekonstruované matice X(k), které v původní datové matici X odpovídaly posunutým signálům z /-tého mikrofonu, a které jsou však u rekonstruované matice posunuty opačně než původní datové matice X. Konkrétně lze výsledný odhad odezvy A—tého akustického signálu na /-tém mikrofonu vyjádřit jako s*k(t) = x(k)n(t + ρ,,β + ... + x(k),s>(t + kde // až //> jsou indexy řádků datové matice X odpovídající posunutím signálu x,(t) z /-tého mikrofonu dle volby v prvním kroku způsobu podle vynálezu.
V pátém kroku jsou kombinovány odezvy každého separovaného akustického signálu k(t) všech m mikrofonů do jednoho kanálu za účelem maximalizace poměru energie akustického signálu š'k(t) ke zbylé interferenci. Tím je dosaženo zesílení každého separovaného akustického signálu šs k(t),...,sn'k(t).
Způsob slepé separace akustických signálů podle vynálezu může být dále kombinován s metodami časofrekvenčního maskování, a to zejména v případech, kdy akustickými signály jsou promluvy mluvčích. Maskování vede k dalšímu potlačení zbylé interference promluv po separaci a využívá časofřekvenční řídkosti lidského hlasu spolu s praktickým předpokladem, že se časofřekvenční spektra různých promluv nepřekrývají. Časofřekvenční maskování se využije tak, že časofřekvenční spektrum každé získané promluvy násobíme maskou, která potlačuje časofrekvenční složky, které jsou v dané promluvě málo výrazné, avšak zároveň jsou dostatečně výrazné v ostatních promluvách.
- 10CZ 303191 B6
Průmyslová využitelnost
Způsob slepé separace akustických signálů podle vynálezu je využitelný pro stejné aplikace jako dosud známé způsoby separace signálů, tedy např. při dálkovém přenosu akustických signálů, jejich zpracování či vyhodnocování apod., přičemž díky tomu, že při výrazně nižší výpočtové náročnosti a kratším času potřebnému pro separaci akustických signálů dosahuje shodné či dokonce lepší kvality separace akustických signálů než stávající způsoby, je jeho využití pro většinu těchto aplikací s větším počtem zdrojů akustických signálů a/nebo mikrofonů podstatně výhodnější. Způsob slepé separace akustických signálů podle vynálezu může být použit pro sepa10 raci akustických signálů v reálném čase, ale i pro separaci akustických signálů ze záznamu konvolutomí směsi.

Claims (14)

1. Způsob slepé separace akustických signálů sft) až sft) z jejich konvolutomí směsi tvořené
20 hlavními a odraženými vlnami akustických signálů ze zdrojů (
2, 20) akustických signálů, která je snímána m mikrofony (3, 30), z nichž jeden je referenční, přičemž tento způsob probíhá v časové oblasti, vyznačující se tím, že v prvním kroku se určí hlavní relativní zpoždění d„, kde i značí i-tý mikrofon (3, 30), a má hodnotu i = 2 až m, a j značí j-tý signál a má hodnotu j = 1 až n, s jakými přichází hlavní vlny akustických signálů ze zdrojů (2, 20) akustických signálů
25 k mikrofonům (3, 30) vůči referenčnímu mikrofonu (3, 30), ve druhém kroku se sestaví datová matice X, jejíž řádky obsahují V vzorků signálů xft), kde k značí index mikrofonu a má hodnotu k = 1 až m, zaznamenaných na mikrofonech (3, 30), přičemž tyto vzorky jsou v důsledku hlavních relativních zpoždění dtJ vzájemně posunuty o hlavní posunutí p,,, kde i značí i-tý mikrofon (2, 20) a má hodnotu i = 2 až m, a j značí j-tý signál a má hodnotu j = 1 až n, vzorků, přičemž pro
30 každý akustický signál s}(t) až sft) existují v datové matici X alespoň dva řádky, v nichž má hlavní vlna tohoto akustického signálu sft) až sft) stejné hlavní relativní zpoždění dtJ, přičemž ke každému řádku se dále přiřadí L-l řádků představujících posunutí pfl až p L-l odražených vln akustických signálů sft) až sft), kde L-l představuje nominální počet uvažovaných odražených vln každého akustického signálu sft) až sft), přičemž v datové matici X se
35 nevyskytují duplicitní řádky, dále je na datovou maticí X aplikován algoritmus pro analýzu nezávislých komponent, čímž je vytvořena čtvercová matice W, jejímž následným maticovým součinem s datovou maticí X je připravena matice C obsahující statisticky nezávislé komponenty akustických signálů sft) až sft), přičemž ve třetím kroku se prostřednictvím projekčních operátorů výpočte matice podobnosti D mezi jednotlivými nezávislými komponentami
40 akustických signálů sft) až sft), a následně jsou podle matice podobnosti D shlukovacím algoritmem vytvořeny shluky nezávislých komponent akustických signálů sft) až sft), přičemž ve čtvrtém kroku se z nezávislých komponent jednotlivých shluků vytváří pro každý akustický signál sft) až sft) rekonstruovaná datová matice X, která obsahuje pouze nezávislé komponenty příslušné danému shluku nezávislých komponent, z níž jsou součtem řádků odpovídajících
45 v původní datové matici X posunutému signálu z daného mikrofonu (3, 30) s opačnou hodnotou posunutí dále vytvořeny odezvy separovaného signálu odpovídající danému shluku nezávislých komponent na všech m mikrofonech (3, 30), a v pátém kroku jsou následně kombinovány odezvy každého separovaného signálu ze všech m mikrofonů (3, 30) do jednoho kanálu.
50 2. Způsob podle nároku 1, vyznačující se tím, že hlavní relativní zpoždění d.„ se určí s pomocí zjednodušeného modelu míšení akustických signálů sft) až sft).
3. Způsob podle nároku 2, vyznačující se tím, že hlavní relativní zpoždění d„, se určí s pomocí zjednodušeného modelu míšení akustických signálů sft) až sft), na který je apli55 kována metoda odhadu času příchodu.
-11 CZ 303191 B6
4. Způsob podle nároku I, vyznačující se tím, že hlavní relativní zpoždění d,h se určí výpočtem z polohy zdrojů (2, 20) akustických signálů vůči poloze mikrofonů (3, 30).
5. Způsob podle nároku 1, vyznačující se tím, že v prvním kroku se hlavní relativní zpoždění d,, volí rovna nule.
6. Způsob podle nároku 1, vyznačující se tím, žev prvním kroku se pro odhad hlavních relativních zpoždění d,, použije lokálních maxim vzájemné kovariance signálů xt(l) a x2(t) z mikrofonů (3, 30).
7. Způsob podle nároku 6, vyznačující se tím, že před detekcí lokálních maxim se signály xRt) a x2(t) z mikrofonů (3,30) zpracují bělicím filtrem.
8. Způsob podle libovolného z předcházejících nároků, vyznačující se tím, že ve druhém kroku se pro analýzu nezávislých komponent použije algoritmus pro minimalizaci vzájemné informace mezi komponentami, prostřednictvím optimalizace nelineární objektivní funkce, a který následně provádí test sedlových bodů a dolaďování.
9. Způsob podle libovolného z předcházejících nároků, vyznačující se tím, že ve druhém kroku se pro analýzu nezávislých komponent použije algoritmus pro hledání komponent prostřednictvím přibližné vzájemné diagonalizace matic s optimálními váhami, přičemž tyto matice jsou kovarianční matice bloků datové matice X rozdělené po délce, a délka každého bloku je v intervalu od 20 do 40 milisekund.
tO. Způsob podle libovolného z předcházejících nároků, vyznačující se tím, že ve třetím kroku jsou shluky nezávislých komponent akustických signálů srft) až sn(t) vytvořeny podle matice podobnosti D hierarchickým klastrováním.
11. Způsob podle libovolného z předcházejících nároků, vyznačující se tím, žek matici podobnosti D se před provedením čtvrtého kroku přičte její transpozíce DT.
12. Způsob podle libovolného z předcházejících nároků, vyznačující se tím, že rekonstruovaná datová matice X se získá vynásobením nezávislých komponent akustických signálů st(t) až s„(t) vahou představující příslušnost dané nezávislé komponenty k danému shluku, přičemž takto získaná matice C je dále násobena maticí W’1.
13. Způsob podle nároku 12, vyznačující se tím, že váha představující příslušnost dané nezávislé komponenty k danému shluku je pro každou nezávislou komponentu vypočtena na základě podobnosti této komponenty s komponentami náležejícími do tohoto shluku.
14. Způsob podle nároku 12, vyznačující se tím, že váha představující příslušnost dané nezávislé komponenty k danému shluku je pro každou nezávislou komponentu vypočtena fuzzy-klastrovacím algoritmem.
15. Způsob podle libovolného z předcházejících nároků, vyznačující se tím, že po pátém kroku následuje časofrekvenční maskování separovaných akustických signálů.
CZ20080752A 2008-11-27 2008-11-27 Zpusob slepé separace akustických signálu z jejich konvolutorní smesi CZ303191B6 (cs)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CZ20080752A CZ303191B6 (cs) 2008-11-27 2008-11-27 Zpusob slepé separace akustických signálu z jejich konvolutorní smesi

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CZ20080752A CZ303191B6 (cs) 2008-11-27 2008-11-27 Zpusob slepé separace akustických signálu z jejich konvolutorní smesi

Publications (2)

Publication Number Publication Date
CZ2008752A3 CZ2008752A3 (cs) 2010-06-09
CZ303191B6 true CZ303191B6 (cs) 2012-05-23

Family

ID=42234461

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20080752A CZ303191B6 (cs) 2008-11-27 2008-11-27 Zpusob slepé separace akustických signálu z jejich konvolutorní smesi

Country Status (1)

Country Link
CZ (1) CZ303191B6 (cs)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779709A2 (en) * 1995-12-12 1997-06-18 Motorola, Inc. Method and apparatus for blind separation of delayed and filtered sources
EP1070390A1 (en) * 1998-04-08 2001-01-24 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
EP1752969A1 (en) * 2005-02-08 2007-02-14 Nippon Telegraph and Telephone Corporation Signal separation device, signal separation method, signal separation program, and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779709A2 (en) * 1995-12-12 1997-06-18 Motorola, Inc. Method and apparatus for blind separation of delayed and filtered sources
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
EP1070390A1 (en) * 1998-04-08 2001-01-24 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
EP1752969A1 (en) * 2005-02-08 2007-02-14 Nippon Telegraph and Telephone Corporation Signal separation device, signal separation method, signal separation program, and recording medium

Also Published As

Publication number Publication date
CZ2008752A3 (cs) 2010-06-09

Similar Documents

Publication Publication Date Title
Nion et al. Batch and adaptive PARAFAC-based blind separation of convolutive speech mixtures
CN109830245A (zh) 一种基于波束成形的多说话者语音分离方法及系统
KR101434200B1 (ko) 혼합 사운드로부터의 음원 판별 방법 및 장치
CN111899756B (zh) 一种单通道语音分离方法和装置
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
Wang et al. Time difference of arrival estimation based on a Kronecker product decomposition
Nesta et al. Convolutive underdetermined source separation through weighted interleaved ICA and spatio-temporal source correlation
Balan et al. Statistical properties of STFT ratios for two channel systems and applications to blind source separation
JP2022533300A (ja) キューのクラスター化を使用した音声強化
Girin et al. Audio source separation into the wild
Cobos et al. Two-microphone separation of speech mixtures based on interclass variance maximization
Maazaoui et al. Adaptive blind source separation with HRTFs beamforming preprocessing
CZ303191B6 (cs) Zpusob slepé separace akustických signálu z jejich konvolutorní smesi
Han et al. Parallel processing of distributed beamforming and multichannel linear prediction for speech denoising and deverberation in wireless acoustic sensor networks
Dam et al. Source separation employing beamforming and SRP-PHAT localization in three-speaker room environments
Li et al. Low complex accurate multi-source RTF estimation
Murakami et al. Real-Time Distant Sound Source Suppression Using Spectral Phase Difference
Nesta et al. Coherent spectral estimation for a robust solution of the permutation problem
Mallis et al. Convolutive audio source separation using robust ICA and an intelligent evolving permutation ambiguity solution
Nagira et al. Complex extension of infinite sparse factor analysis for blind speech separation
Chen et al. Acoustic vector sensor based speech source separation with mixed Gaussian-Laplacian distributions
Johnson Effect of window length in combining blind source separation and beamforming
Soussana et al. Variational inference for DOA estimation in reverberant conditions
Shin et al. New Generalized Sidelobe Canceller with Denoising Auto-Encoder for Improved Speech Enhancement
Even et al. An improved permutation solver for blind signal separation based front-ends in robot audition

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20141127