JP5406866B2 - 音源分離装置、その方法及びプログラム - Google Patents
音源分離装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP5406866B2 JP5406866B2 JP2011036559A JP2011036559A JP5406866B2 JP 5406866 B2 JP5406866 B2 JP 5406866B2 JP 2011036559 A JP2011036559 A JP 2011036559A JP 2011036559 A JP2011036559 A JP 2011036559A JP 5406866 B2 JP5406866 B2 JP 5406866B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- signal
- occupancy
- estimating
- separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
R(k)(n,f)=v(k)(n,f)B(k)(f) (2)
B(k)(f)=h(k)(f)(h(k)(f))H
とモデル化できると仮定する。但し、「H」はエルミート転置を表す。そして、空間相関行列B(k)(f)のクラスタリングを行なうことで、分散v(k)(n,f)と空間相関行列B(k)(f)を推定する(詳細は非特許文献1参照)。さらに、推定した分散v(k)(n,f)と空間相関行列B(k)(f)に基づくマルチチャネルウィーナーフィルタW(k)(n,f)を用いて、音源分離を達成する。すなわち、空間相関行列B(k)が、音源10(k)の位置毎に固有の値を持つことを利用して音源分離を行なう。具体的には、図1において、まずモデルパラメタ初期化部121において、分散v(k)(n,f)と空間相関行列B(k)(f)に適当な初期値を与える。
c^(k)(n,f)=W(k)(n,f)X(n,f)
を計算し出力する。最後に時間領域変換部14にて周波数領域の分離信号c^(k)(n,f)を時間領域の分離信号c^(k)(t)に変換する。
[参考文献2]S. Araki, T. Nakatani, and H. Sawada, “Blind sparse source separation for unknown number of sources using Gaussian mixture model fitting with Dirichlet prior”, in Proc. ICASSP'09, 2009, pp.33-36
本実施形態では、空間相関行列B(k)(f)のクラスタリングを行なう際に、各音源信号s(k)(n,f)に関してスパース性の仮定を導入する。すなわち、音源信号s(k)(n,f)は稀にしか大きな値をとらず、s(k)(n,f)とs(k’)(n,f)(但しk≠k’とする)は各時間周波数(n,f)で互いに重ならない、ということを仮定する。これは、互いに異なる音声信号などで確認される性質である。これを仮定すると前記式(1)は、
X(n,f)=c(z(n,f))(n,f)+e(z(n,f))(n,f)=h(z(n,f))(f)s(z(n,f))(n,f)+e(z(n,f))(n,f) (3)
となる。ここで、z(n,f)は時間周波数(n,f)において占有的(支配的)な音源のインデックス番号を表し、e(z(n,f))(n,f)は、この占有的な音源以外の成分(占有的な音源のソースイメージc(z(n,f))(n,f)から見ると雑音成分のソースイメージ)である。
図2及び図3を用いて第一実施形態に係る音源分離装置2を説明する。音源分離装置2は、周波数領域変換部21と、空間パラメタ推定部221と、音源占有度推定部25と、モデルパラメタ推定部222と、パーミュテーション解決部223と、音源分離部23と、時間領域変換部24と、有効音源推定部26と、を備える。
周波数領域変換部21は、M個の収音手段2mで観測されたT個の時間領域の観測信号X(t)=[x1(t),x2(t),…,xM(t)]を受け取り(但し、t=1,2,…,T)、これを周波数毎の時系列信号である周波数領域の観測信号X(n,f)=[x1(n,f),x2(n,f),…,xM(n,f)]Tに変換し(s21)、空間パラメタ推定部221、モデルパラメタ推定部222及び音源占有度推定部25に出力する。以降、断りのない場合、観測信号とは、周波数毎の時系列信号である観測信号ベクトルX(n,f)を意味し、時間領域の観測信号の場合、それを明記する。周波数領域への変換は、例えば短時間フーリエ変換を用いれば良い。なお、本実施形態では、Nをフレームの個数とし、nをフレームに対応する時刻のインデックスとしてn=1,2,…,Nとし、Fを周波数ビンの個数とし、fを周波数ビンに対応する周波数のインデックスとしてf=1,2,…,Fとする。
空間パラメタ推定部221は、観測信号X(n,f)を受け取り、観測信号X(n,f)と、各音源10(k)が各時間周波数(n,k)において観測信号X(n,f)にどの程度寄与するかを表す音源占有度M(k)(n,f)と、を用いて、空間パラメタφを推定し(s221)、音源占有度推定部25に出力する。
(空間パラメタφ及び音源占有度M(k)(n,f)の初期化)
まず、空間パラメタφ及び音源占有度M(k)(n,f)を初期化する(s2211)。例えば、全てのk、n、fに対して、以下のように初期値を与え、初期化する。
(M−step(空間パラメタφの更新)(S2214))
空間パラメタ推定部221において、M−step(空間パラメタφの更新)を行なう。以下の行列
(E−step(音源占有度M(k)(n,f)の更新)(S251))
音源占有度推定部25は、受け取った最新の空間パラメタφと、観測信号X(n,f)を用いて、
モデルパラメタ推定部222は、観測信号X(n,f)と音源占有度M(k)(n,f)とを受け取り、これらの値を用いて、音源信号s(k)(n,f)の分散v(k)(n,f)と空間相関行列B(k)(f)とを含むモデルパラメタΘ={θ(k)}kを推定し、分散v(k)(n,f)と空間相関行列B(k)(f)に基づくウィーナーフィルタW(k)(n,f)を生成する(s222)。なお、{a(k)}kは全てのkに関するaの集合を意味し、Θ={θ(k)}k={θ(1),θ(2),…,θ(K’)}である。
R(k)(n,f)=v(k)(n,f)B(k)(f) (12)
とモデル化できると仮定する。そして、この空間相関行列B(k)(f)のクラスタリングを行なうことで、モデルパラメタΘを推定する。このために、本実施形態では、以下のようにソースイメージc(k)(n,f)と観測信号X(n,f)をモデル化する。
p(c(k)(n,f);B(k)(f),v(k)(n,f))=Nc(c(k)(n,f);0,v(k)(n,f)B(k)(f)) (13)
とモデル化する。
(モデルパラメタの初期化(s2221))
モデルパラメタ推定部222は、空間パラメタ推定部221から音源占有度M(k)(n,f)を受け取ると、まず、分散v(k)(n,f)と空間相関行列B(k)(f)を初期化する(s2221)。例えば、空間パラメタ推定部221で受け取った音源占有度M(k)(n,f)と観測信号X(n,f)の要素x1(n,f)(第一収音手段21の観測値)を用いて、
(M−step(モデルパラメタΘの更新)(s2224))
モデルパラメタ推定部222において、
(E−step(音源占有度M(k)(n,f)の推定(s252))
式(19)のQ関数の中のp({c(k)(n,f)}k,z(n,f)|X(n,f))の項は、
パーミュテーション解決部223は、音源占有度M(k)(n,f)とこれに紐付けられたウィーナーフィルタW(k)(n,f)を受け取り、音源毎にウィーナーフィルタW(k)(n,f)をまとめる(s223)。
γ(k)(f)=[M(k)(1,f),・・・,M(k)(N,f)]
というベクトルとする。同じ音源であれば、音源占有度M(k)(n,f)は、全ての周波数で同期する性質があることを利用し、異なる周波数間でのベクトルγ(k)(f)とγ(k)(f’)の相関が全ての周波数で最大となるように、インデックスの番号を入れ替える。すなわち、ベクトルaとbの相関係数をρ(a,b)とした場合に、
有効音源推定部26は、音源毎にまとめられた音源占有度M(k)(n,f)を受け取り、この音源占有度M(k)(n,f)を用いて、有効音源を推定し(s26)、有効音源を音源分離部23に出力し、有効音源数Kを音源分離装置2の出力値として出力する。音源のインデックスk=1,2,…,K’のうち、有効音源に対応するインデックスの集合を{k}*とし、その有効音源数Kとする。例えば、以下の方法で有効音源を推定する。本実施形態で利用する音源占有度M(k)(n,f)は、各時間周波数(n,f)におけるk番目の音源10(k)の占有度を表しているため、パーミュテーション問題を解決した後の音源占有度M(k)(n,f)の平均値を、各インデックスkについて求めれば、占有度の高い音源を求めることが可能となる。よって、
音源分離部23は、ウィーナーフィルタW(k)(n,f)と有効音源の集合{k}*を受け取り、有効音源の集合{k}*に対応するマルチチャネルウィーナーフィルタW(k)(n,f)を生成する。さらに、音源分離部23は、観測信号X(n,f)を受け取り、マルチチャネルウィーナーフィルタW(k)(n,f)を用いて、式(26)により観測信号X(n,f)からソースイメージc(k)(n,f)を推定した、有効音源に対応する分離信号c^(k)(n,f)を生成し(s23)、時間領域変換部24に出力する。
時間領域変換部24は、周波数領域の分離信号c^(n,f)を受け取り、これを時間領域の分離信号c^(t)に変換し(s24)、この値を音源分離装置2の出力値として出力する。なお、時間領域への変換は、周波数領域変換部21で用いた変換方法に対応するものであればよい。
このような構成とすることで、各パラメタの収束の早く、音源数が未知の場合にも動作する、高精度・高品質な音源分離を行なうことができる。
第一実施形態の効果を調べるため、従来技術(非特許文献1参照)及び第一実施形態の音源分離装置で音源分離を行なった。実験にて、マイクロホン数は2、音源数は2または3とした。サンプリング周波数は8kHz、マイクロホンの間隔は4cmである。
本実施形態においては、ソースイメージ及び観測信号のモデルとしてそれぞれ(13)、(14)を用いたが、それぞれ他の適切なモデルを用いることも可能である。
図7及び図8を用いて第二実施形態に係る音源分離装置3を説明する。第一実施形態と異なる部分についてのみ説明する。音源分離装置3は、周波数領域変換部21と、音源占有度推定部35と、モデルパラメタ推定部322と、パーミュテーション解決部223と、音源分離部23と、時間領域変換部24と、有効音源推定部26と、を備える。空間パラメタ推定部221を備えていない点、及び、音源占有度推定部35とモデルパラメタ推定部322における処理内容が第一実施形態とは異なる。
モデルパラメタ推定部322は、観測信号X(n,f)を受け取り、観測信号X(k)(n,f)と音源占有度M(k)(n,f)を用いて、音源信号の分散v(k)(n,f)と空間相関行列B(k)(f)とを含むモデルパラメタΘを推定し、音源信号の分散v(k)(n,f)と空間相関行列B(k)(f)に基づくウィーナーフィルタW(k)(n,f)を生成する(s322)。
第二実施形態の音源分離装置3は、収束の高速化の効果はなくなるが、音源数が未知の場合にも動作し、高精度・高品質な音源分離を行なうことができる。
図9及び図10を用いて第三実施形態に係る音源分離装置4を説明する。音源分離装置2と異なる部分についてのみ説明する。音源分離装置4は、周波数領域変換部21と、空間パラメタ推定部421と、音源占有度推定部25と、モデルパラメタ推定部422と、パーミュテーション解決部223と、音源分離部23と、時間領域変換部24と、有効音源推定部26と、を備える。
空間パラメタ推定部421は、観測信号X(n,f)を受け取り、観測信号X(n,f)と、各音源信号s(k)(n,f)に対応するソースイメージc(k)(n,f)が各時間周波数(n,k)において観測信号X(n,f)にどの程度寄与するかを表す音源占有度M(k)(n,f)と、を用いて、空間パラメタφを推定し(s421)、音源占有度推定部45に出力する。
モデルパラメタ推定部422は、第一実施形態と同様の処理により、モデルパラメタΘを推定し、これに基づくウィーナーフィルタW(k)(n,f)を生成する(s422)。なお、本実施形態では、空間パラメタ推定部421と音源占有度推定部25とモデルパラメタ推定部422における処理をひとまとめとして処理として繰り返すため、モデルパラメタ推定部422においてiを増やす必要はない。また、モデルパラメタ推定部422は、モデルパラメタΘを受け取るたびに収束しているか否かを判定し(s4223)、収束すると、モデルパラメタ推定部222は、音源占有度推定部25から受け取った最新の音源占有度M(k)(n,f)と式(28)により生成した最新のウィーナーフィルタW(k)(n,f)を周波数毎に紐付けてパーミュテーション解決部223に出力する。収束していない場合には、第一実施形態と同様の処理により、モデルパラメタΘを推定し、音源占有度推定部25に出力する。
このような構成とすることで第一実施形態と同様の効果を得ることができる。
上述した音源分離装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、各パラメタは、図示しない記憶部等に格納され、各部はこの記憶部から各パラメタを取得する構成としてもよい。
2m 収音手段
10 音源
21 周波数領域変換部
23 音源分離部
24 時間領域変換部
25,35,45 音源占有度推定部
26 有効音源推定部
221,421 空間パラメタ推定部
222,322,422 モデルパラメタ推定部
223 パーミュテーション解決部
Claims (7)
- 1個以上の音源信号がノイズとともに混在している観測信号から、それぞれの音源に対応する分離信号を推定する音源分離装置であって、
複数の収音手段で観測された前記観測信号を周波数領域の信号に変換する周波数領域変換手段と、
前記観測信号と、各音源が各時間周波数において観測信号にどの程度寄与するかを表す音源占有度と、を用いて、空間パラメタを推定する空間パラメタ推定手段と、
前記観測信号と前記音源占有度とを用いて、前記音源信号の分散と空間相関行列とを含むモデルパラメタを推定し、前記音源信号の分散と空間相関行列に基づくウィーナーフィルタを生成するモデルパラメタ推定手段と、
前記観測信号と、前記空間パラメタまたは前記モデルパラメタと、を用いて、前記音源占有度を推定する音源占有度推定手段と、
前記ウィーナーフィルタを用いて、前記観測信号からソースイメージを推定し分離信号を生成する音源分離手段と、
前記分離信号を時間領域の信号に変換する時間領域変換手段と、を備える、
音源分離装置。 - 請求項1記載の音源分離装置であって、
前記音源占有度を用いて、有効音源を推定する有効音源推定手段と、をさらに備え、
前記音源分離手段は、前記有効音源に対応する分離信号を生成する、
音源分離装置。 - 1個以上の音源信号がノイズとともに混在している観測信号から、それぞれの音源に対応する分離信号を推定する音源分離装置であって、
複数の収音手段で観測された前記観測信号を周波数領域の信号に変換する周波数領域変換手段と、
前記観測信号と、各音源が各時間周波数において観測信号にどの程度寄与するかを表す音源占有度を用いて、前記音源信号の分散と空間相関行列とを含むモデルパラメタを推定し、前記音源信号の分散と空間相関行列に基づくウィーナーフィルタを生成するモデルパラメタ推定手段と、
前記観測信号と前記モデルパラメタとを用いて、前記音源占有度を推定する音源占有度推定手段と、
前記音源占有度を用いて、有効音源を推定する有効音源推定手段と、
前記ウィーナーフィルタを用いて、前記観測信号からソースイメージを推定し前記有効音源に対応する分離信号を生成する音源分離手段と、
前記分離信号を時間領域の信号に変換する時間領域変換手段と、を備える、
音源分離装置。 - 1個以上の音源信号がノイズとともに混在している観測信号から、それぞれの音源に対応する分離信号を推定する音源分離方法であって、
複数の収音ステップで観測された前記観測信号を周波数領域の信号に変換する周波数領域変換ステップと、
前記観測信号と、各音源が各時間周波数において観測信号にどの程度寄与するかを表す音源占有度と、を用いて、空間パラメタを推定する空間パラメタ推定ステップと、
前記観測信号と、前記空間パラメタと、を用いて、前記音源占有度を推定する第一音源占有度推定ステップと、
前記観測信号と前記音源占有度とを用いて、前記音源信号の分散と空間相関行列とを含むモデルパラメタを推定し、前記音源信号の分散と空間相関行列に基づくウィーナーフィルタを生成するモデルパラメタ推定ステップと、
前記観測信号と、前記モデルパラメタと、を用いて、前記音源占有度を推定する第二音源占有度推定ステップと、
前記ウィーナーフィルタを用いて、前記観測信号からソースイメージを推定し分離信号を生成する音源分離ステップと、
前記分離信号を時間領域の信号に変換する時間領域変換ステップと、を備える、
音源分離方法。 - 請求項4記載の音源分離方法であって、
前記音源占有度を用いて、有効音源を推定する有効音源推定ステップと、をさらに備え、
前記音源分離ステップは、前記有効音源に対応する分離信号を生成する、
音源分離方法。 - 1個以上の音源信号がノイズとともに混在している観測信号から、それぞれの音源に対応する分離信号を推定する音源分離方法であって、
複数の収音ステップで観測された前記観測信号を周波数領域の信号に変換する周波数領域変換ステップと、
前記観測信号と、各音源が各時間周波数において観測信号にどの程度寄与するかを表す音源占有度を用いて、前記音源信号の分散と空間相関行列とを含むモデルパラメタを推定し、前記音源信号の分散と空間相関行列に基づくウィーナーフィルタを生成するモデルパラメタ推定ステップと、
前記観測信号と前記モデルパラメタとを用いて、前記音源占有度を推定する音源占有度推定ステップと、
前記音源占有度を用いて、有効音源を推定する有効音源推定ステップと、
前記ウィーナーフィルタを用いて、前記観測信号からソースイメージを推定し前記有効音源に対応する分離信号を生成する音源分離ステップと、
前記分離信号を時間領域の信号に変換する時間領域変換ステップと、を備える、
音源分離方法。 - 請求項1から請求項3の何れかに記載の音源分離装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011036559A JP5406866B2 (ja) | 2011-02-23 | 2011-02-23 | 音源分離装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011036559A JP5406866B2 (ja) | 2011-02-23 | 2011-02-23 | 音源分離装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173584A JP2012173584A (ja) | 2012-09-10 |
JP5406866B2 true JP5406866B2 (ja) | 2014-02-05 |
Family
ID=46976515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011036559A Active JP5406866B2 (ja) | 2011-02-23 | 2011-02-23 | 音源分離装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5406866B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6463904B2 (ja) * | 2014-05-26 | 2019-02-06 | キヤノン株式会社 | 信号処理装置及び音源分離方法及びプログラム |
CN105989851B (zh) * | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
JP7112269B2 (ja) * | 2018-07-09 | 2022-08-03 | 日本放送協会 | 方向別収音装置及びプログラム |
CN110111808B (zh) * | 2019-04-30 | 2021-06-15 | 华为技术有限公司 | 音频信号处理方法及相关产品 |
CN113362848B (zh) * | 2021-06-08 | 2022-10-04 | 北京小米移动软件有限公司 | 音频信号处理方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4138290B2 (ja) * | 2000-10-25 | 2008-08-27 | 松下電器産業株式会社 | ズームマイクロホン装置 |
JP4787777B2 (ja) * | 2007-03-13 | 2011-10-05 | 日本電信電話株式会社 | 信号分離装置、信号分離方法、信号分離プログラム、記録媒体 |
-
2011
- 2011-02-23 JP JP2011036559A patent/JP5406866B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012173584A (ja) | 2012-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7191793B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
US9357298B2 (en) | Sound signal processing apparatus, sound signal processing method, and program | |
WO2016100460A1 (en) | Systems and methods for source localization and separation | |
US10192568B2 (en) | Audio source separation with linear combination and orthogonality characteristics for spatial parameters | |
WO2016152511A1 (ja) | 音源分離装置および方法、並びにプログラム | |
JP5337072B2 (ja) | モデル推定装置、音源分離装置、それらの方法及びプログラム | |
US10373628B2 (en) | Signal processing system, signal processing method, and computer program product | |
JP5406866B2 (ja) | 音源分離装置、その方法及びプログラム | |
CN106031196B (zh) | 信号处理装置、方法以及程序 | |
JP2022529912A (ja) | 深層フィルタを決定するための方法および装置 | |
Nesta et al. | Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction | |
KR101243897B1 (ko) | 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 | |
Sheeja et al. | CNN-QTLBO: an optimal blind source separation and blind dereverberation scheme using lightweight CNN-QTLBO and PCDP-LDA for speech mixtures | |
GB2510650A (en) | Sound source separation based on a Binary Activation model | |
Duong et al. | Spatial covariance models for under-determined reverberant audio source separation | |
JP5387442B2 (ja) | 信号処理装置 | |
JP4946330B2 (ja) | 信号分離装置及び方法 | |
Bavkar et al. | PCA based single channel speech enhancement method for highly noisy environment | |
Mirzaei et al. | Under-determined reverberant audio source separation using Bayesian Non-negative Matrix Factorization | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
Li et al. | Low complex accurate multi-source RTF estimation | |
Ukai et al. | Multistage SIMO-model-based blind source separation combining frequency-domain ICA and time-domain ICA | |
JP4714892B2 (ja) | 耐高残響ブラインド信号分離装置及び方法 | |
JP7126659B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131022 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5406866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |