JP5568530B2 - 音源分離装置とその方法とプログラム - Google Patents

音源分離装置とその方法とプログラム Download PDF

Info

Publication number
JP5568530B2
JP5568530B2 JP2011193517A JP2011193517A JP5568530B2 JP 5568530 B2 JP5568530 B2 JP 5568530B2 JP 2011193517 A JP2011193517 A JP 2011193517A JP 2011193517 A JP2011193517 A JP 2011193517A JP 5568530 B2 JP5568530 B2 JP 5568530B2
Authority
JP
Japan
Prior art keywords
signal
target
observation signal
covariance matrix
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011193517A
Other languages
English (en)
Other versions
JP2013054258A (ja
Inventor
ソウデン メレツ
章子 荒木
慶介 木下
智広 中谷
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011193517A priority Critical patent/JP5568530B2/ja
Publication of JP2013054258A publication Critical patent/JP2013054258A/ja
Application granted granted Critical
Publication of JP5568530B2 publication Critical patent/JP5568530B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、入力信号に複数の目的信号と加法性雑音が含まれている場合において、各目的信号を精度良く抽出する音源分離装置と、その方法とプログラムに関する。
複数の目的音源が存在する環境で音響信号を収音すると、しばしば目的信号同士が互いに重なり合った混合信号が観測される。この時、注目している目的音源が音声信号である場合、その他の音源信号がその目的信号に重畳した影響により、目的音声の明瞭度は大きく低下してしまう。その結果、本来の目的音声信号(以下、目的信号)の性質を抽出することが困難となり、自動音声認識(以下、音声認識)システムの認識率も著しく低下する。更に、目的信号以外に加法性雑音が存在する場合は、明瞭性や音声認識システムの認識率の低下も大きくなる。この認識率の低下を防ぐためには、複数の目的信号をそれぞれ分離することで、目的信号の明瞭度を回復する工夫(方法)が必要である。
この複数の目的信号をそれぞれ分離する要素技術は、さまざまな音響信号処理システムに用いることが可能である。例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴器、目的信号を抽出することで音声の明瞭度を向上させるTV会議システム、実環境で用いられる音声認識システム、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。
図9に、例えば非特許文献1,2等で開示されている従来の音源分離装置900の機能構成例を示してその動作を簡単に説明する。音源分離装置900は、特徴ベクトル計算部90、音声存在確率計算部91、1chフィルタリング部92、を備える。
特徴ベクトル計算部90は、多チャネル入力信号の各時間周波数ビンを特徴付ける特徴ベクトルを計算する。音声存在確率計算部91は、その特徴ベクトルを入力として、各時間周波数ビンで、入力信号に含まれるN個の目的音源の各々の存在確率を計算する。存在確率は、混合数Nの混合モデルのパラメータを最尤推定することで計算される。1chフィルタリング部92は、入力信号の各時間周波数ビンの値に、音声存在確率計算部91で計算された存在確率を0(信号が存在しないことを意味)か1(信号が存在することを意味)の値に変換した値を乗算することで、目的音源の目的信号の推定値を計算する。この方法を用いることで、入力信号に含まれる複数の目的信号を回復することができる。
H. Sawada, S. Araki, and S. Makino, "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignement," IEEE Trans. Audio, Speech and Lang. Process., vol. 19, pp.516-527, March 2011. H. Sawada, S. Araki, and S. Makino, "A two-stage frequency domain blind source separation method for underdetermined convolutive mictures," in Proc. IEEE WASPAA, 2007, pp. 139-142.
しかし、従来の方法では、入力信号に加法性雑音が含まれていることが仮定されていなかった。したがって、入力信号に加法性雑音が含まれると、その抑圧が不能なため、効果的に目的信号を回復することができなかった。
この発明は、このような課題に鑑みてなされたものであり、入力信号に加法性雑音が含まれる場合でも、適切にその加法性雑音を抑圧し、複数の目的音源の各々の目的信号を回復することのできる音源分離装置と、その方法とプログラムを提供することを目的とする。
この発明の音源分離装置は、特徴ベクトル計算部と、音声・雑音存在確率計算部と、音声・雑音特徴計算部と、音声推定用フィルタ計算部と、多チャネルフィルタリング部と、を具備する。特徴ベクトル計算部は、多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する。音声・雑音存在確率計算部は、特徴ベクトルを入力として、その特徴量ベクトルをN個の目的音源と加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する。音声・雑音特徴計算部は、各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する。音声推定用フィルタ計算部は、n番目の目的信号の共分散行列と、多チャネル観測信号の共分散行列を入力として、観測信号に含まれるn番目の目的信号以外の不要成分を求め、目的信号を回復する一般化多チャネルウィナーフィルタを計算する。多チャネルフィルタリング部は、多チャネル観測信号と一般化多チャネルウィナーフィルタと各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する。
この発明の音源分離装置によれば、多チャネル観測信号を、N個の目的音源の各々に起因する成分と、加法性雑音に起因する成分とに分類して処理するので、加法性雑音を効果的に抑圧することが出来る。評価実験で確認した具体的な効果については後述する。
この発明の音源分離装置100の機能構成例を示す図。 音源分離装置100の動作フローを示す図。 音声・雑音存在確率計算部20の機能構成を示す図。 音声・雑音存在確率計算部20の動作フローを示す図。 音声・雑音特徴計算部30の機能構成例を示す図。 音声・雑音特徴計算部30の動作フローを示す図 音声分離処理前の信号波形を示す図であり、(a)は話者1のクリーン音声、(b)は話者2のクリーン音声、(c)は混合信号の音声波形を示す図である。 音声分離処理後の音声波形を示す図であり、(a)は従来法で分離した話者1の音声波形、(b)は従来法で分離した話者2の音声波形、(c)はこの発明の方法で分離した話者1の音声波形、(d)はこの発明の方法で分離した話者2の音声波形を示す図である。 従来の音声分離装置900の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、観測信号をモデル化する。
〔観測信号のモデル化〕
観測信号には、N(N≧1)個の点音源に起因する目的信号と、加法性雑音とが、共に存在する状況を仮定する。この場合、M個のマイクロホンを用いて観測された多チャネル観測信号y(k,t)は、短時間窓での切り出し処理と短時間フーリエ変換を経て、複素スペクトル領域で式(1)に示すように表される。
Figure 0005568530

ここで、tは時間フレームのインデックス、kは周波数インデックスを表す。観測信号y(k,t)は、M個の混合信号であるy(k,t)=[Y(k,t)…Y(k,t)]であり、x(k,t)はn番目のチャネル応答を伴った信号成分x(k,t)=h(k)S(k,t)である。S(k,t)はn番目の目的信号である。
n番目の音源と各マイクロホン間のチャネル応答h(k)は、h(k)=[H1n(k)…HMn(k)]として表される。加法性雑音成分v(k,t)は、v(k,t)=[V1n(k)…V(k)]である。この発明では、対象とする加法性雑音は他の音源と比べ十分にゆっくりと変化すると仮定する。また、この発明では、チャネル応答は時不変とする。
この発明の各処理は、各周波数kごとに個別に行われるものであるため、以降の説明では簡単のため周波数インデックスkは適宜省略して表記する。
また、観測信号には、ある時間周波数ビンでは多くとも一つの点音源に起因する音のみが存在し、それ以外の点音源に起因する音は存在しないとするスパース性の仮定を導入し、式(2)に示すように観測信号をモデル化する。
Figure 0005568530
つまり、時間周波数ビンでは加法性雑音とn番目の目的音源に起因する音のみが存在すると仮定する。若しくは、式(3)に示すように、点音源に起因する音は存在せず、雑音のみが存在することを仮定する。
Figure 0005568530
このようにスパース性の仮定を導入すれば、各時間周波数ビンは、N個中の何れかの目的音源に起因した特性か、雑音のみに起因した特性であるかを、大まかに切り分けることができる。観測信号y(t)を以上のようにモデル化した前提で、以下の実施例を説明する。
図1に、この発明の音源分離装置100の機能構成例を示す。その動作フローを図2に示す。音源分離装置100は、特徴ベクトル計算部10と、音声・雑音存在確率計算部20と、音声・雑音特徴計算部30と、音声推定用フィルタ計算部40と、多チャネルフィルタリング部50と、を具備する。音源分離装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
特徴ベクトル計算部10は、多チャネル観測信号y(t)の各時間周波数ビンを特徴付ける特徴ベクトルψ(t)を、複素領域の観測信号をそのノルムで正規化して計算する(ステップS10)。音声・雑音存在確率計算部20は、特徴ベクトルψ(t)を入力として、その特徴ベクトルψ(t)をN個の目的音源と加法性雑音に各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する(ステップS20)。
音声・雑音特徴計算部30は、各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と多チャネル観測信号y(t)とを入力として、n番目の目的信号の共分散行列^Rxnxnと観測信号に含まれる多チャネル観測信号y(t)の共分散行列^Ryyを計算する(ステップS30)。音声推定用フィルタ計算部40は、n番目の目的信号の共分散行列^Rxnxnと、多チャネル観測信号y(t)の共分散行列^Ryyを入力として、観測信号に含まれるn番目の目的信号以外の不要成分を求め、目的信号を回復する一般化多チャネルウィナーフィルタw (β)を計算する(ステップS40)。多チャネルフィルタリング部50は、多チャネル観測信号y(t)と一般化多チャネルウィナーフィルタw (β)と各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値^ (β)を出力する(ステップS50)。制御部60は、上記した各部間の時系列的な動作等を制御するものである。なお、^等の表記は、図及び式中に表記されているように変数の直上に位置するのが正しい表記である。
背景技術で説明した音声存在確率を1/0の2値で切り分ける従来のバイナリマスク処理では、目的信号が存在する時間周波数ビンにおける加法性雑音の除去は出来なかったのに対し、この実施例による方法によれば、観測信号に含まれる加法性雑音を抑圧し、N個の目的信号のそれぞれを分離して取り出すことが可能である。
以降において、音源分離装置100の各部の機能を更に詳しく説明する。
〔特徴ベクトル計算部〕
M個のマイクロホンで観測された多チャネル観測信号y(t)のそれぞれは、短時間フーリエ変換処理によって複素スペクトル領域の信号に変換される。1番目のマイクロホンの複素スペクトルY(k,t)〜M番目のマイクロホンの複素スペクトルY(k,t)のベクトルが、y(t)=[Y(k,t)…Y(k,t)]である。
この複素領域の多チャネル観測信号y(t)を、そのノルムで正規化して特徴ベクトルψ(t)を式(4)で計算する。
Figure 0005568530
〔音声・雑音存在確率計算部〕
図3に、より具体的な音声・雑音存在確率計算部20の機能構成例を示す。その動作フローを図4に示す。音声・雑音存在確率計算部20は、クラスタ分類手段201と、初期化手段202と、期待値計算手段203と、最大化手段204と、収束判定手段205と、を備える。音声・雑音存在確率計算部20は、特徴ベクトルψ(t)を入力として、特徴ベクトルψ(t)を、N個の「目的信号+加法性雑音」と、「加法性雑音」のそれぞれの成分に起因するクラスタに自動分類し、各クラスタに関する事後確率p[C|ψ(t),θ]を、期待値最大化法(EMアルゴリズム)を用いて推定して音声存在確率として出力する。
クラスタ分類手段201は、特徴ベクトルψ(t)を、式(5)を用いて確率密度関数でモデル化する(ステップS201)。つまり、クラスタ分類手段201は、特徴ベクトルψ(t)を、N個の目的音源の各々に起因する成分と、加法性雑音に起因する成分とに分類し、N+1個の確率密度関数でモデル化する。
Figure 0005568530
密度関数を特徴付けるパラメータθをθ={a,σ}で表す。aはn番目のクラスタCの平均、σ はその分散である。
Figure 0005568530

ここで、混合分布のパラメータθはθ={a,σ,…,aN+1,σN+1}であり、n番目の分布の重みパラメータαは、Σα=1,0≦α≦1の制約を満たす。
初期化手段202は、各混合分布パラメータθを乱数で初期化する(ステップS202)。
期待値計算手段203は式(7)を用いて期待値(Eステップ)を計算する(ステップS203)。
Figure 0005568530

ここで(q)は、EMアルゴリズムの繰り返し回数を表す。
最大化手段204は、式(8)を用いて特徴ベクトルψ(t)に関する共分散行列Rを算出して、Rに関する固有値分解を行う。
Figure 0005568530
そして、最大固有値に対応する固有ペクトルを平均パラメータa (q)に代入して、分散パラメータσ を式(9)で更新し、混合重みパラメータαを式(10)で更新(Mステップ)する(ステップS204)。
Figure 0005568530
収束判定手段205は、分散パラメータσ と、混合重みパラメータαの更新幅が十分小さくなるまで、ステップS203とステップS204の処理を繰り返す(ステップS205の収束)。EMアルゴリズムによる演算を収束するまで繰り返すことで、各時間周波数ビンにおける各信号成分の存在確率を計算することが可能となる。なお、この処理で得られたクラスタCに関する事後確率p[C|ψ(t),θ]若しくは単純にp[C|ψ(t)](n=1,…,N+1)は、式(11)に示す特性を満たすものとする。
Figure 0005568530
式(11)は、ある時間周波数ビンにおいてn番目の信号が存在する確率は、特徴ベクトルψ(t)にて完全に規定されることを示している。なお、これらの音声存在確率の計算は、各周波数kで独立に行われるため、あるn番目の信号成分が、異なる周波数では異なるクラスタのインデックスを持つというパーミューテーション(入れ替わり)問題が起こる。周波数間で同じ信号を束ねるためのパーミューテーション問題の解決には、従来法(例えば非特許文献1)を用いることができる。
〔音声・雑音特徴計算部〕
図5に、より具体的な音声・雑音特徴計算部30の機能構成例を示す。その動作フローを図6に示す。音声・雑音特徴計算部30は、観測信号共分散行列計算手段301と、加法性雑音共分散行列計算手段302と、目的信号共分散行列計算手段303と、を備える。
観測信号共分散行列計算手段301は、多チャネル観測信号y(t)の共分散行列Ryyを計算する。多チャネル観測信号y(t)の共分散行列Ryyは、式(12)で与えられる。
Figure 0005568530
実際の計算としては、多チャネル観測信号のベクトルy(t)とそのエルミート転置y(t)を乗じた値を総観測フレーム数Tで平均して求める(式(13)、ステップS301)。
Figure 0005568530
次に、加法性雑音の成分を含まない目的信号に関する共分散行列を算出する方法について説明する。音声・雑音存在確率計算部20において多チャネル観測信号y(t)をN+1個のクラスタに分類したことを考慮すると、式(12)で示した観測信号の共分散行列Ryyは、次のように各クラスタの和に分解できる。
Figure 0005568530
n番目の積分項は式(15)で与えられる。
Figure 0005568530
n番目のクラスタに関する共分散行列は、加法性雑音に関する共分散行列Rvvと、n番目の目的信号の共分散行列Rxnxnの和の形で表せる。N+1番目のクラスタは、目的音源がN個であるので、加法性雑音に関する特徴を捉えることになる。つまり、N+1番目のクラスタに関する共分散行列RN+1は、加法性雑音に関する共分散行列を表す(RN+1=Rvv)。
Figure 0005568530
この実施例で対象としている加法性雑音は、目的音源と比べて十分にゆっくりと変化する雑音を仮定しているため、1〜N番目のクラスタに含まれる加法性雑音成分とN+1番目のクラスタで観測される加法性雑音成分とは、十分に近い特性を持っているものと考えることができる。したがって、加法性雑音に関する共分散行列^Rvvと、目的信号に関する共分散行列^Rxnxnは次のように計算することができる。
Figure 0005568530
加法性雑音共分散行列計算手段302は、多チャネル観測信号y(t)と目的音源の事後確率p[C|ψ(t),θ]を入力として、多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)と加法性雑音に関する事後確率p[CN+1|y(t)]とを乗じた値を総観測フレーム数Tで平均して、加法性雑音の共分散行列^Rvvを計算する(式(18)、ステップS302)。
目的信号共分散行列計算手段303は、多チャネル観測信号y(t)と目的音源の事後確率p[C|ψ(t),θ]と加法性雑音の共分散行列^Rvvを入力として、多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)と各目的音源に関する事後確率p[C|y(t)]とを乗じた値を総観測フレーム数Tで平均した値から、加法性雑音の共分散行列^Rvvを減じて各々の目的信号に関する共分散行列^Rxnxnを計算する(式(19)、ステップS303)。
〔音声推定用フィルタ計算部〕
音声推定用フィルタ計算部40は、多チャネル観測信号y(t)の共分散行列Ryyと、目的信号に関する共分散行列^Rxnxnを入力として、n番目の目的信号に起因する信号成分を最小二乗誤差推定する。
n番目の目的信号成分の最小二乗誤差推定は、以下のように与えられる。
Figure 0005568530
式(20)は、スパース性の仮定を導入することで導かれる。上式中のn番目のクラスタに関する事後確率は、最小二乗誤差推定値E{(t)|y(t),C}を滑らかにマスクする効果を持つ。上式右辺第2項は、以下の二乗誤差ε(w)を最小化する多チャネルウィナーフィルタwを求めることと等価である。
Figure 0005568530
ε(w)を最小化するフィルタwは、一般的に、以下のようなYule-walker方程式を解くことで導出される。
Figure 0005568530
ここで、1番目のマイクロホンにおけるn番目の目的信号を回復しようとする場合は、uはu=[10…0]となる。さらに、式(22)のフィルタは、以下の式のように、n番目の目的音源以外の成分をどの程度抑圧するかをβを用いて調節することのできるフィルタw (β)に一般化することができる。
Figure 0005568530
ここで、n番目の目的信号以外の不要成分であるRunは、次のように計算される。
Figure 0005568530
音声推定用フィルタ計算部40は、そのn番目の目的信号以外の不要成分Runを、多チャネル観測信号y(t)の共分散行列Ryyと、目的信号に関する共分散行列^Rxnxnを入力として求め、目的信号を回復する一般化多チャネルウィナーフィルタを式(24)で計算して求める。
〔多チャネルフィルタリング部〕
多チャネルフィルタリング部50は、多チャネル観測信号y(t)と、一般化多チャネルウィナーフィルタw (β)と、各目的信号に関する事後確率p[C|ψ(t),θ]と、を入力として、n番目の目的信号の推定値を式(26)でフィルタリングして出力する。
Figure 0005568530
〔評価実験〕
この発明の音源分離装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
目的信号を2つ(N=2)とし、TIMITデータベースからランダムに抽出した男女各12名の話者のデータを用いた。混合の条件としては、女声2話者の混合、男性2話者の混合、女性話者1名と男声話者1名の混合、の3条件を模擬した。話者二人の位置は、マイクロホンアレーから2m離れ、互いに160度離れた位置とし、同程度の音量で混合した(SIR : Signal-to-Interference Ratio=0dB)。
加法性雑音としては、noisexデータベースから抽出したバブルノイズを用い、各マイクロホン信号のSNR(Signal-to-Noise Ratio)が5〜20dBとなるように加算した。この発明としては、多チャネルウィナーフィルタ(式(24)のβ=1)とMVDR(Mininimum Variance Distortionless Responds、式(24)のβ=0)を作成し、非特許文献1と2に示された従来技術と比較を行った。マイクロホンの数としては、8と16の2つの条件を用意した。
表1にSNRの比較結果、表2にSIRの比較結果を示す。
Figure 0005568530
Figure 0005568530
表1と2の比較結果から明らかなように、この発明の音源分離方法の方が、マイクロホンの数によらず高い性能を示した。
図7と図8に、この評価結果を信号波形で示す。図7は、処理前の波形を示し、(a)は話者1のクリーン音声、(b)は話者2のクリーン音声、(c)はそれぞれの話者音声と雑音を混合した音声である。図8に、音源分離後の信号波形を示す。(a)と(b)は従来法で音源分離した話者1と話者2の信号波形、(c)(d)はこの発明の音源分離方法で音源分離した話者1と話者2の信号波形である。話者の信号が途切れる4秒付近の波形を比較すると、この発明の方法で音源分離した方がSNRの良いことが分かる。このように、この発明の音源分離方法は、加法性雑音を効果的に抑圧した目的信号の抽出を可能にする。
上記した音声分離装置100における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算部と、
    上記特徴ベクトルを入力として、上記時間周波数ビンごとの観測信号が、それぞれ加法性雑音のみを含む、または、加法性雑音とN個の音源のうちのいずれか一つの音源に起因する目的信号とを含むと仮定したモデルに基づいて、当該特徴ベクトルをN個の目的音源と上記加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算部と、
    上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる上記多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算部と、
    上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、上記多チャネル観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算部と、
    上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング部と、
    を具備する音源分離装置。
  2. 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算部と、
    上記特徴ベクトルを入力として、当該特徴ベクトルをN個の目的音源と加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算部と、
    上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算部と、
    上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算部と、
    上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング部と、
    を具備し、
    上記音声・雑音特徴計算部は、
    上記多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)を乗じた値を、総観測フレーム数Tで平均して多チャネル観測信号y(t)の共分散行列Ryyを計算する観測信号共分散行列計算手段と、
    多チャネル観測信号y(t)と目的音源の事後確率p[C|ψ(t),θ]を入力とし
    て、多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)と加法性雑音に関する事後確率p[CN+1|y(t)]とを乗じた値を総観測フレーム数Tで平均し
    て、加法性雑音の共分散行列^Rvvを計算する加法性雑音共分散行列計算手段と、
    多チャネル観測信号y(t)と目的音源の事後確率p[C|ψ(t),θ]と上記加法
    性雑音の共分散行列^Rvvを入力として、多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)と各目的音源に関する事後確率p[C|y(t)]とを乗じ
    た値を観測信号Tで平均した値から、上記加法性雑音の共分散行列^Rvvを減じて各々の目的信号に関する共分散行列^Rxnxnを計算する目的信号共分散行列計算手段と、
    を備えることを特徴とする音源分離装置。
  3. 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算過程と、
    上記特徴ベクトルを入力として、上記時間周波数ビンごとの観測信号が、それぞれ加法性雑音のみを含む、または、加法性雑音とN個の音源のうちのいずれか一つの音源に起因する目的信号とを含むと仮定したモデルに基づいて、当該特徴ベクトルをN個の目的音源と上記加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算過程と、
    上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる上記多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算過程と、
    上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、上記多チャネル観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算過程と、
    上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング過程と、
    を備える音源分離方法。
  4. 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算過程と、
    上記特徴ベクトルを入力として、当該特徴ベクトルをN個の目的音源と加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算過程と、
    上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算過程と、
    上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算過程と、
    上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング過程と、
    を備え、
    上記音声・雑音特徴計算過程は、
    上記多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)を乗じた値を、総観測フレーム数Tで平均して多チャネル観測信号y(t)の共分散行列Ryyを計算する観測信号共分散行列計算ステップと、
    多チャネル観測信号y(t)と目的音源の事後確率p[C|ψ(t),θ]を入力とし
    て、多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)と加法性雑音に関する事後確率p[CN+1|y(t)]とを乗じた値を総観測フレーム数Tで平均し
    て、加法性雑音の共分散行列^Rvvを計算する加法性雑音共分散行列計算ステップと、
    多チャネル観測信号y(t)と目的音源の事後確率p[C|ψ(t),θ]と上記加法
    性雑音の共分散行列^Rvvを入力として、多チャネル観測信号y(t)のベクトルとそのエルミート転置y(t)と各目的音源に関する事後確率p[C|y(t)]とを乗じ
    た値を総観測フレーム数Tで平均した値から、上記加法性雑音の共分散行列^Rvvを減じて各々の目的信号に関する共分散行列^Rxnxnを計算する目的信号共分散行列計算ステップと、
    を含むことを特徴とする音源分離方法。
  5. 請求項1又は2に記載した音源分離装置としてコンピュータを機能させるためのプログラム。
JP2011193517A 2011-09-06 2011-09-06 音源分離装置とその方法とプログラム Active JP5568530B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011193517A JP5568530B2 (ja) 2011-09-06 2011-09-06 音源分離装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011193517A JP5568530B2 (ja) 2011-09-06 2011-09-06 音源分離装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2013054258A JP2013054258A (ja) 2013-03-21
JP5568530B2 true JP5568530B2 (ja) 2014-08-06

Family

ID=48131281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011193517A Active JP5568530B2 (ja) 2011-09-06 2011-09-06 音源分離装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5568530B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6114053B2 (ja) * 2013-02-15 2017-04-12 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
JP6059112B2 (ja) * 2013-08-21 2017-01-11 日本電信電話株式会社 音源分離装置とその方法とプログラム
JP6339520B2 (ja) * 2015-04-01 2018-06-06 日本電信電話株式会社 音源分離装置、音源分離方法および音源分離プログラム
JP6584930B2 (ja) * 2015-11-17 2019-10-02 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP6652519B2 (ja) * 2017-02-28 2020-02-26 日本電信電話株式会社 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
JP6636973B2 (ja) * 2017-03-01 2020-01-29 日本電信電話株式会社 マスク推定装置、マスク推定方法およびマスク推定プログラム
CN110914899B (zh) * 2017-07-19 2023-10-24 日本电信电话株式会社 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
CN111009256B (zh) 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
CN111028857B (zh) * 2019-12-27 2024-01-19 宁波蛙声科技有限公司 基于深度学习的多通道音视频会议降噪的方法及系统
CN111262590B (zh) * 2020-01-21 2020-11-06 中国科学院声学研究所 一种水声通信信源信道联合译码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053839A1 (en) * 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints

Also Published As

Publication number Publication date
JP2013054258A (ja) 2013-03-21

Similar Documents

Publication Publication Date Title
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
US9478232B2 (en) Signal processing apparatus, signal processing method and computer program product for separating acoustic signals
KR102152197B1 (ko) 음성 검출기를 구비한 보청기 및 그 방법
KR102206546B1 (ko) 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법
US20220059114A1 (en) Method and apparatus for determining a deep filter
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
Saleem et al. Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
Subba Ramaiah et al. A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization
Chowdhury Implementation and performance evaluation of acoustic denoising algorithms for UAV
KR101610708B1 (ko) 음성 인식 장치 및 방법
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
Chehresa et al. MMSE speech enhancement based on GMM and solving an over-determined system of equations
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
Hasan et al. Acoustic factor analysis based universal background model for robust speaker verification in noise.
JP6339520B2 (ja) 音源分離装置、音源分離方法および音源分離プログラム
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP5731929B2 (ja) 音声強調装置とその方法とプログラム
Kammi et al. Single Channel speech separation using an efficient model-based method

Legal Events

Date Code Title Description
A621 Written request for application examination

Effective date: 20130829

Free format text: JAPANESE INTERMEDIATE CODE: A621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Written amendment

Effective date: 20140422

Free format text: JAPANESE INTERMEDIATE CODE: A523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Written amendment

Effective date: 20140527

Free format text: JAPANESE INTERMEDIATE CODE: A523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140623

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5568530

Country of ref document: JP