JP6290803B2 - モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム - Google Patents

モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム Download PDF

Info

Publication number
JP6290803B2
JP6290803B2 JP2015034398A JP2015034398A JP6290803B2 JP 6290803 B2 JP6290803 B2 JP 6290803B2 JP 2015034398 A JP2015034398 A JP 2015034398A JP 2015034398 A JP2015034398 A JP 2015034398A JP 6290803 B2 JP6290803 B2 JP 6290803B2
Authority
JP
Japan
Prior art keywords
reverberation
parameter
model
mixed signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015034398A
Other languages
English (en)
Other versions
JP2016156944A (ja
Inventor
信貴 伊藤
信貴 伊藤
荒木 章子
章子 荒木
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015034398A priority Critical patent/JP6290803B2/ja
Publication of JP2016156944A publication Critical patent/JP2016156944A/ja
Application granted granted Critical
Publication of JP6290803B2 publication Critical patent/JP6290803B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラムに関する。
従来から、目的音強調の技術として音源分離技術がある。音源分離技術は、複数のマイクロホンで取得した、複数の音源信号の混合信号を用いて、各音源信号を推定する技術である。特に、クラスタリングに基づく音源分離技術、独立成分分析に基づく音源分離技術がよく知られている。以下、従来技術として、クラスタリングに基づく音源分離技術ついて説明する。以下において、例えばAがベクトルである場合には“ベクトルA”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、以下において、特に断らない限り、時間周波数領域での信号表現を用いる。時間フレームの番号をt∈{1,2,・・・,T}(Tは、フレーム総数)で表し、周波数binの番号をf∈{1,2,・・・,F}(Fは、ナイキスト周波数以下の周波数binの総数)で表す。
時間周波数領域での信号表現は、時間領域での信号表現に対し、短時間フーリエ変換などの時間周波数変換を適用することで得られる。逆に、時間領域での信号表現は、時間周波数領域での信号表現に対し、逆短時間フーリエ変換などの時間周波数変換の逆変換を適用することで得られる。
N個(Nは、自然数)の音源からの信号をM個(Mは、自然数)のマイクロホンで観測するとする。m(1≦m≦M)番目のマイクロホンで観測される混合信号をy(m) tfで表し、下記(1)式のように、M個のマイクロホンで観測される混合信号を混合信号ベクトルytfとしてまとめて表記する。
Figure 0006290803
上記(1)式において、・は、・の転置を表す。残響時間がフレーム長に比べて十分短い場合、混合信号ベクトルytfは、下記(2)式によりモデル化できる。
Figure 0006290803
上記(2)式において、c(n) tfは、n番目の音源信号を表す。また、上記(2)式におけるベクトルh(n) fは、下記(3)式により定義される。なお、下記(3)式において、h(m,n) fは、n番目の音源信号からm番目のマイクロホンへの時不変の伝達関数を表す。
Figure 0006290803
ベクトルh(n) fは、ステアリングベクトルと呼ばれ、n番目の音源の位置に関する情報を含む。以下では、簡単のため、マイクロホン数がM=2であり、残響や反響の影響は無視でき、各音源信号は平面波として伝搬すると仮定する。この場合、ベクトルh(n) fは、下記(4)式によりモデル化できる。なお、下記(4)式において、“j”は虚数単位を表す。
Figure 0006290803
ここで、上記(4)式におけるωfは、周波数binの番号fに対応する角周波数を表し、d(m,n)は、m番目のマイクロホンとn番目の音源との距離を表し、cは、音速を表す。n番目の音源のマイクロホン間到来時間差δ(n)を、下記(5)式により定義する。
Figure 0006290803
すると、ステアリングベクトルh(n) におけるマイクロホン間位相差arg(h(1,n) f)−arg(h(2,n) f)(arg(・)は、・の偏角(位相)を表す)と、n番目のマイクロホン間到来時間差δ(n)との間には、下記(6)式に示す関係がある。
Figure 0006290803
クラスタリングに基づく音源分離技術では、観測された混合信号ベクトルytfは、「各時間周波数点では単一の音源成分のみからなる」(以下、「スパース」と表記する)と仮定する(例えば、非特許文献1参照)。スパースは、残響の影響が小さく、音源信号が音声である場合に、精度よく成立することが知られている。スパースの仮定の下では、「時間周波数点(t,f)において混合信号ベクトルytfに含まれる」(以下、「アクティブ」と表記する)音源の番号をdtfで表すと、上記(2)式は、下記(7)式のように書き換えられる。
Figure 0006290803
スパース性の仮定の下では、観測信号から、下記(8)式の定義に基づき計算される特徴量ztfは、下記(9)式に示すように、アクティブなdtf番目の音源のマイクロホン間到来時間差と一致する。
Figure 0006290803
Figure 0006290803
よって、ztfのクラスタリングにより音源分離が実現できる。クラスタリングは、例えば、混合モデルのフィッティングやk-meansクラスタリングなどのクラスタリング技術により行うことができる(例えば、非特許文献2参照)。
O. Yilmaz and S. Rickard, "Blind separation of speech mixtures via time-frequency masking." IEEE Trans. SP, vol. 52, no. 7, pp. 1830-1847, Jul. 2004. S. Araki, H. Sawada, R. Mukai, and S. Makino, "Underdetermined blind sparse source separation for arbitrarily arranged multiple sensors." Signal Processing, vol. 87, no. 8, pp. 1833-1847, Aug. 2007. 伊藤信貴,荒木章子,木下慶介,中谷智広,"音源位置情報に基づく劣決定ブラインド音源分離のためのパーミュテーションフリークラスタリング法",電子情報通信学会論文誌, vol. J97-A, no. 4, pp. 234-246, Apr. 2014. T. Yoshioka, T. Nakatani, M. Miyoshi, and H.G. Okuno, "Blind separation and dereverberation of speech mixtures by joint optimization." IEEE Trans. ASLP, vol. 19, no. 1, pp. 69-84, Jan. 2011. N.Q.K. Duong, E. Vincent, and R. Gribonval, "Under-determined reverberant audio source separation using a full-rank spatial covariance model." IEEE Trans. ASLP, vol. 18, no. 7, pp. 1830-1840, Sep. 2010. A.P. Dempster, N.M. Laird, and D.B. Rubin, "Maximum likelihood from incomplete data via the EM algorithm." Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, no. 1, pp. 1-38, 1977. H. Sawada, S. Araki, and S. Makino, "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment." IEEE Trans. ASLP, vol. 19, no. 3, pp. 516-527, Mar. 2011.
しかしながら、上記従来技術は、フレーム長と比べて残響時間が十分短いことを前提とするため、この前提が成立しない多くの実環境(例えば、会議室など)において、音源分離性能が低下する問題がある。
本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、フレーム長と比べて残響時間が長い場合においても、より高精度な音源分離を実現することを目的とする。
本願の実施形態の一例は、モデル推定装置は、複数の音源が出力する音による残響の特性を示す回帰行列を含む、残響を含む混合信号のモデルのパラメータを保存する記憶部を備える。モデル推定装置は、音を複数のマイクロホンで観測した観測信号と、記憶部に保存される回帰行列とを用いた線形予測により、残響を含まない混合信号を推定する。モデル推定装置は、推定された混合信号を、各時間周波数点が属する音源毎のクラスタにクラスタリングし、記憶部に保存されるパラメータから、各クラスタと対応する事後確率を計算する。モデル推定装置は、推定された混合信号と、計算された事後確率とから、パラメータを推定し、推定したパラメータで記憶部に保存されるパラメータを更新する。モデル推定装置は、信号推定、クラスタリング及びパラメータ推定を、所定条件が満たされるまで繰り返す。
本願が開示する実施形態の一例によれば、例えば、フレーム長と比べて残響時間が長い場合においても、より高精度な音源分離を実現できる。
図1は、実施形態1に係るモデル推定装置の構成の一例を示す図である。 図2は、実施形態1に係るモデル推定装置の処理手順の一例を示すフローチャートである。 図3は、実施形態2に係るモデル推定装置の構成の一例を示す図である。 図4は、実施形態3に係るモデル推定装置の構成の一例を示す図である。 図5は、実施形態3に係るモデル推定装置の処理手順の一例を示すフローチャートである。 図6は、実施形態4に係る目的音強調装置の構成の一例を示す図である。 図7は、実施形態4に係る目的音強調装置の処理手順の一例を示すフローチャートである。 図8は、実施形態4の効果の一例を説明する図である。 図9は、実施形態4の効果の一例を説明する図である。 図10は、プログラムが実行されることにより、モデル推定装置及び目的音強調装置が実現されるコンピュータの一例を示す図である。
[実施形態]
以下、本願が開示するモデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す各実施形態は、矛盾しない範囲で適宜組合せてもよい。
なお、以下の実施形態では、例えばAがベクトルである場合には“ベクトルA”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記するものとする。また、例えばベクトルAの関数fは、f(ベクトルA)と表記するものとする。また、ベクトル又はスカラーであるAに対し、“A”と記載する場合は「“A”の直上に“〜”が記された記号」と同等であるとする。また、ベクトル又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。また、ベクトル又はスカラーであるAに対し、“〜^A”と記載する場合は「“A”の直上に“^”が記され、さらにその直上に“〜”が付された記号」と同等であるとする。また、ベクトル又はスカラーであるAに対し、ATはAの転置を表す。また、行列Aに対し、行列A−1は行列Aの逆行列を表し、detAは行列Aの行列式を表し、trAは行列Aの対角和(トレース)を表す。また、行列Aに対し、行列AHは、行列Aのエルミート転置を表し、行列Aは、行列Aの複素共役を表す。また、集合Aに対し、#Aは集合Aの要素数を表す。また、exp(・)は、指数関数であり、ln(・)は対数関数である。
[実施形態1]
以下、実施形態1について、実施形態1の理論的背景を説明後、実施形態1の一態様を説明する。
<実施形態1の理論的背景>
実施形態1は、残響下で、N個(Nは、自然数)の音源からの信号をM個(Mは、自然数)のマイクロホンで観測するとする。m(1≦m≦M)番目のマイクロホンで観測された残響を含む混合信号をy(m) tfで表し、下記(10)式のように、M個のマイクロホンで観測される混合信号を混合信号ベクトルytfとしてまとめて表記する。
Figure 0006290803
実施形態1のモデル推定装置は、残響を含む混合信号ベクトルytfを、混合信号ベクトルytfの分布を表す確率モデルに当てはめ、所定の確率モデルのパラメータを推定する。以下では、先ず、混合信号ベクトルytfの分布を表す確率モデルについて説明し、次に、混合信号ベクトルytfの分布を表す確率モデルのパラメータを推定するアルゴリズムを導出する。以下、残響を含む混合信号ベクトルのモデル化、及び、パラメータ推定アルゴリズムの導出それぞれについて、理論的背景を説明する。
(実施形態1の残響を含む混合信号ベクトルのモデル化)
n(1≦n≦N)番目の音源のみが存在し、残響および他の音源が存在しないと仮定した場合に、M個のマイクロホンで観測される予定の信号を並べたベクトル(以下、「n番目の音源の残響を含まないマイクロホン像」と表記する)をベクトルs(n) tf∈集合Cで表す。ここで、ベクトルs(n) tfは、複素数を要素とするM次元のベクトルである。残響が存在しないと仮定した場合に、M個のマイクロホンで観測される予定の混合信号を並べたベクトル(以下、「残響を含まない混合信号ベクトル」と表記する)をxtf∈集合Cで表す。残響を含まない混合信号ベクトルxtfがスパースであると仮定すれば、混合信号ベクトルxtfは、下記(11)式によりモデル化できる。
Figure 0006290803
従来のクラスタリングに基づく音源分離では、残響を含む混合信号ベクトルytfがスパースであると仮定するのに対し、実施形態1は、残響を含まない混合信号ベクトルxtfがスパースであると仮定する。これにより、残響下でも正確なモデル化が可能である。上記(11)式による混合信号ベクトルxtfのモデルに基づき、残響を含まない混合信号ベクトルxtfの分布は、下記(12)式の混合分布によりモデル化される。
Figure 0006290803
上記(12)式において、p(ベクトルs(n) tf|Θ)は、n番目の音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルを表す。また、上記(12)式において、P(dtf|Θ)は、混合重みと呼ばれ、アクティブな音源の番号dtfの確率モデルを表す。また、上記(12)式において、Θは、確率モデルのパラメータの集合を表す。集合Θの定義は、後述する。
一方、残響を含む混合信号ベクトルytfは、残響を含まない混合信号ベクトルxtfにより駆動されたマルチチャネル自己回帰過程により、下記(13)式のようにモデル化できる。混合信号ベクトルytfのモデル化については、文献1「T. Yoshioka, T. Nakatani, M. Miyoshi, and H.G. Okuno, “Blind separation and dereverberation of speech mixtures by joint optimization.” IEEE Trans. ASLP, vol. 19, no. 1, pp. 69.84, Jan. 2011.」に詳述されている。
Figure 0006290803
ここで、上記(13)式において、kはタップ番号を表し、Kはタップ数を表し、行列Gkf∈集合CM×Mは、複素数を要素とするM行M列の回帰行列を表し、行列GH kfは、回帰行列Gkfのエルミート転置を表す。また、上記(13)式において、Δは、所定の遅延を表すが、好ましくは、音源信号が自己相関を持つ時間(音声の場合、20〜30ms程度)に相当するように設定する。遅延Δを導入することで、推定された回帰行列Gkfを用いて残響除去を行う際に、音源信号の自己相関が除去されることを防ぐ。また、便宜上、t<0に対しては、混合信号ベクトルytf=0(ゼロベクトル)と定義する。便宜上、上記(13)式のモデルを確率モデルとして表すと、下記(14)式を得る。なお、下記(14)式において、δは、ディラックのデルタ関数である。
Figure 0006290803
上記(12)式及び上記(14)式の確率モデルを用いると、残響を含む混合信号ベクトルytfの分布を表す確率モデルを、下記(15)式及び下記(16)式のように導出できる。
Figure 0006290803
残響を含む混合信号ベクトルytfの分布を表す、上記(16)式の確率モデルの導出においては、各音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)と、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)との具体形について、何の仮定も置いていないことに注意する。すなわち、これらの確率モデルを任意の確率分布によりモデル化しても、残響を含む混合信号ベクトルytfの分布を表す確率モデルは、上記(16)式により与えられる。
上記(16)式によれば、残響を含む混合信号ベクトルytfの分布を表す確率モデルを定めることは、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)と、各音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)とを定めることに帰着することが分かる。これらの確率モデルは、任意の確率分布を用いてモデル化できるが、以下では、実施形態1における、これらのモデル化について説明する。
n番目の音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)は、例えば、下記(17)式の時変ガウス分布でモデル化できる。このモデル化については、文献2「N.Q.K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model.” IEEE Trans. ASLP, vol. 18, no. 7, pp. 1830.1840, Sep. 2010.」に詳述されている。
Figure 0006290803
ここで、上記(17)式において、φ(n) tfは、ベクトルs(n) tfの時変のパワースペクトルをモデル化するパラメータであり、行列B(n) fは、ベクトルs(n) tfの時不変の空間共分散行列をモデル化するパラメータである。また、上記(17)式の右辺は、下記(18)式により表される複素ガウス分布の確率密度関数である。下記(18)式は、確率変数がベクトルα、平均がベクトルμ、共分散行列Σである複素ガウス分布の確率密度関数を表す。下記(18)式において、πは円周率、det(πΣ)は、行列πΣの行列式を表す。
Figure 0006290803
また、実施形態1では、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)を、周波数依存の混合重みα(n) を用いて、下記(19)式によりモデル化する。
Figure 0006290803
実施形態1における、残響を含む混合信号ベクトルytfの分布を表す確率モデルの具体形は、一般の場合である上記(16)式に、n番目の音源の残響を含まないマイクロホン像のベクトルs(n) tfの分布を表す確率モデルp(ベクトルs(n) tf|Θ)の具体形である上記(17)式と、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)の具体形である上記(19)式とを代入することで、下記(20)式のように得られる。
Figure 0006290803
ここで、パラメータの集合Θは、具体的には、下記(21)式により定義される。
Figure 0006290803
(実施形態1のパラメータ推定アルゴリズムの導出)
残響を含む混合信号ベクトルytfの確率モデルを示す上記(16)式に基づくと、例えば、最尤法又はMAP(Maximum A Posteriori)推定法に従って、パラメータの集合Θを推定することができる。
最尤法では、残響を含む混合信号ベクトルytfの尤度p(Y|Θ)を評価関数とし、尤度p(Y|Θ)を最大化することでパラメータの集合の推定値Θ=arg maxΘ{p(Y|Θ)}を求める。ここで、集合Yは、Y:={ベクトルytftf:={ベクトルytf |∀t,f}と定義する。
一方、MAP推定法では、パラメータの集合Θの事後確率p(Θ|Y)を評価関数とし、事後確率p(Θ|Y)を最大化することでパラメータの集合の推定値Θ=arg maxΘ{p(Θ|Y)}を求める。さらに、ベイズの定理より、p(Θ|Y)={p(Y|Θ)p(Θ)}/p(Y)であることと、p(Y)は定数であることに注意すると、MAP推定法によるパラメータの集合Θの推定値は、下記(22)式のように書きなおせる。なお、下記(22)式において、p(Θ)はパラメータの集合Θの事前確率を表す。
Figure 0006290803
残響を含む混合信号ベクトルytfの尤度p(Y|Θ)は、上記(15)式の左辺に現れる、残響を含む混合信号ベクトルytfの分布を表す確率モデルを用いて、下記(23)式で表される。
Figure 0006290803
パラメータの集合Θの事前確率p(Θ)は、任意の確率モデルを用いてモデル化することができるが、例えば一様な分布を用いることができる。一様分布を用いる場合、上記(22)式に基づく、MAP推定法によるパラメータの集合Θの推定値は、最尤推定と一致する。もしくは、混合重みの事前分布として、下記(24)式のようなディリクレ分布を仮定する。
Figure 0006290803
そして、混合重み以外のパラメータに対しては、一様な事前分布を仮定してもよい。この場合、パラメータの集合Θの事前分布P(Θ)は、上記(24)式に示す混合重みの事前分布に比例する。ここで、上記(24)式におけるψは、ハイパーパラメータと呼ばれる所定の定数である。ψは、任意の正数に設定することができるが、例えばψ=600とすればよい。
以下では、上記(22)式に基づくMAP推定法により、パラメータの集合Θを推定するためのアルゴリズムの一例として、集合D:={dtf}を隠れ変数とみなしたEM(Expectation-Maximization)アルゴリズムを導出する。なお、EMについては、文献3「A.P. Dempster, N.M. Laird, and D.B. Rubin, “Maximum likelihood from incomplete data via the EM algorithm.” Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, no. 1, pp. 1.38, 1977.」に詳述されている。
EMアルゴリズムとは、以下に定義するEステップとMステップを、収束条件が満たされるまで反復するものである。Eステップでは、下記(25)式で定義されるQ関数:Q(Θ;Θ´)を計算する。
Figure 0006290803
ここで、lnP(Y,D|Θ)は、完全データの集合{Y,D}の対数尤度を表し、P(D|Y,Θ´)は、パラメータの集合Θの現在の推定値Θ´に対する集合Dの事後確率を表し、<・>P(D|Y,Θ´)は、P(D|Y,Θ´)に関する期待値演算を表す。
一方、Mステップでは、Q関数の最大化により、パラメータの集合Θを更新する。EMアルゴリズムの各反復において、評価関数p(Y|Θ)p(Θ)の単調非減少性が保証されている。Q関数の具体形を計算するために、下記(26)式〜(30)式のように、p(Y,D|Θ)、p(D|Y,Θ´)を求める。
Figure 0006290803
ここで、上記(30)式におけるγ(n) tfは、下記(31)式〜(33)式で定義する。
Figure 0006290803
ただし、簡単のため、上記(33)式において、α(n) f、回帰行列Gkf、φ(n) tf、行列B(n) fの現在の推定値を、それぞれ、単にα(n) f、回帰行列Gkf、φ(n) tf、行列B(n) fと表記した。
上記(28)式、上記(30)式を、上記(25)式へ代入することで、Q関数の具体形が、下記(34)式、(35)式のように得られる。
Figure 0006290803
混合重みα(n) fの更新式は、拘束条件ΣN n=1α(n) f=1に注意して、ラグランジュの未定乗数法を用いることで得られる。φ(n) tf及び行列B(n) fの更新式は、上記(35)式に示すQ関数のφ(n) tf、及び、行列B(n) fの複素共役である(行列B(n) f)に関する偏微分を0とおくことで得られる。
回帰行列Gkfの更新式は、上記(35)式に示すQ関数から、回帰行列Gkfのエルミート転置である行列GH kfに依存する項のみを抜き出すと、下記(36)式、(37)式のようになる。
Figure 0006290803
上記(37)式の、行列〜GH fに関する偏微分を0とおいて整理すると、下記(41)式のようになる。
Figure 0006290803
上記(41)式の両辺に、vec作用素を作用させ、下記(a)式で示される、行列A、行列B、行列Xについての、クロネッカー積に関する公式を適用すると、下記(42)式のようになる。
Figure 0006290803
Figure 0006290803
ただし、上記(42)式において、vec[a1・・・aP]及び行列〜GH fを、それぞれ下記(43)式、(44)式のように定義する。
Figure 0006290803
よって、上記(42)式から、下記(45)式のように、vec[行列〜GH f]が求まる。
Figure 0006290803
<実施形態1の一態様>
以下、上述の実施形態1の理論的背景に基づく、実施形態1の一態様を説明する。なお、実施形態1の一態様において、音源数Nは既知と仮定する。
(実施形態1に係るモデル推定装置の構成)
図1は、実施形態1に係るモデル推定装置の構成の一例を示す図である。実施形態1に係るモデル推定装置10Aは、残響除去処理部11A、クラスタリング部12Aを有する。残響除去処理部11Aは、初期化部11A−1、共分散行列更新部11A−2、回帰行列更新部11A−3、残響除去部11A−4を有する。共分散行列更新部11A−2及び回帰行列更新部11A−3及び混合重み更新部12A−2は、パラメータ推定部の一例である。残響除去部11A−4は、信号推定部の一例である。事後確率更新部12A−1は、事後確率計算部の一例である。
初期化部11A−1は、まず、パラメータの集合Θの初期値を計算する。この初期値は、例えば、以下のように計算することができる。まず、アクティブな音源の番号dtfの推定値^dtfを、残響モデルを含まない従来のクラスタリングに基づく音源分離技術を用いて計算する。残響モデルを含まない従来のクラスタリングに基づく音源分離技術は、文献4「伊藤信貴,荒木章子,木下慶介,中谷智広,“音源位置情報に基づく劣決定ブラインド音源分離のためのパーミュテーションフリークラスタリング法”,電子情報通信学会論文誌, vol. J97-A, no. 4, pp. 234.246, Apr. 2014.」に詳述されている。
次に、初期化部11A−1は、推定値^dtfを用いて、下記(46)式〜(49)式により、各パラメータを初期化する。なお、下記(46)式及び(48)式における集合C(n) fは、C(n) f:={t|dtf=n}で定義される行列である。また、下記(46)式及び(48)式における#C(n) fは、集合C(n) fの要素数を表す。また、下記(49)式における“tr[・]”は、行列[・]のトレースを表す。
Figure 0006290803
共分散行列更新部11A−2は、各音源n(n=1,・・・,N)の残響を含まないマイクロホン像のベクトルs(n) tfの共分散行列φ(n) tf(n) fのパラメータφ(n) tf及び行列B(n) fを、それぞれ下記(50)式、(51)式により更新する。
Figure 0006290803
回帰行列更新部11A−3は、回帰行列Gkfを、下記(52)式、(53)式により更新する。
Figure 0006290803
ここで、上記(53)式の左辺に現れる行列〜Gf及び上記(53)式の右辺に現れるベクトル〜yt-Δ-1,fは、下記(54)式、(55)式のように定義される。
Figure 0006290803
残響除去部11A−4は、残響を含まない混合信号ベクトルの推定値^xtfを、下記(56)式により更新する。
Figure 0006290803
クラスタリング部12Aは、事後確率更新部12A−1、混合重み更新部12A−2を有する。事後確率更新部12A−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、下記(57)式により更新する。なお、γ(n) tf:=P(dtf=n|ベクトルytf,Θ)と定義する。
Figure 0006290803
混合重み更新部12A−2は、混合重みα(n) fを、下記(58)式により更新する。
Figure 0006290803
なお、性能向上のため、モデル推定装置10Aの全処理に先立ち、残響を含む混合信号ベクトルytfに対し、前処理として、下記に示す白色化をおこなってもよい。
Figure 0006290803
なお、実施形態1は、クラスタリング部12Aの事後確率更新部12A−1が、上記(57)式に基づき、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとした。しかし、これに限らず、k-meansクラスタリング等の従来技法を用い、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとしてもよい。
(実施形態1に係るモデル推定装置の処理)
図2は、実施形態1に係るモデル推定装置の処理手順の一例を示すフローチャートである。以下に述べるモデル推定装置10Aの処理は、所定の収束判定条件が満たされるまで反復される。所定の収束条件は、例えば、「所定の反復回数に達している、又は、事後確率更新部12A−1、混合重み更新部12A−2の各更新部のうち1つ以上の更新部による更新前後のパラメータ値の差分が所定の閾値未満である」などとすればよい。
先ず、ステップS11では、初期化部11A−1は、パラメータの集合Θの初期値を、上記(46)式〜(49)式に基づき計算し、モデル推定装置10Aの主記憶装置に保存する。次に、ステップS12では、残響除去部11A−4は、モデル推定装置10Aの主記憶装置に現在保存されている回帰行列Gkfに基づき、上記(56)式により、残響を含まない混合信号ベクトルの推定値^xtfを更新する(“残響除去”処理)。
次に、ステップS13では、事後確率更新部12A−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、上記(57)式により計算し、モデル推定装置10Aの主記憶装置に保存する。また、ステップS13では、混合重み更新部12A−2は、混合重みα(n) fを、上記(58)式により計算し、モデル推定装置10Aの主記憶装置に保存する(以上、“クラスタリング”処理)。
次に、モデル推定装置10Aは、収束判定条件が満たされているか否かを判定する(ステップS14)。モデル推定装置10Aは、収束判定条件が満たされている場合(ステップS14Yes)、処理を終了する。モデル推定装置10Aは、収束判定条件が満たされていない場合(ステップS14No)、ステップS15へ処理を移す。
ステップS15では、共分散行列更新部11A−2は、各音源n(n=1,・・・,N)の残響を含まないマイクロホン像のベクトルs(n) tfの共分散行列φ(n) tf(n) fのパラメータφ(n) tf及び行列B(n) fを、それぞれ上記(50)式、(51)式により計算し、モデル推定装置10Aの主記憶装置に更新保存する。また、ステップS15では、回帰行列更新部11A−3は、共分散行列更新部11A−2により計算されたパラメータφ(n) tf及び行列B(n) fに基づき、回帰行列Gkfを、上記(52)式、(53)式により計算し、モデル推定装置10Aの主記憶装置に更新保存する。
また、ステップS15では、事後確率更新部12A−1は、モデル推定装置10Aの主記憶装置に現在保存されているパラメータの集合Θ、及び、最後に実行したステップS12による残響を含まない混合信号ベクトルの推定値^xtfに基づき、上記(57)式により、事後確率γ(n) tfを計算し、モデル推定装置10Aの主記憶装置に更新保存する。また、ステップS15では、混合重み更新部12A−2は、事後確率更新部12A−1により計算された事後確率γ(n) tfに基づき、上記(58)式により、混合重みα(n) fを更新し、モデル推定装置10Aの主記憶装置に更新保存する。以上のステップS15の処理が終了すると、モデル推定装置10Aは、ステップS12へ処理を移す。
[実施形態2]
以下、実施形態2について、実施形態2の理論的背景を説明後、実施形態2の一態様を説明する。
<実施形態2の理論的背景>
実施形態1のように、上記(19)式に示す周波数依存の混合重みを用いる場合、評価関数である事後確率には、パーミュテーション(置換)の不定性がある。すなわち、{1,・・・,N}上の置換Πfにより、パラメータの集合Θのα(n) f、φ(n) tf、行列B(n) tfの順序を、下記(62)式のように入れ替えた場合を考える。
Figure 0006290803
このとき、下記(63)式が成り立つ。
Figure 0006290803
すなわち、事後確率を最大化するだけでは、推定されたΘにおける番号nは、周波数毎に、異なる音源に対応してしまうというパーミュテーション問題がある。よって、推定されたΘをそのまま用いては、適切に目的音強調を行うことはできない。従って、実施形態1に基づいて目的音強調装置を構成する際には、番号nが周波数によらず同一の音源に対応するように置換Πfを決定する、パーミュテーション解決の処理が別途必要となる。
これに対し、実施形態2のモデル推定装置は、時間依存の混合重みを用いる。これにより、上記文献4に開示されている通り、事後確率の最大化により、パーミュテーション問題を生じずにモデル推定が可能である。
以下、実施形態2の理論的背景を、実施形態1との差異に重点を置きながら説明する。
(実施形態2の残響を含む混合信号ベクトルのモデル化)
実施形態2では、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)を、周波数依存の混合重みではなく、時間依存の混合重みα(n) tを用いて、下記(64)式でモデル化する。
Figure 0006290803
従って、実施形態2における残響を含む混合信号ベクトルytfの分布を表す確率モデル(上記(16)式参照)の具体形は、下記(65)式のように得られる。
Figure 0006290803
パラメータの集合Θは、具体的には、下記(66)式で表される。
Figure 0006290803
(実施形態2のパラメータ推定アルゴリズムの導出)
EMアルゴリズムにより、事後確率を最大化する点は、実施形態2は、実施形態1と同様である。しかし、実施形態2は、EMアルゴリズムの各反復において、Eステップ、Mステップの処理に加えて、P(Permutation)ステップの処理を行う。Pステップでは、各周波数binの番号fにて、目的関数である事後確率が最大となるように、共分散行列φ(n) tf(n) fを音源間で置換することにより、パーミュテーションを解決する。すなわち、Πfを{1,・・・,N}上の置換として、下記(67)式〜(69)式の処理を行う。
Figure 0006290803
なお、Eステップ及びMステップにおける更新式の導出は、実施形態1と同様であるので、説明を省略する。
<実施形態2の一態様>
以下、上述の実施形態2の理論的背景に基づく、実施形態2の一態様を説明する。なお、実施形態2の一態様において、音源数Nは既知と仮定する。しかし、実施形態2は、真の音源数N0が既知でなくても、その上限は分かっていると仮定し、仮定する音源数Nを、真の音源数N0の上限より大きく設定することで、音源数が既知である場合と同様に実施可能である。
(実施形態2に係るモデル推定装置の構成)
図3は、実施形態2に係るモデル推定装置の構成の一例を示す図である。実施形態2に係るモデル推定装置10Bは、残響除去処理部11B、クラスタリング部12Bを有する。残響除去処理部11Bは、初期化部11B−1、共分散行列更新部11B−2、回帰行列更新部11B−3、残響除去部11B−4を有する。共分散行列更新部11B−2及び回帰行列更新部11B−3及び混合重み更新部12B−2は、パラメータ推定部の一例である。残響除去部11B−4は、信号推定部の一例である。事後確率更新部12B−1は、事後確率計算部の一例である。
初期化部11B−1は、まず、パラメータの集合Θの初期値を計算する。この初期値は、例えば、以下のように計算することができる。まず、アクティブな音源の番号dtfの推定値^dtfを、実施形態1と同様に、残響モデルを含まない従来のクラスタリングに基づく音源分離技術を用いて計算する。次に、初期化部11B−1は、推定値^dtfを用いて、上記(47)式〜(49)式、及び、下記(70)式により、各パラメータを初期化する。なお、下記(70)式における集合〜C(n) tは、C(n) t:={f|dtf=n}で定義される行列である。また、下記(70)式における#C(n) tは、集合C(n) tの要素数を表す。
Figure 0006290803
共分散行列更新部11B−2、回帰行列更新部11B−3、残響除去部11B−4は、実施形態1の共分散行列更新部11A−2、回帰行列更新部11A−3、残響除去部11A−4とそれぞれ同様である。
クラスタリング部12Bは、事後確率更新部12B−1、混合重み更新部12B−2、パーミュテーション解決部12B−3を有する。事後確率更新部12B−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、下記(71)式により更新する。なお、γ(n) tf:=P(dtf=n|ベクトルytf,Θ)と定義する。
Figure 0006290803
混合重み更新部12B−2は、混合重みα(n) tを、下記(72)式により更新する。
Figure 0006290803
パーミュテーション解決部12B−3は、各周波数binの番号fにて、目的関数である事後確率が最大となるように、共分散行列φ(n) tf(n) fを音源間で置換することにより、パーミュテーションを解決する。すなわち、Πfを{1,・・・,N}上の置換として、下記(73)式〜(75)式により、共分散行列φ(n) tf(n) fを置換する。
Figure 0006290803
なお、性能向上のため、モデル推定装置10Bの全処理に先立ち、残響を含む混合信号ベクトルytfに対し、前処理として、上記(59)式〜(61)式に示す白色化をおこなってもよい。
なお、実施形態2は、クラスタリング部12Bの事後確率更新部12B−1が、上記(71)式に基づき、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとした。しかし、これに限らず、k-meansクラスタリング等の従来技法を用い、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを計算するとしてもよい。
[実施形態3]
実施形態3は、実施形態2のモデル推定装置10Bを用いて、上記文献4に記載の音源数推定技術により、音源数も推定する構成にしたものである。実施形態3は、真の音源数N0は分からないがその上限は分かっていると仮定し、仮定する音源数Nを、真の音源数N0の上限より大きく設定する。
(実施形態3に係るモデル推定装置の構成)
図4は、実施形態3に係るモデル推定装置の構成の一例を示す図である。実施形態3に係るモデル推定装置10Cは、実施形態2に係るモデル推定装置10Bと比較して、音源数推定部13をさらに有する。
音源数推定部13は、クラスタリング部12Bによって計算されたn番目の音源がアクティブである事後確率γ(n) tfを用いて、番号n=1,・・・,Nのうち、真の音源に対応する番号n(1),・・・, n(N0)を判定し、真の音源に対応する番号のパラメータのみを出力する。具体的には、音源数推定部13は、n番目の音源がアクティブである事後確率γ(n) tfを用いて、n番目の音源がアクティブである事後確率の総和を、例えば下記(76)式により算出する。
Figure 0006290803
そして、音源数推定部13は、各n番目の音源がアクティブである事後確率の総和ρ(n)を2つにクラスタリングし、総和の大きい方のクラスタに属するρ(n)の番号n=n(1),・・・, n(^N0)を求め、真の音源に対応する番号とみなす。例えば、音源数推定部13は、ρ(n)に対して、クラスタ数2のk-meansクラスタリングを適用してクラスタリングする。
最後に、音源数推定部13は、真の音源に対応するn=n(1),・・・, n(^N0)に対応する、下記(77)式に示すパラメータのみを出力する。なお、下記(77)式において、l=1,・・・,^N0である。
Figure 0006290803
(実施形態3に係るモデル推定装置の処理)
図5は、実施形態3に係るモデル推定装置の処理手順の一例を示すフローチャートである。以下に述べるモデル推定装置10Cの処理は、実施形態1又は2と同様の所定の収束判定条件が満たされるまで反復される。
先ず、ステップS21では、初期化部11B−1は、パラメータの集合Θの初期値を、上記(47)式〜(49)式、及び、(70)式に基づき計算し、モデル推定装置10Cの主記憶装置に保存する。次に、ステップS22では、残響除去部11B−4は、モデル推定装置10Cの主記憶装置に現在保存されている回帰行列Gkfに基づき、上記(56)式により、残響を含まない混合信号ベクトルの推定値^xtfを更新する(“残響除去”処理)。
次に、ステップS23では、事後確率更新部12B−1は、時間周波数点(t,f)でn(n=1,・・・,N)番目の音源信号がアクティブである事後確率γ(n) tfを、上記(71)式により計算し、モデル推定装置10Cの主記憶装置に保存する。また、ステップS23では、混合重み更新部12B−2は、混合重みα(n) tを、上記(72)式により計算し、モデル推定装置10Cの主記憶装置に保存する(以上、“クラスタリング”処理)。また、ステップS23では、パーミュテーション解決部12B−3は、Πfを{1,・・・,N}上の置換として、上記(73)式〜(75)式により、共分散行列φ(n) tf(n) fを置換する。
次に、モデル推定装置10Cは、収束判定条件が満たされているか否かを判定する(ステップS24)。モデル推定装置10Cは、収束判定条件が満たされている場合(ステップS24Yes)、ステップS26へ処理を移す。モデル推定装置10Cは、収束判定条件が満たされていない場合(ステップS24No)、ステップS25へ処理を移す。
ステップS25の処理は、図2に示す実施形態1のステップS15の処理と同様である。ステップS26では、音源数推定部13は、n番目の音源がアクティブである事後確率γ(n) tfを用いて、真の音源数を推定し、推定結果を出力する。
[実施形態4]
実施形態4に係る目的音強調装置は、実施形態1〜3に係るモデル推定装置10A〜10Cのいずれかを有する目的音強調装置100である。
(実施形態4に係る目的音強調装置の構成)
図6は、実施形態4に係る目的音強調装置の構成の一例を示す図である。実施形態4に係る目的音強調装置100は、周波数領域変換部20、モデル推定装置10A(あるいは10B又は10C)、強調音計算部30、時間領域変換部40を有する。
周波数領域変換部20は、時間領域での残響を含む混合信号ベクトル〜yτを、短時間フーリエ変換などの時間周波数変換により、時間周波数領域での残響を含む混合信号ベクトルytfに変換する。ここで、混合信号ベクトル〜yτは、下記(78)式により定義される。
Figure 0006290803
ただし、上記(78)式において、〜y(m) τは、時間領域でのm(m=1,・・・,M)番目のマイクロホンで観測された残響を含む混合信号であり、τはサンプル番号を表す。モデル推定装置10A(あるいは10B又は10C)は、パラメータの集合Θと、各音源nがアクティブである事後確率γ(n) tfを計算する。
強調音計算部30は、周波数領域変換部20から出力された時間周波数領域での残響を含む混合信号ベクトルytfと、モデル推定装置10A(あるいは10B又は10C)から出力されたパラメータの集合Θと各音源nがアクティブである事後確率γ(n) tfとを用いて、時間周波数領域での各音源の残響を含まないマイクロホン像の推定値^s(n) tfを、下記(79)式及び(80)式により計算し、出力する。
Figure 0006290803
なお、目的音強調装置100において実施形態1のモデル推定装置10Aを用いる場合は、上記(79)式及び(80)式の処理に先立って、γ(n) tfの番号nが周波数によらず同一の音源に対応するように、パーミュテーション解決を行う必要がある。このパーミュテーション解決は、例えば文献5「H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment.” IEEE Trans. ASLP, vol. 19, no. 3, pp. 516.527, Mar. 2011.」に記載の方法により行うことができる。
時間領域変換部40は、強調音計算部30から出力された時間周波数領域での各音源の残響を含まないマイクロホン像の推定値のベクトル^s(n) tfに、逆短時間フーリエ変換などの時間周波数変換の逆変換を適用して、時間領域での各音源の残響を含まないマイクロホン像の推定値のベクトル〜^s(n) τを計算する。ここで、ベクトル〜^s(n) τは、下記(81)式により定義される。ただし、〜^s(m,n) τは、ベクトル^s(n) τの第m要素^s(m,n) tfの逆短時間フーリエ変換である。
Figure 0006290803
なお、強調音計算部30において、残響除去と音源分離を同時に実現する例を示したが、残響のみを除去するために、時間周波数領域での残響を含まない混合信号の推定値^xtfに、逆短時間フーリエ変換などの時間周波数変換の逆変換を適用して、時間領域での残響を含まない混合信号の推定値のベクトル〜^xτを得る構成としてもよい。ここで、ベクトル〜^xτは、下記(82)式で定義される。ただし、〜^s(m,n) τは、ベクトル^s(n) τの第m要素^s(m,n) tfの逆短時間フーリエ変換である。
Figure 0006290803
(実施形態4に係る目的音強調装置の処理)
図7は、実施形態4に係る目的音強調装置の処理手順の一例を示すフローチャートである。実施形態4に係る目的音強調装置100において、先ず、ステップS31では、周波数領域変換部20は、各マイクロホンで観測された信号をそれぞれ時間周波数領域の信号に変換する。次に、ステップS32では、モデル推定装置10A(あるいは10B又は10C)は、モデル推定を行う。次に、ステップS33では、強調音計算部30は、強調音を計算により推定する。次に、ステップS34では、時間領域変換部40は、強調音計算部30により推定された強調音を周波数領域から時間領域に変換する。
以下、実施形態4を例に取り、開示の実施形態の実施例及びその効果について説明する。図8及び図9は、実施形態4の効果の一例を説明する図である。実施形態4に係る目的音強調装置100(以下「提案法」)と、従来の残響モデルを含まないクラスタリングベースの音源分離手法(例えば、文献4に記載の手法、以下「従来法」)の性能を比較する実験をおこなった。ただし、実施形態4に係る目的音強調装置100のモデル推定装置としては、実施形態2に係るモデル推定装置10Bを用いた。
マイクロホンで観測される残響を含む混合信号は、残響を含まない音声波形に、実験室で計測したインパルス応答(例えば、上述の文献5参照)を畳み込むことにより生成した。図8は、インパルス応答を計測した際のマイクロホンと音源の位置を示す。なお、提案法及び従来法の両方において、パラメータΘの推定に先立って、残響を含む混合信号ベクトルytfに対し、上記(59)式〜(61)式に示す白色化をおこなった。また、音源数Nは既知とした。また、他の実験条件は、下記(表1)に示すとおりとした。なお、図8に示す実験室は、4.45m×3.55m×(高さ)2.50mの空間であった。また、図8に示すSource1及び2とMicrophone1及び2の、実験室の床面に対する高さは、1.2mとした。
Figure 0006290803
提案法及び従来法の性能は、下記(83)式で定義されるSIR(Signal-to-Interference Ratio)により評価した。
Figure 0006290803
ここで、〜^s(1,n,ν) τは、〜^s(1,n)に含まれるν番目の音源成分を表す。Τ:=8kHz×8s=64000は、サンプリング点の総数を表し、Σν≠nは、n以外のνの値に対する総和を表す。
ここで、〜^s(1,n,ν) τの求め方を説明する。観測された残響を含む混合信号ベクトルytfは、ν番目の音源の残響を含むマイクロホン像のベクトルx(ν) tfを用いて、下記(84)式のように分解できる。
Figure 0006290803
従って、n番目の音源の残響を含まないマイクロホン像の推定値のベクトル^s(n) tfは、下記(85)式及び(86)式のように分解できる。
Figure 0006290803
ここで、上記(86)式において、^s(n,ν) tfは、^s(n) tfに含まれるν番目の音源成分を表す。よって、下記(87)式により、^s(n,ν) tfを求め、^s(n,ν) tfを逆短時間フーリエ変換して〜^s(n,ν) τを求め、〜^s(n,ν) τの第1要素として〜^s(1,n,ν) τが求まる。
Figure 0006290803
図9に、各残響時間に対し、音声波形の組み合わせを変えて8回の試行を行った際のSIRの平均値をプロットしたグラフを示す。残響時間が最も小さい条件(残響時間130ms程度)では、提案法と従来法は同等の性能を示した。しかし、図9に示すように、残響時間が大きくなるにつれて、従来法に対する提案法の性能改善量が増加する傾向があった。特に、残響時間が370ms程度の場合に、性能改善量は、試行中、最大の約4dBとなった。
以上から、実施形態1〜4は、独立成分分析に基づく音源分離技術と比較して、音源数が未知の場合でも適用できる等の利点があるクラスタリングに基づく音源分離技術において、線形予測に基づく残響除去とクラスタリングに基づく音源分離を交互に反復する。実施形態1〜4は、線形予測に基づく残響除去により推定された残響を含まない混合信号に対して、クラスタリングに基づく音源分離を適用することで、音源分離の性能を向上させることができる。さらに、実施形態1〜4は、改善された音源分離結果を用いることで、残響除去の性能を改善することができる。よって、実施形態1〜4は、残響除去と上記音源分離の反復により、残響時間がフレーム長に比べて長い場合でも、より高精度な音源分離を実現することができる。
(モデル推定装置及び目的音強調装置の装置構成について)
図1、図3、図4に示すモデル推定装置10A〜10C及び図6に示す目的音強調装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、モデル推定装置10A〜10C及び目的音強調装置100の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。
また、モデル推定装置10A〜10C及び目的音強調装置100において行われる各処理は、全部又は任意の一部が、CPU(Central Processing Unit)等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、モデル推定装置10A〜10C及び目的音強調装置100において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
(プログラムについて)
図10は、プログラムが実行されることにより、モデル推定装置及び目的音強調装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、モデル推定装置10A〜10C及び目的音強調装置100の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、モデル推定装置10A〜10C及び目的音強調装置100における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10A、10B、10C モデル推定装置
11A、11B 残響除去処理部
11A−1、11B−1 初期化部
11A−2、11B−2 共分散行列更新部
11A−3、11B−3 回帰行列更新部
11A−4、11B−4 残響除去部
12A、12B クラスタリング部
12A−1、12B−1 事後確率更新部
12A−2、12B−2 混合重み更新部
12B−3 パーミュテーション解決部
13 音源数推定部
20 周波数領域変換部
30 強調音計算部
40 時間領域変換部
100 目的音強調装置
1000 コンピュータ
1010 メモリ
1020 CPU

Claims (8)

  1. 複数の音源が出力する音による残響の特性を示す回帰行列を含む、該残響を含む混合信号のモデルのパラメータを保存する記憶部と、
    前記音を複数のマイクロホンで観測した観測信号と、前記記憶部に保存される回帰行列とを用いた線形予測により、前記残響を含まない混合信号を推定する信号推定部と、
    前記信号推定部により推定された混合信号から、各時間周波数点が属する前記音源に対応するクラスタ毎の事後確率を計算する事後確率計算部と、
    前記観測信号と、前記信号推定部により推定された混合信号と、前記事後確率計算部により計算された事後確率と、前記記憶部に保存されるパラメータとから、前記パラメータを推定し、推定したパラメータで前記記憶部に保存されるパラメータを更新するパラメータ推定部と
    を備え、
    前記信号推定部、前記事後確率計算部及び前記パラメータ推定部は、所定条件が満たされるまで各処理を繰り返す
    ことを特徴とするモデル推定装置。
  2. 前記残響を含む混合信号のモデルは、前記残響を含む混合信号の分布を表す確率モデルであり、
    前記確率モデルは、各前記クラスタに関する前記残響を含む混合信号の分布を表す確率モデルの重み付き和で表される混合モデルであり、
    前記パラメータ推定部は、前記確率モデルを評価する所定の評価関数により前記パラメータを推定する
    ことを特徴とする請求項1に記載のモデル推定装置。
  3. 前記所定の評価関数は、前記パラメータ推定部により推定されたパラメータに対する前記残響を含む混合信号の尤度、又は、前記パラメータ推定部により推定されたパラメータの事後確率である
    ことを特徴とする請求項2に記載のモデル推定装置。
  4. 前記パラメータ推定部により推定されるパラメータは、各時間周波数点において前記残響を含む混合信号に含まれる前記複数の音源の分布を示す混合重み値を含み、
    前記混合重み値は、前記残響を含む混合信号の周波数毎の混合重み値又は前記残響を含む混合信号の時刻毎の混合重み値である
    ことを特徴とする請求項3に記載のモデル推定装置。
  5. 前記パラメータ推定部は、各時間周波数点において前記残響を含む混合信号に含まれる前記複数の音源それぞれと対応する前記事後確率から、該複数の音源のうち該残響を含む混合信号に含まれる音源を推定し、推定した音源に対応するパラメータを前記推定したパラメータとする
    ことを特徴とする請求項4に記載のモデル推定装置。
  6. 請求項1〜5のいずれか1つに記載のモデル推定装置により推定された前記パラメータ及び前記事後確率と、時間周波数領域での各前記音源の残響を含む混合信号とから、時間周波数領域での各前記音源の残響を含まない音響信号の推定値を推定して出力する出力部
    を備えることを特徴とする目的音強調装置。
  7. モデル推定装置が実行するモデル推定方法であって、
    前記モデル推定装置は、複数の音源が出力する音による残響の特性を示す回帰行列を含む、該残響を含む混合信号のモデルのパラメータを保存する記憶部を備え、
    前記音を複数のマイクロホンで観測した観測信号と、前記記憶部に保存される回帰行列とを用いた線形予測により、前記残響を含まない混合信号を推定する信号推定工程と、
    前記信号推定工程により推定された混合信号から、各時間周波数点が属する前記音源に対応するクラスタ毎の事後確率を計算する事後確率計算工程と、
    前記観測信号と、前記信号推定工程により推定された混合信号と、前記事後確率計算工程により計算された事後確率と、前記記憶部に保存されるパラメータとから、前記パラメータを推定し、推定したパラメータで前記記憶部に保存されるパラメータを更新するパラメータ推定工程と
    を含み、
    前記信号推定工程、前記事後確率計算工程及び前記パラメータ推定工程は、所定条件が満たされるまで繰り返される
    ことを特徴とするモデル推定方法。
  8. 請求項1〜5のいずれか1つに記載のモデル推定装置としてコンピュータを機能させるモデル推定プログラム。
JP2015034398A 2015-02-24 2015-02-24 モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム Active JP6290803B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015034398A JP6290803B2 (ja) 2015-02-24 2015-02-24 モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015034398A JP6290803B2 (ja) 2015-02-24 2015-02-24 モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム

Publications (2)

Publication Number Publication Date
JP2016156944A JP2016156944A (ja) 2016-09-01
JP6290803B2 true JP6290803B2 (ja) 2018-03-07

Family

ID=56826018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015034398A Active JP6290803B2 (ja) 2015-02-24 2015-02-24 モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム

Country Status (1)

Country Link
JP (1) JP6290803B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269581B (zh) * 2017-01-04 2021-06-08 中国科学院声学研究所 一种基于频域相干函数的双麦克风时延差估计方法
CN111312276B (zh) * 2020-02-14 2023-01-17 北京声智科技有限公司 一种音频信号处理的方法、装置、设备和介质
CN113257265A (zh) * 2021-05-10 2021-08-13 北京有竹居网络技术有限公司 语音信号去混响方法、装置和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4769238B2 (ja) * 2007-08-24 2011-09-07 日本電信電話株式会社 信号分離装置、信号分離方法、プログラム及び記録媒体
JP4960933B2 (ja) * 2008-08-22 2012-06-27 日本電信電話株式会社 音響信号強調装置とその方法と、プログラムと記録媒体

Also Published As

Publication number Publication date
JP2016156944A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6976804B2 (ja) 音源分離方法および音源分離装置
WO2017141542A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
Giacobello et al. Speech dereverberation based on convex optimization algorithms for group sparse linear prediction
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
JP6193823B2 (ja) 音源数推定装置、音源数推定方法および音源数推定プログラム
JP6808597B2 (ja) 信号分離装置、信号分離方法及びプログラム
JP6732944B2 (ja) 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム
Mirzaei et al. Under-determined reverberant audio source separation using Bayesian non-negative matrix factorization
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
JP6644356B2 (ja) 音源分離システム、方法及びプログラム
JP2018028620A (ja) 音源分離方法、装置およびプログラム
JP2018040880A (ja) 音源分離装置、音源分離方法及び音源分離プログラム
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
WO2023209993A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法、信号処理プログラム及び学習プログラム
JP2023039288A (ja) 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法、音源分離方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180208

R150 Certificate of patent or registration of utility model

Ref document number: 6290803

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150